Реалізація в середовищі Windows підтримки україномовного голосового вводу

Друзі, нещодавно ми розглядали одне з нововведень, привнесених в Windows 10 оновленням Fall Creators Update – штатну можливість голосового введення даних англійською мовою. Підтримку голосового введення українською мовою компанія Microsoft обіцяє в майбутньому, але не уточнює, близько чи далеко це майбутнє проглядається. Можливо, це буде тоді, коли і Кортана зможе говорити, а головне, розуміти українську. Чекати, поки Microsoft навчить Windows 10 розуміти наших не варто. Якщо чогось немає в середовищі самої системи, це практично завжди можна реалізувати за рахунок сторонніх програмних засобів. Власне, про них ми і будемо говорити в цій статті. Нижче розглянемо різні способи, як можна з допомогою вбудованого в ноутбук або підключеного до ПК мікрофона вводити пошукові запити голосом і диктувати текст документів.

Зміст

1. «Ок, Аліса» і голосовий пошук Google для пошукових запитів

Можливість голосового введення пошукових запитів давним-давно присутня в пошуковій системі Google.

Незрозуміло, чому компанія Google до сих пір не інтегрувала цю технологію в інтерфейс YouTube. Але в будь-якому випадку відеоролики можна шукати в самому пошуковику, промовляючи ключові запити. Просто потім потрібно буде в результатах видачі перемикатися на вкладку «Відео». Левова частка пошукових видач з відомих причин все одно буде з YouTube.

Встиг уже познайомитися з Алісою – гучним голосовим помічником від Яндекса – і зовсім не потрібно вирушати на сайт пошуковика у вікні браузера. Після установки програми пошукове поле Яндекса з можливістю голосового введення запитів з'явиться прямо на панелі завдань Windows. А на рідкісні нескладні питання Аліса зможе відповісти і без пошукача, не виходячи за межі свого діалогового вікна.

2. Веб-сервіс Web Speech API від Google

У технології Web Speech API, за допомогою якої в пошуковику Google реалізований голосове введення запитів, є свій веб-інтерфейс за адресою:
https://www.google.com/intl/ja/chrome/demos/speech.html

Функціонал сервісу мінімалістичний: у ньому присутня кнопка включення мікрофона і результуюче поле, де потім буде відображатися розпізнаний текст.

Але в цьому виводі поле не можна вносити правки. За підсумком отримаємо результати розпізнавання. І зможемо змінити їх тільки в якомусь текстовому редакторі або формі введення даних. Кнопка нижче результуючого поля «Copy and Paste» завершує поточну сесію введення і на весь розпізнаний текст автоматично ставить блок виділення. Так зроблено для зручності копіювання в буфер.

Для розпізнаного тексту доступна ще одна можливість, реалізована кнопкою створення електронного листа. Вона запускає поштовий клієнт, встановлений в середовищі Windows такою за замовчуванням, створює новий лист і переносить в нього розпізнаний текст.

Примітно, що Web Speech API може розпізнавати деякі знаки пунктуації, як мінімум крапку і кому. Так що під час диктовок в місцях вставки крапок і ком їх можна просто проговорювати.

Відсутність можливості редагування тексту всередині результуючого поля робить використання інтерфейсу Web Speech API не зовсім зручним для великих обсягів набору тексту. Для тривалих диктовок краще використовувати веб-інтерфейс сервісу «Google Документи», в який технологія Web Speech API вбудована. В «Google Документах» можна і вводити текст голосом, і тут же правити його, і ще попутно форматувати документ.

3. «Голосовий блокнот» Speechpad.Ru

На базі технології Web Speech API працює ще сайт - найпопулярніший і найбільш функціональний сервіс голосового введення даних «Голосовий блокнот». У числі основних його функцій:

Підтримка декількох мов, включаючи українську;
Результуюче поле розпізнавання голосу з можливістю редагування тексту, його перекладу на інші мови, вивантаження результатів в TXT-файл;
Висновок розпізнаних фраз в буфер обміну;
Транскрібация;
Інтеграція у веб-форми Chromium-браузерів;
Інтеграція в середовище Windows і Linux.

Плюс до цього всього, в «Голосовому блокноті» опція введення голоси включається і відключається тільки після натискання відповідної кнопки. Ця опція не деактивується сама по собі, як тільки ми на час задумаймось в пошуках точного формулювання думки, як це відбувається в інших сервісах на базі Web Speech API.

Щоб почати використовувати можливості Голосового блокнота», необхідно авторизуватися на сайті сервісу. Для цього потрібно або пройти реєстрацію, або задіяти наявний обліковий запис Яндекса.

Далі активуємо прослуховування мікрофона кнопкою «Активувати запис».

І відстежуємо в остаточному поле розпізнаний текст.

4. Інтеграція Speechpad у веб-форми браузера

У «Голосового блокнота» є розширення для Chrome і браузерів, що підтримують роботу з контентом з його магазину.

Після впровадження цього розширення в контекстному меню веб-форм введення тексту з'явиться пункт «Speechpad». Тиснемо кнопку і говоримо в мікрофон. Таким чином можемо, наприклад, надиктовувати замітки в Google Keep.

Або спілкуватися з людьми в соцмережах.

Єдине «але» - розширення «Голосового блокнота» працює не у всіх веб-формах сайтів.

5. Інтеграція Speechpad в середу Windows

Можливості веб-сервісу «Голосовий блокнот» можна інтегрувати в середовище Windows. І здійснювати набір тексту голосом в будь-якій програмі операційної системи – штатному блокноті, Microsoft Word, інших текстових редакторах. Розпізнана мова без посередництва веб-сервісів або буфера обміну буде вставлятися прямо в редаговані документи. Однак така функція Speechpad не безкоштовна. Кожен зареєстрований користувач може перш протестувати інтегрований у середовище своєї операційної системи функціонал сервісу. Творці Speechpad пропонують дводенний тестовий період безкоштовно. Як безпосередньо здійснюється інтеграція «Голосового блокнота» в операційні системи, зокрема, в Windows, докладно описується на сайті самого Speechpad. Клікаємо знак питання біля опції інтеграції.

І проходимо всі описувані в інструкції кроки:

Встановлюємо вищезазначене розширення сервісу;
Викачуємо пакет файлів інтеграції;
Розпаковуємо архів і запускаємо файл install_host.bat;
На сайті Speechpad.Ru заходимо в кабінет користувача;

Тиснемо кнопку «Включити тестовий період».

Тут же, нижче розташовуються та способи оплати послуг сервісу, якщо під час тестового періоду робота з ним сподобається. Далі повертаємося на головну сторінку Speechpad, активуємо опцію «Інтеграція з OS» і тиснемо кнопку «почати запис».

І так кожен раз, коли потрібно активувати голосове введення. Ось, власне, і все. Тепер можна відкривати Microsoft Word, LibreOffice Writer, інші текстові редактори і починати диктовку. Розпізнаний текст буде з'являтися у вікні будь-якого активного застосування, що підтримує введення даних.

Важливо: щоб використовувати інтегрований в систему Speechpad, не можна закривати вкладку сайту, у вікні браузера. Закриття останньої деактивує голосове введення.

5. Безкоштовні альтернативи інтеграції голосового введення в середовище Windows

Які можуть бути безкоштовні альтернативи інтеграції в середовище Windows російськомовного голосового введення даних?

Варіант №1

Абсолютно безкоштовно на сайті Speechpad можна використовувати опцію виведення розпізнаної мови в буфер обміну. Тиснемо на сайті кнопку «Включити запис» і переміщаємося в будь-який додаток Windows.

Тепер можемо промовляти окремі фрази і вставляти з буфера клавіш Ctrl+V. Як тільки зробимо паузу у промові, почуємо писк Speechpad, що свідчить про те, що фраза розпізнана і скопійована в буфер обміну. Такий спосіб роботи з голосовим уведенням має свої переваги: при вставці окремих фраз можна попутно редагувати текст начисто.

Як і при повноцінної інтеграції «Голосового блокнота» в середовище операційної системи, сайт Speechpad повинен бути відкритий в одній з вкладок браузера.

Варіант №2

Працюють з додатками офісного пакету компанія Microsoft може запропонувати своє напрацювання з впровадження голосового введення – надбудову Dictate, інтегруючу в Word, Outlook і PowerPoint додаткову вкладку меню з інструментом розпізнавання мови. Надбудова може розпізнавати мовлення на 20 мовах, включаючи російську, і дозволяє попутно перекладати текст на 60 мов.
Сайт скачування Dictate:
http://dictate.ms

Після інсталяції надбудови в систему необхідно перезапустити Word, якщо він відкритий, і активувати Dictate у налаштуваннях редактора. В меню «Файл» натискаємо «Параметри», далі - «Надбудови». З переліку надбудов вибираємо WordDictate і натискаємо внизу «Перейти».

Активуємо WordDictate.

Все – можемо тестувати голосове введення. Відкриваємо будь-який документ Word і переміщаємося на вкладку «Диктування». Встановлюємо російську в якості вихідного мови, кліками кнопку зі значком мікрофона і говоримо.

Однак поряд з безкоштовністю і зручністю реалізації голосового вводу таким чином, на жаль, отримаємо і зворотний бік медалі – жахлива якість самої технології розпізнавання мови. Технологія Microsoft за якістю серйозно відстає від Web Speech API компанії Google.

***
Ще один безкоштовний спосіб голосового введення тексту – запис промови в аудіофайл з подальшою автоматичною транскрибацией (розшифровкою в текст). Далеко на кожен може відразу викласти свої думки структурованим літературною мовою, та ще й попутно правити помилки розпізнавання, проставляти знаки пунктуації. При запису ж мови на диктофон можна повністю сконцентруватися на суті викладеного матеріалу, а в процесі транскрибации вже всю концентрацію уваги направити на красномовство і грамотність подачі цього матеріалу. Але, друзі, автоматизація транскрибации аудіозаписів – це тема вже іншої, окремої статті.