Автоматизація розшифровки (транскрибации) аудіо - і відеозаписів

Друзі, нещодавно на сайті були опубліковані статті, присвячені голосовий введення даних у середовищі Windows. В одній зі статей ми розглядали нову функцію англомовного введення даних голосом, яку в Windows 10 привніс осінній накопичувальний апдейт Fall Creators Update. В інший був представлений огляд сторонніх засобів розпізнавання людської мови російською мовою. Ця публікація продовжує цикл статей, присвячених темі голосового введення даних в середовищі Windows, і в ній розглянемо, як автоматизувати процес розшифровки аудіо - і відеозаписів у текст.

Отже, у згаданих статтях сайту ми говорили про можливість набору тексту за допомогою голосового введення. Незважаючи на постійне вдосконалення технологій розпізнавання людської мови, все одно, друзі, поки що у цій справі маємо ще далекий від ідеалу інструментарій. Частково він обумовлений складністю самого російської мови. Мови з більш простою побудовою мовної моделі (з меншою кількістю словоформ) - наприклад, англійська, іспанська, італійська - штучним інтелектом розуміються більш коректно. І, відповідно, розпізнаються з меншою кількістю помилок. Так що який би інструмент голосового введення російською (або іншою слов'янською мовою) використовувався, в його формі результуючої все одно доведеться щось правити – коригувати закінчення або навіть цілі слова, ставити розділові знаки і т. п. І при великих обсягах набору тексту голосом це стає проблемою. Не кожен зможе в єдиному процесі і диктувати свої думки, і тут же попутно вносити в розпізнаний текст правки. Альтернатива в такому випадку – розбиття процесу на два етапи: спочатку вільний виклад думок на диктофон, а потім подальша розшифровка аудіозапису за допомогою тих же інструментів розпізнавання людської мови. Ну і, природно, попутна правка тексту в узагальненої формі.

Розшифровка відео і аудіо з текстовою фіксацією розмов учасників записів називається транскрибацией. Транскрибация – ручний, дуже трудомісткий процес. Транскрибатору необхідно поетапно запам'ятовувати уривки запису, призупиняти відтворення і пропечативать запомненное в текстовому редакторі. Це монотонна робота, яка вимагає максимальної концентрації уваги. Особливо якщо якість відео - або аудиоисходника залишає бажати кращого. Але це якщо працювати з розшифровкою розмов інших людей, записаних з перешкодами, тресками, слабким сигналом і т. п. З транскрибацией власних диктовок, якщо вони будуть прийнятної якості запису, і якщо левову частку роботи по розшифровці покласти на штучний інтелект, справи підуть простіше. З ручної роботи залишиться тільки корекція тексту.

Як зробити якісну аудіозапис? І як її потім транскрибувати в текст за допомогою технологій розпізнавання мовлення?

Зміст

Запис диктування

Щоб оцифрувати свої думки, не вдаючись до активної друку на клавіатурі, потрібно промовити їх у мікрофон або проговорити на відеокамеру. Для цього можна використовувати свій смартфон, а потім перенести файл аудіо - чи відеозапису на комп'ютер. Аудіозапис диктування також можна доручити будь-якого пристрою на базі Windows з вбудованим або підключеним мікрофоном. У числі штатних засобів Windows 7 для цих цілей є утиліта «Звукозапис».

А на борту Windows 10 – штатний універсальне додаток «Запис голосу».

У «Десятці» ще можна записувати і прослуховувати голосові замітки усередині додатку OneNote.

В будь-якій з версій системи можна скористатися сторонніми програмами для запису звуку з мікрофону, наприклад, функціональним аудиоредактором Audacity.

Не має значення, який інструмент запису голосу ви, друзі, виберете. Це навіть може бути не аудіозапис, а відео, записане на веб-камеру або захоплене з екрану монітора. Лише б таке відео зі звуком. Важливо інше - щоб звук на виході був більш-менш чистим, без шумів і з прийнятним рівнем сигналу. Для цього перед аудіо - чи відеозаписом необхідно протестувати мікрофон, зокрема, щоб знайти прийнятну відстань від рота. При необхідності можна посилити чутливість мікрофона: на комп'ютері це робиться або в програмі, за допомогою якої здійснюється аудіозапис або захоплення екрану монітора, або в системних налаштуваннях звуку. В останньому випадку в області завдань Windows натискаємо правою клавішею миші на значку гучності і вибираємо «Записуючі пристрої».

Далі робимо подвійний клік по мікрофону.

У віконці його властивостей переходимо на вкладку «Рівні». Перетягуючи повзунок графи «Посилення мікрофона», додаємо дБ, тиснемо «Ок» і тестуємо звукозапис.

Спочатку підсилюємо на 10 дБ. Якщо сигнал як і раніше слабкий, можна довести його до 20 дБ. Більше додавати не потрібно, при посиленні до 30 дБ зазвичай з'являються шуми.
Записуємо диктовку і зберігаємо її.

Налаштування стереомикшера

Для транскрибации записаного диктування необхідно обдурити інструмент розпізнавання людської мови і підставити йому замість звуку з мікрофону звучання аудіо - або відеозаписи, тобто системний звук, той, що ми чуємо з динаміків нашого комп'ютера. Зробити це можна з допомогою стереомикшера. Як і при настроювання мікрофона, викликаємо контекстне меню на значку гучності на панелі завдань Windows. І вибираємо «Записуючі пристрої».

Далі викликаємо контекстне меню на мікрофоні і відключаємо його.

А стереомикшер, навпаки, включаємо. Тиснемо «Ок» внизу віконця.

Що робити, якщо стереомикшера серед записуючих пристроїв системи немає? Необхідно перевстановити аудіодрайвер. Windows при автоматичній установці драйверів часто надає тільки базові функції звучання. І оновлення або переустановка аудіодрайвери з допомогою системного диспетчера пристроїв зазвичай нічого не дає в цьому плані. Потрібно спочатку видалити аудіодрайвер. А потім відправитися на сайт материнської плати, ноутбука або дискретної аудіокарти, завантажити інсталятор аудіодрайвери і встановити його.

В крайньому випадку можна вдатися до універсальної утиліти High Definition Audio Codecs від Realtek. Йдемо на сайт Realtek:
http://www.realtek.com.tw/downloads
Клікаємо назва утиліти.

Погоджуємося з тим, що ми розуміємо, що будемо завантажувати не аудіодрайвер конкретно для нашого комп'ютера, а універсальну утиліту для всіх пристроїв поспіль. Тиснемо «Next».

Вибираємо 32 - або 64-бітну редакцію утиліти, завантажуємо її.

Встановлюємо у систему, перезавантажуємо комп'ютер.

Транскрибация аудіо

Отже, в системних налаштуваннях звуку мікрофон вимкнено, а стереомикшер включений. Далі запускаємо інструмент розпізнавання мови, наприклад, веб-сервіс Speechpad («Голосовий блокнот») і тиснемо кнопку «почати запис».

Потім в будь-якому плеєрі запускаємо відтворення записаного на попередньому етапі аудіо або відео. Всі – процес пішов. Готовий текст будемо спостерігати в узагальненої формі. Відтворення диктування необхідно періодично зупиняти, щоб коригувати окремі блоки розпізнаного тексту.
У Speechpad, до речі, є альтернатива з більш вдалою реалізацією результуючої форми розпізнаного тексту. Це розширення для google chrome-веб-браузерів «Войснот II».

Воно реалізує в середовищі Windows окреме Chrome-додаток за типом текстового редактора з підтримкою голосового введення. У цьому додатку можна зберігати розпізнаний текст як нотаток, формувати словники для заміни значень, настроїти форматування тексту результуючої форми та ін. Активація розпізнавання голосу (або, як у нашому випадку, системного звучання) у цьому Chrome-додатку здійснюється кнопкою зі значком мікрофона.

Дмитро Янковський

Закінчив магістратуру КПІ за спеціальністю "Інженерія програмного забезпечення."

Захистив кандидатську за темою: "Проектування дидактичної системи інноваційної підготовки фахівців в області програмної інженерії".

Працюю і пишу на теми, пов'язані з програмуванням, влаштуванням комп'ютерів і комп'ютерних систем.

Схожі записи

Огляд акустики ION Tailgater GO — від супер…