Китайський штучний інтелект навчився підробляти будь-який голос за декілька секунд

Компанія Baidu, яку іноді називають «китайським Гуглом», анонсувала запуск нейронної мережі, яка краще та швидше за всіх аналогів імітує людський голос. Вона вивчає вихідне звучання голосу та «клонує» його, при необхідності додаючи потрібні відтінки та акценти. Ключова особливість новинки – швидкість аналізу акустичних даних.

У 2017 р. був представлений попередник цієї новинки, проект Baidu Deep Voice на базі ШІ, якому було потрібно 30-хвилинне вивчення вихідного матеріалу для генерації нового голосу. Інструмент Adobe VoCo робить це за 20 хвилин, канадський стартап Lyrebird всього за хвилину обробки. Нова технологія Baidu, у якої поки немає власного імені, укладається в декілька секунд.

Комерційний потенціал у такої інноваційної розробки неймовірно широкий, і насамперед на розум, зрозуміло, приходить шахрайство та фальсифікація даних. Клонування осіб, рухів і генерація відео «з участю» конкретної персони, де-факто, вже доступно, й може бути навіть поставлено на потік. Досить додати голосовий супровід і отримати оптимізовану копію особистості, наприклад, для обходу систем біометричної ідентифікації.

Але хіба не може бути й позитивного прикладу? Цілком – «одушевлений» електронний помічник, який говорить голосом улюбленого персонажа. Цифрова нянька, здатна заспокоїти дитину або домашнього вихованця голосом старшого члена сім'ї. Можливість звичного спілкування для людини, яка втратила здатність говорити, нехай і тимчасово. Запис аудіокниг або озвучення тексту відомим голосом без необхідності обтяжувати його володаря і т. д.