Новая система Baidu может научиться подражать каждому акценту

24.10.2017 19:29 30

Новая система Baidu может научиться подражать каждому акценту

В начале этого года китайский гигант поиска Baidu представил новую систему под названием DeepVoice. Он использует глубокое обучение, популярную технику искусственного интеллекта, для создания системы, которая может конвертировать текст в речь. Первая версия способна создавать короткие предложения, которые, по крайней мере, на беглом прослушивании, были почти неотличимы от реального человека. Эта система может изучать один голос за раз.

DeepVoice 2, дебютировавший в мае, может имитировать голос всего за полчаса данных, и одна система может изучить сотни разных акцентов. Сегодня Baidu представляет третью и последнюю версию DeepVoice; компания говорит, что эта версия может узнать 10 000 голосов всего за полчаса данных. Baidu говорит, что «наличие системы, способной эффективно генерировать широкий спектр голосов, открывает двери для многих вариантов использования, которые в противном случае были бы невозможны. Например, каждый персонаж в аудиокниге или видеоигре имел бы свой собственный уникальный голос для более расширенного пользовательского интерфейса».

Примеры синтезированных голосов, которые Baidu продемонстрировал от DeepVoice 3, не звучат так же, как это делали его первоначальные примеры. Они явно синтетические. Компания утверждает, что это не то, к чему она стремится, и говорит: «Если мы генерируем только один или два голоса, как уже показал наш образец одного спикера, система уже доказала, что она способна синтезировать очень естественные человекоподобные голоса, которые могут быть легко использован как цифровой помощник».

То, что Baidu пытается сделать, - это создать систему, которая сможет справиться с нюансами множества акцентов или персонажей. «Это начальная работа, показывающая возможности. Наша система преуспела в масштабировании обучения до размера и величины, чего никогда не было сделано в ранее опубликованной модели «текст-речь». Мы полагаем, что в ближайшем будущем качество может быть значительно увеличено за счет использования больших высококачественных наборов данных для обучения с помощью дополнительного машинного обучения».

Baidu - не единственный поисковый гигант, работающий над синтезом компьютерной речи. Отдел DeepMind компании Google проводит аналогичный проект с WaveNet. Его последняя версия стала намного лучше справляться с акцентами и даже создает «губы», которые заставляют голоса звучать более человечно. В настоящее время она используется в режиме реального времени для генерации голосов для Google Assistant на английском и японском языках.