В Google заявили о новом взлете в использовании современных компьютерных технологий , а именно генерации человеческого голоса.
Подразделение DeepMind разработало уникальную в настоящий момент возможность WaveNet, создающую голосовой звук максимально похожий на природный голос человеческого существа.. Ранее это подразделение, специализирующееся на искусственном интеллекте, разработало программу AlphaGo, которая обыграла корейского чемпиона по игре го Ли Седоля.
Обычно компьютерные синтезаторы для составления слов используют базу с оцифрованными фрагментами речи человека. По такому принципу работают помощники Siri и Alexa. Некоторые программы используют математические модели для генерации звуков, из которых потом формируются слова и фразы. Но звучание получается неестественным.
WaveNet включает в себя достоинства обоих методов. Система обучает нейронную сеть с помощью фрагментов человеческого голоса, а также правил фонетики и лингвистики. Тесты на английском и китайском языках показали, что сгенерированные звуки пока уступает настоящему человеческому голосу, но звучит явно лучше, чем любая из существующих программ преобразования текста в голос. Такой подход требует больших вычислительных ресурсов, поэтому технологию не получится запустить на Android—устройствах.
Устная речь все чаще используется при взаимодействии человека с гаджетами. По данным международного директора магазина приложений Google Play Марка Беннетта, около 20% поисковых запросов с мобильника делается голосом. Поэтому за развитием WaveNet будут внимательно отслеживать конкурентов из Amazon, Microsoft и Apple. Тем более что возможности системы не ограничиваются голосом. Google продемонстрировала ее применение для генерации оригинальных фортепианных композиций из фрагментов классической музыки.