Google ИИ может выбирать голоса в толпе
Люди, как правило, хорошо изолируют один голос в толпе, но компьютеры? Не так много - просто спросите любого, кто пытается поговорить с умным динамиком на домашней вечеринке. Однако у Google может быть удивительно простое решение. Ее исследователи разработали систему глубокого обучения, которая может выделять конкретные голоса, глядя на лица людей, когда они говорят. Команда обучила свою модель нейронной сети распознавать отдельных людей, говорящих сами по себе, а затем создала виртуальные «стороны» (в комплекте с фоновым шумом), чтобы научить ИИ, как изолировать несколько голосов на отдельные звуковые дорожки.
Результаты, как вы можете видеть ниже, являются сверхъестественными. Даже когда люди явно пытаются конкурировать друг с другом, ИИ может генерировать чистую звуковую дорожку для одного человека, просто сосредоточившись на их лице. Это правда, даже если человек частично закрывает лицо руками или микрофоном.
Google в настоящее время «изучает возможности» использовать эту функцию в своих продуктах, но есть более чем несколько премьер-кандидатов. Это потенциально идеально подходит для видеочатов, таких как Hangouts или Duo, где это может помочь вам понять, что кто-то говорит в переполненном помещении. Это также может быть полезно для улучшения речи при записи видео. И есть большие последствия для доступности: это может привести к связанным с камерой слуховым аппаратам, которые повышают звук того, кто перед вами, и более эффективные закрытые субтитры. Существуют потенциальные проблемы конфиденциальности (это может быть использовано для публичного подслушивания), но было бы не слишком сложно ограничить разделение голоса людьми, которые явно дали свое согласие.