Исследователи синтезировали выразительную устную речь

Исследователи синтезировали выразительную устную речь

10.09.2021      15971

Голосовые помощники и автопереводчики становятся все точнее, но синтетическое воспроизведение обычно не передает эмоций и интонаций. Специалисты NVIDIA разработали систему искусственного интеллекта, которая решает эту проблему: ее речь сложно отличить от естественной.

Особенности системы

У каждого человека свой тембр голоса, ритм и интонации, которые меняются в зависимости от ситуации и настроения. Синтезировать все это достаточно сложно – вот почему мы достаточно быстро понимаем, что общаемся с программой, а не с живыми людьми. Искусственная речь информативна, но не вызывает эмоционального отклика.

Исследователи NVIDIA создали модели и инструменты для высококачественного управляемого синтеза голоса. Они передают богатство человеческой речи без звуковых артефактов. Систему представили на конференции Interspeech 2021.

Модель синтеза речи RAD-TTS ранее победила в профильном конкурсе SIGGRAPH Real-Time Live. После обучения на примере речи конкретного человека она может воспроизвести любую текстовую подсказку голосом говорившего.

Рассматривая человеческий голос как музыкальный инструмент, ученые создали для RAD-TTS интерфейс для точного управления высотой, длительностью и энергией синтезированного звукового потока. В результате система научилась передавать речь или даже пение одного человека голосом другого.

Первые эксперименты проводили над сотрудниками компании. Так, видеопродюсер NVIDIA прочитал вслух сценарий видеоролика, а затем использовал модель искусственного интеллекта для преобразования своей речи в голос женщины-рассказчицы. После этого видеопродюсер смог работать с моделью искусственного интеллекта как с актером озвучки: настроить синтезированную речь, чтобы выделить определенные слова, и изменить темп повествования, чтобы лучше передать тон видео.

 

 

Применение

Модели синтеза человеческой речи, разработанные NVIDIA, могут помочь автоматическим линиям обслуживания клиентов для банков и интернет-магазинов, оживить персонажей книг, наделить голосом цифровые аватары в реальном времени. Их можно будет использовать для дубляжа фильмов и видеоигр. Креативная команда NVIDIA уже использует эту технологию для создания выразительного повествования в серии видеороликов о возможностях искусственного интеллекта.

Но возможности модели искусственного интеллекта выходят за рамки озвучивания. Например, преобразование текста в речь можно использовать в играх, чтобы помочь людям с нарушениями голоса, или дать персонажу голос геймера, который им управляет. Система даже может воссоздать выступления известных певцов, передавая и мелодию, и эмоциональное наполнение вокала.

Исследователи подчеркнули: выразительный синтез речи – лишь одно из направлений исследований NVIDIA в области разговорного искусственного интеллекта. Специалисты также занимаются созданием моделей для эффективной обработки естественного языка, автоматического распознавания речи, обнаружения ключевых слов, улучшения звука.

Готовые инструменты для разработчиков

Часть технологий, оптимизированных для запуска на графических процессорах NVIDIA, легла в основу NVIDIA NeMo. Это набор инструментов с открытым исходным кодом, написанный на Python. Он доступен на GitHub и в виде Docker-контейнера. Инструменты можно использовать для экспериментов с синтезом голоса и точной настройки речевых моделей для собственных приложений.

API и модели, предварительно обученные в NeMo, помогают исследователям разрабатывать и адаптировать средства преобразования текста в речь, обработки естественного языка и автоматического распознавания речи в реальном времени. Некоторые модели обучаются с использованием десятков тысяч часов аудиоданных в системах NVIDIA DGX. Ускорить обучение можно с помощью вычислений со смешанной точностью на графических процессорах NVIDIA Tensor Core.

В NVIDIA NeMo также есть модели, обученные на наборе данных Mozilla Common Voice. Это крупнейший в мире открытый голосовой датасет – около 14 тыс. часов речевых данных на 76 языках, собранных с помощью краудсорсинга от энтузиастов по всему миру.


Источник: https://infostart.ru/journal/news/tekhnologii/issledovateli-sintezirovali-vyrazitelnuyu-ustnuyu-rech_1513791/
Автор:
Ксения Шестакова Обозреватель


В избранное Подписаться на ответы Сортировка: Древо развёрнутое
Свернуть все
В этой теме еще нет сообщений.
Оставьте свое сообщение

См. также

«Яндекс» разработал протокол для ускорения работы поисковых систем

Новость Интернет Искусственный интеллект ИТ-новость Яндекс

«Яндекс» совместно с Microsoft создали протокол IndexNow, который позволяет сайтам оповещать поисковые системы об изменениях. Технология поддерживается только в Bing и в поиске «Яндекса».

сегодня в 11:41    837    VKuser24342747    0       

Microsoft представила веб-версию редактора кода VS Code

Новость ИТ-новость Новости компаний Облачные технологии

Microsoft выпустила браузерный вариант приложения VS Code, который позволяет писать код онлайн. Для работы программы не потребуется установка дополнительных расширений.

вчера в 17:06    11165    VKuser24342747    3       

«Ростелеком» запустит облако на процессорах «Эльбрус»

Новость Импортозамещение ИТ-новость Микроэлектроника Новости компаний Облачные технологии

«Ростелеком» создаст облачную платформу на «Эльбрусах» для государственных предприятий и бизнеса. Организации смогут получить частное облако, работающее на полностью российских технологиях.

вчера в 09:46    3132    VKuser24342747    0       

GitLab вышел на биржу с капитализацией 11 млрд долларов США

Новость git ИТ-новость Новости компаний

Компания GitLab, которая разработала одноименную систему управления git-репозиториями, провела первичное размещение акций (IPO) на бирже Nasdaq. Капитализация разработчика достигла 11 млрд долларов США.

22.10.2021    1567    user1015646    1       

В России создали лицензию для свободного ПО

Новость Импортозамещение ИТ-новость Минкомсвязь

Специалисты Минцифры разработали государственную открытую лицензию для программного обеспечения. Официальной презентации документа не проводили – текст документа обнаружили в Git-репозитории.

21.10.2021    1981    user1015646    1       

Депутаты Госдумы предложили Google и YouTube обсудить исполнение российских законов

Новость Google Законодательство ИТ-новость Новости компаний

Депутаты Госдумы пригласили Google и YouTube 25 октября в формате видеоконференции обсудить соблюдение российского законодательства. ИТ-компании приняли предложение.

19.10.2021    2408    VKuser24342747    9       

Разработчик создал язык Ć для написания кода на С, Python и JavaScript одновременно

Новость ИТ-новость Языки программирования

Разработчик из Польши Петр Фусик представил язык программирования Ć. Главная особенность технологии – возможность транслировать написанный код на С, С++, Java, Python и другие языки.

19.10.2021    11129    VKuser24342747    3       

Microsoft добавила подсистему Windows для Linux в Microsoft Store

Новость Windows ИТ-новость Новости компаний

Пользователям Windows 11 стала доступна предварительная версия подсистемы Windows для Linux (WSL). Ее можно установить из Microsoft Store.

18.10.2021    7193    SKravchenko    5       

Python вытеснил C с первого места в рейтинге языков программирования за октябрь

Новость ИТ-новость Рейтинг Языки программирования

Python впервые за 20 лет сумел обогнать Java и C по популярности и занять первую строчку в рейтинге TIOBE. Автор языка программирования Гвидо ван Россум поблагодарил сообщество за поддержку.

18.10.2021    4519    VKuser24342747    4       

Google сказал «SOS»: интернет-гигант поддержит новую программу вознаграждений

Новость Google ИТ-новость

Компания Google объявила о поддержке пилотной программы вознаграждений за поиск уязвимостей в софте с открытым исходным кодом. Ее назвали SOS (Secure Open Source, безопасное открытое ПО).

15.10.2021    2439    user1015646    0       

Samsung по ошибке предложил британцам предустановить российское ПО

Новость Импортозамещение ИТ-новость Мобильные приложения Новости компаний

Samsung в описании обновления для пользователей из Великобритании упомянула о том, что на устройства будут предустановлены российские мобильные приложения. Позже компания признала сообщение техническим сбоем.

14.10.2021    3212    VKuser24342747    2       

PostgreSQL 14: встречаем новую версию популярной СУБД с открытым кодом

Новость PostgreSQL ИТ-новость

Разработчики представили крупное обновление СУБД PostgreSQL. В свежей 14-й версии упростили доступ к информации в JSON-формате и добавили поддержку несмежных диапазонов, улучшили производительность и работу с распределенными данными.

13.10.2021    3485    user1015646    1       

Новые возможности Microsoft Office 2021

Новость ИТ-новость Новости компаний

5 октября Microsoft выпустила новую версию офисного пакета приложений Office 2021. Он предназначен для предприятий и пользователей, которые не хотят покупать Office 365, доступный только по подписке.

12.10.2021    14773    SKravchenko    0       

МГУ представил первый национальный стандарт для ИИ и больших данных

Новость Искусственный интеллект ИТ-новость

Национальный центр цифровой экономики МГУ подготовил к публичному обсуждению первую редакцию отечественного стандарта для работы с большими данными и нейросетями.

12.10.2021    4675    VKuser24342747    1       

Минцифры намерено встроить электронную подпись в SIM-карту

Новость ИТ-новость Минкомсвязь Цифровая подпись

Минцифры совместно с ФСБ, провайдерами и научными организациями разрабатывают технологию, которая позволит использовать электронную подпись при помощи стандартной SIM-карты.

11.10.2021    8528    VKuser24342747    2       

Крупнейшие российские ИТ-разработчики объединятся для развития Open Source

Новость Импортозамещение ИТ-новость Цифровая экономика

В Москве прошел форум Russia Open Source Summit. На нем лидеры российской ИТ-отрасли презентовали стратегию развития Open Source до 2024 года и анонсировали создание некоммерческой организации Russian Open Source Foundation.

11.10.2021    10796    ЕленаЧерепнева    2       

Язык программирования Python получил масштабное обновление

Новость ИТ-новость Языки программирования

В официальном блоге Python представлена последняя стабильная версия языка под номером 3.10.0. Из новинок – улучшенное отображение ошибок, поддержка структурного сопоставления и более строгого итерирования.

08.10.2021    13773    VKuser24342747    8       

Microsoft официально выпустила релизную версию Windows 11

Новость Windows ИТ-новость Новости компаний

Бесплатное обновление Windows 10 до одиннадцатой версии доступно для всех владельцев системы. Главные изменения – повышенная безопасность и улучшение дизайна.

07.10.2021    5368    VKuser24342747    7       

Крупное обновление для Ubuntu стало доступно для бета-тестирования

Новость Ubuntu ИТ-новость

Разработчики представили бета-версию Ubuntu 21.10 под названием Impish Indri. Последний раз операционная система получала крупный апдейт весной 2021 года.

05.10.2021    16523    VKuser24342747    4       

Привет, Java 17: что нового

Новость ИТ-новость Языки программирования

Вышла новая версия Java 17. Три ключевых изменения: использование только строгой семантики чисел с плавающей точкой, единый API (прикладной программный интерфейс) для генераторов псевдослучайных чисел и отдельный API сторонних функций и памяти.

04.10.2021    9877    user1015646    0       

Исследователи нашли способ передавать данные через полое оптоволокно

Новость Интернет ИТ-новость Телекоммуникации

Британская компания BT заявила о создании пустотелого оптического волокна, заполненного воздухом. Технология может применяться для передачи данных, в том числе использующих квантовое шифрование.

04.10.2021    9451    VKuser24342747    2       

С 2023 года Google Chrome переходит на платформу Manifest V3. Старые расширения перестанут работать

Новость Google Безопасность Интернет ИТ-новость

Google объявил о переходе на новую платформу для расширений в Chrome – Manifest v3. Разработчики расширений опасаются, что блокировщики рекламы не смогут работать с новой версией платформы.

04.10.2021    3190    SKravchenko    4       

Yandex.Cloud выйдет на рынок Европы с сервисом виртуальных рабочих столов

Новость ИТ-новость Яндекс

В следующем году «Яндекс» планирует открыть представительство в Германии. Филиал российской компании будет продвигать на европейском рынке набор сервисов Yandex.Cloud.

01.10.2021    13951    VKuser24342747    4       

OpenAI научила нейросеть кратко пересказывать содержимое книг

Новость Искусственный интеллект ИТ-новость

OpenAI представила инструмент, который генерирует краткое содержание книг при помощи машинного обучения. Нейросеть способна ужать произведение из тысяч слов до нескольких сотен.

30.09.2021    15137    VKuser24342747    2       

Microsoft предложила установить финальную версию Windows 11 на неделю раньше

Новость Windows ИТ-новость

Официальная дата релиза Windows 11 – 5 октября 2021 года. Однако Microsoft открыла доступ к обновлению ОС уже сейчас через канал тестирования Release Preview.

27.09.2021    5543    VKuser24342747    6