В Сибири разработали улучшенную ИИ-систему для распознавания русской речи

Она прошла обучение на более чем 500 часах разговорной русской речи, сообщил научный сотрудник лаборатории прикладных цифровых технологий механико-математического факультета НГУ Иван Бондаренко

Редакция сайта ТАСС

14 ноября, 06:16

НОВОСИБИРСК, 14 ноября. /ТАСС/. Ученые Новосибирского государственного университета (НГУ) разработали улучшенную диалоговую систему искусственного интеллекта (ИИ) для распознавания русской речи. Она прошла дообучение на более чем 500 часах разговорной речи, сообщил ТАСС в кулуарах форума "Золотая долина" научный сотрудник лаборатории прикладных цифровых технологий механико-математического факультета НГУ Иван Бондаренко.

По словам ученого, основная проблема существующих распознавателей речи в том, что они воспроизводят услышанную речь в нижнем регистре, без знаков препинания. Нейросеть Whisper OpenAI, на базе которой создана система, способен приводить речь правильно, однако плохо адаптирован именно к русскому языку.

"Мы сделали интеграцию диалоговой нейронной сети с системой распознавания синтеза речи. Это модель на базе Whisper OpenAI только с глубокой доработкой, она была специальным образом дообучена, чтобы лучше понимать общее семантическое пространство между языками, в частности, более устойчиво распознавать русскую речь", - сказал он.

Система прошла обучение на более чем 500 часах разговорной русской речи, из разных источников, в том числе и синтетических. Авторский подход новосибирских ученых состоит в том, что при нехватке данных для моделирования различных ситуаций, они их синтезировали с помощью ИИ

"Мы это делали другими отдельными моделями. То есть, получается нейросеть обучает другую нейросеть", - пояснил Бондаренко.

Разработчик отметил, что основная сфера применения системы - это воспроизведение русской речи, а также ее точный перевод на английский. Система была протестирована на записях выступлений ученых и политиков, в частности, математика Алексея Савватеева, корееведа Андрея Ланькова, бывшего главы ЛДПР Владимира Жириновского. По словам Бондаренко, речь воспроизводится с высокой точностью, наибольшие сложности у нейросети вызвала лекция по математике.

Сейчас время обработки голосового запроса составляет около 40 секунд, однако в ближайшие месяцы ученые НГУ планируют довести это время до 5 секунд. "У разных языков есть общее семантическое пространство, общие принципы. Если мы обучаем модель так, чтобы эти общие принципы находить, то модель гораздо лучше и устойчивее распознает. В этом заключался наш подход", - резюмировал представитель НГУ.

tass.ru

Как Вы оцените?

0

Оценка 0/5
1
2
3
4
5

Как Вы оцените?

0

ПРОГОЛОСОВАЛИ: 1

Почитать ещё

Комментарии