Редакция сайта ТАСС
НОВОСИБИРСК, 14 ноября. /ТАСС/. Ученые Новосибирского государственного университета (НГУ) разработали улучшенную диалоговую систему искусственного интеллекта (ИИ) для распознавания русской речи. Она прошла дообучение на более чем 500 часах разговорной речи, сообщил ТАСС в кулуарах форума "Золотая долина" научный сотрудник лаборатории прикладных цифровых технологий механико-математического факультета НГУ Иван Бондаренко.
По словам ученого, основная проблема существующих распознавателей речи в том, что они воспроизводят услышанную речь в нижнем регистре, без знаков препинания. Нейросеть Whisper OpenAI, на базе которой создана система, способен приводить речь правильно, однако плохо адаптирован именно к русскому языку.
"Мы сделали интеграцию диалоговой нейронной сети с системой распознавания синтеза речи. Это модель на базе Whisper OpenAI только с глубокой доработкой, она была специальным образом дообучена, чтобы лучше понимать общее семантическое пространство между языками, в частности, более устойчиво распознавать русскую речь", - сказал он.
Система прошла обучение на более чем 500 часах разговорной русской речи, из разных источников, в том числе и синтетических. Авторский подход новосибирских ученых состоит в том, что при нехватке данных для моделирования различных ситуаций, они их синтезировали с помощью ИИ
Разработчик отметил, что основная сфера применения системы - это воспроизведение русской речи, а также ее точный перевод на английский. Система была протестирована на записях выступлений ученых и политиков, в частности, математика Алексея Савватеева, корееведа Андрея Ланькова, бывшего главы ЛДПР Владимира Жириновского. По словам Бондаренко, речь воспроизводится с высокой точностью, наибольшие сложности у нейросети вызвала лекция по математике.
Сейчас время обработки голосового запроса составляет около 40 секунд, однако в ближайшие месяцы ученые НГУ планируют довести это время до 5 секунд. "У разных языков есть общее семантическое пространство, общие принципы. Если мы обучаем модель так, чтобы эти общие принципы находить, то модель гораздо лучше и устойчивее распознает. В этом заключался наш подход", - резюмировал представитель НГУ.
Комментарии