МОСКВА, 15 августа. /ТАСС/. Российские ученые разработали универсальный открытый набор из пар изображений и текстовых описаний, позволяющий значительным образом улучшить генерацию изображений системами ИИ на базе запросов пользователей. Его применение позволяет до 20% улучшить качество, эстетику и сложность визуального творчества ИИ, сообщила ТАСС пресс-служба "Яндекса".
"Большинство компаний, таких как OpenAI, Google или Stability AI, используют для обучения ИИ закрытые наборы данных, которых нет в открытом доступе, из-за чего нельзя воспроизвести аналогичный результат. Либо же используются узкоспециализированные данные, ограниченные определенной стилистикой, но не подходящие для генерации других визуальных направлений. Мы создали универсальный открытый датасет, который можно использовать и для исследований, и для дообучения любых генеративных моделей", - пояснил исследователь лаборатории Yandex Research Сергей Кастрюлин, чьи слова приводит пресс-служба "Яндекса".
Как отметил исследователь, за последние годы специалисты в области разработке ИИ создали десятки алгоритмов, способных генерировать изображения по произвольным запросам пользователей. Для их разработки обычно используются гигантские базы изображений, включающие в себя миллионы фотографий, рисунков, произведений искусства и других форм визуального творчества, собранного по всему интернету.
Во многих случаях ученым-исследователям или разработчикам коммерческих форм ИИ требуется тонким образом настроить или же дообучить подобные модели для их оптимальной работы при решении узкого набора задач
Для решения этой проблемы Кастрюлин и другие исследователи разработали методологию, которая позволяет быстро и очень эффективно создавать наборы текстовых описаний и подходящих под них изображений, позволяющих повысить качество работы широкого перечня нейросетей для генерации визуального контента. Данный подход, основанный на базе диффузной генеративной системы ИИ, позволяет полностью автоматизировать процесс дообучения и на порядки уменьшить размеры обучающей выборки.
Используя эту методику, исследователи создали универсальный набор данных из всего 3,35 тыс. пар изображений и текстовых описаний, и использовали их для дообучения пяти популярных вариаций ИИ Stable Diffusion, а также генеративной модели YandexART. Последующие тесты показали, что эстетика и сложность изображений увеличились на 12-20% при точном сохранении текстового описания запроса, что подтвердило высокую эффективность методики по подготовке наборов данных, разработанной российскими специалистами.
Комментарии