Определены фундаментальные границы сжатия информации в языковых моделях

Наука

25 Просмотры 0

МОСКВА, 9 июня. /ТАСС/. Исследователи из России и Великобритании обнаружили, что большие языковые модели способны в теории "сжимать" текст длиной в 1 500 слов в один вектор - набор чисел, который языковая модель понимает и может использовать для восстановления исходного содержания. Понимание этого позволит улучшить работу существующих и новых систем ИИ, сообщила пресс-служба Института искусственного интеллекта AIRI.

"Удивительно, что один небольшой вектор способен управлять поведением огромной языковой модели с миллиардами параметров. Мы задаем с помощью него поведение системы на тысячи слов вперед, и она строго ему следует. Это открывает широкие перспективы для создания более эффективных и мощных технологий обработки текстов", - пояснил руководитель научной группы в AIRI Юрий Куратов, чьи слова приводит пресс-служба института.

Как объясняют исследователи, системы искусственного интеллекта на базе больших языковых моделей разбивают поступающий в них текст на токены. Они представляют собой слова или их части, каждому из которых соответствует математический вектор, последовательность из большого количества чисел

Ученых давно интересует, как много слов можно поместить в один вектор и тем самым "сжать" информацию, которой оперирует ИИ в процессе работы.

Российские и британские исследователи разработали уникальный подход, который позволяет оценивать способность ИИ к подобному "сжатию", и проверили при его помощи шесть популярных ИИ с открытым кодом - Pythia, opt, OLMo, Mamba, LLaMA и Sheared-LLaMA. Для их изучения ученые подготовили особый набор данных, состоявший из случайно составленных текстов и любительских рассказов, опубликованных в одной из популярных онлайн-библиотек.

Проведенные исследователями расчеты показали, что все большие языковые модели могли "сжимать" несколько десятков или даже сотен слов в одном векторе, однако при этом их предельные способности в этом отношении сильно отличались. Наиболее хорошо себя в этом отношении проявили системы ИИ из семейства LLaMA, способные в теории "сжимать" текст длиной в 1 500 слов в один вектор, тогда как остальные могли делать это лишь для 80-512 токенов.

При этом ученые также обнаружили, что на практике все системы ИИ использовали лишь 10-30% потенциальной емкости векторов. По словам исследователей, это указывает на возможность дальнейшей оптимизации больших языковых моделей, а также на возможность использования этой избыточности для исправления ошибок в кодировании. Последующие опыты и расчеты помогут понять, как этого можно добиться, подытожили математики. 

Как Вы оцените?

0

ПРОГОЛОСОВАЛИ(0)

ПРОГОЛОСОВАЛИ: 0

Комментарии