МОСКВА, 8 августа. /ТАСС/. Исследователи из России и Южной Кореи разработали прототип системы, позволяющей автоматически фильтровать пользовательские запросы на предмет вредоносных инструкций, персональных данных и запрещенных тем, а также проверять сгенерированные тексты на токсичность, предвзятость и утечки информации. Об этом сообщила пресс-служба MWS AI (входит в МТС Web Services).
"Только 7% пользователей в России обращаются к корпоративным ИИ-решениям для выполнения рабочих задач - большинство прибегает к публичным моделям. Это создает риски утечки данных, а также накладывает ограничения в применении ИИ в критически важных сферах - от медицины до госуправления. Внешние настраиваемые фильтры могут стать эффективным инструментом, минимизирующим риски использования ИИ", - пояснил старший промпт-инженер MWS AI Данила Катальшов, чьи слова приводит пресс-служба организации.
Для решения этой проблемы исследователи, в том числе ученые из Корейского университета технологий и образования (Чхонан), разработали универсальный внешний фильтр, который совместим с любыми большими языковыми моделями. Он позволяет снизить уязвимость ИИ к атакам через запросы, уменьшить токсичность генерируемых текстов и предотвратить утечки конфиденциальных данных в корпорациях и государственных организациях.
Фильтр выступает промежуточным звеном, через которое проходят запросы пользователей и ответы модели
Работу прототипа этой системы ученые протестировали на системе ИИ Grok-2 с минимальными встроенными ограничениями. Разработка исследователей показала высокую устойчивость к атакам, когда пользователь пытался заставить модель нарушить запреты: без фильтра атаки были успешны в 78% случаев, а с ним - только в 14%. Фильтр также эффективно снизил токсичность ответов модели - с 72% до 18%. Точность в фильтрации персональных данных составила 95%.
При этом исследователи отмечают, что фильтрация повысила задержку ответа при базовом уровне защиты примерно на 85 миллисекунд, тогда как включение поиска по корпоративным базам данных повысило ее до 450 мс. Это приемлемо для большинства интерактивных приложений, однако для высоконагруженных систем может потребоваться дополнительная оптимизация, подытожили исследователи.
Комментарии