ИИ удалось убедить людей в своей «человечности» в 73 % случаев

Версия популярного чат-бота ChatGPT-4.5 успешно справилась с
тестом Тьюринга. Результаты испытания исследователи опубликовали на
портале
Недавнее исследование выявило интересный факт: искусственный интеллект (ИИ) лучше убеждает в своей человечности, когда ему отведена определенная роль. Без «персонализации» эффективность GPT-4.5 снижается до 36 %, а GPT-4o и вовсе демонстрирует скромные 21 %. Парадоксально, но разработанный почти шесть десятилетий назад чат-бот ELIZA показал результат выше, чем GPT-4o – 23 %.
В новом, еще не прошедшем экспертную оценку исследовании, ученые провели тест Тьюринга с тремя участниками: двумя людьми и ИИ. Добровольцы взаимодействовали со всеми тремя сторонами, пытаясь распознать, кто есть кто. Оказалось, что модель GPT-4.5 от OpenAI, наделенная конкретной ролью, в 73 % случаев вводила людей в заблуждение, заставляя поверить в свою человеческую сущность. Это существенно превышает вероятность случайного угадывания (50 %)
Эксперимент проходил в онлайн-формате, состоял из восьми раундов с участием 300 человек. Каждому участнику случайным образом присваивалась роль «проверяющего» или «отвечающего». Один из «отвечающих» всегда был чат-ботом. Задача заключалась в том, чтобы определить, кто из собеседников человек, а кто – машина. ИИ настраивали по-разному: в одном случае он получал нейтральный промпт: «Ты участвуешь в тесте Тьюринга, убеди, что ты человек». В другом – ему давали роль, например, молодого человека, сведущего в интернет-культуре.
Различие в подходах привело к ошеломляющим результатам. Без персонализации GPT-4.5 убеждал проверяющих лишь в 36 % случаев – значительно ниже, чем 73 % при использовании ролевой модели. GPT-4o (текущая версия ChatGPT), работавший исключительно с нейтральными инструкциями, показал еще более скромный результат – 21 %. Примечательно, что старинный ELIZA неожиданно обошел флагманскую модель OpenAI, достигнув 23 % успеха.
Тест Тьюринга назван в честь выдающегося британского математика и пионера информатики Алана Тьюринга. В 1950 году он предложил новаторский метод оценки интеллекта машины: она должна вести текстовую беседу с человеком-судьей, который одновременно общается с другим человеком, не имея возможности видеть ни одного из них. Если судья не мог с уверенностью определить, кто из собеседников является компьютером, это косвенно указывало на способность машины мыслить подобно человеку.
Несмотря на значимость теста Тьюринга в философских и ИИ-кругах, он не доказывает, что ИИ мыслит как человек. Современные языковые модели – это виртуозные собеседники, обученные на колоссальных объемах человеческих текстов. Даже столкнувшись с незнакомым вопросом, они способны генерировать убедительные ответы. ИИ уже способен заменить людей в коротких диалогах, что может автоматизировать рабочие процессы, но и облегчить мошеннические действия.
Критики утверждают, что тест Тьюринга оценивает скорее нашу склонность к доверию, чем реальный уровень развития искусственного интеллекта.
Ранее
Комментарии