Скриншот: Игра Super Mario Bros
Американские исследователи использовали видеоигры, чтобы оценить эффективность моделей искусственного интеллекта (ИИ). Об этом издание TechCrunch.
Об изобретении нового бенчмарка, который позволил бы оценивать качество ИИ, рассказали специалисты компании Hao AI Lab, созданной на основе Калифорнийского университета в Сан-Диего (). Они попробовали узнать большее о моделях ИИ с помощью легендарной игры-платформера 1985 года Super Mario Bros. («Супербратья Марио»).
Разработчики создали фреймворк GamingAgent, с которым «заставили» модели воспроизводить и симулировать игровой опыт. Перед этим тестируемые модели получили информацию об игре и правилах с помощью скриншотов. Специалисты заметили, что игра «Марио» заставила каждую модель учиться, принимать решения на скорость и создавать игровую стратегию.
Лучше всего в тестах показала себя Claude 3.7 от Anthropic, немного уступили ей Gemini 1.5 Pro от и GPT-4o от OpenAI. Исследователи пришли к выводу, что даже самая успешная модель «играла» хуже, чем любой начинающий геймер
Сооснователь OpenAI и известный ученый Андрей Карпатый прокомментировал в исследование коллег, заметив, что не знает, как правильно оценивать ИИ в 2025 году. По его словам, пока не существует конкретных метрик эффективности моделей генеративного искусственного интеллекта.
В конце февраля инженеры OpenAI исследование и выяснили, что ИИ-модели пока не смогут заменить даже программиста-новичка. Так, тестируемые модели часто допускали ошибки, так как не могли понять контекст.
Комментарии