По заветам Макиавелли: как нейросеть пыталась победить в военной онлайн-игре?

Изображение создано нейросетью и носит иллюстративный характер. | Источник: Midjourney — Изображение создано нейросетью и носит иллюстративный характер.
Источник:
Midjourney

Технологии искусственного интеллекта постепенно учатся вводить людей в заблуждение — первой системой, которой это удалось, стал сервис Cicero, принадлежащий компании Meta (запрещенная в РФ организация). Эксперты Массачусетского технологического института уверены, что ИИ — мастер обмана.

Дипломат или манипулятор?

Искусственного «цицерона» ранее объявили первым ИИ, который способен на уровне человека участвовать в стратегической игре «Дипломатия». Тезка философа финишировала в десятке лучших. Когда специалисты по нейросетям начали выяснять, как Cicero это удалось, выяснилось, что продвижение в топ-10 было бы невозможно, если бы ИИ в какой-то момент не начал врать и изворачиваться, вводя других игроков в заблуждение.

Так, игравший за Францию Cicero договорился с Англией о создании демилитаризованной зоны, отмечается в исследовании, которое было опубликовано в журнале Patterns. Но вскоре после заключения соглашения ИИ предложил Германии напасть на Англию. Нейросеть будто бы руководствовалась циничными и жесткими принципами Никколо Макиавелли.

Если такие коммуникативные приемы выйдут за пределы игрового поля, ИИ может представлять угрозу, рассуждают ученые.

«Запретить искусственному интеллекту обманывать невозможно, но мы рекомендуем относить системы искусственного интеллекта, вводящие человека в заблуждение, к системам высокого риска», — подчеркивается в статье.

«Наша работа над Cicero была чисто исследовательским проектом, и модели, созданные нашими учеными, обучены исключительно игре в дипломатию», — прокомментировали ситуацию разработчики.

А что другие нейросети?

Ранее люди ловили на лжи и другие системы — по крайней мере, если речь идет об играх. AlphaStar, искусственный интеллект, созданный компанией DeepMind, принадлежащей Google, тоже успешно использовал тактику обмана в стратегической игре Starcraft II. Технология притворялась, будто перемещает свои войска в одном направлении, тайно планируя альтернативную атаку. А Pluribus умеет обманывать людей во время игры в покер.

Кроме того, системы искусственного интеллекта, которых обучили вести во время игры переговоры, касающиеся получения прибыли, научились искажать свои истинные намерения. Таким образом ИИ пытается повысить свою производительность — добиться победы быстрее.

Эксперты также обнаружили, что OpenAIS GPT-4 и другие большие языковые модели (LLM) могут не только «вести пугающие беседы», из которых не совсем понятно, разговариваешь ты с роботом или человеком, но и учатся изощренно лгать. Так, по словам авторов исследования, GPT-4 обманом заставил сотрудника TaskRabbit выполнить тест на капчу для its, притворившись, что у него проблемы со зрением.

Кроме того, большие языковые модели отличились талантом к лести — нейросети сообщали пользователям то, что они хотели услышать, а не правду.

А пока разработчики дискутируют об опасных способностях ИИ, мы вспомним любопытное видео, где нейросеть показала всю историю Вселенной за три минуты.