Технологии искусственного интеллекта постепенно учатся вводить людей в заблуждение — первой системой, которой это удалось, стал сервис Cicero, принадлежащий компании Meta (запрещенная в РФ организация). Эксперты Массачусетского технологического института уверены, что ИИ — мастер обмана.
Дипломат или манипулятор?
Искусственного «цицерона» ранее объявили первым ИИ, который способен на уровне человека участвовать в стратегической игре «Дипломатия». Тезка философа финишировала в десятке лучших. Когда специалисты по нейросетям начали выяснять, как Cicero это удалось, выяснилось, что продвижение в топ-10 было бы невозможно, если бы ИИ в какой-то момент не начал врать и изворачиваться, вводя других игроков в заблуждение.
Так, игравший за Францию Cicero договорился с Англией о создании демилитаризованной зоны, отмечается в
Если такие коммуникативные приемы выйдут за пределы игрового поля, ИИ может представлять угрозу, рассуждают ученые.
«Запретить искусственному интеллекту обманывать невозможно, но мы рекомендуем относить системы искусственного интеллекта, вводящие человека в заблуждение, к системам высокого риска», — подчеркивается в статье.
«Наша работа над Cicero была чисто исследовательским проектом, и модели, созданные нашими учеными, обучены исключительно игре в дипломатию», — прокомментировали ситуацию разработчики.
А что другие нейросети?
Ранее люди ловили на лжи и другие системы — по крайней мере, если речь идет об играх. AlphaStar, искусственный интеллект, созданный компанией DeepMind, принадлежащей Google, тоже успешно использовал тактику обмана в стратегической игре Starcraft II. Технология притворялась, будто перемещает свои войска в одном направлении, тайно планируя альтернативную атаку. А Pluribus умеет обманывать людей во время игры в покер.
Кроме того, системы искусственного интеллекта, которых обучили вести во время игры переговоры, касающиеся получения прибыли, научились искажать свои истинные намерения. Таким образом ИИ пытается повысить свою производительность — добиться победы быстрее.
Эксперты также обнаружили, что OpenAIS GPT-4 и другие большие языковые модели (LLM) могут не только «вести пугающие беседы», из которых не совсем понятно, разговариваешь ты с роботом или человеком, но и учатся изощренно лгать. Так, по словам авторов исследования, GPT-4 обманом заставил сотрудника TaskRabbit выполнить тест на капчу для its, притворившись, что у него проблемы со зрением.
Кроме того, большие языковые модели отличились талантом к лести — нейросети сообщали пользователям то, что они хотели услышать, а не правду.
А пока разработчики дискутируют об опасных способностях ИИ, мы вспомним любопытное видео, где нейросеть показала всю историю Вселенной за три минуты.