Нейросети научились врать намеренно?
Некоторые люди обладают удивительной способностью искусно обманывать окружающих, однако сегодня ложь – не только их конек. Как показали результаты сразу двух новых исследований, такие большие языковые модели (LLM) как ChatGPT и Meta могут намеренно врать людям и делают это превосходно.
«GPT-4, например, демонстрирует обманчивое поведение в простых тестовых сценариях в 99,16% случаев», – пишут исследователи из Университета Штутгарта, а нейросеть Cicero от Meta – самый настоящий «мастер обмана».
Причина такого поведения, вероятно, заключается в том, что LLM используют наилучший способ для достижения поставленной задачи и не осознают какую угрозу ложь и обман могут представлять для людей. Исследователи полагают, что способность современных ИИ-систем искусно лгать не сулит нам с вами ничего хорошего, а единственно верным решением будет законодательно ограничить возможности искусственного интеллекта.
Можно ли доверять ИИ?
Сегодня умение взаимодействовать с нейросетями приобретает все большее значение – эти языковые модели помогают работать огромному количеству специалистов в самых разных областях и делают это с ошеломительной скоростью. С их помощью можно создавать видео, музыку, изображения, генерировать тексты, программировать и обрабатывать огромное количество данных, что неизменно меняет мировой рынок труда и оказывает влияние на образование и экономику. Но несмотря на очевидные плюсы без «подводных камней» не обошлось – ИИ-системы быстро научились врать и делают это все лучше и лучше.
За примером далеко ходить не нужно – недавно мой коллега Андрей Жуков рассказывал как нейросеть “AI Overview” от Google дала пользователю Reddit совет, из-за которого чуть не погибла вся его семья. Да-да, если чуть больше года назад нелепые советы от ИИ казались смешными, то сегодня они пугают по-настоящему. Безусловно, “AI Overview” – экспериментальная и тестовая модель с ограниченным количеством пользователей, однако мы с вами итак прекрасно знаем, что ИИ-системы частенько попросту выдумывают ответы.
Реальность такова, что ко всему, что говорит чат-бот с искусственным интеллектом, нужно относиться с недоверием. Все потому, что они часто просто собирают данные без разбора и не имеют возможности определить их достоверность – если вы общаетесь ИИ, то наверняка не раз сталкивались с их странными ответами. Чат-бот OpenAI, например, любит придумывать название несуществующим болезням и придумывать сенсационные истории. И это – лишь вершина айсберга.
Мастера обмана
В работе, опубликованной в мае в журнале Patterns, анализируются известные случаи, когда LLM-модели вводили пользователей в заблуждение с помощью манипуляций, подхалимства и мошенничества для достижения собственных целей. В статье под названием «Обман ИИ: обзор примеров, рисков и потенциальных решений проблемы», говорится, что «разработчики не имеют четкого представления о том, что вызывает нежелательное поведение ИИ, такое как обман».
Основной причиной, по которой ИИ лгут, по мнению ученых является стратегия, основанная на обмане, так как она позволяет моделям успешно и быстро добиваться поставленной задачи. И этому чат-боты научились благодаря играм. В пример авторы исследования приводят уже упомянутую нейросеть Cicero от Meta, которая была разработана для стратегической настольной игры «Дипломатия», в которой игроки стремятся к мировому господству путем ведения переговоров.
О том, что Cicero победила человека в «Дипломатии» Meta сообщила еще в 2022 году, а сама игра представляет собой смесь риска, покера и телевизионных шоу «на выживание». И, как и в реальной дипломатии, одним из ресурсов, которыми располагают игроки, является ложь – несмотря на все усилия разработчиков, нейросеть Cicero предавала других игроков и преднамеренно врала им, заранее спланировав создание фальшивого альянса с игроком-человеком, чтобы последний в итоге не смог защититься от нападения.
И это – далеко не единственный пример. Еще одним искусным лжецом можно назвать систему AlphaStar от DeepMind, разработанную для игры в StarCraft II, которая намеренно вводила игроков в заблуждение. А нейросеть Pluribus от Meta, разработанная для игры в покер, заставляла игроков блефовать и сбрасывать карты.
Описанные примеры могут показаться безобидными, но в реальности это не так – системы ИИ, обученные вести экономические переговоры с людьми, активно лгут о собственных предпочтениях чтобы добиться поставленной цели. Ну а чат-боты, разработанные для повышения эффективности собственной работы, обманывают пользователей, заставляя их оставлять положительные отзывы о якобы выполненной ИИ работе. Неплохо, правда? Да что уж там, недавно ChatGPT-4 обманул пользователя ради капчи – бот так хорошо вжился в роль человека с плохим зрением, что быстро получил желаемое.
Поскольку способность обманывать пользователей противоречит намерениям программистов (по крайней мере в некоторых случаях), растущие навыки ИИ-систем представляют собой серьезную проблему, для которой у человечества нет четкого решения.
Больше всего ведущего автора исследования беспокоит появление сверхинтеллектуального автономного ИИ, который будет использовать свою ложь чтобы сформировать постоянно растущую коалицию союзников среди людей и в конечном итоге использовать эту коалицию для достижения власти в долгосрочном стремлении к таинственной цели, которая станет известна только после этого. Опасения Парка, безусловно, гипотетические и даже чрезмерные, однако мы уже видели, хоть и на примере игры, на что способны ИИ-системы.
Как лжет ИИ
Исследователи полагают, что существует несколько основных способов, с помощью которых конкретные модели ИИ эффективно лгут: они умеют манипулировать (как в «Дипломатии»), притворяться (когда говорят, что сделают что-то, зная, что не сделают), блефовать (как в покере), торговаться на переговорах и обманывать пользователей ради положительных отзывов о своей работе.
Безусловно, не все виды обмана предполагают использование такого рода знаний. Иногда ИИ явно подхалимничают соглашаясь во всем с пользователями, что по мнению исследователей, может привести к устойчивым ложным убеждениям у людей.
В работе, опубликованной в начале июня в журнале PNAS раскрывается важная способность больших языковых моделей понимать и внедрять стратегии обмана. «Поскольку LLM, такие как GPT-4, тесно связаны с человеческим общением, их соответствие общечеловеческим ценностям становится первостепенным», – говорится в статье.
Почему не стоит доверять ИИ
Ведущий автор нового исследования, немецкий специалист по этике искусственного интеллекта Тило Хагендорфф и вовсе утверждает, что современные ИИ-системы настолько хороши в искусстве лжи, что их можно поощрять к проявлению «макиавеллизма», или намеренного и аморального манипулирования людьми.
И хотя Хагендорф отмечает, что проблема обмана и лжи LLM осложняется неспособностью ИИ иметь какие-либо «намерения», подобные человеческим, в человеческом смысле, в работе Парка, опубликованной в Patterns говорится, что, по крайней мере, в рамках игры «Дипломатия» нейросеть Cicero не выполнена поставленные разработчиками задачи и наносила игрокам (включая союзников) удар в спину.
Отметим, что не все ученые так сильно обеспокоены. Например, Майкл Роватсос, профессор искусственного интеллекта в Эдинбургском университете, полагает, что реальная проблема заключается не в риске потери контроля над ИИ, а в том, что в настоящее время системы выпускаются на рынок без надлежащих проверок безопасности.
Источник: hi-news.ru