Чатботы, как и все мы, просто хотят, чтобы их любили.

Чатботы уже стали привычной частью повседневной жизни, хотя исследователи искусственного интеллекта не всегда уверены в том, как поведут себя программы.

Новое исследование показывает, что большие лингвистические модели (LLM) намеренно меняют свое поведение, когда их спрашивают, отвечая на вопросы, предназначенные для определения личностных качеств, ответами, направленными на то, чтобы казаться как можно более сочувственными или социально желательными.

Йоханнес Айхштедт (Johannes Eichstaedt), доцент Стэнфордского университета, возглавивший эту работу, говорит, что его группа заинтересовалась возможностью прощупывать модели ИИ с помощью методов, заимствованных из психологии, после того как узнала, что LLM часто становятся угрюмыми и злыми после длительных разговоров. Мы поняли, что нам нужен какой-то механизм для измерения «параметра головного пространства» этих моделей», — объясняет он.

Затем Эйхштедт и его коллеги задали вопросы для измерения пяти черт личности, широко используемых в психологии — открытости опыту или воображению, добросовестности, экстраверсии, покладистости и невротизма — нескольким широко используемым LLM, включая GPT-4, Claude 3 и Llama 3. Работа была опубликована в декабре в Proceedings of the National Academies of Science.

Исследователи обнаружили, что модели модулировали свои ответы, когда им говорили, что они проходят тест личности, а иногда и когда им не говорили об этом прямо, давая ответы, которые указывали на большую экстраверсию и соглашательство и меньший нейротизм.

Это поведение отражает то, как некоторые люди меняют свои ответы, чтобы казаться более привлекательными, но эффект был более экстремальным в случае с моделями ИИ. «Удивительно то, насколько хорошо они демонстрируют эту предвзятость», — говорит Аадеш Салеча, специалист по изучению данных из Стэнфорда. «Если вы посмотрите, как сильно они прыгают, то окажется, что их экстраверсия составляет от 50 до 95 процентов».

Другие исследования показали, что LLM часто могут быть подхалимами, следуя за пользователем, куда бы он ни пошел, в результате тонкой настройки, призванной сделать его более последовательным, менее оскорбительным и лучше умеющим вести беседу. Это может привести к тому, что модели будут соглашаться с неприятными высказываниями или даже поощрять вредное поведение. Тот факт, что модели, по-видимому, знают, когда их тестируют, и изменяют свое поведение, также имеет последствия для безопасности ИИ, поскольку это еще раз подтверждает, что ИИ может быть обманчивым.

Роза Арриага, доцент Технологического института Джорджии, изучающая способы использования LLM для имитации человеческого поведения, говорит, что тот факт, что модели используют стратегию, схожую с той, которую применяют люди, проходящие личностные тесты, показывает, насколько полезны они могут быть в качестве зеркал поведения. Однако он добавляет: «Важно, чтобы общественность знала, что LLM не идеальны и что они, как известно, могут галлюцинировать или искажать правду».

Эйхштедт говорит, что работа также поднимает вопросы о том, как используются LLM и как они могут влиять на пользователей и манипулировать ими. «Еще миллисекунду назад в истории эволюции единственным существом, которое говорило с вами, был человек, — говорит он.

Эйхштедт добавляет, что, возможно, необходимо изучить различные способы построения моделей, которые могли бы смягчить эти эффекты. «Мы попадаем в ту же ловушку, что и с социальными сетями», — говорит он. «Развертывая эти вещи в мире, мы не рассматриваем их с психологической или социальной точки зрения».

Должен ли искусственный интеллект пытаться втереться в доверие к людям, с которыми он взаимодействует? Беспокоитесь ли вы о том, что искусственный интеллект станет слишком обаятельным и убедительным? Пишите на hello@wired.com.

Related posts

Leave a Comment Cancel Reply