AI

Исследователи предлагают лучший способ сообщать об опасных сбоях ИИ


В конце 2023 года команда внешних исследователей обнаружила тревожный изъян в широко используемой модели искусственного интеллекта GPT-3.5 от OpenAI.

Когда модель просили повторить определенные слова тысячу раз, она начинала повторять их снова и снова, а затем внезапно выплевывала бессвязный текст и кусочки личной информации, извлеченные из обучающих данных, включая части имен, номера телефонов и адреса электронной почты. Команда, обнаружившая проблему, сотрудничала с OpenAI, чтобы ошибка была исправлена до того, как она станет достоянием общественности. Это лишь одна из множества проблем, обнаруженных в крупных моделях ИИ за последние годы.

В опубликованном сегодня предложении более 30 ведущих исследователей ИИ, включая некоторых из тех, кто обнаружил дефект GPT-3.5, говорится, что многие другие уязвимости, затрагивающие популярные модели, сообщаются проблематичным образом. Они предлагают новую систему, поддерживаемую ИИ-компаниями, которая позволила бы злоумышленникам исследовать их модели и публично раскрывать недостатки.

«Сейчас это своего рода Дикий Запад», — говорит Шейн Лонгпре, кандидат наук в Массачусетском технологическом институте и ведущий автор предложения. Лонгпре утверждает, что некоторые так называемые джейлбрейкеры делятся своими методами взлома защиты ИИ социальной медиаплатформы X, подвергая риску моделей и пользователей. Другие джейлбрейки распространяются среди одной компании, хотя они могут повлиять на многие. А некоторые баги, по его словам, держатся в секрете из-за страха быть забаненным или подвергнуться судебному преследованию за нарушение условий использования. «Очевидно, что существуют сдерживающие факторы и неопределенность», — говорит он.

Безопасность моделей искусственного интеллекта очень важна, учитывая широкое распространение этой технологии и возможность ее проникновения в бесчисленные приложения и сервисы. Самые мощные модели нуждаются в стресс-тестировании, поскольку они могут иметь вредные предубеждения, а определенные входные данные могут заставить их выйти за рамки и вызвать неприятные или опасные реакции. Например, побудить уязвимых пользователей к пагубному поведению или помочь злоумышленнику разработать кибер-, химическое или биологическое оружие. Некоторые эксперты опасаются, что такие модели могут помочь киберпреступникам или террористам и даже обернуться против людей по мере их развития.

Авторы предлагают три основных шага по улучшению процесса раскрытия информации третьими сторонами: принять стандартизированную систему отчетности об ошибках ИИ, чтобы упростить процесс отчетности; заставить крупные ИИ-компании предоставлять инфраструктуру для сторонних исследователей, раскрывающих ошибки; разработать систему, позволяющую обмениваться ошибками между различными производителями.

Этот подход заимствован из мира кибербезопасности, где существуют правовые гарантии и правила, позволяющие сторонним исследователям раскрывать информацию об ошибках.

«Исследователи ИИ не всегда знают, как раскрыть информацию об ошибке, и не могут быть уверены, что их добросовестное раскрытие не подвергнет их юридическому риску», — говорит Илона Коэн, директор по правовым вопросам и политике компании HackerOne, занимающейся организацией баг-баунти, и соавтор отчета.

Сегодня крупные компании, занимающиеся разработкой ИИ, проводят обширное тестирование моделей ИИ на безопасность перед их запуском. Некоторые из них также нанимают сторонние компании для дальнейшего тестирования. «Достаточно ли людей в этих компаниях, чтобы решить все проблемы систем ИИ общего назначения, используемых сотнями миллионов людей в приложениях, о которых мы и не мечтали?» — спрашивает Лонгпре. Некоторые компании, занимающиеся разработкой ИИ, начали устраивать аукционы по поиску ошибок в ИИ. Однако, по словам Лонгпре, независимые исследователи рискуют нарушить условия использования, если начнут тестировать мощные модели ИИ.



Source link

Related posts

Что делать со старой булавкой Ai Humanitarian

admin

Роботы на базе искусственного интеллекта адаптируются быстрее благодаря системе управления человеком от Массачусетского технологического института и NVIDIA

admin

ИИ-помощник по кодированию отказался писать код и предложил пользователю научиться делать это самому.

admin

Leave a Comment

Этот сайт использует файлы cookie для улучшения вашего опыта. Мы будем считать, что вы согласны с этим, но вы можете отказаться, если хотите. Принять Подробнее