05 апреля 2024

🆕 Новая техника взлома чат-ботов: как злоумышленники обходят защиту LLM

Пишу об IT и на Python. kungurov.net
Увеличение объема контекста, обрабатываемого чат-ботами, открыло новые возможности для злоумышленников. Разработчики Anthropic описали новую технику обхода директив безопасности LLM, которая может заставить чат-ботов выполнять вредоносные запросы.
🆕 Новая техника взлома чат-ботов: как злоумышленники обходят защиту LLM

В течение 2023 года средний объем контекста, который способны обрабатывать чат-боты, увеличился с 4000+ до 1 млн+ токенов. Это открыло новые возможности для злоумышленников – в больший объем контекста можно незаметно включить больше вредоносных инструкций.

Разработчики Anthropic описали новую технику обхода директив безопасности LLM – многоступенчатый взлом, для которого необходим большой объем контекста. Метод заключается в том, чтобы незаметно перенастроить модель на выполнение вредоносных запросов, на которые она обычно отказывается отвечать.

На несколько криминальных вопросов модель не ответит, а на множество – запросто
На несколько криминальных вопросов модель не ответит, а на множество – запросто

Вот как это работает:

  • Поддельные диалоги. Сначала нужно написать фиктивные разговоры между человеком и чат-ботом. В этих диалогах чат-бот охотно и подробно отвечает на потенциально опасные вопросы пользователя.
  • Множество примеров. Затем эти поддельные диалоги добавляются к реальному запросу, который вы хотите задать. Причем добавляется не два-три, а именно множество таких диалогов (до 256 в исследовании).

Взлом защиты. Обычно LLM запрограммированы отказываться отвечать на опасные вопросы. Однако, увидев много примеров, где помощник отвечает на такие запросы, модель может перестроиться и дать ответ на ваш реальный, потенциально опасный запрос, игнорируя свою встроенную защиту.

Чем больше неэтичных запросов, тем криминальнее становятся ответы LLM
Чем больше неэтичных запросов, тем криминальнее становятся ответы LLM

Эта примитивная, на первый взгляд, тактика срабатывает из-за эффекта обучения в контексте. Причем эффективность взлома растет по степенной зависимости от количества фиктивных диалогов. В итоге, злоумышленник может заставить LLM выполнять его команды, даже если изначально модель была запрограммирована их не выполнять. Anthropic уже внедрила некоторые противодействия, но это сложная проблема, требующая дальнейшей работы.

***
Этот материал взят из нашей субботней email-рассылки, посвященной ИИ. Подпишитесь, чтобы быть в числе первых, кто получит дайджест.

МЕРОПРИЯТИЯ

Комментарии

ВАКАНСИИ

Добавить вакансию
Разработчик C++
Москва, по итогам собеседования

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ