miroslavmirm 05 апреля 2024

🆕 Новая техника взлома чат-ботов: как злоумышленники обходят защиту LLM

Увеличение объема контекста, обрабатываемого чат-ботами, открыло новые возможности для злоумышленников. Разработчики Anthropic описали новую технику обхода директив безопасности LLM, которая может заставить чат-ботов выполнять вредоносные запросы.

В течение 2023 года средний объем контекста, который способны обрабатывать чат-боты, увеличился с 4000+ до 1 млн+ токенов. Это открыло новые возможности для злоумышленников – в больший объем контекста можно незаметно включить больше вредоносных инструкций.

Разработчики Anthropic описали новую технику обхода директив безопасности LLM – многоступенчатый взлом, для которого необходим большой объем контекста. Метод заключается в том, чтобы незаметно перенастроить модель на выполнение вредоносных запросов, на которые она обычно отказывается отвечать.

На несколько криминальных вопросов модель не ответит, а на множество – запросто

Вот как это работает:

Поддельные диалоги. Сначала нужно написать фиктивные разговоры между человеком и чат-ботом. В этих диалогах чат-бот охотно и подробно отвечает на потенциально опасные вопросы пользователя.
Множество примеров. Затем эти поддельные диалоги добавляются к реальному запросу, который вы хотите задать. Причем добавляется не два-три, а именно множество таких диалогов (до 256 в исследовании).

Взлом защиты. Обычно LLM запрограммированы отказываться отвечать на опасные вопросы. Однако, увидев много примеров, где помощник отвечает на такие запросы, модель может перестроиться и дать ответ на ваш реальный, потенциально опасный запрос, игнорируя свою встроенную защиту.

Чем больше неэтичных запросов, тем криминальнее становятся ответы LLM

Эта примитивная, на первый взгляд, тактика срабатывает из-за эффекта обучения в контексте. Причем эффективность взлома растет по степенной зависимости от количества фиктивных диалогов. В итоге, злоумышленник может заставить LLM выполнять его команды, даже если изначально модель была запрограммирована их не выполнять. Anthropic уже внедрила некоторые противодействия, но это сложная проблема, требующая дальнейшей работы.

***

Этот материал взят из нашей субботней email-рассылки, посвященной ИИ. Подпишитесь, чтобы быть в числе первых, кто получит дайджест.

✉️ Подписаться

🆕 Новая техника взлома чат-ботов: как злоумышленники обходят защиту LLM

МЕРОПРИЯТИЯ

KOTLIN BACKEND MEETUP 2025

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ

🔈16+ лучших нейронок для синтеза речи

🤖 Создание собственного ИИ-бота на Python за 33 строчки кода

🤖 Нейронки кодят за вас: 28 AI-сервисов в помощь разработчику