05 апреля 2024

🆕 Новая техника взлома чат-ботов: как злоумышленники обходят защиту LLM

Miroslav Kungurov

Пишу об IT и на Python. kungurov.net

Увеличение объема контекста, обрабатываемого чат-ботами, открыло новые возможности для злоумышленников. Разработчики Anthropic описали новую технику обхода директив безопасности LLM, которая может заставить чат-ботов выполнять вредоносные запросы.

В течение 2023 года средний объем контекста, который способны обрабатывать чат-боты, увеличился с 4000+ до 1 млн+ токенов. Это открыло новые возможности для злоумышленников – в больший объем контекста можно незаметно включить больше вредоносных инструкций.

Разработчики Anthropic описали новую технику обхода директив безопасности LLM – многоступенчатый взлом, для которого необходим большой объем контекста. Метод заключается в том, чтобы незаметно перенастроить модель на выполнение вредоносных запросов, на которые она обычно отказывается отвечать.

На несколько криминальных вопросов модель не ответит, а на множество – запросто

Вот как это работает:

Поддельные диалоги. Сначала нужно написать фиктивные разговоры между человеком и чат-ботом. В этих диалогах чат-бот охотно и подробно отвечает на потенциально опасные вопросы пользователя.
Множество примеров. Затем эти поддельные диалоги добавляются к реальному запросу, который вы хотите задать. Причем добавляется не два-три, а именно множество таких диалогов (до 256 в исследовании).

Взлом защиты. Обычно LLM запрограммированы отказываться отвечать на опасные вопросы. Однако, увидев много примеров, где помощник отвечает на такие запросы, модель может перестроиться и дать ответ на ваш реальный, потенциально опасный запрос, игнорируя свою встроенную защиту.

Чем больше неэтичных запросов, тем криминальнее становятся ответы LLM

Эта примитивная, на первый взгляд, тактика срабатывает из-за эффекта обучения в контексте. Причем эффективность взлома растет по степенной зависимости от количества фиктивных диалогов. В итоге, злоумышленник может заставить LLM выполнять его команды, даже если изначально модель была запрограммирована их не выполнять. Anthropic уже внедрила некоторые противодействия, но это сложная проблема, требующая дальнейшей работы.

***

Этот материал взят из нашей субботней email-рассылки, посвященной ИИ. Подпишитесь, чтобы быть в числе первых, кто получит дайджест.

✉️ Подписаться

🤖 Нейронки кодят за вас: 28 AI-сервисов в помощь разработчику

Расскажем о самых полезных новинках, которые помогут написать, отладить и протестировать код, а также ускорят процесс изучения нового стека и подготовку к собеседованию.

🆕 Новая техника взлома чат-ботов: как злоумышленники обходят защиту LLM

Miroslav Kungurov

МЕРОПРИЯТИЯ

KOTLIN BACKEND MEETUP 2025

Комментарии

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ

🔈16+ лучших нейронок для синтеза речи

🤖 Создание собственного ИИ-бота на Python за 33 строчки кода

🤖 Нейронки кодят за вас: 28 AI-сервисов в помощь разработчику

KOTLIN BACKEND MEETUP 2025

🔈16+ лучших нейронок для синтеза речи

🤖 Создание собственного ИИ-бота на Python за 33 строчки кода

🤖 Нейронки кодят за вас: 28 AI-сервисов в помощь разработчику

Подтверждение

Авторизация

Письмо отправлено

Во время авторизации произошла ошибка

Что не так с этим материалом?

Что не так с этим комментарием?

Что не так с этим тестом?

Что не так с этой вакансией?

Что не так с этим мероприятием?

Какой баг вы нашли?

Заполните, пожалуйста, форму, чтобы мы могли с Вами связаться