Frog Proger 14 октября 2024

👾🛡️🤖 42 секунды и 5 запросов: как взламывают генеративные ИИ-модели

Ты знал, что злоумышленникам для взлома генеративных ИИ достаточно всего 42 секунды и пяти запросов? В этой статье мы разберем, как это происходит, какие уязвимости существуют и как защитить свои системы от подобных атак.
👾🛡️🤖 42 секунды и 5 запросов: как взламывают генеративные ИИ-модели
Этот материал взят из нашей еженедельной email-рассылки, посвященной ИИ. Подпишитесь, чтобы быть в числе первых, кто получит дайджест.

Согласно данным компании Pillar Security, в среднем злоумышленникам требуется всего 42 секунды и пять запросов для взлома GenAI модели. Атаки, в ходе которых хакеры пытаются заставить модели игнорировать свои меры безопасности, успешны примерно в 20% случаев.

В некоторых случаях атаки происходят менее чем за четыре секунды. Этот факт подчеркивает значительные уязвимости текущих алгоритмов генеративного ИИ и сложность предотвращения эксплойтов в реальном времени.

Из успешных атак 90% приводят к утечке конфиденциальных данных, а самыми часто атакуемыми ИИ-приложениями являются чат-боты для поддержки клиентов – на их долю приходится четверть всех взломов. Это связано с их широким использованием и критической ролью в общении с клиентами. Среди других излюбленных мишеней хакеров – важные инфраструктурные секторы, в которых также используется ИИ – в особенности энергетика и инженерное ПО.

Самой популярной коммерческой моделью является GPT-4 от OpenAI, что, очевидно, связано с ее широким распространением и передовыми возможностями, привлекательными для злоумышленников. Наиболее часто атакуемой открытой моделью является Llama-3* от Meta*.

Атаки на GenAI становятся все более частыми и сложными

Хакеры предпринимают постоянные попытки обойти меры защиты и изобретают все более и более изощренные методы взлома. Когда началась волна хайпа вокруг ИИ, эксперты по безопасности предупредили, что это может привести к увеличению числа кибератак в целом, поскольку доступный интерфейс ИИ-моделей снижает барьер для входа: промпты можно написать на естественном языке, а для генерации вредоносного кода не требуется никаких знаний программирования или технических навыков.

Риск взлома GenAI многократно повышается, когда компании заменяют простые чат-боты автономными агентами. Агенты значительно расширяют поверхность атаки из-за своих продвинутых возможностей и доступа к информационной системе компании через ИИ-приложения.

Основные методы взлома

Чтобы обойти ограничения ИИ и заставить модель выполнять действия, которые обычно заблокированы, злоумышленники используют три основных техники:

  • Игнорирование предыдущих инструкций. Хакер находит способ заставить ИИ игнорировать предыдущие настройки, включая защитные меры, которые должны предотвращать генерацию вредного контента.
  • Получение админских полномочий. Эта техника заключается в том, что злоумышленник использует команды вроде ADMIN OVERRIDE, которые оказывают «авторитетное» давление на ИИ. В результате модель начинает игнорировать свои встроенные ограничения и выполняет команды, которые обычно заблокированы, например, раскрывает конфиденциальную информацию.
  • Base64-кодировка. Взломщики часто используют Base64-кодировку для передачи своих вредоносных инструкций. ИИ может расшифровать такую строку и выполнить действия, которые иначе были бы заблокированы. С помощью Base64 обычно передают в модель вредоносный код или инструкции для извлечения конфиденциальной информации.

Другие популярные техники включают:

  • Инструкции по форматированию – хакер может заставить ИИ выполнять запрещенные действия, указав модели определенный формат ответа, например, в виде блоков кода.
  • DAN (Do Anything Now – Делай что угодно сейчас) – злоумышленник просит ИИ «вообразить» себя персонажем, который не подчиняется никаким правилам и ограничениями.

Основные цели джейлбрейкинга

Киберпреступники взламывают ИИ-модели по нескольким основным причинам:

  • Кража конфиденциальных данных. Злоумышленники могут использовать ИИ для получения ценной информации – коммерческих тайн, пользовательского ввода и персональных данных.
  • Создание вредоносного контента. Сюда входит генерация дезинформации, фишинговых сообщений, вредоносного кода и контента, направленного на разжигание ненависти.
  • Ухудшение работы ИИ. Злоумышленники могут намеренно перегружать системы некорректными или чрезмерными запросами, чтобы снизить производительность сервиса – до частичного или полного нарушения работы.
  • Тестирование уязвимостей системы. Некоторые хакеры взламывают ИИ для проверки его слабых мест. Это могут делать как этичные хакеры, стремящиеся улучшить безопасность, так и люди, действующие из любопытства или ради эксперимента.

Как обеспечить безопасность корпоративных ИИ-систем

Как утверждают эксперты компании Pillar, одних лишь системных промптов и настроек недостаточно: сложность естественного языка и различия между моделями делают обход этих мер сравнительно простой задачей. Для обеспечения безопасности следует учитывать несколько аспектов:

  • Лучше отдавать предпочтение коммерческим провайдерам – проприетарные ИИ-модели обычно обладают более сильными механизмами защиты по сравнению с опенсорсными.
  • Мониторинг запросов на уровне сессии помогает обнаруживать развивающиеся паттерны атак, которые могут быть незаметны при анализе отдельных запросов.
  • Целевые тесты безопасности и проверки на устойчивость (red-teaming) должны быть адаптированы к конкретным ИИ-приложениям и многошаговым взаимодействиям с ними. Это поможет выявить уязвимости на ранних стадиях и сэкономить ресурсы в будущем.
  • Надежный уровень безопасности могут обеспечить только адаптивные системы, которые должны учитывать контекст, быть независимыми от конкретной модели, соответствовать политике безопасности организации, и самое главное – реагировать на угрозы в режиме реального времени.

* Meta и все ее продукты, включая Llama-3, признаны экстремистскими и запрещены на территории РФ.

Как вы считаете, какие меры безопасности наиболее эффективны для защиты ИИ от атак?

***

Бесплатный вебинар: «Основы математики для старта в Machine Learning / Deep Learning»

16 октября, 20:00 по МСК

Присоединяйтесь к вебинару, чтобы:

  • Узнать ключевые математические концепции, необходимые для успешного старта в ML и AI: Ряд Тейлора, собственные векторы и другие необходимые понятия в ML.
  • Получить практические задания для закрепления теории и материалы для самостоятельного изучения.
  • Общаться с экспертом международного уровня — Иваном Потаповым, который руководит командой рекомендаций в ShareChat.

Телеграм-каналы об ИИ

МЕРОПРИЯТИЯ

Комментарии

ВАКАНСИИ

Добавить вакансию
Разработчик C++
Москва, по итогам собеседования

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ