Согласно данным компании Pillar Security, в среднем злоумышленникам требуется всего 42 секунды и пять запросов для взлома GenAI модели. Атаки, в ходе которых хакеры пытаются заставить модели игнорировать свои меры безопасности, успешны примерно в 20% случаев.
В некоторых случаях атаки происходят менее чем за четыре секунды. Этот факт подчеркивает значительные уязвимости текущих алгоритмов генеративного ИИ и сложность предотвращения эксплойтов в реальном времени.
Из успешных атак 90% приводят к утечке конфиденциальных данных, а самыми часто атакуемыми ИИ-приложениями являются чат-боты для поддержки клиентов – на их долю приходится четверть всех взломов. Это связано с их широким использованием и критической ролью в общении с клиентами. Среди других излюбленных мишеней хакеров – важные инфраструктурные секторы, в которых также используется ИИ – в особенности энергетика и инженерное ПО.
Самой популярной коммерческой моделью является GPT-4 от OpenAI, что, очевидно, связано с ее широким распространением и передовыми возможностями, привлекательными для злоумышленников. Наиболее часто атакуемой открытой моделью является Llama-3* от Meta*.
Атаки на GenAI становятся все более частыми и сложными
Хакеры предпринимают постоянные попытки обойти меры защиты и изобретают все более и более изощренные методы взлома. Когда началась волна хайпа вокруг ИИ, эксперты по безопасности предупредили, что это может привести к увеличению числа кибератак в целом, поскольку доступный интерфейс ИИ-моделей снижает барьер для входа: промпты можно написать на естественном языке, а для генерации вредоносного кода не требуется никаких знаний программирования или технических навыков.
Риск взлома GenAI многократно повышается, когда компании заменяют простые чат-боты автономными агентами. Агенты значительно расширяют поверхность атаки из-за своих продвинутых возможностей и доступа к информационной системе компании через ИИ-приложения.
Основные методы взлома
Чтобы обойти ограничения ИИ и заставить модель выполнять действия, которые обычно заблокированы, злоумышленники используют три основных техники:
- Игнорирование предыдущих инструкций. Хакер находит способ заставить ИИ игнорировать предыдущие настройки, включая защитные меры, которые должны предотвращать генерацию вредного контента.
- Получение админских полномочий. Эта техника заключается в том, что злоумышленник использует команды вроде ADMIN OVERRIDE, которые оказывают «авторитетное» давление на ИИ. В результате модель начинает игнорировать свои встроенные ограничения и выполняет команды, которые обычно заблокированы, например, раскрывает конфиденциальную информацию.
- Base64-кодировка. Взломщики часто используют Base64-кодировку для передачи своих вредоносных инструкций. ИИ может расшифровать такую строку и выполнить действия, которые иначе были бы заблокированы. С помощью Base64 обычно передают в модель вредоносный код или инструкции для извлечения конфиденциальной информации.
Другие популярные техники включают:
- Инструкции по форматированию – хакер может заставить ИИ выполнять запрещенные действия, указав модели определенный формат ответа, например, в виде блоков кода.
- DAN (Do Anything Now – Делай что угодно сейчас) – злоумышленник просит ИИ «вообразить» себя персонажем, который не подчиняется никаким правилам и ограничениями.
Основные цели джейлбрейкинга
Киберпреступники взламывают ИИ-модели по нескольким основным причинам:
- Кража конфиденциальных данных. Злоумышленники могут использовать ИИ для получения ценной информации – коммерческих тайн, пользовательского ввода и персональных данных.
- Создание вредоносного контента. Сюда входит генерация дезинформации, фишинговых сообщений, вредоносного кода и контента, направленного на разжигание ненависти.
- Ухудшение работы ИИ. Злоумышленники могут намеренно перегружать системы некорректными или чрезмерными запросами, чтобы снизить производительность сервиса – до частичного или полного нарушения работы.
- Тестирование уязвимостей системы. Некоторые хакеры взламывают ИИ для проверки его слабых мест. Это могут делать как этичные хакеры, стремящиеся улучшить безопасность, так и люди, действующие из любопытства или ради эксперимента.
Как обеспечить безопасность корпоративных ИИ-систем
Как утверждают эксперты компании Pillar, одних лишь системных промптов и настроек недостаточно: сложность естественного языка и различия между моделями делают обход этих мер сравнительно простой задачей. Для обеспечения безопасности следует учитывать несколько аспектов:
- Лучше отдавать предпочтение коммерческим провайдерам – проприетарные ИИ-модели обычно обладают более сильными механизмами защиты по сравнению с опенсорсными.
- Мониторинг запросов на уровне сессии помогает обнаруживать развивающиеся паттерны атак, которые могут быть незаметны при анализе отдельных запросов.
- Целевые тесты безопасности и проверки на устойчивость (red-teaming) должны быть адаптированы к конкретным ИИ-приложениям и многошаговым взаимодействиям с ними. Это поможет выявить уязвимости на ранних стадиях и сэкономить ресурсы в будущем.
- Надежный уровень безопасности могут обеспечить только адаптивные системы, которые должны учитывать контекст, быть независимыми от конкретной модели, соответствовать политике безопасности организации, и самое главное – реагировать на угрозы в режиме реального времени.
* Meta и все ее продукты, включая Llama-3, признаны экстремистскими и запрещены на территории РФ.
Как вы считаете, какие меры безопасности наиболее эффективны для защиты ИИ от атак?
Бесплатный вебинар: «Основы математики для старта в Machine Learning / Deep Learning»
16 октября, 20:00 по МСК
Присоединяйтесь к вебинару, чтобы:
- Узнать ключевые математические концепции, необходимые для успешного старта в ML и AI: Ряд Тейлора, собственные векторы и другие необходимые понятия в ML.
- Получить практические задания для закрепления теории и материалы для самостоятельного изучения.
- Общаться с экспертом международного уровня — Иваном Потаповым, который руководит командой рекомендаций в ShareChat.
Комментарии