🤖 Итоги недели в мире ИИ и обзоры новых сервисов: как легко и просто взломать LLM

Привет!

Мы запустили еженедельную email-рассылку, посвященную последним новостям и тенденциям в мире искусственного интеллекта. Наша цель – держать подписчиков в курсе самых интересных открытий, исследований и приложений ИИ.

В еженедельных письмах ты найдешь:

  • Новости о прорывных исследованиях в области машинного обучения и нейросетей.
  • Материалы о применении ИИ в разных сферах – медицине, бизнесе, науке, производстве и образовании.
  • Статьи об этических аспектах развития технологий.
  • Подборки лучших онлайн-курсов и видеолекций по машинному обучению.
  • Обзоры инструментов и библиотек для разработки нейронных сетей.
  • Ссылки на репозитории с открытым исходным кодом ИИ-проектов.
  • Фильмы, сериалы и книги, которые заслуживают внимания AI энтузиастов.

С помощью браузера Opera теперь можно загружать и использовать локальные LLM; Stability AI представила новую версию модели Stable Audio 2.0; OpenAI будет использовать в обучении GPT-5 транскрипты публичных YouTube-видео.

📰 Новости

ReALM AI, новая мини-модель Apple, разработанная специально для ассистента Siri, может видеть и понимать все, что происходит на экране девайса – и, по утверждению разработчиков, превосходит по возможностям GPT-4.

С помощью браузера Opera теперь можно загружать и использовать локальные LLM. Opera уже поддерживает более 150 моделей из 50 различных семейств, в том числе Llama*, Gemma, Orca, Mistral и Vicuna. На данный момент в браузере можно использовать только те модели, которые входят в библиотеку Ollama, но разработчики обещают реализовать поддержку моделей из других источников в ближайшие недели.

Вслед за писателями, иллюстраторами и актерами к протестам против неэтичного использования ИИ подключилось 200+ известных музыкантов, включая Imagine Dragons, Билли Айлиш, Ники Минаж и Кэти Перри. Это во многом связано с тем, что продвинутые ИИ (например, Suno) уже генерируют музыку шокирующе высокого качества – большая часть музыкантов среднего уровня действительно рискует остаться без работы в ближайшее время.

Stability AI представила новую версию модели Stable Audio 2.0 для генерации музыкальных треков длиной до 3 минут. Модель поддерживает настройку параметров, использование аудиореференсов и добавление эффектов с помощью текстовых промптов. Попробовать можно здесь.

AI компании уже соскрапили почти весь интернет и в ближайшее время начнут испытывать недостаток в данных. По слухам, OpenAI будет использовать в обучении GPT-5 транскрипты публичных YouTube-видео. А многие другие компании уже используют синтетические данные, хотя есть опасения, что сгенерированная информация – цифровой аналог близкородственного скрещивания, которое может привести к мутациям и вырождению. Но это не точно: Anthropic тренировала всю линейку Claude 3 на синтетических данных, и модель Opus стала первой LLM, бесспорно превзошедшей GPT-4.

🤖🔊 Все самое полезное про нейросети для звука: транскрибации, синтеза речи и музыки вы найдете на нашем телеграм-канале «Библиотека нейрозвука»

🧪 Исследования

Какие модели лучше всего справляются с суммаризацией

Одна из самых полезных функций LLM – суммаризация объемных документов/книг и ответы на вопросы по их содержимому. Но чем объемнее текст, тем сложнее оценить точность суммаризации и ответов. Авторы этого масштабного исследования подошли к решению проблемы серьезно:

  • Отобрали 26 книг, изданных в 2023/2024, с содержанием которых модели наверняка не знакомы.
  • С помощью LLM подготовили датасет FABLES, содержащий 3158 аннотированных утверждений о содержании этих книг (стоимость подготовки составила $5200).
  • Наняли специалистов, которые полностью прочитали каждую книгу перед тем, как оценивать суммаризацию.

Чемпионом по точности оказался Claude 3 Opus – эта модель значительно превосходит все проприетарные LLM. Из опенсорсных моделей наилучшие результаты показала Mistral – ее способности сопоставимы с GPT-3.5-Turbo.

Claude 3 Opus в очередной раз превзошел GPT-4-Turbo

Анализ аннотаций показал, что:

  • Большинство неверных утверждений LLM относятся к тем событиям и внутренним эмоциям персонажей, для понимания которых требуются косвенные умозаключения.
  • Хотя LLM-аннотации показали хорошие результаты с точки зрения достоверности и связности, было обнаружено, что ни одна из них не имеет значительной корреляции с человеческими аннотациями, особенно в отношении обнаружения ложных утверждений.
  • Выяснилось, что при подготовке краткого содержания книг LLM склонны уделять больше внимания началу и финалу истории, и гораздо меньше – середине сюжета.
  • Даже самые продвинутые ИИ-модели допускают ошибки – 2,03% ответов Claude 3 Opus содержали галлюцинации или противоречили содержанию книги.

🤖✍ Все самое полезное про ИИ-помощников вроде ChatGPT, Gemini, Bing и других вы найдете на нашем телеграм-канале «Библиотека нейротекста»

👾 Новая техника взлома

В течение 2023 года средний объем контекста, который способны обрабатывать чат-боты, увеличился с 4000+ до 1 млн+ токенов. Это открыло новые возможности для злоумышленников – в больший объем контекста можно незаметно включить больше вредоносных инструкций.

Разработчики Anthropic описали новую технику обхода директив безопасности LLM – многоступенчатый взлом, для которого необходим большой объем контекста. Метод заключается в том, чтобы незаметно перенастроить модель на выполнение вредоносных запросов, на которые она обычно отказывается отвечать.

На несколько криминальных вопросов модель не ответит, а на множество – запросто

Вот как это работает:

  • Поддельные диалоги. Сначала нужно написать фиктивные разговоры между человеком и чат-ботом. В этих диалогах чат-бот охотно и подробно отвечает на потенциально опасные вопросы пользователя.
  • Множество примеров. Затем эти поддельные диалоги добавляются к реальному запросу, который вы хотите задать. Причем добавляется не два-три, а именно множество таких диалогов (до 256 в исследовании).
  • Взлом защиты. Обычно LLM запрограммированы отказываться отвечать на опасные вопросы. Однако, увидев много примеров, где помощник отвечает на такие запросы, модель может перестроиться и дать ответ на ваш реальный, потенциально опасный запрос, игнорируя свою встроенную защиту.

Чем больше неэтичных запросов, тем криминальнее становятся ответы LLM

Эта примитивная, на первый взгляд, тактика срабатывает из-за эффекта обучения в контексте. Причем эффективность взлома растет по степенной зависимости от количества фиктивных диалогов. В итоге, злоумышленник может заставить LLM выполнять его команды, даже если изначально модель была запрограммирована их не выполнять. Anthropic уже внедрила некоторые противодействия, но это сложная проблема, требующая дальнейшей работы.

🛠 Инструменты

Undermind – ИИ-поисковик, который ищет решения самых сложных проблем по огромной базе научных публикаций.

Tabnine – продвинутый ИИ-ассистент разработчика. Пишет код, документацию и тесты, отвечает на вопросы, переводит программы с одного языка на другой, выполняет рефакторинг.

IMG2HTML – конвертирует скриншоты в HTML-код, экспортирует элементы для переиспользования в качестве UI-компонентов. Может создать клон сайта по URL.

Glowbom – создает мобильные и веб-приложения по промптам и наброскам.

CallTeacher – ИИ-преподаватель иностранных языков.

MathGPTPro – поможет с решением сложных математических задач.

Blog Ideas Generator – генерирует идеи для историй и постов.

Photoroom – мощный ИИ-редактор изображений.

Lewis – многофункциональный инструмент для визуализации историй. Создает персонажей, сцены, придумывает развитие сюжета. Можно использовать для создания видеоисторий, музыкальных клипов, презентаций, трейлеров.

LM Studio – скачает с Hugging Face любую LLM и запустит ee локально на Windows, Unix или macOS. После установки модель будет работать без подключения к интернету.

Prototyper – генерирует и редактирует UI-код на основе текстового описания.

Prototyper пишет код для календаря

DubVid – переводит и дублирует видео на 25+ языках. Для максимальной аутентичности использует клонирование голоса и подстраивает перевод под движения губ.

MyReport – подготовит отчет на любую тему. Может использовать онлайн-данные и информацию из вашего облачного хранилища.

📜 Туториалы

OpenAI на днях добавила в DALL-E 3 возможность редактирования изображений. Здесь показано, как использовать эту функцию.

А это видео – полный путеводитель по эффективным приемам генерации видео с помощью Pika 1.0.

Сделай сам

GPT Author теперь работает не только с моделями OpenAI, но и с Claude 3. GPT Author – интересный инструмент для генерации объемного, логически связанного контента. С его помощью можно сгенерировать текст и иллюстрации для романа в жанре фэнтези. Инструмент работает так:

  • Генерирует список возможных тем, после чего выбирает самую интересную и придумывает название романа.
  • Разрабатывает детальный сюжет и разбивает его на определенное количество глав.
  • Пишет главы одну за другой, учитывая развитие сюжета.
  • Генерирует обложку и собирает электронную книгу в EPUB-формате.

Весь процесс занимает несколько минут и обходится всего в $4. Остается лишь выставить книжку на продажу и дождаться покупателей. Profit!

LLocalSearch – полностью локальный ИИ-поиск, использующий Ollama и не требующий API-ключей. Основные возможности и преимущества:

  • Быстрая и простая установка с помощью Docker Compose.
  • Использует цепочку локальных LLM-агентов для нахождения ответов на любые вопросы пользователя.
  • Показывает ход выполнения запроса и промежуточные результаты.
  • Поддерживает дискуссию по теме поискового запроса.
  • Обеспечивает конфиденциальность – вопросы не отправляются на серверы LLM-провайдеров.
  • Отличается скромными требованиями к системным ресурсам, может работать без GPU.
  • Предоставляет универсальный веб-интерфейс с темной и светлой темами.
  • Удобен для доступа с мобильного устройства.

На этом все, до следующей недели!

* Llama – продукт компании Meta, деятельность которой признана экстремистской и запрещена на территории РФ.

Автор рассылки: Наталья Кайда

0
Комментарии
-3 комментариев
Раскрывать всегда