🐋 DeepSeek-R1: как обучали модель, встряхнувшую AI-индустрию
DeepSeek-R1 использует передовые методы обучения, позволяющие улучшить логические рассуждения. В этой статье мы разберем, как именно обучалась DeepSeek-R1, какие технологии в ней применены и чем она отличается от других моделей.
DeepSeek-R1 – очередной значительный шаг в развитии ИИ. Для сообщества ML-разработчиков и исследователей этот релиз важен по двум причинам:
- Это модель с открытыми весами, имеющая уменьшенные, дистиллированные версии.
- Она использует и анализирует метод обучения, который позволяет воспроизвести модель рассуждений, подобную OpenAI o1.
Разберемся, как происходило обучение DeepSeek-R1.
Как обучаются LLM
Как и большинство языковых моделей (LLM), DeepSeek-R1 генерирует текст по одному токену, но отличается тем, что значительно лучше справляется с математическими и логическими задачами. Это достигается за счeт более длительного анализа проблемы с использованием специальных токенов мышления, которые объясняют ход рассуждений LLM:
Создание качественной LLM включает в себя три основных этапа:
- Этап языкового моделирования – на этом шаге модель обучается предсказывать следующее слово в тексте, используя огромный объем данных из интернета. Результатом становится базовая модель.
- Контролируемое дообучение. Модель обучается следовать инструкциям и отвечать на вопросы более осмысленно. Для этого она дообучается на примерах с правильными ответами, созданными людьми. В результате получается модель, настроенная на выполнение инструкций (instruction-tuned model или SFT-модель).
- Тонкая настройка предпочтений. На этом этапе модель дорабатывается с учетом человеческих предпочтений. Это улучшает ее поведение, делая ответы более естественными и соответствующими ожиданиям пользователей. Итогом становится предпочтительно-настроенная языковая модель (preference-tuned LLM), с которой пользователи взаимодействуют в приложениях и на платформах.
Рецепт обучения DeepSeek-R1
DeepSeek-R1 использует общий подход к обучению, но с некоторыми ключевыми особенностями. Как показывает эта публикация о разработке модели DeepSeek-V3, первый этап обучения не отличается от стандартного подхода. Далее DeepSeek-R1 проходит этапы контролируемого дообучения и тонкой настройки предпочтений, и именно в деталях выполнения этих этапов кроются важные отличия.
Три ключевые особенности создания R1:
- Длинные цепочки рассуждений в SFT-данных.
- Использование промежуточной высококачественной модели для логических рассуждений.
- Создание моделей рассуждений с помощью масштабного обучения с подкреплением.
1. Длинные цепочки рассуждений в SFT-данных
В обучении использовано 600 000 примеров решения задачи с подробными размышлениями. Такие данные крайне сложно собрать в большом количестве, а их разметка вручную обойдется очень дорого. Поэтому важным этапом стало создание этих данных, что и подводит нас ко второй ключевой особенности модели.
2. Промежуточная высококачественная модель для логических рассуждений
Для создания обучающих данных была использована промежуточная модель, являющаяся предшественницей R1. У нее нет официального названия, но есть основная специализация — логические рассуждения.
Эта модель была вдохновлена третьей моделью, называемой R1-Zero (о ней будет рассказано далее). Хотя эта промежуточная модель не предназначена для широкого использования, она играет важную роль, потому что:
- Для ее создания потребовалось очень мало размеченных данных.
- Она обучалась с помощью масштабного обучения с подкреплением (RL).
В результате она отлично решает задачи на рассуждение, но плохо справляется с более общими заданиями. Ее выходные данные используются для обучения более универсальной модели, которая не только сохраняет навыки рассуждения, но и справляется с другими задачами на ожидаемом для современных LLM уровне.
3. Создание моделей рассуждений с помощью масштабного обучения с подкреплением
Этот процесс включает два этапа:
- Масштабное обучение с подкреплением, ориентированное на рассуждения (R1-Zero).
- Создание SFT-данных для рассуждений с помощью промежуточной модели.
3.1. Масштабное обучение с подкреплением, ориентированное на рассуждения (R1-Zero)
На этом этапе обучение с подкреплением используется для создания промежуточной модели рассуждений. Эта модель затем применяется для генерации обучающих примеров для SFT-обучения.
Ключевую роль здесь играет эксперимент с ранней моделью DeepSeek-R1-Zero. Эта модель уникальна тем, что:
- Она отлично решает задачи на рассуждение, не имея размеченного SFT-набора.
- Ее обучение начинается сразу с базовой предобученной модели, а затем она совершенствуется через процесс обучения с подкреплением (без шага SFT).
- Ее производительность сравнима с OpenAI O1.
Обычно мощь моделей машинного обучения зависит от качества и объема данных. Однако R1-Zero показывает, что можно добиться высокого уровня рассуждений без традиционной разметки данных. Это стало возможным благодаря двум факторам:
- Современные базовые модели достигли высокого уровня качества. В данном случае использовалась модель, обученная на 14,8 трлн высококачественных токенов.
- Проверка рассуждений может выполняться автоматически (в отличие от генерации текста для чатов или статей, где требуется ручная оценка)
Пример: Автоматическая верификация задачи на рассуждение
Представим, что модель получает запрос: «Напиши код на Python, который принимает список чисел, сортирует его и добавляет 42 в начало».
Как можно автоматически проверить качество ответа?
- Линтер проверяет, является ли сгенерированный код корректным синтаксически.
- Исполнение кода позволяет проверить, запускается ли он вообще.
- Другая LLM (например, для генерации кода) может автоматически написать unit-тесты для проверки ожидаемого поведения.
- Оптимизация по скорости: даже если код работает правильно, можно сравнивать его производительность и отдавать предпочтение более быстрым решениям.
Все эти сигналы можно напрямую использовать для улучшения модели. Конечно, это происходит на множестве примеров и в ходе последовательных шагов обучения:
Эти сигналы вознаграждения и обновления модели позволяют ей постепенно улучшаться в выполнении задач в ходе процесса обучения с подкреплением:
По мере улучшения этой способности увеличивается и длина сгенерированного ответа — модель генерирует больше токенов с размышлениями, чтобы лучше проанализировать проблему:
3.2 Создание SFT-данных для рассуждений с помощью промежуточной модели
Чтобы сделать промежуточную модель рассуждений (созданную в предыдущем шаге) более полезной, ее дообучают с помощью контролируемого обучения (SFT):
- Модель обучается на нескольких тысячах примеров задач на рассуждение.
- Часть этих примеров генерируется и отфильтровывается из данных R1-Zero.
- Этот первоначальный набор называют Cold Start Data (данные для холодного старта).
3.2.1. Холодный старт
В отличие от DeepSeek-R1-Zero, DeepSeek-R1 не начинает RL-обучение с нуля, потому что ранние этапы обучения с подкреплением могут быть нестабильными.
Чтобы этого избежать, сначала создается небольшой (но качественный) набор данных CoT (Chain-of-Thought, цепочки рассуждений), на которых проводится начальное SFT-дообучение:
Данные собирались несколькими способами:
- Использование few-shot prompting (предоставление модели нескольких примеров длинных логических решений).
- Прямой запрос модели на генерацию детальных ответов с размышлениями и самопроверкой.
- Сбор данных из ответов DeepSeek-R1-Zero в читаемом формате.
- Ручная доработка ответов аннотаторами.
Но зачем тогда RL, если у нас уже есть SFT-данные?
Ответ — в масштабе данных.
- Доступный набор данных для SFT состоит всего из 5 000 примеров (которые можно собрать вручную).
- Однако для полноценного обучения R1 требовалось 600 000 примеров.
- Промежуточная модель помогает синтетически генерировать недостающие данные, что делает процесс масштабируемым.
Если вы не знакомы с этим термином:
- SFT — это процесс дообучения модели, в котором она получает примеры входных данных (prompt) и правильные ответы (completion).
- Таким образом, модель учится давать корректные ответы в похожих ситуациях.
3.3 Общий этап обучения с подкреплением
На этом этапе модель DeepSeek-R1 дообучается с помощью обучения с подкреплением, чтобы быть не только сильной в рассуждениях, но и хорошо справляться с другими задачами.
Процесс похож на тот, что использовался раньше, но теперь он охватывает не только задачи на рассуждение, но и более широкий спектр задач.
Для этого используются дополнительные механизмы оценки ответов:
- Модель полезности — оценивает, насколько ответ модели полезен и информативен.
- Модель безопасности — следит за тем, чтобы ответы были безопасными и соответствовали этическим стандартам.
Эти принципы похожи на те, что применяются в моделях Llama от Meta*:
Зачем нужен этот этап?
Хотя промежуточная модель (R1-Zero) отлично решает задачи на логику, она может быть слабой в других областях, например:
- Написание текста.
- Ответы на общие вопросы.
- Генерация кода вне задач на рассуждение.
Благодаря этому этапу DeepSeek-R1 становится универсальной моделью, которая умеет как логически рассуждать, так и отвечать на широкий круг запросов.
Архитектура
Как и предыдущие модели, начиная с GPT-2 и GPT-3, DeepSeek-R1 представляет собой набор трансформерных блоков. Всего в модели 61 блок:
- Первые три блока — плотные, то есть в них все параметры используются без разбиения на экспертов.
- Оставшиеся 58 блоков — это слои с mixture-of-experts (MoE), то есть в них используется техника смеси экспертов, где только часть параметров активируется для обработки конкретного входа. (Подробнее о MoE можно прочитать в этом визуальном гайде).
Гиперпараметры модели, такие как размерность скрытого состояния и другие характеристики, выглядят следующим образом:
Что касается размерности модели и других гиперпараметров, то они представлены в технических отчетах:
- DeepSeek-V3: Технический отчет.
- DeepSeekMoE: На пути к максимальной специализации экспертов в языковых моделях со смесью экспертов.
Заключение
DeepSeek-R1 демонстрирует, что сочетание масштабного обучения с подкреплением, промежуточных моделей и тщательно отобранных данных может привести к значительному улучшению качества рассуждений LLM. Благодаря инновационным методам обучения эта модель не только успешно решает математические и логические задачи, но и остается универсальной, способной справляться с широким кругом запросов. Более того — открытая архитектура и веса делают DeepSeek-R1 важным вкладом в развитие ИИ, способным вдохновить будущие исследования в этой области.
*Организация Meta и все ее продукты, включая Llama, признаны экстремистскими и запрещены на территории РФ.
Погружение в ML: от основ до нейросетей 🤖
Качественный курс по основам ML от Proglib Academy: от базовых моделей до нейросетей, с фокусом на реальные бизнес-задачи и постоянной поддержкой от опытного спикера из Stripe.
Ключевые моменты курса:
- Структурированный подход от простого к сложному: начиная с ансамблевых методов и заканчивая архитектурами нейросетей
- Практический уклон: реальные кейсы и применение в бизнес-задачах
- Спикер – практик из Stripe с образованием МГУ и Columbia University
Программа включает:
- Tree-based модели и ансамблевые методы
- Системы рекомендаций и коллаборативная фильтрация
- Основы архитектур нейронных сетей