| BerryLM | |
| Wildberries & Russ | |
| ## Модели и данные | |
| ### Базовая модель | |
| В работе используется языковая модель на основе архитектуры трансформера. Модель поддерживает генерацию с разделением на каналы (reasoning и final answer), что позволяет отделять процесс рассуждения от финального ответа, оптимизированная для работы с длинным контекстом рассуждения и генерации до 32K токенов. | |
| ### Датасет | |
| Обучение проводится на миксе закрытых и открытых датасетов, который содержит диалоговые примеры в формате сообщений (messages) и Ground Truth. | |
| ## Метод | |
| ### GRPO с Reward Hacking Prevention | |
| Применяется метод один из модификаций GRPO. | |
| Ключевая особенность реализации — система из 11 reward-функций, направленная на предотвращение reward hacking (эксплуатации слабостей reward-сигнала): | |
| 1. Качество русского языка | |
| 2. Следование структуре ответа | |
| 3. Анти-зацикливание | |
| 4. Фактологическая точность на нужных задачах | |
| Reward-функции работают на уровне токенизированных последовательностей и текста, анализируя как структуру ответа (специальные токены каналов), так и его содержание. Веса функций настроены так, что основной сигнал имеет наибольший вес, а остальные служат регуляризацией и контролем качества. | |
| ### Архитектура обучения | |
| Обучение организовано в распределённом режиме: | |
| - **Training ноды**: DeepSpeed ZeRO-3 для эффективного распределения модели и оптимизатора | |
| - **Generation нода**: отдельный vLLM сервер для генерации кандидатов через HTTP API | |
| - **Correction post training** | |
| Авторы: | |
| - Сапрыкин Матвей | |
| - Софронов Юрий | |
| - Костылев Александр | |
| - Чанышев Дамир | |
| --- | |
| license: unknown | |
| license_name: proprietary | |
| license_link: LICENSE | |
| --- | |