BerryLM Wildberries & Russ ## Модели и данные ### Базовая модель В работе используется языковая модель на основе архитектуры трансформера. Модель поддерживает генерацию с разделением на каналы (reasoning и final answer), что позволяет отделять процесс рассуждения от финального ответа, оптимизированная для работы с длинным контекстом рассуждения и генерации до 32K токенов. ### Датасет Обучение проводится на миксе закрытых и открытых датасетов, который содержит диалоговые примеры в формате сообщений (messages) и Ground Truth. ## Метод ### GRPO с Reward Hacking Prevention Применяется метод один из модификаций GRPO. Ключевая особенность реализации — система из 11 reward-функций, направленная на предотвращение reward hacking (эксплуатации слабостей reward-сигнала): 1. Качество русского языка 2. Следование структуре ответа 3. Анти-зацикливание 4. Фактологическая точность на нужных задачах Reward-функции работают на уровне токенизированных последовательностей и текста, анализируя как структуру ответа (специальные токены каналов), так и его содержание. Веса функций настроены так, что основной сигнал имеет наибольший вес, а остальные служат регуляризацией и контролем качества. ### Архитектура обучения Обучение организовано в распределённом режиме: - **Training ноды**: DeepSpeed ZeRO-3 для эффективного распределения модели и оптимизатора - **Generation нода**: отдельный vLLM сервер для генерации кандидатов через HTTP API - **Correction post training** Авторы: - Сапрыкин Матвей - Софронов Юрий - Костылев Александр - Чанышев Дамир --- license: unknown license_name: proprietary license_link: LICENSE ---