Lower performance of Step-3.5-Flash-Base-Midtrain than Step-3.5-Flash-Base

#6
by azuna8388 - opened

我们注意到 Step-3.5-Flash-Base-Midtrain 在部分基准上低于 Step-3.5-Flash-Base。想确认这是否源于 mid-training 的 specialization(数据混合迁移导致通用能力回撤)、长上下文/RoPE 设置改变短上下文最优点、MoE 路由漂移,或仅仅是评测/解码协议不一致造成的表观差异。作者能否补充:两者评测时是否使用完全一致的 decoding 与上下文长度设置?

在 20 个 benchmark 上看到 Base-Midtrain 相对 Base 出现结构化回撤:MMLU(-2.4)、MMLU-Redux(-2.0)、WinoGrande(-3.3)、SimpleQA(-3.2)、HumanEval(-14.1)、MBPP+(-8.2)、MultiPL-E MBPP(-10.1)、以及中文 C-EVAL(-2.4)/CMMLU(-2.0)/C-SimpleQA(-5.1) 等;同时 GPQA(+2.1)、GSM8K(+0.7)、HumanEval+(+3.0) 有提升。

StepFun org

是数据分布不同导致的。另外未post-train的模型的bmk仅供参考,很多bmk简单post-train两下就回来了。

Sign up or log in to comment