SnifferCaptain
/

ymodel3-n1

Text Generation

Model card Files Files and versions

模型描述

YModel3是SnifferCaptain训练的到目前为止（5/4/2026）最新的大语言模型。模型相比YModel2，支持了如混合思考、可调思考深度的功能，在回答的质量上有一定的进步。

模型细节

模型借鉴了MLA（ Deepseek， https://arxiv.org/pdf/2405.04434 ）的优化思路，与Gated Attention（ Qwen， https://arxiv.org/pdf/2505.06708 ）的优化思路，将ymodel2的PEGA2替换为容量更大，scaling更强的MLGA模块。显著增加了模型的参数效率。
模型在FFN部分采用了SwiGLU。
模型在每层RMSNorm后，增加了一层SEBlock。

训练细节

模型全程采用与YModel2相近的SiMuon优化器训练，其中将NS迭代从2步增加到3步。SiMuon部分参数在预训练中，学习率为默认学习率的10倍。在其余阶段，学习率为默认学习率的66倍。AdamW部分学习率为默认参数的1倍。使用0.2*sqrt(max(fan in, fan out))进行学习率缩放。
模型的tokenlizer与词嵌入层使用的是预训练权重，来自MiniMind3-v（ https://github.com/jingyaogong/minimind ）
在预训练阶段，模型充分使用了5B token，在1e-4带warmup的余弦退火到1e-5的学习率下，完成预训练。

补充细节

由于预训练数据集原因，预训练模型在英文输入后有很大概率生成与各大跑分测试类似的四选一选择题格式
关于调节思考深度，需要遵循特定的思考模板实现：

<|im_start|>assistant
<think>juice = 1.14
[thinking content]</think>
[reply content]<|im_end|>

其中，juice值最好使用两位小数表示，其值过小或者过大可能都会出现一些问题。juice值的大小可以参考以下公式计算： $\max\left(0.0,\ \log_2\left(\frac{\text{token\_count}}{128} + 1\right)\right)$ 典型值：

juice	token count
0.59	64
1.00	128
2.00	384
3.00	896

Downloads last month: -; Downloads are not tracked for this model. How to track

Datasets used to train SnifferCaptain/ymodel3-n1

Papers for SnifferCaptain/ymodel3-n1

Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free

Paper • 2505.06708 • Published May 10, 2025 • 11

DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model

Paper • 2405.04434 • Published May 7, 2024 • 25