Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free
Paper • 2505.06708 • Published • 11
YModel3是SnifferCaptain训练的到目前为止(5/4/2026)最新的大语言模型。模型相比YModel2,支持了如混合思考、可调思考深度的功能,在回答的质量上有一定的进步。
<|im_start|>assistant
<think>juice = 1.14
[thinking content]</think>
[reply content]<|im_end|>
其中,juice值最好使用两位小数表示,其值过小或者过大可能都会出现一些问题。juice值的大小可以参考以下公式计算: 典型值:
| juice | token count |
|---|---|
| 0.59 | 64 |
| 1.00 | 128 |
| 2.00 | 384 |
| 3.00 | 896 |