a-m-team 又发新论文了 。纯蒸A呈
这个团队上星期刚刚在 Hugging Face 低沉开源了32B稠密模型 ,馏模但在多项要害推理评测中打败了 DeepSeek-R1,型S现直悉数并与超大规模的接S据已 MoE 模型Qwen3-235B-A22B 、Seed1.5-Thinking 平起平坐,本钱倍数因而赢得了海内外的直降不少重视 。
今日,开源a-m-team 发布了一篇名为“Not All Correct Answers Are Equal: Why Your Distillation Source Matters”的纯蒸A呈论文,介绍了 R1 之后下一代推理模型的馏模小发展 。
在这篇论文中 ,型S现直悉数研讨团队发现依据 AM-Thinking-v1 的接S据已问答数据“纯蒸馏”(即只用SFT)练习出的“学生模型” ,居然在多个高难推理使命上挨近乃至到达当时最优水平(SOTA),本钱倍数不只超越了Qwen3-32B ,直降乃至挨近了 Qwen3-235B 这样大一个数量级的开源模型表现。
论文链接 :https://arxiv.org/pdf/2505.14464 。
在大模型才能比赛继续推动的今日,如何故更低的练习本钱获得更强的推理才能,成为开源社区面对的中心应战之一 。
比较于 SFT+RL 的练习方法,只用 SFT 意味着着数十倍的本钱减缩——也就是说 ,没有强化学习才能的企业级玩家将 AM-Thinking-v1 蒸馏版拿去直接 SFT 后落地 ,能够大幅提高使用功率 、下降落地本钱。
这意味着开源社区未来能以更低的练习本钱,获得更强的推理才能。而这项作业建立的前提条件是,需求能有杰出的数据源。
换言之 ,假设数据源能驱动蒸馏模型的成长,那么蒸馏也将不仅仅一个简简略单的智能“紧缩”动作,而是会有潜力成为在开源社区生态中螺旋成长的系统性工程。
什么样的数据源更有用?
蒸馏(Distillation)作为一种低本钱、高功率的练习方法,已被广泛用于模型紧缩与才能搬迁。一般状况下,依据GRPO 或许 PPO 的 RL 练习,但一个被长时间忽视的问题是:你的蒸馏源选对了吗 ?
a-m-team 近期开源了一套依据 AM-Thinking-v1 和 Qwen3-235B-A22B 两个顶尖大模型生成的推理蒸馏数据集 。经过对 189 万条高质量推理使命的并行蒸馏比照剖析发现:
依据 AM-Thinking-v1 蒸馏练习出的学生模型在多个高难推理使命上挨近乃至到达当时最优水平(SOTA);
这份开源数据集为低本钱构建强推理才能模型供给了厚实支撑;
用相同的学生模型 、练习装备 、benchmark 套件比照练习成果;
开源其间两份(AM-Thinking-v1 和 Qwen3-235B-A22B)的数据以供社区验证 。
正如本篇论文一语双关的主标题,“Not All Correct Answers Are Equal”——不同的模型,假如生成类似正确的答案 ,但并不代表他们都有相同的价值。因为依据这个正确答案背面的数据源质量、结构存在差异,天然对后续练习的奉献或许存在明显差异。
a-m-team研讨以自家最新发布的AM-Thinking-v1为例,依据其团队研讨 ,以AM-Thinking-v1为教师模型练习出来的纯蒸馏模型,比较于Qwen3-235B-A22和DeepSeek-R1的蒸馏模型在功能上有着明显的抢先优势。
不只如此,AM蒸馏进程中的丢失曲线也是最低的 ,这点其实从图一的评分摆放中也可见一斑。如下图所示,AM长时间坚持了远低于其他模型的基准损耗。