财联社2月26日讯,中国联通近日宣布,继1月份开源元景“自适应慢思维”思维链大模型之后,对DeepSeek系列模型进行了“自适应慢思维”优化升级,平均可节省约30%的推理计算,现已开源。这也是业内第一个优化升级DeepSeek系列思维链模型的“自适应慢思维”。
“以我为主,为我用”的开放创新
元景思维链大模型具有多学科、多场景的一般推理能力,能够适应不同任务和难度的慢思维,大大降低资源消耗,实现大模型“慢思维”能力的高成本效益应用。
元景思维链大模型访问DeepSeek-R1不是简单的“拿来主义”,而是“从好到坏”,调整了DeepSeek-R1版本,最大限度地避免了面对简单问题“过度思考”的现象,使模型具有“自适应”的能力。也就是说,当面对困难的问题时,使用慢思维模式来生成一个成长的思维链,而面对简单的问题时,它倾向于生成一个简单的思维链,并快速准确地输出相关的答案。这避免了冗余的答案、浪费资源和减少用户等待时间,改善用户体验。
完全分享调整步骤
难度自适应微调:为了实现模型推理的难度自适应,中国联通采用DeepSeek-R1全血模型采样生成数据,通过复杂度量化模块结构长度偏好数据集,从采样答案中选择简单问题长度短的答案,选择难题长度长的答案,使答案长度与当前问题的复杂性相匹配。在此基础上,对DeepSeek-R1进行微调,使微调模型能够适应不同难题的慢思维能力。
具体改造流程如下图所示。 DeepSeek-R1满血版模型自适应慢思维训练流程图
二次蒸馏:对于DeepSeek-R1系列蒸馏模型,由于其使用的蒸馏数据来自训练全血版R1时使用的训练数据,而不是由性能更好的R1全血版本生成的数据,因此蒸馏模型未能充分学习R1全血版本的能力,蒸馏效果大大降低。为了解决这一问题,中国联通采用了二次蒸馏策略,即利用DeepSeek-R1全血版将积累的高质量数据转化为包括深度思维过程在内的长思维链格式数据,并在DeepSeek-R1蒸馏系列模型的基础上进行微调,使模型具有更强的推理能力。
难度自适应强化学习:模型二次蒸馏后,中国联通进一步借鉴了DeepSeek-R1的构建思路,在GRPO算法的基础上提出了难度自适应强化学习算法DA-GRPO(Difficulty Adaptive GRPO),加强二次蒸馏模型难度自适应的学习训练,进一步提高其推理效果。除传统的正确性奖励、格式奖励和语言一致性奖励外,DA-GRPO还根据每个问题的复杂性和生成答案的长度校准奖励分数。具体来说,如果模型输出一个简单问题的长答案,奖励分数将受到相应的惩罚。同时,如果模型输出更长的答案来解决困难的问题,它将获得更高的奖励分数,以鼓励它更充分地思考。这样,通过提高样本答案奖励分数的差异化,模型可以根据问题的难度输出相应长度的答案,在保证推理准确性的前提下,显著减少答案的冗余和资源消耗,从而实现对不同难度问题的自适应和缓慢思考。
Deepseek-R1蒸馏模型训练流程图自适应慢思维
推理计算节省了30%左右
中国联通DeepSeek-R1-distill-以32B模型为例,验证了上述方法的效果。通过比较数学任务评估集(MATH500)和具体实验,可以看出,难度自适应改造后的模型在不同难度等级问题上的答案长度明显低于原版,难度最高(Level 5)输出的答案长度降幅最大,反映了模型对不同难度等级问题的自适应性和慢思维能力。经过评估,这种创新的自适应慢思维方法平均可以节省30%左右的推理计算量,大大降低了冗余输出,有效提升了用户体验。