
今天公司例会,组里从qwen团队交流学习回来的leader总结的几个点,做了笔记简单记录,跟大家分享一下。
	
1、蒸馏技术是研发小模型的核心
qwen3系列大量采用了蒸馏技术,尤其是4B模型几乎全部从8B蒸馏过来。并且是从预训练就开始,全阶段的蒸馏,蒸馏方案参考Google的Gemma,不是让小模型是直接对齐大模型的输出结果,因为小模型可能压根没有输出与大模型相似结果的能力,而是通过logits去做强制对齐(具体可参考谷歌论文)一个大参数的model能快速拉高所有小model的能力。
	
2、MOE会变成主流
整个qwen在全力转MOE,小尺寸大尺寸都在转(甚至1B可能都会转,可能下一代的qwen会完全放弃dense模型)。相对于显存占用,大公司更在意吞吐速度。现阶段的主要瓶颈是MOE模型训练不稳定,预计今年年底到明年会解决这个问题。
	
3、好的Benchmark是成功的关键
qwen团队反复强调的一点:先有评测,才有模型研发,不管是什么任务,只要有好的benchmark,那就要在benchmark刷到行业top ,无论什么问题,只要能把benchmark定出来, 就是一个可解决的问题。
	
4、强化学习将成为主流
去年到今年最大的变化就是强化学习的大量应用(做MLLM的朋友应该都能体会到)
去年RLHF只能带来4%-7%的提升,今年年初到现在,RL能拉高30%+(这里也提出了benchmark的重要性),目前大部分的rewardmodel仍然是基于01标签去训练,而不是一个具体的score。如果要给一个问题定义一个从0到1 的score,相对比较难稳定训练。只要问题有清晰的benchmark,就一定可以把分数拉高。
	
#多模态大模型 #大模型 #qwen #大模型微调 #llama #llm
		 			
	1、蒸馏技术是研发小模型的核心
qwen3系列大量采用了蒸馏技术,尤其是4B模型几乎全部从8B蒸馏过来。并且是从预训练就开始,全阶段的蒸馏,蒸馏方案参考Google的Gemma,不是让小模型是直接对齐大模型的输出结果,因为小模型可能压根没有输出与大模型相似结果的能力,而是通过logits去做强制对齐(具体可参考谷歌论文)一个大参数的model能快速拉高所有小model的能力。
2、MOE会变成主流
整个qwen在全力转MOE,小尺寸大尺寸都在转(甚至1B可能都会转,可能下一代的qwen会完全放弃dense模型)。相对于显存占用,大公司更在意吞吐速度。现阶段的主要瓶颈是MOE模型训练不稳定,预计今年年底到明年会解决这个问题。
3、好的Benchmark是成功的关键
qwen团队反复强调的一点:先有评测,才有模型研发,不管是什么任务,只要有好的benchmark,那就要在benchmark刷到行业top ,无论什么问题,只要能把benchmark定出来, 就是一个可解决的问题。
4、强化学习将成为主流
去年到今年最大的变化就是强化学习的大量应用(做MLLM的朋友应该都能体会到)
去年RLHF只能带来4%-7%的提升,今年年初到现在,RL能拉高30%+(这里也提出了benchmark的重要性),目前大部分的rewardmodel仍然是基于01标签去训练,而不是一个具体的score。如果要给一个问题定义一个从0到1 的score,相对比较难稳定训练。只要问题有清晰的benchmark,就一定可以把分数拉高。
#多模态大模型 #大模型 #qwen #大模型微调 #llama #llm

 研报速递
研报速递 
          
          
          
          
          
         
发表评论
发表评论: