微软近日开源了三款基于Phi-4架构的新型小参数模型,分别是Reasoning、Min-Reasoning和Reasoning-plus。其中,Reasoning模型是以Phi-4为基础打造的,Mini版本特别适合在平板、手机等移动设备上运行,而Plus版本则经过强化学习优化,专门针对数学等特定领域进行了强化训练。
这三款模型的一大优势是其极低的算力需求,可以在普通的消费级硬件上顺畅运行。例如在搭载Windows 11的常见设备上,无论使用CPU还是GPU,都能实现本地部署。此外,微软已将Phi-4系列深度整合至Windows生态,为Copilot和PC的结合提供核心支持。
测试结果显示,尽管Phi-4-Reasoning-plus仅拥有140亿参数,但其表现接近拥有6710亿参数的DeepSeek开源大型模型R1。在2025年的美国数学奥林匹克资格赛中,Reasoning-plus获得了78分,显著高于R1的70.4分;哈佛-麻省理工数学竞赛中,Reasoning-plus得分为53.6,领先R1的41.7分;在Ominimath测试中,Reasoning-plus达到81.9分,略逊于R1的85分;而在GPQA测试中,Reasoning-plus得到了69.3分,接近R1的73分,奠定了其作为当前最强开源小参数模型的地位。
开源地址:
https://huggingface.co/microsoft/Phi-4-reasoning
https://huggingface.co/microsoft/Phi-4-mini-reasoning
https://huggingface.co/microsoft/Phi-4-reasoning-plus
Phi-4-Reasoning基于微软开源的Phi-4模型构建。为了增强其推理能力,微软采用了结合监督微调与强化学习的训练策略进行深入优化。具体做法是,先通过监督微调让模型学习高质量的推理示例,这有助于模型生成详细且连贯的推理步骤,从而更有效地利用推理过程中的计算资源。此方法相当于为模型提供了一种“参考答案”,指导其如何更准确地完成推理任务。
Phi-4-Reasoning模型基于微软开源的Phi-4架构构建。为了提升其推理能力,微软采用了结合监督微调与强化学习的训练策略进行深度优化。首先,通过监督微调使模型学习大量高质量的推理示范,从而能够生成详细且连贯的推理步骤,有效利用推理时的计算资源,这相当于为模型提供了一个“参考标准”,指导其正确推理。
然而,单靠监督微调并不足以覆盖所有领域的复杂推理需求,因此微软进一步引入了强化学习阶段。该阶段通过设计奖励函数,促使模型在数学推理等特定领域生成更加准确和深入的推理链,起到了激励模型更深入思考的作用,从而显著提升了推理的精度和深度。
在推理流程设计上,Phi-4-Reasoning引入了专门的推理标记如
此外,该模型支持的最大上下文长度从16K增加到了32K,这极大扩展了模型处理长推理链和复杂任务的能力,避免了因上下文长度受限而导致推理中断的问题。
微软还高度重视训练数据的质量,广泛收集了来自公开网站和现有数据集的海量问题,涵盖数学、科学、编程以及安全相关领域。这些多样化且高质量的数据为模型的训练提供了坚实基础,进一步保证了模型在实际应用中的表现。
此外,还采用了合成数据生成的方法,将某些问题转化为新的表现形式。例如,将编程题转化成文字描述的问题,或对数学题进行变形处理,以更好地契合推理训练的要求。这样的数据设计和合成手段不仅扩展了训练数据的种类和内容,也为模型创造了更加多样化的学习环境,进而增强了模型的泛化能力。
·
我们相信人工智能为普通人提供了一种“增强工具”,并致力于分享全方位的AI知识。在这里,您可以找到最新的AI科普文章、工具评测、提升效率的秘籍以及行业洞察。
欢迎关注“福大大架构师每日一题”,让AI助力您的未来发展。
·
更新时间:2025-05-13
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号