从模型结构看,0528 没有变动。它依旧基于 DeepSeek V3 Base,685B 参数,没有像 OpenAI 的 GPT-4o 或 Google 的 Gemini 那样切入多模态。唯一的实质更新,是推理路径:更长、更细致、更像人在解题。
根据用户测试,在 LiveCodeBench 编程测试环境中,R1-0528 在多个任务上表现接近 OpenAI o3 High 模式接近。
目前,这些模型均已上传至 Hugging Face,且标注为 MIT License,允许商用,也允许使用其输出结果进行模型蒸馏。
DeepSeek-R1-0528 模型权重下载请参考:
Model Scope:
https://modelscope.cn/models/deepseek-ai/DeepSeek-R1-0528
Huggingface:
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
DeepSeek起初并不做 AI 模型,它的母公司是量化基金“幻方投资”,创始人梁文锋是浙江大学出身的 AI 爱好者。2015年开始试水交易系统,2019年正式设立对冲基金。在量化交易中摸索多年的算法团队,成为日后DeepSeek模型训练的基础。
2023年,幻方成立DeepSeek Lab,作为科研独立体。彼时正值中国AI创业热潮复燃,百度、字节、阿里、MiniMax、月之暗面先后发布通用大模型。DeepSeek一开始就选了一条不一样的路:自建数据中心、强调计算效率,并迅速在一年内迭代三代模型。
DeepSeek V2于2024年春天发布,以“推理能力”突出出圈。相比同行更重堆参数、跑分的路径,DeepSeek强调模型在复杂任务下的“思考能力”。数学、物理、代码,正是V2和后续R1模型发力的重点。
V3版本上线于2024年末,DeepSeek宣称它在内测中超越了OpenAI的GPT-4o。2025年1月,DeepSeek-R1问世,定位为“reasoning model”。它在 Hugging Face 上以MIT协议发布,成为业内少见能商业化改造的高性能模型之一。
一方面,DeepSeek通过模型架构优化和训练效率提升,大幅压缩了推理成本。另一方面,它在市场价格上极为激进:不少模型免费开放、接口调用价格低于行业平均值,甚至迫使阿里、字节等国内玩家降价或免费开放部分模型。
这也引发了对其商业模式的质疑。截至目前,DeepSeek并未公开融资轮次,也尚未启动商业化路径。据接近公司人士透露,其运营主要依赖母公司幻方提供的算力和资金资源。相比依靠云厂商和VC支持的AI创业者,DeepSeek的路线更像是“实验室模式”。
更新时间:2025-06-03
本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828
© CopyRight 2020-=date("Y",time());?> All Rights Reserved. Powered By bs178.com 闽ICP备11008920号
闽公网安备35020302034844号