时间:2025-04-14 13:50 栏目:封面故事 编辑:投资有道 点击: 100 次
今年,DeepSeek爆火出圈,以“低成本、高性能、全开源”推动AI普惠化,也成为许多普通人打开AI大门的一把“钥匙”。
DeepSeek震撼来袭,掀大模型“普惠潮”
DeepSeek无疑是今年最热的话题之一,其App陆续登顶苹果多个地区应用商店免费App下载排行榜,成为许多普通人打开AI大门的一把“钥匙”。
资本市场热情也被点燃,DeepSeek概念股迎集体大涨。开年至今,多家上市公司积极回应DeepSeek热点问题,并争相接入DeepSeek。
比如,3月17日,联想集团(00992.HK)宣布旗下首款AMD A I大模型训练服务器联想问天WA7785a G3在单机部署671B(满血版)DeepSeek大模型,可实现极限吞吐量6708 token/s,将单台服务器运行大模型的性能推向了新高。
3月14日,巨人网络(002558.SZ)宣布旗下社交推理游戏《太空杀》接入DeepSeek,首创基于DeepSeek打造的原生游戏玩法“内鬼挑战”,现已开启灰度测试,后续将面向全量用户开放。
DeepSeek的频繁破圈来自于其开源大模型
DeepSeek-V3与R1系列的低成本、高性能优势,并在全球引发大模型“普惠潮”。比如,OpenAI宣布调整产品战略,免费版ChatGPT用户将获得“标准智能设置”下的“无限聊天权限”;百度也计划在未来几个月陆续推出文心大模型4.5系列,并于6月30日正式开源。
华泰证券研报认为,DeepSeek的崛起标志着AI行业进入更开放、低成本、高普及率的新阶段。未来AI市场将从算力竞争转向应用落地,开源与低成本策略可能成为主流趋势。
西部证券研报显示,在DeepSeek赋能之下,企业和机构能够以较低的成本进入AI领域,降低了行业门槛。AI技术有望在金融、医疗、教育、工业制造等领域加速落地。
浙商证券研报表示,DeepSeek打破了在算力和芯片上“大力出奇迹”的既定格局,促使全球AI资产价值重估,尤其是对中国互联网资产有显著的价值提升作用。
以开源精神和长期主义追求普惠AGI
DeepSeek背后的深度求索成立于2023年7月17日,专注于开发先进的大语言模型(LLM)和相关技术,坚持“以开源精神和长期主义追求普惠AGI”。
目前,DeepSeek最主流的两个模型版本是DeepSeek-V3和DeepSeek-R1。两个模型均极具性价比,但定位有所不同。DeepSeek-V3性能对标GPT-4o,属于指令型模型;DeepSeek-R1性能对标OpenAI o1,属于推理模型,产业影响大。
DeepSeek-V3首个版本于2024年12月26日正式发布并同步开源,其基于Transformer架构,同时是一个强大的混合专家(MoE)语言模型,在14.8T token上进行了预训练,总参数量671B,每次推理仅激活37B参数,显著降低了计算成本。
此外,DeepSeek-V3设计了FP8混合精度训练框架,并且首次在超大规模模型上验证了FP8训练的可行性和有效性。据悉,数据精度从FP16降低到FP8,效率可以提升一倍。
DeepSeek-V3还开创了一种用于负载均衡的辅助无损策略,该策略可以最大限度地减少因鼓励负载均衡而引起的性能下降。
DeepSeek-V3暂不支持多模态输入,但在通识和专业知识测试集上表现优秀,在性能上和世界顶尖的闭源模型GPT-4o以及Claude-3.5-Sonnet不分伯仲。此外,DeepSeek-V3的生成吐字速度达到60TPS,是前代DeepSeek-V2.5模型的三倍。定价方面,DeepSeek-V3的API服务定价为每百万输入tokens 0.5元(缓存命中)/2元(缓存未命中),每百万输出tokens 8元。
据中信证券等机构研报,DeepSeek-V3的完整训练仅花费278.8万GPU小时,假设H800 GPU的租赁价格为每GPU小时2美元,DeepSeek-V3的总训练成本仅为557.6万美元。而GPT4的训练成本约为DeepSeek-V3的6.2倍,GPT-4o的训练成本更是高达1亿美元。DeepSeek-V3颠覆了人们对大模型训练需要巨额成本的认知。
“深度思考”的推理模型
再看新一代推理模型DeepSeek-R1,其以DeepSeek-V3为基座,于2025年1月20日发布并开源。
DeepSeek-R1在后训练阶段大规模使用了强化学习(RL)技术,在仅有极少标注数据的情况下,极大地提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩OpenAI o1正式版。
DeepSeek-R1的API服务定价为每百万输入tokens 1元(缓存命中)/4元(缓存未命中),每百万输出tokens 16元,在目前主流o1类推理模型中定价最低。对比来看,OpenAI o1每百万输出tokens 438元,是DeepSeek-R1的27倍以上。
根据腾讯科技、清华大数据研究中心等机构的技术解读,DeepSeek团队在R1的训练过程中实验了三种技术路径:直接强化学习训练(对应R1-Zero版本)、多阶段渐进训练(对应R1版本)和模型蒸馏。三种技术路径均取得了成功。
训练AI推理能力的传统方法一般是通过在监督式微调(SFT)中加入大量的思维链(COT)范例,用例证和复杂的奖惩模型,让模型学会用思维链思考。采用这种方式可能会出现奖励欺骗现象,即AI可能通过寻找捷径获取高奖励,比如输出冗长重复的回答,而这偏离了预期的优化目标。
DeepSeek-R1-Zero走的是纯强化学习路径,它完全抛开了预设的思维链模板和监督式微调,仅依靠简单的奖惩信号来优化模型行为。简单来说,整个流程包括输入问题、模型生成多个答案、规则系统评分、GRPO计算相对优势、更新模型五个步骤。
其中,GRPO是一种创新强化学习算法,主要思想就是去掉需要实时更新的价值模型,通过组内样本的相对比较来计算策略梯度,通过“自我采样+比较”实现自我提升,显著降低计算成本。DeepSeek主流的强化学习方式基本都是以GRPO这种更加轻便的方式进行训练,均取得了很好的效果。由于省去了监督式微调和复杂的奖惩模型,这种直接训练方法提升了训练效率,同时大幅减少了对计算资源的需求。
业内认为这种方法让模型以“顿悟”的方式学会了思考。因为根据DeepSeek的研究,模型的进步并非均匀渐进的。在强化学习过程中,响应长度会出现突然的显著增长,这些“跳跃点”往往伴随着解题策略的质变。这种模式酷似人类在长期思考后的突然顿悟,暗示着某种深层的认知突破。
不过,DeepSeek-R1-Zero虽然具备惊人的推理能力,但纯强化学习训练出来的模型存在可读性差和语言混杂的问题。研究团队通过引入更传统的冷启动数据和多阶段训练流程,开发了改进版本DeepSeek-R1。R1适用于需要复杂推理的场景(如数学证明、策略分析、矛盾问题处理等),其核心特点是具备自我纠偏能力和多步因果推理能力。
除了强大的推理能力,R1还学会了用人类易懂的方式表达思维过程。当用户选择“深度思考(R1)”功能时,DeepSeek便会展示它的思考过程,意识到思路有问题时还会停下来重新思考。这是AI首次展现出像人类一样的高阶思维和内心独白,也是DeepSeek的独特之处。
更小、更高效的蒸馏模型
蒸馏模型指的是更小、更高效的模型,DeepSeek-R1蒸馏模型将DeepSeek-R1主模型的推理能力转化为更高效的架构。
据海通证券的研报,DeepSeek通过R1的输出,蒸馏了6个小模型开源给社区,其中32B和70B模型在多项能力上实现了对标OpenAI o1-mini的效果。此外,DeepSeek-R1遵循MIT开源协议,允许用户通过蒸馏技术借助R1训练其他模型。
据DeepSeek技术报告,R1-Zero首次验证无需SFT的强化学习训练即可激发模型自主推理能力,为推理模型训练提供新范式;R1采取的多阶段渐进训练框架,即“冷启动数据+两阶段强化学习+SFT”的混合方法,平衡了性能与可读性,并使用推理与非推理数据结合的方式泛化推理模型能力;高效蒸馏策略则证明了大模型推理模式可通过蒸馏迁移至小模型,且效果优于直接通过强化学习训练。
值得一提的是,中信建投研报显示,当前阶段大模型行业正处于从传统的生成式模型向深度推理模型过渡的阶段,算力的整体需求也从预训练阶段逐步向后训练和推理侧过渡。
声明: (本文为投资有道签约作者原创文章,转载请注明出处及作者,否则视为侵权,本刊将追究法律责任)