DeepSeek-V3.2系列开源,平衡实用与极致推理性能的新选择
DeepSeek-V3.2系列是一款开源软件,旨在实现实用性与极致推理之间的平衡,该软件具备强大的功能,能够满足各种需求,同时注重推理性能的优化,以实现更高效、更准确的运行,DeepSeek-V3.2系列开源软件为用户提供了实用的工具,既方便用户使用,又能够满足极致推理的要求。
ChatGPT发布三周年之际,DeepSeek发布了两款新模型。一款专注于平衡实用,适用于日常问答、通用Agent任务及真实应用场景下的工具调用。这款模型的推理能力达到GPT-5水平,略低于Gemini-3.0-Pro。另一款则主打极致推理,其推理基准性能与Gemini-3.0-Pro相当,并在多个竞赛中取得了优异成绩,包括IMO 2025、CMO 2025、ICPC World Finals 2025和IOI 2025金牌。
DeepSeek-V3.2侧重于平衡推理能力和输出长度,降低计算开销。该模型在Agent评测中达到了当前开源模型的最高水平。具体来说,它具有以下特点:推理能力与GPT-5相当;相比Kimi-K2-Thinking大幅缩短输出长度,减少用户等待时间;支持思考/非思考双模式工具调用;基于大规模Agent训练数据,泛化能力强。DeepSeek-V3.2并未针对这些测试集的工具做特殊训练。
DeepSeek-V3.2-Speciale是DeepSeek-V3.2的长思考增强版,融合了DeepSeek-Math-V2的定理证明能力。在指令跟随、数学证明、逻辑验证方面表现突出,适合高度复杂数学推理、编程竞赛、学术研究类任务。但目前没有针对日常对话与写作进行专项优化,仅供研究使用,不支持工具调用。在高度复杂任务上,Speciale版本优于标准版本,但消耗更多Tokens,成本更高。DeepSeek的App和Web端已更新为正式版DeepSeek-V3.2;Speciale版本目前仅供临时API使用。
技术报告揭示了DeepSeek-V3.2的一些创新点。新的稀疏注意力机制DSA显著降低了计算复杂度,使长文本处理更高效。DSA包含两个组件:lightning indexer(闪电索引器)和fine-grained token selection(细粒度token选择)机制。通过两阶段策略训练,实测效果显示在128k长度的序列上,DeepSeek-V3.2的推理成本比V3.1-Terminus降低了数倍。此外,团队在强化学习上下了血本,RL训练的计算预算超过预训练成本的10%。为了稳定扩展RL计算规模,团队改进了GRPO算法,采用无偏KL估计、离线序列掩码策略和Keep Routing操作等方法。
新模型在Agent任务上的突破也令人瞩目。团队设计了新的管理机制,保留历史推理内容,减少Token浪费。冷启动阶段,通过精心设计的系统提示让模型学会自然地插入工具调用。自动环境合成pipeline生成了大量任务导向的环境和复杂提示,涵盖多种编程语言和搜索场景。评测结果显示,DeepSeek-V3.2在多个基准测试中表现出色,接近闭源模型的性能。
尽管如此,DeepSeek-V3.2仍存在一些局限性。由于总训练FLOPs较少,世界知识广度落后于领先的闭源模型,Token效率也是个挑战。不过,团队表示这些都是未来版本的改进方向。
