12月1日晚,DeepSeek又上新了两款新模型,DeepSeek-V3.2和DeepSeek-V3.2-Speciale,在推理能力上全球领先。

两款模型有着不同的定位。DeepSeek-V3.2的目标是平衡推理能力与输出长度,适合日常使用,例如问答场景和通用智能体任务场景。9月底DeepSeek发布了实验版V3.2-Exp,此次是正式版更新。在公开推理测试中,V3.2达到了GPT-5的水平,仅略低于谷歌的Gemini3 Pro。
DeepSeek-V3.2-Speciale则是此次的重头戏,其目标是“将开源模型的推理能力推向极致,探索模型能力的边界”。据介绍,Speciale是V3.2的长思考增强版,同时结合了DeepSeek-Math-V2的定理证明能力,该模型具备出色的指令跟随、严谨的数学证明与逻辑验证能力。
据DeepSeek公布的数据,Speciale在多个推理基准测试中超越谷歌最先进的Gemini3 Pro。具体来看,在美国数学邀请赛、哈佛MIT数学竞赛、国际奥林匹克数学竞赛等测试中,V3.2-Speciale都超过了Gemini3 Pro,但在编程、理工科博士生测试中略逊于谷歌。
