圖片來源:unsplash

ChatGPT迎來三周歲生日之際,競爭對手DeepSeek送來了一份“生日禮”,似乎并不想讓這位大模型領(lǐng)域的先行者過得那么輕松。

12月1日晚間,DeepSeek一口氣發(fā)布了DeepSeek-V3.2和DeepSeek-V3.2-Speciale兩個正式版模型,同步發(fā)布的技術(shù)論文顯示,這兩個推理能力達(dá)到了全球領(lǐng)先水平。

根據(jù)DeepSeek介紹,已經(jīng)在網(wǎng)頁端、App、API全部更新的“常規(guī)軍”V3.2重在平衡推理能力與輸出長度,適合日常使用。

在Benchmark推理測試中,V3.2與GPT5、Claude??4.5在不同領(lǐng)域各有高低,只有Gemini 3 Pro對比前三者均有較明顯優(yōu)勢。

圖片來自DeepSeek官微

圖片來自DeepSeek官微

與此同時(shí),DeepSeek方面還表示,對比國產(chǎn)大模型廠商月之暗面新近發(fā)布的Kimi-K2-Thinking,V3.2的輸出長度大幅降低,顯著減少了計(jì)算開銷與用戶等待時(shí)間。在智能體評測中,V3.2得分也高于同為開源的Kimi-K2-Thinking和MiniMax M2,是目前的“最強(qiáng)開源大模型”,相比閉源大模型的巔峰也已無限迫近。

圖片來自DeepSeek官微

圖片來自DeepSeek官微

更值得注意的是,V3.2在一些問答場景和通用Agent任務(wù)中的表現(xiàn)。在一個關(guān)于旅游攻略的具體場景咨詢中,V3.2通過深度思考和網(wǎng)站爬蟲、搜索引擎等工具調(diào)用,給出了十分詳盡、精確的攻略和建議。V3.2更新的API首次支持了在思考模式下使用工具調(diào)用能力,大大提升了用戶獲取到的答案的豐富度和適用性。

而且,DeepSeek方面特別強(qiáng)調(diào),V3.2“并沒有針對這些測試集的工具進(jìn)行特殊訓(xùn)練”。

我們注意到,在大模型測試得分越來越高,但在與普通用戶的互動中卻經(jīng)常犯一些常識性錯誤的當(dāng)下(尤其以GPT5發(fā)布時(shí)遭遇的吐槽為代表),DeepSeek近期“上新”時(shí)經(jīng)常強(qiáng)調(diào)這一點(diǎn),證明自身走的不是一條只用正確的答案作為獎勵機(jī)制,打造出了看似高智商的“最強(qiáng)大腦”,卻無法勝任用戶個人所需的簡單任務(wù)、簡單問題的“低情商”智能體。

而只有從根本上克服這一點(diǎn),成為所謂高智商、高情商的“雙高”大模型,才有孕育出全能、可靠、高效的AI Agent的能力。DeepSeek方面也表示,相信V3.2在真實(shí)應(yīng)用場景中能夠展現(xiàn)出較強(qiáng)的泛化性。

為了在計(jì)算效率、強(qiáng)大推理能力與智能體性能之間取得平衡,DeepSeek在訓(xùn)練、整合以及應(yīng)用層面進(jìn)行了全方位的優(yōu)化。根據(jù)技術(shù)論文,V3.2引入了DSA(DeepSeek稀疏注意力機(jī)制),能在長上下文場景中顯著降低計(jì)算復(fù)雜度,同時(shí)保持模型性能。

同時(shí),為了將推理能力整合到工具使用場景中,DeepSeek開發(fā)了新的合成流程,能夠系統(tǒng)性地大規(guī)模生成訓(xùn)練數(shù)據(jù)。這一方法促進(jìn)了可擴(kuò)展的智能體訓(xùn)練后優(yōu)化,顯著提升了復(fù)雜、交互式環(huán)境中的泛化能力和對指令跟隨能力。

另外,如上文所述,V3.2也是DeepSeek推出的首個將思考融入工具使用的模型,大幅提高了模型的泛化能力。

相比于重視平衡性,專注于如何“說人話、干人事”的V3.2,長思考“特種部隊(duì)”V3.2 Speciale的定位則是將將開源模型的推理能力推向極致,探索模型能力的邊界。

值得一提的是,V3.2 Speciale的一大亮點(diǎn)是結(jié)合了上周剛剛發(fā)布的最強(qiáng)數(shù)學(xué)大模型DeepSeek-Math-V2的定理證明能力。

我們此前的文章中提到,Math-V2不僅在2025國際數(shù)學(xué)奧林匹克競賽和2024中國數(shù)學(xué)奧林匹克上都取得了金牌級成績,在IMO-Proof Bench基準(zhǔn)測試評估中還得到了比Gemini 3更好的成績。

而且,與此前提到的思路類似,這款數(shù)學(xué)模型同樣在努力克服正確答案獎勵機(jī)制和“做題家”的身份,以自驗(yàn)證的方式突破目前AI在深度推理方面的局限,讓大模型真的弄懂何為數(shù)學(xué),怎樣推導(dǎo)過程,以此形成更強(qiáng)大、穩(wěn)定、實(shí)用也泛用的定理證明能力。

在推理能力上大幅增強(qiáng)的V3.2 Speciale,也在主流推理基準(zhǔn)測試中取得了媲美Gemini 3.0 Pro的成績。不過,V3.2 Speciale的能力優(yōu)勢需消耗大量Tokens,顯著升高的成本讓其目前不支持工具調(diào)用和日常對話、寫作,僅供研究使用。

從OCR到Math-V2,再到V3.2和V3.2 Speciale,DeepSeek近期的新品發(fā)布不僅每次都收獲贊譽(yù)一片,也在絕對能力提升的同時(shí)不斷明確著“實(shí)用性”“泛化能力”等發(fā)展主線。

2025年后半程,GPT-5、Gemini 3、Claude?Opus?4.5相繼發(fā)布,測試成績一次好過一次,再加上快速追趕的DeepSeek,“最牛大模型”的賽道已經(jīng)有些擁擠。而頭部的大模型在訓(xùn)練上已有較明顯的區(qū)別,表現(xiàn)上也各有特色,相信2026年的大模型的競賽會更加精彩。(作者|胡珈萌,編輯|李程程)

本文系作者 飛向TAI空 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報(bào)

更多

13:32

本周南向資金凈買入251億港元,泡泡瑪特凈買入超36億港元

13:17

沙特每日700萬桶石油繞過霍爾木茲

13:16

中東兩大鋁廠遇襲,恐影響全球供應(yīng)鏈

12:58

全國累計(jì)器官捐獻(xiàn)志愿登記人數(shù)超過733萬

12:46

宇樹科技具身智能體驗(yàn)館亞洲首店將于5月底落地上海

12:44

洛杉磯10萬人參加“不要國王”抗議,多人被捕

12:37

今年前兩月霍爾果斯口岸果蔬出口增長29.3%

11:48

中國首臺商用12兆伏串列加速器成功下線

11:40

美副總統(tǒng)稱無意滯留伊朗,將很快撤出

11:39

中關(guān)村兩院具身通用智能基座模型與社會模擬器等科研成果發(fā)布

11:37

清明檔新片預(yù)售票房突破2000萬

11:30

約千人“包圍”洛杉磯政府機(jī)構(gòu)大樓,兩人被捕

10:59

中穎電子:有序推進(jìn)車規(guī)芯片研發(fā),新產(chǎn)品預(yù)期今年推出

10:50

德研究報(bào)告:中國工業(yè)數(shù)字化水平全球領(lǐng)先

10:39

訊飛醫(yī)療2025年?duì)I收增長25%,虧損收窄

10:14

廣東省市場監(jiān)管局聯(lián)合廣州市市場監(jiān)管局召開平臺企業(yè)座談會

10:10

貝殼啟動戰(zhàn)略變革:管理者站上一線,經(jīng)紀(jì)人KPI減負(fù)

10:06

中東戰(zhàn)事致燃油短缺,越南多家航司將削減航班數(shù)量

10:06

新研究估計(jì)全球每年逾25萬人死于腦膜炎

10:02

印尼16歲以下人群“社媒禁令”正式生效

掃描下載App