圖片來源:DeepSeekMath-V2: Towards Self-Verifiable Mathematical Reasoning

DeepSeek方面表示,盡管仍有許多工作要做,但這些結(jié)果表明,自驗證數(shù)學(xué)推理是一個可行的研究方向,可能有助于開發(fā)更強大的數(shù)學(xué)AI系統(tǒng)。

這款突破性的開源數(shù)學(xué)模型發(fā)布后,再次在社交平臺、reddit、Hacker News等評論區(qū)、社區(qū)引發(fā)熱潮。

其在測試、競賽成績和自驗證方面形成的數(shù)學(xué)定理證明能力突破,最令人關(guān)注。

“從‘結(jié)果導(dǎo)向’的驗證轉(zhuǎn)向‘過程導(dǎo)向’的驗證,這對于定理證明尤為重要,因為在定理證明中,嚴(yán)格的逐步推導(dǎo)比數(shù)值答案更重要。”

“雖然還不清楚具體用途,但擁有一位全天候免費提供的數(shù)學(xué)天才,其潛力巨大。”

“這款開源模型會大大有助于自動化許多注重驗證的編程語言中的繁瑣工作!”

由研究人員和工程師組成的跨學(xué)科團(tuán)隊Binary Verse AI發(fā)文稱,一個開源模型悄無聲息地發(fā)布,卻突破了本科數(shù)學(xué)的瓶頸。該文章作者阿茲馬特(Azmat)提到,Math-V2的有趣之處不僅在于競賽分?jǐn)?shù),更在于其方法。

Binary Verse AI平臺文章DeepSeek Math V2: Inside the Open Source Model That Beat Google at the Math Olympiad

圖片來源:DeepSeek Math V2: Inside the Open Source Model That Beat Google at the Math Olympiad,Binary Verse AI

“如果你曾經(jīng)批改過數(shù)學(xué)試卷,你就會明白猜對答案的學(xué)生和真正推導(dǎo)出答案的學(xué)生之間的區(qū)別。”阿茲馬特認(rèn)為,此前的大模型多屬于前者,只是概率性的猜測者,而Math-V2的出現(xiàn)改變了這一切。

文章總結(jié)稱,我們正從“聊天機器人”時代過渡到“推理者”時代。Math-V2證明了可自驗證的數(shù)學(xué)推理是可以解決的。或許,人類不需要通用人工智能(AGI)來獲得嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)運算能力,只需要教會模型保持謙遜。

社交平臺上,不少AI領(lǐng)域的KOL和知名專家都在轉(zhuǎn)發(fā)消息并表示“DeepSeek強勢回歸”“這是你無法忽視的力量”。

圖片來自社交平臺X

圖片來自社交平臺X

雖然DeepSeek R2的“難產(chǎn)”已經(jīng)成為了AI領(lǐng)域玩梗級別的存在,但實際上,不管是10月發(fā)布、讓OpenAI聯(lián)合創(chuàng)始人大神安德烈·卡帕斯(Andrej Karpathy)盛贊的探索視覺-文本壓縮邊界的DeepSeek-OCR,還是剛剛發(fā)布的Math-V2,都提示著人們:別忘了,今年AI領(lǐng)域的驚喜,正是從DeepSeek開始的。(作者|胡珈萌,編輯|李程程)

本文系作者 飛向TAI空 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容
  • 從只看答案到重視推理過程,Math-V2 這思路轉(zhuǎn)變太關(guān)鍵了,以后定理證明有幫手了!

    回復(fù) 2025.11.29 · via android
  • 開源模型能做到這水平,以后中小團(tuán)隊也能玩數(shù)學(xué) AI,不用再被巨頭卡脖子了!

    回復(fù) 2025.11.29 · via android
  • 之前覺得 AI 數(shù)學(xué)頂破天就是做題,Math-V2 一出來,才知道還能當(dāng) “小數(shù)學(xué)家”!

    回復(fù) 2025.11.29 · via iphone
  • 驗證器訓(xùn)生成器還能自糾錯,這邏輯閉環(huán)玩得溜,難怪推理能這么嚴(yán)謹(jǐn)!

    回復(fù) 2025.11.29 · via android
  • 之前 OpenAI、谷歌拿 IMO 金牌夠厲害,結(jié)果 DeepSeek 不光跟上,還搞出開源版本,太驚喜了!

    回復(fù) 2025.11.29 · via pc
  • 不管 R2 怎么樣,Math-V2 這波已經(jīng)讓 DeepSeek 在 AI 圈站穩(wěn)腳,以后肯定還有大動作!

    回復(fù) 2025.11.29 · via android
  • 社交平臺上好多 KOL 轉(zhuǎn)發(fā),都說這是 “無法忽視的力量”,看來業(yè)內(nèi)認(rèn)可度超高!

    回復(fù) 2025.11.29 · via pc
  • 社交平臺都炸了,好多專家說這是 “推理者” 時代的開始,不是光聊天的 AI 了!

    回復(fù) 2025.11.29 · via h5
  • 自驗證推理不光能做數(shù)學(xué),說不定以后還能用到物理、化學(xué)證明,潛力太大了!

    回復(fù) 2025.11.29 · via android
  • 以前 AI 數(shù)學(xué)只敢當(dāng) “做題家”,Math-V2 居然能嚴(yán)謹(jǐn)推理,連證明過程都能自驗證,絕了!

    回復(fù) 2025.11.29 · via h5
更多評論

快報

更多

18:36

伊朗與巴基斯坦兩國外長通電話,討論地區(qū)局勢

18:35

2025年玩具(不含潮玩)國內(nèi)市場零售總額達(dá)1035.3億元

18:08

全國豬價跌破5元,創(chuàng)歷史新低

18:07

時代天使2025年實現(xiàn)收入3.7億美元,同比增長37.8%

17:57

電魂網(wǎng)絡(luò):擬投資4920萬元取得上海漫魂51%股權(quán)

17:51

美國1天超3000場反戰(zhàn)示威

17:28

雀巢12噸巧克力被盜

17:11

伊朗官員表示將“果斷反擊”美軍奪島

17:08

伊朗議長稱武裝部隊“正等著美軍地面行動”,并將“懲罰”其地區(qū)盟友

17:05

三安光電:董事長及總經(jīng)理擬增持公司股份

16:58

全球多地爆發(fā)示威抗議,民眾高呼“不要戰(zhàn)爭”

16:55

中信證券:配置上建議繼續(xù)堅守中國優(yōu)勢制造業(yè),靜待4月決斷

16:38

美國土安全部資金中斷進(jìn)入第44天,創(chuàng)美國史上最長政府部分“停擺”紀(jì)錄

16:17

北京啟動智能網(wǎng)聯(lián)新能源汽車商業(yè)保險開發(fā)應(yīng)用,統(tǒng)一適配L2至L4全級別智能網(wǎng)聯(lián)新能源汽車

16:16

恒林股份發(fā)布AI體感工學(xué)白皮書,加速布局AI智能家居

16:15

中國國家創(chuàng)新指數(shù)綜合排名世界第9位,較上年提升1位

16:05

朗新科技:2025年歸母凈利潤1.05億元,同比扭虧為盈

16:05

錫業(yè)股份:2025年歸母凈利潤19.66億元,同比增長36.14%

16:04

摩恩電氣:2025年歸母凈利潤1058.2萬元,同比下降40.79%

15:50

宇信科技:2025年歸母凈利潤4.32億元,同比增長13.69%

39

掃描下載App