AI編程已經(jīng)成為生成式AI落地的過程中最熱門的賽道之一,不過,近日一支由國際算法奧賽金牌得主組成的科研團(tuán)隊(duì)發(fā)表的論文卻跟AI編程“潑了一盆冷水”。

AI優(yōu)勢仍停留在“知識(shí)密集型”

這支由國際算法奧賽金牌得主組成的科研團(tuán)隊(duì)對目前市面上常見的大模型產(chǎn)品(包括了GPT-4o、DeepSeek R1、Claude 3等20個(gè)頂級(jí)大模型)進(jìn)行了測試(點(diǎn)擊閱讀LiveCodeBench Pro: How Do Olympiad Medalists Judge LLMs in Competitive Programming?),測試主要內(nèi)容是:一個(gè)由Codeforces、ICPC和IOI這些頂級(jí)賽事中的問題組成的LiveCodeBench Pro基準(zhǔn)測試,在過程中,這些問題會(huì)持續(xù)更新,以降低數(shù)據(jù)污染的可能性,共計(jì)設(shè)置了584道編程賽題。

他們?yōu)槊恳粋€(gè)問題進(jìn)行了算法類別的標(biāo)注,并對模型生成的失敗提交進(jìn)行了逐行分析。

在難度層級(jí)設(shè)置上面,團(tuán)隊(duì)采用 Codeforces  Elo評級(jí)啟發(fā)式方法進(jìn)行難度標(biāo)注。官方Elo評級(jí)≤2000 的問題標(biāo)記為 “簡單”:世界級(jí)選手通??墒褂脴?biāo)準(zhǔn)教科書技術(shù)和觀察在約 15 分鐘內(nèi)解決;中等層級(jí)(2000~3000)包含需要融合兩種或更多成熟算法,并結(jié)合非平凡數(shù)學(xué)推理和觀察的問題;任何評級(jí) > 3000 的問題視為 “難”——這些挑戰(zhàn)通常依賴極復(fù)雜、非明顯的推導(dǎo)或演繹飛躍,需要對算法理論的精湛掌握和深厚的數(shù)學(xué)直覺。超過 99.9% 的參與者無法解決,甚至在實(shí)時(shí)競賽中最強(qiáng)選手有時(shí)也未能解決。

根據(jù)該團(tuán)隊(duì)發(fā)布的論文顯示,在沒有外部工具的情況下,表現(xiàn)最佳的模型在中等難度問題上的通過率僅為53%,在難題上通過率為0%,而這些領(lǐng)域正是人類專家的強(qiáng)項(xiàng)。

除此之外,他們還發(fā)現(xiàn),LLMs在實(shí)現(xiàn)密集型問題上表現(xiàn)出色,但在涉及微妙算法推理和復(fù)雜案例分析的問題上卻表現(xiàn)不佳,常常生成看似正確實(shí)則錯(cuò)誤的推理。高性能似乎主要由實(shí)現(xiàn)精度和工具增強(qiáng)驅(qū)動(dòng),而非 superior reasoning(優(yōu)越的推理能力)。

同時(shí),團(tuán)隊(duì)還對大模型在某些方面的失敗分析了原因,分析表明 LLM 的代碼通常語法更可靠,但在構(gòu)思正確算法或從問題中提取正確觀察所需的高級(jí)推理中掙扎。盡管我們的正式注釋僅涵蓋 o3-mini 的提交,初步人工檢查表明大多數(shù)現(xiàn)有 LLM 共享相同的錯(cuò)誤模式。

該團(tuán)隊(duì)在經(jīng)過測試之后,得出了四個(gè)結(jié)論:

AI編程已是“兵家必爭之地”

雖然測試的結(jié)果不盡如人意,但AI編程已經(jīng)成為科技大廠必爭的市場,也是他們繼續(xù)AI故事的重要一環(huán)。比如,微軟基于GPT-4模型推出了GitHub Copilot提供代碼補(bǔ)全、生成和錯(cuò)誤修復(fù)功能,支持多種IDE(如VS Code、JetBrains),并新增“智能體”功能,可自主執(zhí)行開發(fā)任務(wù);OpenAI推出了Codex智能體,支持代碼生成和復(fù)雜任務(wù)處理,與GitHub深度整合;谷歌推出了Gemini 2.5 Pro與JulesAI代理服務(wù);字節(jié)跳動(dòng)推出了集成Claude 3.7和GPT-4o模型的AI原生IDE支持快速原型開發(fā),以及MarsCode一站式開發(fā)平臺(tái);美團(tuán)上線了AI編程工具“NoCode” ........

從目前發(fā)展趨勢上看,國內(nèi)與國際科技公司聚焦的方向不盡相同,國際廠商更為強(qiáng)調(diào)智能體和復(fù)雜任務(wù)處理;國內(nèi)工具如通義靈碼、Trae等更注重本土化適配和快速開發(fā)。

AI編程當(dāng)下如此之火,也讓一些程序員產(chǎn)生了可能被AI“替代”的焦慮。不過,通過前文提及的團(tuán)隊(duì)測試不難看出,在一些非知識(shí)密集型的編程場景下,程序員的價(jià)值依舊很大,能力自然也超過AI。所以,雖然AI編程成為熱門賽道,但對于企業(yè)而言,一位有經(jīng)驗(yàn),能操作高難度,具備“創(chuàng)造力”的程序員,依舊是企業(yè)數(shù)字化過程中的中堅(jiān)力量。

而大模型僅在知識(shí)密集型的場景下具備顯著優(yōu)勢,也不僅僅體現(xiàn)在編程領(lǐng)域。在此前筆者與行業(yè)內(nèi)多名專家的交流中,他們也都向筆者表示了,大模型現(xiàn)在的比較有優(yōu)勢的場景還是主要集中在知識(shí)密集型的場景下。在這些場景下,AI確實(shí)能夠幫助企業(yè)實(shí)現(xiàn)降本增效,不過這種能力距離我們期待的,能夠統(tǒng)籌全局的智能體,還有很大差距。當(dāng)AI能獨(dú)立解決IOI金牌題時(shí),通用人工智能才會(huì)真正到來。(本文首發(fā)于鈦媒體APP,作者|張申宇,編輯丨蓋虹達(dá))

本文系作者 Leo張ToB雜談 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號(hào)后發(fā)表評論

登錄后輸入評論內(nèi)容
  • 推理模型優(yōu)勢有限,AI 編程要走的路,簡直比登天還難!

    回復(fù) 2025.06.26 · via iphone
  • 推理模型提升有限,AI 編程想進(jìn)階難如登天!

    回復(fù) 2025.06.26 · via h5
  • 增加嘗試次數(shù)也救不了場,AI 編程想突破,根本沒那么容易!

    回復(fù) 2025.06.26 · via h5
  • 大模型代碼語法行,算法構(gòu)思卻不行,太矛盾了!

    回復(fù) 2025.06.26 · via h5
  • 靠 AI 編程實(shí)現(xiàn)通用人工智能?簡直就是天方夜譚!

    回復(fù) 2025.06.26 · via pc
  • 企業(yè)數(shù)字化還得靠程序員,AI 編程離挑大梁差遠(yuǎn)了!

    回復(fù) 2025.06.26 · via iphone
  • 觀察密集型問題搞不定,AI 編程應(yīng)用直接受限一大半!

    回復(fù) 2025.06.26 · via iphone
  • 頂級(jí)大模型難題通過率居然是 0%,吹得神乎其神,原來也就這水平!

    回復(fù) 2025.06.26 · via android
  • 大模型相同錯(cuò)誤模式頻出,開發(fā)團(tuán)隊(duì)不優(yōu)化下?

    回復(fù) 2025.06.26 · via pc
  • 這測試結(jié)果一出,AI 編程的 “泡沫” 該降降溫了!

    回復(fù) 2025.06.26 · via android
更多評論

快報(bào)

更多

20:34

大風(fēng)、降水來襲,長江江蘇段部分區(qū)域?qū)嵤┡R時(shí)交通管制

19:59

國航C919正式投入北京—廈門、北京—哈爾濱兩條航線運(yùn)營

19:57

中鋁國際:2025年歸母凈利潤2.58億元,同比增長16.47%

19:19

伊朗稱已打擊與美軍工有關(guān)聯(lián)的兩家企業(yè)

18:36

伊朗與巴基斯坦兩國外長通電話,討論地區(qū)局勢

18:35

2025年玩具(不含潮玩)國內(nèi)市場零售總額達(dá)1035.3億元

18:08

全國豬價(jià)跌破5元,創(chuàng)歷史新低

18:07

時(shí)代天使2025年實(shí)現(xiàn)收入3.7億美元,同比增長37.8%

17:57

電魂網(wǎng)絡(luò):擬投資4920萬元取得上海漫魂51%股權(quán)

17:51

美國1天超3000場反戰(zhàn)示威

17:28

雀巢12噸巧克力被盜

17:11

伊朗官員表示將“果斷反擊”美軍奪島

17:08

伊朗議長稱武裝部隊(duì)“正等著美軍地面行動(dòng)”,并將“懲罰”其地區(qū)盟友

17:05

三安光電:董事長及總經(jīng)理擬增持公司股份

16:58

全球多地爆發(fā)示威抗議,民眾高呼“不要戰(zhàn)爭”

16:55

中信證券:配置上建議繼續(xù)堅(jiān)守中國優(yōu)勢制造業(yè),靜待4月決斷

16:38

美國土安全部資金中斷進(jìn)入第44天,創(chuàng)美國史上最長政府部分“停擺”紀(jì)錄

16:17

北京啟動(dòng)智能網(wǎng)聯(lián)新能源汽車商業(yè)保險(xiǎn)開發(fā)應(yīng)用,統(tǒng)一適配L2至L4全級(jí)別智能網(wǎng)聯(lián)新能源汽車

16:16

恒林股份發(fā)布AI體感工學(xué)白皮書,加速布局AI智能家居

16:15

中國國家創(chuàng)新指數(shù)綜合排名世界第9位,較上年提升1位

39

掃描下載App