圖片由AI生成
“我從未像現(xiàn)在這樣對我們的研發(fā)和產(chǎn)品路線圖,以及實現(xiàn)我們使命的整體方向感到如此樂觀。”
12月12日,在正式上線GPT-5.2的同時,OpenAI CEO薩姆·奧爾特曼(Sam Altman)發(fā)布了一篇十周年紀(jì)念文章中這樣說。
他極力向外界展現(xiàn)著自己依舊自信的一面。畢竟,雖然GPT大模型和ChatGPT聊天機(jī)器人至今仍是當(dāng)前AI大潮的造浪者,但想必此刻,奧爾特曼感受到的競爭壓力堪稱空前。
今年以來,DeepSeek、Grok、Claude等競爭者的強勢追趕,尤其是谷歌上個月推出的Gemini 3大放異彩,都將AI大模型競爭推上了更新的高度。
最近,奧爾特曼先是在內(nèi)部備忘錄中提示員工,需要接受最好的大模型不出自家之手的事實,繼而,又發(fā)出公司首個“紅色警報”,強調(diào)“立即行動,集中所有資源奪回領(lǐng)先地位”。
![]()
截圖來自社交平臺X
只有更強大的產(chǎn)品,才能支撐自信的底氣。
在十周年紀(jì)念日這天,OpenAI重磅發(fā)布預(yù)熱了一周多的GPT-5.2,評測表現(xiàn)再次反超所有競爭對手。
但谷歌不甘示弱,幾乎在同一時間發(fā)布了新品,讓這場大模型之爭的戰(zhàn)況再次升級。
GPT-5.2此次仍然“全線出擊”,一次性發(fā)布了Instant、Thinking和Pro三款不同層級的模型。
近一個月前Gemini 3發(fā)布時,其評測得分幾乎“碾壓”GPT-5的表現(xiàn)引發(fā)市場巨大關(guān)注。
而這次,根據(jù)OpenAI發(fā)布的基準(zhǔn)測試結(jié)果,GPT-5.2實現(xiàn)了全面反超,其Thinking模型基準(zhǔn)測試得分均高于Gemini 3 PRO和Anthropic的Claude Opus 4.5。
其中,GPT-5.2在博士級別的專家推理評估GPQA Diamond得分高達(dá)92.4%,相比GPT-5.1 Thinking的88.1%和Gemini 3 PRO剛剛刷出的91.9%高分再進(jìn)一步。在不用工具的情況下,GPT-5.2在最新美國數(shù)學(xué)邀請賽(AIME2025)中拿到了滿分。
OpenAI尤其強調(diào)了GPT-5.2在專業(yè)工作方面的領(lǐng)先地位,稱其Thinking模型是“目前最能夠勝任現(xiàn)實中各類專業(yè)用途的模型”。
在用于評估專業(yè)型技能的GDPval測試中,該模型得到了70.9%的高分,比GPT-5.1 Thinking高了足足32.1%,領(lǐng)先Gemini 3 PRO有17.4%。此外,對比尤其擅長編程等企業(yè)工作,此前在該評估中更勝一籌的Claude Opus 4.5,OpenAI的新品也高出了11.3%。
![]()
圖片來自O(shè)penAI
OpenAI給出的案例演示中,GPT-5.2聚焦了制作表格、整理分析數(shù)據(jù)、制作項目流程圖等十分落地的現(xiàn)實工作場景。
公司還表示,新模型在編寫代碼、制作PPT、圖像感知、理解長上下文、使用工具、處理復(fù)雜的多步驟項目方面都表現(xiàn)出色,而且錯誤率較前代產(chǎn)品大大減少。
模型發(fā)布后,GPT-5.2在實際工作場景中的表現(xiàn)也確實獲得了不少贊許,一些使用者給予了其“最強AI打工人”“職場最佳拍檔”等稱號。
不過,這個“打工人”的“高工資”可能會成為問題。
數(shù)據(jù)顯示,在輸入輸出價格方面,GPT-5.2要比前代貴了40%,輸入價格21美元,輸出價格高達(dá)168美元。
這再次引發(fā)了一些擔(dān)憂,此前,OpenAI堆算力發(fā)展大模型的做法已經(jīng)受到質(zhì)疑,無論是DeepSeek還是Gemini,似乎都證明著AI應(yīng)用可以采取更具性價比的模式。
如果再考慮市場對以O(shè)penAI和英偉達(dá)等引領(lǐng)的資本支出狂潮,以及市場對泡沫焦慮的警惕,GPT-5.2是靠算力“硬懟”實現(xiàn)的反擊,那這顯然對奧爾特曼來說,也是個隱憂。
可以看到的是,一些用戶在吐槽Thinking和PRO的應(yīng)答時間明顯較慢,比其前代產(chǎn)品還要慢。而對于逐漸嵌入日常生活、工作的AI產(chǎn)品來說,機(jī)會成本和效率顯然已愈發(fā)重要。
普通即時版GPT-5.2仍然在一些常識問題上犯錯,也引發(fā)了一些用戶玩梗吐槽。
當(dāng)然,OpenAI的動作還沒有結(jié)束。奧爾特曼表示,下周,會繼續(xù)給用戶帶來“小圣誕禮物”,ChatGPT的“成人模式”也預(yù)計將于明年一季度面世。
OpenAI的勁敵們,早已準(zhǔn)備好子彈,回?fù)暨@次GPT的重要更新。
谷歌搶在GPT-5.2前一個小時左右進(jìn)行了產(chǎn)品更新,稱其深度研究智能體Gemini Deep Research全面增強,并首次向開發(fā)者開放,再次引發(fā)了關(guān)注,試圖不讓OpenAI獨占“頭條”。
據(jù)谷歌介紹,Gemini Deep Research基于Gemini 3 PRO構(gòu)建,通過多步強化學(xué)習(xí)訓(xùn)練,顯著減少“幻覺”,在復(fù)雜研究任務(wù)中表現(xiàn)出更高精度。
在人類終極大考(HLE)中,Gemini Deep Research得到46.4%分,比GPT-5.2 Thinking的45.5%要高,僅低于GPT-5 Pro的50%。
![]()
圖片來自谷歌
但是,其更大的優(yōu)勢在成本極低,谷歌產(chǎn)品經(jīng)理透露,新版智能體在與GPT-5 Pro表現(xiàn)相當(dāng)?shù)耐瑫r,成本僅為后者的十分之一左右,展現(xiàn)出強大的性價比優(yōu)勢。
相對于OpenAI,更好的性價比、另辟蹊徑的訓(xùn)練模式、公司的現(xiàn)金流、自研專用芯片等,都是谷歌“逆襲”敘事的核心。
如今,在大模型比拼性能的同時,谷歌的核心優(yōu)勢仍在繼續(xù),這也持續(xù)為OpenAI帶來壓力。
此外,為科學(xué)評估研究型智能體的能力,谷歌還同步開源了基準(zhǔn)測試工具DeepSearchQA,包含覆蓋17個領(lǐng)域的900項復(fù)雜任務(wù)。
當(dāng)然,GPT-5.2未必是奧爾特曼捍衛(wèi)大模型王座的殺手锏。
此前有消息稱,OpenAI在加速開發(fā)自身全新的模型“Garlic”,致力于通過新的方式重建絕對領(lǐng)先的優(yōu)勢。谷歌、Anthropic顯然還會繼續(xù)拿出更好的產(chǎn)品。而Meta和DeepSeek等競爭者也同樣有著令人期待的新品可能面世。
大模型浪潮的另一大贏家英偉達(dá),最近與美銀舉辦了一次投資者線上交流會。英偉達(dá)方面提到,只依據(jù)Gemini 3的表現(xiàn)比GPT5更優(yōu),就認(rèn)為谷歌自研的TPU要好于英偉達(dá)的GPU是不合理的。
尤其目前大部分的大模型都是用上一代H系列芯片訓(xùn)練的,用Blackwell訓(xùn)練的大模型要到2026年才會上線,其優(yōu)勢到時才會顯現(xiàn),更不用說還未投入使用的新一代超級芯片Rubin。
市場對英偉達(dá)的說法看法不一,有觀點認(rèn)為模型強大與否與芯片代際不直接掛鉤,也有觀點認(rèn)為更關(guān)鍵的還是性價比問題。不過,不管怎樣,英偉達(dá)的說法已讓明年的大模型之爭看起來更值得期待了。
2025年年末之際,AI大模型之戰(zhàn)和AI芯片之戰(zhàn)的戰(zhàn)局,都變得更加刺激,2026年,想必戰(zhàn)況還會繼續(xù)升級。這場戰(zhàn)事不僅是大模型能力之爭,更是關(guān)系到大模型的訓(xùn)練、發(fā)展路徑,以及AI芯片的未來之戰(zhàn)。(作者|胡珈萌,編輯|李程程)
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機(jī)號后發(fā)表評論
GPT-5.2 能做表格、寫代碼,功能是強,可這價格,小企業(yè)根本用不起啊!
GPT-5.2 專業(yè)能力沒話說,可常識題還犯錯,這基礎(chǔ)功咋沒做好呢?
Gemini Deep Research 成本低還能打,OpenAI 要是不降價,怕是要被比下去!
谷歌新品成本低,還能減少 “幻覺”,對做研究的人來說,這簡直是福音!
Gemini Deep Research 開放給開發(fā)者,還開源測試工具,谷歌這波格局拉滿!
Gemini Deep Research 覆蓋 17 個領(lǐng)域測試,谷歌這是想在研究領(lǐng)域站穩(wěn)腳!
2026 年大模型和芯片之戰(zhàn)肯定更刺激,谷歌、OpenAI、英偉達(dá)誰能贏還真不好說!
GPT-5.2 貴還慢,普通用戶吐槽不斷,OpenAI 真該好好優(yōu)化下使用體驗了!
OpenAI 下周要送 “圣誕禮物”,明年還有 “成人模式”,這是想挽留住用戶?
OpenAI 都發(fā) “紅色警報” 了,看來被谷歌這些對手逼得不輕,競爭太激烈!