一時間,谷歌風頭無兩,幾乎成為了行業(yè)討論的主角。

作為多個大模型的深度用戶而言,Gemini3解決了“誰最好用”這個難題。在此之前,如果你問哪家模型強,得到的回答往往是:“A家擅長寫代碼,B家擅長創(chuàng)意,C家邏輯好,建議你都開著。”

作為用戶而言,Gemini 3的用戶體驗在當下大模型中找不出代餐,是一個“六邊形戰(zhàn)士”,將所有的復雜的工具矩陣統(tǒng)一到了一個對話框內。

對于行業(yè)而言,Gemini 3終結了單一唯獨的文本內卷,引導大模型進入多模態(tài)的競爭,用體驗上的降維打擊,強行將行業(yè)拉入了多模態(tài)與 Agent(智能體)的競爭新紀元。

也許是這份“全網好評”讓Open AI倍感壓力,Open AI緊接著連夜發(fā)布了Chatgpt 5.1pro和Chatgpt 5.1-Codx-Max。

Open Ai的這輪更新,既是被逼出來的節(jié)奏,也是在向外界宣告:頂級對決,戰(zhàn)線已經從模型本體擴展到體驗與生態(tài)。

Gemini 3,用戶體驗遠勝參數

Gemini 3大受好評的原因,不僅是在參數上秀了一把肌肉,更重要的是回歸用戶思維,在用戶體驗上秀了一把智商。

話不多說,我們直接看Gemini 3最硬的幾個指標。

LMArena作為大模型界最被認可的盲測擂臺,以公平、公開著稱,所有模型匿名對打,題目隨機生成。Gemini 3 pro在這里拿到了1501 Elo的好成績,直接沖進了頂級梯隊,得分位列LMArena大模型競技場第一。

 Gemini 3 在一系列關鍵人工智能基準測試中均處于領先水平。

看各項指標對比也能看出來,這個分數不是單項的好,而是整體均衡的夸張。在編程、創(chuàng)意、數學、對話等各項維度上,它幾乎沒有短板。

另外,Gemini 3 的深度思考模式,將智能邊界再次往前推了一大截。在推理能力與多模態(tài)理解上,它不是正常迭代,而是出現了一個明顯的“臺階式躍遷”,能夠處理比以往更復雜、更多變的問題。

在各項測試中,Gemini 3 Deep Think交出的成績也十分亮眼。比如在人類終極測試中,(無工具條件下得分 41.0%)和 GPQA Diamond(得分 93.8%)上,它的表現不僅全面超過 Gemini 3 Pro——甚至把測試難度里最依賴真實推理能力的部分,直接拔高了一層。

此外,它在ARC-AGI-2(代碼執(zhí)行,經過 ARC Prize 官方驗證)上取得了前所未有的 45.1%的成績。這一項本質在測試 AI 如何面對“沒有標準答案、需要從零拆解問題”的挑戰(zhàn),而 Gemini 3 展現出的能力說明,它不僅能“解決題”,還能探索新問題的結構。

Gemini 3 的deep think模式在一些具有挑戰(zhàn)性的AI 基準測試中的表現

最能說明問題的,是它在Vending-Bench 2 排行榜上的表現。

Vending-Bench 2 測試的是長期規(guī)劃:讓模型運營一個模擬的自動售貨機業(yè)務,貫穿整整一年的補貨、定價、決策、工具調用,考驗是否能在長時間跨度內保持決策一致性,不偏題、不跑偏、不陷入混亂。

在這項測試中,Gemini 3 Pro 一整年都保持著穩(wěn)定清晰的策略路徑,在不偏離任務目標的前提下持續(xù)提高收益。

與其他前沿模型相比,Gemini 3 Pro展現出更好的長期規(guī)劃能力,能夠產生更高的回報

Chatgpt 5.1pro帶來的升級,較為“低調”,截至目前官方博客中都并未有具體介紹,只在更新的博客中有兩段介紹。

也許是因為Open AI只把ChatGPT pro當附屬的升級,實際體驗下褒貶不一。據HyperWrite AI的CEO發(fā)布的體驗長文來看,雖然功能強大但界面設計有所欠佳。

Antigravity押寶深度協助體驗,Codex-Max注重長時任務

除了Gemini3以外,谷歌還交出了另一份答卷,發(fā)布了一個叫 Antigravity 的開發(fā)工具(IDE / agent 平臺),用 Gemini 3 Pro 來驅動多個 agent 協作。 

如果說Deep Think 是大腦,那么谷歌這次推出的 Antigravity,就是 AI 的“雙手”。

對于程序員而言,它類似于Claude Code 或 OpenAI Codex:可以訪問電腦、執(zhí)行代碼、自動生成程序,屬于專業(yè)的編程智能體。

舉個例子,一個用戶只給了一個極其簡單的指令:“在《我的世界》里建一個AI繪畫程序。”

它就直接在游戲環(huán)境里,用方塊和游戲邏輯,從零開始搭建、訓練并運行了一個可以生成圖片的AI模型,并用游戲中的3D方塊墻實時展示了AI“畫圖”的全過程。

在交互層面上,Gemini3也發(fā)生了改變,整個應用界面和呈現方式煥然一新,更注重結構化布局和可視化內容。另外,Gemini3也更加人性化了,針對不同人群,系統(tǒng)會有不同的生成界面設計。

比如,一位開發(fā)者從一個空白屏幕開始,僅用了幾分鐘時間,就通過一個詳細的提示詞,讓Gemini 直接生成了一個界面清爽、設計精美的 Landing Page,并且該頁面完全具備響應式設計。

Gemini3的升級,也正好對應了 AI 心智從文本世界到物理世界的“三維結構”進化。

前陣子李飛飛發(fā)長文,強調空間智能(Spatial Intelligence)是 AI 的終極方向。她認為,真正的智能不僅僅是理解語言,更是要理解物理世界。

在她看來,空間智能包含三個方面:感知層、認知層、行動層面。只有三者深度閉環(huán),才有可能進入空間智能領域。

在我的理解看來,谷歌的Gemini3的升級其實就是在感知和認知層上的一大突破,相比其他的模型而言,Gemini3的一大突破在于,開始從認知層突破,比如會嘗試以人類的思維分析一些常見的事物。比如,“如果這里掉一顆螺絲,桌子可能卡住”等等常識問題。

我們從實際體驗上也可以看到Gemini 3 在規(guī)劃能力上有非常強的自主性。它能自己判斷下一步該做什么,也能判斷需要在哪些關鍵節(jié)點征求你的同意。

為了測試Antigravity,一位專攻創(chuàng)業(yè)及人工智能的沃頓商學院的教授,給它授權訪問了電腦中一個存滿雜亂AI相關文章的目錄,只提了一個模糊需求:“我需要一個網站,把我所有關于 AI 的預測列出來,再上網查一下哪些預測驗證了,哪些沒驗證。”

之后發(fā)生的過程非常順暢:它自動讀取了全部文件;自動調用代碼;自動規(guī)劃網站結構,并在關鍵步驟主動確認了需求細節(jié)。

下面的截圖就是它第一次回過來問的問題——你能明顯感覺到,它對需求的理解準確清晰,幾乎不用再重復任何上下文。只做了幾處小修改,就讓它繼續(xù)運行,結果直接生成了一個可編輯、可上線的方案。

這就是Gemini 3 作為智能體的新質感,不是你告訴我一步我走一步,而是“我已經理解你的目標了,我來拆分路徑,你只負責確認方向”。

Chatgpt 5.1-Codex-Max的特點則是,能夠利用內建的壓縮功能持續(xù)處理長時間任務。

比如,它在實際工程任務中的表現已經優(yōu)于GPT-5.1-Codex,并且是首個專門訓練能在 Windows 環(huán)境下運行的 Codex 模型。在使用 PowerShell 時更是得心應手,在 Windows 機器上的協作能力也比以往更強。

此次,它們還把代理模式帶上了Windows。Codex 能在你的工作文件夾里讀文件、寫文件、跑指令,關鍵是不再需要你那一遍遍點頭確認,背后是一套新的實驗性 Windows 沙箱,會自動限制文件系統(tǒng)和網絡的訪問。

再看看表現。在SWE-Bench Verified 的中等難度測試里,它不僅跑贏了 GPT-5.1-Codex,還把思考標記壓縮了大約 30%。對于深度、對延遲不敏感的工作,新增了超高推理模式。

文本之爭落幕,全模態(tài)戰(zhàn)爭開幕

看完Gemini 3 性能和ChatGPT 5.1 pro,從商業(yè)和市場競爭的角度來看,我們可以正式宣告:文本之爭落幕,多模態(tài)戰(zhàn)爭正式打響。

在這種新格局下,市場對大模型的衡量標準也趨于理性,相比一味追求性能跑分,市場情緒的更加審慎,商業(yè)落地和分發(fā)能力成了更大的考量。

谷歌“B/C端兩手抓”的戰(zhàn)略意圖十分明顯。

一方面,谷歌利用Gemini 3的性能優(yōu)勢,疊加極致的用戶體驗,快速打開用戶心智,并建立起不可替代的生態(tài)依賴。

為此,谷歌將Gemini 3快速部署至核心產品(Google 搜索、Gemini 應用等)。其中,Gemini 3在 AI 搜索中的回答不再是傳統(tǒng)的鏈接列表,而是更結構化、可視化的交互網頁。這種直觀的、高度集成化的體驗,讓用戶迅速習慣并依賴于谷歌的 AI 生態(tài)。

這種分發(fā)能力+強模型的組合拳,也會對競爭對手構成了巨大壓力。投資策略師Mike O’Rourke 指出:谷歌把 Gemini 3 部署到其核心產品(比如Google搜索、Workspace)里,這種組合可能對 OpenAI 等競爭對手構成很大壓力。

另一方面,企業(yè)級運用是快速搶占B 端市場的關鍵腹地,推出 Vertex AI 和 Antigravity 平臺,提供模型定制、安全部署和系統(tǒng)級集成的 PaaS/SaaS 解決方案。

當前市場上,競爭對手也在采取類似的策略搶占B端市場,像AI企業(yè) Anthropic 前不久就和IBM合作,把它們旗下的大模型Claude整合進 IBM 的軟件體系。

這意味著B 端市場的競爭已經從單一模型性能,轉向了“模型+平臺+生態(tài)”的系統(tǒng)整合能力。更重要的是,這暴露了現有競爭格局的結構性弱點。比如百度文心一言等模型雖然也在強調多模態(tài),但目前的行業(yè)現狀大多是“拼湊式”,用一個模型看圖,用另一個模型寫字。

所以打通生態(tài)閉環(huán)已成為科技巨頭們不約而同的戰(zhàn)略方向。以谷歌、微軟為代表的巨頭們,憑借主營業(yè)務的強大現金流,可以持續(xù)為高成本的大模型研發(fā)進行投入,而生態(tài)的深度集成則能夠迅速將技術優(yōu)勢轉化為高粘性的客戶依賴和穩(wěn)固的商業(yè)收入。

OpenAI 正是吃了缺乏生態(tài)的虧,導致B端客戶流失。比如生態(tài)缺失使其商業(yè)模式面臨結構性挑戰(zhàn),其營收來源對ChatGPT Plus 訂閱和 API 接口授權表現出顯著的過度依賴,帶來了明顯的商業(yè)風險和后勁不足。 

在B端,缺乏自有平臺使其難以主導企業(yè)的核心工作流,削弱了其技術勢能向市場份額轉化的效率。所以可以看到,Open AI短短兩年間市場份額快速下滑,僅一年半,從2023年50%市占率降至25%。(企業(yè)級市場)

企業(yè)語言大模型API市場份額

早期許多企業(yè)使用OpenAI 的 API 來構建自己的 AI 應用。然而隨著谷歌 Gemini、Anthropic Claud等競品性能追平甚至超越,企業(yè)開始審慎評估成本。如果能用更便宜、更穩(wěn)定或更易集成的模型達到同樣效果,客戶就會轉向其他供應商,削弱了 OpenAI 的議價能力。

由于OpenAI 缺乏自己的云基礎設施和企業(yè)軟件生態(tài),只能作為“功能”被集成。這使得企業(yè)在進行大規(guī)模、深度定制的 AI 部署時,傾向于選擇谷歌或微軟這些提供系統(tǒng)級解決方案的平臺,導致 OpenAI 在搶占企業(yè)級市場的深度和廣度上受限。

這種單一的收入結構,在全模態(tài)集成戰(zhàn)中,使其難以像谷歌、微軟一樣,將技術優(yōu)勢快速、高效地轉化為無處不在的生態(tài)收入。

綜上,無論是用戶體驗的躍遷,還是生態(tài)層面的全線壓制,Gemini 3的出現都讓大模型競爭進入了一個新的敘事周期。

技術路線在重排,商業(yè)模式在重塑,行業(yè)的主導權也在悄然轉移。而當一條技術曲線推進到這個臨界點時,討論性能本身已不夠。

本文系作者 第一新聲 授權鈦媒體發(fā)表,并經鈦媒體編輯,轉載請注明出處、作者和本文鏈接。
本內容來源于鈦媒體鈦度號,文章內容僅供參考、交流、學習,不構成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現,點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據《網絡安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內容

快報

更多

19:59

國航C919正式投入北京—廈門、北京—哈爾濱兩條航線運營

19:57

中鋁國際:2025年歸母凈利潤2.58億元,同比增長16.47%

19:19

伊朗稱已打擊與美軍工有關聯的兩家企業(yè)

18:36

伊朗與巴基斯坦兩國外長通電話,討論地區(qū)局勢

18:35

2025年玩具(不含潮玩)國內市場零售總額達1035.3億元

18:08

全國豬價跌破5元,創(chuàng)歷史新低

18:07

時代天使2025年實現收入3.7億美元,同比增長37.8%

17:57

電魂網絡:擬投資4920萬元取得上海漫魂51%股權

17:51

美國1天超3000場反戰(zhàn)示威

17:28

雀巢12噸巧克力被盜

17:11

伊朗官員表示將“果斷反擊”美軍奪島

17:08

伊朗議長稱武裝部隊“正等著美軍地面行動”,并將“懲罰”其地區(qū)盟友

17:05

三安光電:董事長及總經理擬增持公司股份

16:58

全球多地爆發(fā)示威抗議,民眾高呼“不要戰(zhàn)爭”

16:55

中信證券:配置上建議繼續(xù)堅守中國優(yōu)勢制造業(yè),靜待4月決斷

16:38

美國土安全部資金中斷進入第44天,創(chuàng)美國史上最長政府部分“停擺”紀錄

16:17

北京啟動智能網聯新能源汽車商業(yè)保險開發(fā)應用,統(tǒng)一適配L2至L4全級別智能網聯新能源汽車

16:16

恒林股份發(fā)布AI體感工學白皮書,加速布局AI智能家居

16:15

中國國家創(chuàng)新指數綜合排名世界第9位,較上年提升1位

16:05

朗新科技:2025年歸母凈利潤1.05億元,同比扭虧為盈

掃描下載App