如果一個(gè) AI 能夠閱讀整套項(xiàng)目文檔,在復(fù)雜問(wèn)題上進(jìn)行長(zhǎng)時(shí)間推理,并且自己操作電腦完成任務(wù),它就不再只是一個(gè)聊天機(jī)器人。

它更像是一種新的軟件形態(tài)。

隨著 OpenAI 推出 GPT-5.4 Thinking 與 GPT-5.4 Pro,這種變化正在變得具體。100 萬(wàn) Token 上下文、推理時(shí)計(jì)算模式,以及原生計(jì)算機(jī)操作能力,第一次在同一代模型中同時(shí)出現(xiàn)。

當(dāng)這些能力開始匯合,大模型的角色也在發(fā)生轉(zhuǎn)變——從回答問(wèn)題,轉(zhuǎn)向直接完成工作。

GPT-5.4:一次圍繞“執(zhí)行能力”的模型升級(jí)

2026 年 3 月初,硅谷再次進(jìn)入密集的 AI 發(fā)布周期。

在多輪業(yè)內(nèi)傳聞之后,OpenAI 推出了 GPT-5.4 系列模型。與過(guò)去幾次升級(jí)主要強(qiáng)化聊天體驗(yàn)或推理能力不同,這一版本的能力組合明顯指向一個(gè)更實(shí)際的目標(biāo):讓 AI 更直接地參與真實(shí)工作流程。

公開信息顯示,模型的核心能力包括:最高 100 萬(wàn) Token 上下文窗口、GPT-5.4 Thinking 推理模式、Computer-Use 原生計(jì)算機(jī)操作能力,以及 Tool Search 工具檢索機(jī)制。這些能力并非單點(diǎn)突破,而是圍繞“執(zhí)行能力”的系統(tǒng)性升級(jí)。

在桌面任務(wù)基準(zhǔn) OSWorld benchmark 的測(cè)試中,模型完成任務(wù)的成功率約為 75%,略高于該 benchmark 的人類測(cè)試基線約 72%。而在職業(yè)任務(wù)評(píng)估 GDPval benchmark 中,模型在 44 種知識(shí)型工作任務(wù)中約 83% 的評(píng)分進(jìn)入專家區(qū)間。

這些指標(biāo)本身或許仍需要更多實(shí)際驗(yàn)證,但它們指向的趨勢(shì)非常明確:AI 正在從信息處理工具變成任務(wù)執(zhí)行系統(tǒng)。

長(zhǎng)上下文:模型第一次能“讀完整個(gè)項(xiàng)目”

企業(yè)在部署大模型時(shí),一直面臨一個(gè)結(jié)構(gòu)性限制——上下文窗口。早期模型只能處理有限的信息量,這迫使企業(yè)構(gòu)建復(fù)雜的 Retrieval-Augmented Generation(RAG)系統(tǒng):文檔被拆分、向量化、索引,再在查詢時(shí)重新拼接給模型

這種架構(gòu)在過(guò)去兩年成為 AI 工程的標(biāo)準(zhǔn)方案,但也帶來(lái)了新的復(fù)雜度。數(shù)據(jù)被切塊后,上下文關(guān)系容易丟失;檢索系統(tǒng)本身也增加了延遲與維護(hù)成本。

GPT-5.4 將上下文窗口擴(kuò)展到 100 萬(wàn) Token。這意味著模型在單次任務(wù)中理論上可以處理完整代碼庫(kù)、長(zhǎng)期財(cái)務(wù)記錄,甚至整個(gè)項(xiàng)目文檔集合。

RAG 并不會(huì)消失,因?yàn)闄?quán)限控制、實(shí)時(shí)數(shù)據(jù)更新以及索引效率仍然是企業(yè)系統(tǒng)不可替代的一部分。但在很多分析型任務(wù)中,超長(zhǎng)上下文確實(shí)降低了對(duì)復(fù)雜檢索架構(gòu)的依賴。

更重要的是,模型開始具備一種過(guò)去難以實(shí)現(xiàn)的能力:理解完整項(xiàng)目,而不是零散信息片段。

Computer-Use:AI 開始直接操作軟件

如果說(shuō)長(zhǎng)上下文改變的是理解能力,那么 Computer-Use 改變的則是執(zhí)行能力。

在這一模式下,模型可以通過(guò)視覺理解軟件界面,并模擬鼠標(biāo)點(diǎn)擊、鍵盤輸入以及應(yīng)用導(dǎo)航等操作。這意味著 AI 不再只通過(guò) API 調(diào)用系統(tǒng),而是可以像用戶一樣直接操作軟件界面。

這一變化對(duì)企業(yè)自動(dòng)化領(lǐng)域尤其重要。過(guò)去二十年,大量企業(yè)流程自動(dòng)化依賴 Robotic Process Automation(RPA)系統(tǒng),其核心邏輯是通過(guò)腳本執(zhí)行固定步驟,例如錄入數(shù)據(jù)或在系統(tǒng)之間復(fù)制信息。

而具備視覺理解與規(guī)劃能力的 AI,則可能承擔(dān)更復(fù)雜的任務(wù),例如:

RPA 并不會(huì)立即被取代,但 AI 代理已經(jīng)開始進(jìn)入它們長(zhǎng)期占據(jù)的自動(dòng)化領(lǐng)域。

推理時(shí)計(jì)算:AI 學(xué)會(huì)“慢思考”

GPT-5.4 的另一項(xiàng)關(guān)鍵變化,是 Thinking 模式。這一模式并不是簡(jiǎn)單擴(kuò)大模型規(guī)模,而是在推理階段投入更多計(jì)算資源,從而提高復(fù)雜任務(wù)的可靠性。

這代表著大模型發(fā)展的一條重要路線:推理時(shí)計(jì)算(compute-at-inference)。過(guò)去十年,模型能力主要依賴訓(xùn)練階段的大規(guī)模數(shù)據(jù)與算力,但隨著預(yù)訓(xùn)練收益逐漸遞減,越來(lái)越多公司開始把算力投入到推理階段。

類似趨勢(shì)也出現(xiàn)在其他 AI 公司,例如 Anthropic 的深度推理模式,以及 Google 在復(fù)雜任務(wù)中的推理系統(tǒng)。

這種模式的特點(diǎn)很明顯:響應(yīng)時(shí)間更長(zhǎng)、計(jì)算成本更高,但復(fù)雜任務(wù)的成功率明顯提高。在法律分析、財(cái)務(wù)建模或復(fù)雜決策任務(wù)中,這類“慢思考 AI”反而更接近真實(shí)的專業(yè)工作方式。

Tool Search:被低估的架構(gòu)升級(jí)

相比百萬(wàn) Token 與 computer-use,Tool Search 可能是這次發(fā)布中最容易被忽視的一項(xiàng)升級(jí)。

過(guò)去,當(dāng)模型需要調(diào)用工具時(shí),開發(fā)者通常必須把所有工具說(shuō)明都加載進(jìn)提示詞中。這不僅占用上下文空間,也增加了 Token 成本。

Tool Search 改變了這一機(jī)制:模型可以在需要時(shí)檢索工具定義,而不是預(yù)加載全部工具。

在多工具系統(tǒng)中,這種方式可顯著減少工具相關(guān)的 Token 消耗。對(duì)于構(gòu)建復(fù)雜 AI 系統(tǒng)的開發(fā)者而言,這類架構(gòu)優(yōu)化往往比單純提升模型能力更重要。

因?yàn)檎嬲拇笠?guī)模 AI 應(yīng)用,通常由幾十甚至上百個(gè)工具共同組成。

AI 競(jìng)爭(zhēng)的真正焦點(diǎn)正在改變

如果把這些變化放在一起觀察,就會(huì)發(fā)現(xiàn) AI 競(jìng)爭(zhēng)的重心正在發(fā)生變化。

過(guò)去幾年,大模型競(jìng)爭(zhēng)主要集中在規(guī)模、參數(shù)與價(jià)格。但現(xiàn)在,競(jìng)爭(zhēng)正在逐漸轉(zhuǎn)向另一件事情:誰(shuí)能讓 AI 真正完成任務(wù)。

在這個(gè)維度上,不同公司的策略逐漸分化:

這場(chǎng)競(jìng)爭(zhēng)的終點(diǎn),很可能不是更聰明的聊天機(jī)器人,而是一種新的軟件形態(tài)。

一種可以理解任務(wù)、規(guī)劃步驟并執(zhí)行操作的 AI 工作代理

軟件范式正在變化

從更長(zhǎng)的上下文,到更強(qiáng)的推理,再到直接操作軟件界面,大模型正在同時(shí)獲得三種能力:理解信息、思考問(wèn)題、執(zhí)行操作。

當(dāng)這三種能力結(jié)合在一起時(shí),AI 就不再只是軟件的一個(gè)接口,而可能逐漸成為新的軟件平臺(tái)。

在這種結(jié)構(gòu)下,大模型不僅會(huì)改變搜索、寫作或編程工具,還可能重新塑造企業(yè)軟件的基本形態(tài)。

問(wèn)題已經(jīng)不再是 AI 能否理解工作。而是 AI 何時(shí)開始真正接管工作流程。(本文首發(fā)鈦媒體App , 作者|硅谷Tech news,編輯|秦聰慧) 

作品聲明:內(nèi)容由AI生成
本文系作者 硅谷Tech news 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

2026-03-28 23:01

澤連斯基稱與中東3國(guó)達(dá)成防務(wù)合作協(xié)議,涉聯(lián)合生產(chǎn)無(wú)人機(jī)

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi),已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長(zhǎng)發(fā)表書面致辭,支持世貿(mào)組織《電子商務(wù)協(xié)定》達(dá)成臨時(shí)實(shí)施安排

2026-03-28 21:54

40余家單位聯(lián)盟,中國(guó)最大人形機(jī)器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會(huì)預(yù)判:百億智能體或成新物種,AI推動(dòng)人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市,售價(jià)4.48萬(wàn)-5.48萬(wàn)元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉(cāng)庫(kù)并致烏克蘭人傷亡消息不實(shí)

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國(guó)務(wù)卿和歐盟官員被曝就烏克蘭問(wèn)題激烈交鋒

2026-03-28 19:44

“Token”這個(gè)詞的搜索量最高一天達(dá)到7.7萬(wàn)次,比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國(guó)首個(gè)可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動(dòng)2026”在北京啟動(dòng)

2026-03-28 19:03

國(guó)務(wù)院食安辦、市場(chǎng)監(jiān)管總局約談相關(guān)地方市級(jí)人民政府負(fù)責(zé)人,督辦“3?15”晚會(huì)曝光問(wèn)題整改

2026-03-28 18:44

飛書 CLI 開源:AI 可直連飛書辦公套件

2026-03-28 18:36

馬來(lái)西亞說(shuō)伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個(gè)月中國(guó)創(chuàng)新藥對(duì)外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國(guó)和菲律賓舉行南海問(wèn)題雙邊磋商機(jī)制第十一次會(huì)議

2026-03-28 17:30

印尼正式實(shí)施16歲以下社媒禁令,約7000萬(wàn)人受影響

2026-03-28 17:04

美國(guó)加州禁止官員借內(nèi)幕消息在預(yù)測(cè)市場(chǎng)牟利

2026-03-28 17:02

北京“超現(xiàn)場(chǎng)”生態(tài)共同體建設(shè)暨全國(guó)覆蓋啟動(dòng)

掃描下載App