AI 行業(yè)的花錢、省錢邏輯正迎來大變化。

以往用昂貴專有模型的高成本模式正在被顛覆,低成本、高性價(jià)比的開源模型 + 專用軟硬件的組合有望成為主流。

英偉達(dá)日前發(fā)布全面分析,顯示其最新的 Blackwell GPU 平臺與開源推理模型的組合可使每 token 成本降低 4 到 10 倍。

該數(shù)據(jù)于 2026 年 2 月 13 日發(fā)布,強(qiáng)調(diào)行業(yè)正從昂貴的專有模型轉(zhuǎn)向由開源智能與專用硬件-軟件協(xié)同設(shè)計(jì)驅(qū)動的、更具成本效益且高性能的生態(tài)系統(tǒng)。這些成本降低是通過多層方法實(shí)現(xiàn)的,涵蓋 Blackwell GPU 架構(gòu)、原生低精度 NVFP4 數(shù)據(jù)格式,以及包括 TensorRT-LLM 和 Dynamo 推理框架在內(nèi)的優(yōu)化軟件庫。

英偉達(dá)表示,這些技術(shù)進(jìn)步使得 Baseten、DeepInfra、Fireworks AI 和 Together AI 等推理服務(wù)提供商能夠以遠(yuǎn)低于以往的成本提供前沿級智能。

例如,采用 NVFP4 格式時(shí),每百萬 token 的成本從舊的 Hopper 平臺上的 20 美分降至 Blackwell 上的僅 5 美分——單就硬件成本而言就下降了 75%,還未計(jì)算切換到開源模型帶來的額外節(jié)省。

這一變化的現(xiàn)實(shí)影響已在多個(gè)高需求領(lǐng)域顯現(xiàn)。

在醫(yī)療領(lǐng)域,AI 初創(chuàng)公司 Sully.ai 報(bào)告稱,通過將業(yè)務(wù)從專有閉源模型遷移到由 Baseten 托管、基于 Blackwell 的開源替代方案,推理成本下降了 90%。這一 10 倍的成本降低伴隨著 65% 的響應(yīng)時(shí)間提升,使公司能更高效地自動化醫(yī)療編碼與文檔工作。

同樣在游戲領(lǐng)域,開發(fā)商 Latitude 利用 DeepInfra 的 Blackwell 基礎(chǔ)設(shè)施為其原生 AI 游戲 Voyage 保持低延遲響應(yīng)的同時(shí),將 token 成本降低了 4 倍。這使得在流量高峰期間也能部署更復(fù)雜的模型而不影響玩家體驗(yàn)。

從分析角度看,這一進(jìn)展標(biāo)志著許多企業(yè) AI 應(yīng)用的“專有溢價(jià)”時(shí)代的終結(jié)。

在過去兩年中,閉源模型的高成本成為許多初創(chuàng)公司進(jìn)入的障礙。然而,隨著開源模型與前沿專有系統(tǒng)達(dá)成性能上的可比,瓶頸已從模型智能轉(zhuǎn)向基礎(chǔ)設(shè)施效率。

英偉達(dá)的“極致協(xié)同設(shè)計(jì)”戰(zhàn)略——將硬件(Blackwell)、數(shù)據(jù)格式(NVFP4)和軟件(TensorRT)同步開發(fā)——正在打造一道競爭護(hù)城河,使得使用通用硬件的云服務(wù)提供商難以在每 token 成本上競爭。

這種 10 倍的成本降低對所謂的“代理式”工作流尤為關(guān)鍵,在此類場景中,單個(gè)用戶查詢可能觸發(fā)數(shù)十個(gè)后臺自主交互。開發(fā)開源推理系統(tǒng)的 Sentient Labs 報(bào)告稱,在病毒式發(fā)布期間,使用基于 Blackwell 的 Fireworks AI 提供了處理單周 560 萬次查詢所需的吞吐量。

若無這些效率提升,多代理系統(tǒng)的基礎(chǔ)設(shè)施開銷對大多數(shù)開發(fā)者而言在經(jīng)濟(jì)上無法支撐。此外,在客戶服務(wù)方面,Decagon 在語音 AI 上實(shí)現(xiàn)了低于 400 毫秒的響應(yīng)時(shí)間,與專有模型相比,每次查詢成本降低了 6 倍。這種性能水平對 24/7 的語音部署至關(guān)重要,因?yàn)檠舆t直接影響用戶信任。

展望未來,token 成本下降的趨勢預(yù)計(jì)將加速。

英偉達(dá)的路線圖顯示,即將推出的 Rubin 平臺將目標(biāo)是在 Blackwell 基礎(chǔ)上再實(shí)現(xiàn) 性能與成本效率 10 倍的提升。

隨著 token 經(jīng)濟(jì)學(xué)的持續(xù)改善,我們很可能看到從“把 AI 當(dāng)作一個(gè)功能”向“把 AI 作為基礎(chǔ)設(shè)施”的轉(zhuǎn)變,智能成本在運(yùn)營預(yù)算中將變得微不足道。

這很可能導(dǎo)致高頻 AI 應(yīng)用的激增,例如實(shí)時(shí)視頻翻譯和自主工業(yè)機(jī)器人等領(lǐng)域,這些此前因過高的推理開銷而被排除在外。(本文首發(fā)鈦媒體App , 作者|AGI-Signal,編輯|秦聰慧) 

作品聲明:內(nèi)容由AI生成
本文系作者 硅谷Tech news 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報(bào)

更多

2026-03-28 23:01

澤連斯基稱與中東3國達(dá)成防務(wù)合作協(xié)議,涉聯(lián)合生產(chǎn)無人機(jī)

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi),已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長發(fā)表書面致辭,支持世貿(mào)組織《電子商務(wù)協(xié)定》達(dá)成臨時(shí)實(shí)施安排

2026-03-28 21:54

40余家單位聯(lián)盟,中國最大人形機(jī)器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會預(yù)判:百億智能體或成新物種,AI推動人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市,售價(jià)4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉庫并致烏克蘭人傷亡消息不實(shí)

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國務(wù)卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個(gè)詞的搜索量最高一天達(dá)到7.7萬次,比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國首個(gè)可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動2026”在北京啟動

2026-03-28 19:03

國務(wù)院食安辦、市場監(jiān)管總局約談相關(guān)地方市級人民政府負(fù)責(zé)人,督辦“3?15”晚會曝光問題整改

2026-03-28 18:44

飛書 CLI 開源:AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個(gè)月中國創(chuàng)新藥對外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國和菲律賓舉行南海問題雙邊磋商機(jī)制第十一次會議

2026-03-28 17:30

印尼正式實(shí)施16歲以下社媒禁令,約7000萬人受影響

2026-03-28 17:04

美國加州禁止官員借內(nèi)幕消息在預(yù)測市場牟利

2026-03-28 17:02

北京“超現(xiàn)場”生態(tài)共同體建設(shè)暨全國覆蓋啟動

掃描下載App