美東時間3月24日,谷歌研究院(Google Research)發(fā)布了一項名為TurboQuant的免訓(xùn)練(training-free)AI內(nèi)存壓縮算法。

官方技術(shù)文件顯示,該算法能夠在不損失模型精度的前提下,將大語言模型推理階段的鍵值緩存(KV Cache)內(nèi)存占用縮減至少6倍,并在特定基準(zhǔn)測試中相較32位未量化模型實現(xiàn)最高8倍的性能提升。這項極度壓縮技術(shù),直接改變了大型AI模型在顯存資源調(diào)配上的技術(shù)預(yù)期。

技術(shù)發(fā)布的連鎖反應(yīng)迅速傳導(dǎo)至資本市場。周三美股交易時段,存儲芯片板塊出現(xiàn)整體下挫,閃迪一度大跌6.5%,美光科技跌幅約4%,希捷科技跌超5%。

市場情緒的短期波動主要源于單一維度的推演:若底層算法能將上下文內(nèi)存需求大幅縮減,現(xiàn)階段價格高昂且供不應(yīng)求的高帶寬內(nèi)存(HBM)及企業(yè)級存儲芯片的長期出貨量預(yù)期可能會面臨修正。

PolarQuant與QJL的協(xié)同機制

TurboQuant的核心突破在于解決了傳統(tǒng)向量量化過程中伴隨的內(nèi)存額外開銷問題。傳統(tǒng)方案為了保證精度,往往需要為每個數(shù)據(jù)塊額外存儲全精度的量化常數(shù)。該算法采取了兩階段處理架構(gòu):

首先,利用PolarQuant技術(shù)進(jìn)行主體壓縮。該方法放棄了傳統(tǒng)的笛卡爾坐標(biāo)系,將數(shù)據(jù)向量轉(zhuǎn)換為極坐標(biāo),把數(shù)據(jù)分離為代表強度的半徑和代表方向的角度。這種幾何結(jié)構(gòu)的簡化徹底消除了傳統(tǒng)方法的額外內(nèi)存開銷。

隨后,引入量化約翰遜-林登施特勞斯(QJL)算法作為數(shù)學(xué)誤差校正層。TurboQuant使用極低位寬(僅1 bit)對第一階段留下的微小誤差套用QJL算法,消除偏差以確保最終注意力分?jǐn)?shù)的精準(zhǔn)。

測試數(shù)據(jù)顯示,在此機制下,TurboQuant能夠?qū)V緩存壓縮至3.5比特甚至3比特,在“大海撈針”(Needle In A Haystack)等長文本基準(zhǔn)測試中,依然保持了100%的檢索召回率。同時,其“數(shù)據(jù)無感知”(data-oblivious)特性使其無需進(jìn)行特定的預(yù)處理或微調(diào)即可直接部署。

參照系差異與權(quán)重的剛性需求

在評估該算法的實際商業(yè)穿透力時,需剝離理論數(shù)據(jù)的極限值。一方面,谷歌聲稱的“最高8倍性能提升”是建立在與未量化的32位(32-bit)基礎(chǔ)數(shù)據(jù)相對比的前提下。而在當(dāng)前實際的推理產(chǎn)業(yè)環(huán)境中,16位乃至8位、4位量化已廣泛普及,生產(chǎn)環(huán)境中的絕對效率躍升幅度將低于官方的基準(zhǔn)對比數(shù)據(jù)。

另一方面,算法的作用域具有嚴(yán)格限定。TurboQuant僅針對推理階段的KV緩存生效,它有效緩解了超長上下文帶來的顯存線性增長問題,但并不壓縮模型權(quán)重(Model Weights)本身的物理顯存占用。這意味著,該算法能讓同等顯存容量的GPU支撐更長的上下文對話或更高的并發(fā)吞吐量,但依然無法改變部署千億參數(shù)大模型時對底層硬件容量的基本門檻。

從行業(yè)視角來看,單次查詢的內(nèi)存開銷與推理成本大幅下降,使得邊緣側(cè)設(shè)備或消費級顯卡能夠承載此前僅限云端運行的長文本任務(wù)。這種軟件優(yōu)化對硬件依賴的對沖,重新定義了AI應(yīng)用落地的成本曲線。

從宏觀算力供需關(guān)系推演,這也可能引發(fā)典型的“杰文斯悖論”(Jevons Paradox):

資源利用效率的提升,反而會因使用成本的降低而激發(fā)更龐大的長尾應(yīng)用需求。

TurboQuant降低了長文本推理的存儲門檻,可能刺激AI多模態(tài)應(yīng)用在企業(yè)端和消費端的規(guī)模化鋪開。系統(tǒng)并發(fā)量的急劇上升,最終帶來的全球算力基礎(chǔ)設(shè)施與存儲需求總量,未必會呈現(xiàn)單邊縮減。(本文首發(fā)鈦媒體APP,作者 | 硅谷Tech_news,編輯 | 焦燕)

作品聲明:內(nèi)容由AI生成
本文系作者 硅谷Tech news 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

2026-03-28 23:01

澤連斯基稱與中東3國達(dá)成防務(wù)合作協(xié)議,涉聯(lián)合生產(chǎn)無人機

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi),已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長發(fā)表書面致辭,支持世貿(mào)組織《電子商務(wù)協(xié)定》達(dá)成臨時實施安排

2026-03-28 21:54

40余家單位聯(lián)盟,中國最大人形機器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會預(yù)判:百億智能體或成新物種,AI推動人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市,售價4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉庫并致烏克蘭人傷亡消息不實

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國務(wù)卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個詞的搜索量最高一天達(dá)到7.7萬次,比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國首個可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動2026”在北京啟動

2026-03-28 19:03

國務(wù)院食安辦、市場監(jiān)管總局約談相關(guān)地方市級人民政府負(fù)責(zé)人,督辦“3?15”晚會曝光問題整改

2026-03-28 18:44

飛書 CLI 開源:AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個月中國創(chuàng)新藥對外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國和菲律賓舉行南海問題雙邊磋商機制第十一次會議

2026-03-28 17:30

印尼正式實施16歲以下社媒禁令,約7000萬人受影響

2026-03-28 17:04

美國加州禁止官員借內(nèi)幕消息在預(yù)測市場牟利

2026-03-28 17:02

北京“超現(xiàn)場”生態(tài)共同體建設(shè)暨全國覆蓋啟動

掃描下載App