破解算力問(wèn)題,降低模型所需的存算空間,有很多種途徑,是減少訓(xùn)練時(shí)算力,還是減少推理時(shí)算力?稀疏化、量化、壓縮、蒸餾等手段,都是方法之一。只是當(dāng)前鑒于不同方法的優(yōu)勢(shì)特征,各家模型企業(yè)及研究機(jī)構(gòu)都會(huì)選擇不同的策略。

以長(zhǎng)上下文任務(wù)為例,過(guò)去兩年,AI算法團(tuán)隊(duì)曾提出要以鍵值緩存(KV Cache)為中心的分離架構(gòu)設(shè)計(jì),即根據(jù)不同計(jì)算特性將預(yù)填充服務(wù)器與解碼服務(wù)器分開(kāi),在大batch size及隊(duì)列場(chǎng)景下需要更大的系統(tǒng)內(nèi)存帶寬。簡(jiǎn)而言之,對(duì)于許多推理時(shí)任務(wù)來(lái)說(shuō),瓶頸在于內(nèi)存帶寬。

今日,谷歌發(fā)布了一項(xiàng)名為T(mén)urboQuant的算法,這項(xiàng)技術(shù)旨在解決上述提及的問(wèn)題:大模型運(yùn)行時(shí)的內(nèi)存消耗。其核心是讓AI在思考和回答問(wèn)題時(shí),占用少得多的工作內(nèi)存,同時(shí)保持幾乎相同的智力水平,甚至速度更快。

根據(jù)官方描述,TurboQuant的推出預(yù)計(jì)會(huì)帶來(lái)多項(xiàng)利好:模型推理方面,百萬(wàn)Token上下文成本會(huì)明顯下降;向量數(shù)據(jù)庫(kù)領(lǐng)域,更容易做到實(shí)時(shí)索引和亞毫秒查詢(xún);邊緣AI領(lǐng)域,手機(jī)和嵌入式設(shè)備的上下文推理更現(xiàn)實(shí)。此外,該思路同樣可擴(kuò)展到多模態(tài)領(lǐng)域的向量壓縮。

事實(shí)上,就在該技術(shù)發(fā)布當(dāng)日,美股存儲(chǔ)板塊如美光科技閃迪等應(yīng)聲下跌。近年來(lái),內(nèi)存(RAM)、固態(tài)硬盤(pán)(SSD)、硬盤(pán)驅(qū)動(dòng)器(HDD)等存儲(chǔ)產(chǎn)品受下游數(shù)據(jù)中心建設(shè)擴(kuò)張需求的激增,出現(xiàn)了一段時(shí)間的供應(yīng)短缺及價(jià)格推高。該市場(chǎng)反應(yīng)可以理解為,TurboQuant一旦廣泛應(yīng)用,或?qū)@著影響未來(lái)對(duì)AI推理服務(wù)器中內(nèi)存容量規(guī)格的需求判斷,重塑相關(guān)硬件的成本曲線。

要理解TurboQuant的價(jià)值,首先要明白大模型在生成文本時(shí)是如何工作的。它們并非一次性處理所有信息,而是像人類(lèi)閱讀一樣,一個(gè)字一個(gè)字地生成。在這個(gè)過(guò)程中,模型需要一個(gè)“臨時(shí)記事本”來(lái)記住之前所有對(duì)話的內(nèi)容,以免重復(fù)計(jì)算。這個(gè)“記事本”在技術(shù)上被稱(chēng)為鍵值緩存(KV Cache)。但問(wèn)題在于,對(duì)話越長(zhǎng),這個(gè)“記事本”就越厚,占用的內(nèi)存就越多。以長(zhǎng)文本為例,在處理超長(zhǎng)文檔或復(fù)雜多輪對(duì)話時(shí),KV Cache會(huì)迅速撐滿昂貴的高性能內(nèi)存,成為制約AI處理速度、推高運(yùn)行成本的主要瓶頸。

TurboQuant運(yùn)用了兩個(gè)結(jié)算的核心算法:PolarQuant主壓縮和QJL(量化Johnson-Lindenstrauss變換)殘差校正,目標(biāo)是壓縮KV Cache中的向量。

第一步:PolarQuant——高質(zhì)量壓縮

傳統(tǒng)量化方法類(lèi)似于用直角坐標(biāo)系(東、北方向)記錄一個(gè)點(diǎn)的位置。TurboQuant的第一步,是PolarQuant,改用極坐標(biāo)(角度和距離)來(lái)描述。研究發(fā)現(xiàn),經(jīng)過(guò)特定的數(shù)學(xué)變換(隨機(jī)旋轉(zhuǎn))后,高維向量的數(shù)值分布會(huì)變得非常規(guī)律和集中,就像一個(gè)固定的圓形網(wǎng)格。這樣一來(lái),系統(tǒng)可以預(yù)先計(jì)算好一套最優(yōu)的壓縮碼本,無(wú)需針對(duì)每次對(duì)話進(jìn)行復(fù)雜的校準(zhǔn),實(shí)現(xiàn)了在線實(shí)時(shí)壓縮。這一步用大部分比特對(duì)數(shù)據(jù)主體進(jìn)行了高質(zhì)量壓縮。

第二步:QJL——消除隱藏誤差

第一步壓縮后,會(huì)殘留微小的誤差。如果放任不管,在AI計(jì)算注意力(即決定關(guān)注對(duì)話中哪部分內(nèi)容)時(shí),這些誤差會(huì)累積并導(dǎo)致結(jié)果出現(xiàn)偏差。TurboQuant的第二步創(chuàng)新在于,它用一個(gè)名為QJL的方法來(lái)處理這些殘差。QJL的特點(diǎn)在于,它僅用1個(gè)比特(即一個(gè)正負(fù)號(hào))來(lái)表征殘差,并與高精度的原始查詢(xún)向量結(jié)合,最終能實(shí)現(xiàn)無(wú)偏的內(nèi)積估計(jì)。這意味著,盡管數(shù)據(jù)被大幅壓縮,但AI在計(jì)算“哪些信息更重要”時(shí),得到的結(jié)果依然是準(zhǔn)確無(wú)誤的。

什么是QJL?簡(jiǎn)單說(shuō),就是一種把高維向量“投影”到低維空間的方法,且能以數(shù)學(xué)證明保證距離關(guān)系不被破壞太多。QJL把這個(gè)投影結(jié)果進(jìn)一步壓縮到1比特,體積極小,但仍能作為無(wú)偏估計(jì)器。

根據(jù)谷歌官方博客闡述,TurboQuant帶來(lái)了接近理論極限的性能提升:

TurboQuant能夠以極低的內(nèi)存占用、近乎零預(yù)處理時(shí)間和最先進(jìn)的精度構(gòu)建和查詢(xún)大型向量索引。這使得谷歌規(guī)模的語(yǔ)義搜索速度更快、效率更高。當(dāng)然,TurboQuant的意義遠(yuǎn)不止于一項(xiàng)實(shí)驗(yàn)室突破。據(jù)博客所述,向量量化雖然目前主要解決的是Gemini等模型中的KV-cash瓶頸,但該技術(shù)同樣適用于需要在高維向量數(shù)據(jù)庫(kù)中進(jìn)行海量搜索的場(chǎng)景(如現(xiàn)代語(yǔ)義搜索引擎)。

相關(guān)論文將在ICLR 2026和AISTATS 2026發(fā)表。

相關(guān)鏈接:https://research.google/blog/turboquant-redefining-ai-efficiency-with-extreme-compression/

相關(guān)論文鏈接:https://arxiv.org/pdf/2502.02617

(本文作者 | 楊麗,編輯 | 楊林)

本文系作者 TechHorizon 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶(hù)分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

2026-03-28 23:01

澤連斯基稱(chēng)與中東3國(guó)達(dá)成防務(wù)合作協(xié)議,涉聯(lián)合生產(chǎn)無(wú)人機(jī)

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi),已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長(zhǎng)發(fā)表書(shū)面致辭,支持世貿(mào)組織《電子商務(wù)協(xié)定》達(dá)成臨時(shí)實(shí)施安排

2026-03-28 21:54

40余家單位聯(lián)盟,中國(guó)最大人形機(jī)器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會(huì)預(yù)判:百億智能體或成新物種,AI推動(dòng)人類(lèi)文明分化

2026-03-28 21:38

第五代宏光MINIEV上市,售價(jià)4.48萬(wàn)-5.48萬(wàn)元

2026-03-28 20:42

烏稱(chēng)伊朗襲擊迪拜倉(cāng)庫(kù)并致烏克蘭人傷亡消息不實(shí)

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國(guó)務(wù)卿和歐盟官員被曝就烏克蘭問(wèn)題激烈交鋒

2026-03-28 19:44

“Token”這個(gè)詞的搜索量最高一天達(dá)到7.7萬(wàn)次,比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國(guó)首個(gè)可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動(dòng)2026”在北京啟動(dòng)

2026-03-28 19:03

國(guó)務(wù)院食安辦、市場(chǎng)監(jiān)管總局約談相關(guān)地方市級(jí)人民政府負(fù)責(zé)人,督辦“3?15”晚會(huì)曝光問(wèn)題整改

2026-03-28 18:44

飛書(shū) CLI 開(kāi)源:AI 可直連飛書(shū)辦公套件

2026-03-28 18:36

馬來(lái)西亞說(shuō)伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個(gè)月中國(guó)創(chuàng)新藥對(duì)外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國(guó)和菲律賓舉行南海問(wèn)題雙邊磋商機(jī)制第十一次會(huì)議

2026-03-28 17:30

印尼正式實(shí)施16歲以下社媒禁令,約7000萬(wàn)人受影響

2026-03-28 17:04

美國(guó)加州禁止官員借內(nèi)幕消息在預(yù)測(cè)市場(chǎng)牟利

2026-03-28 17:02

北京“超現(xiàn)場(chǎng)”生態(tài)共同體建設(shè)暨全國(guó)覆蓋啟動(dòng)

掃描下載App