當然,Groq的實力還是不容小覷,其AI推理引擎LPU號稱做到了“世界最快推理”,不僅有超快的大模型速度演示,還有遠低于GPU的token成本。
![]()
2023年7月,Groq甩出了LPU的推理速度,運行Meta的Llama 3 80億參數(shù)大模型,每秒超過1250個token。
2024年12月,Groq推出一款高性能計算芯片,名為“猛獸”(Beast)。據(jù)稱,這頭“猛獸”在AI推理任務中的性能超越英偉達的某些主流GPU;能夠通過優(yōu)化硬件設計,減少不必要的運算環(huán)節(jié),大幅提升計算效率。
也正是2024年8月,Groq雙喜臨門,獲得了6.4億美元D輪融資,估值達28億美元;其創(chuàng)始人Jonathan Ross請來楊立昆擔任技術顧問。
Groq的LPU(線性處理單元)不同于GPU(圖形處理單元),設計理念是解決傳統(tǒng)架構中外部內(nèi)存的瓶頸,通過將大量計算資源集中在片內(nèi)共享內(nèi)存中,實現(xiàn)數(shù)據(jù)流動的高效優(yōu)化,避免外部內(nèi)存的頻繁調(diào)用。此外,LPU支持多個張量流處理器的串聯(lián)擴展,規(guī)避了傳統(tǒng)GPU集群中因數(shù)據(jù)交換帶來的性能損耗。
![]()
對于2025年,Groq首席布道官Mark Heaps喊話:“我希望客戶能認識到與現(xiàn)有技術相比的新進展。許多人對我們說,我們喜歡你們的技術,但沒人因為選擇某家傳統(tǒng)供應商而被解雇。如今,市場已經(jīng)開始變化,人們意識到從傳統(tǒng)供應商處獲得芯片并不容易,而且性能也未必如Groq的技術那樣出色。我希望更多人愿意嘗試這些新技術。”
不過,Groq要解決的真正問題是客戶總體成本。
雖然創(chuàng)始人Jonathan Ross宣稱:LPU速度比英偉達GPU快10倍,但價格和耗電量都僅為后者的十分之一。
但自稱“Groq超級粉絲”的原阿里副總裁賈揚清對比了LPU和H100,他的結論卻是:用Groq的LPU反而使硬件成本和能耗成本大幅度上升,在運行Llama2- 70b模型時,305張Groq才能等同于8張英偉達H100。
![]()
芯片專家姚金鑫也指出,Groq架構建立在小內(nèi)存(230MB)、大算力上。按照當前對大模型的推理部署,7B模型大約需要14G以上的內(nèi)存容量,為了部署一個7B的模型,大約需要70張左右。
此前一位自稱Groq員工的用戶表示,Groq致力于成為最快速的大規(guī)模模型硬件,并發(fā)誓三年內(nèi)趕超英偉達。
第二位成員是SambaNova。
SambaNova的創(chuàng)立時間比Groq晚一年,如今卻以50億美元的估值身居AI芯片初創(chuàng)公司榜首。
SambaNova RDU既有GPU 10 倍以上的片上分布SRAM,也有適用于需要快速數(shù)據(jù)傳輸?shù)拇笠?guī)模計算任務的HBM。(Groq則是摒棄了HBM,僅依賴SRAM進行計算。)其架構可以自動做到極致的算子融合,達到 90%以上的HBM利用率,使得RDU 對 GPU 有了 2-4 倍的性能優(yōu)勢。
![]()
值得一提,SambaNova在業(yè)務模式上頗具野心。公司不單賣芯片,而是出售其定制的技術堆棧,從芯片到服務器系統(tǒng),甚至包括部署大模型。
聯(lián)創(chuàng)Rodrigo Liang認為,大模型與生成式AI商業(yè)化的下一個戰(zhàn)場是企業(yè)的私有數(shù)據(jù),尤其是大企業(yè)。最終,企業(yè)內(nèi)部不會運行一個GPT-4或谷歌Gemini那樣的超大模型,而是根據(jù)不同數(shù)據(jù)子集創(chuàng)建150個獨特的模型,聚合參數(shù)超過萬億。
目前,SambaNova已贏得不少大客戶,包括世界排名前列的超算實驗室,日本富岳、美國阿貢國家實驗室、勞倫斯國家實驗室,以及咨詢公司埃森哲等。
對于2025年,Liang喊話:“對于SambaNova來說,關鍵是推動從訓練到推理的轉(zhuǎn)變。行業(yè)正快速邁向?qū)崟r應用,推理工作負載已成為AI需求的核心。我們的重心是確保技術能夠幫助企業(yè)高效、可持續(xù)地擴展規(guī)模。”
![]()
“如果我有一根魔法棒,我會解決AI部署中的電力問題。如今,大多數(shù)市場仍在使用設計上不適合規(guī)模化推理的高耗能硬件,這種方式在經(jīng)濟上和環(huán)境上都不可持續(xù)。SambaNova的架構已經(jīng)證明有更好的解決方案。我們能耗僅為傳統(tǒng)方案的十分之一,使企業(yè)能夠在不突破預算或碳排放目標的情況下實現(xiàn)AI目標。我希望市場能更快地接受這種優(yōu)先考慮效率和可持續(xù)性的技術。”
第三位是Positron AI。
Positron成立于2023年4月,名氣相對較小。
![]()
2023年12月,Positron AI推出了一款推理芯片,聲稱可以執(zhí)行與英偉達H100相同的計算,但成本僅為五分之一。
2024年10月,Positron AI還上榜了The information的《2024全球50家最具潛力初創(chuàng)公司榜》。
![]()
Positron CEO Thomas Sohmers表示:2024年,AI計算開支的重心已經(jīng)轉(zhuǎn)向推理,預計這種趨勢將沿著“指數(shù)增長曲線”繼續(xù)擴大。
對于2025年,Sohmers喊話:“我認為,如果我們能部署足夠多的推理計算能力——從供應鏈角度看,我有信心能做到——那么通過提供更多專用于推理的計算資源,我們將能夠推動‘鏈式思維’等能力的廣泛采用。”
據(jù)悉,Positron的愿景是讓人人負擔得起AI推理。對此,Sohmers的新年愿望是:“我想做同樣多的事情來鼓勵使用這些新工具來幫助我的媽媽。我進入技術領域的部分原因是因為我希望看到這些工具幫助人們能夠利用他們的時間做更多的事情——學習他們想要的一切,而不僅僅是他們從事的工作。我認為降低這些東西的成本將會促進這種擴散。”
面對四面八方的挑戰(zhàn)者,英偉達似乎無暇顧及。
前幾天,英偉達為推理大模型打造的B300系列出爐——高算力,相比B200在FLOPS上提高50%;大顯存,192GB提升到288GB,即提高了50%。
B300將有效地提升大模型的推理性能:每個思維鏈的延遲更低;實現(xiàn)更長的思維鏈;降低推理成本;處理同一問題時,可以搜索更多樣本,提高模型能力。
根據(jù)半導體“牧本周期”——芯片類型有規(guī)律地在通用和定制之間不斷交替——在某個特定時期內(nèi),通用結構最受歡迎,但到達一定階段后,滿足特定需求的專用結構會奮起直追。
當前,英偉達所代表的通用結構時代正處于顛覆。
更何況,英偉達早已全面開花。除了專為云計算、5G電信、游戲、汽車等領域客戶構建定制芯片。2025年上半年,英偉達還將發(fā)布其最新一代人形機器人芯片Jetson Thor。
所以,最后還是那句話:不要想著干掉英偉達,而是去做英偉達之外的事。
快報
根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論