日韩无码乱伦aV大片,久久精品无码区观看在线,免费在线观看黄骗网站

3月17日，加州圣何塞SAP中心的舞臺上，身著標志性黑色皮夾克的黃仁勛用兩個半小時的演講，正式為這一趨勢寫下了注腳。在這場備受矚目的GTC 2026主題演講中，英偉達正式發(fā)布了集成Groq LPU架構(gòu)的推理芯片，并披露了令人矚目的技術(shù)細節(jié)：最新Groq 3 LPU單芯片集成500MB片上SRAM，存儲帶寬高達150TB/s，而作為對比，主流GPU的片外HBM4帶寬約為22TB/s。

更令人震撼的是其機架級方案：Groq 3 LPX機架搭載256個LPU處理器，提供128GB片上SRAM和高達40PB/s的推理加速帶寬，并通過每個機架640TB/s的專用擴展接口將這些芯片連接在一起。黃仁勛在現(xiàn)場宣布，這款芯片將由三星電子代工，目前已進入生產(chǎn)階段，預計今年下半年開始出貨。更令業(yè)界震動的是，OpenAI已確定成為該芯片的首批客戶，并承諾投入300億美元采購相關(guān)推理算力。這不僅是英偉達在AI芯片之路上的一次技術(shù)路線微調(diào)，更是一個清晰的信號：AI計算的需求結(jié)構(gòu)正在發(fā)生根本性位移，推理已取代訓練，成為定義下一代芯片架構(gòu)的決定性力量。

01 SRAM如何重塑AI推理體驗

要理解SRAM為何在此時爆發(fā)，必須首先厘清AI工作負載的歷史性轉(zhuǎn)折。過去五年，AI產(chǎn)業(yè)的中心矛盾是“算力饑渴”，即如何用更多的GPU堆出更大的模型。彼時，無論是OpenAI還是Google，核心訴求都是用最短的時間完成海量數(shù)據(jù)的預訓練。在那個階段，HBM憑借其極高的容量和數(shù)據(jù)傳輸速率，完美地充當了GPU計算核心的“糧倉”，盡管存在延遲，但吞吐量是第一要務。

然而，德勤在《2026科技、傳媒和電信行業(yè)預測》中斷言，到2026年，“推理”將占據(jù)全部AI計算能力的三分之二。當AI Agents開始承擔復雜的多步驟任務，當代碼生成工具需要實時響應用戶的每一次按鍵，用戶體驗的衡量標尺發(fā)生了翻天覆地的變化。用戶不再關(guān)心模型訓練了多久，只關(guān)心提問后多久能看到第一個字（Time-to-First-Token），以及文字生成是否流暢無卡頓（尾時延）。

這正是Groq投資人Gavin Baker所強調(diào)的“推理拆分”：模型處理提示詞的prefill階段依然需要GPU的大規(guī)模并行算力，而逐字生成回復的decode階段，瓶頸早已不在算力，而在內(nèi)存帶寬。傳統(tǒng)GPU的困境在于，其海量參數(shù)存放在片外的HBM中。每生成一個token，計算核心都需要穿越復雜的封裝和互連線路去HBM中搬運一次權(quán)重。這種“遠距離運輸”在prefill階段或許可以容忍，但在需要串行輸出成百上千個token的decode階段，卻造成了巨大的延遲和能耗浪費。

在大模型應用中，相比依賴外置HBM，SRAM可顯著降低權(quán)重與激活數(shù)據(jù)的訪存延遲與抖動，從而改善Time-to-First-Token與尾時延表現(xiàn)。Groq和Cerebras兩家明星創(chuàng)業(yè)公司正是抓住了這一技術(shù)痛點，推出了基于SRAM的AI芯片。當新一代Groq LPU將片上帶寬提升至HBM的7倍時，其意義不僅是數(shù)字上的領先，而是從根本上改變了推理的體驗邊界。以Llama 3.3 70B模型為例，根據(jù)Artificial Analysis等獨立基準測試，Groq平臺在不同上下文長度下能維持200-300+ token/s的穩(wěn)定推理速度，顯著優(yōu)于傳統(tǒng)GPU推理平臺。這種帶寬的確定性和時延的可預測性，對于構(gòu)建實時交互系統(tǒng)而言至關(guān)重要。

而Cerebras則走得更遠。根據(jù)Cerebras官網(wǎng)信息，其晶圓級引擎3（WSE-3）芯片集成了高達44GB的片上SRAM，片上存儲帶寬達到驚人的21 PB/s。這種將整片晶圓做成一顆芯片的激進設計，使得海量計算核心與海量SRAM之間的數(shù)據(jù)交換幾乎不存在瓶頸。在OpenAI GPT-OSS 120B推理任務中，Cerebras實現(xiàn)了超過3000 tokens/s的輸出速度，較主流GPU云推理快約15倍。如果說Groq證明了SRAM架構(gòu)在單卡推理上的效率優(yōu)勢，Cerebras則展示了當SRAM容量足夠大時，推理速度可以逼近何種極限。SRAM就像放在CEO辦公桌上的便簽紙，無需等待秘書從檔案室調(diào)取文件，抬手即可獲取。這種“納秒級”的響應速度，對于構(gòu)建真正具備實時交互感的AI Agent而言，是致命的競爭優(yōu)勢。

02 英偉達的“鈔能力”與SRAM的回歸

英偉達顯然洞察到了這一范式轉(zhuǎn)移的風險。盡管其在訓練市場占據(jù)絕對統(tǒng)治地位，但在低延遲推理這一細分戰(zhàn)場上，Groq和Cerebras等創(chuàng)業(yè)公司正憑借SRAM架構(gòu)撕開裂縫。如果任由這種趨勢發(fā)展，未來數(shù)據(jù)中心可能會演變?yōu)?ldquo;GPU做訓練、LPU做推理”的雙頭格局，英偉達的統(tǒng)治版圖將被從邊緣蠶食。

去年12月，英偉達斥資200億美元獲得Groq知識產(chǎn)權(quán)的非獨家授權(quán)，其中包括其語言處理單元（LPU）和配套軟件庫，并吸納了Groq核心工程團隊。這筆交易的戰(zhàn)略意義遠大于財務數(shù)字。它意味著英偉達承認，在純粹的串行推理場景中，GPU的架構(gòu)確實存在短板，而Groq的SRAM方案是目前最好的補丁。

與此同時，SRAM陣營的另一極也在快速壯大。根據(jù) Cerebras 官方披露，2026 年 2 月，Cerebras 宣布完成 10 億美元 H 輪融資，估值達到 230 億美元。更引人注目的是，OpenAI與Cerebras簽署了一份高達100億美元的合同，部署多達750兆瓦的定制AI芯片。緊接著在2026年2月，OpenAI推出了首個運行在Cerebras Systems AI加速器上的模型——GPT-5.3-Codex-Spark預覽版，該模型支持超過1000 tokens/s的代碼生成響應速度，為用戶提供更具交互性的編程體驗。這一系列動作清晰地表明，頭部大模型廠商已經(jīng)開始為下一代實時交互應用儲備“SRAM算力”。

根據(jù)GTC 2026上正式發(fā)布的信息，英偉達并未采用將LPU單元3D堆疊在GPU核心晶圓上的激進方案，而是采取了更為務實的路線：Groq 3 LPU作為獨立的推理加速器芯片，與Rubin GPU通過協(xié)同設計的架構(gòu)進行組合，共同構(gòu)成Vera Rubin平臺。云岫資本此前的分析指出，若通過PCIe等外部接口連接，數(shù)據(jù)傳輸會引入新的延遲，部分抵消SRAM的優(yōu)勢。

這意味著未來的AI芯片將出現(xiàn)復雜的異構(gòu)內(nèi)存層級：底層是負責prefill的計算晶圓，中間層是通過3D堆疊提供的巨大SRAM緩存用于高速decode，旁邊則依然通過CoWoS封裝著大容量的HBM用于存儲海量上下文（KV Cache）。這種設計既保留了GPU在并行計算上的統(tǒng)治力，又吸收了LPU在串行生成上的低延遲優(yōu)勢，同時還能通過英偉達的Dynamo推理框架和KV緩存管理系統(tǒng)，智能地路由不同的token請求。

可以說，SRAM的回歸并非要“殺死”HBM，而是將內(nèi)存層級推向一個更精細化分工的多元時代。

03 機遇，來了

英偉達的技術(shù)轉(zhuǎn)向，在資本市場上激起了巨大的漣漪，也引發(fā)了一些有趣的誤讀。當“英偉達將推SRAM推理芯片”的消息傳出后，韓國股市一度劇烈波動，市場擔憂SRAM的使用會減少對HBM的需求，進而沖擊三星和SK海力士的核心業(yè)務。然而，這種擔憂很快被專業(yè)機構(gòu)澄清為誤判。

從物理特性看，SRAM的單元面積是DRAM的5到10倍，每比特成本極高，注定無法替代HBM作為主內(nèi)存的角色。即便Cerebras的WSE-3集成了44GB SRAM，這已是工程上的奇跡，但要存儲一個700億參數(shù)模型的全部權(quán)重，仍需要數(shù)百GB的存儲空間，這只能由HBM或DRAM來承擔。SRAM的用武之地在于需要極致低延遲的特定場景，比如OpenAI的代碼生成工具，或者未來的物理AI機器人——這些場景中，每毫秒的延遲都可能打斷人類的思維流或機器人的動作連續(xù)性。

事實上，內(nèi)存層級的細分反而會擴大整個市場的總規(guī)模。因為未來每一個數(shù)據(jù)中心可能都需要同時配備用于訓練的HBM服務器和用于實時響應的SRAM加速卡。HBM負責承載模型的“長期記憶”，而SRAM負責處理需要“瞬時反應”的交互任務。兩者是互補而非替代關(guān)系。韓系存儲巨頭需要警惕的，不是SRAM替代HBM，而是如果SRAM加速卡大規(guī)模部署，GPU的采購比例是否會發(fā)生變化，進而影響HBM的搭載率。

此外，當推理市場的聚光燈轉(zhuǎn)向SRAM，半導體產(chǎn)業(yè)鏈的受益邏輯也隨之發(fā)生微妙變化。過去，HBM的繁榮主要利好的是專門從事記憶體制造的廠商。而現(xiàn)在，由于SRAM直接集成在邏輯芯片內(nèi)部，依賴于先進邏輯制程，晶圓代工廠的地位被前所未有地凸顯出來。

在此次GTC 2026上，臺積電被供應鏈明確點名為“受惠第一排”。SRAM作為嵌入式計算核心的一部分，其設計與制造完全依賴于頂尖的邏輯制程工藝。無論是英偉達采用N3P制程打造下一代LPU，還是AMD、英特爾以及各大ASIC廠商跟進類似的SRAM增強架構(gòu)，最終都要回歸到臺積電的先進產(chǎn)線。對于臺積電而言，這不僅意味著更高的晶圓平均銷售單價（因為芯片面積增大、制程更先進），更鞏固了其在AI半導體制造領域的核心樞紐地位。

與此同時，中國臺灣的存儲供應鏈也在這股浪潮中找到了新的敘事空間。過去，由于其在標準DRAM和HBM領域的份額遠不及韓系廠商，往往在AI存儲盛宴中扮演陪跑角色。但SRAM路線的興起，為他們打開了一扇窗。此次GTC前后，市場關(guān)注點迅速鎖定了幾家具備想象空間的臺廠。

華邦電因其具備SRAM量產(chǎn)經(jīng)驗而受到關(guān)注，其定制化內(nèi)存（CMS）業(yè)務中的PSRAM（偽靜態(tài)隨機存取存儲器），結(jié)合了DRAM的高容量與SRAM的高速接口特性，被視為在成本與性能之間的折中方案。力積電則通過其3D AI Foundry策略，展現(xiàn)了在多層晶圓堆疊與高容值中介層技術(shù)上的實力，具備了承接SRAM相關(guān)代工的潛力。此外，鈺創(chuàng)的產(chǎn)品線覆蓋38納米、63納米制程的SRAM，容量范圍剛好符合Groq LPU采用的標準；而愛普則提供新一代ApSRAM，在功耗和帶寬上實現(xiàn)倍數(shù)級提升。

這表明，雖然SRAM的核心制造在臺積電，但其相關(guān)的IP設計、利基型產(chǎn)品供應以及先進封裝配套，為整個國產(chǎn)的半導體生態(tài)帶來了增量機會。

站在此刻回望，SRAM的回歸像是一場技術(shù)的輪回。在半導體歷史上，每一次算力中心的轉(zhuǎn)移，都會伴隨存儲層級的重構(gòu)。當AI產(chǎn)業(yè)從訓練狂飆轉(zhuǎn)入推理深耕，當用戶體驗的焦點從“模型有多大”轉(zhuǎn)向“回答有多快”，我們正在見證的不僅是英偉達一家公司的產(chǎn)品迭代，更是一個時代的切換。存儲金字塔的頂端，那個曾經(jīng)因為成本過高而被束之高閣的SRAM，正在因為人類對實時交互的渴望，重新煥發(fā)生機。

快報

2026-03-28 23:01

澤連斯基稱與中東3國達成防務合作協(xié)議，涉聯(lián)合生產(chǎn)無人機

2026-03-28 22:35

山西太原一建筑發(fā)生火災，已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長發(fā)表書面致辭，支持世貿(mào)組織《電子商務協(xié)定》達成臨時實施安排

2026-03-28 21:54

40余家單位聯(lián)盟，中國最大人形機器人訓練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會預判：百億智能體或成新物種，AI推動人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市，售價4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉庫并致烏克蘭人傷亡消息不實

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國務卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個詞的搜索量最高一天達到7.7萬次，比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國首個可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動2026”在北京啟動

2026-03-28 19:03

國務院食安辦、市場監(jiān)管總局約談相關(guān)地方市級人民政府負責人，督辦“3?15”晚會曝光問題整改

2026-03-28 18:44

飛書 CLI 開源：AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個月中國創(chuàng)新藥對外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國和菲律賓舉行南海問題雙邊磋商機制第十一次會議

2026-03-28 17:30

印尼正式實施16歲以下社媒禁令，約7000萬人受影響

2026-03-28 17:04

美國加州禁止官員借內(nèi)幕消息在預測市場牟利

2026-03-28 17:02

北京“超現(xiàn)場”生態(tài)共同體建設暨全國覆蓋啟動

01 SRAM如何重塑AI推理體驗

02 英偉達的“鈔能力”與SRAM的回歸

03 機遇，來了

敬原創(chuàng)，有鈦度，得贊賞

敬原創(chuàng)，有鈦度，得贊賞