文 | 云石亂筆
2026年3月20日,NVIDIA確認將在2027年底前向AWS交付一百萬顆GPU,同時搭售Spectrum網(wǎng)絡(luò)芯片和Groq推理芯片。三個月前,AWS和NVIDIA在re:Invent 2025上宣布,AWS的下一代自研芯片Trainium4將接入NVIDIA的NVLink Fusion平臺。
還是在這個月,TechCrunch的一次獨家實驗室探訪揭開了另一面:Trainium已經(jīng)部署了140萬顆芯片,Anthropic的Claude正跑在超過100萬顆Trainium2上,Andy Jassy稱其為"數(shù)十億美元級業(yè)務(wù)"。
一邊是百萬GPU的巨額采購和NVIDIA平臺的深度融合,另一邊是自研芯片已經(jīng)拿下最重要的客戶。AWS的自研故事既不是走向獨立,也不是走向投降,而是走向一種新型的"競合共生"。這究竟是務(wù)實的智慧,還是危險的依賴?
不只是GPU:七顆芯片的全棧滲透
表面上看,這是一筆GPU大單。一百萬顆GPU,2026年開始交付,2027年底完成。按NVIDIA當(dāng)前Blackwell架構(gòu)的定價估算,這筆交易的金額可能在300至500億美元量級。
但交易的完整清單更值得細看。NVIDIA副總裁Ian Buck在接受采訪時透露,這筆交易涉及七種不同的NVIDIA芯片。他的原話是:"To be the best at inference, it is not a one chip pony. We actually use all seven chips."(要在推理領(lǐng)域做到最好,不是靠一顆芯片就能搞定的。我們實際上用了全部七顆芯片。)
這七種芯片至少包括:GPU(用于訓(xùn)練和推理)、Groq推理專用芯片、Spectrum網(wǎng)絡(luò)交換芯片、ConnectX網(wǎng)絡(luò)接口卡,以及其他專用處理器。
這不是一次簡單的硬件采購。NVIDIA正在將自己的整個AI基礎(chǔ)設(shè)施棧,計算、網(wǎng)絡(luò)、推理優(yōu)化,一整套植入到AWS的數(shù)據(jù)中心。
Trainium:一個已經(jīng)被證明的數(shù)十億美元賭注
2025年12月的re:Invent大會上,AWS CEO Matt Garman站在臺上,用了大量篇幅介紹Trainium3。三個月后,AWS轉(zhuǎn)身簽下了一百萬顆NVIDIA GPU的訂單。
大多數(shù)觀察者的第一反應(yīng)是:AWS對自研芯片失去了信心。
但如果他們走進位于奧斯汀The Domain區(qū)那棟閃著鉻色玻璃幕墻的大樓,看看Annapurna Labs(AWS于2015年以約3.5億美元收購的以色列芯片設(shè)計公司)的實驗室里正在發(fā)生什么,結(jié)論或許會截然不同。
截至2026年3月,AWS已經(jīng)在三代產(chǎn)品上累計部署了140萬顆Trainium芯片。其中Anthropic的Claude模型正運行在超過100萬顆Trainium2上。僅Project Rainier一個集群——全球最大的AI計算集群之一 — 就集成了50萬顆Trainium2芯片,于2025年底投入運營。
Trainium2還承擔(dān)了Amazon Bedrock服務(wù)上大部分的推理流量。AWS CEO Andy Jassy在2025年12月公開表示,Trainium已經(jīng)是AWS的"數(shù)十億美元級業(yè)務(wù)"。
而綁定還在加深:據(jù)Business Insider報道,Anthropic已正式承諾采購100萬顆Trainium芯片,這一承諾涵蓋已部署的芯片和未來的增量訂單,進一步將自己的未來押注在AWS的自研芯片生態(tài)上。
這些數(shù)字徹底改寫了"自研芯片還在蹣跚學(xué)步"的敘事。Trainium不是一個有待證明的實驗,它是一個已經(jīng)大規(guī)模部署、拿下最重要的AI客戶、正在創(chuàng)造數(shù)十億美元收入的生產(chǎn)級產(chǎn)品。
Trainium3:在成功基礎(chǔ)上的激進躍升
在Trainium2已經(jīng)站穩(wěn)腳跟的基礎(chǔ)上,Trainium3的野心更大。如果你仔細研讀SemiAnalysis發(fā)布的技術(shù)深度分析,會發(fā)現(xiàn)Trainium3是AWS有史以來設(shè)計最激進的AI芯片。
幾個關(guān)鍵數(shù)字足以說明它的分量:臺積電3納米制程(N3P),144GB高帶寬內(nèi)存(Trainium2只有72GB),內(nèi)存帶寬提升70%,AI計算性能翻倍。Amazon宣稱,搭載Trainium3的Trn3 UltraServer在同等性能下的運行成本比傳統(tǒng)云服務(wù)器低50%。當(dāng)每天處理數(shù)萬億tokens時,這個差距會積累成巨大的競爭優(yōu)勢。
但比芯片本身更有野心的是它的系統(tǒng)設(shè)計。AWS為Trainium3打造了名為NeuronLink的自研互聯(lián)架構(gòu),每顆芯片的通信帶寬達到1.2 TB/s,并設(shè)計了兩種機架形態(tài):風(fēng)冷版(64顆芯片組成計算集群)和液冷版(144顆芯片,設(shè)計思路直接對標(biāo)NVIDIA的GB200 NVL72)。更巧妙的是,機架內(nèi)的交換模塊設(shè)計了三代演進路線,每一代都可以在現(xiàn)場升級,無需替換計算硬件。
實驗室主任Kristopher King在接受TechCrunch采訪時說,Trainium3配合團隊自研的Neuron交換機,讓"每顆芯片都能與其他所有芯片在mesh配置中直接通信,大幅降低延遲"。工程總監(jiān)Mark Carroll則稱,這套組合"正在刷新各種記錄",尤其是"每瓦性能"指標(biāo)。
這種"先上車后換票"的工程哲學(xué),是AWS作為云運營商與NVIDIA作為芯片廠商在設(shè)計理念上的根本分歧。NVIDIA追求的是峰值性能,AWS追求的是運營靈活性。
供應(yīng)鏈層面同樣下了重注。AWS通過股權(quán)認購權(quán)(warrant)協(xié)議與核心供應(yīng)商深度綁定,拿到了遠低于市場價的元器件成本。SemiAnalysis的描述是,有的供應(yīng)商"實質(zhì)上是倒貼錢讓Amazon拿走零部件"。
所以問題不是Trainium能不能行——它已經(jīng)證明了自己。問題是:既然Trainium已經(jīng)如此成功,AWS為什么還要買一百萬顆NVIDIA GPU?
時間窗口的殘酷算術(shù)
答案不在芯片本身,而在時間和規(guī)模。
Trainium3的液冷版本2025年12月發(fā)布,正在爬坡量產(chǎn)。而NVIDIA的GB200 NVL72已經(jīng)在2025年上半年開始出貨。在AI模型訓(xùn)練的軍備競賽中,6到12個月的時間差足以決定一個模型世代的成敗。
更關(guān)鍵的是客戶需求的爆發(fā)速度。實驗室主任King坦言:"我們的客戶群在以我們能交付產(chǎn)能的最快速度擴張。"Anthropic和Amazon自己的Bedrock服務(wù)消耗Trainium芯片的速度,已經(jīng)超過了Amazon的生產(chǎn)能力。在這種供不應(yīng)求的局面下,百萬顆NVIDIA GPU不是替代品,而是必需品。
百萬GPU訂單不是對Trainium的否定票,而是對AI算力需求爆炸式增長的直接回應(yīng)。AWS無法單靠自研芯片滿足所有客戶的胃口,它需要NVIDIA的產(chǎn)能來填補Trainium供應(yīng)鏈的時間差。
再者,但軟件生態(tài)仍是Trainium需要持續(xù)投入的領(lǐng)域。
AWS的Neuron SDK目前已經(jīng)走向開源,包括原生PyTorch后端、NKI(Neuron Kernel Interface)編譯器、以及矩陣乘法和通信庫。遷移門檻正在大幅降低:工程總監(jiān)Carroll表示,從NVIDIA GPU遷移到Trainium"基本上只需要改一行代碼,重新編譯,然后就能跑"。這種說法或許有宣傳、夸大之嫌,但方向是明確的:AWS正在系統(tǒng)性地瓦解CUDA的護城河。
不過,一個關(guān)鍵限制暴露了成熟度的差距:目前Neuron SDK僅支持Logical NeuronCore(LNC)等于1或2的配置,LNC=8的支持要到2026年中才能就緒。對于需要更靈活地映射算子到計算單元的前沿模型研究者來說,這意味著Trainium3在上市初期還無法完全釋放其硬件潛力。
NVIDIA花了十幾年打造CUDA生態(tài)。從編程模型、編譯器、調(diào)試工具,到數(shù)千個優(yōu)化過的算子庫,再到PyTorch和TensorFlow的深度集成,這個生態(tài)的厚度不是靠一兩代芯片就能追平的。但AWS正在用一種不同的策略去啃這塊硬骨頭:不是正面取代CUDA,而是通過PyTorch兼容層和開源生態(tài),讓開發(fā)者以最低成本嘗試Trainium。谷歌(Google)TPU走的是另一條路,用封閉生態(tài)配合十年不動搖的投入,最終在自有模型(Gemini)上證明了價值。AWS能否在開源路線上做到同樣的堅持,是一個尚待回答的問題?;叵朐?jīng)的Apache MxNet, 很難讓人建立完全的信任。
網(wǎng)絡(luò)之戰(zhàn):三條路線的角力
如果說芯片競爭還有跡可循,網(wǎng)絡(luò)層面的博弈則更加復(fù)雜。AWS現(xiàn)在同時運行著三種不同的高性能互聯(lián)方案,它們分別服務(wù)于不同的場景,但彼此之間存在微妙的競爭關(guān)系。
第一條路線:EFA(Elastic Fabric Adapter)。AWS自研的scale-out網(wǎng)絡(luò)方案,基于SRD(Scalable Reliable Datagram)協(xié)議,最新版本提供每實例400 Gbps帶寬,深度整合Nitro虛擬化層。EFA的優(yōu)勢在于多租戶隔離和VPC集成,是AWS通用GPU實例(如P5、P6)和HPC場景的標(biāo)準(zhǔn)互聯(lián)。
第二條路線:NeuronLink。Trainium3的自研scale-up互聯(lián),基于PCIe Gen 6交換架構(gòu)。每芯片1.2 TB/s單向帶寬,64至144顆芯片可以組成一個緊耦合的計算域。NeuronLink的定位類似于NVIDIA的NVLink,但實現(xiàn)路徑完全不同。它使用標(biāo)準(zhǔn)PCIe協(xié)議而非專有協(xié)議,犧牲了一定的峰值帶寬,換來了供應(yīng)鏈的多元化和硬件的現(xiàn)場可升級性。
第三條路線:NVIDIA Spectrum-X。這次交易中最出人意料的元素。Spectrum-X是NVIDIA在2024年3月GTC大會上發(fā)布的AI專用以太網(wǎng)平臺,集交換芯片、智能網(wǎng)卡和數(shù)據(jù)處理單元于一體,專門為GPU集群間的通信模式做了深度優(yōu)化。官方數(shù)據(jù)顯示其AI工作負載性能比傳統(tǒng)以太網(wǎng)提升1.7倍,支持最多32,000顆GPU組成的單一集群。
AWS采購Spectrum-X,最直接的解讀是:對于百萬顆NVIDIA GPU組成的超大規(guī)模集群,EFA的scale-out性能天花板不夠高,而NeuronLink只服務(wù)于Trainium芯片。AWS需要一個能與NVIDIA GPU深度配合的網(wǎng)絡(luò)方案,而在這個領(lǐng)域,沒有人比NVIDIA自己做得更好。
但還有一層更深的含義。2025年底,AWS和NVIDIA宣布Trainium4將接入NVIDIA的NVLink Fusion平臺,這意味著AWS下一代自研芯片的scale-up互聯(lián)將直接使用NVIDIA的NVLink技術(shù)。Spectrum-X的采購,從這個角度看,是AWS開始擁抱NVIDIA網(wǎng)絡(luò)生態(tài)的第一步,而不是最后一步。
AWS正在形成一個分層的網(wǎng)絡(luò)架構(gòu):EFA負責(zé)多租戶環(huán)境下的通用scale-out通信,NeuronLink服務(wù)于Trainium3的scale-up互聯(lián),而NVIDIA的網(wǎng)絡(luò)技術(shù)(當(dāng)前的Spectrum-X、未來的NVLink Fusion)則分別為NVIDIA GPU集群和Trainium4提供高性能互聯(lián)。這不是三選一,而是各司其職,但是復(fù)雜性則不言而喻。不可回避的事實是,NVIDIA的網(wǎng)絡(luò)技術(shù)在這個架構(gòu)中扮演的角色越來越重。
Groq芯片:推理戰(zhàn)爭的新變量
這筆交易中另一個引人注目的元素是NVIDIA的Groq芯片。
Groq原本是一家獨立AI芯片公司,由前谷歌TPU架構(gòu)師Jonathan Ross創(chuàng)立,以超快推理速度聞名。2025年底,NVIDIA以200億美元簽下非獨占技術(shù)授權(quán)協(xié)議,并招攬了Groq大部分硬件和軟件團隊。2026年3月,NVIDIA正式發(fā)布了Groq 3 LPX推理加速器。
這款芯片的出現(xiàn)意味著NVIDIA正在構(gòu)建一個"訓(xùn)練用GPU + 推理用Groq LPU"的雙芯片戰(zhàn)略。Ian Buck的那句"七顆芯片"論述暗示,NVIDIA認為未來的AI基礎(chǔ)設(shè)施不再是GPU包打天下,而是一個異構(gòu)的計算矩陣,不同類型的芯片各司其職。
一個有趣的戰(zhàn)略對比是,NVIDIA的方向是"異構(gòu)化",用七種不同芯片各司其職,訓(xùn)練歸GPU,推理歸Groq,網(wǎng)絡(luò)歸Spectrum。而AWS恰好走了相反的路:放棄了曾經(jīng)獨立的Inferentia推理芯片產(chǎn)品線,把訓(xùn)練和推理統(tǒng)一收歸Trainium一顆芯片。一個做加法,一個做減法。
但AWS也并非只有一張牌。2026年3月,AWS宣布與Cerebras Systems達成合作,將Cerebras的推理芯片集成到運行Trainium的服務(wù)器上,承諾"超強低延遲AI性能"。這意味著AWS在保持Trainium統(tǒng)一性的同時,也在推理層面引入了外部盟友。
NVIDIA的邏輯是通過專用化榨取每個環(huán)節(jié)的極致性能。AWS的邏輯是通過統(tǒng)一化降低軟件棧的復(fù)雜度和客戶的認知負擔(dān),同時在推理層面保持靈活的合作策略。
誰對誰錯?現(xiàn)在下結(jié)論為時過早。但有一點可以確定:推理市場的體量遠大于訓(xùn)練(業(yè)內(nèi)估算推理占AI計算總量的70%以上),這意味著Trainium能否在推理側(cè)證明自己,和它在訓(xùn)練側(cè)的表現(xiàn)同樣重要。而TechCrunch的報道已經(jīng)給出了部分答案:Trainium2目前承擔(dān)著Amazon Bedrock服務(wù)的大部分推理流量。這不是期許,而是正在發(fā)生的事實。只是Trainium 似乎不是每個人都能接受的選擇。
這筆交易的真正買家是誰?
要理解百萬GPU訂單,有一個關(guān)鍵問題必須回答:這一百萬顆GPU到底是誰在用?
答案可能出乎很多人的意料:大概率不都是給Anthropic的。
Amazon自2023年底以來累計向Anthropic投資80億美元。到2026年2月,這筆投資的賬面價值已飆升至606億美元,增長了七倍,成為Amazon有史以來最賺錢的戰(zhàn)略投資之一。2025年的可轉(zhuǎn)換票據(jù)轉(zhuǎn)換為Amazon貢獻了約56億美元的確認收益,第三季度又錄入72億美元的估值上調(diào)。
Anthropic正在以610億(2025年3月)→1830億(2025年9月)→據(jù)報道沖擊3500億美元的速度攀升估值,并可能在2026年IPO。
但比財務(wù)回報更重要的是產(chǎn)業(yè)綁定。Anthropic已經(jīng)承諾采購100萬顆Trainium芯片,將這家最具影響力的AI實驗室之一牢牢綁定在AWS的自研芯片生態(tài)上。Anthropic的Claude已經(jīng)運行在超過100萬顆Trainium2芯片上,AWS自己的Bedrock服務(wù)也是Trainium的重度用戶。這些工作負載不需要NVIDIA GPU,它們已經(jīng)在Trainium上跑得很好了。
百萬GPU訂單的真正驅(qū)動力,或許是2026年2月AWS與OpenAI簽下的500億美元投資協(xié)議。作為這筆交易的一部分,AWS承諾向OpenAI提供2吉瓦的Trainium算力。但OpenAI的模型和工作流程高度依賴NVIDIA CUDA生態(tài),短期內(nèi)不可能全部遷移到Trainium。百萬顆NVIDIA GPU,正是為OpenAI的過渡期準(zhǔn)備的。
這構(gòu)成了一個精妙的雙層客戶策略:Anthropic已經(jīng)是Trainium的"鐵桿用戶",承諾了100萬顆芯片的采購,證明了自研芯片在前沿模型上的可行性;OpenAI則是需要用NVIDIA GPU先接住、然后逐步引導(dǎo)向Trainium遷移的新客戶。兩條路線服務(wù)于不同的客戶成熟度。
Amazon在這兩個AI巨頭身上的投資策略截然不同。對Anthropic是80億美元的股權(quán)投資(現(xiàn)在賬面回報七倍),靠可轉(zhuǎn)換票據(jù)在Anthropic每一輪融資時自動獲得新股,是一筆越滾越大的金融賭注。對OpenAI則是500億美元的基礎(chǔ)設(shè)施投資,用算力換取獨家合作關(guān)系。一個賺資本增值,一個賺平臺鎖定,兩手都在下注,籌碼不可謂不大。
此外,AWS作為OpenAI新AI智能體產(chǎn)品Frontier的獨家提供商,GPU的供給能力直接關(guān)系到這一戰(zhàn)略合作的成敗。如果AWS無法提供充足的NVIDIA GPU資源,OpenAI完全可以把更多工作負載分配到Azure(微軟云)或Google Cloud。實際上,微軟已經(jīng)就OpenAI與Amazon的協(xié)議是否違反其自身與OpenAI的合作條款提出質(zhì)疑。
真正的棋局:Trainium4與NVLink Fusion
如果說百萬GPU訂單是當(dāng)前的戰(zhàn)術(shù)動作,那么Trainium4的路線圖才揭示了AWS與NVIDIA關(guān)系的真實走向。而這個走向,比大多數(shù)人預(yù)想的更加出人意料。
2025年12月的re:Invent大會上,AWS和NVIDIA聯(lián)合宣布了一項跨代合作:Trainium4將全面接入NVIDIA的NVLink Fusion平臺。
NVLink Fusion不是一個簡單的互聯(lián)協(xié)議授權(quán)。它是NVIDIA推出的一套完整的機架級AI基礎(chǔ)設(shè)施方案,專門為超大規(guī)模云廠商的自研芯片設(shè)計。它允許第三方ASIC通過第六代NVLink交換機實現(xiàn)72顆芯片的全互聯(lián),每顆芯片3.6 TB/s帶寬,整個域的總帶寬達到260 TB/s。
更關(guān)鍵的是,NVLink Fusion不只是互聯(lián),它還包括NVIDIA的OCP MGX機架架構(gòu)、Vera CPU、共封裝光學(xué)交換機、ConnectX SuperNIC智能網(wǎng)卡、BlueField DPU,以及Mission Control管理軟件。
這意味著,Trainium4的"自研"部分僅僅是計算芯片本身,而它運行的整個基礎(chǔ)設(shè)施平臺,從機架到互聯(lián)到網(wǎng)絡(luò)到管理軟件,都是NVIDIA的產(chǎn)品組合。
這與SemiAnalysis早前披露的路線圖形成了有趣的對照。SemiAnalysis提到Trainium4同時有UALink和NVLink兩條設(shè)計路徑。NVLink Fusion的官方發(fā)布證實了NVLink路徑不僅是真實的,而且走得比任何人預(yù)想的都更深。AWS不是簡單地在芯片里集成一個NVLink接口,而是把整顆芯片嵌入了NVIDIA的系統(tǒng)平臺。
這也意味著一個微妙但重要的轉(zhuǎn)折:Trainium3上耗費大量心血打造的NeuronLink自研互聯(lián),在Trainium4上被NVLink Fusion取代了。那套精心設(shè)計的三代交換機升級路線、那些通過供應(yīng)鏈warrant綁定的PCIe交換芯片供應(yīng)商,在Trainium4的架構(gòu)中將不再是核心角色。
NeuronLink不是失敗了,它完成了自己的歷史使命:為Trainium3提供一個可以快速上市的互聯(lián)方案,同時為AWS爭取到與NVIDIA談判NVLink Fusion合作條件的籌碼和時間。但從工程投入的角度看,NeuronLink更像是一座臨時的便橋,而不是一條大路。
規(guī)模變化同樣值得關(guān)注。Trainium3液冷版可以組成144芯片的全互聯(lián)域,而NVLink Fusion支持的是72芯片全互聯(lián)。數(shù)字上看似減半,但每顆芯片的互聯(lián)帶寬從1.2 TB/s躍升至3.6 TB/s,總域帶寬達到260 TB/s。對于大多數(shù)前沿模型訓(xùn)練而言,更高的單芯片帶寬意味著更少的通信瓶頸,72顆高帶寬芯片的實際性能可能優(yōu)于144顆低帶寬芯片。不過,對于那些極度依賴all-to-all通信的超大規(guī)模MoE模型,芯片數(shù)量的減少是否會成為瓶頸,仍有待實際部署后驗證。
但這也引出了一個尖銳的問題:如果Trainium4運行在NVIDIA的平臺上,那它到底算"自研"還是"半自研"?
AWS從中獲得的好處很直接:大幅縮短開發(fā)周期、降低系統(tǒng)設(shè)計風(fēng)險、獲得經(jīng)過驗證的互聯(lián)性能。NVIDIA的官方博客直言不諱地寫道,NVLink Fusion能幫助云廠商"消除獨立開發(fā)scale-up網(wǎng)絡(luò)方案的需要","最大限度降低供應(yīng)商生態(tài)的復(fù)雜性"。
NVIDIA從中獲得的好處同樣巨大:即使AWS用自研芯片替代了NVIDIA GPU,NVIDIA依然通過NVLink交換機、網(wǎng)卡、DPU和機架平臺獲取豐厚的收入。芯片可以換,但基礎(chǔ)設(shè)施平臺的粘性遠高于單顆芯片。這是NVIDIA的終極商業(yè)模式升級:從賣芯片到賣平臺。即便客戶不用我的GPU,也要用我的一切其它的東西。
百萬GPU訂單和NVLink Fusion合作放在一起看,畫面就完整了:短期內(nèi),AWS買NVIDIA的GPU和網(wǎng)絡(luò);長期內(nèi),AWS的自研芯片仍然運行在NVIDIA的平臺上。無論哪條路線勝出,NVIDIA都能從中獲利。
AWS當(dāng)然看得到這一點。它之所以接受這個格局,是因為另一個算盤:如果Trainium4在NVIDIA平臺上成功了,AWS就擁有了一顆成本由自己控制的計算芯片,即使平臺費用要付給NVIDIA,總體TCO仍然優(yōu)于全部購買NVIDIA GPU。計算芯片是數(shù)據(jù)中心成本中占比最大的部分,只要在這一層實現(xiàn)自主,AWS就能在定價上獲得結(jié)構(gòu)性優(yōu)勢。NVIDIA賺平臺的錢,AWS賺計算的差價,雙方各取所需。這是一種理性的利益切割,而非一方對另一方的屈服。
但問題在于:這種"各取所需"的均衡能維持多久?當(dāng)NVIDIA的平臺收入逐漸成為AWS不可或缺的基礎(chǔ)設(shè)施成本時,談判桌上的力量對比會不會悄然地改變?
一個比"投降"復(fù)雜得多的故事
讓我們把視角拉遠來看這件事。
最偷懶的解讀是:AWS買了一百萬顆NVIDIA GPU,說明自研芯片失敗了。這個敘事簡單、有沖擊力,但它忽略了太多的事實:140萬顆已部署的Trainium芯片、承載Claude的百萬芯片集群、數(shù)十億美元的營收、80億美元投資七倍增值到606億的財務(wù)回報,以及OpenAI 500億美元合作中對Trainium產(chǎn)能的承諾。
更接近現(xiàn)實的圖景可能是這樣的:
AWS正在同時運行三場不同時間尺度的戰(zhàn)爭。
短期(2025-2026):用NVIDIA GPU接住OpenAI等CUDA生態(tài)深度綁定的新客戶,同時持續(xù)擴大Trainium2/3的產(chǎn)能來滿足Anthropic和Bedrock的爆發(fā)式需求。這不是在兩條路線之間猶豫,而是兩條路線都在全速推進。
中期(2026-2028):Trainium3全面鋪開后,用50%的成本優(yōu)勢和MoE架構(gòu)優(yōu)化爭奪增量工作負載。144芯片的NeuronLink域、開源的Neuron SDK、比NVIDIA更靈活的機架設(shè)計(風(fēng)冷/液冷雙版本、可現(xiàn)場升級的交換架構(gòu)),這些都是差異化的武器。SemiAnalysis對Trainium3的評價是,它為黃仁勛"yet another front"(又開辟了一條戰(zhàn)線),與谷歌TPUv7和AMD MI450X一起形成多線作戰(zhàn)的壓力。
長期(2028+):Trainium4接入NVLink Fusion平臺,獲得NVIDIA級別的互聯(lián)性能,同時保留自研計算芯片的成本和架構(gòu)靈活性。但這也意味著AWS在互聯(lián)和機架層面對NVIDIA的依賴將進一步加深,而非減弱。
這個三層戰(zhàn)略的核心邏輯是:不在任何單一時間點與NVIDIA的全面對抗,而是在計算芯片層面持續(xù)積累自研能力,在互聯(lián)和平臺層面則選擇與NVIDIA合作而非對抗。
百萬GPU訂單不是投降書,它是AWS為接住爆發(fā)式增長的AI算力需求而必須支付的擴容賬單。但"自研芯片帝國"這個說法本身可能需要做出修正。Trainium4與NVLink Fusion的合作模式表明,AWS追求的不是全面獨立于NVIDIA,而是在最核心的計算層實現(xiàn)自主可控,其余部分則務(wù)實地選擇最優(yōu)方案。
但我們必須誠實地面對一個問題:即便Trainium在計算層已經(jīng)成功,NVLink Fusion的平臺依賴是否會成為新的風(fēng)險?
成功之后的隱憂
上面描繪的圖景比一年前樂觀得多。Trainium已經(jīng)不再是一個需要證明自己的實驗品,它是一臺正在全速運轉(zhuǎn)的印鈔機。但成功本身也帶來了新的戰(zhàn)略風(fēng)險。
第一個隱憂:平臺依賴的不可逆性。Trainium4選擇接入NVLink Fusion,意味著其機架設(shè)計、互聯(lián)協(xié)議和管理軟件都將深度綁定NVIDIA生態(tài)。一旦走上這條路,回頭的成本極高。從Trainium3的全自研互聯(lián)到Trainium4的NVLink Fusion,"自研"的邊界在一代產(chǎn)品之間就大幅收縮了。如果這種收縮在Trainium5、Trainium6上繼續(xù)下去,AWS最終可能只剩下計算Die這一個自研環(huán)節(jié),其余全部依賴NVIDIA。那時候,"自研芯片"更像是NVIDIA平臺上的一個可替換模塊,而非真正意義上的獨立競爭力。
第二個隱憂:供給瓶頸的悖論。King坦承"客戶群擴張速度超過了產(chǎn)能交付速度"。Trainium的成功反而暴露了產(chǎn)能瓶頸 — 如果AWS無法快速擴大自研芯片的產(chǎn)量,它就不得不持續(xù)購買NVIDIA GPU來填補缺口。這意味著每一筆NVIDIA訂單都在強化NVIDIA的營收和談判地位,而Trainium的成本優(yōu)勢要到產(chǎn)能完全跟上需求之后才能充分兌現(xiàn)。
第三個隱憂:NVIDIA不會站著等。SemiAnalysis評價Trainium3為黃仁勛開辟了"yet another front",但這個評價的另一面是:NVIDIA從來不缺乏在多線作戰(zhàn)中獲勝的能力。Blackwell之后是Rubin,Rubin之后還有更新的架構(gòu)。NVIDIA的研發(fā)投入是AWS芯片團隊的數(shù)倍,迭代速度之快有時甚至讓自己的客戶措手不及。Trainium在成本上可能有優(yōu)勢,但在絕對性能上能否持續(xù)跟上NVIDIA的節(jié)奏,是一個沒有確定答案的問題。
第四個隱憂:雙重生態(tài)的維護成本。AWS現(xiàn)在需要同時維護兩套完整的AI基礎(chǔ)設(shè)施 — NVIDIA GPU集群和Trainium集群。兩套不同的軟件棧、兩套不同的網(wǎng)絡(luò)方案、兩套不同的運維流程。這種雙軌并行的運營復(fù)雜度,本身就是一筆巨大的隱性成本。King說"Bedrock可能有一天會像EC2一樣大",但要達到那個規(guī)模,AWS需要在兩套基礎(chǔ)設(shè)施之間做到無縫調(diào)度,這遠比單一平臺的運營困難得多。
而在AI基礎(chǔ)設(shè)施每六個月就更新一代的節(jié)奏下,戰(zhàn)略上的搖擺比戰(zhàn)略上的錯誤更危險。谷歌走TPU路線十年,盡管中間經(jīng)歷了無數(shù)質(zhì)疑,但從未在戰(zhàn)略層面動搖,最終用Gemini證明了自研芯片的可行性。NVIDIA走CUDA全棧路線二十年,中間GPU多次被唱衰,但始終堅持計算與軟件一體化的方向。這兩家公司的成功有一個共同點:長期戰(zhàn)略的一致性。
公允地說,AWS目前的方向并不是在自研和外購之間反復(fù)橫跳。"計算層自研、平臺層合作"是一個清晰的分工邏輯,而140萬顆已部署的芯片和數(shù)十億美元的營收證明了執(zhí)行力。但Trainium4擁抱NVLink Fusion的決定提醒我們:成功不等于獨立。AWS在計算芯片層面越成功,NVIDIA在平臺層面的不可替代性就越高。
這才是百萬GPU訂單背后最值得深思的信號:它不是自研失敗的標(biāo)志,而是一種新型共生關(guān)系的起點。在這種關(guān)系中,AWS掌控計算,NVIDIA掌控平臺,雙方共同分割A(yù)I基礎(chǔ)設(shè)施的利潤池。誰獲得更大的份額,取決于接下來幾年的博弈。
答案可能就在AWS的下一步行動中。2026年的關(guān)鍵觀察指標(biāo)是:Trainium3的液冷版能否按時大規(guī)模部署、OpenAI在Trainium上的工作負載占比是否穩(wěn)步上升、Neuron SDK的開源社區(qū)是否出現(xiàn)實質(zhì)性的外部貢獻。如果這些指標(biāo)持續(xù)向好,AWS就有底氣在Trainium4的NVLink Fusion談判中爭取更有利的條款。如果Trainium3產(chǎn)能爬坡不順、或者OpenAI遲遲無法從NVIDIA GPU遷移,那么NVIDIA在平臺層面的議價權(quán)只會越來越強。
真正的問題不在于AWS是否在買NVIDIA的芯片,而在于五年后,AWS的數(shù)據(jù)中心里跑的到底是誰的芯片、用的是誰的網(wǎng)絡(luò)、受制于誰的生態(tài)。這場博弈的結(jié)局,遠未寫完。但與一年前相比,AWS手中的牌已經(jīng)好了很多。140萬顆已部署的芯片、Anthropic的百萬芯片采購承諾、80億美元投資七倍增值到606億美元的財務(wù)回報,這些數(shù)字不說謊。唯一欠缺的可能就是股價了。
2026 年 3 月 25 日
參考資料
- Yahoo Finance, 2025年3月; NVIDIA確認百萬GPU交易的原始報道
- Seeking Alpha, 2025年3月; Amazon如何通過NVIDIA交易解決AI客戶需求的分析
- Tae Kim/Substack, 2025年3月; Ian Buck詳述七芯片戰(zhàn)略和AWS合作細節(jié)
- Inspirepreneur Magazine, 2025年3月; 交易規(guī)模和時間線報道
- Research Newspaper, 2025年3月; 七種芯片類型和Groq、Spectrum-X細節(jié)
- SemiAnalysis, 2025年; Trainium3技術(shù)深度分析,包括N3P制程、NeuronLink架構(gòu)、機架設(shè)計、供應(yīng)鏈策略及Trainium4路線圖







快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論