2023年12月7日,Sarvam AI宣布完成融資。
4100萬美元,種子輪加A輪合并計(jì)算。領(lǐng)投方是Lightspeed,Peak XV和Khosla Ventures跟投。按照TechCrunch的說法,這是印度AI創(chuàng)業(yè)公司在這個(gè)階段完成的最大單筆融資。
公司成立剛好五個(gè)月。員工總數(shù)約18人。
沒有人知道這家公司之前做過什么——它是從隱身模式直接跳出來宣布融資的。但投資人顯然不需要更多時(shí)間判斷。Peak XV和Lightspeed在種子輪時(shí)不到一周就拍了板。Khosla Ventures創(chuàng)始人Vinod Khosla在聲明里說:"我們需要像Sarvam這樣的公司,為印度、在印度構(gòu)建AI的深度能力。"
讓他們下這么快決定的,是兩個(gè)創(chuàng)始人的簡歷放在一起之后產(chǎn)生的化學(xué)反應(yīng)。
Pratyush Kumar,IIT Bombay本科,ETH Zurich博士,之后在IBM Research和Microsoft Research做研究員,再后來回到IIT Madras做教職。他在學(xué)術(shù)圈發(fā)表了89篇論文,但更重要的履歷是另一個(gè)身份:AI4Bharat聯(lián)合創(chuàng)始人。這是一個(gè)專注于印度語言AI的開源研究計(jì)劃,背后站著印度數(shù)字基礎(chǔ)設(shè)施的主要締造者Nandan Nilekani。
Vivek Raghavan,IIT Delhi本科,卡內(nèi)基梅隆博士。畢業(yè)后在EDA行業(yè)做了整整二十年,做到Synopsys的副總裁級(jí)別。然后他做了一個(gè)不太符合職業(yè)邏輯的選擇:回印度,去UIDAI——那個(gè)負(fù)責(zé)Aadhaar身份證系統(tǒng)的政府機(jī)構(gòu)——做生物識(shí)別基礎(chǔ)設(shè)施,一做就是十二年。Aadhaar今天覆蓋了超過十億印度人,是全球最大規(guī)模的數(shù)字身份系統(tǒng)之一。Raghavan是這套系統(tǒng)底層技術(shù)的參與建設(shè)者。
兩個(gè)人在AI4Bharat相遇,2023年8月一起創(chuàng)辦了Sarvam。
他們看到的機(jī)會(huì),和ChatGPT在2022年11月出現(xiàn)有直接關(guān)系。不是因?yàn)橐獜?fù)制ChatGPT,而是因?yàn)镃hatGPT的出現(xiàn)讓一件事變得顯而易見:語言模型正在成為新的基礎(chǔ)設(shè)施,而這套基礎(chǔ)設(shè)施如果只懂英語,對(duì)一個(gè)有二十二種官方語言、大多數(shù)人口不以英語為母語的國家來說,意味著一種結(jié)構(gòu)性的排斥。Raghavan在融資公告里說了一句話:"我親眼見證過在基礎(chǔ)層創(chuàng)新、并在人口規(guī)模上部署的巨大價(jià)值。"他指的不是抽象的愿景,而是Aadhaar。
這就是VC在不到一周內(nèi)決定投資的原因:這不是兩個(gè)在硅谷學(xué)了幾年深度學(xué)習(xí)就回來創(chuàng)業(yè)的人,而是兩個(gè)真正在印度數(shù)字基礎(chǔ)設(shè)施最深處工作過的人,在AI范式切換的時(shí)間節(jié)點(diǎn)上,做了一個(gè)在他們背景下極為自然的選擇。
融資公告發(fā)出之后,Sarvam承諾的事情很簡單:造一個(gè)印度自己的AI。
但"印度自己的"這幾個(gè)字,比他們預(yù)想的要難兌現(xiàn)得多。
拿到錢之后,Sarvam的第一步走得相當(dāng)穩(wěn)。
2024年2月,微軟CEO納德拉訪印主持AI Tour,宣布將與Sarvam合作開發(fā)印度語音AI工具,并將Sarvam的印度語音大模型上線Azure。2024年6月,世界經(jīng)濟(jì)論壇把Sarvam列入Technology Pioneers 2024名單——全球100家,印度10家,Sarvam在列。2024年10月,公司發(fā)布了第一個(gè)公開模型Sarvam-1:20億參數(shù),支持10種印度語言,在部分印度語言任務(wù)上的表現(xiàn)超過了規(guī)模更大的全球模型。
媒體的描述越來越順滑:印度AI的國家隊(duì)、主權(quán)模型的希望、下一個(gè)DeepSeek。
但有一件事,在這段時(shí)間里悄悄積累了壓力。
2025年4月26日,印度政府在67家申請(qǐng)機(jī)構(gòu)中選中Sarvam,承接IndiaAI Mission的主權(quán)大模型項(xiàng)目。這是一筆條件特殊的交易:政府提供算力——4096塊NVIDIA H100,使用期六個(gè)月,托管在Yotta數(shù)據(jù)中心——換取Sarvam的股權(quán)。算力的總賬單是2.47億盧比,政府補(bǔ)貼其中的9868萬盧比,剩余部分由Sarvam承擔(dān)。
合同的核心要求只有一條:模型必須從零訓(xùn)練,完成后開源。
這是Sarvam第一次真正拿到足以訓(xùn)練主權(quán)模型的算力。
按理說,接下來的動(dòng)作應(yīng)該是埋頭去做那件一直承諾的事。
但2025年5月23日,Sarvam發(fā)布了Sarvam-M。
Sarvam-M是一個(gè)240億參數(shù)的混合模型,支持10種印度語言,針對(duì)數(shù)學(xué)和代碼任務(wù)做了強(qiáng)化訓(xùn)練。發(fā)布公告里列了一串基準(zhǔn)測試數(shù)字,措辭是它在"多項(xiàng)指標(biāo)上與全球領(lǐng)先模型相當(dāng)"。
問題不在于這些數(shù)字是否屬實(shí)。問題在于模型的底座:Sarvam-M建立在法國公司Mistral的開源模型Mistral Small之上。Sarvam的工程師在這個(gè)基礎(chǔ)上用印度語言數(shù)據(jù)做了大規(guī)模的后訓(xùn)練。這是一種在資源受限條件下相當(dāng)務(wù)實(shí)的選擇,業(yè)界也有不少成功先例。
但它不是從零訓(xùn)練的主權(quán)模型。
名字里的"M",代表Mistral。這不是外界的解讀,而是媒體報(bào)道中普遍流傳的說法,Sarvam沒有公開否認(rèn)。一家宣稱要造"印度自己的AI"、剛剛拿到政府主權(quán)模型合同的公司,交出的第一個(gè)成果,用的是法國人的底座。
邏輯上可以解釋:政府的H100算力4月底才到位,Sarvam-M的開發(fā)應(yīng)該在此之前已經(jīng)進(jìn)行了相當(dāng)長時(shí)間;發(fā)布Sarvam-M,是為了給開發(fā)者提供一個(gè)可用的工具,同時(shí)為從零訓(xùn)練積累數(shù)據(jù)管道和后訓(xùn)練經(jīng)驗(yàn);這是一個(gè)過渡性產(chǎn)品,不是最終答案。
這些解釋都站得住腳。但對(duì)于外部觀察者來說,一個(gè)從零訓(xùn)練的承諾,和一個(gè)建立在Mistral底座上的發(fā)布,之間的距離是真實(shí)存在的。
而在接下來的二十四小時(shí)里,這個(gè)距離被放大到了所有人都看得見的程度。
2025年5月24日,Sarvam-M上線兩天后,Menlo Ventures投資人Deedy Das在X上發(fā)了一條帖子。
內(nèi)容不長,但足夠精準(zhǔn):印度最大的AI創(chuàng)業(yè)公司,估值十億美元的Sarvam,剛剛發(fā)布了它的旗艦大模型。上線兩天,Hugging Face下載量:23次。作為對(duì)比,他附上了另一組數(shù)字——兩名韓國大學(xué)生做的開源模型Dia,上個(gè)月的下載量:約20萬次。
最后一個(gè)詞:「丟人」。
這條帖子的轉(zhuǎn)發(fā)量在幾小時(shí)內(nèi)突破了印度科技圈的日常閾值。不是因?yàn)樗貏e刻薄——它確實(shí)刻薄——而是因?yàn)樗岩粋€(gè)讓很多人隱隱不安的問題用數(shù)字說出來了:印度的AI,到底在哪里?
批評(píng)很快分成了幾個(gè)方向。
技術(shù)路線的質(zhì)疑最直接:基于Mistral微調(diào),在IndicLLM基準(zhǔn)上的得分僅比原始Llama高出0.02,這是Sarvam值得驕傲的成績嗎?有開發(fā)者在X上貼出了對(duì)比數(shù)據(jù)——Sarvam-M 0.49,Llama原版 0.47,Gemma 0.48——然后問:這是"可感知的提升"嗎?
生態(tài)批評(píng)則更結(jié)構(gòu)性。有投資人指出,印度沒有了Koo這樣的本土社交平臺(tái),Sarvam-M缺乏一個(gè)天然的早期用戶反饋場,下載量低不只是模型的問題,是整個(gè)生態(tài)的問題。也有人算了另一筆賬:印度H100極度稀缺,出口管制壓力持續(xù)存在,在這種資源約束下,Sarvam能交出一個(gè)可用的24B印度語言模型,本身就不是一件容易的事——用Hugging Face幾小時(shí)的統(tǒng)計(jì)數(shù)據(jù)來定性一個(gè)項(xiàng)目,是在刻意誤讀。
支持的聲音里最有分量的,來自Zoho聯(lián)合創(chuàng)始人Sridhar Vembu。他在X上寫道:"我們做過的每一個(gè)產(chǎn)品,沒有一個(gè)一開始就是爆款。"
但外界爭議如何,Sarvam的公關(guān)部門選擇了沉默。
真正開口的,是Pratyush Kumar本人。
他在X上轉(zhuǎn)發(fā)了批評(píng)帖子,寫了一句話:「很高興收到大家對(duì)Sarvam-M的反饋,請(qǐng)繼續(xù)。等我們開始訓(xùn)練主權(quán)模型的時(shí)候,這些都會(huì)用上?!?/p>
這句話值得細(xì)讀。
他沒有辯解Sarvam-M的技術(shù)選擇,沒有解釋為什么用了Mistral底座,沒有反駁下載量數(shù)字,也沒有指責(zé)批評(píng)者不懂印度的資源限制。他做的事情是:把一次公開羞辱,原地轉(zhuǎn)化成了一個(gè)公開宣言。"等我們開始訓(xùn)練主權(quán)模型的時(shí)候"——不是"如果",是"等"。不是"我們將來考慮從零開始",是"我們正在開始"。
這句話發(fā)出的時(shí)間是2025年5月25日,距離Sarvam-M發(fā)布過去了四十八小時(shí)。
此后的幾天里,Sarvam-M的Hugging Face下載量從23個(gè)反彈到334個(gè),然后繼續(xù)緩慢爬升。不是什么了不起的數(shù)字,但至少證明最初的統(tǒng)計(jì)確實(shí)是因?yàn)镠ugging Face數(shù)據(jù)延遲造成的偏差,而不是真實(shí)的用戶冷漠。
但數(shù)字的反彈并不是這個(gè)插曲真正的結(jié)局。
真正的結(jié)局,發(fā)生在八個(gè)月之后。屆時(shí),曾經(jīng)在X上寫下「丟人」的那個(gè)人,會(huì)主動(dòng)發(fā)文說:"I was wrong."
但那是后話。
2025年5月,Sarvam需要面對(duì)的現(xiàn)實(shí)是:政府的4096塊H100已經(jīng)就位,承諾從零訓(xùn)練的合同已經(jīng)簽署,外界的嘲諷已經(jīng)變成了歷史記錄。接下來沒有別的路,只有一條。
讓我們回到那筆交易本身。
4096塊NVIDIA H100,六個(gè)月使用期,托管在孟買郊外的Yotta數(shù)據(jù)中心??傎~單2.47億盧比,政府補(bǔ)貼其中的9868萬盧比。作為交換,Sarvam讓出了一部分股權(quán),訓(xùn)練完成的模型必須開源。
這是印度政府在IndiaAI Mission框架下簽下的第一批主權(quán)模型合同之一。67家機(jī)構(gòu)參與申請(qǐng),最終四家入選:Sarvam、Gnani.ai、Gan.ai和Soket AI Labs。Sarvam拿到的算力分配是四家中最大的一塊。
從外部看,這是一筆對(duì)Sarvam極為有利的交易:政府出錢補(bǔ)貼算力,Sarvam用政府的GPU訓(xùn)練模型,訓(xùn)練完開源,政府拿一點(diǎn)股權(quán)。性價(jià)比高得有些不真實(shí)。
但這筆交易的另一面,是一個(gè)約束。
開源意味著Sarvam不能把這個(gè)模型變成護(hù)城河。股權(quán)意味著政府成了Sarvam的股東,這個(gè)身份在任何國家都意味著某種隱性的期待和潛在的干預(yù)空間。算力是政府補(bǔ)貼的,但賬單的剩余部分——超過1.5億盧比——要Sarvam自己承擔(dān)。對(duì)一家年收入只有2910萬盧比的公司來說,這個(gè)數(shù)字意味著巨大的財(cái)務(wù)壓力。
更深的約束是時(shí)間。六個(gè)月,4096塊H100,目標(biāo)是一個(gè)從零開始、在全球基準(zhǔn)測試上有競爭力、同時(shí)精通印度語言的大模型。
在全球AI軍備競賽的背景下,這是一個(gè)聽起來有些冒險(xiǎn)的賭注。2025年初,OpenAI的融資總額已經(jīng)超過180億美元。DeepSeek用相對(duì)有限的資源訓(xùn)練出了震驚業(yè)界的R1,但它背后是中國成熟的AI基礎(chǔ)設(shè)施生態(tài)。Sarvam的114名員工,要在一個(gè)GPU基礎(chǔ)設(shè)施還不完善、訓(xùn)練數(shù)據(jù)需要自己從頭整理的國家,完成這件事。
他們的回答,是從基礎(chǔ)設(shè)施開始做起。
Sarvam的工程師首先重新設(shè)計(jì)了tokenizer——這是大模型處理文字的最底層組件?,F(xiàn)有的主流tokenizer對(duì)印度文字效率極低,處理梵文、泰米爾文、孟加拉文這類非拉丁字母體系時(shí),需要消耗比英文多出數(shù)倍的token。Sarvam重新訓(xùn)練的tokenizer,對(duì)印度文字的處理效率提升了三到四倍。這一步?jīng)]有任何可見度,不會(huì)出現(xiàn)在發(fā)布會(huì)的PPT上,但它決定了后續(xù)所有訓(xùn)練的成本和效率。
數(shù)據(jù)管道是另一個(gè)自建的基礎(chǔ)設(shè)施。Sarvam在內(nèi)部搭建了一套評(píng)估數(shù)據(jù)質(zhì)量的工具,從頭整理訓(xùn)練語料。最終用于預(yù)訓(xùn)練的數(shù)據(jù)量,30B模型約為16萬億token。這些數(shù)據(jù)的收集、清洗、標(biāo)注,全部在印度國內(nèi)完成。
強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施也是自研的。這個(gè)環(huán)節(jié)決定了模型在推理任務(wù)上的最終表現(xiàn),也是DeepSeek-R1讓業(yè)界重新注意到的核心技術(shù)路線。Sarvam選擇了同樣的方向,并把整套訓(xùn)練流程完整地跑了一遍。
2025年下半年,Sarvam幾乎沒有對(duì)外發(fā)聲。
公司賬面上的年收入是2910萬盧比,折合約350萬美元。這是一個(gè)健康的早期創(chuàng)業(yè)公司收入,但在大模型訓(xùn)練的語境下,這個(gè)數(shù)字說明Sarvam幾乎沒有任何財(cái)務(wù)緩沖。他們在用一家小公司的資源,做一件通常需要十倍體量才敢啟動(dòng)的事情。
對(duì)外沉默的背后,是一支114人的團(tuán)隊(duì)在訓(xùn)練一個(gè)他們自己也不確定能否成功的模型。
2026年2月1日,Sarvam開始了一場密集的公開攻勢。
策略是刻意設(shè)計(jì)的:在India AI Impact Summit召開前的兩周,每天發(fā)布一個(gè)新產(chǎn)品或新功能,連續(xù)十四天不間斷。語音識(shí)別模型Saaras V3、文字轉(zhuǎn)語音模型Bulbul V3、文檔數(shù)字化工具Sarvam Akshar、多語言內(nèi)容創(chuàng)作平臺(tái)Sarvam Studio……一個(gè)接一個(gè),節(jié)奏像節(jié)拍器一樣準(zhǔn)確。
這個(gè)策略有一個(gè)明顯的參照對(duì)象:OpenAI在2024年末的"12 Days of OpenAI"發(fā)布攻勢。Sarvam把它改成了14天,因?yàn)榉鍟?huì)日期決定了窗口長度,但邏輯是一樣的——用密集的發(fā)布節(jié)奏制造輿論動(dòng)能,讓媒體和開發(fā)者在峰會(huì)開幕之前就持續(xù)關(guān)注這家公司。
在峰會(huì)開幕前的密集發(fā)布期間,有一件事悄悄發(fā)生了。2月7日,Sarvam發(fā)布Bulbul V3語音合成模型當(dāng)天,Deedy Das——那個(gè)在2025年5月寫下「丟人」的人——主動(dòng)在X上發(fā)了一篇帖子,開頭三個(gè)字:"I was wrong."他說,他一年前認(rèn)為訓(xùn)練小型Indic語言模型的方向是錯(cuò)的。"但他們做到了轉(zhuǎn)變。他們有Indic語言最好的語音合成、語音識(shí)別和文字識(shí)別模型,這是真正有價(jià)值的東西。"從「丟人」到"I was wrong",八個(gè)月,觸發(fā)轉(zhuǎn)變的不是大模型,而是一個(gè)語音產(chǎn)品。
2月16日,峰會(huì)開幕展覽日。
印度Modi總理在Bharat Mandapam的展覽區(qū)走了一圈。他在Sarvam的展臺(tái)前停下來,試戴了一副黑色眼鏡。這副眼鏡叫Sarvam Kaze,是Sarvam研發(fā)的AI智能眼鏡原型,支持十種以上印度語言的實(shí)時(shí)語音交互,Pratyush Kumar在X上發(fā)了一張Modi戴著眼鏡的照片,配文只有一句:「第一個(gè)試戴的人?總理?!?/p>
這張照片的傳播速度,超過了Sarvam過去兩年所有發(fā)布的總和。
2月18日,Research Symposium,Sarvam正式發(fā)布Sarvam-30B和Sarvam-105B。
兩個(gè)模型,都從零訓(xùn)練。30B模型預(yù)訓(xùn)練用了約16萬億token,支持32000 token的上下文窗口,MoE架構(gòu)下每次推理只激活約10億參數(shù),推理成本大幅壓縮。105B模型支持128000 token的超長上下文,在AIME 25數(shù)學(xué)競賽基準(zhǔn)上得分88.3,使用工具后達(dá)到96.7;MMLU得分90.6;Math500得分98.6。
Pratyush Kumar在臺(tái)上說,105B在多項(xiàng)推理基準(zhǔn)上超過了DeepSeek-R1——而DeepSeek-R1的總參數(shù)量是6000億,是Sarvam-105B的近六倍。
批評(píng)在幾小時(shí)內(nèi)又來了。
有人在X上翻出了Sarvam-105B的架構(gòu)配置文件,指其為"DeepSeek的山寨縮水版"。有帖子把配置文件扔進(jìn)ChatGPT,得到的描述是"Mini DeepSeek-V2風(fēng)格模型"。這個(gè)截圖被廣泛轉(zhuǎn)發(fā)。對(duì)于剛剛經(jīng)歷過Sarvam-M事件的人來說,這個(gè)指控聽起來似曾相識(shí)——上次是法國人的底座,這次是中國人的架構(gòu)。
Pratyush Kumar的回應(yīng)比上次更直接。他在X上寫道,團(tuán)隊(duì)欣賞DeepSeek的研究,也從中學(xué)習(xí),但Sarvam-105B是用更小的規(guī)模做到了這些結(jié)果。一名Sarvam工程師補(bǔ)充:公司所有模型都是從零訓(xùn)練的基礎(chǔ)模型,沒有例外。
這場爭議的實(shí)質(zhì),是一個(gè)在AI領(lǐng)域反復(fù)出現(xiàn)的認(rèn)知誤區(qū):架構(gòu)和模型是兩件不同的事。架構(gòu)是藍(lán)圖,是發(fā)表在學(xué)術(shù)論文里供所有人使用的設(shè)計(jì)方案;模型是訓(xùn)練的產(chǎn)物,是數(shù)據(jù)、算力和工程決策共同生成的結(jié)果。
Sarvam借鑒了DeepSeek在Multi-head Latent Attention和Mixture of Experts上的架構(gòu)設(shè)計(jì),正如DeepSeek借鑒了Transformer,正如Transformer借鑒了注意力機(jī)制的早期論文。這是這個(gè)領(lǐng)域一直以來的運(yùn)作方式。
2月20日,Sarvam發(fā)布了面向普通用戶的對(duì)話產(chǎn)品Indus,登陸App Store和Google Play。這是Sarvam第一次走出開發(fā)者和企業(yè)市場,直接面對(duì)消費(fèi)者。
峰會(huì)結(jié)束了。距離3月6日開源,還有兩周。
2026年3月6日,Sarvam把模型權(quán)重傳到了Hugging Face。
沒有發(fā)布會(huì),沒有倒計(jì)時(shí)直播。文件名sarvamai/sarvam-30b和sarvamai/sarvam-105b,Apache 2.0協(xié)議,商業(yè)使用不設(shè)障礙。同一天,模型也上傳到了印度政府的AIKosh平臺(tái)。
Pratyush Kumar在X上寫了一段話:「開源Sarvam 30B和105B。從零訓(xùn)練,所有數(shù)據(jù)、模型研究和推理優(yōu)化全部在內(nèi)部完成。這些模型在大多數(shù)全球基準(zhǔn)測試上表現(xiàn)突出,同時(shí)在印度語言上表現(xiàn)卓越?!?/p>
這句話里有一個(gè)詞值得停下來看一眼:"all done in-house",全部在內(nèi)部完成。不是Mistral的底座,不是借來的架構(gòu)實(shí)現(xiàn),是一支114人的團(tuán)隊(duì),在一個(gè)GPU基礎(chǔ)設(shè)施直到最近才勉強(qiáng)夠用的國家,自己搭建tokenizer、自己整理數(shù)據(jù)管道、自己寫強(qiáng)化學(xué)習(xí)基礎(chǔ)設(shè)施,從頭到尾跑完了一遍。
從2023年12月那場18人公司的融資發(fā)布會(huì),到這兩個(gè)文件掛上Hugging Face,中間過去了二十七個(gè)月。
這二十七個(gè)月里發(fā)生的事情,放在任何一個(gè)敘事框架里都可以講得通:可以是一家公司如何在公開羞辱中找回初心,可以是印度國家意志如何通過一紙算力合同把一家創(chuàng)業(yè)公司綁上主權(quán)敘事的戰(zhàn)車,也可以是兩個(gè)深度參與印度數(shù)字基礎(chǔ)設(shè)施的人,在AI范式切換的時(shí)間節(jié)點(diǎn)上,做了一次代價(jià)高昂但方向正確的押注。
這些敘事都是真的,也都是不完整的。
Sarvam現(xiàn)在面對(duì)的問題,比兩年前更難回答:開源之后呢?當(dāng)模型權(quán)重免費(fèi)可得,公司的商業(yè)護(hù)城河在哪里?當(dāng)全球大模型開始認(rèn)真處理印度語言,Sarvam的差異化還能維持多久?政府成為股東之后,商業(yè)利益和公共利益之間的張力,遲早會(huì)在某一個(gè)具體決策上顯現(xiàn)出來。
這些問題,2026年3月6日那天沒有答案。
但那兩個(gè)文件已經(jīng)在網(wǎng)上了。任何人都可以下載,任何人都可以修改,任何人都可以拿去用。
這是Sarvam最初承諾的那件事。
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論