楊植麟表示, Kimi 的進化邏輯可以歸納為三個維度的共振:Token 效率、長上下文以及智能體集群(Agent Swarms)。在他看來,當(dāng)前的 Scaling 已經(jīng)不再是單純的資源堆砌,而是要在計算效率、長程記憶和自動化協(xié)作上同時尋找規(guī)模效應(yīng)。如果能將這三個維度的技術(shù)增益相乘,模型將表現(xiàn)出遠超現(xiàn)狀的智能水平。
技術(shù)重構(gòu)是本次演講的核心。楊植麟提出,行業(yè)目前普遍使用的很多技術(shù)標(biāo)準(zhǔn),本質(zhì)上是八九年前的產(chǎn)物,正逐漸成為 Scaling 的瓶頸。
自 2014 年以來,Adam 優(yōu)化器一直被視為行業(yè)標(biāo)配,但在超大規(guī)模訓(xùn)練中,尋找更具 Token 效率的替代方案已成趨勢。Kimi 團隊在實驗中驗證了 Muon 優(yōu)化器在提升 Token 效率方面的顯著潛力,但在將其擴展至萬億參數(shù)規(guī)模的 K2 模型訓(xùn)練時,發(fā)現(xiàn)了 Logits 爆炸導(dǎo)致模型發(fā)散的穩(wěn)定性難題。
為此,團隊研發(fā)并開源了 MuonClip 優(yōu)化器,通過 Newton-Schulz 迭代并結(jié)合 QK-Clip 機制,在徹底解決 Logits 爆炸問題的同時,實現(xiàn)了 2 倍于傳統(tǒng) AdamW 的計算效率。
針對 2017 年誕生的全注意力機制(Full Attention),楊植麟展示了基于 KDA 架構(gòu)的 Kimi Linear。這是一種混合線性注意力架構(gòu),它挑戰(zhàn)了“所有層必須使用全注意力”的慣例,通過優(yōu)化遞歸存儲管理,在 128K 甚至 1M 的超長上下文中,將解碼速度提升了 5 到 6 倍,且在不同長度的場景下均保持了優(yōu)異性能。

此外,針對已有十年歷史的殘差連接,Kimi 引入了 Attention Residuals 方案,將傳統(tǒng)的固定加法累加替換為對前序?qū)虞敵龅?Softmax 注意力,解決了隱藏狀態(tài)隨深度增加而無限制增長、從而稀釋深層貢獻的頑疾,使每一層都能根據(jù)輸入內(nèi)容有選擇地聚合信息。
過去十年,大多數(shù)大規(guī)模深度學(xué)習(xí)模型使用的“殘差連接”結(jié)構(gòu)基本未做過重大改變。傳統(tǒng)的殘差結(jié)構(gòu)是通過對每一層的輸出進行統(tǒng)一求和來實現(xiàn)信息傳遞,雖然這種方式在一定程度上有效,但也存在信息丟失和計算效率低下的問題。
Kimi團隊的最新技術(shù)報告提出一種全新方案,允許模型在每一層選擇性地關(guān)注此前各層的輸出,而不是簡單地進行求和。這一創(chuàng)新不僅優(yōu)化了計算效率,還顯著提升了大模型的訓(xùn)練效果。報告顯示,經(jīng)過改進的48B模型訓(xùn)練效率提升了1.25倍。
根據(jù)報告內(nèi)容,Kimi的三位聯(lián)合創(chuàng)始人楊植麟、吳育昕、周昕宇與數(shù)十名研究員共同完成了這項技術(shù)突破。報告不僅在國內(nèi)引起了廣泛關(guān)注,也迅速成為全球AI領(lǐng)域的焦點。
報告發(fā)布后,馬斯克通過社交媒體表示:“Impressive work from Kimi”(令人印象深刻的工作),OpenAI前研究副總裁、o1系列推理模型主要發(fā)明者Jerry Tworek也表示,Kimi的這一技術(shù)突破標(biāo)志著“深度學(xué)習(xí)2.0”的到來,他認(rèn)為這種創(chuàng)新將在未來的AI發(fā)展中起到至關(guān)重要的作用。
前OpenAI聯(lián)合創(chuàng)始人Andrej Karpathy也對這一研究給予了高度評價,他提到:“看來我們還沒把‘Attention is All You Need’這句話按字面意思理解透。” Karpathy認(rèn)為,Kimi團隊的創(chuàng)新不僅挑戰(zhàn)了現(xiàn)有的深度學(xué)習(xí)架構(gòu),還推動了注意力機制在大規(guī)模模型中的進一步應(yīng)用。
這項創(chuàng)新的殘差連接重新設(shè)計,可能會成為未來大規(guī)模AI模型架構(gòu)的標(biāo)配。Kimi團隊的研究成果顯示,通過引入動態(tài)的、依賴輸入的注意力機制,模型能夠更智能地選擇性關(guān)注關(guān)鍵信息,從而提升訓(xùn)練效率,減少計算資源的消耗。
業(yè)內(nèi)專家普遍認(rèn)為,這一技術(shù)突破可能推動更多AI公司探索新的架構(gòu)設(shè)計,進而提升AI模型的普適性和靈活性,幫助大模型應(yīng)用場景進一步拓展。
在跨模態(tài)研究方面,楊植麟分享了一個重要的觀察:原生的視覺-文本聯(lián)合預(yù)訓(xùn)練中,視覺強化學(xué)習(xí)(Vision RL)能夠顯著反哺文本性能。消融實驗數(shù)據(jù)顯示,經(jīng)過視覺 RL 訓(xùn)練后,模型在 MMLU-Pro 和 GPQA-Diamond 等純文本基準(zhǔn)測試上的表現(xiàn)提升了約 2.1%。這意味著空間推理與視覺邏輯的增強,可以有效轉(zhuǎn)化為更深層的通用認(rèn)知能力。
演講的最后,楊植麟深入探討了智能體集群的擴展。他認(rèn)為未來的智能形態(tài)將從單智能體向動態(tài)生成的集群進化。Kimi K2.5 引入的 Orchestrator 機制,能夠?qū)?fù)雜的長任務(wù)拆解給數(shù)十個子 Agent 并行處理。為了防止協(xié)作過程中出現(xiàn)單點依賴導(dǎo)致的“串行塌縮”,團隊設(shè)計了全新的并行 RL 獎勵函數(shù),激勵模型真正學(xué)會任務(wù)分解與并行執(zhí)行。
![]()
楊植麟在總結(jié)中談到了 AI 研究范式的轉(zhuǎn)變。他提到,十年前的研究往往更看重新想法的發(fā)表,但受限于算力資源,很難通過不同規(guī)模的實驗來驗證這些想法。而現(xiàn)在由于擁有了足夠的資源和“縮放階梯(Scaling Ladder)”,研究者可以進行嚴(yán)謹(jǐn)?shù)囊?guī)?;瘜嶒?,從而得出更自信、更可靠的結(jié)論。
這也是為什么 Kimi 能夠從那些看似“古老”的技術(shù)中挖掘出新突破的原因。Kimi 將繼續(xù)堅持開源路徑,將 MuonClip、Kimi Linear 和 Attention Residuals 等底層創(chuàng)新貢獻給開源社區(qū),打造更強大的模型,推動人工智能技術(shù)的普惠。
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論