圍繞Kimi K2 Thinking的橫空出世,外界對其訓(xùn)練方法、工程策略與未來規(guī)劃一直充滿好奇,月之暗面從460萬美元訓(xùn)練成本的真?zhèn)?,聊到為何大膽采用未?jīng)驗證的Muon優(yōu)化器,再到長鏈推理背后的技術(shù)突破,這是一場難得的技術(shù)直球交流。
Kimi團隊首先澄清了“460萬美元訓(xùn)練成本”這一熱門傳聞。團隊表示,這并非官方數(shù)字。訓(xùn)練成本難以量化,尤其是大模型預(yù)訓(xùn)練大量依賴研究、探索和失敗實驗,本身就難以用單純的金錢衡量。
而關(guān)于外界最驚訝的一點——為什么敢在如此大型模型上使用一個幾乎沒人測試過的Muon優(yōu)化器——團隊解釋得相當(dāng)直白:Muon雖然未經(jīng)他人驗證,但他們嚴格遵循了縮放定律的驗證流程,確保它在所有小規(guī)模測試中表現(xiàn)穩(wěn)定。在Muon出現(xiàn)之前,已有幾十種優(yōu)化器和架構(gòu)被淘汰,這讓團隊對自己的研究體系建立起了信心。
在硬件方面,Kimi確認他們使用的是Infiniband互聯(lián)的H800 GPU,相比美國廠商的高端算力設(shè)備并不占優(yōu)。但團隊強調(diào):“我們充分壓榨了每一張卡。”在嚴格預(yù)算下最大化產(chǎn)出,是這支團隊的一大風(fēng)格。
談到預(yù)訓(xùn)練期間的核心指標,團隊強調(diào)最重要的依然是損失(Loss)、基準測試表現(xiàn),以及內(nèi)部穩(wěn)定性。每一次架構(gòu)消融都必須在更大規(guī)模前通過驗證,不允許跳步。如果模型出現(xiàn)任何異常,擴容會被立刻暫停。
關(guān)于數(shù)據(jù),Kimi用了一個頗具浪漫氣質(zhì)的比喻:“找到合適的數(shù)據(jù)集,是一門藝術(shù)。”團隊認為數(shù)據(jù)之間存在大量交互效應(yīng),直覺固然重要,但最終必須以實驗為準。
對于外界關(guān)心的方向策略,Kimi也給出了明確態(tài)度。選擇先發(fā)布純文本模型,是因為視頻模型的數(shù)據(jù)準備與訓(xùn)練周期都更長;至于1M上下文窗口,團隊已做過嘗試,只是目前服務(wù)成本過高,未來版本中很可能重新引入。
被許多用戶稱道的“K2獨特散文風(fēng)格”來自何處?Kimi表示,這既來自預(yù)訓(xùn)練階段打下的知識底蘊,也來自后訓(xùn)練階段的風(fēng)味調(diào)校,甚至不同的強化學(xué)習(xí)策略都會導(dǎo)致截然不同的“風(fēng)味差異”。模型性格,某種程度上也反映了團隊本人的喜好。
對于一些用戶提出的批評,例如模型在戰(zhàn)斗場景或沖突對話中過于“安全”、略顯“有毒的積極”,Kimi團隊坦言這是長期挑戰(zhàn),但相信有解決方案。他們也正在探索如何在保持安全的前提下降低不必要的審查力度。至于NSFW內(nèi)容,團隊并不排斥可能性,但前提是建立可靠的年齡驗證機制并調(diào)整服務(wù)條款。
關(guān)于技術(shù)棧,Kimi繼續(xù)強調(diào)他們在長鏈推理上的獨特優(yōu)勢。K2 Thinking目前能穩(wěn)定完成200到300步的工具調(diào)用,團隊將其歸功于端到端智能體強化學(xué)習(xí)訓(xùn)練方式。再加上INT4推理帶來的速度優(yōu)勢,使得單次長推理成為可能。
至于未來技術(shù)升級路線,Kimi透露他們正在研究新架構(gòu)KDA(Kernel Attention Dual Architecture),并很可能在K3模型中投入使用。此外,團隊不排斥進一步開源更多組件,包括安全對齊技術(shù)棧,但同時強調(diào)需要找到機制確保開源細化不會被濫用。
按照官方介紹,這是月之暗面目前最強的開源思考模型,擁有1萬億參數(shù)規(guī)模,采用384個專家混合架構(gòu),它以“思考型智能體”為目標打造,能夠在使用工具的同時逐步推理,在 Humanity’s Last Exam(HLE)、BrowseComp 等多個基準測試上取得最新的業(yè)界領(lǐng)先成績,在推理、智能體搜索、代碼、寫作以及通用能力等方面都有大幅提升。
當(dāng)然,對評分不那么感冒的朋友,更看重實效。Kimi K2 Thinking 能在沒有人工干預(yù)的情況下,連續(xù)執(zhí)行 200 到 300 次工具調(diào)用, 并在數(shù)百步的鏈式推理中保持連貫,解決復(fù)雜問題,標志著在測試時擴展(test-time scaling)上的最新進展,包括擴大思考 token 的規(guī)模,以及擴大工具調(diào)用的鏈路深度,這是堪比Claude長程規(guī)劃和自適應(yīng)推理能力,Kimi K2 Thinking直接把門檻大幅拉低。
Kimi K2 Thinking 在多項衡量推理、編碼和智能體能力的基準上刷新記錄。它在帶工具的 HLE 中達到 44.9%,在 BrowseComp 上達到 60.2%,在 SWE-Bench Verified 上達到 71.3%,展現(xiàn)了作為頂級思考型智能體模型的強泛化能力。
![]()
圖片來自AI生成
Kimi K2 Thinking 還能在推理過程中主動調(diào)用多種工具,數(shù)百步的序列中也能完成規(guī)劃、推理、執(zhí)行與自適應(yīng)調(diào)整,處理一些最具挑戰(zhàn)性的學(xué)術(shù)與分析類問題。在某次測試中,它通過 23 次交錯進行的推理與工具調(diào)用,成功解決了一道博士級數(shù)學(xué)難題,充分展示了其深度結(jié)構(gòu)化推理能力與長程問題求解能力。
編碼也是體現(xiàn)智能體能力的重點,Kimi K2 Thinking 在編碼和軟件開發(fā)任務(wù)上表現(xiàn)出顯著提升,尤其在HTML、React 以及組件密集型前端任務(wù)上表現(xiàn)突出,能夠?qū)⑾敕ㄞD(zhuǎn)化為功能完整、響應(yīng)靈敏的產(chǎn)品。在代理式編碼場景中,它在調(diào)用工具的同時進行推理,能夠流暢地融入軟件代理,精確且靈活地執(zhí)行復(fù)雜的多步驟開發(fā)工作流。
低比特量化(Low-bit quantization)是減少大規(guī)模推理服務(wù)器延遲和 GPU 內(nèi)存占用的有效方法。然而,思考型模型通常使用過長的解碼長度,因此量化往往會導(dǎo)致顯著的性能下降。
為解決這一挑戰(zhàn),月之暗面在后訓(xùn)練階段采用了 量化感知訓(xùn)練(Quantization-Aware Training, QAT),并對 MoE 組件應(yīng)用 僅權(quán)重的 INT4 量化。這使得 K2 Thinking 能夠支持原生 INT4 推理,在生成速度上大約提升 2 倍,同時仍保持最先進的性能。
總體來看,月之暗面通過K2 Thinking證明其大模型技術(shù)能力,也更清晰地印證了當(dāng)前大模型發(fā)展的一個核心趨勢:從追求規(guī)模參數(shù)轉(zhuǎn)向追求推理效能和實用化能力。
但其長期競爭力,仍需放在與Gemini、GPT等巨頭模型的持續(xù)迭代和更廣泛的市場檢驗中觀察。行業(yè)的競爭,已進入一個比拼技術(shù)深度、工程效率與生態(tài)策略的更為復(fù)雜的綜合階段。(文 | TechPulse ,作者 | 張帥,編輯 | 蓋虹達)
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論
之前還懷疑月之暗面行不行,現(xiàn)在 K2 Thinking 一上,第一梯隊位置穩(wěn)了!
行業(yè)從拼參數(shù)轉(zhuǎn)拼推理效能,K2 剛好踩中趨勢,月之暗面眼光準!
不排斥 NSFW 內(nèi)容,但要年齡驗證,這尺度把握得還挺謹慎!
1 萬億參數(shù) + 384 專家混合架構(gòu),光看配置就知道這模型不簡單!
1M 上下文窗口試過但成本高,以后可能加回來,實用主義沒毛??!
開源組件怕被濫用,要找保障機制,既開放又負責(zé),這點想得周到!
解決博士題用 23 次推理 + 工具調(diào)用,這結(jié)構(gòu)化思考能力比人還強!
預(yù)訓(xùn)練注重損失和穩(wěn)定性,一點異常就停擴容,月之暗面做事真嚴謹!
之前 K1.5 是摸索,現(xiàn)在 K2 Thinking 直接驚艷,月之暗面進步也太快了!
編碼在 HTML、React 上超厲害,能把想法變成品,前端程序員要省勁兒了!