460萬美元成本不重要,K3或有新架構(gòu)特性

圍繞Kimi K2 Thinking的橫空出世,外界對其訓(xùn)練方法、工程策略與未來規(guī)劃一直充滿好奇,月之暗面從460萬美元訓(xùn)練成本的真?zhèn)?,聊到為何大膽采用未?jīng)驗證的Muon優(yōu)化器,再到長鏈推理背后的技術(shù)突破,這是一場難得的技術(shù)直球交流。

Kimi團隊首先澄清了“460萬美元訓(xùn)練成本”這一熱門傳聞。團隊表示,這并非官方數(shù)字。訓(xùn)練成本難以量化,尤其是大模型預(yù)訓(xùn)練大量依賴研究、探索和失敗實驗,本身就難以用單純的金錢衡量。

而關(guān)于外界最驚訝的一點——為什么敢在如此大型模型上使用一個幾乎沒人測試過的Muon優(yōu)化器——團隊解釋得相當(dāng)直白:Muon雖然未經(jīng)他人驗證,但他們嚴格遵循了縮放定律的驗證流程,確保它在所有小規(guī)模測試中表現(xiàn)穩(wěn)定。在Muon出現(xiàn)之前,已有幾十種優(yōu)化器和架構(gòu)被淘汰,這讓團隊對自己的研究體系建立起了信心。

在硬件方面,Kimi確認他們使用的是Infiniband互聯(lián)的H800 GPU,相比美國廠商的高端算力設(shè)備并不占優(yōu)。但團隊強調(diào):“我們充分壓榨了每一張卡。”在嚴格預(yù)算下最大化產(chǎn)出,是這支團隊的一大風(fēng)格。

談到預(yù)訓(xùn)練期間的核心指標,團隊強調(diào)最重要的依然是損失(Loss)、基準測試表現(xiàn),以及內(nèi)部穩(wěn)定性。每一次架構(gòu)消融都必須在更大規(guī)模前通過驗證,不允許跳步。如果模型出現(xiàn)任何異常,擴容會被立刻暫停。

關(guān)于數(shù)據(jù),Kimi用了一個頗具浪漫氣質(zhì)的比喻:“找到合適的數(shù)據(jù)集,是一門藝術(shù)。”團隊認為數(shù)據(jù)之間存在大量交互效應(yīng),直覺固然重要,但最終必須以實驗為準。

對于外界關(guān)心的方向策略,Kimi也給出了明確態(tài)度。選擇先發(fā)布純文本模型,是因為視頻模型的數(shù)據(jù)準備與訓(xùn)練周期都更長;至于1M上下文窗口,團隊已做過嘗試,只是目前服務(wù)成本過高,未來版本中很可能重新引入。

被許多用戶稱道的“K2獨特散文風(fēng)格”來自何處?Kimi表示,這既來自預(yù)訓(xùn)練階段打下的知識底蘊,也來自后訓(xùn)練階段的風(fēng)味調(diào)校,甚至不同的強化學(xué)習(xí)策略都會導(dǎo)致截然不同的“風(fēng)味差異”。模型性格,某種程度上也反映了團隊本人的喜好。

對于一些用戶提出的批評,例如模型在戰(zhàn)斗場景或沖突對話中過于“安全”、略顯“有毒的積極”,Kimi團隊坦言這是長期挑戰(zhàn),但相信有解決方案。他們也正在探索如何在保持安全的前提下降低不必要的審查力度。至于NSFW內(nèi)容,團隊并不排斥可能性,但前提是建立可靠的年齡驗證機制并調(diào)整服務(wù)條款。

關(guān)于技術(shù)棧,Kimi繼續(xù)強調(diào)他們在長鏈推理上的獨特優(yōu)勢。K2 Thinking目前能穩(wěn)定完成200到300步的工具調(diào)用,團隊將其歸功于端到端智能體強化學(xué)習(xí)訓(xùn)練方式。再加上INT4推理帶來的速度優(yōu)勢,使得單次長推理成為可能。

至于未來技術(shù)升級路線,Kimi透露他們正在研究新架構(gòu)KDA(Kernel Attention Dual Architecture),并很可能在K3模型中投入使用。此外,團隊不排斥進一步開源更多組件,包括安全對齊技術(shù)棧,但同時強調(diào)需要找到機制確保開源細化不會被濫用。

Kimi K2 Thinking強在哪?

按照官方介紹,這是月之暗面目前最強的開源思考模型,擁有1萬億參數(shù)規(guī)模,采用384個專家混合架構(gòu),它以“思考型智能體”為目標打造,能夠在使用工具的同時逐步推理,在 Humanity’s Last Exam(HLE)、BrowseComp 等多個基準測試上取得最新的業(yè)界領(lǐng)先成績,在推理、智能體搜索、代碼、寫作以及通用能力等方面都有大幅提升。

當(dāng)然,對評分不那么感冒的朋友,更看重實效。Kimi K2 Thinking 能在沒有人工干預(yù)的情況下,連續(xù)執(zhí)行 200 到 300 次工具調(diào)用, 并在數(shù)百步的鏈式推理中保持連貫,解決復(fù)雜問題,標志著在測試時擴展(test-time scaling)上的最新進展,包括擴大思考 token 的規(guī)模,以及擴大工具調(diào)用的鏈路深度,這是堪比Claude長程規(guī)劃和自適應(yīng)推理能力,Kimi K2 Thinking直接把門檻大幅拉低。

Kimi K2 Thinking 在多項衡量推理、編碼和智能體能力的基準上刷新記錄。它在帶工具的 HLE 中達到 44.9%,在 BrowseComp 上達到 60.2%,在 SWE-Bench Verified 上達到 71.3%,展現(xiàn)了作為頂級思考型智能體模型的強泛化能力。

圖片來自AI生成

圖片來自AI生成

Kimi K2 Thinking 還能在推理過程中主動調(diào)用多種工具,數(shù)百步的序列中也能完成規(guī)劃、推理、執(zhí)行與自適應(yīng)調(diào)整,處理一些最具挑戰(zhàn)性的學(xué)術(shù)與分析類問題。在某次測試中,它通過 23 次交錯進行的推理與工具調(diào)用,成功解決了一道博士級數(shù)學(xué)難題,充分展示了其深度結(jié)構(gòu)化推理能力與長程問題求解能力。

編碼也是體現(xiàn)智能體能力的重點,Kimi K2 Thinking 在編碼和軟件開發(fā)任務(wù)上表現(xiàn)出顯著提升,尤其在HTML、React 以及組件密集型前端任務(wù)上表現(xiàn)突出,能夠?qū)⑾敕ㄞD(zhuǎn)化為功能完整、響應(yīng)靈敏的產(chǎn)品。在代理式編碼場景中,它在調(diào)用工具的同時進行推理,能夠流暢地融入軟件代理,精確且靈活地執(zhí)行復(fù)雜的多步驟開發(fā)工作流。

低比特量化(Low-bit quantization)是減少大規(guī)模推理服務(wù)器延遲和 GPU 內(nèi)存占用的有效方法。然而,思考型模型通常使用過長的解碼長度,因此量化往往會導(dǎo)致顯著的性能下降。

為解決這一挑戰(zhàn),月之暗面在后訓(xùn)練階段采用了 量化感知訓(xùn)練(Quantization-Aware Training, QAT),并對 MoE 組件應(yīng)用 僅權(quán)重的 INT4 量化。這使得 K2 Thinking 能夠支持原生 INT4 推理,在生成速度上大約提升 2 倍,同時仍保持最先進的性能。

總體來看,月之暗面通過K2 Thinking證明其大模型技術(shù)能力,也更清晰地印證了當(dāng)前大模型發(fā)展的一個核心趨勢:從追求規(guī)模參數(shù)轉(zhuǎn)向追求推理效能和實用化能力。

但其長期競爭力,仍需放在與Gemini、GPT等巨頭模型的持續(xù)迭代和更廣泛的市場檢驗中觀察。行業(yè)的競爭,已進入一個比拼技術(shù)深度、工程效率與生態(tài)策略的更為復(fù)雜的綜合階段。(文 | TechPulse ,作者 | 張帥,編輯 | 蓋虹達)

轉(zhuǎn)載請注明出處、作者和本文鏈接
聲明:文章內(nèi)容僅供參考、交流、學(xué)習(xí)、不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容
  • 之前還懷疑月之暗面行不行,現(xiàn)在 K2 Thinking 一上,第一梯隊位置穩(wěn)了!

    回復(fù) 2025.11.12 · via android
  • 行業(yè)從拼參數(shù)轉(zhuǎn)拼推理效能,K2 剛好踩中趨勢,月之暗面眼光準!

    回復(fù) 2025.11.12 · via iphone
  • 不排斥 NSFW 內(nèi)容,但要年齡驗證,這尺度把握得還挺謹慎!

    回復(fù) 2025.11.12 · via android
  • 1 萬億參數(shù) + 384 專家混合架構(gòu),光看配置就知道這模型不簡單!

    回復(fù) 2025.11.12 · via android
  • 1M 上下文窗口試過但成本高,以后可能加回來,實用主義沒毛??!

    回復(fù) 2025.11.12 · via iphone
  • 開源組件怕被濫用,要找保障機制,既開放又負責(zé),這點想得周到!

    回復(fù) 2025.11.12 · via android
  • 解決博士題用 23 次推理 + 工具調(diào)用,這結(jié)構(gòu)化思考能力比人還強!

    回復(fù) 2025.11.12 · via android
  • 預(yù)訓(xùn)練注重損失和穩(wěn)定性,一點異常就停擴容,月之暗面做事真嚴謹!

    回復(fù) 2025.11.12 · via android
  • 之前 K1.5 是摸索,現(xiàn)在 K2 Thinking 直接驚艷,月之暗面進步也太快了!

    回復(fù) 2025.11.12 · via h5
  • 編碼在 HTML、React 上超厲害,能把想法變成品,前端程序員要省勁兒了!

    回復(fù) 2025.11.12 · via iphone
更多評論

快報

更多

2026-03-28 23:01

澤連斯基稱與中東3國達成防務(wù)合作協(xié)議,涉聯(lián)合生產(chǎn)無人機

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi),已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長發(fā)表書面致辭,支持世貿(mào)組織《電子商務(wù)協(xié)定》達成臨時實施安排

2026-03-28 21:54

40余家單位聯(lián)盟,中國最大人形機器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會預(yù)判:百億智能體或成新物種,AI推動人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市,售價4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉庫并致烏克蘭人傷亡消息不實

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國務(wù)卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個詞的搜索量最高一天達到7.7萬次,比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國首個可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動2026”在北京啟動

2026-03-28 19:03

國務(wù)院食安辦、市場監(jiān)管總局約談相關(guān)地方市級人民政府負責(zé)人,督辦“3?15”晚會曝光問題整改

2026-03-28 18:44

飛書 CLI 開源:AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個月中國創(chuàng)新藥對外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國和菲律賓舉行南海問題雙邊磋商機制第十一次會議

2026-03-28 17:30

印尼正式實施16歲以下社媒禁令,約7000萬人受影響

2026-03-28 17:04

美國加州禁止官員借內(nèi)幕消息在預(yù)測市場牟利

2026-03-28 17:02

北京“超現(xiàn)場”生態(tài)共同體建設(shè)暨全國覆蓋啟動

29

掃描下載App