圖片來自DeepSeek論文“mHC:Manifold-Constrained Hyper-Connections“
DeepSeek此次提出的mHC架構(gòu),建立在字節(jié)豆包大模型Foundation團(tuán)隊(duì)2024年11月發(fā)布的Hyper-Connections(HC)基礎(chǔ)上。
彼時(shí),豆包團(tuán)隊(duì)宣稱HC有望替代大模型開發(fā)領(lǐng)域沿用近10年的ResNet殘差神經(jīng)網(wǎng)絡(luò)架構(gòu),通過拓寬殘差連接寬度,增加連接模式多樣性,提升大模型性能和靈活性。
不過,HC只在理論推演和小模型實(shí)驗(yàn)中取得了成績,在大模型訓(xùn)練中,殘差連接通道間的交互極易導(dǎo)致信號爆炸或消失,進(jìn)而全盤失控,無法取得穩(wěn)定的訓(xùn)練結(jié)果,可擴(kuò)展性也隨之降低,成本則大幅升高。
DeepSeek在論文中稱,mHC的核心創(chuàng)新在于引入Manifold-Constrained(流形約束),通過Sinkhorn-Knopp算法將殘差映射矩陣投影到“雙隨機(jī)矩陣”構(gòu)成的Birkhoff多面體上。
簡單來說,這相當(dāng)于為上述“易爆”的信號傳播環(huán)節(jié)加上穩(wěn)定器,確保信號在多層傳遞過程中受到約束,均值不變、總量守恒,以此解決HC在大模型訓(xùn)練中的穩(wěn)定性、可擴(kuò)展性問題。
DeepSeek給出了HC和mHC在270億參數(shù)級別訓(xùn)練中的演示數(shù)據(jù),HC在訓(xùn)練到1.2萬步左右時(shí)信號放大倍數(shù)已暴增至3000倍,訓(xùn)練隨之崩潰。
而mHC在同等訓(xùn)練中,信號放大倍數(shù)僅為1.6倍,全程平穩(wěn)運(yùn)行。與此同時(shí),相較于傳統(tǒng)架構(gòu),mHC訓(xùn)練時(shí)的損失顯著下降,BBH數(shù)據(jù)集評測的困難任務(wù)推理能力和DROP數(shù)據(jù)集評測的閱讀理解表現(xiàn)均提升2%以上。
![]()
圖片來自DeepSeek論文“mHC:Manifold-Constrained Hyper-Connections“
另外,DeepSeek延續(xù)了“高性價(jià)比”“效率優(yōu)先”的一貫風(fēng)格,論文稱研究團(tuán)隊(duì)同時(shí)設(shè)計(jì)了高效的基礎(chǔ)設(shè)施優(yōu)化方案,最終,在殘差通道擴(kuò)展4倍后,mHC的額外訓(xùn)練時(shí)間開銷僅為6.7%。
DeepSeek在論文中總結(jié)稱,實(shí)驗(yàn)證明mHC在大規(guī)模訓(xùn)練中表現(xiàn)穩(wěn)定,性能優(yōu)越,具備良好的可擴(kuò)展性,期望其能為拓?fù)浣Y(jié)構(gòu)設(shè)計(jì)提供新視角,并推動(dòng)基礎(chǔ)模型的演進(jìn)。
值得一提的是,論文作者署名多達(dá)19人,核心作者為解振達(dá)、韋毅軒、曹煥奇,前兩者均為清華大學(xué)高等研究院博士,也均進(jìn)入過微軟亞洲研究院聯(lián)培項(xiàng)目,而DeepSeek創(chuàng)始人、CEO梁文鋒的名字則列于最后。
在HuggingFacear上,從2024年1月的LLM論文至今,DeepSeek共發(fā)布了23篇重要論文,11篇中有梁文鋒署名,包括MoE、Coder、R1、V3等節(jié)點(diǎn)性重要成果。
mHC發(fā)布后,在研究者、業(yè)界、媒體中都有較高的討論度。相較于此前聚焦專門領(lǐng)域的OCR、Math-V2和在V3基礎(chǔ)上更新的V3.2,mHC更被視為是一種底層創(chuàng)新,再加之新年伊始的節(jié)點(diǎn),也更多被賦予了一層象征意義。
科技研究機(jī)構(gòu)Odmia首席分析師蘇連杰接受Business Insider采訪時(shí)稱,DeepSeek可能會(huì)在AI領(lǐng)域引發(fā)連鎖反應(yīng),競爭對手可能會(huì)著手開發(fā)類似的架構(gòu)。
實(shí)際上,就在DeepSeeK發(fā)布論文的次日,普林斯頓和UCLA的研究團(tuán)隊(duì)就提出了名為Deep Delta Learning的架構(gòu),同樣旨在更新ResNet的基本架構(gòu)。
接連涌現(xiàn)的新研究,提升了業(yè)界對2026年大模型架構(gòu)產(chǎn)生重大范式更新和迭代的期待。
蘇連杰還認(rèn)為,相關(guān)研究成果會(huì)在DeepSeek其后的新模型中有所體現(xiàn)。
不少機(jī)構(gòu)預(yù)計(jì)DeepSeek將在春節(jié)前后進(jìn)行重大發(fā)布,很可能是備受期待卻推遲已久的R2,并以此復(fù)刻去年的“沖擊效應(yīng)”,也可能是更新更快的通用模型V4,進(jìn)一步激發(fā)實(shí)用性和經(jīng)濟(jì)價(jià)值。
不過,目前尚無可靠消息論證mHC是否會(huì)進(jìn)入新模型。
去年春節(jié)期間,DeepSeek R1給AI芯片產(chǎn)業(yè)帶來巨大沖擊,甚至一度被認(rèn)為將顛覆“算力為王”的邏輯,讓以英偉達(dá)為代表的美股AI芯片產(chǎn)業(yè)鏈公司股價(jià)大跌。此次,mHC對算力、硬件端的影響也受到關(guān)注。
一份專家調(diào)研紀(jì)要顯示,mHC架構(gòu)雖然通過效率提升、工程優(yōu)化提升了整體算力的質(zhì)效比,延續(xù)了“無需堆算力就能打造頂尖大模型”的敘事,但其本身依賴FP32高精度計(jì)算格式,對內(nèi)存帶寬和高速互聯(lián)帶寬也提出了更高要求,尤需高端芯片的支持。
而且,目前該架構(gòu)主要針對英偉達(dá)超節(jié)點(diǎn)鏈路設(shè)計(jì),更適配英偉達(dá)生態(tài),而對國產(chǎn)芯片兼容性較弱。
實(shí)際上,此前DeepSeek推遲R2發(fā)布時(shí),即有分析稱缺少英偉達(dá)芯片是原因之一。如果這種架構(gòu)規(guī)?;侀_,英偉達(dá)的生態(tài)短期內(nèi)會(huì)得到優(yōu)勢強(qiáng)化,國產(chǎn)芯片則需著力強(qiáng)化編譯層的適配。而長期來看,供應(yīng)mHC架構(gòu)的AI芯片需要提升存儲(chǔ)帶寬,并轉(zhuǎn)向更加精細(xì)化的設(shè)計(jì)。
不過,值得注意的是,2025年英偉達(dá)等制造商的美國AI芯片受地緣、政策因素影響逐漸淡出中國市場后,國產(chǎn)芯片替代大幅加速。相關(guān)廠商在提升性能以追趕領(lǐng)先者的同時(shí),也逐漸在生態(tài)構(gòu)建層面大舉布局,華為昇騰、摩爾線程等都宣布適配DeepSeek大模型,不過其精度格式仍與英偉達(dá)有明顯差距。
在國產(chǎn)芯片的生態(tài)突圍中,與DeepSeek等領(lǐng)先大模型的深度耦合被認(rèn)為至關(guān)重要。2026年,英偉達(dá)、AMD等國際巨頭重返中國的努力、國產(chǎn)芯片的繼續(xù)成長,以及大模型創(chuàng)新帶來的變量,可能會(huì)讓故事變得更加精彩。(作者|胡珈萌,編輯|李程程)
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論