国产美女在线免费,欧美黄色毛片美国色情网站,超碰av人人毛片在线网

圖片來自DeepSeek論文“mHC：Manifold-Constrained Hyper-Connections“

mHC架構(gòu)讓大模型訓(xùn)練更穩(wěn)、更快、更省

DeepSeek此次提出的mHC架構(gòu)，建立在字節(jié)豆包大模型Foundation團(tuán)隊(duì)2024年11月發(fā)布的Hyper-Connections（HC）基礎(chǔ)上。

彼時(shí)，豆包團(tuán)隊(duì)宣稱HC有望替代大模型開發(fā)領(lǐng)域沿用近10年的ResNet殘差神經(jīng)網(wǎng)絡(luò)架構(gòu)，通過拓寬殘差連接寬度，增加連接模式多樣性，提升大模型性能和靈活性。

不過，HC只在理論推演和小模型實(shí)驗(yàn)中取得了成績，在大模型訓(xùn)練中，殘差連接通道間的交互極易導(dǎo)致信號爆炸或消失，進(jìn)而全盤失控，無法取得穩(wěn)定的訓(xùn)練結(jié)果，可擴(kuò)展性也隨之降低，成本則大幅升高。

DeepSeek在論文中稱，mHC的核心創(chuàng)新在于引入Manifold-Constrained（流形約束），通過Sinkhorn-Knopp算法將殘差映射矩陣投影到“雙隨機(jī)矩陣”構(gòu)成的Birkhoff多面體上。

簡單來說，這相當(dāng)于為上述“易爆”的信號傳播環(huán)節(jié)加上穩(wěn)定器，確保信號在多層傳遞過程中受到約束，均值不變、總量守恒，以此解決HC在大模型訓(xùn)練中的穩(wěn)定性、可擴(kuò)展性問題。

DeepSeek給出了HC和mHC在270億參數(shù)級別訓(xùn)練中的演示數(shù)據(jù)，HC在訓(xùn)練到1.2萬步左右時(shí)信號放大倍數(shù)已暴增至3000倍，訓(xùn)練隨之崩潰。

而mHC在同等訓(xùn)練中，信號放大倍數(shù)僅為1.6倍，全程平穩(wěn)運(yùn)行。與此同時(shí)，相較于傳統(tǒng)架構(gòu)，mHC訓(xùn)練時(shí)的損失顯著下降，BBH數(shù)據(jù)集評測的困難任務(wù)推理能力和DROP數(shù)據(jù)集評測的閱讀理解表現(xiàn)均提升2%以上。

圖片來自DeepSeek論文“mHC：Manifold-Constrained Hyper-Connections“

另外，DeepSeek延續(xù)了“高性價(jià)比”“效率優(yōu)先”的一貫風(fēng)格，論文稱研究團(tuán)隊(duì)同時(shí)設(shè)計(jì)了高效的基礎(chǔ)設(shè)施優(yōu)化方案，最終，在殘差通道擴(kuò)展4倍后，mHC的額外訓(xùn)練時(shí)間開銷僅為6.7%。

DeepSeek在論文中總結(jié)稱，實(shí)驗(yàn)證明mHC在大規(guī)模訓(xùn)練中表現(xiàn)穩(wěn)定，性能優(yōu)越，具備良好的可擴(kuò)展性，期望其能為拓?fù)浣Y(jié)構(gòu)設(shè)計(jì)提供新視角，并推動(dòng)基礎(chǔ)模型的演進(jìn)。

值得一提的是，論文作者署名多達(dá)19人，核心作者為解振達(dá)、韋毅軒、曹煥奇，前兩者均為清華大學(xué)高等研究院博士，也均進(jìn)入過微軟亞洲研究院聯(lián)培項(xiàng)目，而DeepSeek創(chuàng)始人、CEO梁文鋒的名字則列于最后。

在HuggingFacear上，從2024年1月的LLM論文至今，DeepSeek共發(fā)布了23篇重要論文，11篇中有梁文鋒署名，包括MoE、Coder、R1、V3等節(jié)點(diǎn)性重要成果。

或引發(fā)AI架構(gòu)連鎖反應(yīng)，英偉達(dá)生態(tài)再獲加持

mHC發(fā)布后，在研究者、業(yè)界、媒體中都有較高的討論度。相較于此前聚焦專門領(lǐng)域的OCR、Math-V2和在V3基礎(chǔ)上更新的V3.2，mHC更被視為是一種底層創(chuàng)新，再加之新年伊始的節(jié)點(diǎn)，也更多被賦予了一層象征意義。

科技研究機(jī)構(gòu)Odmia首席分析師蘇連杰接受Business Insider采訪時(shí)稱，DeepSeek可能會(huì)在AI領(lǐng)域引發(fā)連鎖反應(yīng)，競爭對手可能會(huì)著手開發(fā)類似的架構(gòu)。

實(shí)際上，就在DeepSeeK發(fā)布論文的次日，普林斯頓和UCLA的研究團(tuán)隊(duì)就提出了名為Deep Delta Learning的架構(gòu)，同樣旨在更新ResNet的基本架構(gòu)。

接連涌現(xiàn)的新研究，提升了業(yè)界對2026年大模型架構(gòu)產(chǎn)生重大范式更新和迭代的期待。

蘇連杰還認(rèn)為，相關(guān)研究成果會(huì)在DeepSeek其后的新模型中有所體現(xiàn)。

不少機(jī)構(gòu)預(yù)計(jì)DeepSeek將在春節(jié)前后進(jìn)行重大發(fā)布，很可能是備受期待卻推遲已久的R2，并以此復(fù)刻去年的“沖擊效應(yīng)”，也可能是更新更快的通用模型V4，進(jìn)一步激發(fā)實(shí)用性和經(jīng)濟(jì)價(jià)值。

不過，目前尚無可靠消息論證mHC是否會(huì)進(jìn)入新模型。

去年春節(jié)期間，DeepSeek R1給AI芯片產(chǎn)業(yè)帶來巨大沖擊，甚至一度被認(rèn)為將顛覆“算力為王”的邏輯，讓以英偉達(dá)為代表的美股AI芯片產(chǎn)業(yè)鏈公司股價(jià)大跌。此次，mHC對算力、硬件端的影響也受到關(guān)注。

一份專家調(diào)研紀(jì)要顯示，mHC架構(gòu)雖然通過效率提升、工程優(yōu)化提升了整體算力的質(zhì)效比，延續(xù)了“無需堆算力就能打造頂尖大模型”的敘事，但其本身依賴FP32高精度計(jì)算格式，對內(nèi)存帶寬和高速互聯(lián)帶寬也提出了更高要求，尤需高端芯片的支持。

而且，目前該架構(gòu)主要針對英偉達(dá)超節(jié)點(diǎn)鏈路設(shè)計(jì)，更適配英偉達(dá)生態(tài)，而對國產(chǎn)芯片兼容性較弱。

實(shí)際上，此前DeepSeek推遲R2發(fā)布時(shí)，即有分析稱缺少英偉達(dá)芯片是原因之一。如果這種架構(gòu)規(guī)?；侀_，英偉達(dá)的生態(tài)短期內(nèi)會(huì)得到優(yōu)勢強(qiáng)化，國產(chǎn)芯片則需著力強(qiáng)化編譯層的適配。而長期來看，供應(yīng)mHC架構(gòu)的AI芯片需要提升存儲(chǔ)帶寬，并轉(zhuǎn)向更加精細(xì)化的設(shè)計(jì)。

不過，值得注意的是，2025年英偉達(dá)等制造商的美國AI芯片受地緣、政策因素影響逐漸淡出中國市場后，國產(chǎn)芯片替代大幅加速。相關(guān)廠商在提升性能以追趕領(lǐng)先者的同時(shí)，也逐漸在生態(tài)構(gòu)建層面大舉布局，華為昇騰、摩爾線程等都宣布適配DeepSeek大模型，不過其精度格式仍與英偉達(dá)有明顯差距。

在國產(chǎn)芯片的生態(tài)突圍中，與DeepSeek等領(lǐng)先大模型的深度耦合被認(rèn)為至關(guān)重要。2026年，英偉達(dá)、AMD等國際巨頭重返中國的努力、國產(chǎn)芯片的繼續(xù)成長，以及大模型創(chuàng)新帶來的變量，可能會(huì)讓故事變得更加精彩。（作者｜胡珈萌，編輯｜李程程）

本文系作者飛向TAI空授權(quán)鈦媒體發(fā)表，并經(jīng)鈦媒體編輯，轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號，文章內(nèi)容僅供參考、交流、學(xué)習(xí)，不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn)，點(diǎn)擊這里投稿。創(chuàng)業(yè)或融資尋求報(bào)道，點(diǎn)擊這里。

763人已贊賞 >

敬原創(chuàng)，有鈦度，得贊賞

發(fā)表評論

0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求，請綁定手機(jī)號后發(fā)表評論

請登錄后輸入評論內(nèi)容

快報(bào)

18:36

伊朗與巴基斯坦兩國外長通電話，討論地區(qū)局勢

18:35

2025年玩具（不含潮玩）國內(nèi)市場零售總額達(dá)1035.3億元

18:08

全國豬價(jià)跌破5元，創(chuàng)歷史新低

18:07

時(shí)代天使2025年實(shí)現(xiàn)收入3.7億美元，同比增長37.8%

17:57

電魂網(wǎng)絡(luò)：擬投資4920萬元取得上海漫魂51%股權(quán)

17:51

美國1天超3000場反戰(zhàn)示威

17:28

雀巢12噸巧克力被盜

17:11

伊朗官員表示將“果斷反擊”美軍奪島

17:08

伊朗議長稱武裝部隊(duì)“正等著美軍地面行動(dòng)”，并將“懲罰”其地區(qū)盟友

17:05

三安光電：董事長及總經(jīng)理擬增持公司股份

16:58

全球多地爆發(fā)示威抗議，民眾高呼“不要戰(zhàn)爭”

16:55

中信證券：配置上建議繼續(xù)堅(jiān)守中國優(yōu)勢制造業(yè)，靜待4月決斷

16:38

美國土安全部資金中斷進(jìn)入第44天，創(chuàng)美國史上最長政府部分“停擺”紀(jì)錄

16:17

北京啟動(dòng)智能網(wǎng)聯(lián)新能源汽車商業(yè)保險(xiǎn)開發(fā)應(yīng)用，統(tǒng)一適配L2至L4全級別智能網(wǎng)聯(lián)新能源汽車

16:16

恒林股份發(fā)布AI體感工學(xué)白皮書，加速布局AI智能家居

16:15

中國國家創(chuàng)新指數(shù)綜合排名世界第9位，較上年提升1位

16:05

朗新科技：2025年歸母凈利潤1.05億元，同比扭虧為盈

16:05

錫業(yè)股份：2025年歸母凈利潤19.66億元，同比增長36.14%

16:04

摩恩電氣：2025年歸母凈利潤1058.2萬元，同比下降40.79%

15:50

宇信科技：2025年歸母凈利潤4.32億元，同比增長13.69%

微信分享

掃描下載App