DeepSeek開年發(fā)布新論文:提出全新mHC架構(gòu),梁文鋒現(xiàn)身作者名單

鈦媒體App 1月1日消息,DeepSeek發(fā)布了一篇新論文,提出一種名為mHC(流形約束超連接)的新架構(gòu)。該研究旨在解決傳統(tǒng)超連接(HC)在大規(guī)模模型訓(xùn)練中的不穩(wěn)定性問題,同時保持其顯著的性能增益。據(jù)介紹,mHC能夠?qū)C的殘差連接空間投影到特定流形上,從而恢復(fù)恒等映射特性,并融合嚴(yán)格的基礎(chǔ)設(shè)施優(yōu)化以確保運(yùn)行效率。實證實驗表明,mHC能夠有效支持大規(guī)模訓(xùn)練,在提供明顯性能提升的同時具備更優(yōu)的可擴(kuò)展性。DeepSeek預(yù)計,mHC作為HC的一種靈活而實用的拓展,將有助于深化對拓?fù)浼軜?gòu)設(shè)計的理解,并為基座模型的演進(jìn)指明富有前景的方向。這篇論文的第一作者有三位:Zhenda Xie(解振達(dá))、Yixuan Wei(韋毅軒)、Huanqi Cao。值得注意的是,DeepSeek創(chuàng)始人梁文鋒也在作者名單中。(廣角觀察)

本文內(nèi)容僅供參考,不構(gòu)成投資建議,請謹(jǐn)慎對待。

評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容
投資日歷
更多