截圖來自GitHub

該論文共14名作者,DeepSeek創(chuàng)始人、CEO梁文鋒的署名列于最后。1月1日,DeepSeek的發(fā)布關(guān)于mHC架構(gòu)的論文,引發(fā)廣泛關(guān)注,梁文鋒同樣署名,并列于最后。

兩篇論文體現(xiàn)了DeepSeek一直以來的方向:打破算力成本硬約束,通過架構(gòu)、方法論創(chuàng)新,走出更具性價(jià)比的道路。

如果說此前的mHC是提出一種新的底層架構(gòu),那么,條件存儲(chǔ)更類似于架構(gòu)層面的分工重構(gòu)。

根據(jù)DeepSeek的研究,Engram是被設(shè)計(jì)成可微分、可訓(xùn)練、原生嵌入模型結(jié)構(gòu)的組件,其核心是把記憶性負(fù)載從主干計(jì)算中剝離出去,規(guī)避低效的反復(fù)計(jì)算,通過高速檢索模塊直接調(diào)用穩(wěn)定存在、高頻出現(xiàn)的知識(shí)。

Engram首先會(huì)提供確定性檢索。模型基于當(dāng)前token和前文形成的N-gram,通過哈希映射,直接從一個(gè)超大規(guī)模的靜態(tài)嵌入表中取出對(duì)應(yīng)向量,無需依賴復(fù)雜的神經(jīng)計(jì)算,速度更快、路徑穩(wěn)定。

此后,Engram會(huì)通過引入輕量化門控機(jī)制,由當(dāng)前層的隱藏狀態(tài)來判斷這段記憶是否真的適合當(dāng)前語境,避免查到就用的生硬注入。

換句話說,Engram既能在輸入端解決“記得住”的問題,也能在輸出端優(yōu)化“說人話”的表現(xiàn)。

DeepSeek還稱,實(shí)驗(yàn)表明,相關(guān)機(jī)制在時(shí)間、專有名詞等固定模式下高度活躍,而在自由生成和復(fù)雜推理時(shí)幾乎不介入。這就在強(qiáng)化了記憶功能的同時(shí),避免了不合時(shí)宜的幻覺出現(xiàn)。

在整體架構(gòu)上,DeepSeek把大模型的能力拆成了三個(gè)相互獨(dú)立、又彼此協(xié)作的維度。

首先是決定邏輯與抽象能力的模型深度,其次是以MoE為代表,減少每次激活計(jì)算量的計(jì)算稀疏性,以MoE為代表,減少每次激活的計(jì)算量。而第三維正是存儲(chǔ)稀疏性,也就是Engram引入的條件記憶。

此前,大模型廠商開發(fā)記憶模塊時(shí),會(huì)擔(dān)心影響模型的計(jì)算能力和推理性能。

根據(jù)論文,DeepSeek通過U型擴(kuò)展定律解決平衡問題,在總參數(shù)和算力預(yù)算固定的情況下,研究團(tuán)隊(duì)系統(tǒng)性地調(diào)整MoE和Engram的比例,得出將20%至25%的稀疏參數(shù)分配給Engram的最優(yōu)平衡點(diǎn)。

其測(cè)試數(shù)據(jù)稱,即便掛載了規(guī)模高達(dá)千億參數(shù)的Engram記憶庫(kù),推理吞吐?lián)p失也能控制在3%以內(nèi)。

The Information援引知情人士消息稱,DeepSeek預(yù)計(jì)將在今年中國(guó)春節(jié)前后發(fā)布最新的V4模型,核心突破主要在于超長(zhǎng)代碼提示詞的處理、解析能力,以及全流程訓(xùn)練中數(shù)據(jù)模式的理解力。

這也意味著,新模型不僅推理性能會(huì)大幅提升,還會(huì)更擅長(zhǎng)處理復(fù)雜任務(wù)時(shí),而編碼能力也是新模型的主打能力。知情人士稱,其內(nèi)部初步測(cè)試結(jié)果已經(jīng)超越了Anthorpic的最強(qiáng)編程模型Claude。

Anthorpic為守護(hù)編程能力優(yōu)勢(shì)和入口通道,近期已陸續(xù)切斷Claude Code的第三方平臺(tái)入口,1月12日,又放出Cowork,主打辦公場(chǎng)景的Agent落地,可以自動(dòng)幫助用戶完成制作PPT、整理電子郵件、制定工作計(jì)劃等各類任務(wù),上手門檻較低。

目前還不清楚mHC和Engram在DeepSeek新模型中的具體角色和情況,但即將到來的旗艦新品,市場(chǎng)在期待它能再帶來一次“DeepSeek春節(jié)沖擊波”。(作者|胡珈萌,編輯|李程程)

本文系作者 飛向TAI空 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

2026-03-28 23:01

澤連斯基稱與中東3國(guó)達(dá)成防務(wù)合作協(xié)議,涉聯(lián)合生產(chǎn)無人機(jī)

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi),已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長(zhǎng)發(fā)表書面致辭,支持世貿(mào)組織《電子商務(wù)協(xié)定》達(dá)成臨時(shí)實(shí)施安排

2026-03-28 21:54

40余家單位聯(lián)盟,中國(guó)最大人形機(jī)器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會(huì)預(yù)判:百億智能體或成新物種,AI推動(dòng)人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市,售價(jià)4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉(cāng)庫(kù)并致烏克蘭人傷亡消息不實(shí)

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國(guó)務(wù)卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個(gè)詞的搜索量最高一天達(dá)到7.7萬次,比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國(guó)首個(gè)可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動(dòng)2026”在北京啟動(dòng)

2026-03-28 19:03

國(guó)務(wù)院食安辦、市場(chǎng)監(jiān)管總局約談相關(guān)地方市級(jí)人民政府負(fù)責(zé)人,督辦“3?15”晚會(huì)曝光問題整改

2026-03-28 18:44

飛書 CLI 開源:AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個(gè)月中國(guó)創(chuàng)新藥對(duì)外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國(guó)和菲律賓舉行南海問題雙邊磋商機(jī)制第十一次會(huì)議

2026-03-28 17:30

印尼正式實(shí)施16歲以下社媒禁令,約7000萬人受影響

2026-03-28 17:04

美國(guó)加州禁止官員借內(nèi)幕消息在預(yù)測(cè)市場(chǎng)牟利

2026-03-28 17:02

北京“超現(xiàn)場(chǎng)”生態(tài)共同體建設(shè)暨全國(guó)覆蓋啟動(dòng)

掃描下載App