在下面兩個案例里,3B大?。?0億參數(shù))的DeepSeek OCR在數(shù)學(xué)公式展開里沒有識別出“極坐標”,識別表格結(jié)構(gòu)也是錯的。相比之下,僅僅有0.9B(9億參數(shù))模型尺寸的PaddleOCR-VL(來自百度飛漿開源)卻更勝一籌。

DeepSeek OCR也并非足夠獨創(chuàng)。外界猜測,谷歌Gemini 支持百萬Token上下文可能早早使用了視覺壓縮Token,同一天清華大學(xué)和智譜團隊發(fā)布的、幾乎同樣思路「將長文本壓縮為視覺Token作為模型輸入」的Glyph,后者似乎沒引發(fā)任何的「延伸解讀」。

DeepSeek每一次出手都能虹吸巨大的關(guān)注。但仔細想想,也正常。

在中國做大了的互聯(lián)網(wǎng)巨頭,壟斷了某個賺錢賽道后還懷揣著人類未來福祉去探索前沿技術(shù)的,幾乎找不出一個范例。DeepSeek被美國同行形容為「實力深不可測」,其內(nèi)稟的價值觀、組織形態(tài)更是中國企業(yè)里罕見的異類。

梁文峰掌下的DeepSeek不怎么缺錢,渾身外溢著極致浪漫的技術(shù)理想主義。開源最前沿最有價值的模型訓(xùn)練細節(jié),V3和R1引發(fā)全球轟動后幾乎主動放棄巨大流量,也不去模仿OpenAI構(gòu)建唾手可得的AI商業(yè)帝國...那種不按正常路徑去「做大做強」,活在未來而非當下,一行一言去追逐高度不確定的AGI。在一個跟風(fēng)、內(nèi)卷、抄襲、金錢至上的中國,能誕生這樣的公司,屬實是“國運”。

外行看熱鬧,內(nèi)行看Paper。言歸正傳,DeepSeek OCR的深層價值不是什么「真·無限上下文」,或者在各項評測集、各個大模型競技場刷新了OCR模型的某個記錄,而是探索「連續(xù)視覺表征壓縮」在隱隱指向一個終極追求——「世界模型」。

Karpathy 評價里想說卻未明說的:把大模型的前沿焦點從離散的語言Token,「重新轉(zhuǎn)向」了連續(xù)視覺表征的視覺Token。

壓縮即智能

如果把大腦看作一臺生物計算機,Ilya說我們終將突破。人類思維最幽暗深微之處,也許出奇地「大道至簡」。

Ilya有個信念,「如果你能高效壓縮信息,你一定已經(jīng)得到知識,不然你沒法壓縮信息。當你實現(xiàn)了信息高效壓縮,you got to have some knowledge」。

壓縮通過識別模式和規(guī)律高效表征信息,這與智能行為密切相關(guān)。有相當一部分研究人員認為,壓縮可能是通用智能的基礎(chǔ),甚至可能等同于智能,Ilya所堅信的「壓縮即智能」。

Ilya可能只說對了一半。相比語言這種一維的離散信息,語言的成功壓縮誕生了轟動世界的ChatGPT。而視覺作為更高維的連續(xù)信息,端到端的壓縮和統(tǒng)一表征提取,卻異常困難。

如今強大無比的各類預(yù)訓(xùn)練大語言模型,它們在底層原理上高度統(tǒng)一:使用互聯(lián)網(wǎng)上龐大語料訓(xùn)練出超大規(guī)模神經(jīng)網(wǎng)絡(luò),它可以看作一大堆參數(shù),當用戶輸入時,將激活固定的網(wǎng)絡(luò)節(jié)點參數(shù)參與計算,從而「預(yù)測最大概率的輸出Token」。具體過程中,用戶的輸入文本會被Tokenization固定劃分的詞和符號(即分詞過程)轉(zhuǎn)化為向量,這些輸入向量會在超高維的向量空間去做模式匹配,即以激活的神經(jīng)網(wǎng)絡(luò)參數(shù)參與計算,計算出最高概率的下一個詞。

LLM用大白話解釋,就是根據(jù)模型參數(shù)和上下文去才猜下一個詞?;仡櫞笳Z言模型的發(fā)展,通用算法的發(fā)現(xiàn),Transformer架構(gòu)讓Scaling變得真正可行,簡單算法、超大數(shù)據(jù)、GPGPU算力的暴漲三者合力,成功地壓縮互聯(lián)網(wǎng)上幾乎所有的文本資料,打造出一臺非常智能的「Token預(yù)測器」。

LLM的輸出是「Token by Token」,自回歸方式,意味著每一個Token都要跟前文“交互”一次。輸入十萬個Token,模型就要進行十萬·十萬的百億次“交互”計算。輸入越長的上下文,預(yù)測下一個詞就需要指數(shù)級的計算增長。

再大的顯存帶寬和顯存容量,也無法一次吃掉計算過程中天量的中間矩陣,推理延遲會越來越大。LLM近年的創(chuàng)新,比如注意力層計算的稀疏和優(yōu)化,誕生了MTP、NSA、DSA,還有稠密FFN層的稀疏激活,以及超大規(guī)模MoE專家網(wǎng)絡(luò)的路由激活,本質(zhì)都是在解決計算層面的問題。

以DeepSeek為例,除了R1以開源模型首次公開了預(yù)訓(xùn)練+后訓(xùn)練強化學(xué)習(xí)方法,復(fù)現(xiàn)了O1 推理思維鏈的效果引發(fā)轟動,其它幾乎所有的創(chuàng)新都集中在改進注意力機制、激活參數(shù)計算和推理解碼的高效,以及訓(xùn)練時如何降低硬件開銷和提升數(shù)據(jù)通信可靠性。

DeepSeek OCR表面上是一個OCR模型,實際也是指向計算效率,嘗試實現(xiàn)模型輸入過長上下文的高效壓縮。

DeepSeek OCR的核心是DeepEncoder,一個用vision tokens去Encode輸入上下文信息的編碼器,它實現(xiàn)了 9–10倍 文本壓縮下 96%+ 的 OCR 解碼精度,10–12倍壓縮下約 90%的精度,20倍壓縮下仍保持約 60% 的精度。

在壓縮比10倍的時候,幾乎可以做到無損。這意味著原來輸入十萬Token的模型上下文,視覺編碼僅需一萬Token。

而且,DeepSeek論文說我們可以連續(xù)調(diào)節(jié)壓縮率,在壓縮率和識別精度之間平滑地做出權(quán)衡。關(guān)鍵來了,DeepSeek將這種動態(tài)的視覺壓縮還與人類的記憶遺忘做了類比。

DeepSeek提出一種類生物遺忘機制的壓縮策略: 

- 近期上下文:保持高分辨率,token 消耗高,信息清晰; 

- 遠期上下文:逐步降低分辨率,token 減少,信息模糊;

- 這種機制模擬人類記憶的自然衰減:

在論文里,DeepSeek 解釋 OCR 的工作代表了對視覺-文本壓縮邊界的初步探索,研究了解碼 N 個文本 token 需要多少個視覺 token這一核心問題。初步結(jié)果令人鼓舞:

光學(xué)上下文壓縮不僅是技術(shù)可行的,更是生物學(xué)合理的。它為長上下文建模提供了全新視角。 DeepSeek相信,這一方向?qū)⒊蔀槲磥?LLM 與 VLM 研究的重要突破口。

DeepSeek-OCR 在 約 10× 壓縮比 下實現(xiàn)了接近無損的 OCR 壓縮,在 20× 壓縮比下,仍能保持 60% 的準確率,這些發(fā)現(xiàn)意味著:在多輪對話中,對超過 k 輪的歷史記錄進行光學(xué)處理,實現(xiàn) 10× 壓縮效率;對舊上下文逐步縮小渲染圖像,進一步減少 token 消耗; 模擬人類記憶的遺忘機制,越久遠的內(nèi)容,壓縮率越高,圖像越模糊,信息逐漸丟失。

在論文里,DeepSeek強調(diào),光學(xué)上下文壓縮仍然是一個剛剛起步、充滿潛力的研究方向。DeepSeek-OCR 不僅僅是一個常用的優(yōu)秀OCR工具,本身是一個極具實用價值的模型,具備大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)生產(chǎn)能力,可作為 LLM 訓(xùn)練過程中不可或缺的助手。在實際應(yīng)用中,該模型每天可生成數(shù)千萬頁級別的訓(xùn)練數(shù)據(jù),顯著提升了多模態(tài)數(shù)據(jù)構(gòu)建的效率。

世界模型的「輪廓」

人腦若以“生物計算機”視角觀察,可以粗略概括為:它以多模態(tài)、某種統(tǒng)一表征進行極為高效的信息壓縮,實現(xiàn)對現(xiàn)實世界建模和預(yù)測。

LLM則是“通過語言單一模態(tài)對現(xiàn)實世界建模和預(yù)測”。

如果大語言模型能夠?qū)駻GI,等同于人類是通過語言理解一切,通過語言就可以建模世界?但這其中有一個明顯Bug,人類并沒有LLM Tokenization 這種「后天而非先驗」的分詞器,Karpathy形容Tokenization的過程是丑陋且笨拙。

用戶的文本輸入變成AI“可讀”的內(nèi)容,是通過一個叫“Tokenizer”(分詞器)的東西,把句子切成一個個“詞元”(Token),比如“Hello, world!”可能被切成 [Hello]、[,]、[world]、[!],四個詞元。分詞的標準并不是統(tǒng)一的,不同的詞表和分詞器也意味著各家模型不同的Tokenization方法,它對模型的最終性能有一定影響。

LLM文本輸入轉(zhuǎn)化為Token的分詞過程是不是必不可少的? 而DeepSeek-OCR這篇論文無意中提供了一個佐證:它證明了,AI可以只用100個“視覺詞元”(Vision Tokens),就高精度地“解壓縮”出包含1000個“文本詞元”的原文內(nèi)容。而且不需要文本分詞這個過程。

語言深度依賴視覺經(jīng)驗和多模態(tài)基礎(chǔ),文字本身是對感知世界的二次抽象。為什么我們的AI系統(tǒng),要繞過更原始、更豐富的表征層?當模型直接在像素層面理解文字,它看到的不只是語言,而是習(xí)得了更加豐富、更加深層的學(xué)習(xí)機制。

就像前文所說,相比語言這樣的一維離散信息,更高維且連續(xù)的視覺信息,端到端的信息壓縮、統(tǒng)一表征提取和預(yù)測,困難且毫無進展。

三句不離世界模型的Yan LeCun,曾在公開訪談中談及連續(xù)視覺信息的處理有多么困難:

“一個典型的大語言模型大約是在200億到2萬億個Token上訓(xùn)練的。Token差不多就是一個詞。通常,一個Token用三個字節(jié)表示,200億到2萬億個Token,總共大約是10的14次方字節(jié),也就是1后面跟著14個零。這幾乎是互聯(lián)網(wǎng)上所有公開文本的總和。

一個人要花幾十萬年才能讀完這些材料,這是海量的信息?,F(xiàn)在,我們來比較一下這個數(shù)據(jù)量:一個四歲的孩子總共清醒了 16000 個小時。每秒大約有 2 M字節(jié)信息通過我們的視神經(jīng)進入我們的視覺皮層。每秒 2 M字節(jié),在四年內(nèi),通過視覺輸入大約是 10 的 14 次方字節(jié)的數(shù)據(jù)。四歲孩子”看到“的數(shù)據(jù)量與需要你 40 萬年才能閱讀的文本一樣多。

這表明,僅僅依靠文本訓(xùn)練,我們永遠無法實現(xiàn)接近人類水平的AI。我們必須學(xué)會讓AI理解真實世界,而這非常困難。如果我們不用單詞,而是用視頻中的幀,將這些幀轉(zhuǎn)換成類似于單詞的Token,然后嘗試訓(xùn)練系統(tǒng)預(yù)測視頻中將要發(fā)生的事情,這是行不通的。

我們可能無法預(yù)測某個特定單詞會出現(xiàn)在文本的哪個位置,但我們可以預(yù)測所有可能單詞的概率分布。對于視頻,我們做不到這一點。我們無法表示所有可能的視頻幀的概率分布。因此,那些在文本、DNA序列或蛋白質(zhì)上非常有效的技術(shù),在視頻或其他自然信號上卻不起作用。”

回過頭來看,DeepSeek-OCR這篇論文的真正價值,不在于它提供了一個多好的OCR工具,而在于它充當了一次“概念驗證”(Proof-of-Concept)。它用實驗數(shù)據(jù)證明了:AI的主要信息入口,可以從語言轉(zhuǎn)向視覺,不僅效率更高,似乎更符合生物特性。

Karpathy還給出了一個關(guān)鍵洞察:

Vision→Text的任務(wù)空間,其實完全包含了Text→Text的任務(wù)空間,任何文本都可以無損“渲染”成圖像。但反過來從圖像到文本就會丟失大量信息。這種不對稱暗示了一個激進的方向:把所有輸入統(tǒng)一為視覺模態(tài),輸出保持文本不變。

這不僅僅是“文本到文本”任務(wù)變成了“視覺到文本”任務(wù),這是一個更根本的轉(zhuǎn)變。

如果輸入端徹底轉(zhuǎn)向像素,我們實際上構(gòu)建的,不再是傳統(tǒng)意義上的“大語言模型”,而是一個視覺條件下的文本生成系統(tǒng)。模型看到的,不再是固定劃分的字符,而是更凌亂、更無序但信息更豐富的原始信號。沿著這條全新的發(fā)展道路,似乎遠遠能夠望到世界模型的輪廓。

再看一遍 DeepSeek在OCR論文的總結(jié),「這一范式將為解決長上下文建模中的效率瓶頸、記憶機制設(shè)計與多模態(tài)融合等核心問題提供全新的思路和廣闊的研究空間」,措辭謹慎且謙虛。

DeepSeek值得尊敬。

本文系作者 X研究媛 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

15:01

國內(nèi)兆瓦級液氫燃料航空發(fā)動機首次整機性能達標

14:30

河南:聚焦老年用品研發(fā)生產(chǎn)培育龍頭企業(yè)和產(chǎn)業(yè)集群,建設(shè)高標準養(yǎng)老產(chǎn)業(yè)園區(qū)

14:28

河南:到2027年養(yǎng)老服務(wù)等領(lǐng)域民政服務(wù)供給不斷優(yōu)化

14:02

宇樹科技王興興:具身智能GPT時刻大概還需兩到三年

14:01

阿塞拜疆首都地區(qū)降水量打破百年紀錄

13:54

蒙古國執(zhí)政黨選定總理候選人

13:32

本周南向資金凈買入251億港元,泡泡瑪特凈買入超36億港元

13:17

沙特每日700萬桶石油繞過霍爾木茲

13:16

中東兩大鋁廠遇襲,恐影響全球供應(yīng)鏈

12:58

全國累計器官捐獻志愿登記人數(shù)超過733萬

12:46

宇樹科技具身智能體驗館亞洲首店將于5月底落地上海

12:44

洛杉磯10萬人參加“不要國王”抗議,多人被捕

12:37

今年前兩月霍爾果斯口岸果蔬出口增長29.3%

11:48

中國首臺商用12兆伏串列加速器成功下線

11:40

美副總統(tǒng)稱無意滯留伊朗,將很快撤出

11:39

中關(guān)村兩院具身通用智能基座模型與社會模擬器等科研成果發(fā)布

11:37

清明檔新片預(yù)售票房突破2000萬

11:30

約千人“包圍”洛杉磯政府機構(gòu)大樓,兩人被捕

10:59

中穎電子:有序推進車規(guī)芯片研發(fā),新產(chǎn)品預(yù)期今年推出

10:50

德研究報告:中國工業(yè)數(shù)字化水平全球領(lǐng)先

掃描下載App