在线观看亚洲色图,一级免费黄色电影,人人操手机观看操一操亚洲

在下面兩個案例里，3B大?。?0億參數(shù)）的DeepSeek OCR在數(shù)學(xué)公式展開里沒有識別出“極坐標”，識別表格結(jié)構(gòu)也是錯的。相比之下，僅僅有0.9B（9億參數(shù)）模型尺寸的PaddleOCR-VL（來自百度飛漿開源）卻更勝一籌。

壓縮即智能

如果把大腦看作一臺生物計算機，Ilya說我們終將突破。人類思維最幽暗深微之處，也許出奇地「大道至簡」。

Ilya有個信念，「如果你能高效壓縮信息，你一定已經(jīng)得到知識，不然你沒法壓縮信息。當你實現(xiàn)了信息高效壓縮，you got to have some knowledge」。

壓縮通過識別模式和規(guī)律高效表征信息，這與智能行為密切相關(guān)。有相當一部分研究人員認為，壓縮可能是通用智能的基礎(chǔ)，甚至可能等同于智能，Ilya所堅信的「壓縮即智能」。

Ilya可能只說對了一半。相比語言這種一維的離散信息，語言的成功壓縮誕生了轟動世界的ChatGPT。而視覺作為更高維的連續(xù)信息，端到端的壓縮和統(tǒng)一表征提取，卻異常困難。

如今強大無比的各類預(yù)訓(xùn)練大語言模型，它們在底層原理上高度統(tǒng)一：使用互聯(lián)網(wǎng)上龐大語料訓(xùn)練出超大規(guī)模神經(jīng)網(wǎng)絡(luò)，它可以看作一大堆參數(shù)，當用戶輸入時，將激活固定的網(wǎng)絡(luò)節(jié)點參數(shù)參與計算，從而「預(yù)測最大概率的輸出Token」。具體過程中，用戶的輸入文本會被Tokenization固定劃分的詞和符號（即分詞過程）轉(zhuǎn)化為向量，這些輸入向量會在超高維的向量空間去做模式匹配，即以激活的神經(jīng)網(wǎng)絡(luò)參數(shù)參與計算，計算出最高概率的下一個詞。

LLM用大白話解釋，就是根據(jù)模型參數(shù)和上下文去才猜下一個詞?；仡櫞笳Z言模型的發(fā)展，通用算法的發(fā)現(xiàn)，Transformer架構(gòu)讓Scaling變得真正可行，簡單算法、超大數(shù)據(jù)、GPGPU算力的暴漲三者合力，成功地壓縮互聯(lián)網(wǎng)上幾乎所有的文本資料，打造出一臺非常智能的「Token預(yù)測器」。

LLM的輸出是「Token by Token」，自回歸方式，意味著每一個Token都要跟前文“交互”一次。輸入十萬個Token，模型就要進行十萬·十萬的百億次“交互”計算。輸入越長的上下文，預(yù)測下一個詞就需要指數(shù)級的計算增長。

再大的顯存帶寬和顯存容量，也無法一次吃掉計算過程中天量的中間矩陣，推理延遲會越來越大。LLM近年的創(chuàng)新，比如注意力層計算的稀疏和優(yōu)化，誕生了MTP、NSA、DSA，還有稠密FFN層的稀疏激活，以及超大規(guī)模MoE專家網(wǎng)絡(luò)的路由激活，本質(zhì)都是在解決計算層面的問題。

以DeepSeek為例，除了R1以開源模型首次公開了預(yù)訓(xùn)練+后訓(xùn)練強化學(xué)習(xí)方法，復(fù)現(xiàn)了O1 推理思維鏈的效果引發(fā)轟動，其它幾乎所有的創(chuàng)新都集中在改進注意力機制、激活參數(shù)計算和推理解碼的高效，以及訓(xùn)練時如何降低硬件開銷和提升數(shù)據(jù)通信可靠性。

DeepSeek OCR表面上是一個OCR模型，實際也是指向計算效率，嘗試實現(xiàn)模型輸入過長上下文的高效壓縮。

DeepSeek OCR的核心是DeepEncoder，一個用vision tokens去Encode輸入上下文信息的編碼器，它實現(xiàn)了 9–10倍文本壓縮下 96%+ 的 OCR 解碼精度，10–12倍壓縮下約 90%的精度，20倍壓縮下仍保持約 60% 的精度。

在壓縮比10倍的時候，幾乎可以做到無損。這意味著原來輸入十萬Token的模型上下文，視覺編碼僅需一萬Token。

而且，DeepSeek論文說我們可以連續(xù)調(diào)節(jié)壓縮率，在壓縮率和識別精度之間平滑地做出權(quán)衡。關(guān)鍵來了，DeepSeek將這種動態(tài)的視覺壓縮還與人類的記憶遺忘做了類比。

DeepSeek提出一種類生物遺忘機制的壓縮策略：

- 近期上下文：保持高分辨率，token 消耗高，信息清晰；

- 遠期上下文：逐步降低分辨率，token 減少，信息模糊；

- 這種機制模擬人類記憶的自然衰減：

時間越久，記憶越模糊；
距離越遠，視覺感知越弱；
兩者都表現(xiàn)出漸進式信息丟失的模式（如圖所示）

在論文里，DeepSeek 解釋 OCR 的工作代表了對視覺-文本壓縮邊界的初步探索，研究了解碼 N 個文本 token 需要多少個視覺 token這一核心問題。初步結(jié)果令人鼓舞：

光學(xué)上下文壓縮不僅是技術(shù)可行的，更是生物學(xué)合理的。它為長上下文建模提供了全新視角。 DeepSeek相信，這一方向?qū)⒊蔀槲磥?LLM 與 VLM 研究的重要突破口。

DeepSeek-OCR 在約 10× 壓縮比下實現(xiàn)了接近無損的 OCR 壓縮，在 20× 壓縮比下，仍能保持 60% 的準確率，這些發(fā)現(xiàn)意味著：在多輪對話中，對超過 k 輪的歷史記錄進行光學(xué)處理，實現(xiàn) 10× 壓縮效率；對舊上下文逐步縮小渲染圖像，進一步減少 token 消耗；模擬人類記憶的遺忘機制，越久遠的內(nèi)容，壓縮率越高，圖像越模糊，信息逐漸丟失。

在論文里，DeepSeek強調(diào)，光學(xué)上下文壓縮仍然是一個剛剛起步、充滿潛力的研究方向。DeepSeek-OCR 不僅僅是一個常用的優(yōu)秀OCR工具，本身是一個極具實用價值的模型，具備大規(guī)模預(yù)訓(xùn)練數(shù)據(jù)生產(chǎn)能力，可作為 LLM 訓(xùn)練過程中不可或缺的助手。在實際應(yīng)用中，該模型每天可生成數(shù)千萬頁級別的訓(xùn)練數(shù)據(jù)，顯著提升了多模態(tài)數(shù)據(jù)構(gòu)建的效率。

世界模型的「輪廓」

人腦若以“生物計算機”視角觀察，可以粗略概括為：它以多模態(tài)、某種統(tǒng)一表征進行極為高效的信息壓縮，實現(xiàn)對現(xiàn)實世界建模和預(yù)測。

LLM則是“通過語言單一模態(tài)對現(xiàn)實世界建模和預(yù)測”。

如果大語言模型能夠?qū)駻GI，等同于人類是通過語言理解一切，通過語言就可以建模世界？但這其中有一個明顯Bug，人類并沒有LLM Tokenization 這種「后天而非先驗」的分詞器，Karpathy形容Tokenization的過程是丑陋且笨拙。

用戶的文本輸入變成AI“可讀”的內(nèi)容，是通過一個叫“Tokenizer”（分詞器）的東西，把句子切成一個個“詞元”（Token），比如“Hello, world!”可能被切成 [Hello]、[,]、[world]、[!]，四個詞元。分詞的標準并不是統(tǒng)一的，不同的詞表和分詞器也意味著各家模型不同的Tokenization方法，它對模型的最終性能有一定影響。

LLM文本輸入轉(zhuǎn)化為Token的分詞過程是不是必不可少的？而DeepSeek-OCR這篇論文無意中提供了一個佐證：它證明了，AI可以只用100個“視覺詞元”（Vision Tokens），就高精度地“解壓縮”出包含1000個“文本詞元”的原文內(nèi)容。而且不需要文本分詞這個過程。

語言深度依賴視覺經(jīng)驗和多模態(tài)基礎(chǔ)，文字本身是對感知世界的二次抽象。為什么我們的AI系統(tǒng)，要繞過更原始、更豐富的表征層？當模型直接在像素層面理解文字，它看到的不只是語言，而是習(xí)得了更加豐富、更加深層的學(xué)習(xí)機制。

就像前文所說，相比語言這樣的一維離散信息，更高維且連續(xù)的視覺信息，端到端的信息壓縮、統(tǒng)一表征提取和預(yù)測，困難且毫無進展。

三句不離世界模型的Yan LeCun，曾在公開訪談中談及連續(xù)視覺信息的處理有多么困難：

“一個典型的大語言模型大約是在200億到2萬億個Token上訓(xùn)練的。Token差不多就是一個詞。通常，一個Token用三個字節(jié)表示，200億到2萬億個Token，總共大約是10的14次方字節(jié)，也就是1后面跟著14個零。這幾乎是互聯(lián)網(wǎng)上所有公開文本的總和。

一個人要花幾十萬年才能讀完這些材料，這是海量的信息?，F(xiàn)在，我們來比較一下這個數(shù)據(jù)量：一個四歲的孩子總共清醒了 16000 個小時。每秒大約有 2 M字節(jié)信息通過我們的視神經(jīng)進入我們的視覺皮層。每秒 2 M字節(jié)，在四年內(nèi)，通過視覺輸入大約是 10 的 14 次方字節(jié)的數(shù)據(jù)。四歲孩子”看到“的數(shù)據(jù)量與需要你 40 萬年才能閱讀的文本一樣多。

這表明，僅僅依靠文本訓(xùn)練，我們永遠無法實現(xiàn)接近人類水平的AI。我們必須學(xué)會讓AI理解真實世界，而這非常困難。如果我們不用單詞，而是用視頻中的幀，將這些幀轉(zhuǎn)換成類似于單詞的Token，然后嘗試訓(xùn)練系統(tǒng)預(yù)測視頻中將要發(fā)生的事情，這是行不通的。

我們可能無法預(yù)測某個特定單詞會出現(xiàn)在文本的哪個位置，但我們可以預(yù)測所有可能單詞的概率分布。對于視頻，我們做不到這一點。我們無法表示所有可能的視頻幀的概率分布。因此，那些在文本、DNA序列或蛋白質(zhì)上非常有效的技術(shù)，在視頻或其他自然信號上卻不起作用。”

回過頭來看，DeepSeek-OCR這篇論文的真正價值，不在于它提供了一個多好的OCR工具，而在于它充當了一次“概念驗證”（Proof-of-Concept）。它用實驗數(shù)據(jù)證明了：AI的主要信息入口，可以從語言轉(zhuǎn)向視覺，不僅效率更高，似乎更符合生物特性。

Karpathy還給出了一個關(guān)鍵洞察：

Vision→Text的任務(wù)空間，其實完全包含了Text→Text的任務(wù)空間，任何文本都可以無損“渲染”成圖像。但反過來從圖像到文本就會丟失大量信息。這種不對稱暗示了一個激進的方向：把所有輸入統(tǒng)一為視覺模態(tài)，輸出保持文本不變。

這不僅僅是“文本到文本”任務(wù)變成了“視覺到文本”任務(wù)，這是一個更根本的轉(zhuǎn)變。

如果輸入端徹底轉(zhuǎn)向像素，我們實際上構(gòu)建的，不再是傳統(tǒng)意義上的“大語言模型”，而是一個視覺條件下的文本生成系統(tǒng)。模型看到的，不再是固定劃分的字符，而是更凌亂、更無序但信息更豐富的原始信號。沿著這條全新的發(fā)展道路，似乎遠遠能夠望到世界模型的輪廓。

再看一遍 DeepSeek在OCR論文的總結(jié)，「這一范式將為解決長上下文建模中的效率瓶頸、記憶機制設(shè)計與多模態(tài)融合等核心問題提供全新的思路和廣闊的研究空間」，措辭謹慎且謙虛。

DeepSeek值得尊敬。

壓縮即智能

世界模型的「輪廓」

敬原創(chuàng)，有鈦度，得贊賞

敬原創(chuàng)，有鈦度，得贊賞