綜上公開信息和權(quán)威機構(gòu)的公開報告,我們認為,業(yè)內(nèi)流傳的關(guān)于DeepSeek用遠低于ChatGPT的成本達到相同效果的說法因漏讀和誤導而頗為值得商榷。

當然,由于商業(yè)機密等多重因素,業(yè)內(nèi),包括我們,事實上無法通過復現(xiàn)來證實557.6萬美元訓練成本是虛假的,即證偽;而基于同樣的因素,推出DeepSeek-V3和R-1的幻方量化也不可能公開透明的向外界或者通過外界證明557.6萬美元就是真實的訓練成本,即證真。所以業(yè)內(nèi)對于其成本爭議的產(chǎn)生也自在情理之中了。

引微軟和OpenAI知識產(chǎn)權(quán)疑慮,都是“蒸餾”惹得禍

除了前述的DeepSeek成本之謎,最近,OpenAI和微軟均向媒體證實,已掌握疑似DeepSeek通過“蒸餾”(distillation)技術(shù),利用OpenAI專有模型來訓練其AI大模型。這使得DeepSeek能夠以較低的成本在特定任務(wù)上達到類似的效果。OpenAI雖未進一步提供證據(jù)的細節(jié),但根據(jù)其服務(wù)條款,用戶不得“復制”任何OpenAI的服務(wù),或“利用輸出結(jié)果開發(fā)與OpenAI競爭的模型”。

與此同時,微軟和OpenAI也在調(diào)查DeepSeek是否通過未經(jīng)授權(quán)的方式,不當獲取OpenAI技術(shù)輸出的信息。例如,微軟早在2024年秋天就注意到,有人通過OpenAI應用程序接口(API)輸出大量數(shù)據(jù),懷疑這些行為與DeepSeek有關(guān)(注:OpenAI等公司對API調(diào)用和行為模式有嚴格監(jiān)控,任何異常行為都會觸發(fā)防護機制)。

除企業(yè)外,美國總統(tǒng)川普政府的AI專家大衛(wèi)•塞克斯(David Sacks)也在福斯新聞訪談中提到“蒸餾”技術(shù),并表示有“大量證據(jù)”顯示DeepSeek依賴OpenAI的模型輸出來協(xié)助開發(fā)其技術(shù),但他并未進一步提供證據(jù)。他還提到,未來幾個月,美國領(lǐng)先的人工智能公司將采取措施,防止“蒸餾”技術(shù)的濫用。

從目前公開的信息來看,OpenAI、微軟和AI專家的核心關(guān)切在于DeepSeek是否采用了“蒸餾”技術(shù),并且是否通過這種方式使用了OpenAI的專有模型。

問題的關(guān)鍵在于,DeepSeek是否使用了“蒸餾”技術(shù)來訓練其模型;如果使用了,是否獲得了OpenAI的授權(quán),或者是否違反了OpenAI的服務(wù)條款?

對于上述兩個核心問題,目前業(yè)內(nèi)人士和媒體的說法紛繁復雜。有的觀點認為DeepSeek(主要是R1模型)根本沒有使用“蒸餾”技術(shù);而有的則稱,DeepSeek的技術(shù)文檔表示,R1模型使用了“蒸餾”技術(shù)生成的高質(zhì)量數(shù)據(jù),以提升訓練效率。

在我們看來,由于DeepSeek R-1剛發(fā)布不久,且其突破是在DeepSeek-V3的基礎(chǔ)上進行的,而DeepSeek發(fā)布的原始報告中以V3為例(例如前文提到的成本),這表明R1與V3之間有著較強的關(guān)聯(lián)性。因此,我們不妨從V3的角度出發(fā),考察其是否采用了“蒸餾”技術(shù),從而更客觀地推測R1是否采用了“蒸餾”技術(shù)。

事實上,關(guān)于DeepSeek V3,曾在測試中出現(xiàn)過異常:該模型自稱是OpenAI的ChatGPT,并能提供OpenAI的API使用說明。專家認為,這很可能是由于訓練數(shù)據(jù)中混入了大量由ChatGPT生成的內(nèi)容(即“蒸餾”數(shù)據(jù)),導致模型發(fā)生了“身份混淆”。

這一問題引發(fā)了部分網(wǎng)友的“套殼”質(zhì)疑。不過,也有網(wǎng)友指出,當前數(shù)據(jù)清洗過程中最基本的原則之一,就是去除類似蒸餾GPT4的痕跡,刪去這類數(shù)據(jù)是個非常簡單的操作。那么,為什么DeepSeek沒有采取這一操作呢?

對此,存在兩種可能性:一是DeepSeek根本沒有使用OpenAI的API生成數(shù)據(jù),但網(wǎng)絡(luò)上有不少人貢獻了OpenAI的訪問日志,而DeepSeek可能用了這部分數(shù)據(jù);二是DeepSeek在合成數(shù)據(jù)時選擇了他們認為最有效的方式,并且并不打算掩飾這一過程。

如果這些仍然只是部分網(wǎng)友的爭議觀點,那么,最近由中國科學院深圳先進技術(shù)研究院、北京大學、01.AI、南方科技大學、Leibowitz AI等多個知名機構(gòu)的研究團隊聯(lián)合發(fā)表的《Distillation Quantification for Large Language Models(大語言模型的蒸餾量化)》論文則顯示DeepSeek V3的蒸餾過程可能主要來自GPT4o,且蒸餾程度較高。

該論文提出了一個系統(tǒng)化的框架,量化并評估大模型蒸餾的過程及其影響,采用了“響應相似性評估(RSE)”和“身份一致性評估(ICE)”兩個量化指標。RSE實驗結(jié)果顯示,DeepSeek V3的蒸餾程度與GPT4o接近,評分為4.102,遠高于其他模型(如Llama 3.1-70B和Doubao-Pro-32k)。在ICE實驗中,DeepSeek V3也顯示出較高的蒸餾程度,屬于可疑響應數(shù)量最多的模型之一。

此外,論文還提出過度蒸餾的問題,過度蒸餾可能導致模型同質(zhì)化,降低獨特性,甚至影響模型的性能。DeepSeek的R1模型也面臨類似問題,可能在蒸餾過程中出現(xiàn)性能下降。

需要補充說明的是,對于DeepSeek爆火之下,馬斯克一直罕見地并未發(fā)表評論,卻在最近點贊了一則推文。推文中提到了DeepSeek大量依賴模型蒸餾技術(shù),需要借助ChatGPT-4o和o1才能完成訓練。盡管模型蒸餾是一項常見的技術(shù)手段,能夠?qū)penAI中的大量數(shù)據(jù)迅速提煉重點并快速理解和應用,但這種模式只能讓DeepSeek接近OpenAI,而難以真正超越OpenAI。

其實在我們看來,這種“捷徑”方法的影響遠不止技術(shù)層面。

首先,方法缺乏透明度,使研究界難以準確評估并借鑒所謂的進展。許多機構(gòu)可能隱瞞實際方法,卻夸大自身技術(shù)能力,導致對領(lǐng)域進展的認知偏差;其次,這種趨勢導致創(chuàng)新停滯,研究人員越來越依賴對現(xiàn)有強大模型進行蒸餾來訓練自己的AI模型,而非開發(fā)根本性的新技術(shù)和通用大模型(類似于ChatGPT);第三,通過蒸餾提取出來的訓練數(shù)據(jù)訓練出來的AI模型存在固有局限性,即其能力受限于原有模型(O1),形成難以突破的天花板效應,阻礙真正的AI產(chǎn)業(yè)進步。

值得注意的是,近日,根據(jù)新聞可靠性評級服務(wù)機構(gòu)NewsGuard的審查,DeepSeek的聊天機器人準確度僅為17%,在測試的11個聊天機器人中排名第10,遠低于OpenAI的ChatGPT-4等。原因何在?是否與上述的過度蒸餾有關(guān)?

即使如此,DeepSeek仍然能夠在成本上顯著壓倒其他大模型,這也是其被廣泛關(guān)注的原因之一。

因此,關(guān)鍵問題是,DeepSeek是否獲得了OpenAI的授權(quán)使用其模型進行蒸餾訓練?如果沒有,是否違反了OpenAI的服務(wù)條款?鑒于DeepSeek作為國內(nèi)初創(chuàng)企業(yè),可能并未充分研究OpenAI的服務(wù)條款,其可能面臨法律挑戰(zhàn),尤其是在知識產(chǎn)權(quán)方面。

這里,我們可以不妨借用華為創(chuàng)始人任正非的做法,他常將一本名為《美國陷阱》的書放在辦公桌上,并時常閱讀。盡管書中的內(nèi)容和他為何熱衷于閱讀它的原因并不在此展開,但我們可以借此說明,特別是美國科技公司,往往在其產(chǎn)品中埋設(shè)了大量的“地雷”,一不小心便可能誤入雷區(qū)。

具體到DeepSeek,作為一家主要面向國內(nèi)市場的初創(chuàng)AI企業(yè),它是否會事無巨細地研究OpenAI的服務(wù)條款,尤其是其中關(guān)于版權(quán)、知識產(chǎn)權(quán)等敏感內(nèi)容,實在令人存疑。此外,OpenAI的GPT作為閉源模型,其中可能包含許多知識產(chǎn)權(quán)、技術(shù)和商業(yè)機密。DeepSeek是否能夠深入了解這些隱藏的內(nèi)容,亦是一個值得考慮的問題。

再者,考慮到歐盟在數(shù)據(jù)隱私(如GDPR)和AI倫理等方面的嚴格監(jiān)管,DeepSeek是否已經(jīng)完全理解這些法律法規(guī)?若蒸餾過程中涉及到未經(jīng)授權(quán)的OpenAI數(shù)據(jù)或受保護的商業(yè)模型,DeepSeek可能面臨極其嚴苛的法律挑戰(zhàn)。

最近,意大利隱私監(jiān)管機構(gòu)Garante向DeepSeek中國公司發(fā)出正式信息請求,要求其說明如何處理意大利用戶的數(shù)據(jù)。Garante對DeepSeek是否對意大利用戶的數(shù)據(jù)隱私構(gòu)成風險表示擔憂,并要求DeepSeek在20天內(nèi)做出答復。同時,DeepSeek的應用在意大利的蘋果和谷歌應用商店被下架。

除此之外,愛爾蘭數(shù)據(jù)保護委員會和德國等歐洲國家也可能對DeepSeek展開調(diào)查。這些行動表明,DeepSeek的合規(guī)性問題在未來可能成為其發(fā)展道路上的重大挑戰(zhàn)。

綜上,盡管OpenAI、微軟和AI專家未能提供直接證據(jù),但一旦進入法律訴訟,DeepSeek的勝算仍然令人堪憂。特別是結(jié)合美國的國家安全法案等因素,DeepSeek面臨的風險不可小覷。

從工程創(chuàng)新到基礎(chǔ)創(chuàng)新:中國AI“軟”實力幾何?

所謂瑕不掩瑜,當我們暫時拋開上述業(yè)內(nèi)(包括廠商、相關(guān)專家等)部分對于DeepSeek成本、知識產(chǎn)權(quán)的質(zhì)疑,僅站在AI(包括AI大模型)技術(shù)和產(chǎn)業(yè)的視角去看DeepSeek,其確實可圈可點。

有關(guān)技術(shù)方面,目前網(wǎng)絡(luò)及專業(yè)媒體報道和分析的很多,我們就不班門弄斧了。只是引用下DeepSeek的說法,其得益于采用了Multi-head Latent Attention (MLA)和DeepSeek MoE架構(gòu),實現(xiàn)了高效的推理和經(jīng)濟高效的訓練。又引入了輔助損失自由負載平衡策略和多token預測訓練目標,提升了模型性能。同時,在14.8萬億個高質(zhì)量token上進行預訓練時,通過監(jiān)督微調(diào)和強化學習階段充分挖掘了其潛力。

看來DeepSeek-V3通過數(shù)據(jù)與算法層面的優(yōu)化,大幅提升算力利用效率,實現(xiàn)了協(xié)同效應。簡而言之,DeepSeek更多是贏在了AI“軟”實力和工程創(chuàng)新上。而這也得到國內(nèi)外眾多業(yè)內(nèi)專家、廠商的認可。

不過我們作為非專業(yè)AI媒體,更多還是從技術(shù)發(fā)展邏輯(非技術(shù)本身)、市場事實闡述下我們的看法。

DeepSeek創(chuàng)始人梁文鋒2023年在接受36氪旗下《暗涌》采訪提及中國大模型的差距時曾稱,首先訓練效率存在差距,由于結(jié)構(gòu)和訓練動態(tài)方面的差距,中國最好的模型可能需要兩倍的計算能力才能與全球頂尖模型匹敵;數(shù)據(jù)效率也降低了一半,這意味著我們需要兩倍的數(shù)據(jù)和計算才能獲得相同的結(jié)果。綜合起來,資源是原來的四倍。我們的目標是不斷縮小這些差距。

從2023年至今,一年多的時間,DeepSeek不僅彌補了其所說的我們大模型與國外綜合起來的資源差距,甚至資源的投入僅為國外的不到1/10,且實現(xiàn)了性能比肩,甚至部分的超越,這一技術(shù)進步在短短一年多內(nèi)的發(fā)生,確實讓業(yè)內(nèi)人士感到意外,這也引發(fā)了對其背后技術(shù)路徑和資源配置的更多討論。

接下來我們看看除了對其極致性能的夸贊之外,選取些我們看到的DeepSeek的表現(xiàn)。

廣發(fā)證券發(fā)布的測試結(jié)果顯示,DeepSeek-V3總體能力與豆包、Kimi等其他大模型相當,但在邏輯推理和代碼生成領(lǐng)域具有自身特點。

例如,在密文解碼任務(wù)中,DeepSeek-V3是唯一給出正確答案的大模型;而在代碼生成的任務(wù)中,DeepSeek-V3給出的代碼注釋、算法原理解釋以及開發(fā)流程的指引是最為全面的。在文本生成和數(shù)學計算能力方面,DeepSeek-V3并未展現(xiàn)出明顯優(yōu)于其他大模型之處。

另據(jù)國內(nèi)大模型測評機構(gòu)SuperCLUE 最新發(fā)布的《中文大模型基準測評2024 年度報告》,總體趨勢上,國內(nèi)外第一梯隊大模型在中文領(lǐng)域的通用能力差距正在擴大。

2023年5月至今,國內(nèi)外大模型能力持續(xù)發(fā)展。其中GPT系列模型為代表的海外最好模型經(jīng)過了從GPT3 . 5、GPT4、GPT4 - Turbo、GPT4o、o1的多個版本的迭代升級。

國內(nèi)模型也經(jīng)歷了波瀾壯闊的1 8個月的迭代周期,從2 0 2 3年5月的30.12%的差距,縮小至2024年8月的1.29%。但隨著o1的發(fā)布,差距再次拉大到15.05%。

看完上述,不知業(yè)內(nèi)作何感想?我們認為無論是DeepSeek自身,還是中國AI大模型的整體,絕非像目前看到某些媒體和業(yè)內(nèi)評價的那么極致和領(lǐng)先。尤其是整體,至少從去年一年的發(fā)展周期看,我們AI大模型與國外的差距反而加大了。

更應讓我們不能盲目樂觀的是,站在整個AI產(chǎn)業(yè)(包括,但不限于AI大模型)的高度,中國在AI領(lǐng)域仍然面臨一些核心技術(shù)上的瓶頸,尤其是在基礎(chǔ)算法和數(shù)學模型的創(chuàng)新方面。盡管開源技術(shù),例如現(xiàn)有的深度學習模型和開源框架(如TensorFlow、PyTorch等)為很多應用提供了便利,但它們主要依賴于已有的模型和算法設(shè)計,若要應對日益復雜的任務(wù),僅僅依賴這些現(xiàn)成的工具將難以滿足要求。更進一步,依賴國外開源代碼的情況下,可能會被技術(shù)壁壘、算法封鎖等所困擾。

基于此,我們AI技術(shù)的進一步前行必須依賴于自己原創(chuàng)算法的突破,而不僅僅是現(xiàn)有技術(shù)的跟隨,尤其是當前深度學習技術(shù)發(fā)展到一定階段,遇到“天花板”,需要新的數(shù)學工具和算法架構(gòu)來繼續(xù)推動技術(shù)進步。未來的AI將不僅僅依賴數(shù)據(jù)和算力,還需要融入更多的邏輯推理、知識圖譜等元素,這些都需要新的數(shù)學和算法理論來支撐。

寫在最后:

所謂風物長宜放眼量。不可否認,DeepSeek作為近年來崛起的AI大模型,雖然面臨關(guān)于其低成本訓練的具體細節(jié)和是否存在未經(jīng)授權(quán)使用OpenAI技術(shù)的爭議,但其在工程創(chuàng)新、算力優(yōu)化等方面仍值得我們高度肯定,盡管如此,縱觀整個中國AI產(chǎn)業(yè),我們依然面臨計算資源與算力受限、架構(gòu)與算法過度依賴開源,缺乏核心原創(chuàng)AI算法等挑戰(zhàn)待破局。

本文系作者 孫永杰 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學習,不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容
  • 中國AI的“軟、硬”挑戰(zhàn)說得很實在,原創(chuàng)算法這塊得抓緊了。

    回復 2025.02.03 · via h5
  • DeepSeek的爭議和挑戰(zhàn)都講得很透徹

    回復 2025.02.02 · via pc
  • 希望后續(xù)能有更明確的結(jié)論。

    回復 2025.02.02 · via pc
  • 對于知識產(chǎn)權(quán)的擔憂挺合理的,AI發(fā)展不能靠“捷徑”啊。

    回復 2025.02.02 · via h5
  • DeepSeek雖然火,但未來路還很長,得穩(wěn)扎穩(wěn)打

    回復 2025.02.02 · via android

快報

更多

2026-03-28 23:01

澤連斯基稱與中東3國達成防務(wù)合作協(xié)議,涉聯(lián)合生產(chǎn)無人機

2026-03-28 22:35

山西太原一建筑發(fā)生火災,已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長發(fā)表書面致辭,支持世貿(mào)組織《電子商務(wù)協(xié)定》達成臨時實施安排

2026-03-28 21:54

40余家單位聯(lián)盟,中國最大人形機器人訓練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會預判:百億智能體或成新物種,AI推動人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市,售價4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉庫并致烏克蘭人傷亡消息不實

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國務(wù)卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個詞的搜索量最高一天達到7.7萬次,比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國首個可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動2026”在北京啟動

2026-03-28 19:03

國務(wù)院食安辦、市場監(jiān)管總局約談相關(guān)地方市級人民政府負責人,督辦“3?15”晚會曝光問題整改

2026-03-28 18:44

飛書 CLI 開源:AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個月中國創(chuàng)新藥對外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國和菲律賓舉行南海問題雙邊磋商機制第十一次會議

2026-03-28 17:30

印尼正式實施16歲以下社媒禁令,約7000萬人受影響

2026-03-28 17:04

美國加州禁止官員借內(nèi)幕消息在預測市場牟利

2026-03-28 17:02

北京“超現(xiàn)場”生態(tài)共同體建設(shè)暨全國覆蓋啟動

5

掃描下載App