日韩青青草视频在线看,国内XXX视频超碰色中情

本篇文章我們繼續(xù)機器人系列，之前我們“機器人閉源模型”那篇文章分析了如今具身智能通用的VLA模型，拆解了特斯拉、Figure這些閉源巨頭的不同路線，以及他們?nèi)绾斡糜布蛿?shù)據(jù)優(yōu)勢構筑護城河。而這篇文章，我們與全球頂尖具身智能實驗室的研究人員深聊之后，來扒一扒開源算法路線中的核心玩家和關鍵的技術領軍人物們。

第一：這些開源模型分別走了什么技術路線，為什么能挑戰(zhàn)巨頭？

第二：開源的動機是什么？什么是“真”開源，什么是“假”開源？

第三：開源模型生態(tài)是什么樣的？面對特斯拉這樣的對手，開源社區(qū)拿什么打？

01 開源模型全景，誰在做，走什么路？

在開源模型派別中，VLA模型仍然是主流。簡單來說，就是讓機器人“看到”周圍環(huán)境，“聽懂”你的指令，然后“做出”正確的動作。

1. 學院派：參數(shù)不大，但能以小博大，代表模型是OpenVLA和Octo。

2. 巨頭生態(tài)派：不只做模型，還布局整套工具鏈，代表是英偉達的GR00T N1和谷歌的Gemini Robotics。

3. 創(chuàng)業(yè)公司與中國力量：自變量、OpenMind、小米、螞蟻等等。

4. 技術極致派：追求極致精度和泛化能力，代表模型是Physical Intelligence的π?。

OpenVLA的一戰(zhàn)成名，發(fā)生在2024年6月。這個只有70億參數(shù)的開源模型，在29項機器人操作任務中，全面擊敗了“頂流”谷歌DeepMind的RT-2-X。RT-2-X有550億參數(shù)，是OpenVLA的8倍大，背后站著整個谷歌的算力和數(shù)據(jù)資源。但結果是：OpenVLA的成功率比RT-2-X高出16.5%。

OpenVLA以小博大，憑的是一個很聰明的架構設計：兩個視覺編碼器加大語言模型。

對比谷歌RT-2-X，因為它只用了一個視覺編碼器，你可以想象成一個超聰明但什么都自己做的人：能力很強，但信息處理效率更低。

而OpenVLA用了兩個視覺編碼器，相當于有“兩雙眼睛”。第一雙眼睛叫“DINOv2”，負責理解空間關系；第二雙眼睛叫“SigLIP”，專門理解語義和常識。然后再由當時的開源大語言模型Llama 2充當“大腦”，把空間信息和語義信息融合起來，處理指令和推理。

簡單來說，OpenVLA像一個三人小團隊協(xié)同作戰(zhàn)，把兩類信息物理隔離、各自優(yōu)化，再統(tǒng)一決策，整體反而更強。大家大概可以理解成“三個臭皮匠，頂個諸葛亮”。這個架構證明了：在具身智能領域，單純的“大”并不代表“聰明”。

OpenVLA還有一個數(shù)據(jù)集的優(yōu)勢，叫做“Open X-Embodiment”，這也是開源生態(tài)的一個非常厲害的優(yōu)勢，后文會詳細展開。

另外，OpenVLA還在動作表示方式和訓練策略上做了優(yōu)化。所以它這次對谷歌的勝利靠的是“數(shù)據(jù)+架構+訓練策略”的綜合結果。

而且，OpenVLA在勝出之后徹底開源：代碼、模型權重、訓練腳本全部公開。這樣的開放姿態(tài)讓整個行業(yè)都非常興奮，開始各種后續(xù)的優(yōu)化、推理加速和微調(diào)。

這就是一個非常典型的開源故事，能用創(chuàng)新方式去“以小搏大”，撬動整個技術領域的后續(xù)工作。

我們再說說另外一個比較典型的開源路線“Octo”。如果說OpenVLA代表“規(guī)模化開源”，Octo就是“普及型開源”。

我們知道，機器人算法的“泛化性”是個很大的挑戰(zhàn)，之前的標準做法是需要針對特定機器人用特定數(shù)據(jù)集來訓練策略，但你換一個機器人、換一個環(huán)境，就要全部重新來訓。而一些開源社區(qū)的大牛們就希望實現(xiàn)“通用機器人模型”，通過zero-shot這樣的技術將模型擴展到廣泛的機器人和場景中。這樣的路徑被稱為“通用機器人策略”，Octo就是其中的代表。

Octo只有數(shù)千萬參數(shù)，比OpenVLA的規(guī)模更小。它是一個基于Transformer的擴散策略模型，設計強調(diào)靈活性和可擴展性，支持多種機器人平臺和傳感器配置，并能夠通過微調(diào)快速適應新的觀察和動作空間。這使得Octo可以廣泛應用于不同的機器人學習場景。

Octo的定位不是最強，而是人人可用，希望給開源社區(qū)提供一個更輕量、可快速適配的通用策略基礎模型。

2025年3月的GTC大會上，黃仁勛親自站臺，發(fā)布了GR00T N1，號稱“世界首個開放人形機器人基礎模型”。到2026年1月CES，已經(jīng)迭代到了N1.6版本。

GR00T N1采用雙系統(tǒng)架構：一個基于視覺語言模型的“System 2”負責慢思考，理解環(huán)境、解讀指令、做出規(guī)劃；一個基于擴散Transformer的“System 1”負責快思考，以高頻率把規(guī)劃轉化為精確的關節(jié)動作。兩個系統(tǒng)端到端聯(lián)合訓練，緊密耦合。

22億參數(shù)，模型權重和代碼都公開了，不少頭部人形機器人公司都獲得了早期使用權。而且英偉達不只給了模型，還給了整套生態(tài)：用Omniverse做數(shù)字孿生，用Isaac Sim生成合成訓練數(shù)據(jù)，用Cosmos生成視頻數(shù)據(jù)，用Newton物理引擎做仿真，整個一條龍服務。

Google在機器人通用策略上也在持續(xù)布局。早期的RT-1開源了代碼和數(shù)據(jù)，但后續(xù)更強大的RT-2以及之后的RT系列就變成閉源模型了，并沒有對外開放。

最近Google也在加速。2025年發(fā)布了Gemini Robotics系列模型，還挖來了前波士頓動力首席技術官Aaron Saunders擔任硬件工程副總裁。DeepMind CEO Demis Hassabis把這個愿景稱為“機器人界的安卓”，做通用的機器人操作系統(tǒng)，讓Gemini成為各種機器人的“大腦”。

在2026年CES上，波士頓動力和Google DeepMind宣布了戰(zhàn)略合作，將Gemini Robotics模型整合到Atlas人形機器人中，聯(lián)合研究即將在兩家公司的實驗室展開。

Google從開源到閉源、再到想要打造“機器人界的安卓”，賽道轉換有點快、野心有點大，但它絕對是機器人行業(yè)的最重要玩家，我們也拭目以待它的下一步動向。

中國在開源具身智能領域的參與正在加速，而且態(tài)勢在從單純的“跟跑”向“參與定義規(guī)則”轉變。

小米在2月12號剛發(fā)布的Xiaomi-Robotics-0，47億參數(shù)，用MoT混合架構——把“大腦”（視覺語言理解）和“小腦”（動作執(zhí)行）分開，改善了VLA模型普遍存在的推理延遲問題。模型開源，在消費級GPU上就能跑。

螞蟻集團的LingBot-VLA走了另一條路，強調(diào)跨形態(tài)泛化。這個模型在9種不同的雙臂機器人上預訓練了2萬多小時的真機數(shù)據(jù)，目標是做到“一個大腦控制所有類型的機器人”，有點像我們之前提到的“通用機器人策略”路線。

清華AIR和上海AI實驗室聯(lián)合推出的X-VLA，刷新了五大仿真基準，代碼、數(shù)據(jù)、權重全部公開，可以說是學術界最徹底的開源范本之一。

星海圖開源了真機數(shù)據(jù)集，以及旗下最新的G0 Plus VLA模型；智元機器人的GO-1已經(jīng)部署到了真機上執(zhí)行任務；星動紀元的ERA-42也在探索自己的路線。

另外，自變量機器人是一家聚焦于通用機器人“大腦”研發(fā)的中國具身智能創(chuàng)業(yè)公司，CTO王昊在之前與硅谷101播客談到了開源的初衷。

在硅谷的初創(chuàng)公司中，我們對話了由斯坦福教授Jan Liphardt創(chuàng)立的OpenMind。他說，希望為不同廠商的人形機器人構建一個通用的軟件層。OpenMind推出的OM1平臺強調(diào)開源與跨硬件兼容，希望打破當前機器人系統(tǒng)各自封閉的局面，讓不同設備可以共享能力與生態(tài)。他們也從一開始就以開源為核心理念來打造具身智能平臺，代表了一種純粹的開源路線。

目前開源界最受矚目的模型π?，是Physical Intelligence推出的VLA模型，屬于數(shù)十億參數(shù)級別。π?代表的是另一條思路：把“連續(xù)控制”做到極致。

在動作生成部分，π?使用了flow matching（流匹配）思路，直接生成連續(xù)的關節(jié)軌跡。這意味著模型輸出的是一段平滑的控制信號。Physical Intelligence研究員、也是π?、π?.?論文作者柯麗一鳴在接受硅谷101播客的時候就告訴我們，π?控制頻率約為50Hz，也就是每秒更新約50次動作。這種高頻連續(xù)控制帶來了一個質(zhì)的飛躍：π?能做折紙、玩撲克牌這種需要極高精度的任務——而這些是OpenVLA和Octo都很難勝任的。

從設計理念上看，π?更強調(diào)“控制質(zhì)量”和“動作連續(xù)性”。相比把動作當作語言token預測，它更接近傳統(tǒng)控制系統(tǒng)的形式，只不過控制信號由大模型生成。

這一選擇帶來的好處是，在折疊衣物、抓取柔性物體、操作細小零件等任務中，動作更加流暢，減少了抖動和遲滯。

同時，π?的代碼與權重通過OpenPI項目對外開放，使研究社區(qū)可以在它的基礎上復現(xiàn)與擴展。這種做法在商業(yè)公司中并不常見，也成為開源陣營的重要力量。

更令人關注的是π?的迭代節(jié)奏。初版論文發(fā)布后不久，Physical Intelligence通過OpenPI項目公開了模型權重與代碼。隨后數(shù)月內(nèi)，團隊陸續(xù)發(fā)布更新版本，持續(xù)改進泛化能力與控制穩(wěn)定性。隨后引入強化學習機制以進一步優(yōu)化策略表現(xiàn)，同時強調(diào)在開放環(huán)境中的適應能力。

在機器人領域，這種快速迭代與持續(xù)公開更新并不常見，也成為π?受到關注的重要原因之一。

不同陣營背后的主導核心人物也并非對立關系，他們的關系緊密且錯綜復雜。而更有意思的是，曾經(jīng)主導閉源模型的多位頂級科學家，后來成為了機器人開源社區(qū)的領導者。他們又被稱為機器人界的“復仇者聯(lián)盟”。

OpenVLA來自斯坦福和伯克利的聯(lián)合團隊，核心人物是這個領域的明星人物Chelsea Finn。

她MIT本科畢業(yè)，又在伯克利拿到博士學位，師從機器人學習教父級人物Pieter Abbeel和Sergey Levine。2019年她加入斯坦福任教，隨后一路拿獎到手軟。她同時還是Physical Intelligence的聯(lián)合創(chuàng)始人，橫跨學術和商業(yè)兩個世界。可以說，Chelsea Finn一人就串起了開源和閉源陣營的半壁江山。

在Finn教授以外，我們可以看到OpenVLA的作者名單上除了斯坦福和伯克利的一眾研究人員，還有豐田研究院、Google DeepMind、Physical Intelligence、MIT的科學家。這說明，OpenVLA并不只是一個閉門造車的實驗室產(chǎn)物。

Octo和OpenVLA可以說是“同門師兄弟”，同樣來自伯克利，由Chelsea Finn和Sergey Levine的團隊聯(lián)合出品。

Sergey Levine是機器人強化學習領域公認的開創(chuàng)者之一，他是伯克利教授、Google Brain前研究科學家，后來也成了Physical Intelligence的聯(lián)合創(chuàng)始人和首席科學家，他跟Finn是博導和博士生的關系。

有趣的是，Levine和Finn在Google時期參與了RT-1、RT-2這些閉源項目，離開后又推動了Octo和OpenVLA這些開源工作。這個領域中的同一批人，可以說既造了閉源的堡壘，也打開了開源的大門。

PI的創(chuàng)始團隊堪稱是機器人AI領域的“復仇者聯(lián)盟”，聯(lián)合創(chuàng)始人們各個都是來自學術界或者科技公司的大佬。

其中，Karol Hausman是Google DeepMind機器人方向的資深研究科學家，也是RT-1、RT-2和SayCan等標志性機器人大模型工作的核心作者之一。

Brian Ichter同樣來自Google Brain，深度參與了這些項目的研發(fā)，是那一代機器人基礎模型的重要推動者。Sergey Levine長期與Google Brain合作，在機器人學習和強化學習領域處于世界前沿，是這條技術路線的關鍵思想源頭之一。

我們前面提到好幾次的Chelsea Finn也是PI的聯(lián)合創(chuàng)始人之一，她也參與了RT系列研究，在機器人泛化與自監(jiān)督學習方向做出了重要貢獻。

2024年初，這幾位參與Google機器人基礎模型路線的核心成員陸續(xù)離開Google，并共同創(chuàng)辦了Physical Intelligence（PI）。此外，團隊成員還包括前Stripe高管兼知名投資人Lachy Groom，以及前Anduril工程副總裁Adnan Esmail。

說白了，是閉源陣營里最懂技術的一幫人，決定跳出來換一種方式做事。

但π?的身份很“糾結”，它來自一家剛成立、融資就超過10億美元、估值56億美元的商業(yè)公司。這樣一家公司，為什么要把最核心的模型開源？這就要說到我們的第二個核心問題：“真”開源和“假”開源。

02 開源的“真”與“假”，免費背后的商業(yè)心機

Physical Intelligence2024年成立，投資人包括Jeff Bezos、OpenAI、Sequoia Capital、Khosla Ventures。2024年11月融了4億美元，2025年11月又融了6億美元，估值達到56億美元。

一家這么有錢的公司，為什么要把核心模型免費放出來？答案是：這可能是Physical Intelligence最有“心機”的商業(yè)策略。

第一，開源建立標準。當全世界的機器人開發(fā)者，無論是學術實驗室、創(chuàng)業(yè)公司或者工業(yè)客戶，都在π?的框架上構建應用，PI就成了事實標準的定義者。別人的每一次使用，都在鞏固π?的生態(tài)地位。

第二，開源吸引人才。最優(yōu)秀的研究者想去能發(fā)論文、能影響行業(yè)的地方，PI開源π?之后，他們的openpi GitHub倉庫就成了機器人領域最熱的項目之一，這比任何招聘廣告都有效。

第三，開源加速數(shù)據(jù)飛輪。社區(qū)使用你的模型，發(fā)現(xiàn)問題、做出改進、貢獻數(shù)據(jù)，這些都回流給PI，讓下一代模型更強。

但要注意，π?不是100%開源。模型權重和推理代碼公開了，但完整的訓練流程和PI內(nèi)部采集的數(shù)萬小時專有數(shù)據(jù)沒有公開。

這是一種精心設計的“開源引流、閉源變現(xiàn)”策略，也就是用開源的模型吸引開發(fā)者進入你的生態(tài)，用閉源的數(shù)據(jù)和訓練能力保持競爭優(yōu)勢。也就是說社區(qū)可以用它的模型，但想要最好的版本，還得來找它。

我們前面提到，英偉達不只給了模型GR00T N1，還給了整套生態(tài)，包括生成合成訓練數(shù)據(jù)的工具、物理引擎等等。聽起來非常“開放”，但為什么有人說GR00T N1是“偽開源”？

因為模型雖然開放了，整個流程都在英偉達的生態(tài)里：訓練深度綁定英偉達的硬件生態(tài)，用H100集群訓練，在Omniverse平臺上做仿真，用Isaac Sim生成合成數(shù)據(jù)，最后部署在Jetson Thor芯片上。

對比純粹的社區(qū)開源，比如OpenVLA和Octo沒有任何硬件綁定，沒有生態(tài)鎖定，在任何GPU上都能跑。這也許是“開放”和“開源”之間的根本區(qū)別。

但行業(yè)如此早期，也許根本沒有什么選擇是正確或錯誤的。學術開源追求的是知識共享和科學可復現(xiàn)性，商業(yè)開源追求的是生態(tài)控制和市場標準，而戰(zhàn)略開放追求的是平臺鎖定和硬件銷售。

03 生態(tài)的力量，模型+數(shù)據(jù)+工具的“組合拳”

特斯拉有自己的工廠、自己的機器人、自己的數(shù)據(jù)閉環(huán)。英偉達有全世界最強的算力。谷歌匯聚了最頂尖的人才。開源社區(qū)一幫大學教授和創(chuàng)業(yè)團隊，憑什么能跟這些巨頭掰手腕？

答案是：生態(tài)。單看任何一個開源模型，都不如閉源巨頭。但模型、數(shù)據(jù)、工具三層生態(tài)疊加，形成的“組合拳”力量，就讓故事不一樣了。

也就是說，閉源看似安全，但沒有社區(qū)幫你測試和改進，反而可能變成一個人悶頭造車。

目前開源生態(tài)的第一個優(yōu)勢就是數(shù)據(jù)集。我們前面提到，OpenVLA橫空出世，就是用了Open X-Embodiment的數(shù)據(jù)集。

Open X-Embodiment是開源陣營最寶貴的優(yōu)勢：一個跨平臺、跨實驗室的機器人數(shù)據(jù)公共資源，它的規(guī)模和組織方式在機器人領域前所未有：超過20個研究機構共同貢獻，包括斯坦福、伯克利、MIT、CMU、Google DeepMind等頂級實驗室；22種不同的機器人本體，從單臂機械臂到雙臂協(xié)作、從桌面操作到移動導航再到人形機器人；超過100萬條真實軌跡，覆蓋527種技能。

特斯拉的數(shù)據(jù)可能更大，但全是Optimus一種機器人在特斯拉環(huán)境里的數(shù)據(jù)。Figure的數(shù)據(jù)也只有Figure 01和02的操作。而Open X-Embodiment是幾十種不同形態(tài)的機器人，在廚房、實驗室、倉庫、辦公室等完全不同的場景里采集的數(shù)據(jù)。

用訓練RT-X模型的實驗結果來說明：RT-1-X在小數(shù)據(jù)域的表現(xiàn)比單獨訓練的模型高了50%，RT-2-X甚至涌現(xiàn)出了原模型沒有的空間推理能力，是RT-2的3倍，能理解“on”和“near”這種細微的語言差異，這意味著它開始理解語言中的空間語義，知道“on”意味著物體之間要建立接觸和支撐關系，而“near”只是空間鄰近。

除此之外，它還能執(zhí)行訓練時從未見過的技能組合。這直接證明了：只要數(shù)據(jù)夠多樣，就算模型不是最大的，性能也能有大幅提高。

更值得一提的是數(shù)據(jù)格式的標準化貢獻。以前最頭疼的問題是每個實驗室的數(shù)據(jù)格式都不一樣：伯克利是一種格式，斯坦福是另一種，MIT又是第三種。想用多個數(shù)據(jù)集一起訓練？先花幾個月寫轉換代碼。

而Open X-Embodiment定義了統(tǒng)一的數(shù)據(jù)格式，涵蓋視覺觀察、本體感知、動作序列和語言注釋，所以在產(chǎn)業(yè)中有了一個統(tǒng)一的標準，這個很重要。

再說一句數(shù)據(jù)的問題，因為這是目前機器人領域最大的挑戰(zhàn)，我們的嘉賓之間分歧也很大，一派認為大語言模型已經(jīng)包含了足夠的物理常識，只需少量機器人數(shù)據(jù)微調(diào)，而另外一派認為物理世界的細節(jié)必須用真實的機器人數(shù)據(jù)來學習，互聯(lián)網(wǎng)視頻遠遠不夠。這里面的門道和技術可以挖得蠻深，不同的任務、不同的精度要求，需要不同的數(shù)據(jù)策略。所以，關于數(shù)據(jù)，我們之后還會單獨做一期機器人系列的深度內(nèi)容。

光有數(shù)據(jù)不夠，還需要工具把數(shù)據(jù)變成可以訓練的模型，這就是LeRobot和Genesis的角色。

LeRobot是Hugging Face從特斯拉挖來的工程師Remi Cadene帶隊打造的開源項目。Cadene之前在特斯拉參與過Autopilot和Optimus人形機器人項目。他帶著這些經(jīng)驗來到Hugging Face，目標是“讓訓練機器人像訓練語言模型一樣簡單”。

2. 一鍵集成了多種主流策略模型，你不需要去讀論文改代碼，直接調(diào)用就行。

3. 打通了數(shù)據(jù)采集、模型訓練、到真實機器人部署的全流程，以前這三步可能需要三套不同的工具鏈。

LeRobot的GitHub已經(jīng)超過2萬星，成為了開源機器人訓練的標準之一。但Hugging Face的野心不止于軟件。

2025年他們收購了法國的Pollen Robotics，推出了7萬美元的Reachy 2開源人形機器人，已經(jīng)在康奈爾和CMU等頂尖實驗室使用，還推出了250美元的Reachy Mini桌面機器人。更早之前，他們和The Robot Studio合作推出了SO-100機械臂，成本只要100美元，任何人都可以在家3D打印DIY一個。

由此可見，Hugging Face正在把“硬件加軟件加社區(qū)”打包，構建一個完整的開源機器人生態(tài)。

而2024年12月發(fā)布的Genesis則嘗試優(yōu)化仿真訓練的問題。這是由CMU卡內(nèi)基梅隆大學主導、聯(lián)合MIT、斯坦福、英偉達等20多個研究實驗室共同參與的開源項目，只需在仿真中運行數(shù)小時，就能生成相當于現(xiàn)實世界中多年訓練的樣本數(shù)據(jù)，大幅降低了訓練時間和硬件成本。

比如說，Genesis號稱在一張RTX 4090顯卡，模擬一個Franka機械臂的速度是每秒4300萬幀。這是實時速度的43萬倍。在Genesis里訓練1小時，相當于在真實世界訓練超過49年。

這帶來的改變是，以前只有大公司能負擔的大規(guī)模仿真訓練，現(xiàn)在一個研究生在家用一張消費級顯卡就能做。

值得注意的是，英偉達也和Google DeepMind、Disney Research聯(lián)合開發(fā)了一個開源物理引擎Newton，跟Genesis形成了直接競爭，所以仿真工具領域本身也是一個充滿競爭的領域。

但無論如何，一部分勛章應該要給到Hugging Face，LeRobot管真實世界，學界主導的Genesis管虛擬世界，兩個工具一起，把“訓練機器人”的門檻從百萬美元降到了幾百美元。

總結一下，模型、數(shù)據(jù)、工具,這三層疊加，就是開源陣營的“組合拳”。

單看任何一層，開源都不如閉源巨頭：論人才密度和算力，不如谷歌；論數(shù)據(jù)量，不如特斯拉；論工具鏈的完整度，不如英偉達。但三層聯(lián)動產(chǎn)生的化學反應，釋放出了巨大的能量。

一個研究者可以用Open X-Embodiment的數(shù)據(jù)，在LeRobot框架上訓練OpenVLA，用Genesis做仿真驗證，然后部署到100美元的SO-100機械臂上。整個流程全部開源，全部免費，全部可復現(xiàn)。

這里有一個很關鍵的觀察：在大語言模型領域，開源是追趕者。OpenAI、Anthropic和Google先行，開源后追，晚一到兩代。但在機器人領域，開源和閉源幾乎是同時起跑的。

OpenVLA在2024年6月就擊敗了RT-2-X，這個時間差的原因很簡單：機器人還在非常早期的階段，沒有任何一家公司建立了壓倒性的數(shù)據(jù)或算法優(yōu)勢。這是開源難得的“公平競賽”窗口，如果錯過這個窗口，等閉源公司積累了足夠的數(shù)據(jù)飛輪，開源可能就很難追上了。

RT-2-X是谷歌的“閉源”模型，但它的訓練數(shù)據(jù)有一部分來自Open X-Embodiment這個開源數(shù)據(jù)集。Chelsea Finn同時是Octo這個開源項目的核心作者，也是RT系列閉源工作的推動者，還是PI的聯(lián)合創(chuàng)始人。而英偉達的GR00T N1介于開源和閉源之間。所以，這場競爭不是兩個陣營的對決，而是一個光譜上的多方博弈。

而說到底，開源vs閉源，表面是技術路線之爭，本質(zhì)是生態(tài)之爭，爭的還是誰來定義機器人行業(yè)的基礎設施層。

04 開源的挑戰(zhàn)與未來，算力、數(shù)據(jù)質(zhì)量、工程化差距與安全

但對于生態(tài)來說，必須要直面一個現(xiàn)實：開源面臨的挑戰(zhàn)依然很大。

首先是算力門檻，雖然有Octo這樣的輕量模型，但訓練一個頂級開源模型仍然需要不小的投入。OpenVLA用了64張A100跑了15天，這跟特斯拉、谷歌的算力相比是小巫見大巫，但對普通研究者來說仍然是一筆不小的開支。

其次是數(shù)據(jù)質(zhì)量，Open X-Embodiment雖然大，但不同來源的數(shù)據(jù)標注標準參差不齊，有的實驗室標注非常細致，有的比較粗糙。特斯拉的數(shù)據(jù)可能在多樣性上不如開源，但在一致性上更強，畢竟都是同一套系統(tǒng)采集的。

第三是工程化差距，開源模型在論文里表現(xiàn)出色，但從demo到產(chǎn)品之間有一道巨大的鴻溝。閉源公司有完整的工程團隊做優(yōu)化、做測試、做售后，開源社區(qū)更擅長創(chuàng)新探索。但把一個模型打磨成穩(wěn)定可靠的商業(yè)產(chǎn)品，往往需要閉源公司來完成。

第四是安全問題，如果人人都能訓練機器人，如何防止被用于危險用途？物理世界的AI比虛擬世界的大語言模型風險更高，聊天機器人說錯話最多是尷尬，但物理機器人做錯動作可能造成傷害。OpenMind的Jan Liphardt提出了一個大膽的方案：

用區(qū)塊鏈來約束機器人行為，這個想法很前衛(wèi)，也確實在業(yè)界也引發(fā)了一些爭議。但它至少說明，開源社區(qū)正在認真思考安全問題。

開源能發(fā)展到什么程度？自變量CTO王昊給出了一個時間線預測：

GPT-3的水平意味著機器人會從“能完成簡單指令”跳躍到“能理解復雜意圖并靈活執(zhí)行”，這將是一個分水嶺。

在LLM時代，我們見證了OpenAI從“開放”走向封閉。一個以“Open”命名的公司，變成了一家市值千億的閉源商業(yè)帝國。在機器人時代，同樣的故事可能重演，但也可能不會。因為機器人領域有一個大語言模型時代沒有的東西：從一開始就足夠強大的開源生態(tài)。

最后，OpenMind創(chuàng)始人Jan Liphardt從一個父親的角度解釋了為什么他支持開源，這個回答還蠻有人味兒的：

這就是具身智能開源模型生態(tài)的現(xiàn)狀。這篇文章詳細聊了四個派系：學院派，巨頭，包括了中國公司在內(nèi)的創(chuàng)業(yè)派，以及單獨拎出來講的Physical Intelligence。大家出于不同的目的、在不同程度上參與了開源生態(tài)的搭建，確定的是，這樣的生態(tài)正在幫助我們進一步突破技術和創(chuàng)新的邊界。

快報

2026-03-28 23:01

澤連斯基稱與中東3國達成防務合作協(xié)議，涉聯(lián)合生產(chǎn)無人機

2026-03-28 22:35

山西太原一建筑發(fā)生火災，已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長發(fā)表書面致辭，支持世貿(mào)組織《電子商務協(xié)定》達成臨時實施安排

2026-03-28 21:54

40余家單位聯(lián)盟，中國最大人形機器人訓練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會預判：百億智能體或成新物種，AI推動人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市，售價4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉庫并致烏克蘭人傷亡消息不實

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國務卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個詞的搜索量最高一天達到7.7萬次，比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國首個可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動2026”在北京啟動

2026-03-28 19:03

國務院食安辦、市場監(jiān)管總局約談相關地方市級人民政府負責人，督辦“3?15”晚會曝光問題整改

2026-03-28 18:44

飛書 CLI 開源：AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個月中國創(chuàng)新藥對外授權交易總額超600億美元

2026-03-28 17:39

中國和菲律賓舉行南海問題雙邊磋商機制第十一次會議

2026-03-28 17:30

印尼正式實施16歲以下社媒禁令，約7000萬人受影響

2026-03-28 17:04

美國加州禁止官員借內(nèi)幕消息在預測市場牟利

2026-03-28 17:02

北京“超現(xiàn)場”生態(tài)共同體建設暨全國覆蓋啟動

01 開源模型全景，誰在做，走什么路？

02 開源的“真”與“假”，免費背后的商業(yè)心機

03 生態(tài)的力量，模型+數(shù)據(jù)+工具的“組合拳”

04 開源的挑戰(zhàn)與未來，算力、數(shù)據(jù)質(zhì)量、工程化差距與安全

敬原創(chuàng)，有鈦度，得贊賞

01 開源模型全景，誰在做，走什么路？

02 開源的“真”與“假”，免費背后的商業(yè)心機

03 生態(tài)的力量，模型+數(shù)據(jù)+工具的“組合拳”

04 開源的挑戰(zhàn)與未來，算力、數(shù)據(jù)質(zhì)量、工程化差距與安全

敬原創(chuàng)，有鈦度，得贊賞