“具身智能目前陷入動(dòng)作模仿的泥潭,環(huán)境或任務(wù)一旦改變,技能就有很大可能會(huì)失效。只有讓機(jī)器人像人一樣,先理解物理世界,再執(zhí)行具體任務(wù),才是真正給機(jī)器人裝上一個(gè)大腦。”深度機(jī)智創(chuàng)始人陳凱向智客ZhiKer表示。

2024 年底,陳凱率先提出“AnthroLearning”(人類學(xué)習(xí))路線時(shí),幾乎沒(méi)人相信。這位人工智能領(lǐng)域深耕十五年,曾任職微軟亞洲研究院首席研究員、主導(dǎo)產(chǎn)品年調(diào)用量達(dá)千億次的科學(xué)家,得到的反饋是沉默,甚至質(zhì)疑。

彼時(shí),具身智能的主流技術(shù)路線是遙操作,讓人類戴著設(shè)備控制機(jī)器人,記錄每一個(gè)動(dòng)作軌跡,再讓機(jī)器人反復(fù)模仿,或者用互聯(lián)網(wǎng)視頻、仿真數(shù)據(jù)訓(xùn)練。這些方法的邏輯很直接,讓機(jī)器人“背”會(huì)動(dòng)作。

但這條路線存在明顯局限。陳凱認(rèn)為:“這些主流技術(shù)路線的本質(zhì)上是在“手把手教猴子干活”,效率低下,真正的突破口在于通過(guò)人類第一視角數(shù)據(jù)向大腦注入物理常識(shí),讓猴子進(jìn)化成人。”

轉(zhuǎn)折來(lái)得比預(yù)期更快。

2025年5月,硅谷有具身智能企業(yè)開(kāi)始轉(zhuǎn)向人類第一視角數(shù)據(jù)。也是在這個(gè)月,陳凱與同是畢業(yè)于中科大少年班學(xué)院的張翼博共同創(chuàng)立了深度機(jī)智。

去年年底,深度機(jī)智聯(lián)合北京中關(guān)村學(xué)院率先使用1000小時(shí)人類第一視角數(shù)據(jù)訓(xùn)練出的PhysBrain基座模型,展現(xiàn)出令人驚艷的結(jié)果。在“把胡蘿卜放進(jìn)盤(pán)子”任務(wù)中,機(jī)器人的夾子碰到胡蘿卜時(shí)選擇了像人一樣推動(dòng)胡蘿卜,讓它滾入盤(pán)中,在多次嘗試后發(fā)現(xiàn)盤(pán)子邊緣過(guò)高無(wú)法推入后,主動(dòng)轉(zhuǎn)變策略,改為夾取,夾一次沒(méi)進(jìn)去,又修正夾取換角度和力度,最終成功。這種靈活性是無(wú)法通過(guò)預(yù)編程實(shí)現(xiàn)的。也就是說(shuō),機(jī)器人自己“涌現(xiàn)”出了變通與糾錯(cuò)能力。

智客ZhiKer與深度機(jī)智創(chuàng)始人陳凱、聯(lián)合創(chuàng)始人/CEO張翼博進(jìn)行了一次對(duì)話,試圖回答:為什么是 2026 年?為什么是中國(guó)?這條路線收斂之后,產(chǎn)業(yè)會(huì)發(fā)生什么變化?

以下為與陳凱、張翼博的對(duì)話全文,略有刪減:

智客ZhiKer:2024-2026年,具身智能行業(yè)在技術(shù)路線上經(jīng)歷了什么?為什么你在2024年底提出的“人類學(xué)習(xí)”路線,到2026年初就成了行業(yè)共識(shí)?這個(gè)收斂速度是你預(yù)料之中的嗎?

陳凱: 這個(gè)收斂速度比我們預(yù)期的要快。我們?cè)?024年底提出“AnthroLearning”(人類學(xué)習(xí))概念的時(shí)候,這條路線非常有爭(zhēng)議,因?yàn)楫?dāng)時(shí)大家講的還是遙操作、真機(jī)、仿真、互聯(lián)網(wǎng)視頻,根本沒(méi)有人類第一視角。

轉(zhuǎn)折點(diǎn)發(fā)生在2025年5月。特斯拉宣布Optimus會(huì)逐漸放棄動(dòng)作捕捉和遙操作數(shù)據(jù),轉(zhuǎn)為從人類第一視角數(shù)據(jù)去學(xué)習(xí)機(jī)器人的技能。6月,原Google DeepMind科學(xué)家Andy Zeng創(chuàng)辦的Generalist AI發(fā)布了機(jī)器人拆解積木的Demo,機(jī)器人在將積木塊放進(jìn)盒子時(shí),采用的是扔的動(dòng)作,表明他們也在直接從人類數(shù)據(jù)學(xué)習(xí)。

這種對(duì)物理交互的靈活運(yùn)用,恰恰是傳統(tǒng)真機(jī)軌跡擬合難以企及的。至去年底,Skild AI、Physical Intelligence、NVIDIA等硅谷做具身智能的公司都在向“人類第一視角數(shù)據(jù)”看齊,在硅谷基本已達(dá)成共識(shí)。

張翼博: 各個(gè)大廠在春節(jié)前后相繼組建新的團(tuán)隊(duì),今年3月份之后,這條技術(shù)路線開(kāi)始受到大家追捧。我們預(yù)測(cè),2026年會(huì)是“AnthroLearning”(人類學(xué)習(xí))的元年。

智客ZhiKer:遙操作、真機(jī)、仿真、互聯(lián)網(wǎng)視頻學(xué)習(xí)等,這些技術(shù)路線的問(wèn)題出在哪里?

陳凱: 大家不管是走VLM(Vision-Language Model)、VLA(Vision-Language-Action)還是世界模型路線,每一家都在強(qiáng)調(diào)自己在這條路線上積累了多少數(shù)據(jù)、模型設(shè)計(jì)有多好,最終都會(huì)卡在一個(gè)點(diǎn)上,就是基座模型缺乏物理常識(shí)。

VLM模型不理解空間,不能夠理解時(shí)序。譬如,桌子上面放了幾個(gè)杯子,它數(shù)不清有幾個(gè),對(duì)于人來(lái)說(shuō)輕而易舉的事情,對(duì)于模型來(lái)說(shuō)非常難,所以有人專門(mén)去做增強(qiáng)模型的空間智能。世界模型或視頻生成模型,生成的內(nèi)容在視覺(jué)上可以亂真,但是運(yùn)動(dòng)的真實(shí)性或者物理真實(shí)性就比較差。

而“人類第一視角數(shù)據(jù)”采集自真實(shí)物理世界,天然蘊(yùn)含空間理解與交互過(guò)程。我用一個(gè)更直白的比喻來(lái)解釋:現(xiàn)在的軌跡擬合方式就像是在手把手教猴子干活,教它洗菜、做飯、洗碗。但是猴子完全不理解人類社會(huì)的常識(shí)。我們要做的是先賦予物理常識(shí),讓它進(jìn)化成人,再讓它學(xué)習(xí)特定技能,這比手把手教動(dòng)作高效得多。

張翼博:真正的突破在于物理常識(shí)的注入,不是簡(jiǎn)單的軌跡標(biāo)注,是對(duì)任務(wù)的深層理解。比如開(kāi)礦泉水瓶是什么,先做什么后做什么,這些維度的標(biāo)注門(mén)檻極高,這是人們習(xí)以為常的下意識(shí)行為,屬于智能的“暗物質(zhì)”。

智客ZhiKer:PhysBrain 與英偉達(dá)的技術(shù)路線對(duì)比如何?有觀點(diǎn)認(rèn)為,深度機(jī)智在這一方向上已有先發(fā)優(yōu)勢(shì),你們?cè)趺纯矗?/p>

陳凱: 從時(shí)間線上看,我們兩家的技術(shù)管線搭建幾乎同步。英偉達(dá)2026年2—3月公開(kāi)方案,我們2025年3月啟動(dòng)預(yù)研、6月搭出數(shù)據(jù)管線。不同之處在于,英偉達(dá)專注手部軌跡預(yù)訓(xùn)練,我們直接增強(qiáng)VLM本身。最終都收斂到用人類數(shù)據(jù)增強(qiáng)物理直覺(jué),按進(jìn)度和投入判斷,我們略領(lǐng)先英偉達(dá)。

具體而言,我們圍繞數(shù)據(jù)怎么轉(zhuǎn)譯、架構(gòu)怎么設(shè)計(jì)、訓(xùn)練目標(biāo)怎么設(shè)定三個(gè)環(huán)節(jié),搭建出一套全棧矩陣,把視頻中的隱性經(jīng)驗(yàn)提取成結(jié)構(gòu)化監(jiān)督信號(hào),任務(wù)怎么拆解、關(guān)鍵狀態(tài)是什么、手該怎么動(dòng)、物體之間有什么約束、時(shí)空關(guān)系是怎樣的。

Egocentric2Embodiment翻譯管道的核心是把人類第一視角視頻轉(zhuǎn)碼成機(jī)器人能學(xué)的結(jié)構(gòu)化教材,通過(guò)多層次拆解任務(wù)規(guī)劃、關(guān)鍵狀態(tài)、手部動(dòng)作和物理約束,確保時(shí)序邏輯連貫且每個(gè)判斷都有畫(huà)面證據(jù)支撐,最終輸出帶標(biāo)準(zhǔn)答案的VQA監(jiān)督數(shù)據(jù)。確保機(jī)器人知其然也知其所以然,而非瞎猜。

利用這套方法,我們構(gòu)建了數(shù)據(jù)集E2E-3M,并訓(xùn)練出具身大腦PhysBrain。在完全未出現(xiàn)在訓(xùn)練集中的SimplerEnv四個(gè)操作任務(wù)上,PhysBrain(8B版本)以67.4%的平均成功率力壓行業(yè)標(biāo)桿Physical Intelligence的Pi0.5,領(lǐng)先優(yōu)勢(shì)達(dá)10%。

智客ZhiKer:PhysBrain的“涌現(xiàn)能力”具體指什么?能否舉例說(shuō)明?

陳凱:涌現(xiàn)能力體現(xiàn)在模型對(duì)物理交互的直覺(jué)式理解,而非機(jī)械執(zhí)行預(yù)設(shè)動(dòng)作。

在SimplerEnv的胡蘿卜抓取任務(wù)中,模型接到的指令只是把胡蘿卜放進(jìn)盤(pán)子里。第一次夾取失敗后,它并沒(méi)有重復(fù)同一個(gè)抓取動(dòng)作,而是發(fā)現(xiàn)夾爪已經(jīng)碰到了胡蘿卜,順勢(shì)改為用夾子把胡蘿卜往盤(pán)子方向推,一次推不進(jìn)去,又加大力度重新推了一次,最后才主動(dòng)切換策略重新抓取。

要知道,“推”這個(gè)動(dòng)作從未包含在訓(xùn)練數(shù)據(jù)里,模型也沒(méi)有看過(guò)失敗軌跡示范,這種靈活應(yīng)變更像是一種內(nèi)生的物理直覺(jué)。

這種“智能涌現(xiàn)”的出現(xiàn),是物理常識(shí)注入帶來(lái)的質(zhì)變。讓模型擁有物理常識(shí)的同時(shí),不丟失原有的通用理解能力,我們?cè)诩軜?gòu)層面做了另一項(xiàng)關(guān)鍵設(shè)計(jì)“左右腦”同構(gòu)架構(gòu)TwinBrainVLA。

我們引入一個(gè)同構(gòu)但被凍結(jié)的VLM模塊作為“左腦”,保持其開(kāi)放世界理解能力不變;同時(shí)引入可訓(xùn)練的“右腦”網(wǎng)絡(luò),專門(mén)處理機(jī)器人本體感知狀態(tài)和低級(jí)動(dòng)作策略。

關(guān)鍵在于“左右腦”之間的信息交互,通過(guò)非對(duì)稱混合Transformer機(jī)制(AsyMoT),右腦可以動(dòng)態(tài)查詢左腦的語(yǔ)義知識(shí),左腦參數(shù)不會(huì)被下游任務(wù)污染。

這種設(shè)計(jì)的精妙之處在于知識(shí)遷移而不遺忘,右腦學(xué)會(huì)動(dòng)作控制時(shí),左腦依然保有識(shí)別易碎物品的常識(shí)及推斷約束條件的能力。遇到新場(chǎng)景時(shí),左右腦協(xié)同工作,既不會(huì)變成“只會(huì)抓杯子不懂杯子會(huì)碎”的純執(zhí)行機(jī)器,也不會(huì)停留在“知道要輕放但手不聽(tīng)使喚”的紙上談兵階段。

張翼博:在過(guò)往一年當(dāng)中,我們觀測(cè)到了非常多次的智能涌現(xiàn),也和英偉達(dá)交叉驗(yàn)證了這個(gè)數(shù)據(jù)規(guī)模是有效的。我們用 1000 小時(shí)的數(shù)據(jù)實(shí)現(xiàn)了這樣的模型性能,這本身就是對(duì)新范式的一次關(guān)鍵驗(yàn)證。

智客ZhiKer:從數(shù)據(jù)采集到模型訓(xùn)練的周期和成本如何?

陳凱:數(shù)據(jù)采集、處理和模型預(yù)研同步推進(jìn)的全流程不到3個(gè)月。核心難有三個(gè),一是制作數(shù)采設(shè)備,二是數(shù)據(jù)確權(quán)與隱私合規(guī),三是打造數(shù)據(jù)處理管線提取物理常識(shí)。管線建立后,訓(xùn)練視頻生成模型和多模態(tài)大模型就比較順暢。

張翼博:我們是國(guó)內(nèi)第一批完成10萬(wàn)小時(shí)量級(jí)多模態(tài)第一人稱視角數(shù)據(jù)采集的公司,通過(guò)自研的全套技術(shù)方案,綜合成本遠(yuǎn)低于市場(chǎng)其他類型數(shù)據(jù),數(shù)據(jù)有效性也大幅提升。

何旭國(guó)(深度機(jī)智硬件負(fù)責(zé)人): 很多人認(rèn)為腦袋上裝一個(gè)攝像頭就完成了數(shù)據(jù)采集,但真正解決這個(gè)問(wèn)題的時(shí)候,有大量的工程化問(wèn)題需要解決。我們?cè)诙x什么樣的數(shù)采設(shè)備可以進(jìn)入到真實(shí)生產(chǎn)生活。

目前所有的設(shè)備,它的存儲(chǔ)、電量不可能做到又小、時(shí)間又長(zhǎng)、功耗還低,這是矛盾的。智能眼鏡每增加 10 克,對(duì)耳朵的負(fù)擔(dān)都非常明顯。所以我們最開(kāi)始就拋棄了傳統(tǒng)智能眼鏡作為數(shù)采設(shè)備的解決方案。

我們最終收斂到把整個(gè)設(shè)備的形態(tài)對(duì)頭部負(fù)擔(dān)盡可能小,把所有的存儲(chǔ)、算力、通訊等基本功能外置,定制了腰包、電源、存儲(chǔ)、電腦,開(kāi)發(fā)了軟件,做了這個(gè)解決方案。

我們部署了一個(gè)輕量級(jí)手部檢測(cè)模型。畫(huà)面中出現(xiàn)手的時(shí)候就開(kāi)始拍攝,畫(huà)面中沒(méi)有手了拍攝就結(jié)束,這樣最大程度保證了數(shù)據(jù)的有效性。

智客ZhiKer:你們還研發(fā)了自主站立工業(yè)級(jí)擬人體機(jī)器人,為什么一家做“大腦”的公司要做本體?

陳凱: 使用人類數(shù)據(jù)學(xué)習(xí)的最佳載體,應(yīng)該是高度擬人的機(jī)器人。

何老師不僅負(fù)責(zé)數(shù)據(jù)采集設(shè)備,也為大腦設(shè)計(jì)身體。這款機(jī)器人全身采用萬(wàn)元級(jí)諧波力控電機(jī)關(guān)節(jié)模組,全身一共72自由度,而且這款機(jī)器人在不通電的情況下可以自主站立,這對(duì)于機(jī)器人未來(lái)進(jìn)入場(chǎng)景非常重要,它可以實(shí)現(xiàn)低能耗和高安全性。

張翼博:諧波全身力控是技術(shù)路線,擬人體是結(jié)構(gòu)路線。擬人體要求每個(gè)自由度與人對(duì)齊,手指長(zhǎng)度、胳膊肘長(zhǎng)度均需匹配,即結(jié)構(gòu)同構(gòu)。我們的優(yōu)勢(shì)在于“諧波+同構(gòu)”兼得,諧波關(guān)節(jié)模組尺寸正是行業(yè)難點(diǎn),我們已取得關(guān)鍵突破。

智客ZhiKer:公司最終定位是做機(jī)器人大腦,還是有思考的機(jī)器人本體?未來(lái)規(guī)劃是什么?

陳凱:最終目標(biāo)是具身AGI,或者說(shuō)具備物理智能的大模型,用模型能力為機(jī)器人提供服務(wù),提供更理解物理世界、更理解交互的Token。

張翼博:短期來(lái)講我們要做“沿途下蛋”。先開(kāi)源4B的小模型,讓行業(yè)看到這了路的可行性,同時(shí)我們的數(shù)采設(shè)備也已經(jīng)逐漸開(kāi)始商業(yè)化;下一步,把更大的模型做成產(chǎn)品,讓大家調(diào)用;同時(shí),我們還在探索養(yǎng)老和教育場(chǎng)景。

智客ZhiKer:技術(shù)路線收斂之后,數(shù)據(jù)標(biāo)注、算力、真機(jī)驗(yàn)證,哪個(gè)環(huán)節(jié)會(huì)成為新的瓶頸?中國(guó)在哪個(gè)環(huán)節(jié)有優(yōu)勢(shì)?

張翼博: 中國(guó)的優(yōu)勢(shì)首先在數(shù)據(jù)。美國(guó)采集并標(biāo)注第一視角 27 萬(wàn)小時(shí),花費(fèi)巨額成本。中國(guó)擁有更豐富的數(shù)據(jù)來(lái)源和更低廉的采集成本,千萬(wàn)小時(shí)人類第一視角數(shù)據(jù),今年在中國(guó)整個(gè)行業(yè)就會(huì)達(dá)到。

再說(shuō)算力。國(guó)產(chǎn)卡完全可以承接,我們有充足的國(guó)產(chǎn)算力資源作為支撐?,F(xiàn)在技術(shù)已經(jīng)收斂了,下一步就是投入信心、國(guó)家支持、全行業(yè)共同努力。中國(guó)實(shí)現(xiàn)彎道超車或者直線超車是非常有可能的。

陳凱: 還有一個(gè)關(guān)鍵是標(biāo)注與模型架構(gòu)、訓(xùn)練方法緊耦合。對(duì)手部軌跡建??赡苤恍鑾讐K錢算力,但對(duì)空間常識(shí)、任務(wù)理解的標(biāo)注可能需要幾百塊,投入巨大,回報(bào)也巨大。

智客ZhiKer:中國(guó)和美國(guó)在具身智能領(lǐng)域各有側(cè)重,但如果具身智能是AGI 問(wèn)題,這個(gè)分工會(huì)被打破嗎?中國(guó)在大模型上的追趕經(jīng)驗(yàn)?zāi)軓?fù)用到具身智能上嗎? 

陳凱:中美確實(shí)各有側(cè)重,中國(guó)在本體領(lǐng)域有顯著的競(jìng)爭(zhēng)優(yōu)勢(shì),美國(guó)在具身大腦方向起步更早。

中國(guó)在具身大腦方向上的力量還需要加強(qiáng),但是我們對(duì)趕超甚至領(lǐng)先非常有信心。一是場(chǎng)景儲(chǔ)備,制造業(yè)立國(guó),幅員遼闊,數(shù)據(jù)上天然有優(yōu)勢(shì)。二是硬件協(xié)同,具身大腦可與本體同步迭代,以更高效率設(shè)計(jì)適配大腦的身體。三是制度創(chuàng)新,國(guó)產(chǎn)芯片突破,北京中關(guān)村學(xué)院等新型教育機(jī)構(gòu)探索新科研組織方式。

不管是制度創(chuàng)新、產(chǎn)業(yè)協(xié)同,還是場(chǎng)景豐富度、國(guó)家意志,具身大腦的方向上,我們起步不晚,積累不淺,完全有信心走出一條自己的路。

張翼博:能與物理世界交互的人工智能,估值空間巨大。這既是國(guó)家需求,也會(huì)對(duì)生產(chǎn)制造業(yè)、家庭服務(wù)業(yè)影響深遠(yuǎn),讓勞動(dòng)變成一種選擇,而非必需。

如果具身智能成為AGI的原生能力,將重構(gòu)整個(gè)AI產(chǎn)業(yè)鏈。我相信中美會(huì)齊頭并進(jìn),不會(huì)是美國(guó)遙遙領(lǐng)先。

轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
聲明:文章內(nèi)容僅供參考、交流、學(xué)習(xí)、不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

2026-03-28 23:01

澤連斯基稱與中東3國(guó)達(dá)成防務(wù)合作協(xié)議,涉聯(lián)合生產(chǎn)無(wú)人機(jī)

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi),已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長(zhǎng)發(fā)表書(shū)面致辭,支持世貿(mào)組織《電子商務(wù)協(xié)定》達(dá)成臨時(shí)實(shí)施安排

2026-03-28 21:54

40余家單位聯(lián)盟,中國(guó)最大人形機(jī)器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會(huì)預(yù)判:百億智能體或成新物種,AI推動(dòng)人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市,售價(jià)4.48萬(wàn)-5.48萬(wàn)元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉(cāng)庫(kù)并致烏克蘭人傷亡消息不實(shí)

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國(guó)務(wù)卿和歐盟官員被曝就烏克蘭問(wèn)題激烈交鋒

2026-03-28 19:44

“Token”這個(gè)詞的搜索量最高一天達(dá)到7.7萬(wàn)次,比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國(guó)首個(gè)可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動(dòng)2026”在北京啟動(dòng)

2026-03-28 19:03

國(guó)務(wù)院食安辦、市場(chǎng)監(jiān)管總局約談相關(guān)地方市級(jí)人民政府負(fù)責(zé)人,督辦“3?15”晚會(huì)曝光問(wèn)題整改

2026-03-28 18:44

飛書(shū) CLI 開(kāi)源:AI 可直連飛書(shū)辦公套件

2026-03-28 18:36

馬來(lái)西亞說(shuō)伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個(gè)月中國(guó)創(chuàng)新藥對(duì)外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國(guó)和菲律賓舉行南海問(wèn)題雙邊磋商機(jī)制第十一次會(huì)議

2026-03-28 17:30

印尼正式實(shí)施16歲以下社媒禁令,約7000萬(wàn)人受影響

2026-03-28 17:04

美國(guó)加州禁止官員借內(nèi)幕消息在預(yù)測(cè)市場(chǎng)牟利

2026-03-28 17:02

北京“超現(xiàn)場(chǎng)”生態(tài)共同體建設(shè)暨全國(guó)覆蓋啟動(dòng)

1

掃描下載App