隨著具身智能的向前發(fā)展,傳統(tǒng)的VLA技術(shù)路線正在面臨越來越多的挑戰(zhàn)。

所謂VLA模型,即視覺-語言-動(dòng)作模型。它的技術(shù)邏輯可以簡(jiǎn)單描述為,將人類指令和外界多模態(tài)信息(聲音、圖像、視頻)轉(zhuǎn)化為計(jì)算機(jī)語言,繼而控制機(jī)器人行為。

但在VLA模型的訓(xùn)練中,互聯(lián)網(wǎng)上的靜態(tài)、非結(jié)構(gòu)化文本和圖像數(shù)據(jù),并不是訓(xùn)練所需的核心數(shù)據(jù)。物理世界數(shù)據(jù)的稀缺與復(fù)雜性,成為了制約VLA模型能力躍升的主要瓶頸。

VLA之后,具身智能接下來將往何處去?這成為了具身智能整個(gè)行業(yè),都在試圖解決的問題。

近日,螞蟻靈波對(duì)外開源了LingBot-Depth、LingBot-VLA 、LingBot-World 以及LingBot-VA系列模型。其中 LingBot-VA 所代表的“邊預(yù)測(cè)、邊行動(dòng)”的具身世界模型范式,正與行業(yè)近期的探索形成呼應(yīng)。而四個(gè)模型的開源,則將這套能力拆成可復(fù)用的模塊與接口,為開發(fā)者提供從研究驗(yàn)證到工程試驗(yàn)的基礎(chǔ)設(shè)施,從而降低具身智能研發(fā)與集成門檻。

LingBot-VA開源,首創(chuàng)“自回歸視頻-動(dòng)作范式”

螞蟻靈波開源周中, 具身世界模型LingBot-VA成為了收官之作,其核心突破在于它改變了機(jī)器人的思考方式。

傳統(tǒng)機(jī)器人主要基于“視覺-語言-動(dòng)作”范式,其決策模式類似于“條件反射”:看到什么,就做什么。這種方式難以應(yīng)對(duì)需要多步驟規(guī)劃和因果推理的復(fù)雜任務(wù)。

LingBot-VA則讓機(jī)器人具備“腦補(bǔ)”能力。

1

在物理執(zhí)行動(dòng)作之前,它會(huì)在內(nèi)部模擬并推演未來幾秒的世界狀態(tài)變化,再根據(jù)這個(gè)推演結(jié)果來決定當(dāng)前的最佳動(dòng)作。這使得機(jī)器人能夠像人一樣“先思后行”,顯著提升了在復(fù)雜、長(zhǎng)時(shí)序任務(wù)中的可靠性和智能水平。

實(shí)現(xiàn)這一切的基礎(chǔ)在于,LingBot-VA在核心范式上的創(chuàng)新。

LingBot-VA首創(chuàng)了“自回歸視頻-動(dòng)作范式”:將大規(guī)模視頻生成模型與機(jī)器人控制深度融合,模型在生成“下一步世界狀態(tài)”的同時(shí),直接推演并輸出對(duì)應(yīng)的動(dòng)作序列。

具體而言,Mixture-of-Transformers (MoT) 架構(gòu)讓視頻流(寬而深,負(fù)責(zé)視覺推演)與動(dòng)作流(輕而快,負(fù)責(zé)運(yùn)動(dòng)控制)共享注意力機(jī)制又保持獨(dú)立;閉環(huán)推演機(jī)制:每一步生成都納入真實(shí)世界的實(shí)時(shí)反饋(如攝像頭數(shù)據(jù)),形成“預(yù)測(cè)-執(zhí)行-感知-修正”的循環(huán),防止幻覺漂移。

最后,異步推理管線讓動(dòng)作預(yù)測(cè)與電機(jī)執(zhí)行并行處理,大幅降低延遲。

得益于LingBot-VA的技術(shù)創(chuàng)新,機(jī)器人在制作早餐、插入試管、疊衣物等長(zhǎng)時(shí)序、高精度、柔性物體操控任務(wù)中,成功率相較業(yè)界基線模型平均提升約20%;在雙臂協(xié)同操作基準(zhǔn)RoboTwin 2.0上成功率首次超過90%,在長(zhǎng)時(shí)序終身學(xué)習(xí)基準(zhǔn)LIBERO上達(dá)到98.5%的平均成功。

LingBot 系列開源,構(gòu)建具身智能的通用基礎(chǔ)設(shè)施

除了LingBot-VA之外,螞蟻靈波還連續(xù)開源了LingBot-Depth(空間感知)、LingBot-VLA以及LingBot-World。這四者共同構(gòu)成了一套覆蓋“感知-理解-模擬-行動(dòng)”的完整具身智能技術(shù)棧。

LingBot-Depth?相當(dāng)于機(jī)器人的“眼睛”,通過高精度空間感知模型,解決透明、反光物體識(shí)別難題,透明物體抓取成功率從0提升至50%。

LingBot-VLA?,類似于機(jī)器人的“大腦”,讓機(jī)器人理解指令并規(guī)劃基礎(chǔ)動(dòng)作?;?萬小時(shí)真實(shí)機(jī)器人數(shù)據(jù)訓(xùn)練,LingBot-VLA在GM-100基準(zhǔn)測(cè)試中,成功率超越基線模型Pi0.5。

1

可以看到,與業(yè)內(nèi)主流的“仿真到現(xiàn)實(shí)”(Sim-to-Real)路徑不同,螞蟻靈波更篤信基于真實(shí)世界數(shù)據(jù)訓(xùn)練的價(jià)值。

LingBot-VLA覆蓋了9種主流雙臂機(jī)器人構(gòu)型(包括 AgileX,Galaxea R1Pro、R1Lite 、AgiBot G1等),實(shí)現(xiàn)了讓同一個(gè)“大腦”可以無縫遷移至不同構(gòu)型的機(jī)器人,并在任務(wù)變化、環(huán)境變化時(shí)保持可用的成功率與魯棒性。

與高精度空間感知模型LingBot-Depth配合,LingBot-VLA還能獲得更高質(zhì)量的深度信息表征,通過“視力”的升級(jí),真正做到“看得更清楚、做的更明白”。

LingBot-World,則是機(jī)器人的“數(shù)字演練場(chǎng)”。

利用多階段訓(xùn)練和并行加速,LingBot-World可以實(shí)現(xiàn)長(zhǎng)達(dá)近10分鐘的連續(xù)、穩(wěn)定和無損視頻生成,以解決視頻生成中的常見挑戰(zhàn)——“長(zhǎng)時(shí)漂移”,也即長(zhǎng)時(shí)間的生成通常會(huì)出現(xiàn)物體變形、細(xì)節(jié)崩潰、主體消失或場(chǎng)景結(jié)構(gòu)崩潰等現(xiàn)象。

同時(shí),LingBot-World在長(zhǎng)序列一致性、實(shí)時(shí)響應(yīng)性以及對(duì)行動(dòng)和環(huán)境動(dòng)態(tài)之間的因果關(guān)系進(jìn)行建模方面表現(xiàn)出色。這使得它能夠在數(shù)字空間中“想象”物理世界,為人工智能代理提供一個(gè)具有成本效益、高保真環(huán)境,用于試錯(cuò)學(xué)習(xí)。

“機(jī)器人規(guī)?;闹饕璧K不在硬件,而在’反復(fù)訓(xùn)練/再訓(xùn)練(retraining)‘,也就是每做一個(gè)新任務(wù)或換一種機(jī)器人,往往就要重新采數(shù)據(jù)、重新調(diào)參,工程成本很高。這也是機(jī)器人很難從試點(diǎn)走向大規(guī)模部署的原因之一。”

MarkTechPost CEOAsif Razzag表示,螞蟻靈波發(fā)布的一系列模型很有意思,從感知到認(rèn)知,全棧(full-stack)體系,每個(gè)模型互為助力,并且全部開源。

也正是基于這樣的設(shè)計(jì),全面開源的LingBot系列模型,構(gòu)建了具身智能完整的通用基礎(chǔ)設(shè)施,讓開發(fā)者可以按需選用或組合。這種新的研究范式,在降低具身智能研發(fā)門檻的同時(shí),也加速了具身智能從實(shí)驗(yàn)室走向產(chǎn)業(yè)化的進(jìn)程。(文 | 科技潛線,作者 | 饒翔宇 編輯 | 鐘毅)

轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
聲明:文章內(nèi)容僅供參考、交流、學(xué)習(xí)、不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

22:59

以色列一工業(yè)區(qū)遭襲,危險(xiǎn)物質(zhì)泄漏

22:22

海南自由貿(mào)易港民營企業(yè)座談會(huì)舉行

22:12

中國科學(xué)院院士:全固態(tài)電池或至少再等5年

22:11

今年以來逾1370萬人次旅客訪港

22:08

下周(3月30日-4月5日)市場(chǎng)大事預(yù)告

22:06

民調(diào)顯示美國選民對(duì)特朗普“不滿意率”創(chuàng)新高

21:43

納比勒·法赫米將擔(dān)任新一任阿盟秘書長(zhǎng)

21:07

群核科技通過港交所聆訊:2025年實(shí)現(xiàn)盈利,沖刺“全球空間智能第一股”

21:05

油價(jià)飆升埃及多措施節(jié)能,埃及上調(diào)公共交通票價(jià)

21:05

英矽智能與禮來達(dá)成AI藥物研發(fā)合作,交易總值最高可達(dá)27.5億美元

21:04

3月29日新聞聯(lián)播速覽20條

21:01

中國銀河證券:中長(zhǎng)期仍看好科技板塊產(chǎn)業(yè)驅(qū)動(dòng)與周期板塊漲價(jià)線索的雙主線

20:34

大風(fēng)、降水來襲,長(zhǎng)江江蘇段部分區(qū)域?qū)嵤┡R時(shí)交通管制

19:59

國航C919正式投入北京—廈門、北京—哈爾濱兩條航線運(yùn)營

19:57

中鋁國際:2025年歸母凈利潤2.58億元,同比增長(zhǎng)16.47%

19:19

伊朗稱已打擊與美軍工有關(guān)聯(lián)的兩家企業(yè)

18:36

伊朗與巴基斯坦兩國外長(zhǎng)通電話,討論地區(qū)局勢(shì)

18:35

2025年玩具(不含潮玩)國內(nèi)市場(chǎng)零售總額達(dá)1035.3億元

18:08

全國豬價(jià)跌破5元,創(chuàng)歷史新低

18:07

時(shí)代天使2025年實(shí)現(xiàn)收入3.7億美元,同比增長(zhǎng)37.8%

掃描下載App