商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、大曉機(jī)器人董事長(zhǎng)王曉剛
具身智能一直仰仗的VLA技術(shù)線路,在實(shí)際開發(fā)過程中正在面臨越來(lái)越多的挑戰(zhàn)。
所謂VLA模型,即視覺-語(yǔ)言-動(dòng)作模型。它的技術(shù)邏輯可以簡(jiǎn)單描述為,將人類指令和外界多模態(tài)信息(聲音、圖像、視頻)轉(zhuǎn)化為計(jì)算機(jī)語(yǔ)言,繼而控制機(jī)器人行為。
但在VLA模型的訓(xùn)練中,互聯(lián)網(wǎng)上的靜態(tài)、非結(jié)構(gòu)化文本和圖像數(shù)據(jù),并不是訓(xùn)練所需的核心數(shù)據(jù)。訓(xùn)練VLA模型需要的具身智能數(shù)據(jù),是連續(xù)的、動(dòng)態(tài)的、三維甚至四維的時(shí)空軌跡流。而物理世界數(shù)據(jù)的稀缺與復(fù)雜性,成為了制約VLA模型能力躍升的主要瓶頸。
“具身智能的大腦,靠讀文章、看圖片永遠(yuǎn)不可能理解真實(shí)的物理世界。”
商湯科技聯(lián)合創(chuàng)始人、執(zhí)行董事、大曉機(jī)器人董事長(zhǎng)王曉剛對(duì)筆者表示,AI的研究范式,要從以機(jī)器為中心轉(zhuǎn)變成以人為中心,通過采集人類的真實(shí)行為數(shù)據(jù),學(xué)習(xí)真實(shí)的物理規(guī)律,去訓(xùn)練具身智能的世界模型。
12月18日,基于“以人為中心”的研究路徑,大曉機(jī)器人推出了ACE具身研發(fā)范式。
具體來(lái)講,ACE范式就是以人類與物理世界的互動(dòng)規(guī)律作為研究起點(diǎn),以環(huán)境式數(shù)據(jù)采集為引擎,構(gòu)建了一套從“環(huán)境式數(shù)據(jù)采集—開悟世界模型3.0—具身交互”的技術(shù)體系。
在環(huán)境式數(shù)據(jù)采集中,通過整合第一視角與第三視角視頻、力觸覺信息、運(yùn)動(dòng)軌跡、語(yǔ)音等多模態(tài)數(shù)據(jù),構(gòu)建基于物理基礎(chǔ)的3D資產(chǎn)庫(kù)。
在數(shù)據(jù)處理環(huán)節(jié),通過時(shí)序一致性對(duì)齊、交互動(dòng)態(tài)軌跡預(yù)測(cè)建模與物理正確性仿真校正,將采集到的“人—物—場(chǎng)”信息轉(zhuǎn)化為可直接用于模型訓(xùn)練的動(dòng)態(tài)場(chǎng)景數(shù)據(jù)。
![]()
同時(shí),以環(huán)境式采集數(shù)據(jù)為基,大曉機(jī)器人發(fā)布了首個(gè)開源且商業(yè)化應(yīng)用的世界模型——開悟世界模型3.0,形成跨本體的統(tǒng)一世界理解框架,融合物理規(guī)律、人類行為和真機(jī)動(dòng)作,使機(jī)器不僅能“理解”物理世界因果規(guī)律,還能“生成”長(zhǎng)時(shí)動(dòng)靜態(tài)交互場(chǎng)景。
“在跟物理世界的交互過程中產(chǎn)生智能,這也是世界模型存在的價(jià)值。”
王曉剛對(duì)筆者表示,至于模型能否覆蓋更多的場(chǎng)景以及人類的更多的動(dòng)作,這則是大曉機(jī)器人的目標(biāo)。實(shí)現(xiàn)這一切核心的關(guān)鍵是,ACE范式能否實(shí)現(xiàn)更大范圍的快速擴(kuò)展,讓更多的廠商和開發(fā)者使用這種方式采集數(shù)據(jù),產(chǎn)生回流。
為了讓ACE范式實(shí)現(xiàn)更大范圍內(nèi)的適用,大曉機(jī)器人宣布“開悟世界模型3.0”面向全行業(yè)開源。
據(jù)介紹,開悟具身智能世界模型產(chǎn)品平臺(tái)集成了多模態(tài)生成能力,內(nèi)置支持11大類、54細(xì)類,累計(jì)328個(gè)標(biāo)簽,覆蓋115個(gè)垂類具身場(chǎng)景,開發(fā)者只需輸入簡(jiǎn)單指令,就能快速生成可視化的任務(wù)模擬內(nèi)容,以此降低具身智能的開發(fā)門檻。
在具身本體領(lǐng)域,大曉機(jī)器人已攜手智元機(jī)器人、銀河通用、鈦虎機(jī)器人、國(guó)地中心等多家具身智能企業(yè),打通ACE技術(shù)范式、世界模型與機(jī)器人硬件的適配鏈路,共同打造適用于不同場(chǎng)景的解決方案。
在算力側(cè),開悟世界模型3.0則與沐曦、壁仞科技、中科曙光、輝曦智能、影微創(chuàng)新等多款國(guó)產(chǎn)廠商芯片完成適配。
硬件領(lǐng)域,大曉機(jī)器人與Insta360、臥龍電驅(qū)、帕西尼等深度綁定,依托硬件廠商的感知等各類硬件,強(qiáng)化世界模型、模組產(chǎn)品對(duì)多視角、動(dòng)態(tài)場(chǎng)景的信息采集能力。
而在具身智能產(chǎn)品的落地節(jié)奏上,王曉剛則認(rèn)為:
短期內(nèi),以具備自主導(dǎo)航能力的四足機(jī)器狗為主,在安防、巡檢等B端場(chǎng)景快速推廣;中期,機(jī)器人會(huì)聚焦前置倉(cāng)、閃購(gòu)倉(cāng)等物流場(chǎng)景,解決人力密集型作業(yè)痛點(diǎn);長(zhǎng)期來(lái)看,機(jī)器人將探索家庭場(chǎng)景,但需解決安全性、責(zé)任界定等復(fù)雜問題。
“從明年開始,國(guó)內(nèi)將出現(xiàn)大量前置倉(cāng)與閃購(gòu)倉(cāng),這類場(chǎng)景需要大量人力支持7×24小時(shí)服務(wù),而機(jī)器人的加入不僅能提升生產(chǎn)效率,還具備較強(qiáng)的可復(fù)制性,能夠充分發(fā)揮其在這類環(huán)境中的優(yōu)勢(shì)。”
王曉剛表示,“以人為中心”的ACE范式,大方向是正確的,特斯拉、Figure AI等企業(yè),也在朝著這個(gè)方向轉(zhuǎn)變。“這個(gè)賽道還沒到收斂階段,仍在不斷涌現(xiàn)新的機(jī)會(huì)點(diǎn),接下來(lái)的一到兩年會(huì)是非常關(guān)鍵的時(shí)期。”(作者 | 科技潛線,文 | 饒翔宇 編輯 | 鐘毅)
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論