(圖片來源:智元機(jī)器人)
隨著2022年 AI 聊天機(jī)器人ChatGPT風(fēng)靡全球,“具身智能”和人形機(jī)器人逐漸成為備受矚目的前沿技術(shù)領(lǐng)域。
與傳統(tǒng) AI 相比,“具身智能”更注重通過與環(huán)境的實(shí)時(shí)交互來獲取信息,并基于這些信息進(jìn)行思考、決策和行動(dòng)。同時(shí),“具身智能”還可通過經(jīng)驗(yàn)積累和持續(xù)學(xué)習(xí),提升行動(dòng)和操作技能。
實(shí)際上,“具身智能”和人形機(jī)器人領(lǐng)域近期關(guān)注度頗高,也有很高的市場(chǎng)前景。
公開數(shù)據(jù)顯示,2024年,中國(guó)人形機(jī)器人市場(chǎng)規(guī)模達(dá)到約27.6億元,并有望在2030年成長(zhǎng)為1000億元市場(chǎng),而預(yù)計(jì)到2035年,有望達(dá)到3000億元規(guī)模。截至目前,小米、小鵬、螞蟻等數(shù)十家車企和科技大廠都已入局“具身智能”和人形機(jī)器人賽道。
近期,智元機(jī)器人合伙人、研究院執(zhí)行院長(zhǎng)、具身業(yè)務(wù)部總裁姚卯青對(duì)鈦媒體AGI表示,自動(dòng)駕駛與“具身智能”非常不一樣,嚴(yán)格意義上來講,兩者在底層硬件、框架和軟件還是有復(fù)用的,但 AI 模型、容忍度等層面非常不一樣。
姚卯青畢業(yè)于清華大學(xué)電子工程系,曾在Waymo、蔚來汽車等公司擔(dān)任重要技術(shù)職位,如今,姚卯青擔(dān)任智元合伙人、機(jī)器人Genie業(yè)務(wù)部總裁、具身研究院執(zhí)行院長(zhǎng),承擔(dān)了AI技術(shù)開發(fā)及研發(fā)工作,確保智元在本體基礎(chǔ)上具備強(qiáng)大的軟件能力,能夠始終保持在人形機(jī)器人全球第一梯隊(duì)。
成立于2023年的智元機(jī)器人,是當(dāng)前國(guó)內(nèi)人形機(jī)器人賽道頭部企業(yè)之一,其創(chuàng)始人之一彭志輝是坐擁250多萬粉絲的B站UP主“稚暉君”。
公司成立不到1個(gè)月,智元就完成天使輪融資、年內(nèi)更斬獲4次融資,成立僅6個(gè)月就發(fā)布首款人形機(jī)器人,2024年還發(fā)布五款商用人形機(jī)器人新品,并且去年底開源百萬真實(shí)機(jī)器人數(shù)據(jù)集,以及年初率先達(dá)成1000臺(tái)機(jī)器人量產(chǎn)等,引發(fā)行業(yè)關(guān)注。
如今,智元機(jī)器人共有三條主打產(chǎn)品線,分別是遠(yuǎn)征、Genie和靈犀。預(yù)計(jì)2025下半年,智元機(jī)器人會(huì)發(fā)布一款面向機(jī)器人發(fā)燒友的產(chǎn)品X2。
鈦媒體AGI獨(dú)家獲悉,領(lǐng)先具身智能機(jī)器人公司“智元機(jī)器人”將于3月10日發(fā)布全新的智元具身基座大模型Genie Operator-1 (GO-1)。這將是全球第一個(gè)基于大規(guī)模、高質(zhì)量自有數(shù)據(jù),基于自有機(jī)器人本體訓(xùn)練并部署的第一個(gè)機(jī)器人基座模型。
那么,車企為何要做人形機(jī)器人?未來“具身智能”行業(yè)如何發(fā)展?人形機(jī)器人如何形成生產(chǎn)力價(jià)值?圍繞上述話題,姚卯青近期與鈦媒體AGI展開深度對(duì)話。
在姚卯青看來,機(jī)器人和“具身智能”技術(shù)需要真機(jī)訓(xùn)練場(chǎng),并且必須要結(jié)合強(qiáng)化學(xué)習(xí)、大模型等技術(shù)能力,從而提升整個(gè)人形機(jī)器人軟硬件技術(shù)發(fā)展。
事實(shí)上,DeepSeek熱潮之前,智元團(tuán)隊(duì)就已經(jīng)開始做強(qiáng)化學(xué)習(xí),也是全球可能唯一在真機(jī)強(qiáng)化學(xué)習(xí)上面做通的團(tuán)隊(duì)。“真實(shí)世界價(jià)值是最高的。”
姚卯青對(duì)鈦媒體AGI表示,利用 AI 大模型,能夠助力機(jī)器人操作上手能力,從而加速進(jìn)入工廠、零售、服務(wù)業(yè)等場(chǎng)景工作,長(zhǎng)期還能進(jìn)入家庭。“這才是機(jī)器人價(jià)值被充分發(fā)揮的時(shí)刻。”
談到最受關(guān)注的9.9萬元機(jī)器人話題,姚卯青指出,9萬9的機(jī)器人只具備基礎(chǔ)運(yùn)動(dòng)能力,在本體、硬件、算法都還沒有收斂的情況下,大家急著“卷”價(jià)格戰(zhàn),沒有什么意義。因此,姚卯青呼吁人形機(jī)器人產(chǎn)業(yè)需要看產(chǎn)品競(jìng)爭(zhēng)力,如果都達(dá)不到給用戶創(chuàng)造價(jià)值的時(shí)候打9.9萬元,只會(huì)把整個(gè)行業(yè)變成一個(gè)很不健康的狀態(tài)。
姚卯青強(qiáng)調(diào),未來1-2年,人形機(jī)器人能夠在局部工業(yè)場(chǎng)景應(yīng)用落地,機(jī)器人走進(jìn)家庭還需要5年左右的時(shí)間。此外,機(jī)器人實(shí)現(xiàn)像人一樣有通用能力的物理世界AGI(通用人工智能)還需要5-10年時(shí)間。
![]()
智元合伙人、智元機(jī)器人研究院執(zhí)行院長(zhǎng)、具身業(yè)務(wù)部總裁姚卯青
鈦媒體AGI:現(xiàn)在智元機(jī)器人主要有三條業(yè)務(wù)線遠(yuǎn)征、Genie和靈犀,所以內(nèi)部是怎么分配業(yè)務(wù)的?
姚卯青:我們現(xiàn)在有三個(gè)產(chǎn)品線,一是雙足機(jī)器人,一是輪式雙臂機(jī)器人,還有一個(gè)是新成立的小的機(jī)器人,只有1米3左右。面對(duì)商用場(chǎng)景的雙足人形機(jī)器人遠(yuǎn)征A2系列;輪式雙臂Genie,主要是面向通用具身操作的輪式雙臂機(jī)器人G1,這些產(chǎn)品都在對(duì)外售賣。此外,還有一條用于拓展家用場(chǎng)景、科研及極客的小型人形機(jī)器人靈犀產(chǎn)品線,我們的商城也在售賣。
鈦媒體AGI:上次我和智元的交流是“機(jī)器人0元購”時(shí)期,當(dāng)時(shí)稚暉君發(fā)布智元5款商用人形機(jī)器人,并且透露2024年人形機(jī)器人超過200臺(tái)左右。那么到了2025年,智元新的規(guī)劃是什么?
姚卯青:去年我們已經(jīng)超額完成,1月6日已經(jīng)下線1000臺(tái)。今年公司目標(biāo)是10倍營(yíng)收。因?yàn)槭窃?024年10月開始量產(chǎn)交付,而今年時(shí)間更長(zhǎng),另外本身有新的市場(chǎng)和新的產(chǎn)品擴(kuò)展,所以今年我們目標(biāo)更大。
鈦媒體AGI:近期,特斯拉、小鵬、小米等多家自動(dòng)駕駛、新能源車公司都計(jì)劃或正在做“具身智能”以及人形機(jī)器人,您如何看待這個(gè)趨勢(shì)?
姚卯青:這主要是資本原因。目前新能源汽車競(jìng)爭(zhēng)慘烈,已經(jīng)過了高速增長(zhǎng)期,而當(dāng)下“具身智能”大模型又很火的話,會(huì)成為資本追逐的新一個(gè)風(fēng)口。
實(shí)際上,馬斯克的特斯拉也很重視“機(jī)器人”,因?yàn)槟憧刺厮估氖杏?,是豐田、大眾的幾十倍,但特斯拉和豐田的毛利率相當(dāng)。豐田一年賣1000萬輛車,特斯拉賣不到兩百萬輛車,而且已經(jīng)停止增長(zhǎng)了,那么他怎么辦?所以他(馬斯克)就說叫做“具身智能”。
當(dāng)然,我覺得特斯拉確實(shí)是在做“具身智能”的,行業(yè)內(nèi)自然會(huì)有“跟風(fēng)”,特斯拉都轉(zhuǎn)型了,這些車企肯定也要轉(zhuǎn)型。但是,我覺得這也不是沒有道理,因?yàn)?ldquo;具身智能”與車的很多底層工程能力、軟件、制造供應(yīng)鏈等都是有很多互通的地方。所以,做車的人/企業(yè)來做“具身智能”是更合適的。
所以,我其實(shí)是比較敬畏這些從車企轉(zhuǎn)型做機(jī)器人的“玩家”。
鈦媒體AGI:無論是Waymo,還是其他自動(dòng)駕駛公司,大家之前目標(biāo)都是做L4,當(dāng)前卻只能是L2+,這是否也是大家轉(zhuǎn)向“具身智能”的原因之一?
姚卯青:對(duì),現(xiàn)在來講,L4、L5離商業(yè)化還是比較遠(yuǎn)、比較難的。
包括Waymo在舊金山落地,雖然市場(chǎng)份額還不錯(cuò),能超過當(dāng)?shù)氐诙蟮拇蜍嚬荆亲屑?xì)想,那也只是在舊金山,而舊金山太小了,只有上海的2%的面積和人口,路況也相對(duì)有規(guī)律。但Robotaxi在中國(guó)大面積商業(yè)化其實(shí)是很難的,因?yàn)樗蕾嚫呔貓D,你只能在很小的區(qū)域內(nèi),才有可能每天實(shí)時(shí)維護(hù)地圖上每一個(gè)微小的變化。
一旦自動(dòng)駕駛沒有地域限制放開了,甚至是一個(gè)有限制的大城市,幾乎在中國(guó)這種大城市幾乎都是不可能的。
所以,(實(shí)現(xiàn)L5自動(dòng)駕駛)主要問題就是,最終肯定是依賴單車智能,一方面,單車智能達(dá)不到這么高的一個(gè)程度;其次,即使當(dāng)前單車智能能達(dá)到一個(gè)不錯(cuò)的效果,但Robotaxi成本不可控,它必須依賴高精地圖、依賴激光雷達(dá)、依賴高算力等。當(dāng)然,特斯拉稱只做純視覺,不依賴地圖與激光雷達(dá),不過其自動(dòng)駕駛還達(dá)不到完全類人水平,可能行駛幾公里到幾十公里就需人工接管一次。國(guó)內(nèi)不少同類產(chǎn)品在城市中行駛幾公里便要接管,如此看來,使用體驗(yàn)還不如用戶自己開車。
那就是說,(自動(dòng)駕駛)商業(yè)上并未完全商業(yè)閉環(huán),收費(fèi)的話那就更差得遠(yuǎn)了,市場(chǎng)需要成本低、體驗(yàn)好、不用接管的自動(dòng)駕駛技術(shù),都做到還比較難。
鈦媒體AGI:現(xiàn)在您對(duì)哪款輔助駕駛系統(tǒng)比較滿意?
姚卯青:我開的是特斯拉的。我認(rèn)為,特斯拉跟國(guó)內(nèi)還是體驗(yàn)上有不同的,就是從擬人性這個(gè)角度來講,它是對(duì)人的,所以感覺上它上限好像比較高,但是確實(shí)可能有一些所謂水土不服的原因,目前下限也比較低。比如,特斯拉輔助駕駛會(huì)像人也一樣“壓線”,它也如此,但是很多地方又做的不那么嚴(yán)謹(jǐn)?shù)囊粋€(gè)系統(tǒng)。大多國(guó)內(nèi)輔助駕駛方案,我理解還是偏向上一代系統(tǒng),“大模型端到端”還是偽概念,主要還都是后處理,也談不上billion參數(shù)大模型了,都屬于傳統(tǒng)CV、在訓(xùn)練集分布上過擬合的小模型。
鈦媒體AGI:之前您說具身智能并非“新瓶裝舊酒”,其為傳統(tǒng)機(jī)器人注入了新的生命力,那么,在您看來,具身智能對(duì)于自動(dòng)駕駛是“新瓶裝舊酒”嗎?
姚卯青:自動(dòng)駕駛與“具身智能”應(yīng)該還是非常不一樣的,兩個(gè)產(chǎn)品和技術(shù)都可能不是一個(gè)“瓶子”了。
大家會(huì)說,自動(dòng)駕駛是“具身智能”的一種形態(tài),但其實(shí)嚴(yán)格意義上來講,自動(dòng)駕駛與“具身智能”在 AI 模型這一塊基本不一樣,底層硬件、框架和軟件還是有復(fù)用的,但模型角度來講,非常不一樣。
比如,車的硬件只有兩個(gè)自由度,而且在2D平面上運(yùn)作,但機(jī)器人動(dòng)輒幾十個(gè)自由度,存在于3D空間中;然后車是嚴(yán)禁接觸的,機(jī)器人是必須接觸的。
此外,安全性層面,高速動(dòng)態(tài)場(chǎng)景下,車對(duì)錯(cuò)誤的容忍度非常低,因?yàn)榘踩蜕墙^對(duì)不能妥協(xié)的,自動(dòng)駕駛不可能上帶幻覺的 AI 大模型,必須是小模型過擬合再加一堆后處理,導(dǎo)致它用傳統(tǒng) AI+規(guī)則實(shí)際落地。但機(jī)器人不太一樣,你還沒有在非常危險(xiǎn)的一些場(chǎng)景大規(guī)模落地,更多可能在一些靜態(tài)的場(chǎng)景,甚至是無人工廠里,他可以去容忍錯(cuò)誤,也可以容忍較為長(zhǎng)的這種推理,但車的控制要達(dá)到50赫茲的這種物理頻率控制,導(dǎo)致這個(gè)模型不可能去推理一次幾秒鐘,機(jī)器人不一樣,它還是一個(gè)低速狀態(tài),對(duì)于響應(yīng)速度有時(shí)候沒有那么苛刻,因此它確實(shí)需要用大模型來達(dá)到一個(gè)更高的上限。
所以,車上的都是上一代 AI 1.0機(jī)器視覺和感知,幾百萬、幾千萬參數(shù)規(guī)模,而機(jī)器人是真正的大模型,數(shù)十億參數(shù)上去,經(jīng)過互聯(lián)網(wǎng)數(shù)據(jù)預(yù)訓(xùn)練的這種視覺語言大模型,它具備了整個(gè)基礎(chǔ)的通用推理認(rèn)知,還有一些規(guī)劃和糾錯(cuò)能力。
鈦媒體AGI:這一輪 AI 熱潮中,清華系占據(jù)一大部分。您怎么看待很多清華人在 AI 領(lǐng)域的表現(xiàn)?
姚卯青:清華是理工科最強(qiáng)的學(xué)校,而且又有像姚期智老師這樣的世界頂級(jí)學(xué)者坐鎮(zhèn),有很好的土壤。至少從海外回來的一些頂尖的人才回國(guó)從事教職,我覺得清華肯定還是他們的首選之一。
鈦媒體AGI:上一次我見到您還是在智元機(jī)器人和階躍星辰的合作上,能否簡(jiǎn)單聊聊你們的合作細(xì)節(jié)?
姚卯青:那天是剛剛開始一個(gè)簡(jiǎn)單的簽約合作儀式,雙方更多合作細(xì)節(jié)還在探討過程中。目前我們可以看到的是,階躍星辰確實(shí)有國(guó)內(nèi)一線的這種文本模型以及多模態(tài)大模型的能力,比如他們現(xiàn)在的文本推理模型可以媲美DeepSeek-R1的效果。
不過,推理模型現(xiàn)在很多都是文本,對(duì)機(jī)器人來講其實(shí)是沒什么用的。因?yàn)闄C(jī)器人是需要多模態(tài)的,它需要有視覺的輸入,要在有視覺又有語言指令的情況下,再去理解空間,再去規(guī)劃任務(wù),甚至規(guī)劃一些動(dòng)作軌跡等,那個(gè)是跟文本還挺不一樣的,不是一個(gè)純邏輯思維。因此,我們比較期待他們即將發(fā)布的視覺推理模型,這應(yīng)該是國(guó)內(nèi)目前為數(shù)不多有多模態(tài)的這種視覺推理能力的,對(duì)于機(jī)器人復(fù)雜規(guī)劃的大腦是很重要的。
鈦媒體AGI:目前瞄向AGI主要有兩派,一是先做語言模型-視覺理解模型-再到AGI;另一種像李飛飛提出的“空間智能”,或者是所謂“世界模型”,再到AGI,您覺得哪條路比較可行?
姚卯青:李飛飛團(tuán)隊(duì)的“空間智能”,其實(shí)跟“具身智能”還沒有特別直接的關(guān)聯(lián)。她們還是屬于3D重建類型,沒有很硬核地做機(jī)器人應(yīng)用,有一些家裝、設(shè)計(jì)等純3D重建一類。真正的“空間智能”其實(shí)是要能夠去生成式預(yù)測(cè)未來,而不僅僅是預(yù)測(cè)視頻這類2D畫面,應(yīng)該能夠預(yù)測(cè)機(jī)器人的動(dòng)作軌跡、3D的動(dòng)作軌跡且生成之后,根據(jù)周圍的環(huán)境和機(jī)器人交互所發(fā)生的自查,符合物理規(guī)律的變化,這個(gè)是非常難的。
我們?cè)诮衲?月初發(fā)表了一篇EnerVerse的論文,就是機(jī)器人的世界模型。同時(shí),NVIDIA Cosmos目前也在使用我們的數(shù)據(jù)集讓它變得更能理解機(jī)器人和物理規(guī)律。
我們這次發(fā)布的基座模型,其實(shí)跟世界模型還不太一樣,它更多是VLA(Vision Language Action),但它不是一個(gè)簡(jiǎn)單的VLA,還是有很多感知、動(dòng)作、視覺等新的技術(shù)和模型能力。
(注:今年1月,智元機(jī)器人團(tuán)隊(duì)提出了EnerVerse架構(gòu),通過自回歸擴(kuò)散模型(autoregressive diffusion),在生成未來具身空間的同時(shí)引導(dǎo)機(jī)器人完成復(fù)雜任務(wù)。不同于現(xiàn)有方法簡(jiǎn)單應(yīng)用視頻生成模型,EnerVerse 深度結(jié)合具身任務(wù)需求,創(chuàng)新性地引入稀疏記憶機(jī)制與自由錨定視角(FAV),在提升 4D 生成能力的同時(shí),實(shí)現(xiàn)了動(dòng)作規(guī)劃性能的顯著突破。實(shí)驗(yàn)結(jié)果表明,EnerVerse不僅具備卓越的未來空間生成能力,更在機(jī)器人動(dòng)作規(guī)劃任務(wù)中實(shí)現(xiàn)了當(dāng)前最優(yōu)(SOTA)表現(xiàn)。論文地址:https://arxiv.org/abs/2501.01895)
鈦媒體AGI:目前很多人形機(jī)器人其實(shí)只是在做擺手、翻跟頭、疊衣服等動(dòng)作和展示,這種能力是不是有點(diǎn)局限,或者說人形機(jī)器人應(yīng)該不是這樣這么簡(jiǎn)單的,您怎么看?
姚卯青:我覺得,您的觀點(diǎn)是完全正確的。就機(jī)器人只會(huì)這些的話,其實(shí)更多還是娛樂,它沒有產(chǎn)生這種生產(chǎn)力價(jià)值,你就只會(huì)跑跳翻跟斗,他對(duì)你的生活有什么幫助?所以更核心的還是,一定是有AI大模型,能夠給機(jī)器人帶來這種操作上手能力,它可以進(jìn)工廠作業(yè),也可以在零售、服務(wù)業(yè)里面作業(yè),長(zhǎng)期來說,它可能還會(huì)進(jìn)入家庭作業(yè),只有真正能夠去做事情,我覺得才是機(jī)器人價(jià)值被充分發(fā)揮的時(shí)刻。
鈦媒體AGI:今年春晚上的“人形機(jī)器人”,其實(shí)是沒有靈巧手的,本身只是一個(gè)電機(jī)和結(jié)構(gòu)件的旋轉(zhuǎn),那么您認(rèn)為,“靈巧手”還有很高的價(jià)值嗎?
姚卯青:我認(rèn)為,毋庸置疑(靈巧手)是非常重要的。人很多的勞動(dòng)能力,區(qū)別于一些動(dòng)物的勞動(dòng)能力價(jià)值,其實(shí)大部分都在我們的雙臂、雙手上。而機(jī)器人“靈巧”操作,需要一個(gè)高自由度的五指靈巧手,而且這個(gè)靈巧手要帶很多力覺反饋、觸覺反饋以及力矩控制,因?yàn)槭直容^精細(xì),你要很精細(xì)地能夠去控制它的一些力矩等,它不會(huì)把東西捏破。
市面上的靈巧手現(xiàn)在依舊還算早期,離我們想象中的靈巧手還有很大的距離。人的手有二十多個(gè)自由度,但現(xiàn)在市面上已經(jīng)量產(chǎn)的靈巧手還沒有達(dá)到人類的水平,每個(gè)手指只能有一個(gè)關(guān)節(jié)是主動(dòng)彎曲的,往手掌心這樣彎曲,它沒有側(cè)邊的側(cè)擺,也沒有旋轉(zhuǎn)這種。所以,手部功能的局限性會(huì)制約未來人形機(jī)器人性能的發(fā)揮。
鈦媒體AGI:有些客戶反饋,某些場(chǎng)景下,人形機(jī)器人的效率還不如人直接拿和放的效率,您怎么看?
姚卯青:有些機(jī)器人確實(shí)是這樣,它終究還是在做抓、放這一個(gè)動(dòng)作,這也是為什么可以在仿真里面玩。因?yàn)樽ヒ恍﹦傂缘奈矬w,它動(dòng)力學(xué)比較直觀,可以被仿真,但它到現(xiàn)在還是在做抓放,而且做的都是現(xiàn)在一些常見的VLA的模仿學(xué)習(xí)。
但當(dāng)機(jī)器人最終要進(jìn)入工廠應(yīng)用時(shí),會(huì)面臨諸多現(xiàn)實(shí)問題。在工廠環(huán)境中,機(jī)器人的操作成功率和工作節(jié)拍必須與人類相當(dāng),說實(shí)話,僅靠 “模仿學(xué)習(xí)” 根本無法達(dá)到這樣的效果。因此,機(jī)器人必須結(jié)合強(qiáng)化學(xué)習(xí)技術(shù),然而目前這仍是一道較高的技術(shù)門檻,并非所有團(tuán)隊(duì)都有能力開展。所以,我們計(jì)劃將模仿學(xué)習(xí)與強(qiáng)化學(xué)習(xí)相結(jié)合。
在DeepSeek熱潮之前,我們便已著手強(qiáng)化學(xué)習(xí)方面的研究,并且組建了一支在真機(jī)強(qiáng)化學(xué)習(xí)領(lǐng)域極為專業(yè)的專家團(tuán)隊(duì) 。
鈦媒體AGI:正如您所講,最近行業(yè)里比較熱的話題是真機(jī)“訓(xùn)練場(chǎng)”。相比其他公司,智元在臨港等地有專門的訓(xùn)練場(chǎng),但很多企業(yè)偏向于模擬仿真,那么您認(rèn)為,“訓(xùn)練場(chǎng)”是否真的很重要?
姚卯青:我覺得,真機(jī)訓(xùn)練永遠(yuǎn)是最重要的,這也是為什么美國(guó)的機(jī)器人公司很強(qiáng)調(diào)真機(jī)數(shù)據(jù)。同時(shí),包括自動(dòng)駕駛公司也主要用實(shí)車數(shù)據(jù)開發(fā)。
道理很簡(jiǎn)單,從仿真器到真實(shí)世界,這之間還是有很多gap。仿真能模擬很多物理現(xiàn)象,但也很難精確模擬的一些方面,柔性物體接觸、摩擦力等,這個(gè)是很難精確建模的。你像疊衣服這么一件簡(jiǎn)單的事,就很難模擬,所以肯定是真實(shí)世界價(jià)值是最高的,但真實(shí)數(shù)據(jù)的成本也確實(shí)更高。
鈦媒體AGI:您認(rèn)為現(xiàn)階段中國(guó)的人形機(jī)器人跟國(guó)外先進(jìn)的人形機(jī)器人,如特斯拉的擎天柱相比,是否有差距?
姚卯青:從硬件和算法兩個(gè)角度來講,我認(rèn)為沒什么差距。因?yàn)樘厮估娜诵螜C(jī)器人供應(yīng)鏈也離不開中國(guó)企業(yè)的支持。
如果要實(shí)現(xiàn)馬斯克所說的一個(gè)人形機(jī)器人2萬美元,約合人民幣15萬元的成本,就必須依靠中國(guó)的供應(yīng)鏈體系,這是毋庸置疑的。而且特斯拉新能源汽車量產(chǎn)成功也已經(jīng)證明了中國(guó)供應(yīng)鏈的實(shí)力。特斯拉的高速發(fā)展離不開中國(guó)完備的新能源汽車供應(yīng)鏈和現(xiàn)代化生產(chǎn)制造體系。
從具身算法的模型設(shè)計(jì)以及最終呈現(xiàn)的效果來看,目前海外的機(jī)器人以及我們自主研發(fā)的機(jī)器人和相關(guān)模型,在這方面并沒有顯著的差異。
鈦媒體AGI:波士頓動(dòng)力創(chuàng)始人Marc Raibert去年表示,大部分人形機(jī)器人都是“炫耀”而非生產(chǎn)力,尤其是商業(yè)化盈利階段,您怎么看這個(gè)說法?
姚卯青:確實(shí)還沒有,但是今年我們希望落地的幾個(gè)場(chǎng)景,希望第一個(gè)能夠真正做到這樣的(實(shí)現(xiàn)生產(chǎn)力的智能機(jī)器人)公司,尤其我們?cè)诠I(yè)場(chǎng)景、部分商用場(chǎng)景其實(shí)都有一些布局。
鈦媒體AGI:近期高盛發(fā)布研報(bào)指出,全球人形機(jī)器人的放量步伐將慢于市場(chǎng)預(yù)期,您認(rèn)為這個(gè)預(yù)測(cè)有道理嗎?
姚卯青:看這個(gè)市場(chǎng)預(yù)期怎么定義,馬斯克說明年幾十萬臺(tái)規(guī)模,確實(shí)是稍微激進(jìn)了一些,單一企業(yè)年出貨量超過萬臺(tái)是一個(gè)有機(jī)會(huì)達(dá)到的狀態(tài)。我們1月的1000臺(tái)下線是一個(gè)里程碑,在市場(chǎng)能力、制造能力都有比較大挑戰(zhàn)下做到,并沒有那么容易,因?yàn)檫@個(gè)行業(yè)還比較新,要達(dá)到一個(gè)月100臺(tái)的產(chǎn)能其實(shí)不容易。
鈦媒體AGI:去年一整年行業(yè)最關(guān)心的是“9萬9”機(jī)器人,事實(shí)上,人形機(jī)器人有高昂的研發(fā)成本和生產(chǎn)成本,那么您認(rèn)為,這種低價(jià)戰(zhàn)略對(duì)于市場(chǎng)是一件好事,還是壞事?
姚卯青:這是一個(gè)非常好的問題。我覺得,9萬9的機(jī)器人更多是比較吸引眼球。實(shí)際上,可開發(fā)版本的費(fèi)用大約20多萬到50萬左右,并不便宜。
其次,我覺得這個(gè)階段大家何必一上來連蛋糕都還沒有做出來,就開始急著“卷”價(jià)格戰(zhàn),大家連本體、硬件、算法等都還沒有收斂的情況下就開始價(jià)格戰(zhàn),這個(gè)其實(shí)沒什么意義。
所以,更主要的還是要看產(chǎn)品的競(jìng)爭(zhēng)力,你的智能化程度,你的硬件的成熟度,但如果說都達(dá)不到給用戶創(chuàng)造價(jià)值的時(shí)候,你就光去打9萬9,只會(huì)把這個(gè)市場(chǎng)變成一個(gè)很不健康的狀態(tài)。
鈦媒體AGI:現(xiàn)在人形機(jī)器人還是在工業(yè)環(huán)境,您覺得需要多長(zhǎng)時(shí)間能夠進(jìn)入家庭過程當(dāng)中?
姚卯青:我們的目標(biāo)是,今年能真正在1、2個(gè)工業(yè)場(chǎng)景去落地,所謂落地,是說客戶可以真正放心的把它像用工人一樣去用,成本上是可以接受,并且能夠提升產(chǎn)能。未來一兩年,我覺得能有一些局部應(yīng)用落地,走入家庭,我個(gè)人覺得還需要5年左右時(shí)間,因?yàn)榧彝キh(huán)境比較復(fù)雜,家庭操作一些物體也不太一樣,任務(wù)比較開放式一些。
鈦媒體AGI:在您看來,AGI(通用人工智能)到底是什么?行業(yè)如何正確走向AGI?
姚卯青:如今數(shù)字世界的大模型,現(xiàn)在已經(jīng)可以算是AGI了,它可以回答你所有的問題,可以幫你去總結(jié),甚至規(guī)劃,以及回答最難的奧數(shù)題,它能夠部分超越人類水平,比如o3拿下了IOI 2024金牌。
但是,物理智能世界的AGI,就是能夠在物理實(shí)踐里面像人一樣有通用能力的AGI,還需要5-10年比較長(zhǎng)的時(shí)間。
一方面,數(shù)字智能能夠遷移到物理智能去理解我們的世界,然后去規(guī)劃動(dòng)作,而且要成功、閉環(huán)、準(zhǔn)確;另一方面,整個(gè)大模型和硬件需要更安全、更輕量、更靈巧,需要更成熟的機(jī)器人本體、靈巧手,也許還有5-10年時(shí)間。我相信,物理世界的AGI也是可以存在的。
(本文首發(fā)于鈦媒體App,作者|林志佳)
![]()
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論
就是這個(gè)不好,蜂擁而上