更深刻的變革發(fā)生在光影背后的工廠車間。
2026年初,智元機器人宣布累計下線突破5000臺,并向數(shù)萬臺年度目標沖刺,其"遠征"系列已在汽車制造與精密電子生產(chǎn)線上累計工作超100萬小時;
優(yōu)必選提出1萬臺工業(yè)級機器人的產(chǎn)能規(guī)劃,并與空中客車簽署戰(zhàn)略協(xié)議,Walker S2正式入駐制造工廠,開始挑戰(zhàn)航空級精密裝配;
星動紀元聯(lián)手順豐科技,在極高頻次的倉儲中轉(zhuǎn)環(huán)節(jié)推進規(guī)?;涞?,將“足式+輪式”的優(yōu)勢轉(zhuǎn)化為物流效率。
產(chǎn)業(yè)熱度迅速外溢到資本市場。魔法原子聯(lián)合創(chuàng)始人顧詩韜透露,公司最快可能在2026年在二級市場有新消息,正按照最快速度排上市時間表。已完成股改的樂聚智能和云深處科技也已正式啟動上市流程。
美團、阿里、京東、騰訊等互聯(lián)網(wǎng)巨頭在2024年瘋狂布局大模型后,也在2025年集體"殺入"具身智能賽道,以寧德時代、汽車主機廠為代表的先進制造與產(chǎn)業(yè)巨頭,亦有押注……
從實驗室Demo到工廠訂單,從資本敘事到商業(yè)兌現(xiàn),具身智能似乎已邁過技術(shù)驗證的生死線,全速沖向規(guī)模化量產(chǎn)前夜。
圖片來源:銀河通用機器人微信公眾號
政策東風也從宏觀引導轉(zhuǎn)向了精準入場,25年年底,工信部等四部門發(fā)布的《汽車行業(yè)數(shù)字化轉(zhuǎn)型實施方案》明確提出推動智能機器人在焊接、噴涂、總裝等環(huán)節(jié)規(guī)?;瘧?,并打造"具身智能示范產(chǎn)線"。
然而,理想與現(xiàn)實之間卻橫亙著一道深溝。國家地方共建人形機器人創(chuàng)新中心的首席科學家江磊坦言,行業(yè)目前更像是在做“消費級產(chǎn)品儲備”,年產(chǎn)量不敢超過一萬臺,因為“產(chǎn)太多沒有用途、售后壓力也會非常大”。
銀河通用創(chuàng)始人王鶴更是直言不諱地指出,全球今天真正運行在人類工作場景里的機器人,可能還不到1000臺。
國外特斯拉Optimus V3雖然確定于今年Q1發(fā)布,并喊出年底10萬臺、遠期100萬臺的宏偉產(chǎn)能,目標售價直指2萬美元,但其時間表已較原計劃推遲了約8個月。
22自由度靈巧手在極限工況下的量產(chǎn)穩(wěn)定性,以及高功率作業(yè)時的液冷散熱工程化難題是核心瓶頸。
資本的狂歡與產(chǎn)業(yè)的焦灼交織并行,這種“撕裂”除了有因春晚舞臺秀激發(fā)的輿論破圈,還在于具身智能在硬件、算法乃至商業(yè)化路徑選擇上都充滿了"非共識"。
所謂具身智能,就是給機器一個“身體”和一個“大腦”:讓它通過傳感器真實地感知物理世界,再用大模型等算法理解環(huán)境、規(guī)劃動作,驅(qū)動關(guān)節(jié)和電機去完成任務。通俗理解,就是讓機器人像人一樣“看得見、聽得懂、能動手”。
如果把它抽象為"有身體的AI操作系統(tǒng)",最底層是硬件本體,負責讓機器“動起來”;往上一層是算法大腦,決定它“如何思考”;再往上是環(huán)境感知,讓它學會“看清世界、感受自己”;最后是商業(yè)化運維,關(guān)心機器人能不能在現(xiàn)實世界里“活下去,并賺到錢”。
在"要造一具什么樣的身體"這件事上,行業(yè)目前就有三條路線。
優(yōu)必選、智元致力于用“工業(yè)精密主義”定義機器人的骨架。它們通過全棧自研核心伺服系統(tǒng)與精密減速器,追求的是在汽車制造或精密電子生產(chǎn)線上實現(xiàn)長周期的穩(wěn)定作業(yè)。用物理層面的可靠性,換取工業(yè)場景對“硅基勞動力”的深度信任。
宇樹科技、松延動力、眾擎充分利用本土供應鏈的規(guī)模效應,在“性能與性價比”上尋求突破,并成功將整機成本從百萬元級引導至十萬元甚至幾萬,降低門檻,吸引海量的開發(fā)者與極客群體,先在非標場景中沉淀生態(tài)。
圖片來源:松延動力微信公眾號,圖為“小頑童N2”與CES參展人員握手
而銀河通用和云深處則想證明“人形”并非物理作業(yè)的唯一解,前者選擇輪式底盤加雙臂,優(yōu)先攻進倉儲、零售和部分重載工業(yè);后者堅持四足加人形混合,在電力巡檢、管廊隧道、應急救援等場景靠地形適應力爭先。
其實這種路線差異也對應著商業(yè)哲學的分野——有人堅持垂直全棧,從伺服、電機、減速器到整機再到上層控制和大模型都自己做,來換取長期壁壘和議價權(quán),比如優(yōu)必選的Walker S2;
也有人選擇模塊開放,把本體做成標準平臺,對外開放接口,讓更多第三方來"裝大腦、裝應用",靠出貨量和生態(tài)掙錢,典型如智元機器人推出的開放平臺。
再往上看,大腦算法幾乎是一部技術(shù)范式的迭代史。早期的仿真遷移技術(shù)雖然解決了初期的模型訓練成本,但在面對真實物理世界的摩擦、形變與復雜噪聲時,會陷入長序列操作的累積誤差,導致在現(xiàn)實里"越做越錯"。
后來,融合了互聯(lián)網(wǎng)通用語料的VLA(視覺-語言-動作)大模型成為主流,賦予了機器人出色的語義理解與任務拆解能力,從谷歌的RT-2到Physical Intelligence的π系列,再到GEN-0、GR00T等,VLA模型極大地降低了人機交互的門檻。
VLA擅長將復雜的圖像與語言信息交織,按照習得的“套路”推演動作。然而,其結(jié)構(gòu)性短板也隨之浮現(xiàn):在處理細致的物理操作和力覺反饋時,VLA往往難以精準預判后果,比如“把杯子放到桌沿”、“既不滑下去也不把水灑出來”。
清華大學自動化系教授趙明國就認為行業(yè)熱捧的VLA模型更多是過渡性的技術(shù)手段,而非終極方案。他提到,大語言模型的成功,源于人類語言數(shù)據(jù)的“標準化”與“海量”,但物理世界的視覺、觸覺數(shù)據(jù)“非常不規(guī)范”,沒辦法簡單照搬。
圖片來源:大曉機器人
最近,行業(yè)破局點指向了WAM(World Action Model)世界模型。這種新范式要求機器人在動作發(fā)生前,先在內(nèi)部的想象空間中對物理演化進行模擬。
近期斯坦福、英偉達發(fā)布的Cosmos Policy等研究給出了Zero-shot(零樣本)就能泛化執(zhí)行不同工作的具身模型的可能,即通過視頻生成模型訓練機器人的“物理直覺”:先學會“如果發(fā)生某種情況,世界會怎樣演變”,再以此為基礎(chǔ)規(guī)劃“我該如何行動”。
![]()
這種“先預演后執(zhí)行”的能力,成為提升機器人作業(yè)成功率的關(guān)鍵。清華大學與斯坦福聯(lián)合提出的Ctrl-World模型,使用零真機數(shù)據(jù)即可將下游任務的指令跟隨成功率從38.7%提升至83.4%,平均改進幅度達44.7%
雖然世界模型的潛力在于能從根本上緩解操作誤差,但其背后所需的數(shù)據(jù)量、算力規(guī)模(英偉達DreamZero依賴于H100或GB200這樣的頂級芯片組成的計算集群進行并行推理,對于邊緣端部署的獨立機器人來說,目前的算力成本完全不可接受)及工程復雜度也遠超以往,處于“科研高光”與“工程探索”并行的階段。
![]()
這種技術(shù)路徑差異也延伸到“智力來源”的選擇上:是掛載GPT-4o、Gemini等通用大模型“借智”,還是像國內(nèi)原力靈機這類公司那樣,從頭訓練具身原生模型,也成為不同技術(shù)背景團隊各自探索的高地。
智能的“涌現(xiàn)”離不開高質(zhì)量數(shù)據(jù)的喂養(yǎng),這就落到了環(huán)境感知層。它石智航CEO陳亦倫曾提到,具身智能面臨的任務復雜度,使得其對產(chǎn)品級迭代所需的數(shù)據(jù)量,是自動駕駛的十倍以上。自變量創(chuàng)始人王潛也曾提醒,行業(yè)對數(shù)據(jù)的認知正在發(fā)生變化:并不是數(shù)據(jù)越多越好,而是"越有效越好"。
這一層同樣有兩條“平行線”,一部分團隊堅持在真實的工廠、機房中進行長周期的多模態(tài)數(shù)據(jù)采集,追求數(shù)據(jù)與物理環(huán)境的絕對一致性。
特斯拉的FSD之所以強,不完全是因為神經(jīng)網(wǎng)絡寫得比別人漂亮,更因為它有幾百萬輛車在路上跑,這些車就是分布式的"數(shù)據(jù)采集器",每天都在通過"影子模式"收集那些極端罕見的長尾場景。
![]()
再比如,國內(nèi)千尋智能的"小墨"機器人重復著枯燥卻關(guān)鍵的工作——在寧德時代的生產(chǎn)車間里自主檢測線束連接狀態(tài),動態(tài)調(diào)節(jié)插拔力度,其單日工作量較人工提升3倍,插接成功率穩(wěn)定在99%以上,顯著降低了人工成本與生產(chǎn)損耗。
另一部分則在強化高保真物理引擎的模擬能力,試圖通過合成數(shù)據(jù)來縮短算法的進化周期,銀河通用便是如此,其創(chuàng)始人王鶴曾在采訪中提到,“短期內(nèi)仿真模擬與合成數(shù)據(jù)仍將承擔更多探索任務,長期來看,必須讓機器人真實部署量級成百上千倍增長。”
所有技術(shù)的進位,最終都要在商業(yè)閉環(huán)中尋找答案。To B的RaaS(機器人即服務),正在將昂貴的硬件投入轉(zhuǎn)化為標準化的生產(chǎn)力租賃,通過規(guī)模化運營來平攤初始研發(fā)成本。擎天租預計2025年機器人租賃市場規(guī)模將突破10億元,2026年不會低于100億元。
圖片來源:智元機器人《機器人奇妙夜》
To C領(lǐng)域,春晚舞臺或文旅表演所帶來的品牌溢價,為具身智能積累第一波大眾認知與流量資產(chǎn)。這種初期的市場教育雖然以展演為主,但也為后續(xù)進入家庭等深度服務場景埋下伏筆。
圖片來源:眾擎機器人微信公眾號,首屆人形機器人自由格斗聯(lián)賽
2025年,頭部公司賬面收入確實在快速增長:優(yōu)必選全年訂單總金額接近14億元,宇樹科技接近12億元,智元機器人約為7億至10億元,銀河通用超過7億元。不過訂單金額不等于實際交付,更不等于盈利。
優(yōu)必選雖然年營收超過13億元,但研發(fā)投入和運營成本居高不下,財報顯示,2025年上半年其研發(fā)費用高達2.18億元,占營收比重35.1%,同期凈虧損4.39億元。智元、宇樹等獨角獸雖然估值飆升,但規(guī)模化量產(chǎn)的成本壓力和售后體系的建設投入巨大,商業(yè)化也還處在早期。
擎天租CEO李一言曾公開表示,目前整個行業(yè)的產(chǎn)能還很小,全球加起來也就1萬多臺,保有量仍屬起步。如此看來,當下的"億元訂單"更多還是標桿場景的先導嘗試,而非可復制的規(guī)?;枨?。
可以說,在“身體怎么造、腦子怎么練、數(shù)據(jù)怎么來、商業(yè)怎么跑”的每一環(huán),具身智能都處于一種“有生命力的非共識”狀態(tài),而且各維度深度耦合:選了便宜的本體,可能就要在算法上做更復雜的補償;追求極致的世界模型,就必須承受更高的數(shù)據(jù)與運維成本。沒有人能像當年看NLP那樣說:Transformer+大參數(shù)+海量文本就是唯一答案。
不過也正因為這種系統(tǒng)性的非共識,讓具身智能呈現(xiàn)出蓬勃的生機,資本在任何一個維度上都能講出極具想象力的故事:世界模型、空間智能、DFOL、RaaS……
銀河通用創(chuàng)始人王鶴就曾直言,"沒有共識是很好的事情,如果大家都形成共識了,那么最后拼的就是成本、資源、人脈。這些要素都不是創(chuàng)業(yè)者擅長的,對創(chuàng)業(yè)是不利的。"
這也為中國探索出自己的技術(shù)路線和商業(yè)路徑預留出更大可能。
如今,國內(nèi)已經(jīng)在諧波減速器、力矩/六維力傳感器、IMU等核心器件上實現(xiàn)了從幾乎全線依賴進口,到可100%全國產(chǎn)配置的跨越,整機成本從上百萬元壓縮至十幾萬、乃至萬元級。
江蘇近千家機器人相關(guān)企業(yè)編織起逾 1700 億元的產(chǎn)業(yè)版圖,蘇州綠的諧波、南京工藝、恒立精密、坤維科技等諸多產(chǎn)業(yè)鏈隱形冠軍密集匯聚在方圓五十里的“半小時供應圈”。
![]()
這種“集群式聚變”不僅緩解了供應鏈的被動,更賦予了開發(fā)者一種“范式自由”:可以全棧自研追求極致可靠性,也可模塊開放快速迭代生態(tài);可以做人形攻進工廠,亦可做四足深耕巡檢……
與硬件底座互為表里的,是算法大腦的“自主換擋”。智元的EnerVerse、自變量的WALL-A、中科第五紀的BridgeV2W、螞蟻靈波的LingBot-World等一批國產(chǎn)世界模型分別從應用落地、技術(shù)突破、生態(tài)打磨上展開競速,它們不是在“復制OpenAI”,而是在構(gòu)建更契合物理世界的國產(chǎn)技術(shù)棧。
在感知和環(huán)境運維上,大規(guī)模真實場景的數(shù)據(jù)采集、運維平臺和RaaS模式,必須深度適配本土工業(yè)、城市和政策環(huán)境,這天然需要本地廠商主導。
具身智能的“國產(chǎn)替代”不再是簡單地替換某顆螺絲,而是基于自身供應鏈優(yōu)勢對整套技術(shù)范式的自主重構(gòu)。
誰掌握了從零部件到整機、從大模型到運維體系的自主可控能力,誰就有資格在這片非共識之地反復試錯,率先撞開那扇通往產(chǎn)業(yè)奇點的大門。
如今,具身智能經(jīng)過一輪資本高熱到估值回調(diào)的洗禮,那些曾經(jīng)爭論不休的路徑分歧,在現(xiàn)實引力與交付指標的篩選下達成和解,行業(yè)也在去偽存真的熔煉中逐漸沉淀出一些“共識”。
共識一:形態(tài)不重要,場景才重要。
關(guān)于"機器人應該長什么樣"的爭論,從一開始就充滿了偏見。有人堅持人形才是終極答案,因為人類世界的基礎(chǔ)設施——樓梯、門把手、操作臺、工具——都是為人類設計的;也有人認為多足、輪式甚至球形更高效,何必拘泥于"像人"。
但這場辯論本身可能就問錯了問題。正如未來學家托馬斯·弗雷所指出的,根本不存在"完美"的機器人形態(tài),就像不存在"完美"的交通工具一樣——摩托車、轎車、卡車、坦克各有其用,沒人會爭論哪一種universally superior(普遍更優(yōu))。機器人的形態(tài)應該服務于場景,而非相反。
人形機器人在人類設計的環(huán)境中確實有優(yōu)勢:不用改造房子,機器人適應房子;不用重新設計工具,機器人使用現(xiàn)有工具。但當任務變得具體,specialized(專業(yè)化)的形態(tài)往往更高效——倉儲場景里輪式比雙足更快,電力巡檢中四足比人形更穩(wěn),精密裝配時多臂比雙臂更靈活。
這種"形態(tài)多樣性"的共識,本質(zhì)上是對物理世界復雜性的承認:沒有一把鑰匙能開所有的鎖,也沒有一種形態(tài)能通吃所有場景。
共識二:人為本,理解物理世界的底層。
人工智能研究者漢斯·莫拉維克提出過一個著名的悖論:對計算機來說,下棋很容易,但感知和行走極其困難。它精準預言了今天具身智能的底層困境——我們可以在虛擬空間里訓練出精通圍棋、精通語言的AI,但讓它穩(wěn)當?shù)啬闷鹨粋€杯子、穿過一扇門,卻需要完全不同的能力。
圖片來源:大曉機器人
這種能力不是單純靠堆算力能解決的,更需要對"身體如何與物理世界交互"的深刻理解。機器人不需要像人一樣思考,但需要理解人在物理世界中的行為邏輯、意圖表達和安全邊界。"以人為本"不是倫理裝飾,而是技術(shù)剛需:只有理解了人的存在方式,機器人才能真正成為協(xié)作伙伴,而非冰冷的替代工具。
共識三:不是取代,而是釋放。
1920年,捷克文學家卡雷爾·恰佩克在三幕劇《羅素姆萬能機器人》中第一次使用了"Robot"這個詞——它源于捷克語"robota",意思是"苦力"和"奴隸"。
故事里的機器人被制造出來,初衷是完成所有人類不愿做的苦差事,從而解放人類去從事更美好的事物。
100多年后,"Robot"這個詞承載的期待,從未改變。具身智能指向的未來,也并非取代人,而是最大程度釋放人的創(chuàng)造力。
2026,國內(nèi)機器人從千臺測算邁向萬臺交付,成為被寄予厚望的"量產(chǎn)元年"。站在產(chǎn)業(yè)infra的拐點,我們即將邁入一個人機協(xié)作的新紀元——不是取代,而是增強;不是疏離,而是融合;不是終結(jié),而是新生。
這,是所有具身智能企業(yè)的價值共識,也是這個行業(yè)最終要抵達的彼岸。
快報
根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論