AIGC技術(shù)正從文本、圖像生成向更復(fù)雜的3D空間與視頻領(lǐng)域延伸,但現(xiàn)有模型普遍面臨兩大核心挑戰(zhàn):一是對物理世界空間結(jié)構(gòu)的理解不足,導(dǎo)致3D場景生成缺乏邏輯性;二是視頻創(chuàng)作中因視角切換引發(fā)的時空一致性問題。

“何時人工智能從數(shù)字世界走向物理世界呢?我們認(rèn)為空間智能就是這里面非常關(guān)鍵的橋梁。”群核科技聯(lián)合創(chuàng)始人兼董事長黃曉煌表示。

而對于空間智能來說,它的核心是讓AI真正理解物理世界的“語言”:要讓AI學(xué)會用“空間語言”描述世界,這是它走進(jìn)物理世界的第一步。

上周,杭州“六小龍”之一的群核科技正式宣布開源新一代空間語言模型SpatialLM 1.5與空間生成模型SpatialGen。這是中國企業(yè)首次面向全球開發(fā)者開放專注于3D室內(nèi)場景認(rèn)知與生成的大模型體系。

讓AI“讀懂”空間的幾何密碼

此次發(fā)布的兩款模型分別針對文章開頭所提的兩大痛點(diǎn)——SpatialLM 1.5通過“空間語言”實現(xiàn)3D場景的結(jié)構(gòu)化生成與交互,SpatialGen則依托3D高斯技術(shù)保障多視角圖像的空間連貫性。

前者生成的場景富含物理正確的結(jié)構(gòu)化信息,支持用戶通過對話交互系統(tǒng)SpatialLM-Chat進(jìn)行可交互場景的端到端生成,能夠有效解決機(jī)器人訓(xùn)練數(shù)據(jù)難題;后者,專注于“生成與呈現(xiàn)”, 可根據(jù)文字描述、參考圖像和3D空間布局,生成具有時空一致性的多視角圖像。

據(jù)介紹,傳統(tǒng)多模態(tài)模型(如GPT-4V、通義千問VLM)通過將圖像切割為視覺Token與文本對齊,實現(xiàn)跨模態(tài)理解,但本質(zhì)仍是對2D信息的處理。即VLM能描述“這是一張沙發(fā)”,但無法理解類似“沙發(fā)長2米、距墻50厘米”之類的空間信息,更不能基于這些數(shù)據(jù)生成可編輯的3D場景。

SpatialLM 1.5的突破在于,它將空間關(guān)系編碼為“語言”,是非多模態(tài)的“語言模型”,它基于通義千問3小模型訓(xùn)練,通過“空間語言”指令實現(xiàn)3D場景的端到端生成。例如,用戶輸入“生成100平方米兩居室,主臥含帶扶手的老人床”,模型會輸出包含墻線坐標(biāo)、家具尺寸、物理參數(shù)的結(jié)構(gòu)化腳本,并自動匹配資產(chǎn)庫中的3D模型完成布局。

一個比較重要的維度就是空間理解。”周子寒解釋。傳統(tǒng)大模型生成的是自然語言描述,而SpatialLM輸出的是可直接用于渲染、仿真的空間代碼。這一能力也使其成為具身智能機(jī)器人訓(xùn)練的關(guān)鍵工具——群核科技現(xiàn)場演示顯示,基于SpatialLM1.5生成的家庭場景,機(jī)器人可自主規(guī)劃“從臥室取藥到客廳”的路徑,并規(guī)避障礙物。

能達(dá)到這樣的效果,與群核平臺自有的稀缺數(shù)據(jù)有很大關(guān)系。據(jù)介紹,3D數(shù)據(jù)的稀缺性是空間智能發(fā)展的核心瓶頸,互聯(lián)網(wǎng)上有百億級圖像文本數(shù)據(jù),但高質(zhì)量3D場景不足千萬級,且標(biāo)注成本極高。

“我最早是在NVIDIA做Cuda,出來之后發(fā)現(xiàn)用GPU來加速物理世界的渲染一件非常有意思的事情。酷家樂大量積累的數(shù)據(jù)是可以用來訓(xùn)練空間理解模型、空間生成模型等,這些模型又可以進(jìn)一步強(qiáng)化具能力,逐漸形成了一個工具、數(shù)據(jù)、模型三個環(huán)節(jié)相互循環(huán)的數(shù)據(jù)飛輪。”黃曉煌介紹。

基于公司早期創(chuàng)辦的酷家樂這一全球最大的空間設(shè)計平臺,截至2025年6月30日,群核科技擁有包含超過4.41億個3D模型及超過5億個結(jié)構(gòu)化3D空間場景。

scaling law在AI視頻模型上并不奏效

AI視頻模型即使有scaling law,我們也不認(rèn)為它能真正的理解現(xiàn)在的物理世界。”群核科技AI產(chǎn)品總監(jiān)龍?zhí)鞚杀硎尽?/p>

當(dāng)前AI視頻生成工具(如Sora、即夢)常因視角切換導(dǎo)致物體“瞬移”“變形”,例如,在生成一條讓高達(dá)跳舞的視頻時,其腿部的反向扭曲、模型的穿透、移動時背景的混亂等,都是很典型的AI視頻工具面臨的真正問題。

“本質(zhì)是它們基于2D圖像序列訓(xùn)練,不懂3D空間規(guī)則。它學(xué)會了如何讓上一幀圖像在視覺上變的更像下一幀圖像,不理解所謂的物理世界運(yùn)行的基本邏輯。”龍?zhí)鞚烧f。也正因此,scaling law在AI視頻模型上似乎并不奏效。

群核此次開源的SpatialGen通過多視角擴(kuò)散模型打破了這一局限。它以3D高斯場景為中間載體,輸入單張參考圖和布局圖,即可生成任意視角的圖像,且保證物體形狀、位置在不同幀中一致?,F(xiàn)場演示顯示,基于SpatialGen生成的12秒漫游視頻,第1秒與第12秒的窗戶、擺件位置完全吻合。

讓模型“先造世界,再拍視頻”,“如同虛擬攝像機(jī),在3D世界內(nèi)拍攝,所以天然會具備空間邏輯。”這種方式使視頻生成效率成倍提升,且支持比如“從廚房直接跳轉(zhuǎn)到臥室”的非連續(xù)視角切換。

“我希望它生成某個視角的一張圖的時候,只要將這個視角指定,就會按照約束去生成。因為它是一個任意視角的生成模型,所以避免了視頻模型非常依賴時空一致性的局限,可以去跳躍著生成任何視角的圖片。”周子寒補(bǔ)充。

群核科技也正計劃基于SpatialGen年內(nèi)推出一款A(yù)I視頻創(chuàng)作工具,或許能夠成為全球首款深度融合3D能力的AI視頻生成Agent。“廣告從業(yè)者真的有可能不需要太過于昂貴的團(tuán)隊和前期的資本投入就可以做出接近頂級水平的廣告。工業(yè)設(shè)計師可以在幾分鐘內(nèi)快速地為自己的產(chǎn)品完成一個demo,并且展示詳細(xì)的功能,”龍?zhí)鞚烧f。

現(xiàn)場,龍?zhí)鞚梢砸豢顕a(chǎn)香水為原型,生成“日式風(fēng)格下的落日光影”宣傳視頻,其在保持商品主體高保證還原的情況下,在復(fù)雜的運(yùn)境和商品動效之下,依然保持了空間的一致性、畫面的合理性,內(nèi)容元素沒有崩壞。

基于視頻效果,這位香水主理人評價:“離香奈兒、迪奧有非常大的差距,但考慮到生成的時間成本和金錢成本,在目前是比較重大的突破了,對于一些廉價品牌而言,這些視頻已經(jīng)具備足夠marketing的屬性。”

開源,中國AI的“生態(tài)突圍”

不過,群核開源兩款空間智能模型,并非僅限于技術(shù)模型層面的突破。

“目前空間智能肯定還是在一個發(fā)展的初期階段的,我覺得任何一家公司都不可能獨(dú)享這個市場。”黃曉煌強(qiáng)調(diào),“所以我們在不斷地開源數(shù)據(jù)、模型,希望跟全世界最聰明的大腦,全世界最有創(chuàng)新能力的人一起將這個‘蛋糕’做大,這是我們戰(zhàn)略很重要的一部分。”

這在某種程度上也意味著,這家中國企業(yè)在空間智能領(lǐng)域,嘗試從技術(shù)研發(fā)邁向生態(tài)共建。

2018年,群核認(rèn)為海量數(shù)據(jù)是能夠訓(xùn)練出一些過去所不掌握的認(rèn)知能力,于是決定學(xué)習(xí)李飛飛的ImageNet,開源全球最大空間認(rèn)知數(shù)據(jù)集InteriorNet;今年3月,群核再次開源的SpatialLM 1.0,迅速登上Hugging Face趨勢榜前三。

目前,其開源策略已引發(fā)海外關(guān)注,上月群核開源全球首個3D高斯數(shù)據(jù)集InteriorGS,在Hugging Face數(shù)據(jù)集中排到第一。“它的作用是什么?過去自動駕駛領(lǐng)域的爭議在于,做空間認(rèn)知要不要激光雷達(dá)還是純視覺就行了?中國很多車廠是用激光雷達(dá)的,但二者能否統(tǒng)一?這個數(shù)據(jù)集開源之后,很多機(jī)構(gòu)跑過來跟我們討論3D高斯作為統(tǒng)一輸入好像是可行。”黃曉煌透露。

這種影響力背后是技術(shù)路線的差異化。與李飛飛團(tuán)隊World Labs的“3D場景生成”不同,群核聚焦“可交互的功能場景”。周子寒評價,李飛飛團(tuán)隊公布的Demo在大范圍漫游上表現(xiàn)不錯,但與其他業(yè)內(nèi)已推出的世界模型一樣,以3D表征為基礎(chǔ)的世界模型,都會在空間一致性上有所缺失。此外,在生成的物理屬性上,群核生成的場景不僅能看,還能讓機(jī)器人開門、取物,這是工業(yè)級應(yīng)用的關(guān)鍵。

“第一是真實感的全息漫游,第二是結(jié)構(gòu)化可交互,第三是復(fù)雜的室內(nèi)場景。”周子寒總結(jié)空間智能大模型的特點(diǎn)?;诖?,周子寒也認(rèn)為,基于空間智能大模型體系,工業(yè)軟件領(lǐng)域曾經(jīng)面臨的“卡脖子”問題,中國企業(yè)有望探索出一條新路徑。

“傳統(tǒng)工業(yè)軟件的‘卡脖子’源于底層復(fù)雜的幾何算法,但空間大模型提供了新路徑。通過找一些增量方式,將原來在傳統(tǒng)軟件不太能涉及的領(lǐng)域,進(jìn)行補(bǔ)齊,就有能力打造一個之前缺失的幾何內(nèi)核的部分。”周子寒表示,即SpatialLM通過自然語言生成場景,在后續(xù)的探索中,有可能繞過傳統(tǒng)CAD的復(fù)雜操作邏輯,“我們不做達(dá)索、Autodesk的替代品,而是創(chuàng)造‘AI原生’的設(shè)計工具——這就是彎道超車。”(本文首發(fā)鈦媒體APP 作者 |秦聰慧)‌

本文系作者 DeepWrite秦報局 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

2026-03-28 23:01

澤連斯基稱與中東3國達(dá)成防務(wù)合作協(xié)議,涉聯(lián)合生產(chǎn)無人機(jī)

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi),已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長發(fā)表書面致辭,支持世貿(mào)組織《電子商務(wù)協(xié)定》達(dá)成臨時實施安排

2026-03-28 21:54

40余家單位聯(lián)盟,中國最大人形機(jī)器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會預(yù)判:百億智能體或成新物種,AI推動人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市,售價4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉庫并致烏克蘭人傷亡消息不實

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國務(wù)卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個詞的搜索量最高一天達(dá)到7.7萬次,比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國首個可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動2026”在北京啟動

2026-03-28 19:03

國務(wù)院食安辦、市場監(jiān)管總局約談相關(guān)地方市級人民政府負(fù)責(zé)人,督辦“3?15”晚會曝光問題整改

2026-03-28 18:44

飛書 CLI 開源:AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個月中國創(chuàng)新藥對外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國和菲律賓舉行南海問題雙邊磋商機(jī)制第十一次會議

2026-03-28 17:30

印尼正式實施16歲以下社媒禁令,約7000萬人受影響

2026-03-28 17:04

美國加州禁止官員借內(nèi)幕消息在預(yù)測市場牟利

2026-03-28 17:02

北京“超現(xiàn)場”生態(tài)共同體建設(shè)暨全國覆蓋啟動

掃描下載App