日本视频A区五月天成人aV,中文字幕av最新更新,亚洲春色av中文字幕人妻

AIGC技術(shù)正從文本、圖像生成向更復(fù)雜的3D空間與視頻領(lǐng)域延伸，但現(xiàn)有模型普遍面臨兩大核心挑戰(zhàn)：一是對物理世界空間結(jié)構(gòu)的理解不足，導(dǎo)致3D場景生成缺乏邏輯性；二是視頻創(chuàng)作中因視角切換引發(fā)的時空一致性問題。

“何時人工智能從數(shù)字世界走向物理世界呢？我們認(rèn)為空間智能就是這里面非常關(guān)鍵的橋梁。”群核科技聯(lián)合創(chuàng)始人兼董事長黃曉煌表示。

而對于空間智能來說，它的核心是讓AI真正理解物理世界的“語言”：要讓AI學(xué)會用“空間語言”描述世界，這是它走進(jìn)物理世界的第一步。

上周，杭州“六小龍”之一的群核科技正式宣布開源新一代空間語言模型SpatialLM 1.5與空間生成模型SpatialGen。這是中國企業(yè)首次面向全球開發(fā)者開放專注于3D室內(nèi)場景認(rèn)知與生成的大模型體系。

讓AI“讀懂”空間的幾何密碼

此次發(fā)布的兩款模型分別針對文章開頭所提的兩大痛點(diǎn)——SpatialLM 1.5通過“空間語言”實現(xiàn)3D場景的結(jié)構(gòu)化生成與交互，SpatialGen則依托3D高斯技術(shù)保障多視角圖像的空間連貫性。

前者生成的場景富含物理正確的結(jié)構(gòu)化信息，支持用戶通過對話交互系統(tǒng)SpatialLM-Chat進(jìn)行可交互場景的端到端生成，能夠有效解決機(jī)器人訓(xùn)練數(shù)據(jù)難題；后者，專注于“生成與呈現(xiàn)”，可根據(jù)文字描述、參考圖像和3D空間布局，生成具有時空一致性的多視角圖像。

據(jù)介紹，傳統(tǒng)多模態(tài)模型（如GPT-4V、通義千問VLM）通過將圖像切割為視覺Token與文本對齊，實現(xiàn)跨模態(tài)理解，但本質(zhì)仍是對2D信息的處理。即VLM能描述“這是一張沙發(fā)”，但無法理解類似“沙發(fā)長2米、距墻50厘米”之類的空間信息，更不能基于這些數(shù)據(jù)生成可編輯的3D場景。

SpatialLM 1.5的突破在于，它將空間關(guān)系編碼為“語言”，是非多模態(tài)的“語言模型”，它基于通義千問3小模型訓(xùn)練，通過“空間語言”指令實現(xiàn)3D場景的端到端生成。例如，用戶輸入“生成100平方米兩居室，主臥含帶扶手的老人床”，模型會輸出包含墻線坐標(biāo)、家具尺寸、物理參數(shù)的結(jié)構(gòu)化腳本，并自動匹配資產(chǎn)庫中的3D模型完成布局。

“一個比較重要的維度就是空間理解。”周子寒解釋。傳統(tǒng)大模型生成的是自然語言描述，而SpatialLM輸出的是可直接用于渲染、仿真的“空間代碼”。這一能力也使其成為具身智能機(jī)器人訓(xùn)練的關(guān)鍵工具——群核科技現(xiàn)場演示顯示，基于SpatialLM1.5生成的家庭場景，機(jī)器人可自主規(guī)劃“從臥室取藥到客廳”的路徑，并規(guī)避障礙物。

能達(dá)到這樣的效果，與群核平臺自有的稀缺數(shù)據(jù)有很大關(guān)系。據(jù)介紹，3D數(shù)據(jù)的稀缺性是空間智能發(fā)展的核心瓶頸，互聯(lián)網(wǎng)上有百億級圖像文本數(shù)據(jù)，但高質(zhì)量3D場景不足千萬級，且標(biāo)注成本極高。

“我最早是在NVIDIA做Cuda，出來之后發(fā)現(xiàn)用GPU來加速物理世界的渲染一件非常有意思的事情。酷家樂大量積累的數(shù)據(jù)是可以用來訓(xùn)練空間理解模型、空間生成模型等，這些模型又可以進(jìn)一步強(qiáng)化工具能力，逐漸形成了一個工具、數(shù)據(jù)、模型三個環(huán)節(jié)相互循環(huán)的數(shù)據(jù)飛輪。”黃曉煌介紹。

基于公司早期創(chuàng)辦的酷家樂這一全球最大的空間設(shè)計平臺，截至2025年6月30日，群核科技擁有包含超過4.41億個3D模型及超過5億個結(jié)構(gòu)化3D空間場景。

scaling law，在AI視頻模型上并不奏效

“AI視頻模型即使有scaling law，我們也不認(rèn)為它能真正的理解現(xiàn)在的物理世界。”群核科技AI產(chǎn)品總監(jiān)龍?zhí)鞚杀硎尽?/p>

當(dāng)前AI視頻生成工具（如Sora、即夢）常因視角切換導(dǎo)致物體“瞬移”“變形”，例如，在生成一條讓高達(dá)跳舞的視頻時，其腿部的反向扭曲、模型的穿透、移動時背景的混亂等，都是很典型的AI視頻工具面臨的真正問題。

“本質(zhì)是它們基于2D圖像序列訓(xùn)練，不懂3D空間規(guī)則。它學(xué)會了如何讓上一幀圖像在視覺上變的更像下一幀圖像，但不理解所謂的物理世界運(yùn)行的基本邏輯。”龍?zhí)鞚烧f。也正因此，scaling law在AI視頻模型上似乎并不奏效。

群核此次開源的SpatialGen通過多視角擴(kuò)散模型打破了這一局限。它以3D高斯場景為中間載體，輸入單張參考圖和布局圖，即可生成任意視角的圖像，且保證物體形狀、位置在不同幀中一致?，F(xiàn)場演示顯示，基于SpatialGen生成的12秒漫游視頻，第1秒與第12秒的窗戶、擺件位置完全吻合。

讓模型“先造世界，再拍視頻”，“如同虛擬攝像機(jī)，在3D世界內(nèi)拍攝，所以天然會具備空間邏輯。”這種方式使視頻生成效率成倍提升，且支持比如“從廚房直接跳轉(zhuǎn)到臥室”的非連續(xù)視角切換。

“我希望它生成某個視角的一張圖的時候，只要將這個視角指定，就會按照約束去生成。因為它是一個任意視角的生成模型，所以避免了視頻模型非常依賴時空一致性的局限，可以去跳躍著生成任何視角的圖片。”周子寒補(bǔ)充。

群核科技也正計劃基于SpatialGen年內(nèi)推出一款A(yù)I視頻創(chuàng)作工具，或許能夠成為全球首款深度融合3D能力的AI視頻生成Agent。“廣告從業(yè)者真的有可能不需要太過于昂貴的團(tuán)隊和前期的資本投入就可以做出接近頂級水平的廣告。工業(yè)設(shè)計師可以在幾分鐘內(nèi)快速地為自己的產(chǎn)品完成一個demo，并且展示詳細(xì)的功能，”龍?zhí)鞚烧f。

現(xiàn)場，龍?zhí)鞚梢砸豢顕a(chǎn)香水為原型，生成“日式風(fēng)格下的落日光影”宣傳視頻，其在保持商品主體高保證還原的情況下，在復(fù)雜的運(yùn)境和商品動效之下，依然保持了空間的一致性、畫面的合理性，內(nèi)容元素沒有崩壞。

基于視頻效果，這位香水主理人評價：“離香奈兒、迪奧有非常大的差距，但考慮到生成的時間成本和金錢成本，在目前是比較重大的突破了，對于一些廉價品牌而言，這些視頻已經(jīng)具備足夠marketing的屬性。”

開源，中國AI的“生態(tài)突圍”

不過，群核開源兩款空間智能模型，并非僅限于技術(shù)模型層面的突破。

“目前空間智能肯定還是在一個發(fā)展的初期階段的，我覺得任何一家公司都不可能獨(dú)享這個市場。”黃曉煌強(qiáng)調(diào)，“所以我們在不斷地開源數(shù)據(jù)、模型，希望跟全世界最聰明的大腦，全世界最有創(chuàng)新能力的人一起將這個‘蛋糕’做大，這是我們戰(zhàn)略很重要的一部分。”

這在某種程度上也意味著，這家中國企業(yè)在空間智能領(lǐng)域，嘗試從技術(shù)研發(fā)邁向生態(tài)共建。

2018年，群核認(rèn)為海量數(shù)據(jù)是能夠訓(xùn)練出一些過去所不掌握的認(rèn)知能力，于是決定學(xué)習(xí)李飛飛的ImageNet，開源全球最大空間認(rèn)知數(shù)據(jù)集InteriorNet；今年3月，群核再次開源的SpatialLM 1.0，迅速登上Hugging Face趨勢榜前三。

目前，其開源策略已引發(fā)海外關(guān)注，上月群核開源全球首個3D高斯數(shù)據(jù)集InteriorGS，在Hugging Face數(shù)據(jù)集中排到第一。“它的作用是什么？過去自動駕駛領(lǐng)域的爭議在于，做空間認(rèn)知要不要激光雷達(dá)還是純視覺就行了？中國很多車廠是用激光雷達(dá)的，但二者能否統(tǒng)一？這個數(shù)據(jù)集開源之后，很多機(jī)構(gòu)跑過來跟我們討論3D高斯作為統(tǒng)一輸入好像是可行。”黃曉煌透露。

這種影響力背后是技術(shù)路線的差異化。與李飛飛團(tuán)隊World Labs的“3D場景生成”不同，群核聚焦“可交互的功能場景”。周子寒評價，李飛飛團(tuán)隊公布的Demo在大范圍漫游上表現(xiàn)不錯，但與其他業(yè)內(nèi)已推出的世界模型一樣，以3D表征為基礎(chǔ)的世界模型，都會在空間一致性上有所缺失。此外，在生成的物理屬性上，群核生成的場景不僅能看，還能讓機(jī)器人開門、取物，這是工業(yè)級應(yīng)用的關(guān)鍵。

“第一是真實感的全息漫游，第二是結(jié)構(gòu)化可交互，第三是復(fù)雜的室內(nèi)場景。”周子寒總結(jié)空間智能大模型的特點(diǎn)?；诖?，周子寒也認(rèn)為，基于空間智能大模型體系，工業(yè)軟件領(lǐng)域曾經(jīng)面臨的“卡脖子”問題，中國企業(yè)有望探索出一條新路徑。

“傳統(tǒng)工業(yè)軟件的‘卡脖子’源于底層復(fù)雜的幾何算法，但空間大模型提供了新路徑。通過找一些增量方式，將原來在傳統(tǒng)軟件不太能涉及的領(lǐng)域，進(jìn)行補(bǔ)齊，就有能力打造一個之前缺失的幾何內(nèi)核的部分。”周子寒表示，即SpatialLM通過自然語言生成場景，在后續(xù)的探索中，有可能繞過傳統(tǒng)CAD的復(fù)雜操作邏輯，“我們不做達(dá)索、Autodesk的替代品，而是創(chuàng)造‘AI原生’的設(shè)計工具——這就是彎道超車。”（本文首發(fā)鈦媒體APP 作者 |秦聰慧）‌

本文系作者 DeepWrite秦報局授權(quán)鈦媒體發(fā)表，并經(jīng)鈦媒體編輯，轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號，文章內(nèi)容僅供參考、交流、學(xué)習(xí)，不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn)，點(diǎn)擊這里投稿。創(chuàng)業(yè)或融資尋求報道，點(diǎn)擊這里。

快報

2026-03-28 23:01

澤連斯基稱與中東3國達(dá)成防務(wù)合作協(xié)議，涉聯(lián)合生產(chǎn)無人機(jī)

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi)，已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長發(fā)表書面致辭，支持世貿(mào)組織《電子商務(wù)協(xié)定》達(dá)成臨時實施安排

2026-03-28 21:54

40余家單位聯(lián)盟，中國最大人形機(jī)器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會預(yù)判：百億智能體或成新物種，AI推動人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市，售價4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉庫并致烏克蘭人傷亡消息不實

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國務(wù)卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個詞的搜索量最高一天達(dá)到7.7萬次，比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國首個可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動2026”在北京啟動

2026-03-28 19:03

國務(wù)院食安辦、市場監(jiān)管總局約談相關(guān)地方市級人民政府負(fù)責(zé)人，督辦“3?15”晚會曝光問題整改

2026-03-28 18:44

飛書 CLI 開源：AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個月中國創(chuàng)新藥對外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國和菲律賓舉行南海問題雙邊磋商機(jī)制第十一次會議

2026-03-28 17:30

印尼正式實施16歲以下社媒禁令，約7000萬人受影響

2026-03-28 17:04

美國加州禁止官員借內(nèi)幕消息在預(yù)測市場牟利

2026-03-28 17:02

北京“超現(xiàn)場”生態(tài)共同體建設(shè)暨全國覆蓋啟動

讓AI“讀懂”空間的幾何密碼

scaling law，在AI視頻模型上并不奏效

開源，中國AI的“生態(tài)突圍”

敬原創(chuàng)，有鈦度，得贊賞

讓AI“讀懂”空間的幾何密碼

scaling law，在AI視頻模型上并不奏效

開源，中國AI的“生態(tài)突圍”

敬原創(chuàng)，有鈦度，得贊賞

開源，中國AI的“生態(tài)突圍”

敬原創(chuàng)，有鈦度，得贊賞