免费看在线a黄视频|99爽99操日韩毛片儿|91停婷在线无码观看|日韩三级片小视频|一级黄片免费播放|欧美成人视频网站导航|亚洲日韩欧美七区|国产视频在线观看91|人成视频免费在线播放|国产精品成人在线免费观看

李飛飛的世界模型,大廠在反向操作?

鈦度號
與其構(gòu)建,不如讓AI先讀懂世界。

文 | 王智遠

A16Z 兩位合伙人 Martin Casado 和 Eric Torenberg 對李飛飛進行一次深度訪談。

網(wǎng)上搜索,會看到片段式的觀點,整體比較跳躍,難以系統(tǒng)理解。因此,我吸收后,重新梳理脈絡(luò),試圖匯報給關(guān)注空間智能、世界模型的朋友聽聽:

李飛飛到底在關(guān)注什么?她創(chuàng)辦的新公司 World Labs,究竟想做什么?這是否預(yù)示著 AI 發(fā)展的一個新方向?

01

很多人不知道這家公司,2024年,著名人工智能專家、斯坦福大學(xué)教授李飛飛創(chuàng)辦了初創(chuàng)公司 World Labs;這家公司正在探索一個極具前瞻性的方向:開發(fā)具備“空間智能”的下一代 AI 系統(tǒng)。

短短三個月內(nèi),World Labs 完成兩輪融資,累計籌集資金約 2.3億美元,估值迅速突破 10億美元,成為 AI 領(lǐng)域最新的獨角獸企業(yè)。

投資方陣容也非常的強大,包括 a16z、Radical Ventures、NEA、英偉達 NVentures、AMD Ventures 和 Intel Capital 等科技與風(fēng)投界的重量級玩家。

這些投資機構(gòu),國內(nèi)市場有些你可能沒聽過,不過,不重要;關(guān)鍵是:李飛飛首次在這場 A16Z 的訪談中,公開講述了 World Labs 創(chuàng)立背后的理念構(gòu)建、研究方向和她的宏大愿景。

那么,她到底說了什么?首先,她回答了一個很尖銳的問題:AI 是否正在從語言模型邁向世界建模?

李飛飛說,是的。

自己不是特別迷戀大語言模型。因為自己以前做過法律工作,那段經(jīng)歷讓她意識到:光靠說話和寫東西,很難真正理解這個世界。

但這并不意味著,語言模型不重要。

像 GPT、BERT 這些大模型取得的進步,反而讓她更加確信:我們正在走向一個更高級的 AI 階段:這個世界不再只是靠文字描述出來的,是可以被 AI 真正“看到”、“理解”和“重建”的三維空間。

她還引用了馬?。∕artin Casado) 一個觀點:

人類之所以聰明,不只是因為我們會說話,更重要的是我們會‘看’、會‘動’、會‘操作’這個三維世界。

談到這里,她舉例子說:

DNA 的結(jié)構(gòu)(雙螺旋),是典型的三維結(jié)構(gòu)。如果你只靠文字去想象它長什么樣,根本想不明白,只有當你真的把它“建出來”,才能理解它的美和復(fù)雜性。

還有碳分子,那個富勒烯,長得像個足球一樣的結(jié)構(gòu),也得靠空間上的想象和建模才能搞清楚。

所以,語言模型雖然重要,但它是一個壓縮過的信息版本;遠遠不能代表真實世界的全貌。真正的智能,要能理解和構(gòu)建這個三維世界才行。

02

既然這樣,我們不禁要問:世界模型為什么這么重要?

李飛飛說,很多人第一次聽到這個詞,覺得有點抽象、很高深。你可以把它理解成:AI 對現(xiàn)實世界的三維理解能力。

什么意思呢?

就像我們?nèi)艘粯樱瑫f話、會思考,會看、會動、能感知這個世界的空間結(jié)構(gòu)。

你看一張桌子,知道它是平的,知道上面有什么東西,還能繞過去、搬起來、放東西上去……這些動作背后,是大腦在構(gòu)建一個對這個世界的“模型”。

而所謂“世界模型”,是 AI 在嘗試做這件事:把視覺、空間感、動作等多個維度的信息結(jié)合起來,真正模擬出一個接近真實的世界。

她打了個特別形象的比方:

游戲里的場景生成。游戲設(shè)計師不會直接寫一段話告訴你「這里有一座山、一條河、一座橋」,而會在游戲引擎里把這些元素真的「建出來」,讓你可以走、可以跳、可以繞路。

AI 的世界模型,在試圖做類似的事:

要‘理解’它的形狀、位置、與其他物體的關(guān)系,甚至它的動態(tài)變化,并能預(yù)測和操作它。

接著她說了一個特別有意思的設(shè)想:

如果一個機器人只能看到二維畫面,那它就像是在一個紙片世界里生活。它不知道前面的東西是近還是遠,也不知道自己能不能穿過那扇門;只有當它有了三維的理解,才能真正開始在這個世界中自由行動。

所以,世界模型并不僅是技術(shù)概念,它是在回答一個更根本的問題:AI 怎樣才能真正理解物理世界。

這也正是李飛飛強調(diào)的一點:

語言是高度壓縮的信息,但它丟失了很多細節(jié)。要還原真實世界,必須要有空間建模的能力;換句話說,世界模型,才是 AI 實現(xiàn)‘通用智能’的關(guān)鍵一步。

說到這兒,她還分享了一個親身經(jīng)歷:

五年前,角膜受傷,好幾個月失去了立體視覺。結(jié)果她發(fā)現(xiàn),自己連開車都變得特別困難;明明知道自己車有多大、路邊的車停得多近,但就是判斷不了距離,不得不開得特別慢,生怕蹭到別人。

她說:

那一刻才真正體會到,人類對世界的理解,是多么依賴空間感;這也讓她更加確信,AI 如果沒有這種空間理解能力,那就永遠只能停留在「看得見」但「看不懂」的階段。

03

理論終究要落到實處。問題是,構(gòu)建一個世界模型,要哪些技術(shù)?

李飛飛說,要讓 AI 真正理解、重構(gòu)三維世界,是一個非常復(fù)雜的過程,目前來看,有幾個關(guān)鍵的技術(shù)方向正在被重點探索。

首先,是從二維圖像到三維重建的能力。

通俗點講,你給 AI 幾張照片,它能還原出一個立體的世界。比如,你從不同角度拍幾張桌子的照片,AI 就能推斷出這張桌子在空間里是怎么擺放的,甚至能“補全”你看不到的那一面。

這項技術(shù)叫 NeRF,全稱是 Neural Radiance Fields,聽起來有點學(xué)術(shù),你可以把它想象成一個“會魔法的相機”;它就像你在拼圖,給它幾塊碎片,它就能猜出整幅畫面是什么樣子的。

有了這個還不夠。

NeRF 雖然重建得準,但它有個問題:計算量太大,運行起來很慢,不適合實時應(yīng)用。于是,另一個技術(shù)就出現(xiàn)了,叫做高斯平面表示法。

什么是高斯平面表示法(Gaussian Splatting)?

簡單講:把空間中的每一個點看作是一個個小圓球,然后通過小球的位置和顏色,來快速描繪出整個場景的樣子。

你可以想象一下,小時候玩的積木,每個積木都很小,但放在一起就能搭出一座房子。只不過這里的“積木”,是可以自由變形、移動的小光點。

這個方法的好處是速度快,渲染效率高,特別適合用來做實時交互,比如游戲、VR 或者機器人導(dǎo)航。

不過,這還不是全部。

還有一個特別火的技術(shù),也在為世界模型提供支撐,那就是常聽說的擴散模型(Diffusion Models)。

擴散模型最開始用于圖像生成,比如你現(xiàn)在看到的很多 AI 繪畫工具,背后都有它的影子;但它的能力不止于此。它也可以幫助 AI 更好地理解和生成三維空間內(nèi)容。

舉個例子:

假如你有一張模糊不清的照片,擴散模型可以通過不斷“去噪”的方式,逐步還原出清晰的畫面。同樣的道理,它也能幫 AI 把一些粗糙的空間數(shù)據(jù)變得更精細、更真實。

當然,除了模型本身的技術(shù)突破之外,還有一點也很重要:多視角的數(shù)據(jù)融合。

也就是說,AI 不應(yīng)該只靠一張照片或者一個鏡頭看世界,而是要像人一樣,能從多個角度觀察同一個物體,再綜合判斷它的形狀、位置和運動方式。

這就像,你站在房間的不同位置看一個杯子,每次看到的角度不一樣,但你的大腦會自動把這些信息整合起來,形成一個完整的認知。

AI 也要做到這一點,才能真正理解它所處的環(huán)境。所以你看,技術(shù)是在一步步地讓 AI 擁有類似人類的空間感知能力。

不過,這些都還是基礎(chǔ)能力。

如果我們想讓 AI 不僅看得見、建得出,還能預(yù)測這個世界的變化,那就還得引入另一個重要的方向:物理仿真與動態(tài)建模。

也就是說,不只是知道一個物體現(xiàn)在在哪里,還要能推測它接下來會怎么動,比如:風(fēng)一吹樹葉會搖擺,門被推開之后會彈回來,或者一個球滾下樓梯時會發(fā)生什么。

看似簡單的常識,對 AI 來說都是巨大的挑戰(zhàn)。

所以,構(gòu)建一個世界模型,要多種方法協(xié)同工作,包括 NeRF、高斯表示法、擴散模型、多視角融合,以及物理建模等多個方向的共同推進。

聽完后,我才明白,原來 AI 要理解這個世界,得像人一樣,能從多個角度觀察、拼接信息、推理關(guān)系、預(yù)測變化,這背后是一整套復(fù)雜的技術(shù)組合拳。

04

既然 AI 已經(jīng)開始理解三維世界,那能力能落地嗎?它現(xiàn)在已經(jīng)使用了嗎?

李飛飛說:是的。應(yīng)用場景遠比我們想象得多。

比如,游戲行業(yè);很多游戲公司,不再靠程序員一行行寫代碼來建模場景了,直接讓 AI 根據(jù)幾張照片或者一段視頻,自動生成一個逼真的三維世界。

再比如建筑行業(yè)。

以前設(shè)計師畫一張效果圖,可能要幾天時間來建模渲染,現(xiàn)在借助世界模型的技術(shù),AI 可以在幾分鐘內(nèi)生成整個空間的立體結(jié)構(gòu),甚至還能模擬陽光從不同角度照進來時的效果。

還有機器人領(lǐng)域;如果一個機器人只有二維視覺,那就像是在一個紙片世界里生活,根本不知道前面的東西是近還是遠,能不能穿過那扇門。

還有嗎?當然。

數(shù)字孿生,也在為現(xiàn)實世界建立一個虛擬劇本;一座工廠、一棟大樓,甚至是一座城市,都可以通過 AI 建立出一個對應(yīng)的數(shù)字世界,用來做預(yù)測、測試和優(yōu)化。

比如:我們可以先在這個虛擬世界里模擬一場火災(zāi)疏散,看看哪里會出問題,然后再去現(xiàn)實中改進,而不是等到事情發(fā)生了才補救。

另外,她特別提到的方向是創(chuàng)意產(chǎn)業(yè)。

創(chuàng)造力本質(zhì)上是視覺化的。很多藝術(shù)家、設(shè)計師、建筑師的靈感,是來自于他們對空間的理解和想象,而當 AI 也能擁有這種能力時,它就不僅僅是工具,而是創(chuàng)作者的伙伴。

所以你看,應(yīng)用不只是停留在技術(shù)論文里,它們正在悄悄地改變很多行業(yè)的運作方式;李飛飛也提到,這就像是一場新的生產(chǎn)力革命:

過去我們靠語言描述世界,現(xiàn)在我們能讓 AI 直接“看到”并“重建”這個世界。

05

看來世界模型應(yīng)用前景比較廣闊,那離真正的廣泛應(yīng)用還有多遠?目前還面臨哪些挑戰(zhàn)?李飛飛說,方向是對的,目前還有不少難題沒有解決。

關(guān)鍵有三點。第一是數(shù)據(jù)問題。

你要讓 AI 理解三維世界,它得看到足夠多的真實場景,還要有深度信息、空間結(jié)構(gòu)、光照變化等等。

換句話說,AI 要“看懂”這個世界,前提是你得給它提供足夠清晰、足夠全面的“教材”。但現(xiàn)在這些數(shù)據(jù)要么很難獲取,要么成本太高。

其二,算力還是個大問題。

現(xiàn)在的很多技術(shù),比如 NeRF 或者高斯表示法,效果不錯,但對計算資源的要求非常高;跑一個模型要花很長時間、要很貴的顯卡。這在實驗室里可以接受,但要大規(guī)模落地應(yīng)用,顯然不太現(xiàn)實。

還有一個挑戰(zhàn)是泛化能力。什么意思呢?

現(xiàn)在大多數(shù) AI 模型只能在特定環(huán)境下工作得很好,一旦換到陌生的場景中,就容易“看不懂”、“認錯人”或者“走錯路”。

就像你訓(xùn)練一只狗只認紅色球,結(jié)果換了藍色球,它就不認識了一樣;AI 也一樣,它需要更強的適應(yīng)性,才能真正走進千家萬戶。

另外,光靠某個厲害的算法還不夠,得把硬件、軟件、數(shù)據(jù)、應(yīng)用場景全都打通才行;這不是一個人、一家公司能完成的事,而是需要整個行業(yè)共同推動的一場變革。

所以,雖然世界模型的方向沒錯,前景也很誘人,但現(xiàn)在更像是剛起步的新手,離真正的成熟和廣泛應(yīng)用,還有一段不短的路要走。

既然世界模型還在路上,那憑什么你們(World Labs)能推動它往前走?

李飛飛說,要一個能融合多種能力的團隊,而這也是她創(chuàng)辦 World Labs 的初衷之一。

目前團隊成員來自五湖四海,包括計算機視覺專家、圖形學(xué)研究者、擴散模型開發(fā)者,還有做物理仿真和機器人控制的人才。

她還提到,AI 發(fā)展到現(xiàn)在,已經(jīng)不是“單打獨斗”就能突破的。過去是一個人寫出一個算法就火了,現(xiàn)在要做世界模型這種系統(tǒng)工程,必須要有不同背景的人一起干。

她舉了個例子:

團隊里有一位叫 Manu 的研究人員,在 NeRF 和高斯表示法方面有很深的積累;另一位同事叫 Christophor,在擴散模型和生成式 AI 上也非常有經(jīng)驗。

他們不是在復(fù)制別人做過的事,是在探索一條全新的路,這條路沒有現(xiàn)成的地圖,只有靠大家邊走邊畫。

也正是因為這樣,她更加確信:未來的 AI 研究范式,正在從“單一學(xué)科”走向“多學(xué)科融合”,從“個體英雄”走向“集體智慧”。

06

有這樣一個多元背景的團隊,也意味著在看待 AI 的方式上,會有更多元的視角。

李飛飛作為一個科學(xué)家、創(chuàng)業(yè)者,同時也曾經(jīng)從事過法律工作,她也談到一些關(guān)于 AI 和人文之間的關(guān)系、AI 和教育之間的影響、以及它如何和法律、倫理這些社會系統(tǒng)一起演進的看法。

她說:在過去很長一段時間里,大家一提到 AI,就想到技術(shù)本身,類似于怎么訓(xùn)練模型、怎么提升準確率、怎么優(yōu)化算法。

但其實,真正決定 AI 能走多遠、走多穩(wěn)的,不只是技術(shù),還有它和社會之間的關(guān)系。

拿教育來說:

很多學(xué)校教 AI 的方式,還停留在“教學(xué)生怎么寫代碼”、“怎么調(diào)參”的階段。她認為,未來的 AI 教育,應(yīng)該更注重培養(yǎng)學(xué)生的批判性思維和社會責(zé)任感。

因為 AI 不只是工具,它會影響人的決策、改變社會結(jié)構(gòu)、甚至重塑就業(yè)形態(tài)。

因此,我們要培養(yǎng)的不只是會寫模型的人,更是能思考這個模型該不該被訓(xùn)練、它的影響是什么’的人;換句話說,AI 教育不能只教“怎么做”,還要教“為什么做”和“應(yīng)不應(yīng)該做”。

對于法律方面,她認為:

AI 正在越來越多地參與到現(xiàn)實世界的判斷中。比如:說招聘篩選、信用評估、甚至司法判決。那問題就來了:如果 AI 做出了錯誤的決定,誰來負責(zé)?

是開發(fā)者?使用者?還是 AI 本身?或許,我們必須提前為 AI 設(shè)計好規(guī)則邊界,否則等到出問題了再補救,可能就來不及了。

最后,她還談到一個特別有意思的點:

很多人覺得 AI 是冷冰冰的數(shù)學(xué)和算法,她覺得,AI是人類價值觀和技術(shù)能力的結(jié)合體;我們造出什么樣的AI,反映的就是我們想成為什么樣的社會。

所以,AI 發(fā)展到今天,它要哲學(xué)家、歷史學(xué)家、社會學(xué)者、教育者、立法者的共同參與。

既然AI是整個社會系統(tǒng)的一場變革,那我們?nèi)滩蛔∫獑枺豪铒w飛眼中的“空間智能”和“世界模型”,最終會走向哪里?對未來 AI 發(fā)展,又抱有什么樣的愿景?

她說,內(nèi)心有很多很多想法,早在做計算機視覺研究的時候就埋下了種子。

那時候就在想:

如果有一天,AI 真的能理解這個三維世界,它會怎么用這種能力?是僅僅用來玩游戲、建地圖,還是可以做得更多?

她相信,未來AI 不只是“看得到”,還要“看得懂”;不只是“重建世界”,還要“參與世界”;不只是“執(zhí)行任務(wù)”,還要“與人協(xié)作”。

換句話說:AI 終極目標,不是替代人類,而是成為人類在物理世界中的智能延伸。

她打了個比方:就像眼鏡讓我們看得更清楚,輪椅幫助我們移動得更遠,而 AI 將成為我們理解和操作這個世界的新工具。

比如:

醫(yī)療領(lǐng)域,AI 可以幫助醫(yī)生更準確地判斷手術(shù)路徑;在建筑行業(yè),它可以協(xié)助設(shè)計師快速搭建虛擬模型。

教育中,它可以成為一個能“走進去”的知識空間,讓學(xué)生真正“看到”分子結(jié)構(gòu)、歷史場景、甚至宇宙演化;這不是科幻,而是正在發(fā)生的技術(shù)演進。

關(guān)于 AGI,她也提到一個很關(guān)鍵的觀點:

我們今天討論的世界模型,是未來通用人工智能(AGI)的第一步;真正的 AGI,不只靠語言或文字來理解世界,而是要有空間感知、動態(tài)推理、交互能力和創(chuàng)造能力。

這些,才是世界模型所代表的方向。

所以,空間智能、世界模型,不僅是一場技術(shù)探索,更是一次關(guān)于人機關(guān)系、社會進步、以及未來生活方式的重新定義。

從語言到世界,從二維到三維,李飛飛所描繪一個 AI 更懂人、更貼近現(xiàn)實、更能與我們一起生活和工作的時代。

這一切,聽起來宏觀,實現(xiàn)起來難嗎?

從上往下看,確實不容易。如果我們換個角度,從下往上看呢?在中國,像字節(jié)、騰訊、阿里、百度這些領(lǐng)先的企業(yè),已經(jīng)在嘗試給自己的 AI ToC 產(chǎn)品加上一雙眼睛。

當AI開了天眼之后,會不會倒逼空間智能的加速呢?換句話說,與其構(gòu)建,不如先讓AI先讀懂世界,何嘗不是一種選擇?有意思的問題,我還在觀察。你怎么看?

資料參考:

[1]. a16z. (2025, June 4). How Fei-Fei Li is rebuilding AI for the real world ;YouTube:https://youtu.be/fQGu016AlVo?si=RRZe7RbVsjr3EPHF

本文系作者 王智遠 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

2026-03-28 23:01

澤連斯基稱與中東3國達成防務(wù)合作協(xié)議,涉聯(lián)合生產(chǎn)無人機

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi),已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長發(fā)表書面致辭,支持世貿(mào)組織《電子商務(wù)協(xié)定》達成臨時實施安排

2026-03-28 21:54

40余家單位聯(lián)盟,中國最大人形機器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會預(yù)判:百億智能體或成新物種,AI推動人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市,售價4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉庫并致烏克蘭人傷亡消息不實

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國務(wù)卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個詞的搜索量最高一天達到7.7萬次,比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國首個可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動2026”在北京啟動

2026-03-28 19:03

國務(wù)院食安辦、市場監(jiān)管總局約談相關(guān)地方市級人民政府負責(zé)人,督辦“3?15”晚會曝光問題整改

2026-03-28 18:44

飛書 CLI 開源:AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個月中國創(chuàng)新藥對外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國和菲律賓舉行南海問題雙邊磋商機制第十一次會議

2026-03-28 17:30

印尼正式實施16歲以下社媒禁令,約7000萬人受影響

2026-03-28 17:04

美國加州禁止官員借內(nèi)幕消息在預(yù)測市場牟利

2026-03-28 17:02

北京“超現(xiàn)場”生態(tài)共同體建設(shè)暨全國覆蓋啟動

掃描下載App