(來源:AI生成的圖片)

今年2月16日,美國OpenAI公司發(fā)布視頻生成模型Sora,首次由 AI 生成了長達1分鐘的多鏡頭長視頻,輸入寥寥數(shù)語便能生成效果炸裂視頻,鏡頭感堪比電影,震驚全球。

隨后,全球掀起了一場關(guān)于Sora的討論風暴,猶如一年前的ChatGPT爆火,有大量 AI 公司以做“中國版 Sora”為目標。

4月27日舉行的2024中關(guān)村論壇“未來人工智能先鋒論壇”上,清華大學與生數(shù)科技聯(lián)合推出中國首個長時長、高一致性、高動態(tài)性視頻大模型Vidu,被稱為“國內(nèi)首個Sora級視頻模型”,也是中國首個純自研視頻大模型。

Vidu利用Diffusion與Transformer融合架構(gòu)U-ViT,支持生成長度16秒、分辨率1080P的視頻,不僅能夠模擬物理世界,還具備多鏡頭生成、時空一致性高等特點。清華大學教授、生數(shù)科技首席科學家朱軍表示,Vidu之所以能夠達到這樣的效果,是因為其技術(shù)路線正好與Sora高度一致。

更早之前的2024商湯技術(shù)交流日上,商湯科技也公布三段完全由大模型生成的視頻,并強調(diào)文生視頻平臺對于人物、動作和場景的可控性。這意味著,商湯科技在文生視頻平臺方面取得了重要技術(shù)突破。

如今,在美國OpenAI快速發(fā)展的技術(shù)環(huán)境下,中國正加緊學習并不斷創(chuàng)新,以實現(xiàn)Sora級視頻模型的技術(shù)突破,從而更早推動AGI技術(shù)的到來。

而就在4月10日,鈦媒體AGI 舉辦了第一期閉門沙龍活動。通過線上會議方式,我們邀請了兩位重磅嘉賓——生數(shù)科技產(chǎn)品負責人張旭東、商湯研究院研發(fā)總監(jiān)盧樂煒,共同探討AI視頻生成模型背后的技術(shù)細節(jié)以及行業(yè)未來趨勢。

張旭東表示,Sora比Pika、Runway更近一步,推動 AI 視頻模型落地。同時,OpenAI不僅是視頻模型,未來Sora可能還需要和GPT做一些融合。

“我對Sora的看法是,擴散模型(diffusion model)本質(zhì)是做一個概率分布,隨著模型規(guī)模越來越大,概率分布越逼近于真實,生成效果也就變得更加逼真。”張旭東表示,OpenAI確實走在一個宏大目標的道路上。

盧樂煒則坦言,Sora使得Scaling law(尺度定律)起到很大的作用,這能夠推動整個產(chǎn)業(yè)往多模態(tài)大模型、文生視頻模型方向發(fā)展,促進產(chǎn)業(yè)或?qū)崿F(xiàn)AGI。

展望未來,盧樂煒強調(diào),現(xiàn)階段離AGI還比較遠,但隨著模型容量增大,更好地吸收各個不同領(lǐng)域的數(shù)據(jù),也許會有機會成為底層通用 AI 基礎(chǔ)模型;同時,每個大的行業(yè)確實也有它產(chǎn)品邏輯和背景,因此市場依然需要大行業(yè)的定制模型,整個需求是長期存在的;另外,未來供電和能源問題獲將成為國內(nèi)發(fā)展大模型的另一重要力量。

以下是由鈦媒體AGI 整理的本次沙龍部分對話內(nèi)容:

鈦媒體:Sora已經(jīng)發(fā)布兩個月了,那么從你們二位來看,Sora帶來了哪些不一樣的特點?它為什么能夠理解世界在時間和空間上的連續(xù)性?

盧樂煒:從學術(shù)的角度來說,Sora利用了一個比較powerful的視頻encoder去做一個時空的patchify的一個抽取。Sora有一個更強的時空建模,在整個stage中把實際收益大大往前挪。此外還有在另一塊很大的收益上,Scaling law(尺度定律)確實起到很大的作用。如果國內(nèi)的研究團隊有這種充分的資源和基礎(chǔ)設(shè)施去支持,肯定也可能更早去實現(xiàn)這個效果。當然OpenAI不愁資金,更方便把我們這個愿景給實現(xiàn)了。

張旭東:我對Sora的看法是這樣的,擴散模型(diffusion model)本質(zhì)是做一個概率分布,隨著模型規(guī)模越來越大,概率分布越逼近于真實,生成效果也就變得更加逼真。

比如在圖像生成任務(wù)中,在一開始模型規(guī)模還沒有很大的時候,會容易出現(xiàn)人臉人手的崩壞、肢體位置不協(xié)調(diào)等問題。但隨著模型變得越來越大,圖像的語義理解、美觀性、可控性方面的水平就能得到提升。視頻任務(wù)的Sora 本質(zhì)也是這個原因,基于diffusion  transformer融合架構(gòu),不斷提升模型容量,生成效果就可以得到優(yōu)化。

OpenAI不僅是在視頻,在其他領(lǐng)域還有一些沒披露的遠大目標。那種目標是我們一聽就覺得是非常難實現(xiàn)的??赡墁F(xiàn)在我們看到的是Sora,但再過一年又會是另外的東西,OpenAI 確實走在一個宏大目標的道路上。

鈦媒體:相比Runway、PIKA,或者是Stable Diffusion(SD 3.0)等來說,Sora的核心優(yōu)勢有哪些?你們二位能否簡單說說這種視頻模型,和多模態(tài)模型的區(qū)別?

張旭東:我認為Sora還不能稱之為一個特別完善的多模態(tài)。

真正的多模態(tài)應該是什么樣的,同樣以圖文場景舉例,很多真實需求其實是“圖文-圖文”的交互,比如跟設(shè)計師溝通設(shè)計需求,就是一個典型的“圖文-圖文”的交互,指著一張圖說要怎么怎么改,這里局部做些編輯,或者改下風格,輸入既有圖片,又有文字指令,設(shè)計反饋回來也是圖和文,都是圖文交錯的形式。

那讓AI來做的話,理想狀態(tài)是,輸入圖片加一些限制的指令條件,模型在理解的基礎(chǔ)上直接生成出來。但現(xiàn)實卻是做編輯是一套算法,做風格生成又是另外一套算法,比如使用GPT-4 Turbo。有點像是“一個聾子搭著一個啞巴”,兩個人一起協(xié)同去干活。本質(zhì)上這個模型還不能真正的理解多模態(tài)的輸入,然后再轉(zhuǎn)化成一個多模態(tài)的輸出。

視頻任務(wù)是一樣的,甚至會更復雜一點。但我認為Sora比Pika、Runway更近一步,Runway、Pika只是單純的跨模態(tài),Sora 在架構(gòu)上做了更多的設(shè)計,用transformer替代了U-Net,將 Transformer 和擴散模型進行了融合。我認為Sora的架構(gòu)是有潛力去支撐起圖文視頻或者更多模態(tài)的輸出。但就Sora 的形態(tài)來說,離多模態(tài)還是有挺大距離的,我覺得到目前為止還沒有一個真正意義上的多模態(tài)模型出現(xiàn)。

鈦媒體:Sora現(xiàn)在還沒有開放,背后原因是什么?

張旭東:Sora還是一個比較單獨的架構(gòu),目前這個架構(gòu)還是有很多任務(wù)是實現(xiàn)不了的,只能去做視覺內(nèi)容相關(guān)的一些東西,還是在有限的任務(wù)內(nèi),可能未來Sora還需要 和GPT做一些融合才行。

盧樂煒:我覺得Sora在那個moment推出可能也是一種偶然。像GPT-4已經(jīng)發(fā)布那么久了,然后再看手里的東西,Sora正好是一個蠻不錯的有爆點的東西,所以O(shè)penAI先推出來。他們自己也聲稱這也不算是產(chǎn)品發(fā)布,只是一個技術(shù)Preview。

再聊回剛剛說的多模態(tài)大模型,這本身不是一個新詞,這個詞到現(xiàn)在概念都換過好幾次內(nèi)容。你說Sora是多模態(tài)大模型也ok。那一般來說多模態(tài)大模型更多的像是GPT-4v,偏向于圖文理解,但多模態(tài)最終的核心就是做多模態(tài)互信息的理解,無論是基于圖文對、視頻文本對、基于理解這個路線做互信息,還是說基于視頻流,它可能是弱文本重視頻的客戶信息,無論是基于對什么是一個更高效的方式,這兩個事情是殊途同歸的。它本身不是互斥而是一體的。

我判斷多模態(tài)大模型、文生視頻模型本身就是一體的,而且我覺得Gemini 大概率也是走這個路線?,F(xiàn)在它的銜接可能是偏文本,那后面可能是特征維度的銜接。因為本質(zhì)多模態(tài)大模型現(xiàn)在encoder輸入,然后再引入一個多模態(tài)核心Core。現(xiàn)在Core都升級到圖文交錯了,它已經(jīng)是視頻、音頻、圖文包括各種模態(tài)的交錯,形成那個很強的Core,因為怎么高效地形成互信息的Core才是最重要的,那可能在接它的下游,所謂decoder,之后核心要做的就是核心互信息的Core特征。但是它是不是真的能學得到這個互信息,它可能有,但是不一定有那么強,所以最終有可能是encoder輸入,然后各種模態(tài)也能decoder輸出,任何一個路徑它都能走。

鈦媒體:近期業(yè)內(nèi)有很多非Transformers的架構(gòu)出現(xiàn),比如谷歌、斯坦福的團隊都發(fā)布了Transformer架構(gòu)模型,為什么大家又開始追非Transformer?這是否意味著Transformer開始被拋棄了?

盧樂煒:我覺得首先追求Transformer Attention的線性化在沒有現(xiàn)在AGI大模型的年代就有了,線性Attention復雜度的這個追求某種程度上還是在Transformer的基礎(chǔ)上修改的。比如Yi Tay,他在Google期間做了一個很實際的工作就是線性化Transformer。那這算不算非Transformer架構(gòu)?如果算那非Transformer架構(gòu)以前就多的去了,因為這里核心的關(guān)注點其實就是他Attention隨著Context變長的計算復雜度增長,那現(xiàn)在當然有像Mamba很火,包括把RNN 的經(jīng)驗帶回來的像RWKV,這些我們內(nèi)部實際的推導過根本的一些公式表達,其實它是能一個統(tǒng)一的表達去表示的,所以我們也在內(nèi)部研發(fā)具有創(chuàng)新性的機制。

還有一個最大的痛點就是,如果我們未來面向多模態(tài),毫無疑問是要面臨視頻的處理。這一點其實Gemini 1.5 Pro已經(jīng)展示出來了,你的上下文支持需求 會變得極端的長。假如你把所有的幀抽幀處理,那兩個小時的電影,甚至多部電影十個小時的視頻內(nèi)容給到模型,那上下文需要多長,目前100萬tokens的上下文夠嗎?200萬夠嗎?目前百萬級上下文通過工程來做能支持得很好,但萬一接下來的話多模態(tài)需要的上下文長度就是1000萬1億甚至更大了?那不可能再繼續(xù)依賴工程優(yōu)化來覆蓋產(chǎn)生的這么大的cost,所以注意力機制線性化也成為現(xiàn)在大家很迫切需要的必然,也所謂的現(xiàn)在大家說不能用Transformer架構(gòu),其實我個人是不大喜歡強調(diào)說這就是非Transformer架構(gòu),因為它本身就是對他做注意力機制做改造。

過去曾經(jīng)很多同僚對他魔改過100遍了,當然現(xiàn)在的改進會更徹底一些比如RNN能不能拿回來,包括加Batch支持的各方面的改進,包括RWKV第五版,第六版往這個方向思路改進, 當然現(xiàn)在還有一個大模型研發(fā)上路徑依賴的問題,如何利用這些新型結(jié)構(gòu)真正的訓練出一個典型體量的大小大模型,確實需要很多的資源去驗證和調(diào)優(yōu)。

張旭東:從長期來看,架構(gòu)肯定還是有許多需要去改進的點。但從比較近期或者做產(chǎn)業(yè)這個角度上來講,我自己感覺這塊工作很像實驗科學。你加一些什么東西,它得到什么樣的結(jié)果,設(shè)計什么樣的訓練策略,它能有什么結(jié)果。每次需要做很多實驗,才能得出一些有效結(jié)論。

所以不管是從經(jīng)驗還是熟悉程度出發(fā),團隊其實很難去貿(mào)然地嘗試一個全新的架構(gòu),我覺得產(chǎn)業(yè)內(nèi)還是會投入更多精力在主流架構(gòu)上面去做工作。

鈦媒體:此前,機器學習采用的貝葉斯、無監(jiān)督算法,無限逼近right值的形態(tài)是 AI 發(fā)展的必經(jīng)之路。但ChatGPT、Sora一出來,AI技術(shù)格局發(fā)生了巨大變化,為什么會出現(xiàn)這種現(xiàn)象?接下來,模型層面是否還會有新的架構(gòu)進行替代?

張旭東:我自己感覺變化還是非常大的。最早我也做過一些像廣告投放的工作,它用簡單的邏輯回歸模型達到的效果也不錯,包括在金融領(lǐng)域也有很多應用。但它本身模型架構(gòu)特別簡單,你很難給它喂上比較多的數(shù)據(jù)。

而OpenAI想做所謂的AGI,讓其擁有類似人類的智慧,那怎么實現(xiàn)?他們當時提出,知識來源于數(shù)據(jù)的壓縮。也就意味著,如果能夠把全世界的知識壓縮到一起,那就能夠擁有足夠多的智慧,然后就能把AGI做出來。從這個思路出發(fā),首先就要求這個模型的架構(gòu)要能夠去吃足夠多的數(shù)據(jù),在大規(guī)模的數(shù)據(jù)上要能夠訓練得起來,Transformer 架構(gòu)就非常適合。

當然過程中他們也嘗試過像LSTM 架構(gòu),但訓練效果不太理想。后來Transformer 出來了,他們很快切換到Transformer 上面去。從OpenAI發(fā)布的一系列技術(shù)論文來看,很早之前他們就通過GPT2驗證了Scaling law,只是當時大家都沒有意識到這個的重要性。直到GPT3參數(shù)量提升到1750億,Scaling law的作用更明顯的體現(xiàn)出來,這時候Scaling law的價值才真正的大范圍的被認識到,所以我覺得核心還是需要一個架構(gòu)去壓縮更多的數(shù)據(jù),然后剩下的比如做很多的卡的并行,做大規(guī)模的訓練,其實都是為了Scaling law服務(wù)的。

盧樂煒:因為Scaling law是在當時GPT-3.5的推出,在大家口中變得特別火熱,但我個人想說,其實Scaling law從來不是一個新的東西。深度學習發(fā)展的本質(zhì)其實就是Scaling law起作用。甚至20年前到現(xiàn)在,Scaling law一直都在起作用,使得后面有深度學習的發(fā)展,包括現(xiàn)在AGI的發(fā)展,因為現(xiàn)在確實我們有了更好更多的計算資源了。過去最知名的神經(jīng)網(wǎng)絡(luò)突破就是Lecun年輕的時候用一個CPU對吧,386去訓練一個CNN出來,也是首次Mnist 上取得突破性的成績。那為何不是基于決策樹或者貝葉斯的各種東西。其實在以前包括周老師也做過堆?;臉渚W(wǎng)絡(luò)模型,也都嘗試過深度學習化的改造,那為啥不行?就是Scaling law的本質(zhì)是如何能更快的吃數(shù)據(jù),見過更多的數(shù)據(jù),更快的訓練,計算Gradient去快速下降,確實基于神經(jīng)元是最最精簡的形式,特別能迅速優(yōu)化訓練迭代,所以我們的框架設(shè)計其實都在不斷的做減法。

為什么我們之前還會討論大模型設(shè)計究竟應該是encoder加decoder還是decode only還是prefix那時候提出了一大堆方法,那為啥最終是decode only,因為這么做結(jié)合Scaling law確實太高效了。無論從數(shù)據(jù)的準備還是整個架構(gòu)的高效訓練,都非常好,能很高效地見更多的數(shù)據(jù)。包括最早的GPT,它基于的結(jié)構(gòu),為何會選一個相對更胖,層數(shù)更少的結(jié)構(gòu)?Scaling law確實就是OpenAI篤定的信仰。

我們回顧過去,統(tǒng)計學習就是希望統(tǒng)計更多的數(shù)據(jù),得出更客觀的規(guī)律或在高維的數(shù)據(jù)里面找到一個更精準的決策邊界。甚至我見過全世界所有數(shù)據(jù),判別出一個特別準的邊界,那可能就是一個完美的模型,有個任何一個地方都不會有偏的一個邊界。

另外OpenAI決定做視頻肯定不是因為要做Sora才開始搞這些東西,他這么強大的工程團隊是一個非常強的支撐。其實我們還有一個觀察就是,關(guān)于很多新的、隨著這波浪潮起來的很多老師的初創(chuàng)公司,他們以前是做搜索起家的,也很快把這個語言大模型研發(fā)出來,并且整體的質(zhì)量也是很不錯。側(cè)面驗證了前期數(shù)據(jù)工程的積累,因為過去做搜索很明顯也是跟數(shù)據(jù)打交道,然后做ranking各種東西,包括filter,對各種管線的需求都特別豐富。那OpenAI為啥在一個moment爆發(fā),我個人覺得和微軟有關(guān)。

微軟的必應團隊,cosmos那些集群建設(shè)特別完善,你想要什么數(shù)據(jù),他很快就能用幾十萬計的計算節(jié)點、CPU節(jié)點立刻發(fā)力,想要的各種filter 的條件都寫出來,數(shù)據(jù)支撐還是很強大的。

很多科研的資深老師也很了解,在高校包括李飛飛最近也經(jīng)常呼吁要建一個國家級的超算集群給到高校去用,因為計算資源就是一道門檻,是起到很大的幫助作用的。

鈦媒體:商湯是怎么做多模態(tài)大模型的感知能力以及視頻模型,過去一年日日新有哪些變化?

盧樂煒:我是做視覺起家,大概2019年加入商湯,當時在做的一個事情就是視覺的大模型,我們一直到現(xiàn)在也在做,我們近期發(fā)布的InternVL也是現(xiàn)在業(yè)內(nèi)性能最強的視覺基座大模型。關(guān)于純語言模型,大家路線就比較清晰明確,那到多模態(tài)時代就需要在之前視覺等各個模態(tài)方面經(jīng)驗都有很好的積累,可能才能發(fā)揮這樣的一個威力。

我們大概在2023年初開始做切入多模態(tài)大模型,到那年年中就有一個比較強版本,也給到我們很多B端客戶做了產(chǎn)品支撐。我們一些很知名的客戶給了反饋,就包括最近發(fā)布了車的客戶,在他的評測里面展現(xiàn)了非常不錯的性能。我們做的就是一個通用大模型,它能賦能各種比如像小愛同學這類智能助理。

可能我們沒有太多宣傳,其實我們有一些也是比較引用量比較高的一些文章。在文生視頻領(lǐng)域我們也是有一個比較強的學術(shù)積累,甚至在更早時間點已經(jīng)開始堆一個比較強的規(guī)模。但沒有投入特別多的力量去做宣傳。

在文生視頻領(lǐng)域我們也有一個比較強的學術(shù)積累,甚至在更早時間點已經(jīng)開始堆一個比較強的規(guī)模。

鈦媒體:場景化模型的客戶需求在哪里?為什么大家老講“場景”問題?

張旭東:生數(shù)團隊主要提供圖像生成、3D模型生成、視頻生成能力,主要面向創(chuàng)意內(nèi)容生產(chǎn)場景。比如在設(shè)計領(lǐng)域,幫助創(chuàng)作者在初期生成大量的草圖、概念圖,更好的理解創(chuàng)作需求并尋找創(chuàng)作靈感,同時提高創(chuàng)作效率。包括游戲領(lǐng)域涉及大量的3D素材,傳統(tǒng)流程需要手動建模,時間成本投入巨大,通過我們的圖生3D的能力,自動生成游戲道具、玩家形象等各類3D模型,提升游戲開發(fā)效率。

但目前影響實際使用的關(guān)鍵還在于模型能力。如果模型能力沒有那么強,很多需求其實解決不了,這種時候,要么是在限定條件下,讓模型去完成一部分任務(wù),或者是后期加入人工來完成,在過程中不斷去優(yōu)化。好的是,大家都很關(guān)注,都會想著怎么先把大模型用起來,不會被時代拋下去,這種意識能很好的推動技術(shù)向前一步。

盧樂煒:在很多大家意想不到的領(lǐng)域,像鋼鐵行業(yè)、煤礦行業(yè),包括一些龍頭企業(yè),我們都在推動多模態(tài)落地的。他們有很多過去傳統(tǒng)的需要一些更精細定義,比如最簡單的生產(chǎn)安全,那你只能定義清楚各種模型去做,并且總是發(fā)現(xiàn)有遺漏的,畢竟之前依賴于人去提前去想。

我們?nèi)藶楹我^續(xù)學習,就是我們?nèi)苏娴囊朊靼?,學習其實不是我們的強項,人可能總是有遺漏的,所以我們需要設(shè)計一套更文明的方法,讓它自己去自主學習,這就是一個很好的場景和契機。包括像電力系統(tǒng)做巡檢,很多電網(wǎng)系統(tǒng)就在深山里頭,不可能派專家過去,危險性很高,那可能需要無人機巡檢,那我們?yōu)殡娋W(wǎng)企業(yè)定制的大模型就能完成檢修和電網(wǎng)調(diào)度的任務(wù),能發(fā)揮很大的作用

鈦媒體:最近端側(cè)模型比較火,AI PC、AI Phone概念也都被持續(xù)關(guān)注,無論是商湯還是生數(shù)也有布局相關(guān)的業(yè)務(wù)和技術(shù),我想知道,二位怎么看端側(cè)多模態(tài)模型的發(fā)展?

張旭東:端側(cè)的場景是很必需的。比如在手機相冊里輸入文字搜圖,或者快速摳圖等等,都是非常實用的場景。目前我們也跟一些手機廠商有相關(guān)合作,主要聚焦在人像場景。PC端也是一樣的,之前我們通過快捷鍵來一步步操作電腦,未來通過文字指令就能直接實現(xiàn)。我們現(xiàn)在與 AMD中國達成戰(zhàn)略合作,探索多模態(tài)大模型應用在端側(cè)的創(chuàng)新場景。

我個人感覺目前這個階段還是很難去把一個特別大的模型通用的東西搬到手機上,做的特別好,因為時間很短,大家去年才開始做大模型。但這個行業(yè)熱度很高,業(yè)內(nèi)都希望盡快去落地。所以,可行的還是先以一些小的點或者場景切入,先把體驗優(yōu)化好。

現(xiàn)在大家對數(shù)據(jù)的理解更深了,可以挑更好的數(shù)據(jù)。有些時候單純的數(shù)據(jù)量多不一定是個好事,優(yōu)質(zhì)數(shù)據(jù)更重要,再加上芯片也會迭代,我認為(AI PC)再過兩年就會讓大家覺得非常有用了。

盧樂煒:AI Phone是一個大的趨勢,因為過去千億、萬億參數(shù)模型,可預見的未來還是會跟隨GPT持續(xù)擴大。但是今年,從國內(nèi)來說,無論是學術(shù)上還是產(chǎn)業(yè)上一個大趨勢,端側(cè)模型能夠基于Scaling Law(尺度定律)能力做出小模型,整個技術(shù)性能也比過去強很多。

當然,你指望一個2B模型現(xiàn)階段能有多強 API 能力,也不現(xiàn)實,或者這種可能性需要我們不斷探索,包括數(shù)據(jù)工程、算法積累等再做端側(cè)小模型。因此,端側(cè)模型確實能力比過去要大的多,在很小的模型參數(shù)重做出10倍大模型的同等體驗,整個還是蠻有意思的。

回到 AI Phone上來說,終端廠商對于大模型回歸“普羅大眾”有很好的愿景,尤其通過 AI 技術(shù)把手機附加值增加更多。比如,小愛一天能幾千萬次調(diào)用,而千億模型成本很貴,我們要精打細算,因此通過AI Phone,讓更多人體會到這個大模型的落地成果,而且支撐智能手機持續(xù)增長。

未來,如果80%的模型都能在端側(cè)上去完成,20%在云端,而且存在一個相當可觀的速度,那么未來端側(cè)模型肯定有發(fā)展的前景。而從我們團隊來說,我們也在跟客戶磨合做 AI Phone 的演進,未來會有一些創(chuàng)新性場景,但很多東西確實需要時間去磨合端側(cè)模型鏈條。

鈦媒體:未來,AGI最終到底是通用模型,還是定制模型?

張旭東:首先,它(這一輪生成式AI)絕對跟之前有很大的不同。過去做一些智慧城市治理,關(guān)注800個治理問題,就找800個人采集800組數(shù)據(jù),然后去訓很多個小模型,最終項目交付會很“痛苦”,甲方也很痛苦。但今天不一樣了,如果我們想用GPT來做圖像識別,能夠得到很精確的定義,且比較通用化。整體來說,它的通用性比之前好很多,然后現(xiàn)在我們也可以看到一些新的框架,它能夠做的更加通用。我覺得未來還是比較光明的。

盧樂煒:現(xiàn)階段,大家應該都能很明確,離AGI還比較遠。隨著模型容量增大,更好的吸收各個不同領(lǐng)域的數(shù)據(jù),也許會有機會成為通用模型,因為有些大的行業(yè)還是長期需要底層通用基礎(chǔ)模型的,但每個大的行業(yè)確實也有它產(chǎn)品邏輯和背景,這個我們不能忽略。未來,我覺得所謂通用性 AI,我們需要有一些信念,但回到行業(yè)定制,我們客戶還是希望能有廠商緊密響應需求,本質(zhì)理念都還在,所以,我覺得一定程度上,市場依然需要大行業(yè)的定制模型,整個需求是長期存在的。

鈦媒體:Sora、ChatGPT如此火爆,國內(nèi)如何學習和創(chuàng)新追趕整個 AI 浪潮腳步?

張旭東:我覺得這個問題比較實際。首先,現(xiàn)在確實國內(nèi)很多團隊都在投入做生成式 AI 和大模型,但我覺得,最終肯定是只有幾家能做出來。追趕Sora肯定是沒問題的,國內(nèi)確實需要這樣的模型,畢竟Sora不是中國本土的,我們需要自己有這樣的東西。

其次,中國大模型能否趕超,肯定還是很難的,因為它是一個長期的過程,不是說我今天趕上了、這個月趕上了,就代表我永遠趕上了,競爭對手也在進化。OpenAI還在做更多的東西,包括“星際之門”這種花費1,000億美金的計算基礎(chǔ)設(shè)施,對國內(nèi)是很大的挑戰(zhàn),所以,我覺得差距肯定是會有,而且有可能會長期存在。

但是大模型能不能做成也不完全就是“鈔能力”來決定的,比如,Meta就有很多錢和幾十萬顯卡,然后Google也有很多錢,但他們也沒做出Sora。所以我覺得,中國大模型可能和最好的效果會有距離,但結(jié)合中國的場景依然能作出有價值的東西,用戶永遠是看性價比的,而不是誰的模型最 SOTA。

盧樂煒:我覺得最近也比較有趣,就比如剛提到像“星際之門”,包括黃仁勛也說,未來制約人工智能發(fā)展是電力。我們當時還比較有趣的說,那是不是意味著我們有機會“彎道超車”。

隨著時間發(fā)展,我們的大裝置需要更多的能源,這部分其實是和國外同行同步的,接下來我們可能要從液冷,轉(zhuǎn)向“水冷”,整個機房整個機子的設(shè)計完全不一樣了。這些都是對就行業(yè)的共識,供電直接就多一個0了。未來,我覺得大模型發(fā)展就還很有趣,供電問題會成為國內(nèi)發(fā)展大模型的另一重要力量。

(本文首發(fā)鈦媒體App,作者|任穎文、林志佳、AI科技組,編輯|林志佳)

 

本文系作者 任穎文、林志佳、AI科技組 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學習,不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

15:25

美軍地面戰(zhàn)數(shù)周速決方案曝光,欲復刻“42天滅伊”神話

15:24

本周新增范式智能、斯比特等4家上市輔導備案企業(yè)

15:23

本周新增寶蓋新材、雙林股份等3家境外上市備案企業(yè)

15:10

日本民眾舉行抗議集會,敦促日本政府就強闖使館事件道歉

15:07

華創(chuàng)證券:四重維度透視中國寬基指數(shù)的“中游制造”成色

15:01

國內(nèi)兆瓦級液氫燃料航空發(fā)動機首次整機性能達標

14:30

河南:聚焦老年用品研發(fā)生產(chǎn)培育龍頭企業(yè)和產(chǎn)業(yè)集群,建設(shè)高標準養(yǎng)老產(chǎn)業(yè)園區(qū)

14:28

河南:到2027年養(yǎng)老服務(wù)等領(lǐng)域民政服務(wù)供給不斷優(yōu)化

14:02

宇樹科技王興興:具身智能GPT時刻大概還需兩到三年

14:01

阿塞拜疆首都地區(qū)降水量打破百年紀錄

13:54

蒙古國執(zhí)政黨選定總理候選人

13:32

本周南向資金凈買入251億港元,泡泡瑪特凈買入超36億港元

13:17

沙特每日700萬桶石油繞過霍爾木茲

13:16

中東兩大鋁廠遇襲,恐影響全球供應鏈

12:58

全國累計器官捐獻志愿登記人數(shù)超過733萬

12:46

宇樹科技具身智能體驗館亞洲首店將于5月底落地上海

12:44

洛杉磯10萬人參加“不要國王”抗議,多人被捕

12:37

今年前兩月霍爾果斯口岸果蔬出口增長29.3%

11:48

中國首臺商用12兆伏串列加速器成功下線

11:40

美副總統(tǒng)稱無意滯留伊朗,將很快撤出

掃描下載App