圖片來源@視覺中國

文 | 貝克街探案官,作者 | 鎮(zhèn)西

沒想到今年第一個引爆科技圈的消息,還沒等復工就刷了屏,復工后又直接推動相關(guān)企業(yè)市值爆拉,A股25家相關(guān)企業(yè)市值共計增長888.42億元,兩個交易日平均漲幅26.94%。

   

2 月 16 日凌晨,OpenAI 發(fā)布首個文生視頻模型 Sora,是OpenAI繼ChatGPT之后,推出的另一款具備顛覆行業(yè)能力的AI應(yīng)用,Sora能夠僅僅根據(jù)提示詞,生成60s的連貫視頻,遠超行業(yè)目前大概只有平均“4s”的視頻生成長度。

“平均4s”的長度指代非常明顯,就是Runway和PIKA。也曾短暫引爆過A股文生視頻的炒作,但無論是強度還是持續(xù)性,都遠不如Sora。

在Sora問世之前,Runway和PIKA被視為文生視頻領(lǐng)域的龍頭,但在sora生產(chǎn)的視頻出現(xiàn)后,業(yè)界普遍認為Sora可以吊打Runway和PIKA。

Pika創(chuàng)始人郭文景曾在接受采訪時表示,“視頻現(xiàn)在沒有很好的算法,它不是一個規(guī)?;膯栴},不是說現(xiàn)在大家的GPU不夠多,很多時候其實是算法上還沒有很好的一個思路。”并認為Sora的發(fā)布“是一個很振奮人心的消息,我們已經(jīng)在籌備直接沖,將直接對標Sora。”

和Runway和PIKA相比,Sora產(chǎn)出的視頻時間更長,連貫性更好,其他模型產(chǎn)出的視頻甚至還有卡頓、場景突變等問題;在此基礎(chǔ)上,Sora的視覺細節(jié)更豐富,且清晰度更高。對比Sora和runway的視頻不難發(fā)現(xiàn),Sora的視頻內(nèi)容更符合常人對“視頻”的理解,而runway的視頻內(nèi)容更像是“GIF”動圖。  

業(yè)內(nèi)普遍認為,Sora的出現(xiàn),預(yù)示著一個全新的視覺敘事時代的到來,它能夠依據(jù)客戶的文本提示,將人們的想象力轉(zhuǎn)化為生動的動態(tài)畫面。Sora作為一款通用的視覺數(shù)據(jù)模型,其卓越之處在于能夠生成跨越不同持續(xù)時間、縱橫比和分辨率的視頻和圖像,甚至包括生成長達一分鐘的高清視頻。

從成片來看,假以時日,伴隨熟練運用Sora的工程師、自媒體人越來越多,電影業(yè)恐將在此次技術(shù)變革中迎來一次大洗牌,畢竟每一部影視作品成片之前都要先有個好劇本,好劇本問世后,用Sora就可以實現(xiàn)視頻輸出了。

但就目前而言,實現(xiàn)這個目標為時尚早,因為整個Sora產(chǎn)業(yè)鏈正處于萌芽期,國內(nèi)目前尚未有一家公司可以與之抗衡,就連字節(jié)都直言“Boximator”目前還無法作為完善的產(chǎn)品落地,令人略有欣慰的是,已經(jīng)涌現(xiàn)出大批企業(yè)試圖搭上Sora的快車。

這也不禁讓人想起ChatGPT發(fā)布后,大量企業(yè)跟進推出“自研大模型”,并不斷呼嚎趕超OpenAI,結(jié)果人家這次直接來個降維,借著推出Sora繼續(xù)AI應(yīng)用市場遙遙領(lǐng)先。

01 Sora是否難以復制

Sora采用了Transformer架構(gòu),和ChatGPT不同的是,大語言模型通過token將各種形式的文本代碼、數(shù)學和自然語言統(tǒng)一起來,Sora則通過視覺包(patchs)實現(xiàn)了類似的效果。

Sora和ChatGPT最大的區(qū)別,就是Sora為擴散模型,它接受輸入的噪聲包(以及如文本提示等條件性輸入信息),然后被訓練去預(yù)測原始的“干凈”包。

重要的是,Sora是一個基于擴散的轉(zhuǎn)換器模型,這種模型已經(jīng)在多個領(lǐng)域展現(xiàn)了顯著的擴展性,包括語言建模、計算機視覺以及圖像生成等領(lǐng)域。擴散轉(zhuǎn)換器在視頻生成領(lǐng)域同樣具有巨大的潛力,不同訓練階段下,使用相同種子和輸入的視頻樣本對比,結(jié)果證明了隨著訓練量的增加,樣本質(zhì)量有著明顯的提高。

Sora研究員專門訓練了一個網(wǎng)絡(luò),專門負責降低視覺數(shù)據(jù)的維度。這個網(wǎng)絡(luò)接收原始視頻作為輸入,并輸出經(jīng)過壓縮的潛在表示。Sora模型就是在這個壓縮后的潛在空間中接受訓練,并最終生成視頻。此外,研究員還設(shè)計了一個解碼器模型,它可以將生成的潛在表示重新映射回像素空間,從而生成可視的視頻或圖像。  

當給定一個壓縮后的輸入視頻時,從中提取出一系列的時空包,這些包被用作轉(zhuǎn)換token。這一方案不僅適用于視頻,因為視頻本質(zhì)上就是由連續(xù)幀構(gòu)成的,所以圖像也可以看作是單幀的視頻。

通過這種基于包的表示方式,Sora能夠跨越不同分辨率、持續(xù)時間和縱橫比的視頻和圖像進行訓練。在推理階段,研究員只需在適當大小的網(wǎng)格中安排隨機初始化的包,就可以控制生成視頻的大小和分辨率。

僅從原理層面來看,推出Sora這種文生視頻大模型并不難,但國產(chǎn)廠商在推出進度上紛紛落后于OpenAI,此前曾有消息稱字節(jié)推出了Boximator,它可以通過文本精準控制生成視頻中人物或物體的動作。

對此,字節(jié)跳動相關(guān)人士回應(yīng)稱,Boximator是視頻生成領(lǐng)域控制對象運動的技術(shù)方法研究項目,目前還無法作為完善的產(chǎn)品落地,距離國外領(lǐng)先的視頻生成模型在畫面質(zhì)量、保真率、視頻時長等方面還有很大差距。

其他發(fā)布公告的企業(yè),要么是想要介入這個賽道,要么就是可以為該行業(yè)提供硬件設(shè)備支持,因為A股市場中沒有文生視頻的企業(yè),所以退而求其次,找到了一家文生圖產(chǎn)品獲得市場認可的企業(yè)炒作,即因賽集團,該公司的InsightGPT的文生圖功能已在時尚珠寶和快消兩個賽道的營銷領(lǐng)域商用,并且具有一定市場認可度。

其他的則是一些算力租賃公司獲得市場爆炒,至于想要切入這個行業(yè)的公司就更多了,不勝枚舉。   

02 Sora商用,會切走誰的蛋糕

Sora之所以會引起市場轟動,主要是因為其“文生視頻”的功能直接讓影視從業(yè)人員集體焦慮。

北京天工異彩影視科技有限公司的副總裁兼CTO周輝公開表示,Sora生成的視頻質(zhì)量足夠震撼,可以縮短電影拍攝周期。

其實周輝的表達還是保守了,只要Sora工程師足夠多,硬件設(shè)備不受限,整個影視業(yè)的演員都可以省了,動輒過億的演員費用也可以省下,那現(xiàn)在已經(jīng)成名的影視劇明星,想要上鏡就要另謀出路,當然制作方也可以獲得已成名演員的授權(quán)后上鏡。

同時場地租賃、置景等費用也會隨之下降,這也給了很多非專業(yè)團體在影視業(yè)一展身手的機會,換言之,今天是影視業(yè)最容易的一天,以后每一天都比今天難上加難,值得注意的是,這一邏輯對視頻依賴較大的廣告業(yè)也通用。

除此之外,國內(nèi)剛起步的科幻電影可發(fā)揮空間也將瞬間提升。之前一直說《三體》影視化不成功,是因為很多場景制作困難,而Sora的出現(xiàn),可以有效解決這個問題,C 內(nèi)容的專家化也將創(chuàng)造新的風格與形式,增強影視內(nèi)容的吸引力與豐富度。用人方面,特效師因為具備基礎(chǔ)的工作邏輯,培訓周期也比其他沒有經(jīng)驗的人群更短。

但在Sora工程師大規(guī)模入局之前,短期Sora還是一個工具性產(chǎn)品,某種程度上幫助影視制作方降本增效。 

除影視行業(yè)外,游戲行業(yè)也將借助Sora產(chǎn)生巨大變革,Sora對于物理世界的理解和模擬可以與游戲場景開發(fā)高度適配,Sora可以幫助游戲開發(fā)者創(chuàng)立角色或背景故事。OpenAI也在Sora技術(shù)報告中提出,Sora能夠模擬如視頻游戲的數(shù)字化過程,根據(jù)官方視頻演示,Sora能在控制《Minecraft》游戲角色進行基本操作的同時,高質(zhì)量動態(tài)渲染游戲世界。

可以預(yù)見,Sora未來將可能被應(yīng)用生成游戲動畫和場景等,增加游戲情感故事背景提高可玩性,游戲開發(fā)者的成本也將隨之降低。簡言之,又會有部分人因此面臨崗位變動。

03 學會使用AI工具

這種背景下,不會使用AI工具的從業(yè)者將會伴隨科技進步,被時代無情淘汰,而掌握AI工具的外行業(yè),跨行也不會再體會“翻山越嶺”般的困苦,當今大量自媒體從業(yè)者,也有機會進一步落地自己的創(chuàng)意。

至于賣課教別人怎么使用AI工具的機構(gòu),誰讓人家先掌握知識呢,“知識就是力量”已經(jīng)成為亙古不變的真理,每當科技迭代出現(xiàn)新的生產(chǎn)力工具,都會有相應(yīng)的課程出現(xiàn),當年Word的使用也是一門技術(shù),路邊的打印店甚至招了很多年“打字員”,而如今打字員早已經(jīng)不是一個職業(yè),而是每個打工人都必須掌握的技能。

假以時日,使用AI工具或許也會成為每個打工人必須掌握的技能,但就目前而言,這仍是一個新興就業(yè)崗位,各位也沒必要因為科技進步而焦慮,畢竟機遇總是伴隨危機出現(xiàn),機會也是給有準備的人。  

 

本文系作者 貝克街探案官 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學習,不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容
  • AI工具可以幫助打工人提高工作效率和準確性

    回復 2024.02.24 · via android
  • 這個sora最近是真火

    回復 2024.02.24 · via android
  • 利用工具是人類同其他動物的區(qū)別

    回復 2024.02.24 · via android
  • 本來都是為大家服務(wù)的

    回復 2024.02.24 · via iphone
  • 掌握AI工具也可以增強打工人的競爭力

    回復 2024.02.23 · via h5

快報

更多

11:48

中國首臺商用12兆伏串列加速器成功下線

11:40

美副總統(tǒng)稱無意滯留伊朗,將很快撤出

11:39

中關(guān)村兩院具身通用智能基座模型與社會模擬器等科研成果發(fā)布

11:37

清明檔新片預(yù)售票房突破2000萬

11:30

約千人“包圍”洛杉磯政府機構(gòu)大樓,兩人被捕

10:59

中穎電子:有序推進車規(guī)芯片研發(fā),新產(chǎn)品預(yù)期今年推出

10:50

德研究報告:中國工業(yè)數(shù)字化水平全球領(lǐng)先

10:39

訊飛醫(yī)療2025年營收增長25%,虧損收窄

10:14

廣東省市場監(jiān)管局聯(lián)合廣州市市場監(jiān)管局召開平臺企業(yè)座談會

10:10

貝殼啟動戰(zhàn)略變革:管理者站上一線,經(jīng)紀人KPI減負

10:06

中東戰(zhàn)事致燃油短缺,越南多家航司將削減航班數(shù)量

10:06

新研究估計全球每年逾25萬人死于腦膜炎

10:02

印尼16歲以下人群“社媒禁令”正式生效

10:01

調(diào)查顯示日本市場逾2500種食品4月份將漲價

10:01

西南首個商業(yè)衛(wèi)星遙感測運控站啟用

09:25

美國全國范圍爆發(fā)反對特朗普政府集會,預(yù)計超900萬人參與,或為“美國歷史上規(guī)模最大”抗議活動

09:23

馬斯克旗下AI公司初創(chuàng)“11羅漢”全部離職

09:21

巴基斯坦稱伊朗已同意再放行20艘巴船只通過霍爾木茲海峽

09:20

法國警方挫敗美資銀行門前爆炸企圖

09:18

美軍否認其人員在迪拜遭襲

5

掃描下載App