圖片來源@視覺中國

文|智能Pro

科技圈當下最火話題,非Sora莫屬。Sora的影響力也早已沖出硅谷、輻射全球,在大洋彼岸的中國掀起滔天巨浪。

在二級市場,Sora概念股連日走高,勢頭比起當初的ChatGPT概念股有過之而無不及,比如2月20日,A股、港股Sora概念股板塊就有超過60只個股飄紅,其中5家企業(yè)股價暴漲40%以上。

在科技互聯(lián)網圈,爭奪中文版Sora首發(fā)權,成為巨頭的新目標。不過和當初的中文版ChatGPT首發(fā)爭奪戰(zhàn)相比,中文版Sora的研發(fā)難度也更大,大廠們大多面露難色。此前被盛傳將推出首個中文版Sora的字節(jié)跳動,就在20日辟謠,稱相關產品的效果距離Sora還有很大差距。

在Sora橫空出世前,國內“千模大戰(zhàn)”早已陷入膠著狀態(tài),未曾想,風口突變,從圖文生成轉向視頻生成,“千模大戰(zhàn)”也將進入全新階段。

在上一階段稍稍落后的字節(jié)跳動在視頻業(yè)務上有先天優(yōu)勢,自然不會錯過這個彎道超車的機會,這不僅事關大廠的面子,更是為了捍衛(wèi)其核心業(yè)務——抖音CEO張楠突然辭職專攻剪映,也被視作是字節(jié)重視AIGC的動作。

雖然沒有中文版Sora,但字節(jié)一直在死磕AI

在文本生成式大模型領域,字節(jié)的起步時間無疑是比百度、阿里巴巴等大廠要晚,這也讓字節(jié)的高層十分懊惱。CEO梁汝波就在內部講話中直言,很難相信技術團隊直到2023年才討論GPT,要知道業(yè)內做得比較好的大模型企業(yè)都是在2018-2021年起步的。

好在,知恥而后勇,還有亡羊補牢的機會。

一開始,字節(jié)希望以量取勝,在去年下半年扎堆上線了十多款AI產品。

這當中,既有大廠標配的基礎大模型“云雀”,也有在C端最流行的AI對話類應用,如“豆包”、“話爐”和“抖音小晴”,還有輔助創(chuàng)作的AI工具,如劇情創(chuàng)作平臺“BagelBell”、電商內容創(chuàng)作應用“即創(chuàng)”等。由字節(jié)技術副總裁洪定坤率領的新部門Flow,則在背后為這一系列AI產品保駕護航。

(圖片來自豆包官網)

據(jù)悉,字節(jié)還在內部開放了大量活水崗位,希望調集全公司最優(yōu)秀的技術、產品人才集中精力搞AI。除了前面提到的洪定坤外,原飛書產品副總裁齊俊元、抖音社交負責人陸游、字節(jié)跳動產品與戰(zhàn)略副總裁朱駿等高管也先后馳援。甚至在國外,字節(jié)跳動也組織了50多人的研發(fā)團隊,負責推進“Cici”項目。

然而,字節(jié)在文本生成大模型這條賽道確實是落后了,即便后期不斷加大投入,恐怕也很難抹平差距。明白這個道理后,再結合自身的業(yè)務狀況,字節(jié)開始發(fā)力圖像、視頻生成領域,試圖確立差異化優(yōu)勢。而在春節(jié)前后,內部的一系列人事變動、團隊重組,則是其為視頻生成大模型奮力一搏的最佳證明。

2月9日,張楠宣布辭去抖音集團CEO一職,原因是要把精力集中到剪映的發(fā)展上。眾所周知,張楠是字節(jié)內部最有權勢的高管之一,很多人將其視為僅次于集團CEO梁汝波的二把手。其掌管的抖音集團,則是字節(jié)最重要的業(yè)務,此次自降身份掌管剪映,在內部、外界都引發(fā)了不少爭議。

如今再看,作為一款視頻剪輯及輔助創(chuàng)作工具,剪映是字節(jié)業(yè)務版圖里和視頻生成大模型契合度最高的一環(huán),是承載AI視頻創(chuàng)作業(yè)務的最佳抓手。像張楠這種級別的核心高管主動接管剪映,恰好說明字節(jié)對該項目的重視。

有消息指出,張楠去年已經把大部分精力花在剪映身上,抖音的各項業(yè)務分別交給韓尚佑(抖音集團新任CEO)、魏雯雯(抖音電商總裁)、蒲燕子(抖音本地生活負責人)等高管接手。

去年11月,剪映就悄悄內測了一項名為“Dreamina”的AI輔助工具,用戶只需要輸入文字,即可生成創(chuàng)意圖像。算上研發(fā)周期,該項目的立項至少在去年二季度前。如果上述消息屬實,張楠帶領的團隊應該在更早的時候就接手了字節(jié)的AI產品研發(fā)工作。

張楠正式官宣辭任集團CEO之后,也有消息稱其帶領的團隊將推出一個全新的AI視頻生成軟件。如今,這款備受期待的產品——“Boximator”,終于浮出水面,這也是字節(jié)沖擊中文版Sora的王牌。

Sora攪動一池春水,大模型改造短視頻行業(yè)

據(jù)悉,字節(jié)內部對“Boximator”的定位為創(chuàng)新性視頻生成大模型,將通過控制對象運動的方式,精確控制視頻人物、物體的運動。該模型采集的訓練數(shù)據(jù)來自webVid-10M數(shù)據(jù)集,并在PixelDance和ModelScope兩個視頻生成模型中進行訓練。

然而,正如字節(jié)日前的回應那般,視頻生成大模型的研發(fā)難度比想象中更大。根據(jù)字節(jié)方面的說法,“Boximator” 保真率、畫面質量、視頻時長等方面距離Sora還有很大差距,暫時不具備落地的條件,預計還要2-3個月才能開放測試。

但2-3個月,可以發(fā)生很多事情——Sora可能已經迭代到更先進的版本,和尚未落地的競品拉開更大差距;其他競爭對手也可能迎頭趕上,搶在字節(jié)之前推出同類產品。

對于這些可能性,字節(jié)跳動心里肯定有數(shù),而且比誰都著急。原因很簡單:比起文本生成大模型,視頻生成大模型和字節(jié)跳動的短視頻、直播等核心業(yè)務關聯(lián)更緊密,影響也更大。

如果說搜索是第一個被ChatGPT顛覆的行業(yè),那么長/短視頻肯定是最有可能被Sora顛覆的行業(yè)。正如當初谷歌、百度、360等巨頭傾力投入文本生成大模型研發(fā)那樣,字節(jié)在視頻生成大模型這一戰(zhàn)中也不容有失。因為隨著視頻生成大模型在日后逐漸普及,短視頻內容生產、營銷、變現(xiàn)等一系列邏輯都可能發(fā)生變化。

以內容生產為例,制作方對真人演員、編劇、剪輯人員的需求很有可能會減少,傳統(tǒng)的制作流程也會被大幅簡化、制作時長將被壓縮。這帶來的直接后果,不止是生產內容數(shù)量呈幾何級增長、成本明顯減少,也必將導致更殘酷的競爭,加速優(yōu)勝劣汰。

在Sora走紅之后,有關剪映會不會被取代的問題已經迅速成為焦點話題。留給剪映的路只要一條,那就是主動擁抱AI,向Sora看齊。要是能成功抱上AI這條大腿,剪映的用戶體量可以再上一個臺階,商業(yè)化潛力也將大大提升。

舉個最簡單的例子,現(xiàn)在的剪映只提供基礎服務,收費模式很難推廣。但如果能像Sora那樣,提高內容創(chuàng)作者的效率、降低成本,收費也就更有底氣。Stability AI、Runway等獨角獸的估值大幅飆升,就證明了這條路線的可行性。

當然,因Sora而焦慮的大廠絕不止字節(jié)跳動一家。短視頻行業(yè)的另一個巨頭快手,還有愛奇藝、騰訊視頻、優(yōu)酷、嗶哩嗶哩為首的流媒體平臺,也必須啃下視頻生成大模型這塊硬骨頭。

可能是Sora的沖擊太大,還需要時間消化,也可能是吸取之前的教訓,先埋頭干實事不著急到臺前造勢,上述大廠大多尚未表態(tài)是否及何時推出類Sora應用。截止發(fā)稿時,只有芒果超媒表態(tài)將探索文生視頻等AI技術在傳媒領域的落地。但明眼人都看得出,這些大廠沒有一個會缺席這場全新的“千模大戰(zhàn)”。

有危機感,就會有動力。大廠們集體沖刺,到底誰能率先撞線?

沖刺中文版Sora,哪家中國大廠先撞線?

要猜測誰能率先研發(fā)出中文版Sora,或者說類Sora視頻生成大模型,得先看一下這類產品的研發(fā)難點。

從openAI公布的報告來看,Sora并沒有應用什么全新研發(fā)成果,核心技術都是早已公開的。這當中,視頻壓縮網絡、擴散模型、視覺補丁(類似于本文生成大模型的文本標記)、圖像及視頻編輯是最關鍵的幾個環(huán)節(jié)。本質上講,Sora仍是一個基于Transformer架構的擴散模型,和ChatGPT有很多相似之處。

當中的技術原理和繁瑣的訓練流程,這里不再一一展開??梢源_定的是,大廠們都具備開發(fā)中文版Sora的基礎,起跑線不會有太大差距。除了考驗財力之外,和之前的中文版ChatGPT之爭一樣,數(shù)據(jù)樣本、算力、測試條件,將很大程度上左右最終賽果。

這當中,數(shù)據(jù)樣本關系著大模型的效果,訓練數(shù)據(jù)越豐富、越完整,視頻大模型就能越接近物理世界的真實情況。算力則是訓練效率的決定性因素,是跑贏競爭對手的關鍵。測試環(huán)節(jié)更多是決定了產品落地效果,以及穩(wěn)定性。

硅谷巨頭的選擇出奇一致,都在拼算力。openAI CEO阿爾特曼表示,計劃籌集8萬億美元投資AI芯片,徹底解決AI大模型訓練的算力問題。微軟、Meta、谷歌等大廠在瘋狂囤積英偉達H100的同時,還在抓緊時間自研芯片。這些原本為文本生成大模型準備的殺招,現(xiàn)在能完美應用到視頻大模型身上。

國信證券在最新一份研報中指出,相較于ChatGPT等文本生成類大模型,Sora訓練數(shù)據(jù)量明顯高出一個級別,對算力的要求自然也更苛刻了。根據(jù)該研報援引的數(shù)據(jù),以全球最大視頻分享網站YouTube為數(shù)據(jù)源,一年的增量視頻大約為157.68億秒,即便是采用英偉達最先進的H100,單次訓練也需要一個月,GPU消耗量為156.98萬張。

眾所周知,H100長期處于供不應求狀態(tài)。加上不可抗力影響,國內的大廠們在算力這一塊大概率會落后于硅谷巨頭,唯有在其他環(huán)節(jié)努力縮短差距。相較之下,字節(jié)在訓練數(shù)據(jù)源這一塊就比其他大廠更有優(yōu)勢。

要知道,Sora對比其早前的PixelDance、Stable Video Diffusion等未成形視頻大模型有顯著提升,數(shù)據(jù)量是很關鍵的一點。抖音和TikTok是國內和海外市場用戶、創(chuàng)作者規(guī)模最大的短視頻應用,擁有最多的短視頻內容,可用于訓練大模型。更不用說,字節(jié)旗下還有今日頭條、西瓜視頻等內容庫,完全不愁數(shù)據(jù)源。不過其他大廠也不會落后太多,而且肯定會想方設法抹平差距。

這幾天的觀察下來,和當初同樣出道即紅遍全球的ChatGPT不同,業(yè)界人士對Sora的態(tài)度除了贊嘆、敬佩,還帶著更深的恐懼。這不僅是因為Sora的視覺沖擊力比ChatGPT更強,還因為前者對相應產業(yè)的改變路徑是相當清晰的——這也決定了大廠會傾注更多的資源,務求盡快打贏這場硬仗。

總而言之,“千模大戰(zhàn)”已經進入新的階段。假以時日,我們肯定能看到很多中文版Sora。只不過對大廠來說,既然不可能成為“唯一”,就只有爭下“第一”才有意義。

本文系作者 智能Pro 授權鈦媒體發(fā)表,并經鈦媒體編輯,轉載請注明出處、作者和本文鏈接。
本內容來源于鈦媒體鈦度號,文章內容僅供參考、交流、學習,不構成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網絡安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內容
  • 從產品體驗來講,看好字節(jié)跳動

    回復 2024.02.25 · via pc
  • 緊跟美國的步伐,別掉隊太多就行

    回復 2024.02.25 · via android
  • 這種態(tài)度就對了,實事求是,不自我吹噓,好好打磨產品,后面才能發(fā)展起來

    回復 2024.02.25 · via h5
  • 中國在文生視頻上的差距,遠大于大語言模型

    回復 2024.02.25 · via iphone
  • 自己放出的消息,然后自己再辟謠?

    回復 2024.02.24 · via h5
5

掃描下載App