萬興科技董事長吳太兵
“對于文本和視頻大模型來說,二者的訓(xùn)練量級根本不在一個水平上,一些宣稱多模態(tài)的產(chǎn)品也都是處于Demo的狀態(tài),并不成熟。大模型正在進入2.0時代,這個時代需要新的大模型,需要一個以音視頻為主的而且本土化、垂類的大模型。萬興的‘天幕’是多媒體大模型,跟文本形成了區(qū)別,對算力要求更高,當然技術(shù)也更復(fù)雜。結(jié)合當下的技術(shù)以及應(yīng)用場景來看,未來視頻也會是主流。”
據(jù)Gartner研究預(yù)測,到2030年,90%的數(shù)字內(nèi)容都將是AI生成,預(yù)計2032年,全球AIGC市場規(guī)模將由2022年的108億美元增加至1181億美元。在AI的加持下,數(shù)字創(chuàng)意軟件產(chǎn)品是爆發(fā)式增長,而AIGC的背后就是大模型,相當于電器時代的發(fā)電廠,起到至關(guān)重要的作用。
也正是因為這樣,在過去的一年,大模型呈現(xiàn)井噴式增長,大家會覺得大模型的春天到了。根據(jù)《北京市人工智能行業(yè)大模型創(chuàng)新應(yīng)用白皮書(2023年)》顯示,截至2023年10月,我國10億參數(shù)規(guī)模以上的大模型廠商及高校院所共計254家。上百家大模型廠商也進一步催生出數(shù)十億的市場價值??梢灶A(yù)計的是,大模型在今年也將持續(xù)火熱下去。只是,在火熱的背后,也要認清行業(yè)的變化。
而在討論變化之前,要先理解大模型的“大”到底指的是什么?大模型扮演的角色是什么?吳太兵認為,大模型的“大”肯定是參數(shù)多、結(jié)構(gòu)容量大,但這個“大”永遠是一個相對概念,比如文字和視頻不是一個量級,不同行業(yè)的文本訓(xùn)練也不是一個量級。
至于大模型所扮演的角色,也要先對AI的發(fā)展有一個相對一致的理解。在吳太兵的理念中,這一輪的AI技術(shù)熱潮并不是偶然的,而是IT行業(yè)演進的必然。“IT行業(yè)從1993到現(xiàn)在經(jīng)歷了30年的時間,這30年時間可以分為三個階段,每一個階段都有自己的特點。”
第一個階段,是Windows所代表的PC時代,是一種人機交互,人為去向機器輸入信息。第二個階段是互聯(lián)網(wǎng)時代,人與人交換信息,主要的目的在于交換。第三階段則是AI時代,在讀懂人類的需求后,機器給人輸出信息。
“AI的發(fā)展是一個順其自然到來的過程,試想一下,OpenAI就像是苦讀N年的莘莘學(xué)子,終于可以開始掙錢養(yǎng)家了,在前30年接收各式各樣的信息后,開始有了獨立的思維,形成了自己的一套系統(tǒng)化的框架。”
在外界還在觀望這一輪AI熱潮時,萬興科技選擇第一時間投入進去。值得一提的是,在此之前,萬興科技也已在AI算法以及算力方面有所積累。從大模型出現(xiàn),到融合大模型去推動業(yè)務(wù)的發(fā)展,吳太兵對1.0時代大模型所扮演的角色也有了更深入的理解。
“后來我慢慢理解了,大模型本質(zhì)上相當于一個煉鋼廠,通過高溫萃取之后,得到一些精華的產(chǎn)物。它的價值在于把海量’原材料’煉出’原材料’,但是這些’原材料’本身是不能直接使用的。”
吳太兵對鈦媒體App說道,從來沒見過哪個煉鋼廠扔一塊鐵進去以后,最后就出來一輛汽車了。1.0時代的大模型其實只解決了上游的原材料的問題,下游的組裝是解決不了的。基于大模型,還要有更多的垂直應(yīng)用。
“大模型在音視頻垂直領(lǐng)域還存在很大的挑戰(zhàn)。基于這樣一個想法,我堅定地認為,大模型正在從圖文1.0時代進入到以音視頻多媒體為載體的2.0時代。”
根據(jù)思科公司此前發(fā)布的報告內(nèi)容指出,未來82%的消費互聯(lián)網(wǎng)流量是視頻流量。如果從文本的角度來看,大模型的發(fā)展的確已經(jīng)很成熟,但是從視頻的角度來看是遠遠不夠的。目前,全世界有3.05億視頻創(chuàng)作者,43億視頻覆蓋群體,每天200億次以上的視頻播放量,視頻需求非常大。“視頻為王”時代的到來,也催生出對多媒體垂直大模型和應(yīng)用的需求。
![]()
吳太兵進一步指出,“1.0時代,通用大模型占主流,好比‘科學(xué)家’,主要研究前沿高端,解決基礎(chǔ)理論性問題。2.0時代,垂直大模型增長趨勢明顯,好比‘工匠’,可更快速、更靈活解決細分領(lǐng)域?qū)I(yè)性問題,可從模型到應(yīng)用場景對用戶一條龍賦能。”
相比較文本生成,視頻生成大模型以及應(yīng)用由于數(shù)據(jù)、算力等多方面原因,導(dǎo)致產(chǎn)品數(shù)量較少,以及效果并沒有大家期待的那么完美。
吳太兵認為,音頻大模型情感理解存在偏差,視頻生成大模型生產(chǎn)內(nèi)容長度、一致性待提升,難形成完整的工作流。OpenAI在發(fā)布大模型之時就提出了多模態(tài),但在視頻生成的滿意度上較低。即便是Pika labs這種火熱的產(chǎn)品,也存在明顯的拖影、模糊等問題,質(zhì)量非常不理想。
總的來看,視頻生成目前存在三大挑戰(zhàn)。第一是數(shù)據(jù)集欠缺,視頻內(nèi)容存儲和標注成本高昂,視頻相關(guān)的訓(xùn)練數(shù)據(jù)集目前仍較欠缺。第二是算力成本高昂,視頻訓(xùn)練所需的算力遠高于圖片、文字等其它內(nèi)容。第三則是生成效果不佳目前仍缺乏效果可用性較好的模型作為標桿。
“之所以行業(yè)投入那么多研發(fā),在視頻維度還存在著么多問題,背后核心的原因就在于視頻生成十分復(fù)雜。”
鈦媒體App了解到,視頻由很多能力和元素構(gòu)成,包括動畫、字幕、音樂、特效、美化、貼紙、轉(zhuǎn)場、畫中畫,還有頂層資源、顆粒等,很復(fù)雜。整個視頻制作的鏈路、技術(shù)門檻非常高,平均制作一個視頻需要1.6小時。在構(gòu)思階段,可能需要用GPT或者文心一言,做內(nèi)容源需要本地拍攝,需要獲得資源方便去做加工,需要第三方工具,進行效果生成,還要算力、做編解碼,總之一切沒那么簡單。
在大模型2.0時代,做出符合市場的大模型產(chǎn)品,首先要搞清楚2.0時代的特點是什么。吳太兵總結(jié)了三點,第一是從多模態(tài)到多媒體,系統(tǒng)性解決不同模態(tài)融合的問題。在他看來,多模態(tài)還是一個通用大模型,通過一套東西把文本、視頻、音頻、圖片全部打通,也許有可能,文本大模型從供給和使用角度體驗已經(jīng)很好了,但是音視頻的體驗還遠遠不夠,市場需要多媒體大模型。
第二是從通用到垂直解決方案,一條龍從模型到應(yīng)用場景。“通用的大模型只適合生產(chǎn)原材料,生產(chǎn)一張圖片、一段音頻,但還是需要“組裝車間”把它最后變成一款產(chǎn)品,多媒體大模型上面有一系列原子能力,通過組裝件最后變成最終的產(chǎn)品”,吳太兵表示,“指望向一個工廠扔進一些鐵礦石,出來一輛汽車是不現(xiàn)實的。扔進去的鐵出來的是鋼材,扔進去的石油出來的是化工產(chǎn)品,但這些東西離你真正做成一輛汽車還有很遠的距離,這中間的距離就是垂類大模型需要去做的,而不是通用性的化工廠、煉鋼廠能去解決的問題。”
![]()
第三則是從全球到本土化,算力、數(shù)據(jù)、應(yīng)用的本土化。過去,大家指望通過一個大模型去解決全世界的問題,但是現(xiàn)在來看,基本是不可能的。在應(yīng)用的層面,需要算力的本土化布局,需要本土化的數(shù)據(jù),才能研發(fā)出更本土化的應(yīng)用。
“今天,我們要重視大模型本身的應(yīng)用商業(yè)化,而且要高度重視中國的應(yīng)用場景。結(jié)合我們所用的數(shù)據(jù)和應(yīng)用產(chǎn)品,參與全球競爭的時候才更能找到自己的位置。”
依托于大模型2.0時代的三個特點,萬興科技推出了“天幕”音視頻多媒體大模型,聚焦數(shù)字創(chuàng)意垂類創(chuàng)作場景,基于15億用戶行為及100億本土化音視頻數(shù)據(jù),以音視頻生成式AI技術(shù)為基礎(chǔ),支持全球不同語言,相關(guān)能力已在海外規(guī)?;逃谩?/p>
吳太兵向我們透露,萬興“天幕”大模型將打造基于大模型架構(gòu)的AIGC應(yīng)用基礎(chǔ)底座,自投入研發(fā)以來,組建了百人算法團隊,團隊碩士和博士的比例超過70%,“天幕”大模型算法也已正式通過《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》備案。
另外,算力作為大模型的根基,萬興“天幕”還在持續(xù)加碼NPU+GPU強力算力底座,訓(xùn)練則是在國內(nèi)算力和服務(wù)器基礎(chǔ)上進行,已構(gòu)建千卡集群、自研推理框架局,并擁有一站式數(shù)據(jù)生產(chǎn)管理平臺,單日可完成百萬級數(shù)據(jù)處理加工。
站在新的發(fā)展階段,萬興科技給自己的定義是一家以技術(shù)為基礎(chǔ)的產(chǎn)品創(chuàng)新驅(qū)動公司,相比較技術(shù)公司,更加強調(diào)市場。“我們以產(chǎn)品創(chuàng)新為主,并不代表不關(guān)注技術(shù),我們到長沙來也是為了吸引以及留下更多的技術(shù)人才,‘拿深圳工資,住長沙房子,干全球事業(yè)’,這是我們提出的口號”,吳太兵說道。
而面對當下市場出現(xiàn)的多元化競爭格局,如何在AI時代持續(xù)地淘金,成為擺在很多公司面前的問題。在吳太兵看來,讓自己不掉隊需要做到兩條腿走路,一條腿是后端的技術(shù)賦能,比如大模型、算法、算力等,另一條腿則是對前臺市場機遇的把控。
“除了原有的運營中心以外,我們還在大力招募本地化的產(chǎn)品和市場團隊,希望能加速感知到市場的變化。而站在產(chǎn)品的角度,萬興的邏輯則是矩陣化產(chǎn)品思維,不需要每一款產(chǎn)品都做到第一,前三就可以,‘中產(chǎn)品’的戰(zhàn)略也能讓我們做到更大的規(guī)模。”
用傳統(tǒng)的思維去看待大模型,而不是把其放在一個高大上的位置去仰望。很多人對大模型這件事非常地興奮,特別想去搏一把,因為他們認為這可能是最接近成為比爾蓋茨、喬布斯的機會。但是,在吳太兵的設(shè)想中,大模型的確很重要,也是需要抓住的機遇,但萬興想做的是AI時代的美的,通過矩陣化的產(chǎn)品創(chuàng)新,將自身以及市面上優(yōu)秀的大模型的能力整合起來。
![]()
他表示,“我們有大平臺,在正確的方向上,可以做N款優(yōu)秀的產(chǎn)品,這樣才能真的去擁抱這個新時代。”
在交流的最后,吳太兵還談及了“中國的Adobe”這個稱號,他認為這是市場貼的,但自己對于這種對標并沒有太排斥。用他的話說,對標是為了減少品牌與市場的溝通障礙,可以讓市場更快地知道萬興是在做什么。
不過,世界上沒有兩家完全一模一樣的公司,萬興要走的路也和Adobe不一樣,“我們更期望做的是未來的Adobe,一是有AI驅(qū)動力,二是立足中國市場。還是那句話,布局AIGC,我們是認真的,也希望更多的生態(tài)伙伴參與到多媒體大模型的建設(shè),讓整個行業(yè)更繁榮。”(本文首發(fā)鈦媒體App,作者/杜志強,編輯/鐘毅)
![]()
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論