圖片來源@視覺中國
文 | 晨山資本,作者 | 吳文超
隨著5G大帶寬網(wǎng)絡(luò)時代的到來,人們對更具有視覺表現(xiàn)力的數(shù)字內(nèi)容越來越渴望。傳統(tǒng)數(shù)字內(nèi)容的生成效率已成為新時代的瓶頸。作為下一個探索熱點(diǎn),「AI自動化內(nèi)容生成」激發(fā)了大量行業(yè)需求,也讓我們看到了人工智能技術(shù)新的引爆點(diǎn)。
自動化內(nèi)容生成并不是第一天誕生。但過去的2D/3D非結(jié)構(gòu)化內(nèi)容生成效果不盡人意,而且遺留了很多歷史問題給創(chuàng)業(yè)者去解決。近年來,AI在CG領(lǐng)域的應(yīng)用,尤其是若干革命性模型的提出,給整個方向帶來全新思路,其影響還在持續(xù)發(fā)酵中。但技術(shù)終將服務(wù)于商業(yè)。我們也看到,AI內(nèi)容生成技術(shù)正在各類顯性的商業(yè)場景中落地,創(chuàng)造越來越多的現(xiàn)實(shí)價值。
本文將闡述AI與內(nèi)容生成的發(fā)展現(xiàn)狀,探究目前技術(shù)的難點(diǎn)和機(jī)會,同時也會帶大家從不同角度看未來的商業(yè)價值。
自動化內(nèi)容生成并不是第一天出現(xiàn)
2022百度世界大會上,百度首席技術(shù)官王海峰展示了利用AI「補(bǔ)全」《富春山居圖》讓歷史畫作重現(xiàn)當(dāng)代。風(fēng)格與現(xiàn)存真跡的一致程度也讓專家大為震撼。
![]()
▲ 浙江博物館館藏《富春山居圖·剩山圖》局部(左),臺北故宮博物院館藏《富春山居圖·無用師卷》局部(右)
![]()
▲ AI補(bǔ)全《富春山居圖》并題詩(上圖紅框處)
李彥宏在大會上分享了AIGC(AI Generated Content)將走過的三個發(fā)展階段:
第一階段是「助手階段」,AIGC輔助人類進(jìn)行內(nèi)容生產(chǎn);第二階段是「協(xié)作階段」,AIGC以虛實(shí)并存的虛擬人形態(tài)出現(xiàn),形成人機(jī)共生的局面;第三階段是「原創(chuàng)階段」,AIGC將獨(dú)立完成內(nèi)容創(chuàng)作。
AIGC這個詞聽上去比較時髦,但自動化內(nèi)容生成并不是個很新的概念。利用計算機(jī)輔助人類進(jìn)行內(nèi)容生產(chǎn)其實(shí)很早就出現(xiàn),比如在計算機(jī)編程領(lǐng)域IDE的代碼提示、使用Office Word編輯內(nèi)容的錯誤修正,到后來利用NLG自動化文本生成等都可以算作這個范圍。
近年來,承載內(nèi)容的媒介越來越豐富,從最早的文本到圖文、視頻到3D內(nèi)容。同時也帶來了對內(nèi)容快速生產(chǎn)的更大訴求,激發(fā)了大家持續(xù)探索自動內(nèi)容生成的動力。深度學(xué)習(xí)的出現(xiàn)和發(fā)展,進(jìn)一步帶來了從CV(Computer Vision)延展到CG(Computer Graphics)領(lǐng)域的各種新嘗試。讓傳統(tǒng)的通過規(guī)則、數(shù)據(jù)的富媒體內(nèi)容生成方法逐步延伸到基于深度學(xué)習(xí)的內(nèi)容生成。這也是目前大家狹義理解的AIGC概念。
數(shù)字內(nèi)容的載體越來越豐富,針對各種形態(tài)的AI內(nèi)容生成的研究也越來越多,包括文字的NLG(自然語言生成)、圖片/視頻的自動風(fēng)格遷移和生成、通過點(diǎn)云/圖片信息自動生成3D內(nèi)容等。本文更加關(guān)注和深度學(xué)習(xí)算法更加契合也更有視覺表現(xiàn)力的「2D和3D非結(jié)構(gòu)化內(nèi)容生成」。
毋庸置疑,2D最常見的表現(xiàn)形式是圖像,視頻本質(zhì)上是多幀的連續(xù)圖像。
傳統(tǒng)的2D圖像生成的主流方式是通過攝像頭拍攝的方式物理采集實(shí)景圖片,或者通過Photoshop等設(shè)計/繪圖工具繪制數(shù)字圖片。實(shí)景拍攝圖片受限于環(huán)境、光照和拍攝技術(shù)等因素,導(dǎo)致優(yōu)質(zhì)圖片的生成難度較高。而數(shù)字圖片更多是體現(xiàn)作者的繪畫和美術(shù)功底。
如何通過既有素材快速且批量生產(chǎn)可用優(yōu)質(zhì)圖片,也是近年來2D內(nèi)容生成的重要研究方向,而這里面大放異彩的深度學(xué)習(xí)算法莫過于GAN(對抗神經(jīng)網(wǎng)絡(luò))。
3D內(nèi)容生成更加復(fù)雜。要理解3D內(nèi)容生成,首先可能還是得明確下什么是3D內(nèi)容。
D是dimension的縮寫,顧名思義,3D是指物體本身的3個緯度(X-Y-Z)。在物理世界比較好理解,大家能看到的空間中所有物體都是三維的,因?yàn)槲覀兊目臻g就存在XYZ三個緯度。
但在2D平面的計算機(jī)世界3D又該如何理解?
其實(shí)很簡單,以我們常見的3D建模軟件為例,我們建立的模型雖然是在2D屏幕上呈現(xiàn),但你可以按照計算機(jī)設(shè)定的XYZ三個坐標(biāo)軸進(jìn)行移動(Move、Rotate、Scale)來從各個角度看到物體的各個面。所以多角度的概念才是我們通常理解的3D數(shù)字內(nèi)容。
如果要在體驗(yàn)上有真正的3D感,需要突破2D屏幕的限制,那就只能等待AR/VR、全息顯示等新交互設(shè)備的發(fā)展了。
![]()
▲ Blender中的三維模型可以按XYZ三個坐標(biāo)軸多維變化
除了幾何形狀,完整的3D內(nèi)容還包含材質(zhì)(貼皮),再結(jié)合光照,最終通過渲染形成多角度的RGB圖片。
![]()
▲ 3D內(nèi)容是將形狀和外觀進(jìn)行組合渲染形成多維度視角的2D圖片
3D內(nèi)容生成的本質(zhì)是如何構(gòu)建物體的幾何、材質(zhì)和光照。元素的多樣性和復(fù)雜性,讓3D內(nèi)容生成成為CG領(lǐng)域的一個難點(diǎn)。
以第一步的幾何形狀的表達(dá)來看,業(yè)內(nèi)目前沒有統(tǒng)一的表達(dá)方式。常見的幾何表達(dá)包括顯式和隱式兩類。顯式更多的是指以肉眼可見的方式來表達(dá)幾何圖形。常見的顯式表達(dá)方式包括在機(jī)器視覺應(yīng)用較多的點(diǎn)云(Point Cloud)、在游戲場景應(yīng)用較多的體素(Voxel,類似Roblox)和3D建模軟件中常用的網(wǎng)格(Mesh)。隱式表達(dá)則是用參數(shù)化方程的方式來描述一個3D幾何,比較知名的如有向距離場(SDF),通過每個像素(體素)記錄自己與距離自己最近物體之間的距離來表達(dá),如果在物體內(nèi),則距離為負(fù),正好在物體邊界上則為0。
不同的3D表達(dá)方式?jīng)]有統(tǒng)一的規(guī)范,導(dǎo)致3D內(nèi)容的生成和制作與2D相比難度更上一層樓。
![]()
▲ 多樣的3D幾何表征方式
傳統(tǒng)3D內(nèi)容生成需要設(shè)計師使用Maya、3DMax、工程建模CAD等3D建模軟件手動建模/渲染出來,但軟件學(xué)習(xí)成本高、建模本身效率低等原因?qū)е略摲桨鸽y以快速批量生成3D內(nèi)容。
一種創(chuàng)新方法是通過既有2D數(shù)據(jù)自動重建3D模型。傳統(tǒng)三維重建方式為通過激光掃描生成目標(biāo)物體的點(diǎn)云數(shù)據(jù)后進(jìn)行三維重建,但這種方式采集的點(diǎn)云數(shù)據(jù)是離散并且無嚴(yán)格拓?fù)潢P(guān)系的,導(dǎo)致無法生成高分辨率的模型。
目前AIGC研究的重點(diǎn)方向,是通過若干2D圖片以計算機(jī)視覺算法重建方式來生成更多的3D內(nèi)容?;趫D片的3D內(nèi)容生成可以理解為下面的流程,通過現(xiàn)有2D圖片(輸入)進(jìn)行3D幾何、材質(zhì)等重建,再結(jié)合光照渲染能力重新恢復(fù)2D高清的多維度圖片。
![]()
雖然2D圖片采集相對容易,但問題在于,很難把物體任意維度的數(shù)據(jù)都拍得很完整,而且有些物體反光、透明等原因?qū)е屡臄z的圖片質(zhì)量不高。如何在有限的數(shù)據(jù)量和有限質(zhì)量的數(shù)據(jù)下根據(jù)先驗(yàn)知識構(gòu)建成一個完整的多維數(shù)據(jù),正是深度學(xué)習(xí)擅長的問題。
除了靜態(tài)的人/物體/場景本身,如何構(gòu)建更加復(fù)雜的動態(tài)內(nèi)容也是內(nèi)容生成的重要部分。以人舉例,3D內(nèi)容包含人的動作、物理碰撞模擬(物理引擎)等也都是AI內(nèi)容生成需要進(jìn)一步解決的問題。
當(dāng)然問題越多,給予創(chuàng)業(yè)企業(yè)突破創(chuàng)新的機(jī)會也才越多。
近年來,AI給二維和三維的內(nèi)容生成帶來了許多新變化。
在二維領(lǐng)域,最重大突破便是Goodfellow在2014年提出的GAN神經(jīng)網(wǎng)絡(luò)。GAN包含有兩個模型,一個是生成模型(generative model),一個是判別模型(discriminative model)??梢酝ㄋ桌斫鉃椋?strong>生成模型像「一個造假團(tuán)伙,試圖生產(chǎn)和使用假幣」,而判別模型像「檢測假幣的警察」。
生成器(generator)試圖欺騙判別器(discriminator),判別器則努力不被生成器欺騙。模型經(jīng)過交替優(yōu)化訓(xùn)練,兩種模型都能得到提升,但最終我們要得到的是效果提升到很高很好的生成模型(造假團(tuán)伙),這個生成模型(造假團(tuán)伙)所生成的產(chǎn)品能達(dá)到真假難分的地步。
利用GAN網(wǎng)絡(luò)衍生的如CycleGAN、StyleGAN等神經(jīng)網(wǎng)絡(luò)模型,就可以通過既有圖片進(jìn)行圖片的風(fēng)格遷移、人臉編輯、圖像修復(fù)、補(bǔ)全等操作而形成新的內(nèi)容。前文中提到《富春山居圖》的補(bǔ)全也一定程度上是這類算法的延伸。
![]()
▲ GAN網(wǎng)絡(luò)生成器和判別器「對抗訓(xùn)練」
在三維領(lǐng)域,因?yàn)楸磉_(dá)形式的復(fù)雜性,業(yè)界圍繞不同表達(dá)形式也在各個方向進(jìn)行探索。
由于采集成本高、遮擋等問題,點(diǎn)云無法連續(xù)采集物體表面的信息,而更加容易表征空間定位信息。點(diǎn)云3D重建在自動駕駛、機(jī)器人等空間定位和掃描場景應(yīng)用更多,并不太適合用于視覺表現(xiàn)。要生成更加稠密包括適合視覺觀測的3D內(nèi)容的表面,需要生成更加稠密的點(diǎn)來補(bǔ)充離散點(diǎn)云的稀疏問題。這其中也有些研究者利用深度學(xué)習(xí)的方法,通過特征擴(kuò)展、GAN擴(kuò)展網(wǎng)絡(luò)等方式生成更加稠密的點(diǎn)云信息。
![]()
▲ 深度學(xué)習(xí)+點(diǎn)云進(jìn)行3D表面重建
從2D圖片重建3D模型并非在近年來AI大發(fā)展之后才出現(xiàn),比較早的算法如Structure From Motion(SFM,1979年前)、Multi-View Stereo(MVS,2006年以前)、PMVS(2010)和COLMAP(2016)等。
以效果還不錯的PMVS算法舉例,從圖片里面提取特征再做三角測量的點(diǎn),獲得點(diǎn)云數(shù)據(jù),然后根據(jù)這些點(diǎn)重建物體表面,并進(jìn)行紋理映射,就可以還原出三維場景和物體了。
![]()
▲ 結(jié)合SFM和MVS的PMVS算法
但這種方法同樣因?yàn)樵肼?、點(diǎn)云稀疏問題無法形成完整的幾何結(jié)構(gòu),需要更多的人工加工,才能真正為圖形學(xué)使用。而一個完美的圖像渲染過程需要一個完美的多幾何結(jié)構(gòu)和材質(zhì),所以這種方式很難達(dá)到渲染需要的質(zhì)量。
![]()
▲ 點(diǎn)云稀疏問題導(dǎo)致無法形成完美質(zhì)量的3D幾何結(jié)構(gòu)
深度學(xué)習(xí)等AI算法的提出,最先解決了計算機(jī)視覺領(lǐng)域中物體識別、內(nèi)容理解等問題。隨著近年來不同深度學(xué)習(xí)模型的提出,大家逐步關(guān)注到如何把深度神經(jīng)網(wǎng)絡(luò)應(yīng)用在CG領(lǐng)域。
要進(jìn)行3D重建,首先要解決的便是幾何的表征方式選擇問題,即選擇顯式還是隱式表達(dá)。
顯式表達(dá)近年來涌現(xiàn)出不少優(yōu)秀的研究成果:GQN(2018)、CodeSLAM(2018)、DeepVoxels(2019)、Neural Volumes(2019)、Latent Fusion(2020)。但顯式表達(dá)最大的問題在于幾何表征本身是離散的,幾何拓?fù)潢P(guān)系難以優(yōu)化。導(dǎo)致生成的三維內(nèi)容的分辨率受到比較大的限制。
為了獲得更加準(zhǔn)確、高分辨率的3D內(nèi)容,隱式表達(dá)方式開始成為大家主要研究的方向。隱式表達(dá)中,最容易想到的便是對現(xiàn)有隱式表達(dá)利用深度學(xué)習(xí)改造,如DeepSDF模型,但受限于表達(dá)方式的缺陷,效果也不盡如人意。2020年,谷歌研究院的Pratul Srinivasan、Benjamin Mildenhall等提出的NeRF方法引爆了整個3D重建領(lǐng)域。NeRF的提出激發(fā)了大量的后續(xù)研究,原始研究文獻(xiàn)實(shí)現(xiàn)了增長極快的引用率,迄今NeRF的引用量已破千。
我們來一探這個可能開啟CG領(lǐng)域新時代的深度學(xué)習(xí)算法:NeRF是Neural Radiance Fields的縮寫,其中的Radiance Fields是指一個函數(shù),也就是前面提到的隱式表達(dá)中的表達(dá)函數(shù),當(dāng)然除了表征幾何,Radiance函數(shù)同樣帶上顏色信息來完成對材質(zhì)-貼圖的表征。
NeRF將場景表示為空間中任何點(diǎn)的volume density σ(簡單理解為不透明度) 和顏色值c 。有了以NeRF形式存在的場景表示后,就可以對該場景進(jìn)行渲染,生成新視角的模擬圖片。NeRF的輸入為空間點(diǎn)的位置和方向,通過求解穿過場景的任何光線的顏色,從而渲染合成新的圖像。
![]()
▲ NeRF的簡單描述(輸入是空間位置信息,輸出是透明度+顏色)
可以看出NeRF最大的創(chuàng)新在于對場景的隱式表征方式的創(chuàng)新,通過連續(xù)的隱式表征,可以用少量的圖片渲染重建出更加逼真的三維內(nèi)容。
![]()
▲ NeRF網(wǎng)絡(luò)和現(xiàn)有深度神經(jīng)網(wǎng)絡(luò)效果對比
NeRF也不是沒有缺點(diǎn)——由于需計算大量的點(diǎn)位信息導(dǎo)致推理過程過于耗時而很難實(shí)現(xiàn)實(shí)時渲染;缺乏顯示表征而帶來內(nèi)容編輯難度較高。因此,圍繞后NeRF時代的神經(jīng)網(wǎng)絡(luò)模型和方法也層出不窮。通過將GAN和NeRF兩大內(nèi)容生成的AI技術(shù)相結(jié)合的GRAF9(Generative Radiance Fields)。2021年CVPR的最佳論文GIRAFFE通過GAN網(wǎng)絡(luò)實(shí)現(xiàn)NeRF的可控編輯等。
現(xiàn)實(shí)世界是在敘事基礎(chǔ)上建立,而敘事由人物關(guān)系展開,所以人是現(xiàn)實(shí)世界最重要的元素。
除了外形表現(xiàn),人更重要的是靈活的動作/表情的表達(dá)和交互,只有配合動作/表情,人物的「神」和「態(tài)」才能完整地被表達(dá)出來。可以說,沒有動作的人物模型毫無意義。
模型建立雖然有不同層次的成本,但始終可以通過手工或者半自動的方式完成,制作門檻并不高。但如何生成符合人體運(yùn)動學(xué)的動作和表情則更加需要數(shù)據(jù)的支撐,也非常適合利用AI算法來進(jìn)行模型的訓(xùn)練。
動作生成的難度在于如何用相對標(biāo)準(zhǔn)化的方式來驅(qū)動不同外形的人物,同時模型本身足夠的協(xié)調(diào)和自然。這不僅是指動作本身的協(xié)調(diào)程度,更重要的是還要和語音、文本等多模態(tài)輸入能夠完美結(jié)合。
近年來,隨著動捕技術(shù)發(fā)展、視頻內(nèi)容數(shù)據(jù)的豐富,動作數(shù)據(jù)的積累也變得更加簡單。大量圍繞動作驅(qū)動的AI工作也陸續(xù)被大家提出。2019年以后大量的工作基于RNN網(wǎng)絡(luò)進(jìn)行動作預(yù)測(Motion Prediction)、基于 RL(Reinforcement Learning,增強(qiáng)學(xué)習(xí))的動作控制算法(Motion Control)和Ginosar、Alexanderson等人提出的基于語音、文本甚至音樂的多模態(tài)動作驅(qū)動的CNN模型(Cross-modal motion synthesis)。
![]()
▲ 通過語音驅(qū)動手勢動作示例
我們并沒有必要過多討論具體的算法,更應(yīng)該關(guān)注的是,在當(dāng)前技術(shù)成熟度下AI+CG能創(chuàng)造多大的商業(yè)價值。
首先我們來看看CV領(lǐng)域的趨勢,在2012年AlexNet被提出以前,計算機(jī)視覺中的檢測、目標(biāo)識別其實(shí)已經(jīng)有超40年的發(fā)展歷史,但由于技術(shù)成熟度的原因遲遲沒有很好的商業(yè)落地。隨著深度學(xué)習(xí)等AI技術(shù)被驗(yàn)證,大量的相關(guān)工作在隨后的6-7年內(nèi)被提出,隨之而來的是AI被應(yīng)用在各個商業(yè)場景。
這其中首先有殺手級的應(yīng)用——人臉識別,在支付、安防、身份認(rèn)證等領(lǐng)域都得到了廣泛的應(yīng)用。除了人臉相關(guān),我們再擴(kuò)展到物體的視覺檢測方向,有工業(yè)視覺檢測、機(jī)器視覺等行業(yè)應(yīng)用。這些應(yīng)用帶來了大量的生產(chǎn)力提升,同時也創(chuàng)造了極大的社會價值和投資機(jī)會。
那AI+CG領(lǐng)域是否存在同樣的機(jī)會呢?
從技術(shù)發(fā)展的角度看,CG似乎和CV領(lǐng)域一樣,正迎來AI在CG領(lǐng)域的大爆發(fā)的前期。整個發(fā)展路徑非常類似,其中比較有代表性的兩類模型是GAN和NeRF以及大量的延伸工作,但提出的時間比AlexNet和ResNet等晚了3-5年,技術(shù)仍處于爬坡期。然而我們更需要關(guān)注的是,目前具有一定AI技術(shù)成熟度的CG領(lǐng)域,未來到底有多少商業(yè)價值呢?
![]()
無論是2D還是3D,更多是為了視覺而服務(wù),我們能想到或者日常能夠體驗(yàn)到的視覺場景大致包括以下幾類:視覺內(nèi)容營銷、線上的商業(yè)服務(wù)、行業(yè)仿真和新的交互方式帶來的泛娛樂內(nèi)容的需求。
![]()
互聯(lián)網(wǎng)時代開啟后,營銷是流量企業(yè)最主要變現(xiàn)方式之一。而承載營銷最重要的方式便是更加具有視覺沖擊力的圖文、視頻等富媒體內(nèi)容。
首先從視頻類(圖文類似)內(nèi)容生成成本角度來看,傳統(tǒng)的營銷類視頻以拍攝+后期制作的方式為主。視頻的生產(chǎn)過程都耗費(fèi)大量的人力,并且視頻多樣化往往需要簡單重復(fù)勞動來獲得。
舉個最簡單例子,同一個產(chǎn)品營銷類視頻,產(chǎn)品在不同的國家進(jìn)行售賣,可能需要當(dāng)?shù)仫L(fēng)格的模特進(jìn)行視頻表現(xiàn),但如果使用GAN系列模型通過AI生成和風(fēng)格遷移的方式,可以較為完美地進(jìn)行人物風(fēng)格切換,快速降低內(nèi)容制作成本。
![]()
▲ 由GAN網(wǎng)絡(luò)生成的不同圖片風(fēng)格
其次從效果來看,傳統(tǒng)線上視頻類營銷往往以產(chǎn)品介紹、特點(diǎn)宣傳為主。和線下營銷關(guān)注「人貨場」的概念差別比較大,這其中最大的差別在于如何在二維的屏幕模擬出3D的沉浸感,給人以3D式的營銷體驗(yàn)。而要有3D沉浸感首先得有3D可交互的內(nèi)容。
從「人」的角度來看,就涉及到現(xiàn)在比較火的3D數(shù)字人的生成。3D人可以賦予視頻內(nèi)容中人物更加多角度、更多動作、更加可控的展現(xiàn)形態(tài),疊加上深度圖效果和語言,讓人物更加具有表現(xiàn)力。當(dāng)然如果能做成「老黃」那樣超寫實(shí)的虛擬人就更加能夠以假亂真了。
而這其中就可以利用前面提到的AI的方式進(jìn)行3D模型和動作的生成,當(dāng)然僅僅通過AI實(shí)現(xiàn)超寫實(shí)的3D人物構(gòu)建,在效果上目前還是有些難度,而表情和動作的生成已經(jīng)做的非常逼真。晨山投資的中科深智便在人物表情和動作生成方面具有多年的積累,并且較早就在行業(yè)得到廣泛應(yīng)用。
![]()

▲ 3D數(shù)字人給營銷以更加強(qiáng)的表現(xiàn)力
從「貨」的角度來看,大家或許已經(jīng)發(fā)現(xiàn),某些電商平臺的內(nèi)容展示更加立體,會從各個角度來呈現(xiàn)客戶想要購買的商品。品牌方通過拍攝多角度照片,利用AI+3D重建來進(jìn)行3D商品展示的方式已經(jīng)越來越普遍,細(xì)節(jié)表現(xiàn)力也更強(qiáng)。隨著NeRF等算法的改進(jìn),重建成本逐步降低,未來商品的3D化也將是趨勢。
![]()
▲ 某電商品牌的3D內(nèi)容展示
在「場」的層面,如何重現(xiàn)線下體驗(yàn),追求品牌的「永久在線」,是現(xiàn)在很多平臺在探索的方向。通過線上空間3D化,可以讓參與者更加有沉浸感。這就涉及到如何進(jìn)行空間的建模,通過AI+點(diǎn)云/機(jī)器視覺重建的工作已經(jīng)在一些領(lǐng)域被大家提出和應(yīng)用。
近年來,從傳統(tǒng)的工業(yè)到線下服務(wù)業(yè),大家開始使用硬件機(jī)器人來替換重復(fù)勞動的工作以達(dá)到降本增效的目的。
但我們往前一步看,線上重復(fù)的服務(wù)工作如客服、電商/電視的主播、播報員甚至部分節(jié)目主持人,未來同樣有被虛擬機(jī)器人替換的可能。舉個例子,大家看天氣預(yù)報,會因?yàn)橹鞒秩藫Q了而不看天氣預(yù)報的可能性有多大?而且他們原生就在線上輸出服務(wù),擁有的數(shù)字基礎(chǔ)其實(shí)更好。
![]()
▲ 機(jī)器替人的場景在不可逆地發(fā)生
很明顯,數(shù)字員工在降低勞動成本,全天候工作提升工作效率,填補(bǔ)人才缺口,降低人員流動風(fēng)險等方面有天然的優(yōu)勢。但前提是如何通過AI的方式結(jié)合3D人物生成、更加靈活的動作驅(qū)動、更加平滑的解決用戶問題,實(shí)現(xiàn)更加擬人化甚至無差別化服務(wù)。這些都是是需要根據(jù)具體場景,結(jié)合進(jìn)一步的技術(shù)驅(qū)動來完成的,其中的工作量不容小覷。
或許很多人都會說擬人畢竟還是假人,尤其是虛擬人不夠形象,但時代在變,大家的習(xí)慣也在變化。對大部分95后、00后來說,二次元或許更受他們青睞。據(jù)統(tǒng)計,B站用戶平均年齡為21歲,這些人成年后依然保持著對虛擬人物和二次元文化的熱愛。
根據(jù)最終用途,仿真類應(yīng)用大致分為管理類仿真和設(shè)計類仿真。對應(yīng)到我們經(jīng)常聽到的概念便是數(shù)字孿生和工業(yè)設(shè)計軟件。二者除了應(yīng)用方向的區(qū)別外,在技術(shù)上,前者更加關(guān)注效果和數(shù)據(jù)的結(jié)合,而后者關(guān)注的更多是物理/幾何世界的數(shù)字化模擬。
![]()
![]()
▲ 數(shù)字孿生vs.工業(yè)設(shè)計
無論數(shù)字孿生還是工業(yè)設(shè)計,歷史上的生產(chǎn)方式還是依靠大量的人力在進(jìn)行內(nèi)容的建模。這其中不僅僅有重復(fù)勞動,而且無論宏觀如數(shù)字孿生還是微觀如工業(yè)結(jié)構(gòu)件,其中的模型數(shù)量都非常大。如何通過AI快速生產(chǎn)內(nèi)容、更好地渲染,都是大家目前在努力的方向。
這個方向一直反復(fù)成為投資人追捧的熱點(diǎn)。因?yàn)榇蠹抑?,前面所有的場景,只有能把屏幕變?D的,那3D才能完全發(fā)揮它的能量。這個趨勢雖然跌跌撞撞,但它卻在悄然發(fā)生。
2020年發(fā)布的Oculus Quest 2已達(dá)到消費(fèi)級水平,在顯示參數(shù)、外觀設(shè)計和價格等方面均滿足了VR用戶的基本需求。據(jù)IDC數(shù)據(jù)顯示,2021年全球VR出貨量達(dá)1,095萬臺,已突破年出貨量一千萬臺的行業(yè)重要拐點(diǎn)。
除了設(shè)備本身,內(nèi)容生態(tài)同樣重要。Oculus為代表的內(nèi)容數(shù)量也在快速提升,截止2022年4月,Oculus Rift、Quest、APP Lab平臺分別擁有1,381、357、1,074款應(yīng)用。這其中的內(nèi)容包括VR游戲、沉浸式社交等各種3D內(nèi)容構(gòu)建的場景。
未來VR加速發(fā)展離不開內(nèi)容的快速生成,當(dāng)設(shè)備不再是瓶頸后,如何搶占內(nèi)容開發(fā)者,高效地給開發(fā)者提供更加智能化、AI化的生產(chǎn)力工具才是平臺廠商下一步需要布局的重點(diǎn)。這其中Meta已經(jīng)做出了表率:2021年10月,Meta宣布設(shè)立1,000萬美元的「創(chuàng)作者基金」,鼓勵更多內(nèi)容創(chuàng)作者進(jìn)行VR內(nèi)容創(chuàng)作。至于AR,大家似乎都在等另一個巨頭的聲音。
AI算法的使用可深可淺,所以一個領(lǐng)域的爆發(fā)必然帶來魚龍混雜的企業(yè)競爭。AI的行業(yè)應(yīng)用也不可能一步到位,不成熟是行業(yè)早期的必然現(xiàn)象,真正需要創(chuàng)業(yè)團(tuán)隊做的是耐心且長期地深入產(chǎn)業(yè)打磨產(chǎn)品。AIGC方向從業(yè)企業(yè)對技術(shù)、場景和數(shù)據(jù)的理解和積累顯得尤為重要,晨山將持續(xù)關(guān)注擁有自身技術(shù)和經(jīng)驗(yàn)積淀的匠人,同時又對商業(yè)價值充滿信心的優(yōu)秀團(tuán)隊。
快報
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論
早期方向都充滿各種不確定性,我們依然充滿期待,那才是未來。#晨山持續(xù)關(guān)注數(shù)字經(jīng)濟(jì)行業(yè)賦能