国产亚洲亚洲亚洲,国产精品美女一区

隨著5G大帶寬網(wǎng)絡(luò)時代的到來，人們對更具有視覺表現(xiàn)力的數(shù)字內(nèi)容越來越渴望。傳統(tǒng)數(shù)字內(nèi)容的生成效率已成為新時代的瓶頸。作為下一個探索熱點(diǎn)，「AI自動化內(nèi)容生成」激發(fā)了大量行業(yè)需求，也讓我們看到了人工智能技術(shù)新的引爆點(diǎn)。

自動化內(nèi)容生成并不是第一天誕生。但過去的2D/3D非結(jié)構(gòu)化內(nèi)容生成效果不盡人意，而且遺留了很多歷史問題給創(chuàng)業(yè)者去解決。近年來，AI在CG領(lǐng)域的應(yīng)用，尤其是若干革命性模型的提出，給整個方向帶來全新思路，其影響還在持續(xù)發(fā)酵中。但技術(shù)終將服務(wù)于商業(yè)。我們也看到，AI內(nèi)容生成技術(shù)正在各類顯性的商業(yè)場景中落地，創(chuàng)造越來越多的現(xiàn)實(shí)價值。

本文將闡述AI與內(nèi)容生成的發(fā)展現(xiàn)狀，探究目前技術(shù)的難點(diǎn)和機(jī)會，同時也會帶大家從不同角度看未來的商業(yè)價值。

2022百度世界大會上，百度首席技術(shù)官王海峰展示了利用AI「補(bǔ)全」《富春山居圖》讓歷史畫作重現(xiàn)當(dāng)代。風(fēng)格與現(xiàn)存真跡的一致程度也讓專家大為震撼。

▲ 浙江博物館館藏《富春山居圖·剩山圖》局部（左），臺北故宮博物院館藏《富春山居圖·無用師卷》局部（右）

▲ AI補(bǔ)全《富春山居圖》并題詩（上圖紅框處）

李彥宏在大會上分享了AIGC(AI Generated Content)將走過的三個發(fā)展階段：

第一階段是「助手階段」，AIGC輔助人類進(jìn)行內(nèi)容生產(chǎn)；第二階段是「協(xié)作階段」，AIGC以虛實(shí)并存的虛擬人形態(tài)出現(xiàn)，形成人機(jī)共生的局面；第三階段是「原創(chuàng)階段」，AIGC將獨(dú)立完成內(nèi)容創(chuàng)作。

AIGC這個詞聽上去比較時髦，但自動化內(nèi)容生成并不是個很新的概念。利用計算機(jī)輔助人類進(jìn)行內(nèi)容生產(chǎn)其實(shí)很早就出現(xiàn)，比如在計算機(jī)編程領(lǐng)域IDE的代碼提示、使用Office Word編輯內(nèi)容的錯誤修正，到后來利用NLG自動化文本生成等都可以算作這個范圍。

近年來，承載內(nèi)容的媒介越來越豐富，從最早的文本到圖文、視頻到3D內(nèi)容。同時也帶來了對內(nèi)容快速生產(chǎn)的更大訴求，激發(fā)了大家持續(xù)探索自動內(nèi)容生成的動力。深度學(xué)習(xí)的出現(xiàn)和發(fā)展，進(jìn)一步帶來了從CV(Computer Vision)延展到CG(Computer Graphics)領(lǐng)域的各種新嘗試。讓傳統(tǒng)的通過規(guī)則、數(shù)據(jù)的富媒體內(nèi)容生成方法逐步延伸到基于深度學(xué)習(xí)的內(nèi)容生成。這也是目前大家狹義理解的AIGC概念。

2D/3D非結(jié)構(gòu)化內(nèi)容生成更具有挑戰(zhàn)性

數(shù)字內(nèi)容的載體越來越豐富，針對各種形態(tài)的AI內(nèi)容生成的研究也越來越多，包括文字的NLG（自然語言生成）、圖片/視頻的自動風(fēng)格遷移和生成、通過點(diǎn)云/圖片信息自動生成3D內(nèi)容等。本文更加關(guān)注和深度學(xué)習(xí)算法更加契合也更有視覺表現(xiàn)力的「2D和3D非結(jié)構(gòu)化內(nèi)容生成」。

2D內(nèi)容生成

毋庸置疑，2D最常見的表現(xiàn)形式是圖像，視頻本質(zhì)上是多幀的連續(xù)圖像。

傳統(tǒng)的2D圖像生成的主流方式是通過攝像頭拍攝的方式物理采集實(shí)景圖片，或者通過Photoshop等設(shè)計/繪圖工具繪制數(shù)字圖片。實(shí)景拍攝圖片受限于環(huán)境、光照和拍攝技術(shù)等因素，導(dǎo)致優(yōu)質(zhì)圖片的生成難度較高。而數(shù)字圖片更多是體現(xiàn)作者的繪畫和美術(shù)功底。

如何通過既有素材快速且批量生產(chǎn)可用優(yōu)質(zhì)圖片，也是近年來2D內(nèi)容生成的重要研究方向，而這里面大放異彩的深度學(xué)習(xí)算法莫過于GAN（對抗神經(jīng)網(wǎng)絡(luò)）。

3D內(nèi)容生成

3D內(nèi)容生成更加復(fù)雜。要理解3D內(nèi)容生成，首先可能還是得明確下什么是3D內(nèi)容。

D是dimension的縮寫，顧名思義，3D是指物體本身的3個緯度(X-Y-Z)。在物理世界比較好理解，大家能看到的空間中所有物體都是三維的，因?yàn)槲覀兊目臻g就存在XYZ三個緯度。

但在2D平面的計算機(jī)世界3D又該如何理解？

其實(shí)很簡單，以我們常見的3D建模軟件為例，我們建立的模型雖然是在2D屏幕上呈現(xiàn)，但你可以按照計算機(jī)設(shè)定的XYZ三個坐標(biāo)軸進(jìn)行移動(Move、Rotate、Scale)來從各個角度看到物體的各個面。所以多角度的概念才是我們通常理解的3D數(shù)字內(nèi)容。

如果要在體驗(yàn)上有真正的3D感，需要突破2D屏幕的限制，那就只能等待AR/VR、全息顯示等新交互設(shè)備的發(fā)展了。

▲ Blender中的三維模型可以按XYZ三個坐標(biāo)軸多維變化

除了幾何形狀，完整的3D內(nèi)容還包含材質(zhì)（貼皮），再結(jié)合光照，最終通過渲染形成多角度的RGB圖片。

▲ 3D內(nèi)容是將形狀和外觀進(jìn)行組合渲染形成多維度視角的2D圖片

3D內(nèi)容生成的本質(zhì)是如何構(gòu)建物體的幾何、材質(zhì)和光照。元素的多樣性和復(fù)雜性，讓3D內(nèi)容生成成為CG領(lǐng)域的一個難點(diǎn)。

以第一步的幾何形狀的表達(dá)來看，業(yè)內(nèi)目前沒有統(tǒng)一的表達(dá)方式。常見的幾何表達(dá)包括顯式和隱式兩類。顯式更多的是指以肉眼可見的方式來表達(dá)幾何圖形。常見的顯式表達(dá)方式包括在機(jī)器視覺應(yīng)用較多的點(diǎn)云(Point Cloud)、在游戲場景應(yīng)用較多的體素（Voxel，類似Roblox）和3D建模軟件中常用的網(wǎng)格(Mesh)。隱式表達(dá)則是用參數(shù)化方程的方式來描述一個3D幾何，比較知名的如有向距離場(SDF)，通過每個像素（體素）記錄自己與距離自己最近物體之間的距離來表達(dá)，如果在物體內(nèi)，則距離為負(fù)，正好在物體邊界上則為0。

不同的3D表達(dá)方式?jīng)]有統(tǒng)一的規(guī)范，導(dǎo)致3D內(nèi)容的生成和制作與2D相比難度更上一層樓。

▲ 多樣的3D幾何表征方式

傳統(tǒng)3D內(nèi)容生成需要設(shè)計師使用Maya、3DMax、工程建模CAD等3D建模軟件手動建模/渲染出來，但軟件學(xué)習(xí)成本高、建模本身效率低等原因?qū)е略摲桨鸽y以快速批量生成3D內(nèi)容。

一種創(chuàng)新方法是通過既有2D數(shù)據(jù)自動重建3D模型。傳統(tǒng)三維重建方式為通過激光掃描生成目標(biāo)物體的點(diǎn)云數(shù)據(jù)后進(jìn)行三維重建，但這種方式采集的點(diǎn)云數(shù)據(jù)是離散并且無嚴(yán)格拓?fù)潢P(guān)系的，導(dǎo)致無法生成高分辨率的模型。

目前AIGC研究的重點(diǎn)方向，是通過若干2D圖片以計算機(jī)視覺算法重建方式來生成更多的3D內(nèi)容?；趫D片的3D內(nèi)容生成可以理解為下面的流程，通過現(xiàn)有2D圖片（輸入）進(jìn)行3D幾何、材質(zhì)等重建，再結(jié)合光照渲染能力重新恢復(fù)2D高清的多維度圖片。

雖然2D圖片采集相對容易，但問題在于，很難把物體任意維度的數(shù)據(jù)都拍得很完整，而且有些物體反光、透明等原因?qū)е屡臄z的圖片質(zhì)量不高。如何在有限的數(shù)據(jù)量和有限質(zhì)量的數(shù)據(jù)下根據(jù)先驗(yàn)知識構(gòu)建成一個完整的多維數(shù)據(jù)，正是深度學(xué)習(xí)擅長的問題。

除了靜態(tài)的人/物體/場景本身，如何構(gòu)建更加復(fù)雜的動態(tài)內(nèi)容也是內(nèi)容生成的重要部分。以人舉例，3D內(nèi)容包含人的動作、物理碰撞模擬（物理引擎）等也都是AI內(nèi)容生成需要進(jìn)一步解決的問題。

當(dāng)然問題越多，給予創(chuàng)業(yè)企業(yè)突破創(chuàng)新的機(jī)會也才越多。

AI給CG領(lǐng)域帶來全新的技術(shù)變革

近年來，AI給二維和三維的內(nèi)容生成帶來了許多新變化。

GAN神經(jīng)網(wǎng)絡(luò)

在二維領(lǐng)域，最重大突破便是Goodfellow在2014年提出的GAN神經(jīng)網(wǎng)絡(luò)。GAN包含有兩個模型，一個是生成模型(generative model)，一個是判別模型(discriminative model)?？梢酝ㄋ桌斫鉃椋?strong>生成模型像「一個造假團(tuán)伙，試圖生產(chǎn)和使用假幣」，而判別模型像「檢測假幣的警察」。

生成器(generator)試圖欺騙判別器(discriminator)，判別器則努力不被生成器欺騙。模型經(jīng)過交替優(yōu)化訓(xùn)練，兩種模型都能得到提升，但最終我們要得到的是效果提升到很高很好的生成模型（造假團(tuán)伙），這個生成模型（造假團(tuán)伙）所生成的產(chǎn)品能達(dá)到真假難分的地步。

利用GAN網(wǎng)絡(luò)衍生的如CycleGAN、StyleGAN等神經(jīng)網(wǎng)絡(luò)模型，就可以通過既有圖片進(jìn)行圖片的風(fēng)格遷移、人臉編輯、圖像修復(fù)、補(bǔ)全等操作而形成新的內(nèi)容。前文中提到《富春山居圖》的補(bǔ)全也一定程度上是這類算法的延伸。

▲ GAN網(wǎng)絡(luò)生成器和判別器「對抗訓(xùn)練」

在三維領(lǐng)域，因?yàn)楸磉_(dá)形式的復(fù)雜性，業(yè)界圍繞不同表達(dá)形式也在各個方向進(jìn)行探索。

點(diǎn)云重建

由于采集成本高、遮擋等問題，點(diǎn)云無法連續(xù)采集物體表面的信息，而更加容易表征空間定位信息。點(diǎn)云3D重建在自動駕駛、機(jī)器人等空間定位和掃描場景應(yīng)用更多，并不太適合用于視覺表現(xiàn)。要生成更加稠密包括適合視覺觀測的3D內(nèi)容的表面，需要生成更加稠密的點(diǎn)來補(bǔ)充離散點(diǎn)云的稀疏問題。這其中也有些研究者利用深度學(xué)習(xí)的方法，通過特征擴(kuò)展、GAN擴(kuò)展網(wǎng)絡(luò)等方式生成更加稠密的點(diǎn)云信息。

▲ 深度學(xué)習(xí)+點(diǎn)云進(jìn)行3D表面重建

傳統(tǒng)圖片3D重建

從2D圖片重建3D模型并非在近年來AI大發(fā)展之后才出現(xiàn)，比較早的算法如Structure From Motion（SFM，1979年前）、Multi-View Stereo（MVS，2006年以前）、PMVS(2010)和COLMAP(2016)等。

以效果還不錯的PMVS算法舉例，從圖片里面提取特征再做三角測量的點(diǎn)，獲得點(diǎn)云數(shù)據(jù)，然后根據(jù)這些點(diǎn)重建物體表面，并進(jìn)行紋理映射，就可以還原出三維場景和物體了。

▲ 結(jié)合SFM和MVS的PMVS算法

但這種方法同樣因?yàn)樵肼?、點(diǎn)云稀疏問題無法形成完整的幾何結(jié)構(gòu)，需要更多的人工加工，才能真正為圖形學(xué)使用。而一個完美的圖像渲染過程需要一個完美的多幾何結(jié)構(gòu)和材質(zhì)，所以這種方式很難達(dá)到渲染需要的質(zhì)量。

▲ 點(diǎn)云稀疏問題導(dǎo)致無法形成完美質(zhì)量的3D幾何結(jié)構(gòu)

基于AI算法的圖片3D重建

深度學(xué)習(xí)等AI算法的提出，最先解決了計算機(jī)視覺領(lǐng)域中物體識別、內(nèi)容理解等問題。隨著近年來不同深度學(xué)習(xí)模型的提出，大家逐步關(guān)注到如何把深度神經(jīng)網(wǎng)絡(luò)應(yīng)用在CG領(lǐng)域。

要進(jìn)行3D重建，首先要解決的便是幾何的表征方式選擇問題，即選擇顯式還是隱式表達(dá)。

顯式表達(dá)近年來涌現(xiàn)出不少優(yōu)秀的研究成果：GQN(2018)、CodeSLAM(2018)、DeepVoxels(2019)、Neural Volumes(2019)、Latent Fusion(2020)。但顯式表達(dá)最大的問題在于幾何表征本身是離散的，幾何拓?fù)潢P(guān)系難以優(yōu)化。導(dǎo)致生成的三維內(nèi)容的分辨率受到比較大的限制。

為了獲得更加準(zhǔn)確、高分辨率的3D內(nèi)容，隱式表達(dá)方式開始成為大家主要研究的方向。隱式表達(dá)中，最容易想到的便是對現(xiàn)有隱式表達(dá)利用深度學(xué)習(xí)改造，如DeepSDF模型，但受限于表達(dá)方式的缺陷，效果也不盡如人意。2020年，谷歌研究院的Pratul Srinivasan、Benjamin Mildenhall等提出的NeRF方法引爆了整個3D重建領(lǐng)域。NeRF的提出激發(fā)了大量的后續(xù)研究，原始研究文獻(xiàn)實(shí)現(xiàn)了增長極快的引用率，迄今NeRF的引用量已破千。

我們來一探這個可能開啟CG領(lǐng)域新時代的深度學(xué)習(xí)算法：NeRF是Neural Radiance Fields的縮寫，其中的Radiance Fields是指一個函數(shù)，也就是前面提到的隱式表達(dá)中的表達(dá)函數(shù)，當(dāng)然除了表征幾何，Radiance函數(shù)同樣帶上顏色信息來完成對材質(zhì)-貼圖的表征。

NeRF將場景表示為空間中任何點(diǎn)的volume density σ（簡單理解為不透明度）和顏色值c 。有了以NeRF形式存在的場景表示后，就可以對該場景進(jìn)行渲染，生成新視角的模擬圖片。NeRF的輸入為空間點(diǎn)的位置和方向，通過求解穿過場景的任何光線的顏色，從而渲染合成新的圖像。

▲ NeRF的簡單描述（輸入是空間位置信息，輸出是透明度+顏色）

可以看出NeRF最大的創(chuàng)新在于對場景的隱式表征方式的創(chuàng)新，通過連續(xù)的隱式表征，可以用少量的圖片渲染重建出更加逼真的三維內(nèi)容。

▲ NeRF網(wǎng)絡(luò)和現(xiàn)有深度神經(jīng)網(wǎng)絡(luò)效果對比

NeRF也不是沒有缺點(diǎn)——由于需計算大量的點(diǎn)位信息導(dǎo)致推理過程過于耗時而很難實(shí)現(xiàn)實(shí)時渲染；缺乏顯示表征而帶來內(nèi)容編輯難度較高。因此，圍繞后NeRF時代的神經(jīng)網(wǎng)絡(luò)模型和方法也層出不窮。通過將GAN和NeRF兩大內(nèi)容生成的AI技術(shù)相結(jié)合的GRAF9(Generative Radiance Fields)。2021年CVPR的最佳論文GIRAFFE通過GAN網(wǎng)絡(luò)實(shí)現(xiàn)NeRF的可控編輯等。

AI+Motion

現(xiàn)實(shí)世界是在敘事基礎(chǔ)上建立，而敘事由人物關(guān)系展開，所以人是現(xiàn)實(shí)世界最重要的元素。

除了外形表現(xiàn)，人更重要的是靈活的動作/表情的表達(dá)和交互，只有配合動作/表情，人物的「神」和「態(tài)」才能完整地被表達(dá)出來。可以說，沒有動作的人物模型毫無意義。

模型建立雖然有不同層次的成本，但始終可以通過手工或者半自動的方式完成，制作門檻并不高。但如何生成符合人體運(yùn)動學(xué)的動作和表情則更加需要數(shù)據(jù)的支撐，也非常適合利用AI算法來進(jìn)行模型的訓(xùn)練。

動作生成的難度在于如何用相對標(biāo)準(zhǔn)化的方式來驅(qū)動不同外形的人物，同時模型本身足夠的協(xié)調(diào)和自然。這不僅是指動作本身的協(xié)調(diào)程度，更重要的是還要和語音、文本等多模態(tài)輸入能夠完美結(jié)合。

近年來，隨著動捕技術(shù)發(fā)展、視頻內(nèi)容數(shù)據(jù)的豐富，動作數(shù)據(jù)的積累也變得更加簡單。大量圍繞動作驅(qū)動的AI工作也陸續(xù)被大家提出。2019年以后大量的工作基于RNN網(wǎng)絡(luò)進(jìn)行動作預(yù)測(Motion Prediction)、基于 RL（Reinforcement Learning，增強(qiáng)學(xué)習(xí)）的動作控制算法(Motion Control)和Ginosar、Alexanderson等人提出的基于語音、文本甚至音樂的多模態(tài)動作驅(qū)動的CNN模型(Cross-modal motion synthesis)。

▲ 通過語音驅(qū)動手勢動作示例

AI+CG的價值落地明確并且正在發(fā)生

我們并沒有必要過多討論具體的算法，更應(yīng)該關(guān)注的是，在當(dāng)前技術(shù)成熟度下AI+CG能創(chuàng)造多大的商業(yè)價值。

首先我們來看看CV領(lǐng)域的趨勢，在2012年AlexNet被提出以前，計算機(jī)視覺中的檢測、目標(biāo)識別其實(shí)已經(jīng)有超40年的發(fā)展歷史，但由于技術(shù)成熟度的原因遲遲沒有很好的商業(yè)落地。隨著深度學(xué)習(xí)等AI技術(shù)被驗(yàn)證，大量的相關(guān)工作在隨后的6-7年內(nèi)被提出，隨之而來的是AI被應(yīng)用在各個商業(yè)場景。

這其中首先有殺手級的應(yīng)用——人臉識別，在支付、安防、身份認(rèn)證等領(lǐng)域都得到了廣泛的應(yīng)用。除了人臉相關(guān)，我們再擴(kuò)展到物體的視覺檢測方向，有工業(yè)視覺檢測、機(jī)器視覺等行業(yè)應(yīng)用。這些應(yīng)用帶來了大量的生產(chǎn)力提升，同時也創(chuàng)造了極大的社會價值和投資機(jī)會。

那AI+CG領(lǐng)域是否存在同樣的機(jī)會呢？

從技術(shù)發(fā)展的角度看，CG似乎和CV領(lǐng)域一樣，正迎來AI在CG領(lǐng)域的大爆發(fā)的前期。整個發(fā)展路徑非常類似，其中比較有代表性的兩類模型是GAN和NeRF以及大量的延伸工作，但提出的時間比AlexNet和ResNet等晚了3-5年，技術(shù)仍處于爬坡期。然而我們更需要關(guān)注的是，目前具有一定AI技術(shù)成熟度的CG領(lǐng)域，未來到底有多少商業(yè)價值呢？

無論是2D還是3D，更多是為了視覺而服務(wù)，我們能想到或者日常能夠體驗(yàn)到的視覺場景大致包括以下幾類：視覺內(nèi)容營銷、線上的商業(yè)服務(wù)、行業(yè)仿真和新的交互方式帶來的泛娛樂內(nèi)容的需求。

視覺內(nèi)容營銷

互聯(lián)網(wǎng)時代開啟后，營銷是流量企業(yè)最主要變現(xiàn)方式之一。而承載營銷最重要的方式便是更加具有視覺沖擊力的圖文、視頻等富媒體內(nèi)容。

首先從視頻類（圖文類似）內(nèi)容生成成本角度來看，傳統(tǒng)的營銷類視頻以拍攝+后期制作的方式為主。視頻的生產(chǎn)過程都耗費(fèi)大量的人力，并且視頻多樣化往往需要簡單重復(fù)勞動來獲得。

舉個最簡單例子，同一個產(chǎn)品營銷類視頻，產(chǎn)品在不同的國家進(jìn)行售賣，可能需要當(dāng)?shù)仫L(fēng)格的模特進(jìn)行視頻表現(xiàn)，但如果使用GAN系列模型通過AI生成和風(fēng)格遷移的方式，可以較為完美地進(jìn)行人物風(fēng)格切換，快速降低內(nèi)容制作成本。

▲ 由GAN網(wǎng)絡(luò)生成的不同圖片風(fēng)格

其次從效果來看，傳統(tǒng)線上視頻類營銷往往以產(chǎn)品介紹、特點(diǎn)宣傳為主。和線下營銷關(guān)注「人貨場」的概念差別比較大，這其中最大的差別在于如何在二維的屏幕模擬出3D的沉浸感，給人以3D式的營銷體驗(yàn)。而要有3D沉浸感首先得有3D可交互的內(nèi)容。

從「人」的角度來看，就涉及到現(xiàn)在比較火的3D數(shù)字人的生成。3D人可以賦予視頻內(nèi)容中人物更加多角度、更多動作、更加可控的展現(xiàn)形態(tài)，疊加上深度圖效果和語言，讓人物更加具有表現(xiàn)力。當(dāng)然如果能做成「老黃」那樣超寫實(shí)的虛擬人就更加能夠以假亂真了。

而這其中就可以利用前面提到的AI的方式進(jìn)行3D模型和動作的生成，當(dāng)然僅僅通過AI實(shí)現(xiàn)超寫實(shí)的3D人物構(gòu)建，在效果上目前還是有些難度，而表情和動作的生成已經(jīng)做的非常逼真。晨山投資的中科深智便在人物表情和動作生成方面具有多年的積累，并且較早就在行業(yè)得到廣泛應(yīng)用。

▲ 3D數(shù)字人給營銷以更加強(qiáng)的表現(xiàn)力

從「貨」的角度來看，大家或許已經(jīng)發(fā)現(xiàn)，某些電商平臺的內(nèi)容展示更加立體，會從各個角度來呈現(xiàn)客戶想要購買的商品。品牌方通過拍攝多角度照片，利用AI+3D重建來進(jìn)行3D商品展示的方式已經(jīng)越來越普遍，細(xì)節(jié)表現(xiàn)力也更強(qiáng)。隨著NeRF等算法的改進(jìn)，重建成本逐步降低，未來商品的3D化也將是趨勢。

▲ 某電商品牌的3D內(nèi)容展示

在「場」的層面，如何重現(xiàn)線下體驗(yàn)，追求品牌的「永久在線」，是現(xiàn)在很多平臺在探索的方向。通過線上空間3D化，可以讓參與者更加有沉浸感。這就涉及到如何進(jìn)行空間的建模，通過AI+點(diǎn)云/機(jī)器視覺重建的工作已經(jīng)在一些領(lǐng)域被大家提出和應(yīng)用。

線上商業(yè)服務(wù)

近年來，從傳統(tǒng)的工業(yè)到線下服務(wù)業(yè)，大家開始使用硬件機(jī)器人來替換重復(fù)勞動的工作以達(dá)到降本增效的目的。

但我們往前一步看，線上重復(fù)的服務(wù)工作如客服、電商/電視的主播、播報員甚至部分節(jié)目主持人，未來同樣有被虛擬機(jī)器人替換的可能。舉個例子，大家看天氣預(yù)報，會因?yàn)橹鞒秩藫Q了而不看天氣預(yù)報的可能性有多大？而且他們原生就在線上輸出服務(wù)，擁有的數(shù)字基礎(chǔ)其實(shí)更好。

▲ 機(jī)器替人的場景在不可逆地發(fā)生

很明顯，數(shù)字員工在降低勞動成本，全天候工作提升工作效率，填補(bǔ)人才缺口，降低人員流動風(fēng)險等方面有天然的優(yōu)勢。但前提是如何通過AI的方式結(jié)合3D人物生成、更加靈活的動作驅(qū)動、更加平滑的解決用戶問題，實(shí)現(xiàn)更加擬人化甚至無差別化服務(wù)。這些都是是需要根據(jù)具體場景，結(jié)合進(jìn)一步的技術(shù)驅(qū)動來完成的，其中的工作量不容小覷。

或許很多人都會說擬人畢竟還是假人，尤其是虛擬人不夠形象，但時代在變，大家的習(xí)慣也在變化。對大部分95后、00后來說，二次元或許更受他們青睞。據(jù)統(tǒng)計，B站用戶平均年齡為21歲，這些人成年后依然保持著對虛擬人物和二次元文化的熱愛。

行業(yè)仿真

根據(jù)最終用途，仿真類應(yīng)用大致分為管理類仿真和設(shè)計類仿真。對應(yīng)到我們經(jīng)常聽到的概念便是數(shù)字孿生和工業(yè)設(shè)計軟件。二者除了應(yīng)用方向的區(qū)別外，在技術(shù)上，前者更加關(guān)注效果和數(shù)據(jù)的結(jié)合，而后者關(guān)注的更多是物理/幾何世界的數(shù)字化模擬。

▲ 數(shù)字孿生vs.工業(yè)設(shè)計

無論數(shù)字孿生還是工業(yè)設(shè)計，歷史上的生產(chǎn)方式還是依靠大量的人力在進(jìn)行內(nèi)容的建模。這其中不僅僅有重復(fù)勞動，而且無論宏觀如數(shù)字孿生還是微觀如工業(yè)結(jié)構(gòu)件，其中的模型數(shù)量都非常大。如何通過AI快速生產(chǎn)內(nèi)容、更好地渲染，都是大家目前在努力的方向。

AR/VR

這個方向一直反復(fù)成為投資人追捧的熱點(diǎn)。因?yàn)榇蠹抑?，前面所有的場景，只有能把屏幕變?D的，那3D才能完全發(fā)揮它的能量。這個趨勢雖然跌跌撞撞，但它卻在悄然發(fā)生。

2020年發(fā)布的Oculus Quest 2已達(dá)到消費(fèi)級水平，在顯示參數(shù)、外觀設(shè)計和價格等方面均滿足了VR用戶的基本需求。據(jù)IDC數(shù)據(jù)顯示，2021年全球VR出貨量達(dá)1,095萬臺，已突破年出貨量一千萬臺的行業(yè)重要拐點(diǎn)。

除了設(shè)備本身，內(nèi)容生態(tài)同樣重要。Oculus為代表的內(nèi)容數(shù)量也在快速提升，截止2022年4月，Oculus Rift、Quest、APP Lab平臺分別擁有1,381、357、1,074款應(yīng)用。這其中的內(nèi)容包括VR游戲、沉浸式社交等各種3D內(nèi)容構(gòu)建的場景。

未來VR加速發(fā)展離不開內(nèi)容的快速生成，當(dāng)設(shè)備不再是瓶頸后，如何搶占內(nèi)容開發(fā)者，高效地給開發(fā)者提供更加智能化、AI化的生產(chǎn)力工具才是平臺廠商下一步需要布局的重點(diǎn)。這其中Meta已經(jīng)做出了表率：2021年10月，Meta宣布設(shè)立1,000萬美元的「創(chuàng)作者基金」，鼓勵更多內(nèi)容創(chuàng)作者進(jìn)行VR內(nèi)容創(chuàng)作。至于AR，大家似乎都在等另一個巨頭的聲音。

AI算法的使用可深可淺，所以一個領(lǐng)域的爆發(fā)必然帶來魚龍混雜的企業(yè)競爭。AI的行業(yè)應(yīng)用也不可能一步到位，不成熟是行業(yè)早期的必然現(xiàn)象，真正需要創(chuàng)業(yè)團(tuán)隊做的是耐心且長期地深入產(chǎn)業(yè)打磨產(chǎn)品。AIGC方向從業(yè)企業(yè)對技術(shù)、場景和數(shù)據(jù)的理解和積累顯得尤為重要，晨山將持續(xù)關(guān)注擁有自身技術(shù)和經(jīng)驗(yàn)積淀的匠人，同時又對商業(yè)價值充滿信心的優(yōu)秀團(tuán)隊。