馬丁·路德·金的虛擬分身登上了《時(shí)代》雜志封面
美國(guó)民權(quán)運(yùn)動(dòng)領(lǐng)袖馬丁·路德·金第六次登上了《時(shí)代》雜志封面,2020年2月刊。
此前他曾先后五次登上封面,分別在1957年、1964年、1965年、2006年和2013年,但這一次完全不同,封面并非采用他的歷史照片,而是通過(guò)虛擬人技術(shù)創(chuàng)作完成的數(shù)字肖像。
與此同時(shí),在芝加哥的 DuSable 美國(guó)歷史博物館里,興致而來(lái)的觀眾們得以重溫這位領(lǐng)袖的激昂演說(shuō)。
“I have a dream......”
戴上VR設(shè)備,體驗(yàn)者仿佛“穿越”到了當(dāng)年的華盛頓林肯紀(jì)念堂前,可以近距離觀察馬丁·路德·金演講的風(fēng)姿,面部小細(xì)節(jié)也盡收眼底;置身于25萬(wàn)來(lái)自不同種族的民眾組成的游行隊(duì)伍中,觀眾甚至?xí)?ldquo;擔(dān)心被人群踩踏”的親歷感。
這場(chǎng)沉浸式體驗(yàn)展《大游行》(The March),由好萊塢視覺(jué)特效公司數(shù)字王國(guó)聯(lián)合藝術(shù)家 Hank Willis Thomas 打造。藝術(shù)家和工程師們,通過(guò)全息投影、人工智能及VR技術(shù)等數(shù)字化手段,實(shí)現(xiàn)了“真人復(fù)生”,再現(xiàn)了美國(guó)歷史上的經(jīng)典片段,前后歷時(shí)三年。

馬丁·路德·金扮演者 Hank Thomas 在數(shù)字人制作中進(jìn)行動(dòng)作數(shù)據(jù)采集(來(lái)源:紀(jì)錄短片 The March)
人類對(duì)于人工智能的想象從未停止。
從2004年經(jīng)典電影《I robot》到最近的《Her》中的薩曼莎、《鋼鐵俠》中的賈維斯,人工智能不僅越來(lái)越智能,其形態(tài)、載體也不被局限于機(jī)器當(dāng)中——擁有情感的人工智能,哪怕只有聲音存在,也可以被看做是一個(gè)獨(dú)立的“人”。
在 2020 CES展出的創(chuàng)新項(xiàng)目中,虛擬人項(xiàng)目 NEON 吸引了全球的目光。
NEON由三星旗下獨(dú)立實(shí)驗(yàn)室STAR Labs孵化,這個(gè)實(shí)驗(yàn)室定位于“研發(fā)尖端 AI 技術(shù)與應(yīng)用的核心平臺(tái)”。NEON項(xiàng)目負(fù)責(zé)人普拉納夫·米斯特里介紹,基于Core R3、SPECTRA兩大引擎,NEON虛擬人在對(duì)人物原始面部、聲音等數(shù)據(jù)進(jìn)行捕捉并學(xué)習(xí)之后,可以自主創(chuàng)建未錄入過(guò)的新表情、新動(dòng)作、新對(duì)話,甚至能說(shuō)其他語(yǔ)言。
據(jù)米斯特里在 CES 的展出現(xiàn)場(chǎng)的介紹,CORE R3代表真實(shí)、實(shí)時(shí)、回應(yīng)(Real, Realtime, Responsive),它使得NEON得以生成栩栩如生的真實(shí), 并實(shí)時(shí)地做出回應(yīng)。而另一個(gè)引擎——SPECTRA平臺(tái),則負(fù)責(zé)提供情報(bào),學(xué)習(xí),情感和記憶,可以給 NEON 賦能,使得 NEON 帶給人的體驗(yàn)達(dá)到“沉浸式”。

栩栩如生、可實(shí)時(shí)回應(yīng)的 NEON 虛擬人
STAR Labs將 NEON 虛擬人稱為“人工智人”,或是為了體現(xiàn)其與“機(jī)器助手”的概念不同。
STAR Labs戰(zhàn)略負(fù)責(zé)人Bob Lian在CES期間做客鈦媒體CES Talk to China Stage,他向鈦媒體App表示,“Neon所實(shí)現(xiàn)的100%真實(shí)感,在現(xiàn)在市場(chǎng)上是無(wú)可匹敵的。”
但由于技術(shù)引擎還在研發(fā)過(guò)程中,NEON在“智能化”方面還尚有欠缺。

NEON虛擬人面部表情,說(shuō)話神態(tài)以及眼部、唇部細(xì)節(jié)都非常逼真。
盡管 NEON 還處在非常早期的階段,TA的締造者們已經(jīng)開(kāi)始展望其商業(yè)化前景,“NEON可以擴(kuò)展角色,變身為虛擬新聞主播、虛擬接待員,甚至是AI制作的電影明星。”同樣在中國(guó),數(shù)字人的締造者們也已經(jīng)嘗試進(jìn)入服務(wù)領(lǐng)域、娛樂(lè)領(lǐng)域及影視制作行業(yè)。
數(shù)字人,何時(shí)能像科學(xué)家們所期待的一樣,成為我們?nèi)粘I畹囊徊糠郑?/strong>
不止 Star Labs 瞄準(zhǔn)了模擬人類情感這樣的“造人”思路,近些年,各大科技公司越發(fā)注重對(duì)人工智能EQ(情商)的開(kāi)發(fā),希望能讓人工智能更接近人。
微軟人工智能小冰早在研發(fā)之初就強(qiáng)調(diào)人工智能的EQ將是重要的基礎(chǔ)。要在EQ的基礎(chǔ)上發(fā)展IQ、亞馬遜也希望其人工智能助手Alexa具備同理心、中國(guó)的科技公司百度也提出“智能體”概念,希望人工智能變得更有個(gè)性。
那么,為什么科技公司都希望“造人”?
來(lái)自三星 STAR Labs 的戰(zhàn)略負(fù)責(zé)人 Bob 給鈦媒體App的答案是,“數(shù)字人不會(huì)疲勞、不會(huì)厭倦,永遠(yuǎn)能保持精力充沛。”
從交互層面,科技公司希望借助數(shù)字人創(chuàng)造新一代人機(jī)交互方式。從生產(chǎn)力層面,借助“擬人”化,AI能力,讓虛擬人能被運(yùn)用在”需要大量重復(fù)勞動(dòng)力、需要海量、復(fù)雜計(jì)算“的場(chǎng)景,解放人類勞動(dòng)力,提高生產(chǎn)效率。
而AI技術(shù)的發(fā)展,讓計(jì)算機(jī)無(wú)論從軟件還是到硬件的“擬人”成為可能。
目前,業(yè)界將AI能力分為兩大類:一是感知類的AI能力,比如我們的耳朵能聽(tīng),我們的眼睛能看,這屬于感知類的AI能力;二是認(rèn)知類的AI能力,比如我們的大腦能思考、能運(yùn)算,認(rèn)知類的AI能力主要是兩類技術(shù):一是自然語(yǔ)言處理的技術(shù)NLP;二是知識(shí)圖譜。
感知和認(rèn)知能力的落地,讓“虛擬人”與人類的交互有了更多可能。
如果說(shuō)以往虛擬偶像的最大問(wèn)題是不具備溝通能力,沒(méi)辦法真正像人一樣交流,那么,感知、認(rèn)知能力的提升,讓虛擬人不止停留在“徒有其表”的階段,而是真正的感知到外界,并像人一樣的交互、思考。
因此,這一波“造人”浪潮中,除了娛樂(lè)、交互領(lǐng)域,應(yīng)用開(kāi)始延展到更多實(shí)際場(chǎng)景中,虛擬主持、虛擬導(dǎo)購(gòu)、虛擬前臺(tái)、虛擬客戶經(jīng)理等實(shí)際落地案例都開(kāi)始涌現(xiàn)。
成熟的技術(shù)廠商也開(kāi)始準(zhǔn)備入局。2019年進(jìn)入下半程開(kāi)始,我們生活中的數(shù)字人相關(guān)新聞開(kāi)始增多,除了數(shù)家國(guó)內(nèi)外科技公司都公開(kāi)發(fā)布了數(shù)字人、虛擬人、或相關(guān)人工智能的研發(fā)計(jì)劃、開(kāi)發(fā)者平臺(tái),落地的應(yīng)用也開(kāi)始出現(xiàn)。
其中,一部分?jǐn)?shù)字人應(yīng)用致力于模擬真人。
最近的例子是2019年底的虛擬主持人妮雅,頻繁在各家科技媒體年度大會(huì)上亮相,一身紅衣賺足了眼球。
![]()
搜狗虛擬主播妮雅在鈦媒體 2019 T-EDGE全球創(chuàng)新大會(huì)。
在 Baidu Create 2019 百度 AI 開(kāi)發(fā)者大會(huì)上,百度聯(lián)合浦發(fā)銀行、原力動(dòng)畫推出了數(shù)字虛擬人“小浦”。
浦發(fā)“數(shù)字人”計(jì)劃,應(yīng)用于浦發(fā)銀行APP、網(wǎng)銀以及各類移動(dòng)終端,還能融入到智能家居。鈦媒體App獲悉,“小浦”具有三項(xiàng)能力:一是情感感知,通過(guò)人臉表情識(shí)別技術(shù),實(shí)時(shí)感知用戶情緒變化,讓交互溝通更自然;二是海量信息為用戶決策提供豐富的資訊依據(jù),基于自然語(yǔ)言處理、知識(shí)圖譜等技術(shù),結(jié)合金融知識(shí)庫(kù)和數(shù)據(jù)訓(xùn)練,幫助用戶精細(xì)化管理個(gè)人資產(chǎn);三是深度學(xué)習(xí),數(shù)字人通過(guò)實(shí)施服務(wù),積累服務(wù)經(jīng)驗(yàn),為客戶規(guī)劃未來(lái)提供支持。
![]()
數(shù)字虛擬人“小浦”
同時(shí),“智能”也賦予了虛擬卡通形象更大的生命力,特別是人工智能在視覺(jué)與圖像上的進(jìn)步,讓虛擬偶像們翩翩起舞、與人類互動(dòng)。
B站被贊爆了的跨年晚會(huì)上,B站“親閨女”洛天依就與國(guó)樂(lè)大師方錦龍的同臺(tái)表演《好一朵美麗的茉莉花》,為用戶提供了全新的視覺(jué)體驗(yàn)。
琵琶聲中,舞臺(tái)效果也呈現(xiàn)出春夏秋冬四個(gè)季節(jié)的景象,洛天依則輾轉(zhuǎn)在四季景象中,時(shí)而撐起油紙傘,時(shí)而登上游船,又在楓葉和雪景中舞蹈……
![]()
洛天依就與方錦龍的演出,洛天依并沒(méi)有真實(shí)出現(xiàn),主要依賴于AR增強(qiáng)現(xiàn)實(shí)技術(shù)而實(shí)現(xiàn)
不少虛擬人社交產(chǎn)品,也在2019年濺起了水花:可將自己錄制表情的Memoji表情等應(yīng)用、可以模仿真人表情的虛擬人社交產(chǎn)品ZEPETO、可以將自己的臉換到明星身上的ZAO等等……
如果再將虛擬人的概念往外延伸一些,小度、小愛(ài)、小冰、天貓精靈、Alex等有性格的人工智能助手,也逐漸形成了自己的數(shù)字人人設(shè)。
多家在虛擬人項(xiàng)目上已經(jīng)小有突破的頭部科技公司均接受了鈦媒體App采訪,他們的產(chǎn)品和研發(fā)思路不盡相同,但數(shù)字人在行業(yè)中的應(yīng)用趨勢(shì),已經(jīng)相對(duì)清晰。
騰訊AI Lab“虛擬人”項(xiàng)目
——定性為前沿研究項(xiàng)目,應(yīng)用偏娛樂(lè)、內(nèi)容方向,與騰訊業(yè)務(wù)結(jié)合緊密,將融入騰訊的文娛生態(tài)
作為NEON的“前輩”,早在2018年Siggraph會(huì)議上,騰訊互娛NEXT技術(shù)中心和騰訊AI Lab就攜手發(fā)布了高保真可交互數(shù)字虛擬人Siren AI。
“我們認(rèn)為,虛擬人是基于AI前沿多模態(tài)研究,可以具備個(gè)性、成長(zhǎng)性、主動(dòng)性甚至創(chuàng)造性,能迸發(fā)出極‘智’想象力的下一代智能人機(jī)交互方式。”
騰訊AI Lab 副主任俞棟博士接受了鈦媒體App獨(dú)家專訪。他正帶領(lǐng)騰訊“虛擬人”項(xiàng)目進(jìn)行一系列前沿探索。在問(wèn)及“虛擬人”的定義時(shí),他這樣回答道。

Siren AI
同NEON一樣,Siren AI的面部形象同樣來(lái)自于真人——中國(guó)的女演員姜冰潔,但“她”可以在AI大腦的輔助下,由其他人驅(qū)動(dòng)。

Siren所有的動(dòng)作表情都是實(shí)時(shí)捕捉并實(shí)時(shí)渲染。也就是說(shuō),其他人可以通過(guò)驅(qū)動(dòng)虛擬人來(lái)“還原”姜冰潔本人,完成一系列表演。


但Siren AI依然需要真人來(lái)驅(qū)動(dòng),因此,騰訊AI Lab在此基礎(chǔ)上,發(fā)布了多模態(tài)合成系統(tǒng)DURIAN。
多模態(tài)合成系統(tǒng)DURIAN,它可以合成高擬真度的語(yǔ)音并同步預(yù)測(cè)唇形和表情參數(shù),這些唇形和表情參數(shù)通過(guò)虛擬形象驅(qū)動(dòng)算法讓虛擬人有擬人化的表情和肢體動(dòng)作,也使得虛擬人可以擺脫對(duì)動(dòng)捕演員和聲優(yōu)的依賴。
作為DEMO,騰訊將這項(xiàng)技術(shù)落地到了電競(jìng)解說(shuō)上,發(fā)布了代號(hào)名為“T.E.G”的卡通AI形象天鵝靜。目前,AI天鵝靜在企鵝電競(jìng)上已經(jīng)開(kāi)辟了直播房間,不斷更新解說(shuō)視頻。
![]()
目前,天鵝靜還處于內(nèi)測(cè)階段,但每日都會(huì)“上崗”直播(圖片由受訪者提供)
除了擺脫動(dòng)作捕捉及對(duì)聲優(yōu)的依賴,俞棟表示,電競(jìng)虛擬人克服了樣本較少、評(píng)價(jià)主觀、知識(shí)依賴等問(wèn)題,可以從新聞報(bào)道和人類解說(shuō)中不斷地學(xué)習(xí)局勢(shì)分析和解說(shuō)的能力,并將這些能力舉一反三,是騰訊虛擬人技術(shù)的一大突破。
除了卡通角色“天鵝靜”之外,騰訊AI Lab還在今年多個(gè)會(huì)議上展示了基于神經(jīng)網(wǎng)絡(luò)渲染的寫實(shí)數(shù)字人“小航”。
該數(shù)字人只需要運(yùn)用發(fā)言人不到10分鐘的視頻數(shù)據(jù),就可以定制而成。騰訊AI lab計(jì)劃將“小航”數(shù)字人應(yīng)用在教育、主持等場(chǎng)景。

騰訊AI Lab基于神經(jīng)網(wǎng)絡(luò)渲染的寫實(shí)數(shù)字人“小航”。
事實(shí)上,除了塑造虛擬人外觀形象,驅(qū)動(dòng)面部表情外,在人體圖像合成、動(dòng)作遷移等多方面,騰訊AI Lab都已經(jīng)有深厚的技術(shù)積累,許多和虛擬人相關(guān)的技術(shù)都在研發(fā)當(dāng)中。

上海科技大學(xué)和騰訊 AI Lab 推出的一項(xiàng)最新研究,能讓AI做到近乎完美的動(dòng)作遷移,這項(xiàng)研究還可以實(shí)現(xiàn)實(shí)時(shí)變裝,3D 建模等功能。
盡管騰訊 AI Lab 將虛擬人項(xiàng)目定性為前沿研究項(xiàng)目,但由此研發(fā)出的前沿語(yǔ)音合成技術(shù),已經(jīng)在騰訊內(nèi)多個(gè)業(yè)務(wù)落地,包括了電視、音箱到王者機(jī)器人產(chǎn)品等等。AI Lab相關(guān)人士對(duì)鈦媒體App表示,未來(lái)虛擬人也會(huì)以電子偶像、電競(jìng)解說(shuō)、新聞主持等不同的形式和騰訊的業(yè)務(wù)進(jìn)行結(jié)合。
與NEON的情感路線類似,微軟小冰早2014年研發(fā)之初,就提出了專門發(fā)展AI的EQ,基于EQ迭代IQ的理念。雖然沒(méi)有實(shí)體的機(jī)器人,但如果從虛擬人的“類人”功能來(lái)看,微軟人工智能小冰是最接近人的,也是最早提出多模態(tài)的廠商之一。
2019年,微軟小冰升級(jí)到第七代,已成為全球最大的跨領(lǐng)域人工智能系統(tǒng)之一。在全球多個(gè)國(guó)家,微軟小冰單一品牌已覆蓋6.6億在線用戶、4.5億臺(tái)第三方智能設(shè)備和9億內(nèi)容觀眾。
微軟小冰人工智能技術(shù)路線比較特殊,以情感計(jì)算框架為核心,在“類人”(EQ)上延展人工智能技術(shù),讓人工智能和人類一樣具備情商的同時(shí),也在探索人工智能創(chuàng)造力的發(fā)展。
在寫作、畫畫方面,微軟小冰已經(jīng)達(dá)到“原創(chuàng)”的水平,出版數(shù)本擁有著作權(quán)的詩(shī)集。
小冰創(chuàng)作的現(xiàn)代詩(shī),是“她”通過(guò)對(duì)1920年后519位現(xiàn)代詩(shī)人的上千首詩(shī)經(jīng)過(guò)萬(wàn)次的迭代學(xué)習(xí)達(dá)成的,需要圖像的激發(fā),根據(jù)誘發(fā)源而做到“有感而發(fā)”:
《她嫁了人間許多的顏色》
看那星閃爍的幾顆星
西山上的太陽(yáng)
青蛙兒正在遠(yuǎn)遠(yuǎn)的淺水
她嫁了人間許多的顏色
而小冰團(tuán)隊(duì)也在基于框架衍生出賦生其他人工智能。2019年,小冰團(tuán)隊(duì)開(kāi)了一個(gè)由首個(gè)人工智能畫作組成的個(gè)畫展。
畫展上展出了基于框架虛構(gòu)的基于小冰框架,衍生出7位畫家的作品。來(lái)自于不同時(shí)代的虛擬畫家。(詳見(jiàn)鈦媒體App前文:微軟小冰學(xué)會(huì)畫畫了,還要辦個(gè)人畫展)
![]()
![]()
上述繪畫模型,會(huì)大量使用誘發(fā)源,不是讓機(jī)器把一種已有的視覺(jué)元素轉(zhuǎn)成另外一種風(fēng)格重新生成,而是要求在誘發(fā)源的幫助下,激發(fā)人工智能進(jìn)行重新的創(chuàng)作,這是這個(gè)模型最顯著的特點(diǎn)。
完整的人工智能底層框架,得益于小冰團(tuán)隊(duì)在計(jì)算機(jī)語(yǔ)音、計(jì)算機(jī)視覺(jué)、自然語(yǔ)音處理以及搜索引擎和知識(shí)圖譜的全技術(shù)棧優(yōu)勢(shì)。
在2019年年末的一次Workshop上鈦媒體App了解到,小冰團(tuán)隊(duì)在自然語(yǔ)言處理、語(yǔ)言學(xué)研究、計(jì)算機(jī)視覺(jué)及圖形學(xué)、多模態(tài)生成等方面都取得了階段性成果,未來(lái)有望賦能給行業(yè)。
![]()
在自然語(yǔ)言方面,該人工智能框架可以與人進(jìn)行多輪自然對(duì)話,對(duì)話輪次達(dá)到23輪(業(yè)界最高),并且是人工智能主導(dǎo)對(duì)話,還具備“三觀”系統(tǒng),已經(jīng)形成了態(tài)度檢測(cè)、情緒模型等。此外,小冰團(tuán)隊(duì)還在嘗試讓人工智能之間能夠?qū)崿F(xiàn)互相學(xué)習(xí)。
微軟小冰首席NLP科學(xué)家武威認(rèn)為,基于三項(xiàng)能力——1,向人類、向其他人工智能學(xué)習(xí);2,能夠自主管理、把控對(duì)話流程;3,具備連結(jié)能力,能夠連結(jié)散落的多模態(tài)知識(shí),小冰的人工智能框架正在朝向自我完備型對(duì)話機(jī)器人進(jìn)化。
多輪對(duì)話,很多語(yǔ)音技術(shù)服務(wù)商都在深耕于此,而武威告訴鈦媒體App,“小冰是最早推出全雙工語(yǔ)音(full-duplex sense)并在智能音箱等場(chǎng)景中進(jìn)行產(chǎn)品化落地的。” 他還介紹,小冰框架的對(duì)話引擎,已經(jīng)從行業(yè)最常用的檢索模型(Retrieval Model)、發(fā)展到生成模型(Generation Model),再進(jìn)化到現(xiàn)在的共感模型(Empathy Model),讓小冰在對(duì)話過(guò)程中可以自創(chuàng)回應(yīng),在開(kāi)放域的對(duì)話中察言觀色,根據(jù)用戶的反應(yīng)去決定對(duì)話策略,從而進(jìn)一步籌劃對(duì)話可能的走向并主導(dǎo)對(duì)話的進(jìn)程。
“小冰框架非常特殊的一點(diǎn)是把控對(duì)話、管理對(duì)話。如何組合對(duì)話,變成一個(gè)流,及引導(dǎo)話題,這需要IQ與EQ相結(jié)合。另外一方面,小冰更注重怎么去說(shuō)、怎么去交流,而不是簡(jiǎn)單的問(wèn)答。”武威說(shuō)。
基于微軟開(kāi)發(fā)的新模型,人工智能甚至可以做出比喻句了,這可以看作是語(yǔ)言學(xué)上的突破:
“愛(ài)情和葡萄酒一樣,對(duì)程序員來(lái)說(shuō)都是奢侈品。”
小冰團(tuán)隊(duì)從復(fù)雜的詩(shī)歌中挑選了6大類,每類122個(gè)主題,并通過(guò)小冰聊天日志過(guò)濾出了包括愛(ài)情、內(nèi)心、世界、母親、美麗、人類在內(nèi)的96個(gè)常用比喻概念。隨后從1000個(gè)常用詞中選取了3000個(gè)最常用的形容詞擴(kuò)充小冰的比喻能力。
![]()
在語(yǔ)音領(lǐng)域,微軟希望用框架創(chuàng)造跨越多種演唱技巧的多個(gè)聲音模型。除小冰外,微軟還擁有或?yàn)榈谌教峁┝耸鄠€(gè)高質(zhì)量的虛擬歌手模型,他們中有男有女,聲線和唱法也不相同。
在視覺(jué)及圖形學(xué)上,小冰框架具備圖像評(píng)論、顏值測(cè)定、實(shí)時(shí)視覺(jué)、實(shí)時(shí)表情,經(jīng)過(guò)3D渲染后,可以生成可交互的數(shù)字人。
在交互上,第七代小冰也具備面向未來(lái)的多模態(tài)交互感官,這是一種融合了全雙工語(yǔ)音交互、實(shí)時(shí)視覺(jué)與核心對(duì)話引擎的全新交互感官。它能夠?qū)崿F(xiàn)用戶與人工智能同時(shí)邊聽(tīng)邊說(shuō)邊看的交互體驗(yàn)。也就是說(shuō),小冰不止能通過(guò)對(duì)話與人交談,還可以通過(guò)現(xiàn)場(chǎng)“看到”的場(chǎng)景與人類進(jìn)行對(duì)話。
更重要的在于,“小冰”只是微軟基于人工智能框架創(chuàng)造出來(lái)的一個(gè)虛擬人物形象,這只是小冰團(tuán)隊(duì)演示人工智能框架的第一個(gè)原型產(chǎn)品,在技術(shù)底座之上,還可以根據(jù)不同場(chǎng)景需求搭配AI能力,創(chuàng)造出更多虛擬人。
在2019年年底,微軟小冰人工智能框架Avatar Framework首次公開(kāi)亮相,并發(fā)布第一個(gè)工具包版本。微軟Avatar Framework框架賦生的虛擬人類,未來(lái)都將可以和小冰一樣,有各種各樣交互的感官,能聽(tīng)、能看、能對(duì)話,能創(chuàng)造。
通過(guò)該框架,微軟已賦能軟銀Pepper、東京涉谷區(qū)議會(huì)批準(zhǔn)的“涉谷未來(lái)”、寵物小精靈新登場(chǎng)人物“ロトムRotomu”、朝日電視臺(tái)新聞節(jié)目主持人“AI杏壽” 等數(shù)十個(gè)第三方客戶AI及虛擬人物,喚醒閱文集團(tuán)包含《全職高手》在內(nèi)的101部小說(shuō)主人公I(xiàn)P人物。這標(biāo)志著微軟小冰人工智能產(chǎn)品線,開(kāi)始向行業(yè)輸出面向toB大規(guī)模應(yīng)用的、能大規(guī)模產(chǎn)業(yè)化復(fù)制、快速進(jìn)行商業(yè)化的更底層能力。從商業(yè)模式上來(lái)看,微軟也是賦能方。
面向普通大眾用戶,1月17日,微軟小冰團(tuán)隊(duì)宣布于春節(jié)前期分批啟動(dòng)Avatar Framework的小規(guī)模公開(kāi)測(cè)試。如測(cè)試順利,將按既定計(jì)劃,于今年春季正式公開(kāi)發(fā)布全新的Avatar Framework for everyone版本。
這意味著,微軟小冰將不再局限于“小冰”這個(gè)IP,而是可按照每個(gè)人類用戶的需求,為他們定制化地創(chuàng)造各種類型的人工智能虛擬人類,功能覆蓋陪伴、情感交流、智能助手、內(nèi)容創(chuàng)造等各種應(yīng)用類別。
據(jù)了解,在小規(guī)模測(cè)試階段,每批次均面向一種特定的虛擬人類場(chǎng)景開(kāi)展測(cè)試。1月22日啟動(dòng)的第一批小規(guī)模公開(kāi)測(cè)試,測(cè)試目標(biāo)為情感陪伴型,產(chǎn)品限定為女性戀人。更多批次將在今后數(shù)周內(nèi)依次推出。在測(cè)試階段,每個(gè)虛擬人類的生命將限制為168小時(shí)。測(cè)試結(jié)束后,這些虛擬人類的生命將被終結(jié),但其與用戶的交互記憶可被保留。因此,如用戶需要,可有望在正式產(chǎn)品推出時(shí)復(fù)活。
在CV領(lǐng)域,商湯是少數(shù)將AI+AR作為重點(diǎn)應(yīng)用方向的獨(dú)角獸公司之一,數(shù)字人也是他們?cè)谔剿鞯膽?yīng)用之一。
商湯科技創(chuàng)始人湯曉鷗曾在演講中提到AI+AR即Magic in the AIR。AR數(shù)字人就是利用AI技術(shù)來(lái)驅(qū)動(dòng)數(shù)字智能體說(shuō)話與行動(dòng)。
“人和人最自然地交互方式,是面對(duì)面的、通過(guò)語(yǔ)言、視覺(jué)、聽(tīng)覺(jué)等多種感官來(lái)進(jìn)行交流。我們希望通過(guò)人工智能,讓人機(jī)交互也逼近人和人這種自然的交互方式。所以除了語(yǔ)言、聲音交流之外,我們?cè)黾恿艘曈X(jué)的維度。讓機(jī)器不光能聽(tīng)見(jiàn)我們說(shuō)什么,還能看到我們,知道我們是誰(shuí),并根據(jù)我們實(shí)際的反饋來(lái)決定如何進(jìn)行下一步交流。”商湯科技產(chǎn)品執(zhí)行總監(jiān)欒青在專訪中對(duì)鈦媒體App說(shuō)道。
她認(rèn)為,在計(jì)算機(jī)改變交互方式的過(guò)程中,我們已經(jīng)實(shí)現(xiàn)了通過(guò)chatbot讓語(yǔ)音交互升級(jí),而技術(shù)的迭代,讓聲音交流之外的交互成為了可能。未來(lái),智能體還應(yīng)該擁有智慧的眼睛,以及自然有親和力的形象,能夠在很多場(chǎng)合真正做到替代真人為大家服務(wù)。“她還可能更酷一點(diǎn),比如在看到小朋友的時(shí)候搖身一變成小朋友喜歡的卡通形象,跟成年人說(shuō)話就可以用成年人的溝通方式,等等。”
因此,商湯團(tuán)隊(duì)在最開(kāi)始做AR時(shí)便形成了共識(shí):一定要做“人”。
“我們做的AR技術(shù),人一直是非常重要的焦點(diǎn)。比方說(shuō),大家看我們?nèi)粘J謾C(jī)里的照片,可以發(fā)現(xiàn)60%以上都是人,以及跟人相關(guān)的活動(dòng)。所以我們?cè)谧鋈藱C(jī)交互時(shí),‘人’就是一個(gè)更加專注的方向和主題了。”
從最開(kāi)始的SenseAR特效引擎,到肢體特效,再到2019年推出SenseAR Avatar,欒青認(rèn)為,科技公司對(duì)AR技術(shù)和數(shù)字化人物的理解是個(gè)不斷推進(jìn)的過(guò)程。
“AR人物相關(guān)的技術(shù)已經(jīng)有了整套的升級(jí)”,欒青對(duì)鈦媒體App表示,跟過(guò)去虛擬人技術(shù)相比,過(guò)去是將人的動(dòng)作變成了卡通或3D擬真形象,而現(xiàn)在的數(shù)字人更多是將語(yǔ)言、文字生成全身和臉部的動(dòng)作。

“雖然從機(jī)器學(xué)習(xí)來(lái)講,這兩種都用到了深度學(xué)習(xí),但學(xué)習(xí)的難度和精度,以及真正開(kāi)發(fā)迭代的點(diǎn)會(huì)有不同,兩種不是一個(gè)維度的東西。”
在利用AI+AR結(jié)合人物的產(chǎn)品方向,商湯已經(jīng)做出了多次嘗試。無(wú)論是從技術(shù)研發(fā)還是從落地應(yīng)用來(lái)看,商湯的虛擬人項(xiàng)目在每一個(gè)階段,都跟實(shí)際應(yīng)用需求結(jié)合緊密。
目前,通過(guò)商湯科技的SenseAR Avatar解決方案,可以通過(guò)一張照片生成全身形象,并通過(guò)手機(jī)攝像頭捕捉動(dòng)作進(jìn)行驅(qū)動(dòng),設(shè)計(jì)師可以進(jìn)行不同風(fēng)格設(shè)計(jì)。該技術(shù)將應(yīng)用于直播、AI虛擬教育、游戲等場(chǎng)景。
商湯一方面為行業(yè)開(kāi)發(fā)定制化的數(shù)字人解決方案,比如智能前臺(tái)、健身教練等,一方面開(kāi)放SenseAR Avatar給開(kāi)發(fā)者,主打智能手機(jī)、智能硬件上的應(yīng)用。而與自身業(yè)務(wù)相結(jié)合,基于SenseAR Avatar平臺(tái),商湯自家也推出了全新的AR汽車伴侶Avatar,只需用戶一張照片,就可生成用戶專屬形象的增強(qiáng)現(xiàn)實(shí)車艙伴侶。
商湯同樣提供兩種擬態(tài):模擬真人/卡通形象,根據(jù)不同的需求,都可以驅(qū)動(dòng)SenseAR Avatar來(lái)進(jìn)行建模。
欒青向鈦媒體App表示,商湯科技會(huì)從場(chǎng)景中提煉出的需求,有些需求來(lái)自客戶,“但我們堅(jiān)持研究先行,尋求技術(shù)突破”。
商湯這種“技術(shù)從需求而來(lái)”發(fā)展路線,可以在一款爆款A(yù)PP——韓國(guó)SNOW公司旗下的ZEPETO上顯露出一角,即根據(jù)場(chǎng)景、客戶需求,調(diào)整技術(shù)以快速打入市場(chǎng)。
2018年,ZEPETO一時(shí)間火爆朋友圈,ZEPETO所創(chuàng)造的真人虛擬形象,不同于此前呆板的表情選項(xiàng),可以根據(jù)真人實(shí)時(shí)動(dòng)態(tài)直接創(chuàng)造表情,在虛擬世界里與朋友合影。
![]()
通過(guò)ZEPETO制作的虛擬形象(圖片來(lái)源:時(shí)尚COSMO)
ZEPETO由韓國(guó)SNOW公司開(kāi)發(fā),曾被 iOS 中國(guó)區(qū)下架,而后又更名為“崽崽”上線了更多應(yīng)用商店,但之后運(yùn)營(yíng)較差,用戶大量流失。
商湯表示,下一步他們也計(jì)劃將數(shù)字人技術(shù)推廣到更大的 to B 市場(chǎng)中。欒青向鈦媒體App透露,商湯正在將數(shù)字人引入教育、銀行、健身等企業(yè)級(jí)場(chǎng)景,讓數(shù)字人充當(dāng)智能前臺(tái)、智能教練、AI老師,解放重復(fù)性工作繁重的勞動(dòng)力。

商湯正在落地的智能前臺(tái)、智能導(dǎo)購(gòu)數(shù)字人。
與激進(jìn)的“智人”思路不同,商湯正在落地的智能前臺(tái)、智能導(dǎo)購(gòu)數(shù)字人,采用了一個(gè)真人操作多個(gè)數(shù)字人的模式。
當(dāng)用戶提出數(shù)字人不能解答的問(wèn)題時(shí),真人可以直接“上身”數(shù)字人,遠(yuǎn)程協(xié)助客戶完成復(fù)雜任務(wù)。相比起打電話轉(zhuǎn)接人工客服,從數(shù)字人到真人的轉(zhuǎn)換體驗(yàn)更加無(wú)縫,也確保了突發(fā)場(chǎng)景下工作的連貫。
AI及物聯(lián)網(wǎng)領(lǐng)域的創(chuàng)業(yè)公司們也瞄準(zhǔn)了數(shù)字人需求,這些創(chuàng)業(yè)公司,要么自己開(kāi)發(fā),要么是在大廠的AI開(kāi)發(fā)者平臺(tái)上,試圖參與到大廠生態(tài)中。
比如上文提到的原力動(dòng)畫,在百度生態(tài)上,該公司已經(jīng)聯(lián)合百度、浦發(fā)銀行推出數(shù)字虛擬人。
從誕生起就專注個(gè)性化AI的偶邦(ObEN),其產(chǎn)品可以通過(guò) 3D 圖像重建和電音模擬技術(shù)來(lái)構(gòu)建虛擬形象,任何用戶都可以定制他的AI虛擬形象,即PAI(個(gè)性化人工智能,Personal AI)。PAI兼具語(yǔ)音表達(dá)、動(dòng)作表達(dá)、3D視覺(jué)和個(gè)性化特征。(鈦媒體App曾報(bào)道這家公司,ObEN鄭毅:AI虛擬形象不僅是得力助手,未來(lái)或會(huì)代替人實(shí)現(xiàn)“永生” | 科技生活節(jié))
目前,偶邦在加大與娛樂(lè)及內(nèi)容平臺(tái)的合作,為藝人打造虛擬形象。過(guò)去一年,偶邦智能已經(jīng)與日本最大的經(jīng)紀(jì)公司吉本興業(yè)簽約,由偶邦為明星開(kāi)發(fā)虛擬形象,而經(jīng)紀(jì)公司則負(fù)責(zé)運(yùn)營(yíng)明星的虛擬形象。
但與日韓藝人在大型經(jīng)紀(jì)公司中不同,國(guó)內(nèi)很多藝人簽約的是工作室,藝人版權(quán)的分散是偶邦做明星虛擬形象面臨的一個(gè)挑戰(zhàn)。
明星虛擬形象在公眾中的接受度還不甚樂(lè)觀,這或是偶邦首先選擇與觀眾基礎(chǔ)最大的中央電視臺(tái)合作的原因。在2019年央視網(wǎng)絡(luò)春晚上,偶邦智能為撒貝寧和朱迅分別設(shè)計(jì)了“小小撒”和“朱小迅”兩個(gè)3D虛擬主持人形象。在去年熱播的央視主持人大賽中,偶邦也為在線的大眾評(píng)審打造了一套虛擬形象。
另外,偶邦也拓展到了直播場(chǎng)景。去年9月,偶邦與斗魚直播合作,想要推出“虛擬女主播”。
Keep也在推出自己的AI“虛擬教練”。Keep希望“虛擬教練”并不止是把“教練”角色搬到互聯(lián)網(wǎng)上,而是內(nèi)容、數(shù)據(jù)、算法和場(chǎng)景四方面相結(jié)合的一套體系。Keep積累了海量的用戶數(shù)據(jù)——用戶的社會(huì)學(xué)屬性、運(yùn)動(dòng)行為數(shù)據(jù)、社交數(shù)據(jù)和場(chǎng)景數(shù)據(jù)等。通過(guò)AI技術(shù)對(duì)技術(shù)加以分析,“虛擬教練”可能會(huì)比真人教練更加了解用戶的需求。(詳情見(jiàn)鈦媒體App前文:技術(shù)范兒的 Keep 發(fā)力AI賽道,為什么“虛擬教練”會(huì)更懂你?)
還有一部分智能硬件公司,例如狗尾草智能開(kāi)發(fā)的HE琥珀智能音箱,希望能將數(shù)字人植入到智能設(shè)備中,為消費(fèi)者提供陪伴服務(wù)。
在“造人”的探索中,國(guó)內(nèi)外企業(yè)的技術(shù)路線也有微妙的區(qū)別。海外廠商更像是在試探虛擬人“擬真”技術(shù)能夠達(dá)到的上線,而國(guó)內(nèi)廠商考慮得更多的是這項(xiàng)技術(shù)如何能落地應(yīng)用。
但無(wú)論是“擬真”、還是應(yīng)用,眼下來(lái)看,技術(shù)賦能方已經(jīng)做好準(zhǔn)備,并躍躍欲試。
“為什么今年大家越來(lái)越多做這個(gè)事情?從行業(yè)上,數(shù)字人的技術(shù)慢慢的達(dá)到了一個(gè)階段,需求也慢慢的在開(kāi)始尋找落腳點(diǎn)。”欒青說(shuō)道。她向鈦媒體App透露,在ZEPETO之后,就有數(shù)家客戶提出,希望將這樣的擬真形象產(chǎn)品應(yīng)用到他們的行業(yè)場(chǎng)景中去。
另外一個(gè)有趣的信息是,這些科技公司并不將虛擬人形象拘泥于真人或是卡通,在攻克技術(shù)難題之后,虛擬人是真人形象還是卡通人形象,全看應(yīng)用場(chǎng)景和法規(guī)政策約束。
來(lái)自騰訊的俞棟則補(bǔ)充道,高擬真寫實(shí)的虛擬人和卡通二次元風(fēng)格的虛擬人各有難點(diǎn),其建模、驅(qū)動(dòng)、渲染使用的方法和成本也不盡相同,“我們制作不同類型的虛擬人,實(shí)際上是針對(duì)不同的場(chǎng)景和用戶。”
而在“人造人”的落地上,大部分科技公司都瞄準(zhǔn)“職業(yè)”角色來(lái)進(jìn)行研發(fā)。
NEON的目標(biāo)同樣是將人工智人用于健身、主播等場(chǎng)景;搜狗虛擬人應(yīng)用落地在主播;商湯同樣打算試水智能前臺(tái)、教育這種明確的職業(yè)場(chǎng)景。
從應(yīng)用場(chǎng)景來(lái)看,一是在文娛領(lǐng)域的應(yīng)用偏多:應(yīng)用在影視、直播、內(nèi)容、社交等行業(yè)的虛擬主播、虛擬主持人、虛擬歌手等等。二是在與人相近的服務(wù)行業(yè)中應(yīng)用多:比如應(yīng)用在教育、銀行等行業(yè)的前臺(tái)、客服、老師等形象。
通過(guò)建立專業(yè)的內(nèi)容庫(kù),并且專門為完成一件事情而訓(xùn)練人工智能,是比較容易實(shí)現(xiàn)的。在這些職業(yè)性場(chǎng)景下,數(shù)字人已經(jīng)可以替代部分勞動(dòng)力。
欒青解釋道:“現(xiàn)在我們大家在做的數(shù)字人,大部分還是我們?cè)谫x予它一個(gè)職業(yè),它還暫時(shí)不是說(shuō)一個(gè)大眾化的人,因?yàn)榇蟊娀娜诵枰倪@樣一些能力就會(huì)更加的挑戰(zhàn),但是我們暫時(shí)還是希望它擁有一個(gè)職業(yè)。”
騰訊AI lab主任張正友也在一次采訪中對(duì)鈦媒體App表示,當(dāng)下通用人工智能、強(qiáng)人工智能的技術(shù)普適性還沒(méi)那么強(qiáng),還不能做到像人一樣聽(tīng)說(shuō)讀寫、思考。而關(guān)于在基礎(chǔ)研發(fā)領(lǐng)域技術(shù)“我們與展望中的方向有多遠(yuǎn)”這個(gè)問(wèn)題,張正友用了一個(gè)詞:“逼近”。
張正友認(rèn)為,未來(lái)人工智能一定會(huì)被應(yīng)用在各個(gè)方向;但眼下的應(yīng)用,還需基于對(duì)不同行業(yè)的深入理解。
在技術(shù)大前提下,欒青還認(rèn)為,各家的技術(shù)路線與落地規(guī)劃,也與公司基因有密不可分的關(guān)系。
以商湯為例,是想把AI做成各行各業(yè)的“水煤電”,因此,在提出數(shù)字人項(xiàng)目之時(shí),就已經(jīng)明確了產(chǎn)品的商業(yè)化落地指標(biāo):“我們的數(shù)字人做出來(lái)之后,是一定要落地解決一些行業(yè)問(wèn)題的,產(chǎn)品在研發(fā)時(shí)期就考慮到了商業(yè)化問(wèn)題。”
因此,除了這些科技公司之外,上述行業(yè)中的許多科技實(shí)力雄厚的公司,也在基于自己的專業(yè)能力和AI能力之上“造人”。特別是在教育、直播行業(yè),不少在線教育公司都在進(jìn)行AI虛擬老師的開(kāi)發(fā),微軟、商湯這類具有平臺(tái)技術(shù)能力的公司同時(shí)也是他們的合作伙伴。
直播平臺(tái)虎牙,在2019年年底也開(kāi)放了虛實(shí)結(jié)合開(kāi)放平臺(tái)HERO,聯(lián)合主播公會(huì)一起探索“直播AI數(shù)字人”的開(kāi)發(fā)。
另外一大場(chǎng)景需求是在銀行。在銀行接待場(chǎng)景中,搭載AI的chatbot運(yùn)用已經(jīng)相對(duì)普及,而數(shù)字人就是普通的chatbot一套“有形象”、有科技感的體驗(yàn)升級(jí)解決方案。
搜狗也將數(shù)字人使用場(chǎng)景落在了主播、主持等特定職業(yè)場(chǎng)景,鈦媒體App在《從實(shí)驗(yàn)室到熒屏,“搜狗AI合成主播”是如何接近真人的?》中曾有報(bào)道。搜狗語(yǔ)音交互技術(shù)中心高級(jí)總監(jiān)陳偉認(rèn)為,使用AI主播最大的意義在于幫助提升效率,將真人主播從大量重復(fù)性勞動(dòng)中釋放出來(lái),從而有更多精力投身到深度訪談或其他工作中。
“播報(bào)一個(gè)新聞一般會(huì)有場(chǎng)地、時(shí)間、主播本身精力的限制,每天的產(chǎn)出很有限,資源本身又是受限。但AI主播不同,可以工作24h,也不必?fù)?dān)心有錯(cuò)誤出現(xiàn)。”
目前來(lái)看,涉及數(shù)字人的C端應(yīng)用并不好做,無(wú)論是騰訊天鵝靜,還是虛擬主播,在市面上掀起的水花都比較小,更多以合作形式落地樣本,ZEPETO也是紅極一時(shí),后續(xù)本土化運(yùn)營(yíng)略缺位。
也就是說(shuō),科技公司已經(jīng)進(jìn)入技術(shù)儲(chǔ)備期,先把技術(shù)準(zhǔn)備好。但目前各家也只是停留在跟合作伙伴探索商業(yè)化落地的過(guò)程中,真正談商業(yè)模式,還有一段距離。
目前來(lái)看,科技公司都試圖以B端為突破口,先賦能給有場(chǎng)景、樂(lè)于應(yīng)用前沿體驗(yàn)科技的合作伙伴。大廠都沒(méi)有把數(shù)字人做成“一招定勝負(fù)”的產(chǎn)品,更像是人工智能落地的一個(gè)產(chǎn)物、一場(chǎng)場(chǎng)景實(shí)驗(yàn),有容錯(cuò)率。
而資本市場(chǎng)對(duì)這一技術(shù)方向也在觀望中。
投身AI賽道多年,洪泰基金執(zhí)行董事宋楠認(rèn)為,公司紛紛推出AI虛擬形象,本質(zhì)上迎合了“數(shù)字孿生”的概念。
據(jù)宋楠介紹,數(shù)字孿生指的是未來(lái)現(xiàn)實(shí)世界的信息都會(huì)被數(shù)字化,現(xiàn)實(shí)世界看到的高樓大廈在數(shù)字世界里也會(huì)有對(duì)應(yīng)。因此,在物理世界里我們有一套身份和社會(huì)規(guī)則,在數(shù)字世界里會(huì)有另一套身份和社會(huì)運(yùn)行機(jī)制。
”這是十年之后必然正確的事情,科技公司做AI數(shù)字人,也有搶占未來(lái)數(shù)字世界入口的原因。“宋楠指出。
但對(duì)于投資機(jī)構(gòu)而言,“想讓每個(gè)人都擁有數(shù)字人”這件事依然很遙遠(yuǎn),資本市場(chǎng)對(duì)于這種需要長(zhǎng)期投入,又缺少短期回報(bào)的項(xiàng)目十分謹(jǐn)慎,尤其是在當(dāng)前創(chuàng)投環(huán)境不景氣的狀態(tài)下。
“比如說(shuō)人類未來(lái)一定能上火星移民,這件事情是確定的,但是我從今天就開(kāi)始投資火星移民嗎?肯定不行。“宋楠比喻道。
除此以外,宋楠對(duì)AI數(shù)字人在數(shù)字世界中的角色也存有疑問(wèn)。在他看來(lái),在數(shù)字世界還未成型,規(guī)則還未建立時(shí),打造數(shù)字人的意義并不大。
”如果數(shù)字世界的樓有50米,而你只有2米高,你會(huì)不會(huì)覺(jué)得要變成泰坦的形象才更適應(yīng)這個(gè)世界?“宋楠問(wèn)道。
目前看來(lái),在這一賽道上,創(chuàng)業(yè)公司比較難“單出頭”,也很難會(huì)孵化出一個(gè)“獨(dú)角獸”公司來(lái)。同時(shí),消費(fèi)者對(duì)數(shù)字人的認(rèn)知和應(yīng)用,也沒(méi)有達(dá)到像智能音箱、人工智能語(yǔ)音助手那樣普及。
不過(guò),在一些特定領(lǐng)域,潛在需求已經(jīng)漸漸顯露出來(lái)。在宋楠看來(lái),虛擬形象有三種適用的場(chǎng)景,不過(guò)也都面臨著一定的挑戰(zhàn)。
第一種是做虛擬偶像,這需要極強(qiáng)的IP運(yùn)營(yíng)能力,畢竟不是誰(shuí)都能做出初音未來(lái)和洛天依;第二種是做真人的明星虛擬形象,不過(guò)問(wèn)題在于明星能否接受與粉絲這樣親密的互動(dòng);第三種是像閱文的IP賦生計(jì)劃,但面臨的挑戰(zhàn)也在于大IP有限,真正出圈的只有《全職高手》、唐家三少這樣的大IP。
就在去年9月,閱文集團(tuán)攜手微軟小冰,發(fā)布網(wǎng)絡(luò)文學(xué)“IP喚醒計(jì)劃”?;陂單募瘓F(tuán)旗下100部小說(shuō)原著和主人公I(xiàn)P,微軟小冰Avatar Framework經(jīng)過(guò)框架性的整合學(xué)習(xí)后,重建小說(shuō)所描述的虛擬世界觀和知識(shí)體系,賦予四個(gè)大類共100個(gè)男主人設(shè)全新的可交互“生命”。
![]()
目前,數(shù)位可交互的角色已經(jīng)上線紅袖讀書APP。
像紅袖讀書用戶MoMo抽取到的IP角色是“仙君”,該人物性格有嚴(yán)肅、霸道、邏輯等幾個(gè)設(shè)定。
MoMo對(duì)鈦媒體App表示,“平時(shí)休閑時(shí)候會(huì)和虛擬角色互動(dòng),他們的回答大體是有邏輯的,比較符合人物的特征。”![]()
像仙君的語(yǔ)言習(xí)慣會(huì)偏古文,而學(xué)長(zhǎng)人設(shè)則更活潑。
Keep CTO 彭躍輝也在此前采訪中對(duì)鈦媒體App表示,虛擬教練服務(wù),首先會(huì)吸引到Keep用戶中對(duì)私教費(fèi)用敏感的人群。也即,技術(shù)是免費(fèi)的,但虛擬教練業(yè)務(wù)有其收費(fèi)場(chǎng)景。未來(lái),“虛擬教練”整合到一些業(yè)務(wù)場(chǎng)景和硬件產(chǎn)品中,是否能從用戶端賺到錢?目前還難以下結(jié)論。
不過(guò),技術(shù)落地尚處于摸索過(guò)程中,更不用談及明確的商業(yè)模式了。
閱文對(duì)鈦媒體App表示,在賦生100個(gè)角色項(xiàng)目籌備過(guò)程中,遇到的最大的挑戰(zhàn)始終是“如何讓AI的發(fā)言更接近角色”,為此不僅需要將大量原著文本描述提供給AI作為分析的基礎(chǔ),也需要對(duì)IP形象有深入理解和把控的專業(yè)人士為角色撰寫感性描述文檔,讓微軟小冰的開(kāi)發(fā)人員同步加深對(duì)IP形象性格的理解,從而對(duì)AI學(xué)習(xí)的結(jié)果進(jìn)行不斷的細(xì)節(jié)調(diào)整,讓對(duì)話更流暢,更接近書中的角色。
另一方面,由于書中的角色自帶世界觀和知識(shí)儲(chǔ)備,比如電競(jìng)大神需要精通游戲用語(yǔ)不同作品里,專精的游戲都是不同的,甚至有原創(chuàng)世界觀背景的游戲,這種情況下,需要對(duì)不同角色在原作基礎(chǔ)上建立不同的知識(shí)譜系,這是一個(gè)相當(dāng)大的工程,目前這一部分還在推進(jìn)的過(guò)程中。
閱文對(duì)鈦媒體App指出,“IP賦生”只是“AI+IP”的初探,虛擬男友在紅袖讀書的入口較深,后期或會(huì)根據(jù)用戶接受度開(kāi)放更明顯的入口。
另外,在“擬人”這件事上,已經(jīng)出現(xiàn)嚴(yán)重的產(chǎn)品同質(zhì)化問(wèn)題:
俞棟表示,從三個(gè)方向已經(jīng)出現(xiàn)大量產(chǎn)品同質(zhì)化現(xiàn)象:一是智力層面的擬人:受NLP技術(shù)限制,短期內(nèi)難突破,各廠商的產(chǎn)品集中在siri、alexa等能執(zhí)行簡(jiǎn)單單工指令的助手階段;
二是聲音層面的擬人:集中在語(yǔ)調(diào)像(不管是唱歌還是說(shuō)話),解決同質(zhì)化的關(guān)鍵在于讓音色也更像,同時(shí)降低千人千面長(zhǎng)鏡下的數(shù)據(jù)采集量和建模時(shí)間,以降低使用門檻;
三是呈現(xiàn)層面的擬人,按精度可以大致分為兩類:toC領(lǐng)域:類似于虛擬主播、Animoji、Zepeto等卡通非寫實(shí)風(fēng)格的模型已經(jīng)達(dá)到了較高精度的實(shí)時(shí)驅(qū)動(dòng);各大直播、短視頻平臺(tái)也有/正在開(kāi)發(fā)相應(yīng)的功能,其終極形態(tài)就是“能實(shí)時(shí)驅(qū)動(dòng)的迪士尼動(dòng)畫”。
俞棟認(rèn)為,解決同質(zhì)化的關(guān)鍵在于兩方面:降低數(shù)據(jù)采集/驅(qū)動(dòng)成本,讓千元機(jī)也能跑得動(dòng),二是從產(chǎn)品側(cè)開(kāi)發(fā)更多的玩法。
但在toB領(lǐng)域:類似于好萊塢大片、3A游戲等超逼真寫實(shí)風(fēng)格的模型上目前尚無(wú)法實(shí)時(shí)驅(qū)動(dòng),且模型制作成本高,是各家發(fā)力的方向之一,但尚無(wú)成熟解決方案找到畫面質(zhì)量和成本的平衡點(diǎn)。
雖然一切仍在起步階段,但數(shù)字人的趨勢(shì)已經(jīng)2020年初顯現(xiàn)出來(lái)。
“把現(xiàn)實(shí)世界映射到數(shù)字世界的趨勢(shì)是絕對(duì)不可逆的,未來(lái)我們可以構(gòu)建一個(gè)更廣闊的數(shù)字世界。我們會(huì)認(rèn)證身份信息并且定義數(shù)字世界的規(guī)則”,宋楠對(duì)鈦媒體App表示。
整個(gè)數(shù)字世界還是黑色,而科技公司所做的就是在這世界混沌之時(shí),先把數(shù)字化的人點(diǎn)亮。(本文首發(fā)鈦媒體App,采訪/蘆依、李程程、趙宇航,撰文/趙宇航、蘆依)
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論
栩栩如生