“真人播報(bào)效果已經(jīng)夠好了,為什么我們還要合成一個(gè)AI主播?”
2018年底,新華社聯(lián)合搜狗在第五屆世界互聯(lián)網(wǎng)大會(huì)上發(fā)布全球首個(gè)AI合成男主播。該AI合成主播“克隆”于真人主播邱浩。今年2月19日,該男主播升級(jí)成為站立式AI合成主播“新小浩”,并推出全球首個(gè)AI合成女主播“新小萌”。站立式“新小浩”不僅能坐著播報(bào)新聞,還能站起來(lái),帶著手勢(shì)、姿態(tài)等多種肢體動(dòng)作,更接近于真人。
上述兩位AI主播至今已經(jīng)播報(bào)了幾千余條新聞,并引發(fā)世界范圍熱議。
作為新華社AI主播背后的技術(shù)負(fù)責(zé)人,搜狗語(yǔ)音交互技術(shù)中心高級(jí)總監(jiān)陳偉對(duì)鈦媒體解釋道,使用AI主播最大的意義在于幫助提升效率,將真人主播從大量重復(fù)性勞動(dòng)中釋放出來(lái),從而有更多精力投身到深度訪談或其他工作中。“播報(bào)一個(gè)新聞一般會(huì)有場(chǎng)地、時(shí)間、主播本身精力的限制,每天的產(chǎn)出很有限,資源本身又是受限。但AI主播不同,可以工作24h,也不必?fù)?dān)心有錯(cuò)誤出現(xiàn)。”
搜狗從12年開(kāi)始研發(fā)智能語(yǔ)音技術(shù),并逐漸從最早的語(yǔ)音識(shí)別發(fā)展到現(xiàn)在的多模態(tài)識(shí)別,其智能語(yǔ)音技術(shù)已經(jīng)成功應(yīng)用到搜狗的全線產(chǎn)品中。
其中,AI“分身”技術(shù)致力于如何讓機(jī)器更好的去表達(dá)信息,是多模態(tài)識(shí)別一個(gè)很好的展示及落地途徑。目前,通過(guò)語(yǔ)音、手寫(xiě)、唇語(yǔ)等多模態(tài)識(shí)別,僅需幾個(gè)小時(shí)的視頻資料就可以合成一個(gè)比較逼真的真人形象。
而更簡(jiǎn)單快捷的是,在建模完成后,編輯人員僅需要輸入文字資料,即可讓AI形象按照文字播報(bào)。無(wú)需進(jìn)行二次視頻編輯,AI主播將自動(dòng)識(shí)別語(yǔ)義并配上對(duì)應(yīng)音調(diào)及表情。“我們給到新華社的系統(tǒng),新華社只要每天在想要播報(bào)的新聞,過(guò)幾秒鐘生成一個(gè)完整的視頻,中文、英文不同類(lèi)型的新聞視頻就可以馬上出來(lái)。”
與市面上其他專(zhuān)注語(yǔ)言交互的團(tuán)隊(duì)不同,搜狗分身更關(guān)注語(yǔ)音、圖像加NLP完整能力的融合表達(dá)。因此,“逼真度”是團(tuán)隊(duì)衡量AI分身技術(shù)的一個(gè)重要指標(biāo)。
陳偉介紹到,初期,團(tuán)隊(duì)采用主觀的方式來(lái)衡量AI分身的真實(shí)度,最近也逐漸考慮采用一些客觀標(biāo)準(zhǔn)。
未來(lái),團(tuán)隊(duì)將會(huì)更關(guān)注微表情,關(guān)注怎么樣讓AI分身結(jié)合更好的姿態(tài),更自然地表達(dá)。在圖像上面要考慮2D+3D混合的技術(shù),在語(yǔ)音基礎(chǔ)上面有更多NLP的能力進(jìn)來(lái),讓AI分身的認(rèn)知能力加強(qiáng)。
但并不是說(shuō),AI分身的真實(shí)度已經(jīng)達(dá)到了令人恐慌的階段。
“實(shí)際上我們對(duì)其實(shí)每前進(jìn)一步都很難,比如讓AI主播動(dòng)起來(lái),擺頭,這一動(dòng)作都比單純的正面播報(bào)要困難得多。要想做到電影里展示那樣與真人無(wú)異,至少還需要5-10年。”
拿AI主播來(lái)說(shuō),其功能還停留在播報(bào)階段,更多交互功能有待于進(jìn)一步開(kāi)發(fā)。陳偉也透露,搜狗分身將于今年年內(nèi)推出交互能力。
就在不久前,一段將朱茵變臉楊冪的視頻在網(wǎng)上走紅,AI換臉技術(shù)deepfake開(kāi)始被大眾讀者熟知。這也引發(fā)了公眾對(duì)AI虛擬形象的質(zhì)疑——是否致使肖像權(quán)被隨意侵犯?
當(dāng)然,在技術(shù)上,分身也與換臉有著本質(zhì)的差別,“換臉實(shí)際上是把一個(gè)人臉映射到另一個(gè)人臉上,前期投入成本很大,但‘分身’一旦建模之后,只需要輸入文字就可以生成視頻,不需要任何表演成本在里面。”
陳偉表示,搜狗當(dāng)然考慮到了人工智能倫理問(wèn)題。“我們更多的想法是跟很確定的公司和領(lǐng)域合作,盡量找到剛需的場(chǎng)景。這樣的好處就是不會(huì)把技術(shù)濫用。”
因此,與做幾個(gè)簡(jiǎn)單Demo不同,搜狗這一分身技術(shù)不僅僅是停留在實(shí)驗(yàn)室階段,而是將深入不同剛需場(chǎng)景,在不斷迭代中快速進(jìn)入商業(yè)化落地階段。
在陳偉的預(yù)想中,在“分身”技術(shù)的支持下,視頻制作成本將會(huì)大大降低,最終惠及用戶。
首要的就是與搜狗現(xiàn)有產(chǎn)品線打通。像在輸入法搜索,包括搜狗AI硬件上面“分身”技術(shù)將如何落地,都正在探討中。
而通過(guò)與新華社的合作實(shí)踐,AI“分身”技術(shù)也吸引了不少客戶。比如在AI老師上,已經(jīng)有項(xiàng)目正在進(jìn)行中。“像公開(kāi)課這種老師單向輸出的形態(tài),特別適合做(AI分身)。老師只需要準(zhǔn)備教案和文稿,通過(guò)這種方式形成各種教學(xué)視頻,后期加上一些剪輯也可以帶有一定的交互能力。這種比單純的文字教學(xué)效果要好得多。”
在技術(shù)上,“分身”支持搜狗公有云調(diào)度,同時(shí)也支持私有化部署,可在客戶本地部署“分身”整套服務(wù)。提供出去的服務(wù)在資源占用上、實(shí)時(shí)性都可以達(dá)到要求??梢愿鶕?jù)客戶手中IP打造“AI分身”,也不排除塑造全新虛擬形象的可能。
陳偉透露,后續(xù),搜狗AI“分身”會(huì)繼續(xù)在教育,法律,醫(yī)療,娛樂(lè)等領(lǐng)域發(fā)力。(本文首發(fā)鈦媒體,作者/趙宇航)






快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論