2024年12月6-7日,2024T-EDGE創(chuàng)新大會暨鈦媒體財經(jīng)年會在北京市大興區(qū)舉辦,本次大會主題為“ALL-in on Globalization,ALL-in on AI”,匯聚全球科技和商業(yè)領(lǐng)域的領(lǐng)導(dǎo)者,共同探討企業(yè)全球化增長新格局新趨勢,以及AI對全球各行業(yè)的巨大影響。
在視頻生成中,最難的往往是人物的面部、嘴型、表情、肢體動作的精準捕捉,因為有些許的動作位移和細微差異都會帶來失真。如果想要達到好萊塢影視標準,就必須投入大量人力財力。
2023年8月,在生成式AI技術(shù)浪潮的洗禮下,著名視覺效果(VFX)工作室和AI技術(shù)初創(chuàng)公司MARZ(Monsters Aliens Robot Zombies)推出了新一代AI視效產(chǎn)品LipDub,用于解決影視配音中口型不同步問題。該項技術(shù)將有助于好萊塢電影公司和廣告商在觀眾收視率和參與度方面實現(xiàn)質(zhì)的飛躍。
LipDub研究團隊由MARZ首席科學(xué)家、特拉維夫大學(xué)計算機科學(xué)系世界知名教授Danny Cohen-Or領(lǐng)導(dǎo),他是ACM研究員和Isaias Nizri視覺計算主席。他與長期合作者、西蒙弗雷澤大學(xué)助理教授Ali Mahdavi-Amiri一起領(lǐng)導(dǎo)了MARZ的AI研究團隊。他們共同成功開展了Vanity AI的研究,這是MARZ開發(fā)的第一個AI解決方案。比如,針對人物面部皺紋進行AI美妝,使其達到年輕效果。Vanity AI于2023年1月推出,已在45多個好萊塢作品中使用。
12月7日,LipDub CEO Jonathan Bronfman在演講中透露了LipDub的技術(shù)實現(xiàn)原理,并對該項技術(shù)所覆蓋的各行業(yè)、場景解決方案進行了演示。
Jonathan指出,目前生成式AI已經(jīng)演進到文生圖、圖生視頻階段。對于營銷人員或內(nèi)容創(chuàng)作者而言,基于生成式AI技術(shù),幾乎只需要10分鐘就可以對某個想法實現(xiàn)視頻生成,從而快速驗證視頻效果。
在他看來,視頻內(nèi)容生成的挑戰(zhàn)是什么?慢且貴。視頻是娛樂、教育和打動觀眾的最佳途徑。隨著視頻內(nèi)容生成效率的提升,用戶完全可以在幾分鐘內(nèi)就生成一段視頻,同時,同一段視頻素材也可以反復(fù)使用。
LipDub開發(fā)的口形同步技術(shù)(Lip Sync)實際上用到三種方案:一是直接對視頻翻譯,比如給出一段英文演講視頻,然后用中文演示,就好像演講者在講中文;二是通過定制虛擬形象進行對話調(diào)整,比如在廣告場景,許多品牌在全球各地都有不同的產(chǎn)品名稱表達,但希望使用同一支商業(yè)廣告,就需要對廣告中特定的產(chǎn)品名稱進行更改;三是通過一段語料實現(xiàn)角色的量身定制,即針對同一件事物,針對不同的受眾群體生成不同的個性化表達。
Jonathan強調(diào),好萊塢影視畫面的要求不僅僅是口型同步,而是要動態(tài)的,有飽滿情緒的。要確保對原始人物/角色表演1比1的還原。同樣,在跨語言轉(zhuǎn)換過程中,還要要確保能夠恰當?shù)赜昧硪环N語言傳遞源語言中所表達的情感。
大家下午好。在開始之前,我要感謝鈦媒體的邀請,這是我第一次來到中國,感謝大家的熱情款待。
我叫Jonathan Bronfman,是MARS的CEO,借此機會我與大家分享下我們的產(chǎn)品LipDub,以及公司發(fā)展歷程。
MARS源自Monsters Aliens Robot Zombies的英文縮寫,是一家專門做視覺特效的工作室,于2018年成立,曾為好萊塢多個影片和影視劇如《蟻人》、《驚奇少女》提供特效,并且與迪士尼、奈飛、Amazon Prime等多家流媒體平臺合作。
在2018年進入視效行業(yè)時,我就很清楚這個行業(yè)缺乏差異性,這意味著每個人都使用著相同的技術(shù)棧。那么如何在一個同質(zhì)化的行業(yè)中找到差異化競爭優(yōu)勢,并以此取得成功?因此,我們在2019年明確AI可以加速發(fā)展,為我們提供在成本、時間和規(guī)模上的競爭力。
我們聚集了很多世界知名科學(xué)家,包括特拉維夫大學(xué)教授Danny Cohen-Or,還有西蒙弗雷澤大學(xué)助理教授Ali Mahdavi-Amir,他們帶領(lǐng)我們找到了深度學(xué)習(xí)在視效行業(yè)的應(yīng)用交集。
其實我們開發(fā)的第一款A(yù)I產(chǎn)品不是LipDub,而是一款2D美妝產(chǎn)品Vanity AI。該產(chǎn)品可以通過創(chuàng)建一張單幀圖片,然后將其他底片插入從而使圖片鮮活。我們一開始也非常擅長對人物面部表情的刻畫。2021年,我們注意到奈飛平臺上韓劇《魷魚游戲》在歐美地區(qū)爆火,但是問題在于配音的口型不匹配。因此,我們就在想能不能讓口型同步起來,讓觀眾觀看體驗更沉浸。
在不斷努力下,我們將口型同步技術(shù)(Lip Sync)用在了好萊塢電影配音中,一直指引我們前進。在播放示例中可以看到,我們將佛蘭芒語的電影,翻譯成英文,這個過程中用到了LipDub。其實在為好萊塢電影的制作過程中,我們還需要擺姿勢、換鏡頭、換燈光等手段,解決大量技術(shù)難點,從而實現(xiàn)4k高分辨率。
LipDub采用了Language Agnostic模型,以實現(xiàn)跨語言無關(guān)特征學(xué)習(xí)。比如聲音是通過某個音素表達,轉(zhuǎn)化為口型則需要特定的口型表達方式。比如下面示例中男子正講來自《阿凡達》、《權(quán)利的游戲》、《星際迷航》中的科幻語言。
當然,這都是屬于真人片段。為了進一步提升該技術(shù)效果,我們還將LipDub應(yīng)用于CG角色制作。在此之前,我們模型訓(xùn)練的數(shù)據(jù)集里甚至都沒有CG角色字符。要知道,好萊塢影視畫面的要求不僅僅是口型同步,也不是人形立牌,而是要動態(tài)的,有飽滿情緒的。我們要確保對原始人物/角色表演1比1的還原。
我們已經(jīng)宣布了這款產(chǎn)品的beta版,預(yù)計在今年年底會有新的進展。LipDub不僅服務(wù)于好萊塢,還擴展到廣告、在線教育、企業(yè)宣傳片等多個領(lǐng)域,并聚焦于關(guān)注于視頻質(zhì)量的高價值客戶群體。例如,在線教育視頻場景中,LipDub營造出了一種真實的聽眾體驗,感覺就像是說話人自己的語言。
視頻內(nèi)容生成的挑戰(zhàn)是什么?慢且貴。視頻是娛樂、教育和打動觀眾的最佳途徑。隨著視頻內(nèi)容生成效率的提升,用戶完全可以在幾分鐘內(nèi)就生成一段視頻,同時,同一段視頻素材也可以反復(fù)使用。LipDub開發(fā)的口形同步技術(shù)(Lip Sync)實際上用到三種方案:一是直接對視頻翻譯,比如給出一段英文演講視頻,然后用中文演示,就好像演講者在講中文;二是通過定制虛擬形象進行對話調(diào)整,比如在廣告場景,許多品牌在全球各地都有不同的產(chǎn)品名稱表達,但希望使用同一支商業(yè)廣告,就需要對廣告中特定的產(chǎn)品名稱進行更改;三是通過一段語料實現(xiàn)角色的量身定制,即針對同一件事物,針對不同的受眾群體生成不同的個性化表達。
顯然,我們今天討論的AI將是一個技術(shù)拐點。人們正投入大量資金在AI上,希望AI能夠更便捷、更經(jīng)濟使用,能夠規(guī)?;鲩L和快速迭代,并且在特定行業(yè)里吸引到受眾和投放市場。
隨著AI技術(shù)的發(fā)展,生成式AI已經(jīng)演進到文生圖、圖生視頻的模式。在此技術(shù)驅(qū)動下,我們著手基于生成式AI技術(shù)實現(xiàn)了視頻生成。對于營銷人員或內(nèi)容創(chuàng)作者而言,幾乎只需要10分鐘就可以對某個想法實現(xiàn)視頻生成,從而快速驗證視頻效果。
目前LipDub生成式AI應(yīng)用分為初級和高級模式。在高級模式中,開發(fā)人員需要先對項目命名,并選擇源語言和目標語言。其次,上傳視頻并添加訓(xùn)練素材。一旦通過,將對角色面部進行自動檢測打標,只有標注后的素材才能用于AI訓(xùn)練。最后,上傳音頻,與對應(yīng)角色進行匹配,最終生成視頻??深A(yù)覽和下載保存。
在初級模式中,用戶只需上傳視頻,在對視頻進行預(yù)處理后,點擊創(chuàng)建配音。選擇自己的音頻素材或內(nèi)置翻譯功能,可一鍵生成配音效果。
最后,展示一下我們在做的新功能——替換對話框(Replace Dialogue),類似文本到語音(text-to-audio),這類平臺這些有很多,但如果輸出的不是你想要的結(jié)果怎么辦?比如你想修改一個單詞,但跨語言轉(zhuǎn)換會有細微差別。你們用中文聽到的某個詞,可能轉(zhuǎn)換為英文就翻譯不出來。我們要確保能夠恰當?shù)赜昧硪环N語言傳遞這種情感。
非常感謝大家的邀請。期待下月與全球用戶分享該項功能。(本文首發(fā)于鈦媒體APP)
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論