2024年12月6-7日,2024T-EDGE創(chuàng)新大會暨鈦媒體財經(jīng)年會在北京市大興區(qū)舉辦,本次大會主題為“ALL-in on Globalization,ALL-in on AI”,匯聚全球科技和商業(yè)領(lǐng)域的領(lǐng)導(dǎo)者,共同探討企業(yè)全球化增長新格局新趨勢,以及AI對全球各行業(yè)的巨大影響。

在視頻生成中,最難的往往是人物的面部、嘴型、表情、肢體動作的精準捕捉,因為有些許的動作位移和細微差異都會帶來失真。如果想要達到好萊塢影視標準,就必須投入大量人力財力。

2023年8月,在生成式AI技術(shù)浪潮的洗禮下,著名視覺效果(VFX)工作室和AI技術(shù)初創(chuàng)公司MARZ(Monsters Aliens Robot Zombies)推出了新一代AI視效產(chǎn)品LipDub,用于解決影視配音中口型不同步問題。該項技術(shù)將有助于好萊塢電影公司和廣告商在觀眾收視率和參與度方面實現(xiàn)質(zhì)的飛躍。

LipDub研究團隊由MARZ首席科學(xué)家、特拉維夫大學(xué)計算機科學(xué)系世界知名教授Danny Cohen-Or領(lǐng)導(dǎo),他是ACM研究員和Isaias Nizri視覺計算主席。他與長期合作者、西蒙弗雷澤大學(xué)助理教授Ali Mahdavi-Amiri一起領(lǐng)導(dǎo)了MARZ的AI研究團隊。他們共同成功開展了Vanity AI的研究,這是MARZ開發(fā)的第一個AI解決方案。比如,針對人物面部皺紋進行AI美妝,使其達到年輕效果。Vanity AI于2023年1月推出,已在45多個好萊塢作品中使用。

12月7日,LipDub CEO Jonathan Bronfman在演講中透露了LipDub的技術(shù)實現(xiàn)原理,并對該項技術(shù)所覆蓋的各行業(yè)、場景解決方案進行了演示。

Jonathan指出,目前生成式AI已經(jīng)演進到文生圖、圖生視頻階段。對于營銷人員或內(nèi)容創(chuàng)作者而言,基于生成式AI技術(shù),幾乎只需要10分鐘就可以對某個想法實現(xiàn)視頻生成,從而快速驗證視頻效果。

在他看來,視頻內(nèi)容生成的挑戰(zhàn)是什么?慢且貴。視頻是娛樂、教育和打動觀眾的最佳途徑。隨著視頻內(nèi)容生成效率的提升,用戶完全可以在幾分鐘內(nèi)就生成一段視頻,同時,同一段視頻素材也可以反復(fù)使用。

LipDub開發(fā)的口形同步技術(shù)(Lip Sync)實際上用到三種方案:一是直接對視頻翻譯,比如給出一段英文演講視頻,然后用中文演示,就好像演講者在講中文;二是通過定制虛擬形象進行對話調(diào)整,比如在廣告場景,許多品牌在全球各地都有不同的產(chǎn)品名稱表達,但希望使用同一支商業(yè)廣告,就需要對廣告中特定的產(chǎn)品名稱進行更改;三是通過一段語料實現(xiàn)角色的量身定制,即針對同一件事物,針對不同的受眾群體生成不同的個性化表達。

Jonathan強調(diào),好萊塢影視畫面的要求不僅僅是口型同步,而是要動態(tài)的,有飽滿情緒的。要確保對原始人物/角色表演1比1的還原。同樣,在跨語言轉(zhuǎn)換過程中,還要要確保能夠恰當?shù)赜昧硪环N語言傳遞源語言中所表達的情感。

以下是Jonathan Bronfman的演講全文,經(jīng)鈦媒體APP編輯:

大家下午好。在開始之前,我要感謝鈦媒體的邀請,這是我第一次來到中國,感謝大家的熱情款待。

我叫Jonathan Bronfman,是MARS的CEO,借此機會我與大家分享下我們的產(chǎn)品LipDub,以及公司發(fā)展歷程。

MARS源自Monsters Aliens Robot Zombies的英文縮寫,是一家專門做視覺特效的工作室,于2018年成立,曾為好萊塢多個影片和影視劇如《蟻人》、《驚奇少女》提供特效,并且與迪士尼、奈飛、Amazon Prime等多家流媒體平臺合作。

在2018年進入視效行業(yè)時,我就很清楚這個行業(yè)缺乏差異性,這意味著每個人都使用著相同的技術(shù)棧。那么如何在一個同質(zhì)化的行業(yè)中找到差異化競爭優(yōu)勢,并以此取得成功?因此,我們在2019年明確AI可以加速發(fā)展,為我們提供在成本、時間和規(guī)模上的競爭力。

我們聚集了很多世界知名科學(xué)家,包括特拉維夫大學(xué)教授Danny Cohen-Or,還有西蒙弗雷澤大學(xué)助理教授Ali Mahdavi-Amir,他們帶領(lǐng)我們找到了深度學(xué)習(xí)在視效行業(yè)的應(yīng)用交集。

其實我們開發(fā)的第一款A(yù)I產(chǎn)品不是LipDub,而是一款2D美妝產(chǎn)品Vanity AI。該產(chǎn)品可以通過創(chuàng)建一張單幀圖片,然后將其他底片插入從而使圖片鮮活。我們一開始也非常擅長對人物面部表情的刻畫。2021年,我們注意到奈飛平臺上韓劇《魷魚游戲》在歐美地區(qū)爆火,但是問題在于配音的口型不匹配。因此,我們就在想能不能讓口型同步起來,讓觀眾觀看體驗更沉浸。

在不斷努力下,我們將口型同步技術(shù)(Lip Sync)用在了好萊塢電影配音中,一直指引我們前進。在播放示例中可以看到,我們將佛蘭芒語的電影,翻譯成英文,這個過程中用到了LipDub。其實在為好萊塢電影的制作過程中,我們還需要擺姿勢、換鏡頭、換燈光等手段,解決大量技術(shù)難點,從而實現(xiàn)4k高分辨率。

LipDub采用了Language Agnostic模型,以實現(xiàn)跨語言無關(guān)特征學(xué)習(xí)。比如聲音是通過某個音素表達,轉(zhuǎn)化為口型則需要特定的口型表達方式。比如下面示例中男子正講來自《阿凡達》、《權(quán)利的游戲》、《星際迷航》中的科幻語言。

當然,這都是屬于真人片段。為了進一步提升該技術(shù)效果,我們還將LipDub應(yīng)用于CG角色制作。在此之前,我們模型訓(xùn)練的數(shù)據(jù)集里甚至都沒有CG角色字符。要知道,好萊塢影視畫面的要求不僅僅是口型同步,也不是人形立牌,而是要動態(tài)的,有飽滿情緒的。我們要確保對原始人物/角色表演1比1的還原。

我們已經(jīng)宣布了這款產(chǎn)品的beta版,預(yù)計在今年年底會有新的進展。LipDub不僅服務(wù)于好萊塢,還擴展到廣告、在線教育、企業(yè)宣傳片等多個領(lǐng)域,并聚焦于關(guān)注于視頻質(zhì)量的高價值客戶群體。例如,在線教育視頻場景中,LipDub營造出了一種真實的聽眾體驗,感覺就像是說話人自己的語言。

視頻內(nèi)容生成的挑戰(zhàn)是什么?慢且貴。視頻是娛樂、教育和打動觀眾的最佳途徑。隨著視頻內(nèi)容生成效率的提升,用戶完全可以在幾分鐘內(nèi)就生成一段視頻,同時,同一段視頻素材也可以反復(fù)使用。LipDub開發(fā)的口形同步技術(shù)(Lip Sync)實際上用到三種方案:一是直接對視頻翻譯,比如給出一段英文演講視頻,然后用中文演示,就好像演講者在講中文;二是通過定制虛擬形象進行對話調(diào)整,比如在廣告場景,許多品牌在全球各地都有不同的產(chǎn)品名稱表達,但希望使用同一支商業(yè)廣告,就需要對廣告中特定的產(chǎn)品名稱進行更改;三是通過一段語料實現(xiàn)角色的量身定制,即針對同一件事物,針對不同的受眾群體生成不同的個性化表達。

顯然,我們今天討論的AI將是一個技術(shù)拐點。人們正投入大量資金在AI上,希望AI能夠更便捷、更經(jīng)濟使用,能夠規(guī)?;鲩L和快速迭代,并且在特定行業(yè)里吸引到受眾和投放市場。

隨著AI技術(shù)的發(fā)展,生成式AI已經(jīng)演進到文生圖、圖生視頻的模式。在此技術(shù)驅(qū)動下,我們著手基于生成式AI技術(shù)實現(xiàn)了視頻生成。對于營銷人員或內(nèi)容創(chuàng)作者而言,幾乎只需要10分鐘就可以對某個想法實現(xiàn)視頻生成,從而快速驗證視頻效果。

目前LipDub生成式AI應(yīng)用分為初級和高級模式。在高級模式中,開發(fā)人員需要先對項目命名,并選擇源語言和目標語言。其次,上傳視頻并添加訓(xùn)練素材。一旦通過,將對角色面部進行自動檢測打標,只有標注后的素材才能用于AI訓(xùn)練。最后,上傳音頻,與對應(yīng)角色進行匹配,最終生成視頻??深A(yù)覽和下載保存。

在初級模式中,用戶只需上傳視頻,在對視頻進行預(yù)處理后,點擊創(chuàng)建配音。選擇自己的音頻素材或內(nèi)置翻譯功能,可一鍵生成配音效果。

最后,展示一下我們在做的新功能——替換對話框(Replace Dialogue),類似文本到語音(text-to-audio),這類平臺這些有很多,但如果輸出的不是你想要的結(jié)果怎么辦?比如你想修改一個單詞,但跨語言轉(zhuǎn)換會有細微差別。你們用中文聽到的某個詞,可能轉(zhuǎn)換為英文就翻譯不出來。我們要確保能夠恰當?shù)赜昧硪环N語言傳遞這種情感。

非常感謝大家的邀請。期待下月與全球用戶分享該項功能。(本文首發(fā)于鈦媒體APP)

本文系作者 TechHorizon 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

2026-03-28 23:01

澤連斯基稱與中東3國達成防務(wù)合作協(xié)議,涉聯(lián)合生產(chǎn)無人機

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi),已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長發(fā)表書面致辭,支持世貿(mào)組織《電子商務(wù)協(xié)定》達成臨時實施安排

2026-03-28 21:54

40余家單位聯(lián)盟,中國最大人形機器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會預(yù)判:百億智能體或成新物種,AI推動人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市,售價4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉庫并致烏克蘭人傷亡消息不實

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國務(wù)卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個詞的搜索量最高一天達到7.7萬次,比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國首個可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動2026”在北京啟動

2026-03-28 19:03

國務(wù)院食安辦、市場監(jiān)管總局約談相關(guān)地方市級人民政府負責人,督辦“3?15”晚會曝光問題整改

2026-03-28 18:44

飛書 CLI 開源:AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個月中國創(chuàng)新藥對外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國和菲律賓舉行南海問題雙邊磋商機制第十一次會議

2026-03-28 17:30

印尼正式實施16歲以下社媒禁令,約7000萬人受影響

2026-03-28 17:04

美國加州禁止官員借內(nèi)幕消息在預(yù)測市場牟利

2026-03-28 17:02

北京“超現(xiàn)場”生態(tài)共同體建設(shè)暨全國覆蓋啟動

掃描下載App