(圖片來(lái)源:unsplash)
近日,“EYE ON AI”創(chuàng)始人、鈦媒體AGI平臺(tái)美國(guó)特約作者Craig Smith,與締造海外AI語(yǔ)音產(chǎn)品LipDub背后的創(chuàng)業(yè)公司Monsters Aliens Robots Zombies(MARZ)聯(lián)合創(chuàng)始人馬特·佩諾西斯(Matt Penousis)進(jìn)行近一小時(shí)的對(duì)話,探討 AI 視覺(jué)與音頻領(lǐng)域的發(fā)展?fàn)顩r與落地效果。
Matt表示,觀看《魷魚(yú)游戲》后,團(tuán)隊(duì)意識(shí)到可以解決口型與音頻不同步的問(wèn)題,于是開(kāi)發(fā)了LipDub,旨在自動(dòng)同步口型與新的配音音軌。而截至目前,LipDub不僅服務(wù)于好萊塢,還擴(kuò)展到廣告、在線教育、YouTube這類在線視頻等多個(gè)領(lǐng)域。
對(duì)于中國(guó)市場(chǎng),Matt認(rèn)為,中國(guó)是一個(gè)巨大的市場(chǎng),尤其是考慮到中國(guó)擁有眾多的方言和語(yǔ)言,這為L(zhǎng)ipDub技術(shù)提供了廣闊的應(yīng)用空間。但他也認(rèn)為,中國(guó)在AI音頻技術(shù)上的迅猛進(jìn)步,最終導(dǎo)致其在這一領(lǐng)域也在與美國(guó)等國(guó)家進(jìn)行積極的探索和競(jìng)爭(zhēng)。
Matt提到,除了幫助英語(yǔ)內(nèi)容進(jìn)入非英語(yǔ)市場(chǎng)外,LipDub也可以幫助中文內(nèi)容進(jìn)入英語(yǔ)和其他語(yǔ)言市場(chǎng),打破文化和語(yǔ)言障礙。比如,有一些中國(guó)公司展示了讓特朗普說(shuō)中文的視頻,雖然當(dāng)時(shí)只是聲音克隆,但這也顯示了中國(guó)在這一領(lǐng)域的技術(shù)實(shí)力。
Matt強(qiáng)調(diào),AI 音頻技術(shù)具有廣闊場(chǎng)景,需要市場(chǎng)不斷加大對(duì)AI音頻技術(shù)的關(guān)注。“我們絕對(duì)認(rèn)為,LipDub 是一款很棒的產(chǎn)品,它在世界上為我們占有一席之地。隨著公司的發(fā)展,我們將進(jìn)行大量新產(chǎn)品開(kāi)發(fā),我們的重點(diǎn)是讓個(gè)人可以參與并發(fā)揮這種創(chuàng)造力。盡管我們有一些很酷的想法,但確實(shí)在努力保持專注,至少現(xiàn)在是這樣,LipDub不會(huì)是我們推出的最后一個(gè)產(chǎn)品。”
Craig:好的。那么馬特,請(qǐng)先自我介紹一下呢?請(qǐng)告訴我們一些您的背景以及您是如何加入 LipDub 的。
Matt:當(dāng)然。我叫馬特·佩諾西斯 (Matt Penousis),是Monsters Aliens Robots Zombies聯(lián)合創(chuàng)始人。
此前我是一名律師,開(kāi)始了我的第一次。在法學(xué)院畢業(yè)之后,如今進(jìn)入了軟件企業(yè)。所以,我學(xué)習(xí)的知識(shí)與我們今天在這里所做的工作無(wú)關(guān)。此前創(chuàng)立了一家名為Acto的電子學(xué)習(xí)公司,花了五年的時(shí)間。
后來(lái),在Acto上的工作就結(jié)束了。然后,我現(xiàn)在的合伙人的兩個(gè)合伙人創(chuàng)辦了一家視覺(jué)效果公司,我對(duì)此很感興趣。我對(duì)這個(gè)空間一無(wú)所知。我們是如何到達(dá) LipDub 的?
第一階段是我們所處的階段,我們正在為一家視覺(jué)效果公司工作,我們看到了好萊塢對(duì)更快、更便宜的視覺(jué)效果的需求。因此,我們開(kāi)始問(wèn)自己,怎樣才能以更快的速度、更好的價(jià)格、并且不犧牲質(zhì)量來(lái)進(jìn)行視覺(jué)特效工作或視覺(jué)效果工作。我們很早就認(rèn)識(shí)了。
早在 2018 年,我們就開(kāi)始考慮,如果我們要做出改變,或者為好萊塢提供真正差異化的產(chǎn)品,我們就需要投資于創(chuàng)新,而考慮到這些目標(biāo),當(dāng)時(shí) AI 似乎是我們值得信賴的正確創(chuàng)新。做出決定后,我們就開(kāi)始尋找應(yīng)用。因?yàn)楫?dāng)你與好萊塢合作時(shí),你會(huì)做很多不同的事情。你可能正在為《怪奇物語(yǔ)》制作一個(gè)生物,或者你可能正在讓多倫多的天際線看起來(lái)像紐約的天際線,或者你可能正在使某人變老,或者你可能正在創(chuàng)建一個(gè)波浪模擬。
視覺(jué)效果是一個(gè)如此廣泛、如此籠統(tǒng)的術(shù)語(yǔ),如果你想在這個(gè)領(lǐng)域嘗試和創(chuàng)新,那么你真正選擇一個(gè)你想要自動(dòng)化的應(yīng)用是非常重要的。我們正在尋找廣泛應(yīng)用,因?yàn)楹萌R塢的 AI 產(chǎn)品研發(fā)工作非常密集,你當(dāng)然不想花費(fèi)數(shù)年時(shí)間來(lái)構(gòu)建和自動(dòng)化幾乎不出現(xiàn)或出現(xiàn)的用例十分之一的項(xiàng)目。您確實(shí)在尋找出現(xiàn)在絕大多數(shù)項(xiàng)目中的用例。
隨后,我們決定投資的第一個(gè)應(yīng)用程序叫做Vanity AI(虛榮)。我們喜歡它的原因是,數(shù)字化妝和抗衰老確實(shí)出現(xiàn)在絕大多數(shù)好萊塢項(xiàng)目中。與此同時(shí),我們覺(jué)得Vanity AI 顯然早于今天所處的新一輪 AI 熱潮,但我們覺(jué)得技術(shù)已經(jīng)足夠好以適應(yīng)這種用例。
因此,我們MARZ建立并使用了一個(gè)內(nèi)部 AI 工具,它可以縮短視覺(jué)特效藝術(shù)家進(jìn)行數(shù)字化妝或去老化鏡頭所需的時(shí)間。因此,以前五秒的鏡頭可能需要視覺(jué)特效藝術(shù)家半天的時(shí)間,根據(jù)客戶的要求以及你要改變臉部的程度,可能需要藝術(shù)家兩三天的時(shí)間。所以 Vanity 將平均每次拍攝時(shí)間縮短為 25 分鐘。
所以這是我們的第一次嘗試,基本上我們已經(jīng)在處理臉部,他們稱之為深度面部編輯。
不久之后,《Squid Game》(魷魚(yú)游戲)就問(wèn)世了。我們大多數(shù)人都觀看了這個(gè)系列,這是一個(gè)精彩的故事,但顯然,嘴唇和音頻之間缺乏同步,使我們脫離了體驗(yàn)。
因此,我們認(rèn)為,這可能是一個(gè)需要解決的非常有趣的問(wèn)題。而今天,我們通過(guò)LipDub創(chuàng)建這種高度自動(dòng)化的視覺(jué)效果應(yīng)用程序。而唇音配音背后的最初論點(diǎn)是,通過(guò)自動(dòng)將唇音與輸入系統(tǒng)的任何新配音音軌同步,讓好萊塢配音第一次看起來(lái)真實(shí)。
這就是我們開(kāi)始做LipDub的原因,顯然現(xiàn)在我們已經(jīng)進(jìn)入市場(chǎng)了。就我們?nèi)绾螌?shí)現(xiàn)這一目標(biāo)而言,這就是一種演變歷史。
Craig:是的。當(dāng)你說(shuō)這是一個(gè)需要解決的問(wèn)題時(shí),其實(shí)還有其他技術(shù)和解決方案。我想到了 Rask AI,但它們并不那么精確。從我對(duì)唇配音和好萊塢的理解來(lái)看,更精確的解決方案是你們與其他公司的不同之處嗎?
Matt:是的。所以對(duì)我們來(lái)說(shuō),就像好萊塢一樣,顯然你要解決的質(zhì)量標(biāo)準(zhǔn)是盡可能高的。因此,很多東西需要在一定水平上工作才能可用。所以顯然,銜接必須是完美的。紋理的保真度和您操作的分辨率必須是。好萊塢級(jí)別,現(xiàn)在通常是 4k,紋理的保真度必須非常出色。如果你有胡子,如果我們對(duì)你進(jìn)行口型配音,我們將在這里做,我們希望能夠看到你胡子上的每一縷頭發(fā)。因此,我們解決這個(gè)問(wèn)題的一個(gè)重要要求是面部的清晰度、紋理和紋理保真度。
另一個(gè)明顯的事實(shí)是,在好萊塢,很少有事情只是單一身份看著屏幕,而是人們跑過(guò),逃離燃燒的建筑物,以及有 10 個(gè)角色說(shuō)話而人們將頭轉(zhuǎn)向的場(chǎng)景。側(cè)面和燈光正在變化。因此,我們投入大量研發(fā)工作的真正原因不僅是能夠做出出色的清晰度和高分辨率、高保真度紋理,而且還能夠制作困難的內(nèi)容,或者我們?cè)趦?nèi)部稱之為動(dòng)態(tài)內(nèi)容。
因此,當(dāng)您考慮市場(chǎng)上的其他工具時(shí),Rask 就是一個(gè)例子,有趣的是,這些工具是從音頻方面開(kāi)始的,因此它們的最初目的是自動(dòng)化方程式的配音方面,而我們從不擔(dān)心這一點(diǎn),因?yàn)橹昂萌R塢為我們提供音軌,具有更多的高級(jí)音頻效果。
現(xiàn)在,一些音頻公司已經(jīng)開(kāi)始努力進(jìn)行口型同步。因此,我們提供一應(yīng)俱全的本地化解決方案,但我們的區(qū)別在于,當(dāng)您使用 LipDub 時(shí),您將獲得市場(chǎng)上最好的清晰度、市場(chǎng)上最好的分辨率,并且您的創(chuàng)造力不受限制。您可以使用 LipDub 做任何事情。你可以做人移動(dòng),你可以做人以側(cè)面姿勢(shì)說(shuō)話,你可以做物體干擾,物體經(jīng)過(guò)臉部。而且,老實(shí)說(shuō),我認(rèn)為這些都是大問(wèn)題。無(wú)論您做什么,無(wú)論您的視頻內(nèi)容涉及什么,您都不受限制。而大多數(shù)此類消費(fèi)級(jí)系統(tǒng)甚至連基本功能都難以解決。
Craig:是的,那么您的解決方案或您的平臺(tái)如何與現(xiàn)有的配音解決方案集成?顯然我認(rèn)為Eleven Labs 是目前的領(lǐng)導(dǎo)者或者 DeepDub,那么,您談到了這些全面的解決方案,對(duì)于更高的消費(fèi)級(jí)產(chǎn)品,您是否打算將配音、部分添加到您的平臺(tái)上?
Matt:是的。這當(dāng)然是我們經(jīng)常談?wù)摰氖虑?。因此,今天我們大多?shù)好萊塢以外的客戶,以及廣告商客戶,他們要么為自己的員工提供在線教育,要么比方說(shuō)在 YouTube 頻道、廣告代理商上銷售課程,我們意識(shí)到其中有很多,很多這些用戶確實(shí)也需要解決音頻問(wèn)題。
廣告在某種程度上是一個(gè)例外。他們?nèi)匀焕谜鎸?shí)的配音,但你可以看到他們實(shí)際上開(kāi)始轉(zhuǎn)向這些真正經(jīng)濟(jì)的解決方案我們今天與現(xiàn)有客戶的方法是去購(gòu)買 Deep Dub,去購(gòu)買 Eleven Labs,然后使用我們。
我認(rèn)為,我們未來(lái)的發(fā)展方向是我們可能會(huì)成為一種工具,但還沒(méi)有決定到底是哪一個(gè)。然而,我們有很多客戶要求一站式服務(wù),并不是說(shuō)使用兩個(gè)軟件,因此我們這一套方案是對(duì)市場(chǎng)有利的。
Craig:那么,用于匹配嘴唇運(yùn)動(dòng)或操縱視頻中像素的算法的流程、技術(shù)流程是什么?產(chǎn)品本身是如何工作的?
Matt:無(wú)法透露太多,因?yàn)槲覀兯龅暮芏嗍虑橐约笆刮覀兣c眾不同的原因,過(guò)去兩年多的時(shí)間里,我們公司做了很多技術(shù)和專業(yè)工作,它的運(yùn)作方式類似于 Dropbox。
如果你就擁有了一份原創(chuàng)文件,假設(shè)其是用英語(yǔ)制作的,而您希望以普通話為目標(biāo)。這正是我們?cè)谶@個(gè)播客中要做的事情。Liptub上的產(chǎn)品過(guò)程非常簡(jiǎn)單。您可以在media上傳后,系統(tǒng)要做的第一件事是實(shí)際檢測(cè)并跟蹤在媒體中找到的所有面孔。然后,它會(huì)提示用戶繼續(xù)標(biāo)記所找到的面孔,一旦標(biāo)記完畢,LipDub 就會(huì)了解身份。對(duì)于一個(gè)小時(shí)的內(nèi)容來(lái)說(shuō),上傳媒體和標(biāo)記的過(guò)程可能需要大約 20 分鐘的預(yù)處理時(shí)間。
一旦你有了經(jīng)過(guò)處理的視頻,你所要做的就是在中間進(jìn)行一個(gè)訓(xùn)練步驟。所以,我們的系統(tǒng)所做的就是實(shí)際訓(xùn)練,得到增強(qiáng)的配音效果和匹配效果,這是我們計(jì)算過(guò)程中最長(zhǎng)的部分。而過(guò)去需要10個(gè)小時(shí)的時(shí)間,現(xiàn)在我們已經(jīng)減少到2小時(shí),并且我們將繼續(xù)努力縮短時(shí)間。最后,將新的音頻文件與這些揚(yáng)聲器相關(guān)聯(lián),這是一個(gè)簡(jiǎn)單的拖放操作。
對(duì)我來(lái)說(shuō)也是如此。這就是平臺(tái)上的一般流程。
Craig:這個(gè)平臺(tái)正在做的是逐幀操作的音視頻對(duì)齊,那么這是用補(bǔ)丁完成的嗎?如何替換大面積的像素,以及它如何與音頻中嘴唇的閉合或張開(kāi)相關(guān)聯(lián)?
Matt:是的。所以我們生成的幾乎是眼睛下方的所有東西。這是基于音頻的重建,隨著時(shí)間的推移,我們不斷進(jìn)行修改,并且不斷發(fā)展。就系統(tǒng)的工作原理而言,大多數(shù)人都能弄清楚其中的一些顯現(xiàn)層面,再說(shuō)一次,音素的數(shù)量是有限的,然后是與這些音素相關(guān)的雙音素正完成映射。但這才是真正開(kāi)始。
我們很早就認(rèn)識(shí)到口腔內(nèi)部結(jié)構(gòu)的重要性。我們說(shuō)話的大部分內(nèi)容,實(shí)際上不是我們的嘴唇,而是我們的舌頭,而是我們的牙齒。有些單詞幾乎完全是由我們的舌頭產(chǎn)生的,所以你可能有兩個(gè)非常相似的嘴形。但不同的舌頭和牙齒位置會(huì)產(chǎn)生不同的聲音。這對(duì)我們來(lái)說(shuō)是一個(gè)巨大的挑戰(zhàn),我們要弄清楚如何正確地處理口腔內(nèi)部結(jié)構(gòu)?然后就是如何個(gè)性化?你如何確保我正在重建的內(nèi)容不只是看起來(lái)像任何一組嘴唇或隨機(jī)的一組嘴唇或嘴唇的代理,你如何使它看起來(lái)完全像說(shuō)話者,然后你就繼續(xù)前進(jìn)解決這個(gè)問(wèn)題的長(zhǎng)尾問(wèn)題。
Craig:是的。我們討論了現(xiàn)有的消費(fèi)級(jí)產(chǎn)品。我們要用中文來(lái)做這件事,我在中國(guó)有觀眾。中國(guó)人有類似的解決方案嗎?因?yàn)楹芏鄷r(shí)候,他們正在與美國(guó)的解決方案進(jìn)行最前沿的競(jìng)爭(zhēng)。
Matt:是的,現(xiàn)在有相當(dāng)多的產(chǎn)品,它對(duì)我們來(lái)說(shuō)是有效的,因?yàn)?。我們覺(jué)得從很多方面來(lái)說(shuō),我們都是這個(gè)類別的開(kāi)創(chuàng)者。有一家公司在口型同步方面比我們?cè)?,但他們并不專注于自?dòng)化,這對(duì)我們來(lái)說(shuō)非常重要,不是為了自動(dòng)化而自動(dòng)化,但我們總覺(jué)得即使我們可以口型同步,如果需要太長(zhǎng)時(shí)間或者如果成本太高,就會(huì)限制大多數(shù)用例的可訪問(wèn)性。
因此,就全球第一批真正實(shí)現(xiàn)在這種質(zhì)量水平上運(yùn)行的東西的自動(dòng)化而言,就像我們真的覺(jué)得我們推出了這個(gè)類別一樣,是的,當(dāng)然現(xiàn)在我們看到一群人進(jìn)來(lái)并稱他們?yōu)榭焖僮冯S者公司。不同之處在于,這些公司中的大多數(shù)只是包裝者。
他們只是圍繞開(kāi)源和中國(guó)市場(chǎng)。當(dāng)然,它們本質(zhì)上受到開(kāi)源以及開(kāi)源所能帶來(lái)的限制。兩年前,我們開(kāi)始使用開(kāi)源,但剛剛意識(shí)到它甚至沒(méi)有讓我們接近我們需要達(dá)到的目標(biāo)。但目前,我們沒(méi)有看到任何中國(guó)的競(jìng)爭(zhēng)對(duì)手。
Craig:我問(wèn)起中國(guó)的原因是,有一個(gè)著名的視頻,我認(rèn)為這是感知時(shí)間或我飛行科技。我不記得是哪一個(gè)了。中國(guó)公司推出了特朗普用中文說(shuō)話的內(nèi)容,這讓當(dāng)時(shí)的所有人都感到震驚,這是一個(gè)聲音克隆,但口型同步并不存在。所以我想知道,中國(guó)人是否已經(jīng)解決了假唱部分。對(duì)于您口型同步的視頻的每一分鐘或一小時(shí),這個(gè)過(guò)程需要多長(zhǎng)時(shí)間,或者像您所說(shuō)的那樣,根據(jù)場(chǎng)景的動(dòng)態(tài)程度而變化,需要多少分鐘或幾小時(shí)?
Matt:是的,粗略地說(shuō),您想要在平臺(tái)上生成的每一分鐘新內(nèi)容,現(xiàn)在可能需要10-20分鐘。雖然它不是線性的。這并不是說(shuō)您在系統(tǒng)中運(yùn)行一小時(shí)的內(nèi)容,隨著內(nèi)容的移動(dòng),速度會(huì)變得更快。但因?yàn)槲覀円钥蓴U(kuò)展的方式構(gòu)建了一切。所有這些過(guò)程。可以并行進(jìn)行。
舉個(gè)例子,如果我們將這次對(duì)話口譯成十種語(yǔ)言。您可以在云端同時(shí)生成所有 10 個(gè)新視頻,并且您可能會(huì)猜測(cè),是的,它可能會(huì)在一個(gè)小時(shí)內(nèi)平均達(dá)到每分鐘 10 分鐘左右。不包括培訓(xùn)。訓(xùn)練是這樣的,你必須做兩個(gè)小時(shí),你做一次。您不必針對(duì)每種語(yǔ)言執(zhí)行此操作。您只需執(zhí)行一次即可真正了解紋理。然后,是的,您看到的可能是每分鐘 10 分鐘左右。
Craig:是的。成本擺在那里,你如何定價(jià)?是訂閱模式嗎?還是說(shuō)按分鐘收費(fèi)或如何收費(fèi)?
Matt:是的,你說(shuō)得完全正確。所以這是一種訂閱模式。
它的工作原理是您在平臺(tái)上預(yù)先購(gòu)買積分。您可以每月購(gòu)買積分,也可以每年購(gòu)買積分。如果您每月購(gòu)買積分,這是一種“使用或丟失”模型,您將獲得當(dāng)月分配的積分,而未使用的積分將在月底到期。如果您每年支付積分,您將預(yù)先獲得所有年度積分,并且可以在一年中隨時(shí)需要時(shí)靈活地使用這些積分。信用的價(jià)格是 1 美元。不同之處在于您消耗的積分?jǐn)?shù)量取決于您在平臺(tái)上運(yùn)行的活動(dòng)。
例如,生成 1080p 輸出視頻將比生成 4K 視頻消耗更少的積分。
Craig:那誰(shuí)是主要用例?你們?yōu)楹萌R塢打造了這個(gè)。但在我看來(lái),隨著語(yǔ)音克隆和實(shí)時(shí)翻譯的發(fā)展,各個(gè)領(lǐng)域?qū)@種解決方案的需求將會(huì)越來(lái)越高。
Matt:是的,這就是我們興奮的原因。 LipDub 很有價(jià)值,需要有一些你想要關(guān)聯(lián)的新配音音頻,而從歷史上看,配音一直是一個(gè)非常手動(dòng)、非常昂貴的過(guò)程,實(shí)際上大多數(shù)情況下只有好萊塢和廣告商使用。
現(xiàn)在,配音正在成為一項(xiàng)非常負(fù)擔(dān)得起、非常容易實(shí)現(xiàn)的任務(wù)。世界上有多少內(nèi)容即將被配音。目前,世界上只有 1% 的視頻內(nèi)容經(jīng)過(guò)配音。但同樣,這是基于這樣一個(gè)想法:配音一直是一項(xiàng)非常手動(dòng)、非常昂貴的任務(wù)。如果現(xiàn)在每分鐘配音只需幾美分,那么全球互聯(lián)網(wǎng)內(nèi)容的配音比例將達(dá)到多少?我們強(qiáng)烈認(rèn)為,任何配音的東西都應(yīng)該對(duì)口型。那么回到你最初的問(wèn)題,誰(shuí)是用戶?這是一場(chǎng)持續(xù)不斷的對(duì)話。
YouTube市場(chǎng)讓我非常興奮,真的非常非常興奮。目前有很多證據(jù)表明這一點(diǎn)。來(lái)自那些早期采用者、創(chuàng)新的《野獸先生》(MrBeast)YouTuber選擇進(jìn)行配音。為期兩年的實(shí)驗(yàn)得出的統(tǒng)計(jì)數(shù)據(jù)表明,全球?qū)@種內(nèi)容有巨大的需求。
Craig:是的,實(shí)際上,我沒(méi)有意識(shí)到MrBeast為他的視頻選擇 AI 配音。他配音成什么語(yǔ)言?
Matt:他一開(kāi)始是 15 個(gè),他會(huì)增加到 30 個(gè)。而他在人工智能音頻技術(shù)出現(xiàn)之前就開(kāi)始了他的實(shí)驗(yàn)。因此,最初他付錢給傳統(tǒng)的配音工作室來(lái)做這項(xiàng)工作,他并沒(méi)有發(fā)布他所有的績(jī)效指標(biāo),但他發(fā)布了某些月份作為例子,并且他 50% 以上的觀點(diǎn)是通過(guò)配音得到的。
Craig:您是否正在與他合作,或者 YouTube 是否可以將其集成到 YouTube 工作室中,以便人們只需單擊按鈕即可對(duì)口型配音音頻。
Matt:是的,所以我們正在與MrBeast合作。而且,我們開(kāi)始探索一些唇形同步的工作。我們最近還為該平臺(tái)引入了許多其他主要的 YouTube 主播。這些人要么是已經(jīng)配音了內(nèi)容,要么只是看到了趨勢(shì),想要立即開(kāi)始本地化他們的頻道。因?yàn)榇_實(shí)如此。
相對(duì)而言,它確實(shí)代表了LipDub的成果。本地化是實(shí)現(xiàn)這一目標(biāo)的好方法。這不是唯一的市場(chǎng),但我對(duì)這個(gè)市場(chǎng)特別興奮,因?yàn)槲艺娴南袷澜缫粯酉嘈牛覀儧](méi)有理由只看說(shuō)我們語(yǔ)言的有影響力的人。
我認(rèn)為人們到處都在制作有趣的內(nèi)容。你只要縱觀整個(gè)媒體領(lǐng)域,就會(huì)發(fā)現(xiàn)有這種需求。我現(xiàn)在就是一個(gè)例子,我真的很喜歡幕府將軍,我認(rèn)為這太棒了。魷魚(yú)游戲太棒了。我們現(xiàn)在還與一些 YouTuber 合作,他們是世界其他地區(qū)的主要影響者,他們確實(shí)有興趣首次進(jìn)軍北美市場(chǎng)。
而且,字幕是歷史上所做的方式,只是它不是很吸引人,現(xiàn)在突然間您就可以擁有一個(gè) YouTube 頻道,您可以在其中提供世界上每個(gè)國(guó)家的語(yǔ)音效果、一流的觀看體驗(yàn),就像是為您量身定做的一樣。我對(duì)此感到非常興奮。
同時(shí),現(xiàn)在正在傾斜的市場(chǎng)是廣告,無(wú)論是數(shù)字營(yíng)銷還是電視廣播,都是一個(gè)非常大的市場(chǎng)。許多簽約客戶要么是廣告公司,要么是他們的視頻制作公司。我們剛剛做了一個(gè)電視廣告,可能是我最喜歡的科技品牌。很快就會(huì)出來(lái)。我們很快就能討論這個(gè)問(wèn)題,但這確實(shí)令人興奮。
另外,在線教育也是重要的覆蓋領(lǐng)域,無(wú)論是針對(duì)您的員工,假設(shè)您是一家在世界各地?fù)碛袉T工的跨國(guó)公司,能夠與您的國(guó)際員工或銷售課程的人員進(jìn)行溝通進(jìn)入新市場(chǎng),對(duì)嗎?我們現(xiàn)在有一些人擁有有意義的課程負(fù)擔(dān),非常成功的公司,但只在他們的地區(qū)取得成功?,F(xiàn)在,他們將 LipDub 視為進(jìn)入新市場(chǎng)和發(fā)展業(yè)務(wù)的一種機(jī)制。
我認(rèn)為這是一種令人興奮的發(fā)展方式。
Craig:這是雙向的。有些人用英語(yǔ)制作內(nèi)容,希望進(jìn)入非英語(yǔ)市場(chǎng),但內(nèi)容數(shù)量巨大。我在中國(guó)的大部分時(shí)間都是用中文度過(guò)的,這是英語(yǔ)世界從未見(jiàn)過(guò)的。坦率地說(shuō),這就是我認(rèn)為兩國(guó)之間存在理解差距的原因之一,因?yàn)槿藗冎皇菦](méi)有接觸到中文,從您的角度來(lái)看,大部分內(nèi)容、大部分市場(chǎng)都是將英語(yǔ)內(nèi)容翻譯成其他語(yǔ)言,您認(rèn)為原因是什么?
Matt:確實(shí)兩者都是。無(wú)論哪種方式,我都沒(méi)有看到主導(dǎo)趨勢(shì)。對(duì)于好萊塢來(lái)說(shuō),特別是他們最初的用例,他們最感興趣的是外國(guó)英語(yǔ),可能只是因?yàn)槲覀冏鳛檎f(shuō)英語(yǔ)的人,我們已經(jīng)沒(méi)有耐心了。其他市場(chǎng)例如德國(guó)或法國(guó),都是靠配音成長(zhǎng)起來(lái)的。
所以嘴唇不同步的想法是它并不理想或最佳,但至少他們是伴隨著它長(zhǎng)大的。然而我們?nèi)狈δ托?,而且?dāng)出現(xiàn)這個(gè)問(wèn)題時(shí)我們非常適應(yīng)。所以好萊塢當(dāng)然對(duì)英語(yǔ)的外國(guó)文化感興趣,但是當(dāng)涉及到廣告、在線教育、YouTube 時(shí),我們真的看到了這一切。
查看所有主要?dú)W洲語(yǔ)言:德語(yǔ)、法語(yǔ)、意大利語(yǔ)??吹胶芏嘤《日Z(yǔ)言,比如印地語(yǔ),普通話是一大類。所以我們確實(shí)發(fā)現(xiàn)我們還沒(méi)有看到任何一種特定的趨勢(shì)突出。只是感覺(jué)每個(gè)人都想更好地與每個(gè)人溝通。
Craig:實(shí)時(shí)性如何?是否可以想象,最終您將能夠同步和配音實(shí)時(shí)流媒體內(nèi)容,但會(huì)有一些延遲。
Matt:是的,這當(dāng)然是可以想象的。在實(shí)時(shí)工作時(shí),通常面臨的挑戰(zhàn)是您通常會(huì)做出一些質(zhì)量權(quán)衡。
但現(xiàn)在很多時(shí)候,隨著技術(shù)的發(fā)展,舊的權(quán)衡消失了。因此,我們當(dāng)然對(duì)此感興趣,作為未來(lái)開(kāi)發(fā)的未來(lái),因?yàn)轱@然如果你可以實(shí)時(shí)進(jìn)行,你就會(huì)開(kāi)辟很多有趣的用例。到那時(shí),它就真正成為通用翻譯機(jī)中的一個(gè)重要齒輪。我可以與中國(guó)的同事交談,并以一種我以前從未做過(guò)的方式與那個(gè)人建立聯(lián)系,這一想法顯然非常有趣。然后你就擁有了很多本質(zhì)上是實(shí)時(shí)內(nèi)容的內(nèi)容。
很多廣播都是現(xiàn)場(chǎng)直播的。盡管我們確實(shí)看到該平臺(tái)上有一些廣播用例。舉個(gè)例子,現(xiàn)在有幾家公司正在對(duì)印度所有不同的官方語(yǔ)言進(jìn)行板球分析。但這些,是的,我認(rèn)為這真的很酷。印度是一個(gè)巨大的市場(chǎng)。
印度就像最好的市場(chǎng)之一,因?yàn)橛泻芏喾窖?。通常,您要么必須為每種方言創(chuàng)建內(nèi)容,要么某些方言無(wú)法獲得出色的內(nèi)容觀看體驗(yàn)。因此非??春糜《鹊倪@項(xiàng)技術(shù)。
Craig:挑戰(zhàn)之一不僅僅是嘴唇的張合或牙齒或舌頭的位置,還有措辭,因?yàn)榉g中的某些內(nèi)容可能比英語(yǔ)中的表達(dá)時(shí)間更長(zhǎng),反之亦然。你怎么處理那件事呢?
Matt:是的,這是一個(gè)很好的觀點(diǎn)。我認(rèn)為這兩個(gè)是大多數(shù)人工智能音頻軟件的限制因素。所以首先是翻譯的準(zhǔn)確性。有些語(yǔ)言的翻譯準(zhǔn)確率比其他語(yǔ)言高得多,我認(rèn)為這是一個(gè)需要解決的問(wèn)題。
另一個(gè)更難解決的是??谡Z(yǔ)和俚語(yǔ)。但我有信心,這是翻譯準(zhǔn)確性問(wèn)題的一個(gè)子集,這兩件事都是真正的問(wèn)題。這就是大多數(shù)人工智能音頻系統(tǒng)中的原因,對(duì)嗎?您可以進(jìn)入并編輯重定向的腳本,但這需要會(huì)說(shuō)該語(yǔ)言的人進(jìn)入并為此工作,這只會(huì)使系統(tǒng)更難以從中獲取價(jià)值,對(duì)吧?
如果為了讓我將視頻完美地翻譯成 10 種語(yǔ)言,如果我需要每種目標(biāo)語(yǔ)言的演講者,來(lái)審查這些音頻平臺(tái)的翻譯,這并不是說(shuō)這是不可行的。這只是有點(diǎn)煩人和邏輯上的挑戰(zhàn)。
因此,這肯定是當(dāng)今平臺(tái)和使用 AI 音頻的人們所存在的一個(gè)問(wèn)題,他們中的大多數(shù)人都在竭盡全力。真正做這項(xiàng)工作并讓人們了解這些語(yǔ)言。您提到的另一個(gè)問(wèn)題是時(shí)間,它是系統(tǒng)中的限制因素。如果您正在聽(tīng)一段音頻,感覺(jué)該音頻的一部分加快了速度,然后又減慢了速度??山邮艿挠^看體驗(yàn)和最終完全分散您注意力的東西之間只有一線之隔。不過(guò),解決這個(gè)問(wèn)題的方法還是回到腳本編輯部分。如果你有,如果你有英語(yǔ)內(nèi)容要翻譯成西班牙語(yǔ),開(kāi)箱即用的西班牙語(yǔ)音頻是 15 秒,但英語(yǔ)是 10 秒。
當(dāng)然,你可以依靠自動(dòng)減速、加速,或者你可以實(shí)際進(jìn)入并調(diào)整西班牙語(yǔ)腳本,取出一些單詞,稍微調(diào)整一下。順便說(shuō)一句,這正是好萊塢所做的。但話又說(shuō)回來(lái),這太麻煩了。
Craig:但這聽(tīng)起來(lái)像是可以自動(dòng)化的語(yǔ)言和翻譯。
Matt:是的,我認(rèn)為這可能是一種有趣的方式。我認(rèn)為可以捕捉一些原始腳本內(nèi)容的迭代。這個(gè)更短,更適合您的視頻,這個(gè)是逐字記錄的,但太長(zhǎng)了。我并不是說(shuō)這些都是無(wú)法解決的問(wèn)題。這些只是當(dāng)今一些人走進(jìn)平臺(tái)并期望完美的限制。
AI音頻軟件非常神奇,但神奇并不意味著完美,神奇也不意味著不需要任何工作。
Craig:顯而易見(jiàn)的問(wèn)題是音頻隱私和濫用的可能性。那么你們對(duì)此有何看法?或者您是否正在考慮在平臺(tái)中內(nèi)置這些控件或任何東西來(lái)監(jiān)管這種濫用行為?
Matt:這是我們經(jīng)常談?wù)摰氖虑?。我們建立這個(gè)項(xiàng)目是為了最終幫助世界更好地溝通,所以我們做了一些事情。我們做的一件事是,我們確保無(wú)論您是誰(shuí),只要在平臺(tái)上單擊一下,您實(shí)際上就有權(quán)使用 LipDub 那個(gè)人。
我們還抽查通過(guò)平臺(tái)運(yùn)行的所有內(nèi)容。如果我們發(fā)現(xiàn)濫用。如果我們看到某個(gè)名人正在宣傳我們知道他們沒(méi)有宣傳過(guò)的東西,那么您將被終身禁止使用該平臺(tái)。
這些努力非常耗時(shí),但我們認(rèn)為是必要的。我認(rèn)為這在很大程度上最終將取決于那些促進(jìn) AI 生成內(nèi)容的人之間的良好合作,以及該內(nèi)容的分發(fā)平臺(tái),有多種方法可以用元數(shù)據(jù)標(biāo)記這些內(nèi)容,確保任何人工智能生成的視頻內(nèi)容都會(huì)被貼上這樣的標(biāo)簽。
我認(rèn)為這很重要,因?yàn)榫湍愕挠^點(diǎn)而言,確實(shí)如此。如果我們不這樣做,如果每個(gè)人不開(kāi)始共同努力,那么我認(rèn)為所有這些新一代 AI 技術(shù)的負(fù)面影響將是真實(shí)的,可能對(duì)社會(huì)非常有害。我認(rèn)為沒(méi)有人愿意這樣,新的能力可以完成他們永遠(yuǎn)無(wú)法想象的事情,從而賦予個(gè)人權(quán)力。
Craig:我知道,通過(guò)數(shù)字水印或在人眼不可見(jiàn)的像素中嵌入一些圖案,以防止音頻濫用。那你們正在與研究人員討論此類解決方案嗎?
Matt:這正是我所指的數(shù)字水印。我不是我們團(tuán)隊(duì)中真正推動(dòng)這些討論的人,因?yàn)槲也皇枪こ處?,而且這種技術(shù)遠(yuǎn)遠(yuǎn)不夠。如果我們希望這些數(shù)字水印是永久性的,它就非常重要。
Craig:是否有人們可以查看的用例?有使用過(guò)您的技術(shù)的好萊塢示例或 YouTube 示例嗎?我猜你說(shuō)的是MrBeast。
Matt:是的,老實(shí)說(shuō),現(xiàn)在在好萊塢,我們?cè)?LipDub 所做的大部分工作都是他們所說(shuō)的 ADR。我們的軟件通常可能需要進(jìn)行非常昂貴的拍攝,這就是我們今天與好萊塢合作的工作。坦率地說(shuō),該產(chǎn)品需要一個(gè)適合好萊塢完成這項(xiàng)工作的成本結(jié)構(gòu)。
其他業(yè)務(wù)層面,我們的許多 YouTuber現(xiàn)在才剛剛起步,因此您很快就會(huì)在平臺(tái)上看到他們,并且您會(huì)開(kāi)始看到他們的內(nèi)容彈出。然后還有廣告,對(duì)吧?我們剛剛為樂(lè)事做了一個(gè)很棒的大衛(wèi)·貝克漢姆的廣告。我們?cè)谀睦镞M(jìn)行了更改,在哪里進(jìn)行了本地化,本地化為不同的語(yǔ)言。
我剛才提到,我們剛剛針對(duì)八種語(yǔ)言進(jìn)行了三項(xiàng)營(yíng)銷活動(dòng)。我們的一些客戶再次代表品牌開(kāi)展工作,無(wú)論是為了他們的數(shù)字營(yíng)銷還是電子學(xué)習(xí)工作。這些指標(biāo)非常驚人。就收視率和參與率而言,但這些并不是我們必須分享的指標(biāo)。
Craig:你是如何組建團(tuán)隊(duì)來(lái)做到這一點(diǎn)的?創(chuàng)始人是誰(shuí)?起源故事是什么?你是一名律師,為何會(huì)做軟件?
Matt:我也很驚訝。所以這不僅僅是你,是的,這一切都是從我以前的軟件公司開(kāi)始的,我們沒(méi)有做人工智能工作。
在建立團(tuán)隊(duì)的過(guò)程中,我很快就學(xué)到了一件事,就像這個(gè)團(tuán)隊(duì)的第一次迭代一樣。這當(dāng)然不是一個(gè)質(zhì)量勝過(guò)數(shù)量的游戲。有很多人是研究人員。你可以雇一個(gè)滿是普通研究人員的房間,你會(huì)得到 100 個(gè)理由來(lái)解釋為什么問(wèn)題無(wú)法解決。而你可以聘請(qǐng)一位令人難以置信的研究人員,他們會(huì)給你問(wèn)題的答案。在 MARZ AI 成立之后,我很快意識(shí)到這將是一個(gè)嚴(yán)肅的項(xiàng)目。如果我們要開(kāi)發(fā)世界一流的產(chǎn)品,我們就需要世界一流的研究,事實(shí)確實(shí)如此。
在這其中,找到丹尼爾·科恩-奧(Daniel Cohen-Or). 是關(guān)鍵的一步。丹尼爾是世界上 SIGGRAPH 發(fā)表最多的貢獻(xiàn)者第一。他在特拉維夫大學(xué)的實(shí)驗(yàn)室享譽(yù)世界。他們加快了 30 年前作為圖形實(shí)驗(yàn)室起步的步伐,但 10 年前,他們是全球第一批開(kāi)始問(wèn)自己這樣問(wèn)題的團(tuán)隊(duì)之一:深度學(xué)習(xí)將如何影響圖形?
從那時(shí)起,他們的實(shí)驗(yàn)室發(fā)布的論文和團(tuán)隊(duì)都在做 AI 技術(shù)研發(fā),包括很多優(yōu)秀的加拿大教授。通過(guò)成立顧問(wèn)委員會(huì)方式,與全球 AI 音頻領(lǐng)域的專家進(jìn)行漫長(zhǎng)地聯(lián)系,從而找到一些真正優(yōu)秀的候選人。
最終,我真的把目光投向了丹尼爾,花了八個(gè)月的時(shí)間才簽下他,擔(dān)任公司首席科學(xué)家。但我認(rèn)為他對(duì)這個(gè)愿景感到興奮,因?yàn)樗c他實(shí)驗(yàn)室的工作非常一致。
另外,我還找了阿里·馬達(dá)維·阿米里,擔(dān)任我們的研究總監(jiān)。他是北美頂尖的圖形計(jì)算學(xué)校、加拿大 SFU 的助理教授。一旦我們有了這些人,你就擁有了一個(gè)研發(fā)環(huán)境,與全球范圍內(nèi)一些最有才華的人一起在這個(gè)領(lǐng)域進(jìn)行研究,然后它就開(kāi)始自我發(fā)展。
Craig:你們是在召集顧問(wèn)委員會(huì)之前籌集資金,還是之后再籌集資金?
Matt:我們?cè)诨I集資金之前就召集了顧問(wèn)委員會(huì)。然后,我們按照這些思路推出一些東西。我們絕對(duì)認(rèn)為,LipDub 是一款很棒的產(chǎn)品。
我們認(rèn)為它在世界上為我們占有一席之地,這是一個(gè)成長(zhǎng)起點(diǎn)。
我認(rèn)為,隨著公司的發(fā)展,我們將進(jìn)行大量新產(chǎn)品開(kāi)發(fā),一直以來(lái),用戶如何從創(chuàng)意的角度賦予個(gè)人權(quán)力,讓他們能夠訪問(wèn)使用過(guò)的不同視覺(jué)特效應(yīng)用程序采取藝術(shù)家團(tuán)隊(duì)。我們的重點(diǎn)是讓個(gè)人可以參與并發(fā)揮這種創(chuàng)造力。像這些事情我們當(dāng)然還沒(méi)有完成。
對(duì)于改變,我們有一些很酷的想法,我們正在四處尋找,但我們確實(shí)在努力保持專注,至少現(xiàn)在是這樣。比如,研發(fā)的這個(gè) LipDub還遠(yuǎn)遠(yuǎn)未結(jié)束,它也不會(huì)是我們推出的最后一個(gè)產(chǎn)品,這是肯定的。
(本文首發(fā)于鈦媒體App)
![]()
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論