小冰公司聯(lián)合創(chuàng)始人,產(chǎn)品副總裁彭爽
2023年12月1-3日,2023T-EDGE全球創(chuàng)新大會暨EDGE AWARDS創(chuàng)新評選在北京751D·PARK傳導(dǎo)空間舉辦。
今年大會以“新視野 新鏈接”為主題,邀請了近百位來自不同國家,不同領(lǐng)域的國際創(chuàng)新領(lǐng)袖分享嘉賓,設(shè)置了四十余場現(xiàn)場討論,從新一輪全球AI革命浪潮、產(chǎn)業(yè)鏈重塑、新一輪企業(yè)再全球化浪潮、全球化下的產(chǎn)業(yè)創(chuàng)新升級和投資新趨勢等維度,共同回顧過去一年的洞察與發(fā)展,展望未來的創(chuàng)新趨勢與經(jīng)濟新格局。
12月2日下午,小冰公司聯(lián)合創(chuàng)始人,產(chǎn)品副總裁彭爽在鈦媒體2023T-EDGE大會上發(fā)表了名為《AIGC的創(chuàng)新未來》的主題演講。
每一次科技變革,變革的都是人和世界的關(guān)系。彭爽認為,從門戶網(wǎng)站到搜索引擎再到后來的推薦引擎,人和世界以及人和知識的關(guān)系都是在隨之變化的。隨著人工智能時代的到來,人與世界的關(guān)系還將再次得到改變。
變化的過程中,大量的創(chuàng)新機會也會隨之而來。在彭爽看來,人工智能已經(jīng)成為了內(nèi)容的創(chuàng)作者,而交互界面也將因為人工智能的賦能而變得更加擬人化。這些變化的背后,包含了所有人可以一起探索的創(chuàng)新機會。
事實上,小冰公司在研究人數(shù)字人和虛擬人的時候,非常注重創(chuàng)作和交互的自然,也包括了數(shù)字人在各個場景中的一致性。彭爽表示,這些細節(jié)決定了小冰公司的虛擬人和數(shù)字人可以實現(xiàn)跨場景存在。而這種一致性框架在當前人工智能系統(tǒng)中還未被重視。
“我們認為我們現(xiàn)在處于人工智能時代早期,但這也是我們能夠發(fā)掘創(chuàng)新的最好時代,跟大家一起共勉”,彭爽說道。
大家好,很高興今天有機會來到這里參加鈦媒體的創(chuàng)新分享,我的分享主題是人工智能內(nèi)容創(chuàng)造的創(chuàng)新未來。我叫彭爽,我來自于小冰公司,我們做的所有事情都是為了賦能人工智能時代下所有人工智能的主題,也就是虛擬人、數(shù)字人,各種各樣搭建為人工智能智能主體的機構(gòu)。
我們這家公司有相對更早的周期。我們最早是微軟中國的一個團隊,隨后從微軟分拆出來成為獨立的公司獨立發(fā)展。今天有機會做這個分享,我相信在座每個人都能感知到,人工智能科技帶來巨大的影響力。
實際上我們感覺每一年這個世界都會發(fā)生很多新的變化,過去2023年更是如此。作為互聯(lián)網(wǎng)和人工智能整個行業(yè)十幾年的從業(yè)者,我想跟大家分享的是基于我的從業(yè)經(jīng)驗和公司的從業(yè)經(jīng)驗,我們感覺每一次科技帶來特別巨大的變革,事實上都是變革人和世界的關(guān)系。
從互聯(lián)網(wǎng)和數(shù)字世界誕生之初,最早先出現(xiàn)了門戶網(wǎng)站。它太早了,我估計一些年輕的觀眾聽眾那個時候還非常小。在那個時候,門戶網(wǎng)站提供了一種非常好的媒介,讓人有機會接觸到繽紛而精彩的數(shù)字世界。
很快,它隨著科學技術(shù)的變革,隨著搜索引擎的出現(xiàn)而帶來替代。搜索引擎是非常簡單的交互界面,就是很簡單的框。人們通過這個框非常快速的學會了新的交互方式,通過輸入關(guān)鍵詞通過搜索引擎巨大的檢索和數(shù)據(jù)庫定位到我想要找的知識信息甚至一些服務(wù)。這就是一次巨大的人和數(shù)字世界關(guān)系的變革。
當然,再往后大家比較熟悉的,推薦引擎的出現(xiàn),把這個關(guān)系繼續(xù)往前走了一步。搜索引擎像巨大的管道一樣,管道里面人作為主動型的人通過關(guān)鍵詞信息的輸入,像釣魚一樣把他想要的知識信息勾回來的話。推薦引擎是反向的。推薦引擎作為主體,主動篩選對于每個人不一樣的,他認為有價值的信息和內(nèi)容主動推送過來。
大家也能感知到,在這樣變革過程中人和世界或者和數(shù)字世界知識信息的關(guān)系,由相對主動的關(guān)系變成被動接受的關(guān)系。從門戶到搜索引擎到推薦引擎時代,人和世界的關(guān)系在不斷地變革。接下來人工智能時代即將來臨,這個關(guān)系肯定還會再次變革,到底會有哪些東西帶來變革?這個過程中能夠出現(xiàn)哪些創(chuàng)新的機會呢?我想跟大家分享一些我們自己的思考。
在這個變革過程中,人和世界的關(guān)系就不是人和世界產(chǎn)生橋梁的管道關(guān)系的變化,會在這個結(jié)構(gòu)中每一個節(jié)點,每一個方面都會產(chǎn)生巨大的變化,當然也會帶來巨大的創(chuàng)新機會。
首先,以前數(shù)字世界內(nèi)有價值的知識信息,包括服務(wù),本質(zhì)上都是由人類長期積累的或者是提取出來的經(jīng)驗所形成的。在新的人工智能時代,大家已經(jīng)感知到的,人工智能不再是一個管道或者輔助,成為了這些內(nèi)容可能的創(chuàng)造者之一,或者協(xié)助的創(chuàng)作者之一。這也就是我們所說的AIGC人工智能內(nèi)容創(chuàng)造主體的重要變化。
人工智能時代,所有計算機工具會遠超于過去的Word文檔。Word文檔最大的作用是幫助你把這些文本類型進行更好的格式化,呈現(xiàn)出更好更精美的格式。今天你打開的是人工智能,他能幫你做的不僅僅是格式化處理,幫助你填寫空白,甚至跟你一起創(chuàng)造出更多好的內(nèi)容。
交互的一方也是這樣。之前每一次變革都要進行一些交互界面形態(tài)的變化。以前門戶網(wǎng)站的界面,后來推薦引擎變成推送被動接受的界面。新的人工智能時代的來臨,我們相信新的界面一定是一個更加擬人化的。
這個交互界面來自于這次巨大變革大的語言模型的推動力,更自然的計算機語音技術(shù)的變革,以及更豐富的計算機視覺的變革。通過這樣的變革,我們認為帶來最大的價值并不僅僅是交互界面變的更加簡易或者更加自然,使交互關(guān)系之間人類主動變到后面信息或者知識主動,最終變成相對而言更加平穩(wěn)的關(guān)系。這個關(guān)系更接近于人和人之間的關(guān)系。
當然,所有的界面交互方式也好,生產(chǎn)內(nèi)容的提供者也好,最終發(fā)生的主體,我們認為所謂的部署界面也會發(fā)生變化。具體是什么?這就是所有人一起探索的創(chuàng)新機會。
在我們看來,在新的人工智能時代之下,創(chuàng)新的機會無處不在,最重要的是遍及從底層技術(shù)架構(gòu)到生態(tài)系統(tǒng)的重新構(gòu)建,都會受到新的創(chuàng)新的沖擊,都會帶來巨大的機會。這也是我們認為創(chuàng)新的未來。
之后簡單跟大家分享一下,從小冰公司過往經(jīng)驗中我們做的探索和思考。從AIGC出發(fā),推出人工智能類似的創(chuàng)作者或者協(xié)助創(chuàng)作者,小冰公司做了哪些事情?我們有哪些思考?
大家看到圖中截屏是我們工具型產(chǎn)品,我們承載AI歌手或者AI合成的工具性平臺,我們通過這個平臺跟音樂從業(yè)者進行合作。為什么會有這樣平臺,以及音樂人為何需要這樣平臺?
我們做了很多研究發(fā)現(xiàn),在完整歌曲成品創(chuàng)作過程中,會經(jīng)過很多非常系統(tǒng)化的流程。一個完整的歌曲成品發(fā)布之前,會經(jīng)歷從最開始寫曲寫詞的創(chuàng)作到后面編曲,到后面小樣錄制演唱成曲錄制演唱整個流程。
當后續(xù)效果呈現(xiàn)出來一些并不盡如人意或者需要調(diào)整的時候,音樂創(chuàng)作者需要回到前面環(huán)節(jié)重新來過。整個音樂作品完整的呈現(xiàn),可能創(chuàng)作的周期短則幾周長則幾個月都是正常的周期。
我們的AI歌手歌聲合成平臺提供了新的創(chuàng)作泛式,與原創(chuàng)創(chuàng)作者進行配合,寫詞和寫曲的原創(chuàng)音樂人本身并不一定具備非常適合的嗓音條件。合成平臺可以把他們寫的歌曲實時演唱出來。
音樂人想驗證結(jié)果的時候更加需要類似的工具。這個工具使他第一天創(chuàng)作的時候就有一位AI歌手隨時陪伴在身旁,把他創(chuàng)作階段性作品實時演繹出來。創(chuàng)作者可以在最早期驗證他的想法,確定跟他期待的是否有所偏差。這個過程可以實時進行,非常迅捷。
AI歌手演唱效果可以達到人類專業(yè)歌手水平,很多詞曲作者在這樣協(xié)作過程中感受到創(chuàng)作上限被極大拉高,創(chuàng)作過程中所花費的時間迭代的精力被大大降低。
我給大家分享一小段人類創(chuàng)作者和AI歌手最終協(xié)作產(chǎn)生的歌曲作品,是由我們的AI歌手陳水若演唱。聽到歌曲和歌手本人都是由我們?nèi)斯ぶ悄芗夹g(shù)進行生成創(chuàng)作的。這個歌曲和MV也都在音樂流媒體平臺上可以找到。你們看到的這位歌手并不真的存在,臉部表情和對歌曲的演繹都是人工智能生成的。
我們并沒有停留在僅在創(chuàng)作者這一端進行參與,交互端也有更多思考。我們知道計算機語音技術(shù)相當成熟,自然度到達了非常自然的水平。我們會進一步思考現(xiàn)有計算機語音停留在24K采用率的基礎(chǔ)上,是否足夠呢?我們嘗試做了更多,這里有小的demo給大家聽一下,demo里面兩個人工智能語音進行對話的片段。
這是很自然的一段對話,這里面的技術(shù)探索在于,我們希望一個語音說話的時候聽起來和唱歌的時候聽起來,甚至大笑的時候跟朋友交互的時候能夠一致。如果要做到這一點,當前所有音頻技術(shù)基礎(chǔ)上都需要做拔高和一致性提升。
我們?yōu)槭裁搓P(guān)注這樣的細節(jié)?因為我們非常關(guān)注作為人工智能賦能的虛擬人和數(shù)字人,他們需要實現(xiàn)跨場景同時存在。當你在錄音室里跟一位AI歌手進行歌曲創(chuàng)作的時候,你是否想過,當你進入云音樂這樣平臺,這位AI歌手會在評論區(qū)內(nèi)與你互動。當你進入抖音平臺,她依然在,并且能與你交互。
我們考量交互系統(tǒng)交互信號一致性框架,這樣框架在當前人工智能系統(tǒng)中還未被重視,甚至有跨人工智能之間的框架,應(yīng)該遵循什么樣的交流原則和數(shù)據(jù)分享機制,這背后是考量整套信號和數(shù)據(jù)進行跨平臺,進行創(chuàng)作的機制。
這樣機制本身也是新的數(shù)據(jù)形式,也必將幫助我們進一步學習,如何構(gòu)建新的人和人工智能世界交流的關(guān)系。這又回到我們的主題,我們認為我們現(xiàn)在處于人工智能時代早期,但這也是我們能夠發(fā)掘創(chuàng)新的最好時代,跟大家一起共勉,謝謝大家。
(本文首發(fā)鈦媒體APP)
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論