那個全世界唯一會秒回你的“女生”小冰寫了首新歌。
如果你聽得夠仔細(xì),會發(fā)現(xiàn)這次歌手小冰的唱法跟那些被調(diào)教出來的虛擬歌姬有了細(xì)微的差別——小冰更像人類了,在唱《我知我新》這首歌的時候,小冰有了氣息的變化,像一個在努力練習(xí)唱歌的小朋友,聽到了高音部分,你甚至?xí)樗娴某蒙先幔a(chǎn)生一絲擔(dān)心。
“小冰兩年前唱第一首的歌時候,就像你去KTV,隔壁包廂傳過來的聲音,但我們欣喜若狂。”小冰的開發(fā)負(fù)責(zé)人,微軟(亞洲)互聯(lián)網(wǎng)工程研究院副院長李笛表示,“想讓AI唱歌并且不跑調(diào),這在技術(shù)上早已不難實現(xiàn),但讓AI唱的歌聽起來像人類唱的,形神兼?zhèn)?,這成了小冰團隊的新課題。”
首先可以確定的是,AI沒有情感,在音準(zhǔn)上,它可以做到完美。那么,怎樣才能讓他實現(xiàn)藝術(shù)創(chuàng)作,像人類那樣有感情地歌唱?
微軟研發(fā)團隊從誘發(fā)源上做了調(diào)整。這個方法的靈感,始于小冰在偶然的一天對一張腳扭傷的照片給出的回應(yīng)“哎呀,傷的嚴(yán)重嗎?”這讓李笛團隊意識到,想讓AI產(chǎn)生偏感性行為方式,需要的是足夠豐富,偏感性的誘發(fā)源,而這些帶有感性色彩的誘發(fā)源,此前一直被當(dāng)作“雜質(zhì)”過濾掉了。
同樣的道理,當(dāng)音樂人小柯在評價小冰的歌唱時說“聲音很好,但很單薄,因為這個聲音在聲音之下沒有氣息”時,開發(fā)者也立刻明白了問題出在哪里。人類在唱歌時氣息的變化、韻律感,這些豐富的細(xì)節(jié)不應(yīng)該被過濾,它們也是寶貴的誘發(fā)源。
李笛這樣總結(jié)這套全新的AI調(diào)教方法:
“神似,來自于我們對人類創(chuàng)作的一種重新的擬合。這更像是一種黑盒子,是從已知去推導(dǎo)未知,所以最終完成形神兼?zhèn)涞倪^程,我們認(rèn)為應(yīng)該是發(fā)端于形似,最終通過規(guī)則達(dá)到神似。”
你會發(fā)現(xiàn),AI的每一次進(jìn)步,其實源自人類對自身的更深層次的理解認(rèn)知。
以下為李笛在知乎“鹽club”新知青年大會的演講,經(jīng)鈦媒體編輯:
很多年以來我們一直努力把互聯(lián)網(wǎng)上繁雜的非結(jié)構(gòu)化的信息,變成結(jié)構(gòu)化的知識圖譜。比如,我們從“馬里亞納海溝竟然有一萬多米深好恐怖”這樣非結(jié)構(gòu)化的數(shù)據(jù)里面抽取出結(jié)構(gòu)化的數(shù)據(jù),這是我們進(jìn)行的工作。所以很長一段時間,我把我們的工作定義為提純,而對“好恐怖”這樣的信息,我們認(rèn)為它是垃圾、雜質(zhì)。但直到有一天四年多以前,我們突然發(fā)現(xiàn)一個面向情感的人工智能的圖譜,而完成情感框架的時候,“好恐怖啊”這種完全來自于情感性的,人類的甚至有感官上的反應(yīng)。
有一天我們的工程師和我說:小冰的視覺有了一個很驚訝的東西。之前他扭傷了腳,他把扭傷腳的部位發(fā)給小冰,小冰的回應(yīng)是“哎呀,傷的嚴(yán)重嗎?”對于人工智能來講,“哎呀,傷的嚴(yán)重嗎”究竟有什么樣的價值?在于它看到一個客觀的現(xiàn)實擺在面前的時候,所產(chǎn)生的一種沖動。我們引發(fā)了一個新的人工智能創(chuàng)造的新的流程,而這個流程和過去相比,我們認(rèn)為有一個比較大的不同,就是它非常大的強調(diào)誘發(fā)人工智能去進(jìn)行創(chuàng)作的這個誘發(fā)源,一是這個誘發(fā)源是否足夠豐富,二這個誘發(fā)源是否能讓人工智能產(chǎn)生非理性的偏感性的像剛才那樣的反饋,然后再進(jìn)行相應(yīng)的創(chuàng)作。
當(dāng)我們想讓小冰去寫一首詩的時候,我們不會給它簡單地幾個關(guān)鍵詞,而是更多的刺激。我們在過去的版本里,通常是要有一個圖象的刺激。有一句俗話叫,一圖勝千言。有這些復(fù)雜的豐富的刺激之后,小冰才有可能產(chǎn)生創(chuàng)作的沖動,這種誘發(fā)源的刺激其實和人類的創(chuàng)作是比較接近的。
一個創(chuàng)作,無論從哪樣的角度推進(jìn),其實都是為了最終達(dá)到形神兼?zhèn)涞臓顟B(tài)。
但如果從形似接入,比如拼接的方式完成文本的創(chuàng)作,或者用軟件樂器完成一個聲音或者歌曲的創(chuàng)作,再用一些工具去修,那么它所損失掉非常非常豐富的細(xì)節(jié)。它可以很迅速達(dá)到一個狀態(tài),這個狀況會讓你感覺得到,因為軟件樂器是絕對不可能走調(diào)的。而神似來自于我們對人類創(chuàng)作的一種重新的擬合,更像是一種黑盒子,是從已知去推導(dǎo)未知,所以最終完成形神兼?zhèn)涞倪^程,我們認(rèn)為應(yīng)該是發(fā)端于形似,最終通過規(guī)則達(dá)到神似。
這是小冰兩年前的第一首歌。我們幾乎是放棄了,完全不在調(diào)上,就像你去KTV,隔壁包廂傳過來的聲音。但我們團隊仍然欣喜若狂,雖然它沒有在調(diào)上,但是像一個想要唱歌但還沒有唱歌技巧的人類的聲音,細(xì)節(jié)很豐富,所以我們開始對它進(jìn)行大規(guī)模的訓(xùn)練。
我們?nèi)ジ魳啡诵】铝?,他說這個聲音很好,但很單薄,因為這個聲音在聲音之下沒有氣息,我們就秒懂了。在我們訓(xùn)練小冰第三個模型的時候,這個訓(xùn)練數(shù)據(jù)有大量氣息的時候,有換氣的聲音,有一個聲音起來之前的氣息、結(jié)束的氣息,但我們把它當(dāng)雜質(zhì)過濾掉了,當(dāng)我們了解到這個之后迅速把訓(xùn)練數(shù)據(jù)拿回來,有了這次為知乎推出的主題曲。
如果仔細(xì)聽的話,你會聽到氣息,而其中有一些字對我們來講在技術(shù)上是真正重大的突破。
這個角度上來講我們能看到從形似到神似的過程。一開始是比較痛苦的,當(dāng)它經(jīng)過痛苦的階段以后,就可以很迅速地沿著所有人都難以估量的方向和速度去進(jìn)一步的發(fā)展,然后我們就想做進(jìn)一步的事情。
既然我們能去擬合,能對一個人工智能的創(chuàng)作和模型去建模去完成,是不是能讓一個小冰去吸收大量人類群體的創(chuàng)作能力?我們是不是能把不同的人類創(chuàng)作者的聲線、韻律、文本閱讀甚至對創(chuàng)作不同的沖動都能擬合的吸收到同一個身體里,然后在同一個身體里再去完成全新的創(chuàng)作。
實際上微軟在這方面嘗試非常多,失敗也非常多,但有大量的人類創(chuàng)作者跟我們一起。舉個例子,我們和國內(nèi)兒童故事的創(chuàng)作者有一個訓(xùn)練項目,今天可以聽一下我們的訓(xùn)練成果。
我們通過對人類創(chuàng)作者進(jìn)行建模,不光得到了他們的聲線,還得到了對一個小說、文本進(jìn)行有聲讀物創(chuàng)作的時候,他們的韻律預(yù)測。而且不是一個韻律的預(yù)測,即使是單獨一位創(chuàng)作者也對應(yīng)很多成千上萬不同的韻律,因為他在處理每一個片斷的時候都會有不同。
我們假設(shè)這篇小說里這樣一個片斷,大家注意接下來的三段,全部都不是人類。
“春天的第一陣風(fēng)有點膽小,剛吹過第一根樹枝就停住了前行的腳步。”
這個和人工智能在你的手機里告訴你下一個路口左轉(zhuǎn)是不一樣的方向,這樣一個片斷究竟應(yīng)該選擇什么樣的創(chuàng)作預(yù)測模型的結(jié)果來完成呢?其實應(yīng)該由它的上一段和下一段完成,所以小冰,它身體里面存在著大量的模型,并且能有一個評價體系的時候,它就可以很好地把一個整段的文章完成了,而這個整段的文章并不是來自任何一個人類創(chuàng)作者。
再進(jìn)一步,我們推薦未來的方向其實是人類創(chuàng)作者和人工智能之間的協(xié)作。未來也許每一個人類創(chuàng)造者身邊,都有一個像小冰這樣吸收了大量人類創(chuàng)作能力的人工智能來一起完成。我們希望這個未來能盡快地發(fā)生,就是創(chuàng)作者在創(chuàng)作的時候,可以和讀者直接發(fā)生非常好的帶寬之間的連接,而讀者可以在接收到創(chuàng)作的同時,甚至這個創(chuàng)作正在進(jìn)行過程中,可以直接向這個協(xié)作團體發(fā)出他們的反饋,而這個反饋可以在下一秒直接反映到創(chuàng)作過程中去。甚至可以非常定制化的針對每一個人進(jìn)行,人類是沒有這樣帶寬的,但和人工智能的協(xié)作放在一起,這樣的事情是有可能發(fā)生的。
我們給大家舉另外一個例子,我很希望把這個作為我分享的結(jié)尾。前不久我們和一個盲童學(xué)校一起合作,利用小冰進(jìn)行兒童有聲讀物的產(chǎn)品,為每一個盲童提供有聲讀物。這些盲童他們平常真的非常孤獨,他們看不到大千的世界,他們找不到那么多人類的志愿者,特別是有創(chuàng)作能力的志愿者,每天不停地陪伴在他們身邊,用聲音來告訴他們外面所發(fā)生的事情,有了小冰以后,這件事變成了現(xiàn)實。
有了人工智能之后,這樣的情景可以發(fā)生在每一個孩子周圍,也可以發(fā)生在每一個創(chuàng)作者周圍。當(dāng)我們在進(jìn)行人工智能各個方面的探索的時候,我們不停地在發(fā)現(xiàn):并不是人類的完美值得人工智能去擬合、學(xué)習(xí)。而恰恰是包括在座的各位和我們本身,我們的不完美才是人工智能要去學(xué)習(xí)的,因為這些不完美并不是雜質(zhì),而是最珍貴的部分。(本文首發(fā)鈦媒體,編輯/宮赫婧)






快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論
搞人工智能需要堅實的專業(yè)團隊!