圖片來(lái)源@視覺(jué)中國(guó)
文 | 追問(wèn)NextQuestion,作者 | 立夏,整理&排版:Yunshan
聲音是人類社會(huì)重要的交流媒介,它不僅可以傳情達(dá)意,還可以反映人的身體狀況。
在本期《追問(wèn)專訪》中,上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系吳夢(mèng)玥老師將帶我們一起進(jìn)入語(yǔ)音世界,從多模態(tài)互動(dòng)到醫(yī)療應(yīng)用,共同探索聲音的奧秘。歡迎收聽(tīng)Podcast。
![]()
吳夢(mèng)玥:我現(xiàn)在的主要研究方向是豐富音頻分析。當(dāng)我們聽(tīng)某種聲音的時(shí)候,如果是在聽(tīng)一種語(yǔ)言,我們不僅在乎這個(gè)人說(shuō)了什么,還關(guān)心這個(gè)人說(shuō)的話是如何說(shuō)出來(lái)的,即他/她在說(shuō)話時(shí)的情緒和情感是怎樣的。再進(jìn)一步想,一個(gè)人在說(shuō)話的同時(shí)能夠體現(xiàn)出他/她本身的精神狀態(tài)或認(rèn)知狀況,這其實(shí)是把語(yǔ)音或者語(yǔ)言功能看成是大腦認(rèn)知功能的外化表現(xiàn)。因此,從語(yǔ)音的角度上,我們可以做很多病理上的分析。
另一方面,我們所聽(tīng)到的聲音中不僅包括語(yǔ)音,還包括自然界或我們所處環(huán)境中的一切聲音。很長(zhǎng)一段時(shí)間以來(lái),傳統(tǒng)做語(yǔ)音研究的人會(huì)認(rèn)為這些自然聲音都是“噪聲”,但其實(shí)我們?cè)谔幚硭新?tīng)覺(jué)信息時(shí),每一個(gè)細(xì)小的聲音都提供了極其多的信息。現(xiàn)在我們把這個(gè)領(lǐng)域叫做“豐富音頻分析”,所謂的“豐富”來(lái)源于兩方面,一方面是指人聲會(huì)有很多層次,可以提取到很多信息;另一方面則是指環(huán)境的豐富。我現(xiàn)在想做的研究就是如何把這兩者很好地結(jié)合起來(lái)。
吳夢(mèng)玥:其實(shí)從剛才我們談到的研究?jī)?nèi)容中可以明顯地找到一些相應(yīng)的應(yīng)用場(chǎng)景。比如語(yǔ)音上的分析,尤其是和病理方面相結(jié)合時(shí),在醫(yī)療領(lǐng)域的應(yīng)用場(chǎng)景就非常廣泛。
病理上的語(yǔ)音研究分為幾類,一類與器質(zhì)性障礙有關(guān),比如當(dāng)腺樣體肥大時(shí),可能會(huì)影響整體的氣流,在發(fā)音的過(guò)程中就會(huì)有阻礙,所以這些器質(zhì)性的病變會(huì)引起語(yǔ)音信號(hào)上的不同。因此我們的研究和耳鼻喉科有很多相關(guān)部分,可以通過(guò)一個(gè)人的語(yǔ)音來(lái)判斷他/她嗓音的變化,包括判斷像腺樣體肥大一類的病變,甚至也可以做喉癌的早期預(yù)測(cè)。
人除了說(shuō)話之外,還可以產(chǎn)生其他聲音,有些聲音與器質(zhì)性改變也有關(guān)系,比如鼾聲,現(xiàn)在有很多研究會(huì)通過(guò)檢測(cè)鼾聲來(lái)監(jiān)測(cè)睡眠,或者查看其呼吸系統(tǒng)是否存在問(wèn)題。
此外,在新冠全球性大流行期間也有一些研究,比如通過(guò)一個(gè)人的咳嗽聲來(lái)判斷他/她咳嗽的根因。這些研究不僅可以用于診斷新冠肺炎,也可以放到一個(gè)更廣泛的場(chǎng)景中,尤其是在兒科領(lǐng)域??人允莾和粑到y(tǒng)非常常見(jiàn)的疾病,兒童出現(xiàn)咳嗽癥狀的原因非常多。我們和上海市兒童醫(yī)學(xué)中心進(jìn)行合作,發(fā)明了一種便于兒童攜帶的、可長(zhǎng)期穿戴的設(shè)備,外型像一個(gè)麥克風(fēng)或者一個(gè)紐扣,這樣就可以監(jiān)測(cè)兒童整個(gè)咳嗽過(guò)程的變化,從咳嗽的頻率和咳嗽產(chǎn)生的所有語(yǔ)音逆向推導(dǎo),比如咳嗽的性質(zhì)是干咳還是濕咳,再進(jìn)一步分析是由普通上呼吸道感染引起的咳嗽,還是由某一類肺炎引起的咳嗽。這些都是一些非常明確的應(yīng)用場(chǎng)景。
除了在器質(zhì)性疾病上的應(yīng)用場(chǎng)景,神經(jīng)退行性的疾病或者與情感障礙直接相關(guān)的疾病也可以進(jìn)行語(yǔ)音研究,比如抑郁癥、焦慮癥、帕金森癥以及老年癡呆。在對(duì)老年癡呆的患者進(jìn)行語(yǔ)音分析和比較時(shí),發(fā)現(xiàn)它和抑郁癥、帕金森癥有一定的相似性。一方面大部分老年癡呆患者在很長(zhǎng)時(shí)間內(nèi)會(huì)伴有抑郁的癥狀,另一方面這種疾病和帕金森癥一樣都屬于神經(jīng)退行性疾病,這些疾病之間的內(nèi)部聯(lián)系使我們的系統(tǒng)能在這些場(chǎng)景中得到應(yīng)用。
從其他方面來(lái)說(shuō),還有一個(gè)非常直接的應(yīng)用——嬰兒啼哭的檢測(cè)。比如可以在家里放一個(gè)檢測(cè)器,當(dāng)它收集到小孩哭叫聲時(shí)可以對(duì)哭叫聲進(jìn)行分析,然后判斷孩子的需求是什么。
此外,我們前段時(shí)間和公安機(jī)關(guān)進(jìn)行了合作,在監(jiān)察人口流調(diào)時(shí)如果想知道有誰(shuí)從外地返鄉(xiāng)了,就可以在返鄉(xiāng)人員的家門口安置麥克風(fēng)陣列,幾戶人家可以共用一個(gè)麥克風(fēng)陣列,通過(guò)麥克風(fēng)陣列對(duì)開門關(guān)門聲音的識(shí)別來(lái)判斷是否有人回來(lái)或者進(jìn)出。
這項(xiàng)研究也可以應(yīng)用到確定滴滴乘客的出行安全上,在打車出行時(shí)為了查看乘客的安全,錄音是實(shí)時(shí)開著的,但即使錄音實(shí)時(shí)開著,也沒(méi)有人會(huì)實(shí)時(shí)查看所有的錄音。所以處理錄音的時(shí)候就需要檢測(cè)和判定其中的異常事件,對(duì)是否有人在尖叫、吵架或者求救等情況進(jìn)行檢測(cè),這些都屬于豐富音頻分析里我們所探討的內(nèi)容。
更進(jìn)一步,可以探究如何用完整的自然語(yǔ)言來(lái)描述一段音頻內(nèi)容。比如用ASR可以直接得到一個(gè)語(yǔ)音的翻譯,又比如在現(xiàn)在這個(gè)場(chǎng)景里,用自然語(yǔ)言描述的話,可以描述為“幾個(gè)人在進(jìn)行網(wǎng)絡(luò)會(huì)議研討,其中有哪些具體內(nèi)容”,或者也可以直接描述一段語(yǔ)音為:“有人走過(guò),同時(shí)有鳥在叫……”這些都可以很好地幫助聽(tīng)障人士,即使聽(tīng)不見(jiàn)聲音也能通過(guò)語(yǔ)言文本了解此刻這個(gè)聽(tīng)覺(jué)世界到底在發(fā)生什么。一些手機(jī)廠商已經(jīng)開始進(jìn)行這方面的研究了,旨在可以更進(jìn)一步地滿足聽(tīng)障人士或者弱聽(tīng)人士的需求。
這些是我可以想到的豐富音頻分析直接對(duì)應(yīng)的應(yīng)用場(chǎng)景。
吳夢(mèng)玥:這是一個(gè)非常關(guān)鍵的問(wèn)題,不管是醫(yī)療領(lǐng)域還是環(huán)境聲音領(lǐng)域,相對(duì)于我們研究了很久的語(yǔ)音而言,這部分聲音數(shù)據(jù)還是比較稀缺的。對(duì)于醫(yī)療領(lǐng)域的聲音類型數(shù)據(jù),我們會(huì)和醫(yī)院進(jìn)行合作,但是和醫(yī)院的合作更多是在硬件上發(fā)明、創(chuàng)造或者利用現(xiàn)有的技術(shù)將它改造成更適用于分析應(yīng)用場(chǎng)景的形態(tài),然后采集音頻數(shù)據(jù),之后在實(shí)驗(yàn)室里進(jìn)行分析。
至于環(huán)境音頻的聲音,首先環(huán)境聲音非常多,但它最大的問(wèn)題在于怎么進(jìn)行標(biāo)注。談及標(biāo)注時(shí)又會(huì)引起一些新的研究問(wèn)題的探討,比如是否可以用弱監(jiān)督的方式描述環(huán)境音頻。環(huán)境音頻方面最大的數(shù)據(jù)集是Google在2017年推出的AudioSet,里面包含了527類不一樣的聲音事件,每一條音頻里又包含多個(gè)標(biāo)簽,但其實(shí)沒(méi)辦法很精準(zhǔn)地定位標(biāo)簽,比如一段音頻里第一秒到第三秒有一個(gè)事件,或者第四秒到第八秒還有一個(gè)事件,這種強(qiáng)標(biāo)簽的標(biāo)注方式非常耗時(shí)耗力也耗費(fèi)資源?,F(xiàn)在有一個(gè)段落級(jí)別的標(biāo)注方式。怎樣用弱監(jiān)督的方式先進(jìn)行標(biāo)注,再用強(qiáng)監(jiān)督的方式對(duì)每一幀進(jìn)行標(biāo)注,是我們這個(gè)研究領(lǐng)域里面臨的較大挑戰(zhàn)。
除此之外,我們自己在2018年首次提出了audio caption這個(gè)任務(wù),即怎樣用一段自然語(yǔ)言文本描述音頻內(nèi)容。相較于之前的標(biāo)簽化研究而言,這種方式則更貼近于人類的聽(tīng)覺(jué)感知。
如果剛剛聽(tīng)到一聲巨響,你在描述這件事時(shí)不會(huì)說(shuō)“爆炸聲、分號(hào)、呼救聲、分號(hào)”,而是會(huì)用一個(gè)很自然的句子來(lái)描述,這就是我們希望未來(lái)機(jī)器在做聽(tīng)覺(jué)感知時(shí)能直接輸出的結(jié)果。當(dāng)然,我們創(chuàng)造了這樣一個(gè)新任務(wù)時(shí)同樣需要一個(gè)新的數(shù)據(jù)集進(jìn)行支撐。
總之,我們研究的數(shù)據(jù)要么來(lái)源于真實(shí)場(chǎng)景,比如通過(guò)和醫(yī)院合作或去自然界采集,要么就是在一些基本的數(shù)據(jù)集上發(fā)明一些新的標(biāo)注方式進(jìn)而解決我們當(dāng)下的問(wèn)題。
吳夢(mèng)玥:在前幾年的時(shí)候出現(xiàn)了非常多結(jié)合了視覺(jué)和自然語(yǔ)言的大規(guī)模預(yù)訓(xùn)練模型,但是音頻領(lǐng)域則非常少,很大原因在于數(shù)據(jù)集的缺乏。但在去年,包括我們?cè)趦?nèi),同期有三篇文章中提到的模型都是叫clap,因?yàn)橹癱lip模型是在圖像(imagine)上做caption,我們把圖像換成音頻(audio),所以叫做了clap。
其實(shí)我們的訓(xùn)練方式和原來(lái)的clip非常像,關(guān)鍵是怎樣解決音頻領(lǐng)域里的數(shù)據(jù)集——尤其是和文本對(duì)應(yīng)的數(shù)據(jù)集——從哪來(lái)的問(wèn)題。
一個(gè)方法是可以基于原有audio caption數(shù)據(jù)集訓(xùn)練一個(gè)模型,然后用這個(gè)模型去給其他所有適用的音頻打上尾標(biāo)簽。
在打尾標(biāo)簽之前還有另外一個(gè)方法,可以將離散的標(biāo)簽加進(jìn)來(lái),把它做成一個(gè)引導(dǎo),然后用這些標(biāo)簽去引導(dǎo)audio caption模型,這樣生成的caption本身會(huì)更加符合原來(lái)的音頻內(nèi)容。以這樣的方式對(duì)海量數(shù)據(jù)進(jìn)行尾標(biāo)簽標(biāo)記時(shí),從某種程度上來(lái)說(shuō)已經(jīng)構(gòu)造了一個(gè)音頻和文本對(duì)應(yīng)的數(shù)據(jù)集。
在這個(gè)基礎(chǔ)之上,我們用對(duì)比學(xué)習(xí)(contrastive learning)的方式,比如說(shuō)用兩個(gè)編碼器,一邊輸入音頻一邊輸入文本,再加上一個(gè)對(duì)比損失(contractive loss),這樣訓(xùn)練下來(lái)的預(yù)訓(xùn)練模型在很多和音頻或文本相關(guān)的下游任務(wù)中能獲得較大的性能上的提升。
總之,如果要做預(yù)訓(xùn)練,數(shù)據(jù)的來(lái)源以及數(shù)據(jù)的質(zhì)和量都非常重要。一方面可以訓(xùn)練一個(gè)模型來(lái)標(biāo)記標(biāo)簽,另一方面也可以利用ChatGPT為更多的音頻數(shù)據(jù)生成自然語(yǔ)言描述。
吳夢(mèng)玥:與自然語(yǔ)言處理相比,音頻分析最困難的地方確實(shí)是統(tǒng)籌所有不同音頻的信號(hào)。我們研究中很多數(shù)據(jù)都來(lái)源于真實(shí)場(chǎng)景,因此在醫(yī)院采集聲音時(shí),我們會(huì)規(guī)定統(tǒng)一的型號(hào)或采樣率,從而得到一個(gè)優(yōu)化較好的模型。在最后進(jìn)行模型訓(xùn)練時(shí),我們也會(huì)采用不一樣的方法使得模型有更好的適配性或者魯棒性,比如可能會(huì)進(jìn)行不同噪聲的模擬,或者額外添加一些噪聲,不過(guò)這也使得原本用來(lái)訓(xùn)練的數(shù)據(jù)集變得更復(fù)雜。
如此一來(lái),真實(shí)測(cè)試中可能碰見(jiàn)的任何情況都包含在了原始的訓(xùn)練數(shù)據(jù)集的分布里,但要真正讓這項(xiàng)工作得到實(shí)地應(yīng)用——無(wú)論周圍有什么人、環(huán)境多么嘈雜都可以在真實(shí)世界中實(shí)現(xiàn)如同在實(shí)驗(yàn)室里一樣好的性能——還是比較困難。因此,關(guān)鍵問(wèn)題還是在于我們可接受的在真實(shí)環(huán)境中模型性能的下降范圍是多少。
對(duì)于這個(gè)問(wèn)題,傳統(tǒng)的語(yǔ)音識(shí)別研究中同樣面臨真實(shí)世界的挑戰(zhàn)——在這種非配合式的環(huán)境下,如何得到更好的研究結(jié)果,我們?yōu)榇俗隽撕芏嗯蛧L試,但目前為止這個(gè)問(wèn)題還沒(méi)有被解決。
吳夢(mèng)玥:這個(gè)問(wèn)題非常有意思。如果讓一個(gè)人用語(yǔ)言描述小提琴和大提琴聲音上的差異,或者描述咖啡廳場(chǎng)景和餐廳場(chǎng)景中的聲音有多少差異,人很難描述清楚。但如果向ChatGPT提出這樣的請(qǐng)求,不管是GPT-3.5還是GPT-4,它給出的答案都非常合理,從中可以發(fā)現(xiàn),ChatGPT其實(shí)是通過(guò)強(qiáng)大的文本能力彌補(bǔ)了聲學(xué)編碼器上的不足。所以我們認(rèn)為,在對(duì)環(huán)境聲音的描述上,ChatGPT可能會(huì)比人做得更好。
現(xiàn)在的問(wèn)題關(guān)鍵是要給予ChatGPT怎樣的提示詞(prompt)才能讓它既符合我們的要求和描述習(xí)慣,同時(shí)又能夠精準(zhǔn)地描述聲音中具體的特性。前段時(shí)間,英國(guó)薩里大學(xué)就有一篇這樣的研究,這一研究雖然只在第一步使用ChatGPT來(lái)輔助研究,但是總體上而言,我覺(jué)得這是一個(gè)很有前景的方向。
不過(guò)在語(yǔ)音的模型中,即使使用了ChatGPT也無(wú)法直接把圖像或者語(yǔ)音當(dāng)做素材供給它做多模態(tài)的聯(lián)合訓(xùn)練,后續(xù)可能需要我們?cè)谧约旱膶?shí)驗(yàn)室里進(jìn)行微調(diào)(fine-tune)或者做聯(lián)合訓(xùn)練。不過(guò)這方面確實(shí)存在應(yīng)用場(chǎng)景,ChatGPT目前擁有的對(duì)不一樣模態(tài)信息的理解能力可以輔助我們做信息媒介的部分分析和處理。
吳夢(mèng)玥:ChatGPT的應(yīng)用還是得以文本為媒介,在模型訓(xùn)練的過(guò)程中如果出現(xiàn)了樣本較少的情況時(shí)可以使用ChatGPT對(duì)數(shù)據(jù)進(jìn)行標(biāo)注,尤其在處理非常細(xì)微的情感關(guān)系的差異時(shí)效果很好。除了對(duì)聲音本身的分析外,也可以用ChatGPT做另外的研究,例如讓機(jī)器人模擬醫(yī)生和患者的整個(gè)以對(duì)話為基礎(chǔ)的問(wèn)診場(chǎng)景——用ChatGPT做兩個(gè)模擬器,一個(gè)模仿病人一個(gè)模仿醫(yī)生,然后將它模擬出來(lái)的問(wèn)診情景與真實(shí)的精神科問(wèn)診過(guò)程進(jìn)行對(duì)比,然后就可以探究與真實(shí)場(chǎng)景相比時(shí)ChatGPT在對(duì)自然語(yǔ)言的理解和處理上還有哪些局限。
在我們訓(xùn)練的所有AI模型中,ChatGPT的自然語(yǔ)言理解能力已經(jīng)達(dá)到了極限,接下來(lái)應(yīng)該怎樣用模型實(shí)現(xiàn)和真實(shí)場(chǎng)景效用一樣的人機(jī)問(wèn)診也是我們想結(jié)合ChatGPT進(jìn)行的研究。如果自然語(yǔ)言理解的能力對(duì)于ChatGPT來(lái)說(shuō)已經(jīng)無(wú)法進(jìn)一步提升,那么在自然對(duì)話與模型模擬的對(duì)話間還存在哪些因素上的差異,這些都是我們現(xiàn)在非常關(guān)注的。
吳夢(mèng)玥:目前來(lái)看,其實(shí)不太行。它可以模擬一些比較基礎(chǔ)的案例,但和真實(shí)的應(yīng)用還是有一定的差距。
具體體現(xiàn)在,比如說(shuō)模擬醫(yī)生,ChatGPT和醫(yī)生的問(wèn)話形式或者風(fēng)格有一定的差異,ChatGPT可能會(huì)更書面化,而在平時(shí)問(wèn)診的時(shí)候,為了讓患者放松,醫(yī)生很有可能用的是一些更輕松的、偏口語(yǔ)化的問(wèn)診方式。當(dāng)用ChatGPT模擬患者時(shí),現(xiàn)實(shí)中患者看醫(yī)生的時(shí)候,他/她不會(huì)那么坦白地告訴醫(yī)生一些答案,或者很多患者并不清楚自己的癥狀到底是什么,但是ChatGPT作為一個(gè)這樣的患者時(shí),比如最開始我們讓它加個(gè)抗拒,它可能就抗拒一次兩次,你反方向再問(wèn)一遍的話,它馬上就說(shuō)出來(lái)了,感覺(jué)就像“我有答案,但是因?yàn)槟愀嬖V我不要把這個(gè)答案說(shuō)出來(lái),我就藏兩下”,它和真實(shí)患者之間的心理差距還是非常大的。
所以,我認(rèn)為它可以用來(lái)做一定程度的數(shù)據(jù)增強(qiáng)。但是如果要把這種模擬的數(shù)據(jù)拿來(lái)做完全的訓(xùn)練數(shù)據(jù),可能和實(shí)際應(yīng)用場(chǎng)景的差距太大。
現(xiàn)在對(duì)于ChatGPT的應(yīng)用中可以對(duì)比ChatGPT作為患者所模擬出的數(shù)據(jù)與真實(shí)病人的數(shù)據(jù)間的差異,這部分工作目前已經(jīng)有了初步的結(jié)果,后續(xù)馬上會(huì)發(fā)表出來(lái)。目前可以作出的較直觀的結(jié)論是:如果給ChatGPT設(shè)定了較好的prompt,在患者處于配合的情況下,模擬出的場(chǎng)景可以十分接近真實(shí)問(wèn)診場(chǎng)景,而當(dāng)有患者并不處于配合的狀態(tài)時(shí),對(duì)話會(huì)產(chǎn)生較大的困難,所以差異本身還是取決于機(jī)器人所要模擬的真實(shí)場(chǎng)景的復(fù)雜度。
用ChatGPT可以對(duì)簡(jiǎn)單基礎(chǔ)的問(wèn)診場(chǎng)景進(jìn)行模擬,但和真實(shí)的問(wèn)診應(yīng)用還有一定差距。在真實(shí)問(wèn)診時(shí)為了讓患者放松,醫(yī)生會(huì)使用偏口語(yǔ)化的問(wèn)診方式,而ChatGPT模擬的醫(yī)生問(wèn)診風(fēng)格則偏向于書面化表達(dá);模擬患者時(shí)也有差異,比如患者在面診時(shí)可能不會(huì)坦白地說(shuō)出答案,可能自己也不了解自己的具體癥狀,也可能出現(xiàn)一些前言不搭后語(yǔ)的情況,但是ChatGPT則難以完全模擬這種狀況,例如在模擬患者抗拒回答時(shí)它可能僅會(huì)抗拒一兩次,轉(zhuǎn)換了詢問(wèn)方式它就不再抗拒,所以這和真實(shí)患者之間仍存在非常大的心理差距。我認(rèn)為ChatGPT可以用來(lái)做一定程度的數(shù)據(jù)增強(qiáng),但產(chǎn)生的數(shù)據(jù)與真實(shí)應(yīng)用場(chǎng)景間的差距太大,無(wú)法用作完全的訓(xùn)練數(shù)據(jù)。
吳夢(mèng)玥:比如帕金森疾病是一種神經(jīng)性的退行性疾病,它會(huì)影響大腦中的運(yùn)動(dòng)功能控制(motor control),運(yùn)動(dòng)功能控制不僅影響對(duì)于手腳的控制,還會(huì)影響到說(shuō)話前的準(zhǔn)備階段(speech preparation),在大腦產(chǎn)生“說(shuō)話”的念頭到控制發(fā)聲器官發(fā)聲這兩個(gè)步驟間還存在緩沖過(guò)程,當(dāng)運(yùn)動(dòng)功能控制的部分受到影響后,雖然腦海中已經(jīng)想到了要說(shuō)的詞,但因?yàn)榘l(fā)聲器官在這個(gè)時(shí)刻還沒(méi)有得到控制所以沒(méi)法及時(shí)發(fā)聲。所以很多帕金森患者在發(fā)音時(shí)可能出現(xiàn)發(fā)音不清晰或一直重復(fù)某個(gè)語(yǔ)音的情況,也可能會(huì)在發(fā)聲中出現(xiàn)較長(zhǎng)時(shí)間的停頓作為發(fā)出下一個(gè)語(yǔ)音的準(zhǔn)備。
因此,帕金森患者在聲學(xué)表現(xiàn)上有一些表征,比如說(shuō)話的語(yǔ)速會(huì)變緩,整體的詞匯量會(huì)變少,話語(yǔ)間的停頓時(shí)長(zhǎng)也會(huì)變得更長(zhǎng),對(duì)一個(gè)詞的重復(fù)次數(shù)會(huì)比正常人更多。這些其實(shí)都是可以進(jìn)行量化計(jì)算的特征,將這些量化內(nèi)容加到最后的檢測(cè)模型里,就可以通過(guò)語(yǔ)音去反饋很多和疾病相關(guān)的特征。
吳夢(mèng)玥:國(guó)內(nèi)外的新聞中其實(shí)有對(duì)此類研究應(yīng)用的準(zhǔn)確性的報(bào)道,比如做抑郁癥檢測(cè)中有使用的南加州大學(xué)的數(shù)據(jù)集,用這個(gè)數(shù)據(jù)集做一個(gè)基線(benchmark),經(jīng)過(guò)實(shí)驗(yàn)的調(diào)參后可以得到80%-90%的準(zhǔn)確性,但將它放到真實(shí)場(chǎng)景或近似場(chǎng)景中面對(duì)不同方式采集來(lái)的數(shù)據(jù)時(shí),它的遷移能力還是非常差的。如果不經(jīng)過(guò)任何調(diào)參優(yōu)化對(duì)不同的數(shù)據(jù)集進(jìn)行檢測(cè),可能準(zhǔn)確性就變成了60%-70%。面對(duì)這種情況,一方面可以結(jié)合不一樣的模態(tài)進(jìn)行檢測(cè),另一方面可能需要進(jìn)一步尋找不受環(huán)境因素或者數(shù)據(jù)集因素所影響的特征,最后才能實(shí)現(xiàn)比較魯棒或者可遷移的檢測(cè)方式。
在這過(guò)程中會(huì)產(chǎn)生一定的倫理問(wèn)題。第一個(gè)是這種模型檢測(cè)能否替代醫(yī)生的問(wèn)題。首先,這項(xiàng)技術(shù)本身可以幫助醫(yī)生工作,比如一個(gè)接受治療的人可以通過(guò)心理狀況篩查的小程序查看自己近期的心理狀況,不需要每次復(fù)查都去醫(yī)院面診,這方面可以很大程度上增加診斷的便利性。但即使它在實(shí)驗(yàn)上已經(jīng)達(dá)到了較好的準(zhǔn)確性,其本身也無(wú)法替代醫(yī)生面診的檢測(cè)結(jié)果。
除此之外,之所以強(qiáng)調(diào)使用語(yǔ)音來(lái)進(jìn)行檢測(cè),是因?yàn)楹芏嗥渌矫娴男畔⒈热缒槻啃畔?、步態(tài)等方面涉及的隱私內(nèi)容可能會(huì)比語(yǔ)音涉及的隱私內(nèi)容多,但是語(yǔ)音檢測(cè)仍然會(huì)涉及人的隱私。比如在對(duì)于抑郁癥或其他精神疾病的診斷上更多采取面診的方式,僅僅根據(jù)患者對(duì)自己狀態(tài)的描述來(lái)診斷的話客觀性就會(huì)下降,所以我們?cè)诳紤]是否可以使用可穿戴的設(shè)備對(duì)患者的睡眠、活動(dòng)量等方面進(jìn)行長(zhǎng)期的監(jiān)測(cè),據(jù)此推斷患者實(shí)際的狀況,但這也會(huì)涉及另一類倫理問(wèn)題:醫(yī)生是否有權(quán)利獲取患者日常生活中的生活軌跡來(lái)進(jìn)行病情監(jiān)測(cè)?因此,我認(rèn)為從宏觀角度來(lái)看,醫(yī)療、個(gè)人、公共衛(wèi)生的管理之間都可能存在一定的沖突和矛盾。
技術(shù)本身是向前發(fā)展的,但牽涉制約技術(shù)的因素很多,技術(shù)是否能運(yùn)用到實(shí)際生活中需要考慮的因素還有很多。
吳夢(mèng)玥:我們實(shí)驗(yàn)室之前畢業(yè)的一位博士現(xiàn)在在Google進(jìn)行多語(yǔ)言語(yǔ)音識(shí)別的項(xiàng)目,這個(gè)項(xiàng)目就是希望做到多語(yǔ)言的語(yǔ)音識(shí)別,構(gòu)建出可以對(duì)多個(gè)語(yǔ)言甚至100個(gè)不同語(yǔ)言進(jìn)行識(shí)別的語(yǔ)音識(shí)別系統(tǒng),這其中也利用了聲音和文本間的對(duì)應(yīng)關(guān)系,在說(shuō)話過(guò)程中,音素(phoneme)和語(yǔ)言(character或letter)之間存在很強(qiáng)的對(duì)應(yīng),用音素+時(shí)長(zhǎng)就可以實(shí)現(xiàn)文本和語(yǔ)音間的轉(zhuǎn)換。
豐富音頻的分析中也存在很強(qiáng)的對(duì)應(yīng)關(guān)系,比如“鳥叫”和含有鳥叫聲的一類音頻間有很強(qiáng)的指向性,以逆向利用這種指向性來(lái)進(jìn)行音頻上的編碼,因此,文字與語(yǔ)音的關(guān)系也可以幫助我們進(jìn)行多模態(tài)的對(duì)聲音的理解或分析。
所以我會(huì)認(rèn)為未來(lái)的一個(gè)很有潛力的發(fā)展方向,就是將語(yǔ)言當(dāng)成有更充分知識(shí)的線索來(lái)輔助研究,在與語(yǔ)音相關(guān)的任何研究領(lǐng)域里或許都會(huì)很有幫助。
吳夢(mèng)玥:很早之前有一部科幻電影《她》(her),在電影中每個(gè)人都有一個(gè)視覺(jué)系統(tǒng),人與人之間可以通過(guò)耳機(jī)進(jìn)行對(duì)話,機(jī)器和人之間不存在信息理解的差距,這是我對(duì)未來(lái)通用人工智能功能的一種初步預(yù)想;再比如波士頓動(dòng)力(Boston Dynamics)想做的陪伴型的機(jī)器狗,這也是一個(gè)研究方向。能實(shí)現(xiàn)這些功能的信息處理肯定是多模態(tài)的,如果機(jī)器獲得的信息和人類獲得的信息中間有太大的差距,就沒(méi)辦法幫助人進(jìn)行決策。因此,在技術(shù)上來(lái)說(shuō)模型還存在需要繼續(xù)修正的部分,只有探究到人與機(jī)器人之間的差距再?gòu)浹a(bǔ)這個(gè)差距,才能讓機(jī)器變得與人更相像。
![]()
?圖片來(lái)源:《她》電影。
主人公西奧多·托姆布雷與人工智能助手薩曼莎
現(xiàn)在在人與機(jī)器的交互過(guò)程中,機(jī)器本身更多是以工具的形式存在,當(dāng)它可以不局限于受到刺激才能回答的形式,而是可以主動(dòng)進(jìn)行對(duì)話時(shí),才能使人機(jī)交互(human machine interaction)變成更接近于人與人之間的互動(dòng)(human to human interaction)。
此外,當(dāng)我們知道對(duì)方是機(jī)器人的時(shí)候,你會(huì)不會(huì)對(duì)機(jī)器人說(shuō)“謝謝”或者“抱歉”?
在我們做模擬的過(guò)程中發(fā)現(xiàn),如果醫(yī)生事先知道對(duì)方是由ChatGPT扮演的患者時(shí),醫(yī)生并不會(huì)產(chǎn)生對(duì)“患者”的共情,在診斷過(guò)程中會(huì)更多傾向于通過(guò)走完流程來(lái)確認(rèn)ChatGPT是否演繹出一個(gè)合格的患者;而當(dāng)ChatGPT扮演醫(yī)生來(lái)應(yīng)對(duì)患者時(shí)也是一樣。所以,還需要了解人和人相處與人和機(jī)器相處之間存在哪些差距,探究這種差距同樣是實(shí)現(xiàn)真正通用的人工智能的關(guān)鍵。
吳夢(mèng)玥:我覺(jué)得讓機(jī)器和人更相像,一方面能夠幫助機(jī)器擁有更好的性能,另一方面,當(dāng)機(jī)器擁有了與人相似的種種能力后,人才能與機(jī)器進(jìn)行更自然的溝通,否則人與機(jī)器之間仍然存在著差距。至于我們的研究中是否希望機(jī)器人更像人,這是更大范圍上的倫理上的討論。比如流浪地球中的Moss可能已經(jīng)開始出現(xiàn)自己的意識(shí),意識(shí)的出現(xiàn)對(duì)機(jī)器人來(lái)說(shuō)是一件好事還是壞事,機(jī)器人存在的價(jià)值和意義到底在哪,我想這些會(huì)由哲學(xué)的老師去討論。
如果從技術(shù)上來(lái)說(shuō),我們肯定希望通用人工智能更像人,當(dāng)機(jī)器人擁有了與人相似的能力對(duì)人而言會(huì)有很大幫助,人本身將能夠從很多繁復(fù)的勞動(dòng)中解脫出來(lái)。至于解脫出來(lái)之后的行為能力是會(huì)上升還是下降,這是現(xiàn)在誰(shuí)都沒(méi)有辦法預(yù)計(jì)的結(jié)果。
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論
機(jī)器永遠(yuǎn)無(wú)法超越人腦
值得思索...