9丨欧美熟妇在线,国产嫩草aV日欧内射,色七七成人AV影院

聲音是人類社會(huì)重要的交流媒介，它不僅可以傳情達(dá)意，還可以反映人的身體狀況。

在本期《追問(wèn)專訪》中，上海交通大學(xué)計(jì)算機(jī)科學(xué)與工程系吳夢(mèng)玥老師將帶我們一起進(jìn)入語(yǔ)音世界，從多模態(tài)互動(dòng)到醫(yī)療應(yīng)用，共同探索聲音的奧秘。歡迎收聽(tīng)Podcast。

請(qǐng)介紹一下您的研究背景。為何會(huì)對(duì)這個(gè)研究領(lǐng)域感興趣？

吳夢(mèng)玥：我現(xiàn)在的主要研究方向是豐富音頻分析。當(dāng)我們聽(tīng)某種聲音的時(shí)候，如果是在聽(tīng)一種語(yǔ)言，我們不僅在乎這個(gè)人說(shuō)了什么，還關(guān)心這個(gè)人說(shuō)的話是如何說(shuō)出來(lái)的，即他/她在說(shuō)話時(shí)的情緒和情感是怎樣的。再進(jìn)一步想，一個(gè)人在說(shuō)話的同時(shí)能夠體現(xiàn)出他/她本身的精神狀態(tài)或認(rèn)知狀況，這其實(shí)是把語(yǔ)音或者語(yǔ)言功能看成是大腦認(rèn)知功能的外化表現(xiàn)。因此，從語(yǔ)音的角度上，我們可以做很多病理上的分析。

另一方面，我們所聽(tīng)到的聲音中不僅包括語(yǔ)音，還包括自然界或我們所處環(huán)境中的一切聲音。很長(zhǎng)一段時(shí)間以來(lái)，傳統(tǒng)做語(yǔ)音研究的人會(huì)認(rèn)為這些自然聲音都是“噪聲”，但其實(shí)我們?cè)谔幚硭新?tīng)覺(jué)信息時(shí)，每一個(gè)細(xì)小的聲音都提供了極其多的信息。現(xiàn)在我們把這個(gè)領(lǐng)域叫做“豐富音頻分析”，所謂的“豐富”來(lái)源于兩方面，一方面是指人聲會(huì)有很多層次，可以提取到很多信息；另一方面則是指環(huán)境的豐富。我現(xiàn)在想做的研究就是如何把這兩者很好地結(jié)合起來(lái)。

豐富音頻分析有哪些應(yīng)用場(chǎng)景呢？

吳夢(mèng)玥：其實(shí)從剛才我們談到的研究?jī)?nèi)容中可以明顯地找到一些相應(yīng)的應(yīng)用場(chǎng)景。比如語(yǔ)音上的分析，尤其是和病理方面相結(jié)合時(shí)，在醫(yī)療領(lǐng)域的應(yīng)用場(chǎng)景就非常廣泛。

病理上的語(yǔ)音研究分為幾類，一類與器質(zhì)性障礙有關(guān)，比如當(dāng)腺樣體肥大時(shí)，可能會(huì)影響整體的氣流，在發(fā)音的過(guò)程中就會(huì)有阻礙，所以這些器質(zhì)性的病變會(huì)引起語(yǔ)音信號(hào)上的不同。因此我們的研究和耳鼻喉科有很多相關(guān)部分，可以通過(guò)一個(gè)人的語(yǔ)音來(lái)判斷他/她嗓音的變化，包括判斷像腺樣體肥大一類的病變，甚至也可以做喉癌的早期預(yù)測(cè)。

人除了說(shuō)話之外，還可以產(chǎn)生其他聲音，有些聲音與器質(zhì)性改變也有關(guān)系，比如鼾聲，現(xiàn)在有很多研究會(huì)通過(guò)檢測(cè)鼾聲來(lái)監(jiān)測(cè)睡眠，或者查看其呼吸系統(tǒng)是否存在問(wèn)題。

此外，在新冠全球性大流行期間也有一些研究，比如通過(guò)一個(gè)人的咳嗽聲來(lái)判斷他/她咳嗽的根因。這些研究不僅可以用于診斷新冠肺炎，也可以放到一個(gè)更廣泛的場(chǎng)景中，尤其是在兒科領(lǐng)域?？人允莾和粑到y(tǒng)非常常見(jiàn)的疾病，兒童出現(xiàn)咳嗽癥狀的原因非常多。我們和上海市兒童醫(yī)學(xué)中心進(jìn)行合作，發(fā)明了一種便于兒童攜帶的、可長(zhǎng)期穿戴的設(shè)備，外型像一個(gè)麥克風(fēng)或者一個(gè)紐扣，這樣就可以監(jiān)測(cè)兒童整個(gè)咳嗽過(guò)程的變化，從咳嗽的頻率和咳嗽產(chǎn)生的所有語(yǔ)音逆向推導(dǎo)，比如咳嗽的性質(zhì)是干咳還是濕咳，再進(jìn)一步分析是由普通上呼吸道感染引起的咳嗽，還是由某一類肺炎引起的咳嗽。這些都是一些非常明確的應(yīng)用場(chǎng)景。

除了在器質(zhì)性疾病上的應(yīng)用場(chǎng)景，神經(jīng)退行性的疾病或者與情感障礙直接相關(guān)的疾病也可以進(jìn)行語(yǔ)音研究，比如抑郁癥、焦慮癥、帕金森癥以及老年癡呆。在對(duì)老年癡呆的患者進(jìn)行語(yǔ)音分析和比較時(shí)，發(fā)現(xiàn)它和抑郁癥、帕金森癥有一定的相似性。一方面大部分老年癡呆患者在很長(zhǎng)時(shí)間內(nèi)會(huì)伴有抑郁的癥狀，另一方面這種疾病和帕金森癥一樣都屬于神經(jīng)退行性疾病，這些疾病之間的內(nèi)部聯(lián)系使我們的系統(tǒng)能在這些場(chǎng)景中得到應(yīng)用。

從其他方面來(lái)說(shuō)，還有一個(gè)非常直接的應(yīng)用——嬰兒啼哭的檢測(cè)。比如可以在家里放一個(gè)檢測(cè)器，當(dāng)它收集到小孩哭叫聲時(shí)可以對(duì)哭叫聲進(jìn)行分析，然后判斷孩子的需求是什么。

此外，我們前段時(shí)間和公安機(jī)關(guān)進(jìn)行了合作，在監(jiān)察人口流調(diào)時(shí)如果想知道有誰(shuí)從外地返鄉(xiāng)了，就可以在返鄉(xiāng)人員的家門口安置麥克風(fēng)陣列，幾戶人家可以共用一個(gè)麥克風(fēng)陣列，通過(guò)麥克風(fēng)陣列對(duì)開門關(guān)門聲音的識(shí)別來(lái)判斷是否有人回來(lái)或者進(jìn)出。

這項(xiàng)研究也可以應(yīng)用到確定滴滴乘客的出行安全上，在打車出行時(shí)為了查看乘客的安全，錄音是實(shí)時(shí)開著的，但即使錄音實(shí)時(shí)開著，也沒(méi)有人會(huì)實(shí)時(shí)查看所有的錄音。所以處理錄音的時(shí)候就需要檢測(cè)和判定其中的異常事件，對(duì)是否有人在尖叫、吵架或者求救等情況進(jìn)行檢測(cè)，這些都屬于豐富音頻分析里我們所探討的內(nèi)容。

更進(jìn)一步，可以探究如何用完整的自然語(yǔ)言來(lái)描述一段音頻內(nèi)容。比如用ASR可以直接得到一個(gè)語(yǔ)音的翻譯，又比如在現(xiàn)在這個(gè)場(chǎng)景里，用自然語(yǔ)言描述的話，可以描述為“幾個(gè)人在進(jìn)行網(wǎng)絡(luò)會(huì)議研討，其中有哪些具體內(nèi)容”，或者也可以直接描述一段語(yǔ)音為：“有人走過(guò)，同時(shí)有鳥在叫……”這些都可以很好地幫助聽(tīng)障人士，即使聽(tīng)不見(jiàn)聲音也能通過(guò)語(yǔ)言文本了解此刻這個(gè)聽(tīng)覺(jué)世界到底在發(fā)生什么。一些手機(jī)廠商已經(jīng)開始進(jìn)行這方面的研究了，旨在可以更進(jìn)一步地滿足聽(tīng)障人士或者弱聽(tīng)人士的需求。

這些是我可以想到的豐富音頻分析直接對(duì)應(yīng)的應(yīng)用場(chǎng)景。

在研究過(guò)程中，數(shù)據(jù)是一切的基礎(chǔ)。您主要使用哪些類型的數(shù)據(jù)？又是如何收集和分析這些數(shù)據(jù)的呢？

吳夢(mèng)玥：這是一個(gè)非常關(guān)鍵的問(wèn)題，不管是醫(yī)療領(lǐng)域還是環(huán)境聲音領(lǐng)域，相對(duì)于我們研究了很久的語(yǔ)音而言，這部分聲音數(shù)據(jù)還是比較稀缺的。對(duì)于醫(yī)療領(lǐng)域的聲音類型數(shù)據(jù)，我們會(huì)和醫(yī)院進(jìn)行合作，但是和醫(yī)院的合作更多是在硬件上發(fā)明、創(chuàng)造或者利用現(xiàn)有的技術(shù)將它改造成更適用于分析應(yīng)用場(chǎng)景的形態(tài)，然后采集音頻數(shù)據(jù)，之后在實(shí)驗(yàn)室里進(jìn)行分析。

至于環(huán)境音頻的聲音，首先環(huán)境聲音非常多，但它最大的問(wèn)題在于怎么進(jìn)行標(biāo)注。談及標(biāo)注時(shí)又會(huì)引起一些新的研究問(wèn)題的探討，比如是否可以用弱監(jiān)督的方式描述環(huán)境音頻。環(huán)境音頻方面最大的數(shù)據(jù)集是Google在2017年推出的AudioSet，里面包含了527類不一樣的聲音事件，每一條音頻里又包含多個(gè)標(biāo)簽，但其實(shí)沒(méi)辦法很精準(zhǔn)地定位標(biāo)簽，比如一段音頻里第一秒到第三秒有一個(gè)事件，或者第四秒到第八秒還有一個(gè)事件，這種強(qiáng)標(biāo)簽的標(biāo)注方式非常耗時(shí)耗力也耗費(fèi)資源?，F(xiàn)在有一個(gè)段落級(jí)別的標(biāo)注方式。怎樣用弱監(jiān)督的方式先進(jìn)行標(biāo)注，再用強(qiáng)監(jiān)督的方式對(duì)每一幀進(jìn)行標(biāo)注，是我們這個(gè)研究領(lǐng)域里面臨的較大挑戰(zhàn)。

除此之外，我們自己在2018年首次提出了audio caption這個(gè)任務(wù)，即怎樣用一段自然語(yǔ)言文本描述音頻內(nèi)容。相較于之前的標(biāo)簽化研究而言，這種方式則更貼近于人類的聽(tīng)覺(jué)感知。

如果剛剛聽(tīng)到一聲巨響，你在描述這件事時(shí)不會(huì)說(shuō)“爆炸聲、分號(hào)、呼救聲、分號(hào)”，而是會(huì)用一個(gè)很自然的句子來(lái)描述，這就是我們希望未來(lái)機(jī)器在做聽(tīng)覺(jué)感知時(shí)能直接輸出的結(jié)果。當(dāng)然，我們創(chuàng)造了這樣一個(gè)新任務(wù)時(shí)同樣需要一個(gè)新的數(shù)據(jù)集進(jìn)行支撐。

總之，我們研究的數(shù)據(jù)要么來(lái)源于真實(shí)場(chǎng)景，比如通過(guò)和醫(yī)院合作或去自然界采集，要么就是在一些基本的數(shù)據(jù)集上發(fā)明一些新的標(biāo)注方式進(jìn)而解決我們當(dāng)下的問(wèn)題。

您近期的一項(xiàng)研究中提到了一個(gè)叫clap的模型，用于訓(xùn)練這樣的模型的關(guān)鍵數(shù)據(jù)集有哪些？以及它們是如何構(gòu)建的？

吳夢(mèng)玥：在前幾年的時(shí)候出現(xiàn)了非常多結(jié)合了視覺(jué)和自然語(yǔ)言的大規(guī)模預(yù)訓(xùn)練模型，但是音頻領(lǐng)域則非常少，很大原因在于數(shù)據(jù)集的缺乏。但在去年，包括我們?cè)趦?nèi)，同期有三篇文章中提到的模型都是叫clap，因?yàn)橹癱lip模型是在圖像（imagine）上做caption，我們把圖像換成音頻（audio），所以叫做了clap。

其實(shí)我們的訓(xùn)練方式和原來(lái)的clip非常像，關(guān)鍵是怎樣解決音頻領(lǐng)域里的數(shù)據(jù)集——尤其是和文本對(duì)應(yīng)的數(shù)據(jù)集——從哪來(lái)的問(wèn)題。

一個(gè)方法是可以基于原有audio caption數(shù)據(jù)集訓(xùn)練一個(gè)模型，然后用這個(gè)模型去給其他所有適用的音頻打上尾標(biāo)簽。

在打尾標(biāo)簽之前還有另外一個(gè)方法，可以將離散的標(biāo)簽加進(jìn)來(lái)，把它做成一個(gè)引導(dǎo)，然后用這些標(biāo)簽去引導(dǎo)audio caption模型，這樣生成的caption本身會(huì)更加符合原來(lái)的音頻內(nèi)容。以這樣的方式對(duì)海量數(shù)據(jù)進(jìn)行尾標(biāo)簽標(biāo)記時(shí)，從某種程度上來(lái)說(shuō)已經(jīng)構(gòu)造了一個(gè)音頻和文本對(duì)應(yīng)的數(shù)據(jù)集。

在這個(gè)基礎(chǔ)之上，我們用對(duì)比學(xué)習(xí)（contrastive learning）的方式，比如說(shuō)用兩個(gè)編碼器，一邊輸入音頻一邊輸入文本，再加上一個(gè)對(duì)比損失（contractive loss），這樣訓(xùn)練下來(lái)的預(yù)訓(xùn)練模型在很多和音頻或文本相關(guān)的下游任務(wù)中能獲得較大的性能上的提升。

總之，如果要做預(yù)訓(xùn)練，數(shù)據(jù)的來(lái)源以及數(shù)據(jù)的質(zhì)和量都非常重要。一方面可以訓(xùn)練一個(gè)模型來(lái)標(biāo)記標(biāo)簽，另一方面也可以利用ChatGPT為更多的音頻數(shù)據(jù)生成自然語(yǔ)言描述。

很多實(shí)驗(yàn)都面臨“走出實(shí)驗(yàn)室”的問(wèn)題?，F(xiàn)實(shí)世界中，語(yǔ)音信號(hào)可能受到各種因素的干擾，如背景噪聲，說(shuō)話人的口音、語(yǔ)速、語(yǔ)調(diào)變化等，使用不同的錄音設(shè)備和麥克風(fēng)也可能會(huì)導(dǎo)致語(yǔ)音信號(hào)出現(xiàn)差異。那么，實(shí)驗(yàn)室訓(xùn)練的語(yǔ)音識(shí)別系統(tǒng)如何處理真實(shí)世界中的語(yǔ)音信號(hào)？

吳夢(mèng)玥：與自然語(yǔ)言處理相比，音頻分析最困難的地方確實(shí)是統(tǒng)籌所有不同音頻的信號(hào)。我們研究中很多數(shù)據(jù)都來(lái)源于真實(shí)場(chǎng)景，因此在醫(yī)院采集聲音時(shí)，我們會(huì)規(guī)定統(tǒng)一的型號(hào)或采樣率，從而得到一個(gè)優(yōu)化較好的模型。在最后進(jìn)行模型訓(xùn)練時(shí)，我們也會(huì)采用不一樣的方法使得模型有更好的適配性或者魯棒性，比如可能會(huì)進(jìn)行不同噪聲的模擬，或者額外添加一些噪聲，不過(guò)這也使得原本用來(lái)訓(xùn)練的數(shù)據(jù)集變得更復(fù)雜。

如此一來(lái)，真實(shí)測(cè)試中可能碰見(jiàn)的任何情況都包含在了原始的訓(xùn)練數(shù)據(jù)集的分布里，但要真正讓這項(xiàng)工作得到實(shí)地應(yīng)用——無(wú)論周圍有什么人、環(huán)境多么嘈雜都可以在真實(shí)世界中實(shí)現(xiàn)如同在實(shí)驗(yàn)室里一樣好的性能——還是比較困難。因此，關(guān)鍵問(wèn)題還是在于我們可接受的在真實(shí)環(huán)境中模型性能的下降范圍是多少。

對(duì)于這個(gè)問(wèn)題，傳統(tǒng)的語(yǔ)音識(shí)別研究中同樣面臨真實(shí)世界的挑戰(zhàn)——在這種非配合式的環(huán)境下，如何得到更好的研究結(jié)果，我們?yōu)榇俗隽撕芏嗯蛧L試，但目前為止這個(gè)問(wèn)題還沒(méi)有被解決。

您剛才提到在研究中很重要的一環(huán)是對(duì)環(huán)境聲音的標(biāo)注和描述。隨著GPT的到來(lái)，AI模型也成為了科研當(dāng)中有力的工具，包括我們知道GPT-4已能夠?qū)崿F(xiàn)對(duì)多模態(tài)數(shù)據(jù)的分析、理解、整合和輸出。那么它是否能對(duì)環(huán)境聲音的標(biāo)注和描述有所幫助？

吳夢(mèng)玥：這個(gè)問(wèn)題非常有意思。如果讓一個(gè)人用語(yǔ)言描述小提琴和大提琴聲音上的差異，或者描述咖啡廳場(chǎng)景和餐廳場(chǎng)景中的聲音有多少差異，人很難描述清楚。但如果向ChatGPT提出這樣的請(qǐng)求，不管是GPT-3.5還是GPT-4，它給出的答案都非常合理，從中可以發(fā)現(xiàn)，ChatGPT其實(shí)是通過(guò)強(qiáng)大的文本能力彌補(bǔ)了聲學(xué)編碼器上的不足。所以我們認(rèn)為，在對(duì)環(huán)境聲音的描述上，ChatGPT可能會(huì)比人做得更好。

現(xiàn)在的問(wèn)題關(guān)鍵是要給予ChatGPT怎樣的提示詞（prompt）才能讓它既符合我們的要求和描述習(xí)慣，同時(shí)又能夠精準(zhǔn)地描述聲音中具體的特性。前段時(shí)間，英國(guó)薩里大學(xué)就有一篇這樣的研究，這一研究雖然只在第一步使用ChatGPT來(lái)輔助研究，但是總體上而言，我覺(jué)得這是一個(gè)很有前景的方向。

不過(guò)在語(yǔ)音的模型中，即使使用了ChatGPT也無(wú)法直接把圖像或者語(yǔ)音當(dāng)做素材供給它做多模態(tài)的聯(lián)合訓(xùn)練，后續(xù)可能需要我們?cè)谧约旱膶?shí)驗(yàn)室里進(jìn)行微調(diào)（fine-tune）或者做聯(lián)合訓(xùn)練。不過(guò)這方面確實(shí)存在應(yīng)用場(chǎng)景，ChatGPT目前擁有的對(duì)不一樣模態(tài)信息的理解能力可以輔助我們做信息媒介的部分分析和處理。

基于ChatGPT，您的研究團(tuán)隊(duì)還做了哪些嘗試呢？

吳夢(mèng)玥：ChatGPT的應(yīng)用還是得以文本為媒介，在模型訓(xùn)練的過(guò)程中如果出現(xiàn)了樣本較少的情況時(shí)可以使用ChatGPT對(duì)數(shù)據(jù)進(jìn)行標(biāo)注，尤其在處理非常細(xì)微的情感關(guān)系的差異時(shí)效果很好。除了對(duì)聲音本身的分析外，也可以用ChatGPT做另外的研究,例如讓機(jī)器人模擬醫(yī)生和患者的整個(gè)以對(duì)話為基礎(chǔ)的問(wèn)診場(chǎng)景——用ChatGPT做兩個(gè)模擬器，一個(gè)模仿病人一個(gè)模仿醫(yī)生，然后將它模擬出來(lái)的問(wèn)診情景與真實(shí)的精神科問(wèn)診過(guò)程進(jìn)行對(duì)比，然后就可以探究與真實(shí)場(chǎng)景相比時(shí)ChatGPT在對(duì)自然語(yǔ)言的理解和處理上還有哪些局限。

在我們訓(xùn)練的所有AI模型中，ChatGPT的自然語(yǔ)言理解能力已經(jīng)達(dá)到了極限，接下來(lái)應(yīng)該怎樣用模型實(shí)現(xiàn)和真實(shí)場(chǎng)景效用一樣的人機(jī)問(wèn)診也是我們想結(jié)合ChatGPT進(jìn)行的研究。如果自然語(yǔ)言理解的能力對(duì)于ChatGPT來(lái)說(shuō)已經(jīng)無(wú)法進(jìn)一步提升，那么在自然對(duì)話與模型模擬的對(duì)話間還存在哪些因素上的差異，這些都是我們現(xiàn)在非常關(guān)注的。

您提到由ChatGPT來(lái)充當(dāng)醫(yī)生與患者的模擬問(wèn)診場(chǎng)景，那么它所創(chuàng)造的模擬數(shù)據(jù)可否作為真正的研究數(shù)據(jù)使用？基于此的研究結(jié)果是否有意義？

吳夢(mèng)玥：目前來(lái)看，其實(shí)不太行。它可以模擬一些比較基礎(chǔ)的案例，但和真實(shí)的應(yīng)用還是有一定的差距。

具體體現(xiàn)在，比如說(shuō)模擬醫(yī)生，ChatGPT和醫(yī)生的問(wèn)話形式或者風(fēng)格有一定的差異，ChatGPT可能會(huì)更書面化，而在平時(shí)問(wèn)診的時(shí)候，為了讓患者放松，醫(yī)生很有可能用的是一些更輕松的、偏口語(yǔ)化的問(wèn)診方式。當(dāng)用ChatGPT模擬患者時(shí)，現(xiàn)實(shí)中患者看醫(yī)生的時(shí)候，他/她不會(huì)那么坦白地告訴醫(yī)生一些答案，或者很多患者并不清楚自己的癥狀到底是什么，但是ChatGPT作為一個(gè)這樣的患者時(shí)，比如最開始我們讓它加個(gè)抗拒，它可能就抗拒一次兩次，你反方向再問(wèn)一遍的話，它馬上就說(shuō)出來(lái)了，感覺(jué)就像“我有答案，但是因?yàn)槟愀嬖V我不要把這個(gè)答案說(shuō)出來(lái)，我就藏兩下”，它和真實(shí)患者之間的心理差距還是非常大的。

所以，我認(rèn)為它可以用來(lái)做一定程度的數(shù)據(jù)增強(qiáng)。但是如果要把這種模擬的數(shù)據(jù)拿來(lái)做完全的訓(xùn)練數(shù)據(jù)，可能和實(shí)際應(yīng)用場(chǎng)景的差距太大。

現(xiàn)在對(duì)于ChatGPT的應(yīng)用中可以對(duì)比ChatGPT作為患者所模擬出的數(shù)據(jù)與真實(shí)病人的數(shù)據(jù)間的差異，這部分工作目前已經(jīng)有了初步的結(jié)果，后續(xù)馬上會(huì)發(fā)表出來(lái)。目前可以作出的較直觀的結(jié)論是：如果給ChatGPT設(shè)定了較好的prompt，在患者處于配合的情況下，模擬出的場(chǎng)景可以十分接近真實(shí)問(wèn)診場(chǎng)景，而當(dāng)有患者并不處于配合的狀態(tài)時(shí)，對(duì)話會(huì)產(chǎn)生較大的困難，所以差異本身還是取決于機(jī)器人所要模擬的真實(shí)場(chǎng)景的復(fù)雜度。

用ChatGPT可以對(duì)簡(jiǎn)單基礎(chǔ)的問(wèn)診場(chǎng)景進(jìn)行模擬，但和真實(shí)的問(wèn)診應(yīng)用還有一定差距。在真實(shí)問(wèn)診時(shí)為了讓患者放松，醫(yī)生會(huì)使用偏口語(yǔ)化的問(wèn)診方式，而ChatGPT模擬的醫(yī)生問(wèn)診風(fēng)格則偏向于書面化表達(dá)；模擬患者時(shí)也有差異，比如患者在面診時(shí)可能不會(huì)坦白地說(shuō)出答案，可能自己也不了解自己的具體癥狀，也可能出現(xiàn)一些前言不搭后語(yǔ)的情況，但是ChatGPT則難以完全模擬這種狀況，例如在模擬患者抗拒回答時(shí)它可能僅會(huì)抗拒一兩次，轉(zhuǎn)換了詢問(wèn)方式它就不再抗拒，所以這和真實(shí)患者之間仍存在非常大的心理差距。我認(rèn)為ChatGPT可以用來(lái)做一定程度的數(shù)據(jù)增強(qiáng)，但產(chǎn)生的數(shù)據(jù)與真實(shí)應(yīng)用場(chǎng)景間的差距太大，無(wú)法用作完全的訓(xùn)練數(shù)據(jù)。

在前段時(shí)間舉行的“AI助力攻克腦疾病研討會(huì)”上，您提到自己很長(zhǎng)一段時(shí)間都在做基于語(yǔ)言功能來(lái)判斷抑郁癥、帕金森等疾病的研究。語(yǔ)音與腦疾病間有什么關(guān)聯(lián)？如何利用語(yǔ)音檢測(cè)疾??？

吳夢(mèng)玥：比如帕金森疾病是一種神經(jīng)性的退行性疾病，它會(huì)影響大腦中的運(yùn)動(dòng)功能控制（motor control），運(yùn)動(dòng)功能控制不僅影響對(duì)于手腳的控制，還會(huì)影響到說(shuō)話前的準(zhǔn)備階段（speech preparation），在大腦產(chǎn)生“說(shuō)話”的念頭到控制發(fā)聲器官發(fā)聲這兩個(gè)步驟間還存在緩沖過(guò)程，當(dāng)運(yùn)動(dòng)功能控制的部分受到影響后，雖然腦海中已經(jīng)想到了要說(shuō)的詞，但因?yàn)榘l(fā)聲器官在這個(gè)時(shí)刻還沒(méi)有得到控制所以沒(méi)法及時(shí)發(fā)聲。所以很多帕金森患者在發(fā)音時(shí)可能出現(xiàn)發(fā)音不清晰或一直重復(fù)某個(gè)語(yǔ)音的情況，也可能會(huì)在發(fā)聲中出現(xiàn)較長(zhǎng)時(shí)間的停頓作為發(fā)出下一個(gè)語(yǔ)音的準(zhǔn)備。

因此，帕金森患者在聲學(xué)表現(xiàn)上有一些表征，比如說(shuō)話的語(yǔ)速會(huì)變緩，整體的詞匯量會(huì)變少，話語(yǔ)間的停頓時(shí)長(zhǎng)也會(huì)變得更長(zhǎng)，對(duì)一個(gè)詞的重復(fù)次數(shù)會(huì)比正常人更多。這些其實(shí)都是可以進(jìn)行量化計(jì)算的特征，將這些量化內(nèi)容加到最后的檢測(cè)模型里，就可以通過(guò)語(yǔ)音去反饋很多和疾病相關(guān)的特征。

目前基于語(yǔ)音進(jìn)行疾病診斷的準(zhǔn)確性是怎樣的？是否已經(jīng)一些研究已應(yīng)用于醫(yī)療領(lǐng)域中？這其中是否會(huì)存在潛在的倫理問(wèn)題？

吳夢(mèng)玥：國(guó)內(nèi)外的新聞中其實(shí)有對(duì)此類研究應(yīng)用的準(zhǔn)確性的報(bào)道，比如做抑郁癥檢測(cè)中有使用的南加州大學(xué)的數(shù)據(jù)集，用這個(gè)數(shù)據(jù)集做一個(gè)基線（benchmark），經(jīng)過(guò)實(shí)驗(yàn)的調(diào)參后可以得到80%-90%的準(zhǔn)確性，但將它放到真實(shí)場(chǎng)景或近似場(chǎng)景中面對(duì)不同方式采集來(lái)的數(shù)據(jù)時(shí)，它的遷移能力還是非常差的。如果不經(jīng)過(guò)任何調(diào)參優(yōu)化對(duì)不同的數(shù)據(jù)集進(jìn)行檢測(cè)，可能準(zhǔn)確性就變成了60%-70%。面對(duì)這種情況，一方面可以結(jié)合不一樣的模態(tài)進(jìn)行檢測(cè)，另一方面可能需要進(jìn)一步尋找不受環(huán)境因素或者數(shù)據(jù)集因素所影響的特征，最后才能實(shí)現(xiàn)比較魯棒或者可遷移的檢測(cè)方式。

在這過(guò)程中會(huì)產(chǎn)生一定的倫理問(wèn)題。第一個(gè)是這種模型檢測(cè)能否替代醫(yī)生的問(wèn)題。首先，這項(xiàng)技術(shù)本身可以幫助醫(yī)生工作，比如一個(gè)接受治療的人可以通過(guò)心理狀況篩查的小程序查看自己近期的心理狀況，不需要每次復(fù)查都去醫(yī)院面診，這方面可以很大程度上增加診斷的便利性。但即使它在實(shí)驗(yàn)上已經(jīng)達(dá)到了較好的準(zhǔn)確性，其本身也無(wú)法替代醫(yī)生面診的檢測(cè)結(jié)果。

除此之外，之所以強(qiáng)調(diào)使用語(yǔ)音來(lái)進(jìn)行檢測(cè)，是因?yàn)楹芏嗥渌矫娴男畔⒈热缒槻啃畔?、步態(tài)等方面涉及的隱私內(nèi)容可能會(huì)比語(yǔ)音涉及的隱私內(nèi)容多，但是語(yǔ)音檢測(cè)仍然會(huì)涉及人的隱私。比如在對(duì)于抑郁癥或其他精神疾病的診斷上更多采取面診的方式，僅僅根據(jù)患者對(duì)自己狀態(tài)的描述來(lái)診斷的話客觀性就會(huì)下降，所以我們?cè)诳紤]是否可以使用可穿戴的設(shè)備對(duì)患者的睡眠、活動(dòng)量等方面進(jìn)行長(zhǎng)期的監(jiān)測(cè)，據(jù)此推斷患者實(shí)際的狀況，但這也會(huì)涉及另一類倫理問(wèn)題：醫(yī)生是否有權(quán)利獲取患者日常生活中的生活軌跡來(lái)進(jìn)行病情監(jiān)測(cè)？因此，我認(rèn)為從宏觀角度來(lái)看，醫(yī)療、個(gè)人、公共衛(wèi)生的管理之間都可能存在一定的沖突和矛盾。

技術(shù)本身是向前發(fā)展的，但牽涉制約技術(shù)的因素很多，技術(shù)是否能運(yùn)用到實(shí)際生活中需要考慮的因素還有很多。

隨著AI技術(shù)的迅猛發(fā)展，您覺(jué)得未來(lái)語(yǔ)音領(lǐng)域會(huì)有怎樣的突破？

吳夢(mèng)玥：我們實(shí)驗(yàn)室之前畢業(yè)的一位博士現(xiàn)在在Google進(jìn)行多語(yǔ)言語(yǔ)音識(shí)別的項(xiàng)目，這個(gè)項(xiàng)目就是希望做到多語(yǔ)言的語(yǔ)音識(shí)別，構(gòu)建出可以對(duì)多個(gè)語(yǔ)言甚至100個(gè)不同語(yǔ)言進(jìn)行識(shí)別的語(yǔ)音識(shí)別系統(tǒng)，這其中也利用了聲音和文本間的對(duì)應(yīng)關(guān)系，在說(shuō)話過(guò)程中，音素（phoneme）和語(yǔ)言（character或letter）之間存在很強(qiáng)的對(duì)應(yīng)，用音素+時(shí)長(zhǎng)就可以實(shí)現(xiàn)文本和語(yǔ)音間的轉(zhuǎn)換。

豐富音頻的分析中也存在很強(qiáng)的對(duì)應(yīng)關(guān)系，比如“鳥叫”和含有鳥叫聲的一類音頻間有很強(qiáng)的指向性，以逆向利用這種指向性來(lái)進(jìn)行音頻上的編碼，因此，文字與語(yǔ)音的關(guān)系也可以幫助我們進(jìn)行多模態(tài)的對(duì)聲音的理解或分析。

所以我會(huì)認(rèn)為未來(lái)的一個(gè)很有潛力的發(fā)展方向，就是將語(yǔ)言當(dāng)成有更充分知識(shí)的線索來(lái)輔助研究，在與語(yǔ)音相關(guān)的任何研究領(lǐng)域里或許都會(huì)很有幫助。

在ChatGPT問(wèn)世后，您認(rèn)為AGI相關(guān)的通用人工智能下一個(gè)階段將向哪個(gè)方向發(fā)展？最終人工智能是否能進(jìn)化得如同真正的人類一樣？

吳夢(mèng)玥：很早之前有一部科幻電影《她》（her），在電影中每個(gè)人都有一個(gè)視覺(jué)系統(tǒng)，人與人之間可以通過(guò)耳機(jī)進(jìn)行對(duì)話，機(jī)器和人之間不存在信息理解的差距，這是我對(duì)未來(lái)通用人工智能功能的一種初步預(yù)想；再比如波士頓動(dòng)力（Boston Dynamics）想做的陪伴型的機(jī)器狗，這也是一個(gè)研究方向。能實(shí)現(xiàn)這些功能的信息處理肯定是多模態(tài)的，如果機(jī)器獲得的信息和人類獲得的信息中間有太大的差距，就沒(méi)辦法幫助人進(jìn)行決策。因此，在技術(shù)上來(lái)說(shuō)模型還存在需要繼續(xù)修正的部分，只有探究到人與機(jī)器人之間的差距再?gòu)浹a(bǔ)這個(gè)差距，才能讓機(jī)器變得與人更相像。

現(xiàn)在在人與機(jī)器的交互過(guò)程中，機(jī)器本身更多是以工具的形式存在，當(dāng)它可以不局限于受到刺激才能回答的形式，而是可以主動(dòng)進(jìn)行對(duì)話時(shí)，才能使人機(jī)交互（human machine interaction）變成更接近于人與人之間的互動(dòng)（human to human interaction）。

此外，當(dāng)我們知道對(duì)方是機(jī)器人的時(shí)候，你會(huì)不會(huì)對(duì)機(jī)器人說(shuō)“謝謝”或者“抱歉”？

在我們做模擬的過(guò)程中發(fā)現(xiàn)，如果醫(yī)生事先知道對(duì)方是由ChatGPT扮演的患者時(shí)，醫(yī)生并不會(huì)產(chǎn)生對(duì)“患者”的共情，在診斷過(guò)程中會(huì)更多傾向于通過(guò)走完流程來(lái)確認(rèn)ChatGPT是否演繹出一個(gè)合格的患者；而當(dāng)ChatGPT扮演醫(yī)生來(lái)應(yīng)對(duì)患者時(shí)也是一樣。所以，還需要了解人和人相處與人和機(jī)器相處之間存在哪些差距，探究這種差距同樣是實(shí)現(xiàn)真正通用的人工智能的關(guān)鍵。

您認(rèn)為試圖讓機(jī)器和人更相像，到底是一件好事還是一件壞事？

吳夢(mèng)玥：我覺(jué)得讓機(jī)器和人更相像，一方面能夠幫助機(jī)器擁有更好的性能，另一方面，當(dāng)機(jī)器擁有了與人相似的種種能力后，人才能與機(jī)器進(jìn)行更自然的溝通，否則人與機(jī)器之間仍然存在著差距。至于我們的研究中是否希望機(jī)器人更像人，這是更大范圍上的倫理上的討論。比如流浪地球中的Moss可能已經(jīng)開始出現(xiàn)自己的意識(shí)，意識(shí)的出現(xiàn)對(duì)機(jī)器人來(lái)說(shuō)是一件好事還是壞事，機(jī)器人存在的價(jià)值和意義到底在哪，我想這些會(huì)由哲學(xué)的老師去討論。

如果從技術(shù)上來(lái)說(shuō)，我們肯定希望通用人工智能更像人，當(dāng)機(jī)器人擁有了與人相似的能力對(duì)人而言會(huì)有很大幫助，人本身將能夠從很多繁復(fù)的勞動(dòng)中解脫出來(lái)。至于解脫出來(lái)之后的行為能力是會(huì)上升還是下降，這是現(xiàn)在誰(shuí)都沒(méi)有辦法預(yù)計(jì)的結(jié)果。

本文系作者追問(wèn)nextquestion 授權(quán)鈦媒體發(fā)表，并經(jīng)鈦媒體編輯，轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào)，文章內(nèi)容僅供參考、交流、學(xué)習(xí)，不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn)，點(diǎn)擊這里投稿。創(chuàng)業(yè)或融資尋求報(bào)道，點(diǎn)擊這里。

發(fā)表評(píng)論

0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求，請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

把我的心都給你
機(jī)器永遠(yuǎn)無(wú)法超越人腦
回復(fù) 2023.04.28 · via netease
故人你歸來(lái)
值得思索...
回復(fù) 2023.04.28 · via netease

快報(bào)

2026-03-28 23:01

澤連斯基稱與中東3國(guó)達(dá)成防務(wù)合作協(xié)議，涉聯(lián)合生產(chǎn)無(wú)人機(jī)

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi)，已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長(zhǎng)發(fā)表書面致辭，支持世貿(mào)組織《電子商務(wù)協(xié)定》達(dá)成臨時(shí)實(shí)施安排

2026-03-28 21:54

40余家單位聯(lián)盟，中國(guó)最大人形機(jī)器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會(huì)預(yù)判：百億智能體或成新物種，AI推動(dòng)人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市，售價(jià)4.48萬(wàn)-5.48萬(wàn)元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉(cāng)庫(kù)并致烏克蘭人傷亡消息不實(shí)

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國(guó)務(wù)卿和歐盟官員被曝就烏克蘭問(wèn)題激烈交鋒

2026-03-28 19:44

“Token”這個(gè)詞的搜索量最高一天達(dá)到7.7萬(wàn)次，比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國(guó)首個(gè)可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動(dòng)2026”在北京啟動(dòng)

2026-03-28 19:03

國(guó)務(wù)院食安辦、市場(chǎng)監(jiān)管總局約談相關(guān)地方市級(jí)人民政府負(fù)責(zé)人，督辦“3?15”晚會(huì)曝光問(wèn)題整改

2026-03-28 18:44

飛書 CLI 開源：AI 可直連飛書辦公套件

2026-03-28 18:36

馬來(lái)西亞說(shuō)伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個(gè)月中國(guó)創(chuàng)新藥對(duì)外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國(guó)和菲律賓舉行南海問(wèn)題雙邊磋商機(jī)制第十一次會(huì)議

2026-03-28 17:30

印尼正式實(shí)施16歲以下社媒禁令，約7000萬(wàn)人受影響

2026-03-28 17:04

美國(guó)加州禁止官員借內(nèi)幕消息在預(yù)測(cè)市場(chǎng)牟利

2026-03-28 17:02

北京“超現(xiàn)場(chǎng)”生態(tài)共同體建設(shè)暨全國(guó)覆蓋啟動(dòng)

請(qǐng)介紹一下您的研究背景。為何會(huì)對(duì)這個(gè)研究領(lǐng)域感興趣？

豐富音頻分析有哪些應(yīng)用場(chǎng)景呢？

在研究過(guò)程中，數(shù)據(jù)是一切的基礎(chǔ)。您主要使用哪些類型的數(shù)據(jù)？又是如何收集和分析這些數(shù)據(jù)的呢？

您近期的一項(xiàng)研究中提到了一個(gè)叫clap的模型，用于訓(xùn)練這樣的模型的關(guān)鍵數(shù)據(jù)集有哪些？以及它們是如何構(gòu)建的？

基于ChatGPT，您的研究團(tuán)隊(duì)還做了哪些嘗試呢？

您提到由ChatGPT來(lái)充當(dāng)醫(yī)生與患者的模擬問(wèn)診場(chǎng)景，那么它所創(chuàng)造的模擬數(shù)據(jù)可否作為真正的研究數(shù)據(jù)使用？基于此的研究結(jié)果是否有意義？

目前基于語(yǔ)音進(jìn)行疾病診斷的準(zhǔn)確性是怎樣的？是否已經(jīng)一些研究已應(yīng)用于醫(yī)療領(lǐng)域中？這其中是否會(huì)存在潛在的倫理問(wèn)題？

隨著AI技術(shù)的迅猛發(fā)展，您覺(jué)得未來(lái)語(yǔ)音領(lǐng)域會(huì)有怎樣的突破？

在ChatGPT問(wèn)世后，您認(rèn)為AGI相關(guān)的通用人工智能下一個(gè)階段將向哪個(gè)方向發(fā)展？最終人工智能是否能進(jìn)化得如同真正的人類一樣？

您認(rèn)為試圖讓機(jī)器和人更相像，到底是一件好事還是一件壞事？

敬原創(chuàng)，有鈦度，得贊賞

請(qǐng)介紹一下您的研究背景。為何會(huì)對(duì)這個(gè)研究領(lǐng)域感興趣？

豐富音頻分析有哪些應(yīng)用場(chǎng)景呢？

在研究過(guò)程中，數(shù)據(jù)是一切的基礎(chǔ)。您主要使用哪些類型的數(shù)據(jù)？又是如何收集和分析這些數(shù)據(jù)的呢？

您近期的一項(xiàng)研究中提到了一個(gè)叫clap的模型，用于訓(xùn)練這樣的模型的關(guān)鍵數(shù)據(jù)集有哪些？以及它們是如何構(gòu)建的？

基于ChatGPT，您的研究團(tuán)隊(duì)還做了哪些嘗試呢？

您提到由ChatGPT來(lái)充當(dāng)醫(yī)生與患者的模擬問(wèn)診場(chǎng)景，那么它所創(chuàng)造的模擬數(shù)據(jù)可否作為真正的研究數(shù)據(jù)使用？基于此的研究結(jié)果是否有意義？

目前基于語(yǔ)音進(jìn)行疾病診斷的準(zhǔn)確性是怎樣的？是否已經(jīng)一些研究已應(yīng)用于醫(yī)療領(lǐng)域中？這其中是否會(huì)存在潛在的倫理問(wèn)題？

隨著AI技術(shù)的迅猛發(fā)展，您覺(jué)得未來(lái)語(yǔ)音領(lǐng)域會(huì)有怎樣的突破？

在ChatGPT問(wèn)世后，您認(rèn)為AGI相關(guān)的通用人工智能下一個(gè)階段將向哪個(gè)方向發(fā)展？最終人工智能是否能進(jìn)化得如同真正的人類一樣？

您認(rèn)為試圖讓機(jī)器和人更相像，到底是一件好事還是一件壞事？

敬原創(chuàng)，有鈦度，得贊賞