?簡化的感覺預(yù)測模型。藍(lán)色箭頭指示如何更新預(yù)測神經(jīng)元,并傳遞到較低的層次結(jié)構(gòu)級別。紅色箭頭指示如何生成預(yù)測誤差并將其進(jìn)給到更高的層次結(jié)構(gòu)級別。圖源:doi:10.3389/fpsyt.2020.557932.

預(yù)測編碼理論相關(guān)研究最早可追溯到視覺加工領(lǐng)域。20世紀(jì)末,Rao和Ballard提出了一種視覺加工的預(yù)測編碼模型:高級視覺區(qū)域會(huì)對低級視覺區(qū)域的活動(dòng)進(jìn)行預(yù)測,低級視覺區(qū)域則反過來向高級視覺區(qū)域傳遞預(yù)測誤差,即未能被預(yù)測的“新奇”信息[2]。通過模擬分析,他們發(fā)現(xiàn)這種簡單的層級架構(gòu)不僅與神經(jīng)解剖學(xué)和生理學(xué)證據(jù)一致,還能解釋一些復(fù)雜的反應(yīng)[1]。

不僅僅是視覺加工,預(yù)測編碼也為感知、注意、學(xué)習(xí)、運(yùn)動(dòng)控制等認(rèn)知功能提供了一種統(tǒng)一的框架。以語言加工為例,預(yù)測編碼理論認(rèn)為,在感知到自然語言的刺激時(shí),大腦會(huì)先發(fā)制人地對于未來會(huì)出現(xiàn)的詞語和句子進(jìn)行預(yù)測。預(yù)測編碼理論得到了多方證據(jù)支持,一方面,許多研究發(fā)現(xiàn)了與句法或語法不一致詞句有關(guān)的電生理信號;另一方面,體現(xiàn)預(yù)測編碼理論的神經(jīng)網(wǎng)絡(luò)語言模型(Neural Network Language Models, NNLM)能有效地解釋由自然語言引發(fā)的大腦活動(dòng)。

為什么使用NNLM能如此有效地預(yù)測大腦對于自然語言的反應(yīng)?一種頗具吸引力的觀點(diǎn)認(rèn)為,語言模型和大腦是相似的,它們在語言認(rèn)知加工方面具有相同的目標(biāo),即對未來即將出現(xiàn)的詞句進(jìn)行預(yù)測。近期,來自德克薩斯大學(xué)奧斯汀分校的Antonello和Huth在Neurobiology of Language發(fā)文,對此觀點(diǎn)提出了質(zhì)疑[3]。

02 神經(jīng)網(wǎng)絡(luò)語言模型

單向的NNLM是一種用于單詞預(yù)測任務(wù)的人工神經(jīng)網(wǎng)絡(luò),能夠基于語料庫,根據(jù)上文信息生成下一個(gè)單詞的概率分布。例如,上文是“they say his father was a f____”,對于f開頭的單詞,NNLM會(huì)預(yù)測一系列候選詞出現(xiàn)的概率,對更有可能出現(xiàn)的詞語(如fisherman)賦予更高的概率[4]。與翻譯、問答等需要標(biāo)注數(shù)據(jù)的任務(wù)相比,NNLM的突出優(yōu)勢在于可使用幾乎所有自然語言文本進(jìn)行訓(xùn)練,擁有學(xué)習(xí)許多不同類文本統(tǒng)計(jì)規(guī)律的能力。

?實(shí)驗(yàn)和分析框架的示意圖。(a)(頂部)在兩個(gè)實(shí)驗(yàn)中,參與者在記錄大腦活動(dòng)時(shí)都聆聽了有聲讀物的連續(xù)錄音。(底部)參與者聽取的文本由深度神經(jīng)網(wǎng)絡(luò)(GPT-2)分析,以量化每個(gè)單詞的上下文概率。使用基于回歸的技術(shù)來估計(jì)(不同級別)語言意外性對連續(xù)記錄中誘發(fā)響應(yīng)的影響。(b)分析的數(shù)據(jù)集:一個(gè)組級的腦電圖數(shù)據(jù)集和一個(gè)單獨(dú)的主題源源定位的MEG數(shù)據(jù)集。圖源:[4]

近些年來,NNLM也催生了一類范式:語言模型微調(diào)(language model fine-tuning)。從已有NNLM中提取出的表征可重新用于其他的語言任務(wù),如識別命名實(shí)體、情感分析等。研究者發(fā)現(xiàn),根據(jù)NNLMs微調(diào)得到的模型,往往比根據(jù)特定任務(wù)從頭開始訓(xùn)練得到的模型表現(xiàn)更優(yōu),微調(diào)后的模型允許使用原始的NNLM學(xué)習(xí)到的語言特征,有助于彌補(bǔ)許多語言任務(wù)訓(xùn)練數(shù)據(jù)的成本問題(即手工標(biāo)注數(shù)據(jù)昂貴且有限)[5]。

?圖源:https://www.ruder.io/

目前,最先進(jìn)的NNLM通常包含一系列結(jié)構(gòu)相同的加工模塊(即transformers),其機(jī)制是點(diǎn)積注意力(dot product attention),有選擇性地加工輸入中的一部分元素。每個(gè)transformer的輸出被稱為隱藏態(tài)(hidden state),是對輸入的編碼表征。NNLM的輸入通常是詞嵌入(word embeddings),通過transformer最終轉(zhuǎn)化為對下一個(gè)單詞的預(yù)測。在評價(jià)NNLM的表現(xiàn)時(shí),研究者常使用困惑度(perplexity)這個(gè)指標(biāo),困惑度越低,意味著模型給實(shí)際的下一個(gè)單詞賦予了越高的概率。

03 神經(jīng)科學(xué)研究中的NNLM

NNLM能夠應(yīng)對許多不同類型的語言任務(wù),因此神經(jīng)科學(xué)家也使用NNLM來預(yù)測大腦對于自然語言的反應(yīng)。研究者建立了使用從語言刺激中導(dǎo)出的特征來預(yù)測大腦對自然語言反應(yīng)的回歸模型,稱之為編碼模型(encoding model)。與使用源于非情景化詞嵌入空間的表征相比,使用NNLM生成的表征的編碼模型表現(xiàn)更好,這樣的編碼模型也被稱為基于語言模型的編碼模型(LM-based encoding model)。

為什么引入語言模型有助于提升編碼模型在預(yù)測大腦反應(yīng)時(shí)的表現(xiàn)?一種流行的假設(shè)認(rèn)為,基于語言模型的編碼模型與大腦有相同的目標(biāo)——對還未出現(xiàn)的單詞進(jìn)行預(yù)測

例如,Schrimpf等人(2021)基于語言理解任務(wù)的三大神經(jīng)數(shù)據(jù)集*,考察了多種NNLM的表現(xiàn)。結(jié)果表明,在預(yù)測大腦對于語句的神經(jīng)反應(yīng)時(shí),最優(yōu)的模型能對幾乎100%的可解釋方差進(jìn)行預(yù)測。此外,他們還發(fā)現(xiàn),模型對于神經(jīng)數(shù)據(jù)、行為數(shù)據(jù)(即閱讀時(shí)間)的擬合結(jié)果與模型在單詞預(yù)測任務(wù)中的準(zhǔn)確性之間存在強(qiáng)相關(guān)。這進(jìn)一步表明,單詞預(yù)測可能是語言認(rèn)知加工的基礎(chǔ)部分[6]

*注:這些數(shù)據(jù)集包含三組神經(jīng)數(shù)據(jù)。1)逐句呈現(xiàn)條件下閱讀話題多樣的短篇文字時(shí)的fMRI數(shù)據(jù)(Pereira, 2018);2)逐詞呈現(xiàn)條件下閱讀語法句法各異的句子時(shí)的ECoG數(shù)據(jù)(Fedorenko, 2016);3)聽時(shí)長約5min的故事時(shí)的fMRI血氧信號時(shí)序數(shù)據(jù)(Blank, 2014)。

Goldstein等人(2021)進(jìn)一步發(fā)現(xiàn),即使去除了簡單的語境和語義信息(如詞義),也能根據(jù)在詞語出現(xiàn)之前的大腦反應(yīng),顯著地預(yù)測出NNLM對未來詞語的表征[7]。類似地,Caucheteux等人(2021)發(fā)現(xiàn),與只使用當(dāng)前語境的信息相比,增加未來詞語的嵌入有助于提升基于語言模型的編碼模型的表現(xiàn)[8]

這些研究結(jié)果都試圖表明,擁有更好的詞語預(yù)測能力的模型也具備更強(qiáng)的編碼能力。我們能否就因此得出“大腦在語言加工時(shí)進(jìn)行了預(yù)測式編碼”的肯定結(jié)論呢?

04 不同于預(yù)測編碼的替代解釋

如果大腦可以對某個(gè)特征進(jìn)行編碼,那么,在其它因素相同的情況下,能和大腦一樣對同樣特征進(jìn)行編碼的模型將比其他模型表現(xiàn)更好。根據(jù)這一邏輯,過往研究反推,既然擁有詞語預(yù)測能力的模型比其他模型在解釋大腦活動(dòng)方面表現(xiàn)更優(yōu),那么大腦也同樣會(huì)對未來的詞語進(jìn)行預(yù)測。

但是,Antonello和Huth對于這一逆命題保持懷疑態(tài)度。他們還指出,現(xiàn)有的研究證據(jù)都是相關(guān)性數(shù)據(jù),無法以此得出“因?yàn)檫M(jìn)行了預(yù)測編碼,所以在預(yù)測詞語時(shí)表現(xiàn)更好”這樣的因果性推論。

為此,他們展開了一項(xiàng)基于fMRI數(shù)據(jù)集使用NNLM的分析研究,并提出了一種不同于預(yù)測編碼理論的解釋——表征普遍性(representational generality)。他們認(rèn)為,基于語言模型的編碼模型捕捉到了某些普遍信息,因此在預(yù)測語言任務(wù)中的大腦反應(yīng)時(shí)表現(xiàn)良好。

研究中使用的數(shù)據(jù)集包含5名健康被試在聽英語博客故事時(shí)的fMRI數(shù)據(jù)(含訓(xùn)練集與測試集)。在預(yù)處理后根據(jù)訓(xùn)練集數(shù)據(jù)生成了97種不同的體素級大腦編碼模型*,使用嶺回歸方法預(yù)測在測試集中大腦的血氧反應(yīng),所有被試的平均表現(xiàn)作為編碼模型的表現(xiàn)指標(biāo)。對于詞語預(yù)測任務(wù),該研究根據(jù)編碼模型的表征與下一個(gè)詞語的GloVe嵌入進(jìn)行了線性回歸,計(jì)算了此回歸模型對下一個(gè)詞語概率分布的預(yù)測與實(shí)際分布之間的交叉熵,并以此作為編碼模型在詞語預(yù)測任務(wù)中的表現(xiàn)指標(biāo)(即困惑度)。

*注:該研究從多種自然語言處理模型中提取了97種語言表征。具體來說,包括3種詞嵌入空間(GloVe、BERT-E和FLAIR)、3種單向語言模型(GPT-2 Small、GPT-2 Medium和Transformer-XL)、2種掩碼雙向語言模型(BERT和ALBERT)、4種常見的可解釋的語言標(biāo)注任務(wù)(命名實(shí)體識別、詞性標(biāo)注、句子分塊和框架語義解析)以及2種機(jī)器翻譯模型(英中和英德)。完整細(xì)節(jié)可在https://doi .org/10.1162/nol_a_00087中進(jìn)行閱讀。

首先,與過往研究一致,該研究也發(fā)現(xiàn)了模型的編碼表現(xiàn)與對下一個(gè)詞語的預(yù)測表現(xiàn)之間存在高相關(guān)(相關(guān)系數(shù)r=0.847)。然而,高相關(guān)可能與模型表征包含的信息能夠普遍適用于多種語言任務(wù)(包括詞語預(yù)測)有關(guān)。

因此,研究進(jìn)一步分析了每種模型表征對其他96種表征的預(yù)測能力,預(yù)測能力越強(qiáng)意味著表征包含的普遍性信息越多。結(jié)果表明,表征的普遍性與編碼表現(xiàn)之間也存在高相關(guān)(相關(guān)系數(shù)r=0.864)。換言之,編碼表現(xiàn)越好的模型其表征普遍性也越高。

最后,研究還探究了每種模型表征對于英德翻譯模型表征的預(yù)測能力,依然得到了高相關(guān)(相關(guān)系數(shù)r=0.780)。該結(jié)果進(jìn)一步說明,面向多種語言任務(wù)的遷移能力,而非預(yù)測能力,才是語言模型表現(xiàn)優(yōu)異的核心原因。

此外,研究還針對GPT-2 Small和GPT-2 Medium兩個(gè)模型進(jìn)行了分析。這些NNLM模型在處理文本信息時(shí),會(huì)將詞語從模型的第一層開始輸入并穿越眾多中間層,在最后一層進(jìn)行下一個(gè)詞的預(yù)測。假如預(yù)測編碼理論成立,那么就應(yīng)該觀察到隨著模型深度加深,編碼與預(yù)測表現(xiàn)都應(yīng)有明顯提升。

考慮位于不同深度的表征的編碼與預(yù)測表現(xiàn),研究發(fā)現(xiàn)語言模型的編碼表現(xiàn)在模型深度的60%到80%之間達(dá)到了峰值,然后在更深入的后期層次中陡然下降;同時(shí),模型對于下一個(gè)詞語的預(yù)測能力,并未隨著到達(dá)最后一層而較中間層有顯著提升??偟膩砜矗@些結(jié)果都未能為預(yù)測編碼理論提供支持。

?GPT-2小型、中型編碼模型隨層深變化的編碼表現(xiàn)。圖源:[3]

05 結(jié)語

自ChatGPT以來,語言模型已經(jīng)進(jìn)入了千家萬戶。對于研究者而言,人工造物能展現(xiàn)出與大腦類似或相同的表現(xiàn)自然是令人欣喜的,但因此推斷人類的大腦也以語言模型的方式加工信息究竟是否合適?Antonello和Huth的這項(xiàng)研究為我們提供了另一可能的解釋:表征普遍性可能才是語言模型表現(xiàn)良好的關(guān)鍵之處。NNLM以廣泛的自然語言文本作為訓(xùn)練集,基于此的編碼模型可能抓住了人類語言中的某些普遍性信息,因而擁有強(qiáng)大的能力以應(yīng)對各類語言任務(wù)(不僅限于詞語預(yù)測)。

Antonello和Huth認(rèn)為作為一種科學(xué)理論,預(yù)測編碼理論只是被解釋為“大腦以預(yù)測作為語言加工的目標(biāo)”顯得太過模糊,缺乏明確的定義和可證偽的表述。

但他們也沒有否定預(yù)測編碼理論。作為一項(xiàng)認(rèn)知理論,預(yù)測編碼理論能夠解釋許多現(xiàn)象,只不過在判斷研究證據(jù)是否能為預(yù)測編碼理論提供支持方面,研究者理應(yīng)更為謹(jǐn)慎些。很多被認(rèn)為支持預(yù)測編碼的證據(jù),即使在沒有預(yù)測編碼的情況下也可能是正確的,本研究提出的表征普遍性便可以用來解釋這些證據(jù)。

未來的研究應(yīng)該尋找能夠明確區(qū)分大腦是否進(jìn)行預(yù)測編碼的獨(dú)特可測量現(xiàn)象。例如,發(fā)現(xiàn)一些自然存在的、以預(yù)測編碼作為語言學(xué)習(xí)目標(biāo)的低級神經(jīng)環(huán)路,或?qū)⒊蔀閺?qiáng)有力的證據(jù)。

參考文獻(xiàn)

[1] Friston, K. (2018). Does predictive coding have a future? Nature Neuroscience, 21(8), 1019–1021. https://doi.org/10.1038/s41593-018-0200-7

[2] Rao, R. P. N., & Ballard, D. H. (1999). Predictive coding in the visual cortex: A functional interpretation of some extra-classical receptive-field effects. Nature Neuroscience, 2(1), 79–87. https://doi.org/10.1038/4580

[3] Antonello, R., & Huth, A. (2024). Predictive Coding or Just Feature Discovery? An Alternative Account of Why Language Models Fit Brain Data. Neurobiology of Language, 5(1), 64–79. https://doi.org/10.1162/nol_a_00087

[4] Heilbron, M., Armeni, K., Schoffelen, J.-M., Hagoort, P., & de Lange, F. P. (2022). A hierarchy of linguistic predictions during natural language comprehension. Proceedings of the National Academy of Sciences, 119(32), e2201968119. https://doi.org/10.1073/pnas.2201968119

[5] Dodge, J., Ilharco, G., Schwartz, R., Farhadi, A., Hajishirzi, H., & Smith, N. (2020). Fine-Tuning Pretrained Language Models: Weight Initializations, Data Orders, and Early Stopping (arXiv:2002.06305). arXiv. https://doi.org/10.48550/arXiv.2002.06305

[6] Schrimpf, M., Blank, I. A., Tuckute, G., Kauf, C., Hosseini, E. A., Kanwisher, N., Tenenbaum, J. B., & Fedorenko, E. (2021). The neural architecture of language: Integrative modeling converges on predictive processing. Proceedings of the National Academy of Sciences, 118(45), e2105646118. https://doi.org/10.1073/pnas.2105646118

[7] Goldstein, A., Zada, Z., Buchnik, E., Schain, M., Price, A., Aubrey, B., Nastase, S. A., Feder, A., Emanuel, D., Cohen, A., Jansen, A., Gazula, H., Choe, G., Rao, A., Kim, S. C., Casto, C., Fanda, L., Doyle, W., Friedman, D., … Hasson, U. (2021). Thinking ahead: Spontaneous prediction in context as a keystone of language in humans and machines. BioRxiv. https://doi.org/10.1101/2020.12.02.403477

[8] Caucheteux, C., Gramfort, A., & King, J.-R. (2021). Long-range and hierarchical language predictions in brains and algorithms (arXiv:2111.14232). arXiv. https://doi.org/10.48550/arXiv.2111.14232

本文系作者 追問nextquestion 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報(bào)

更多

2026-03-28 23:01

澤連斯基稱與中東3國達(dá)成防務(wù)合作協(xié)議,涉聯(lián)合生產(chǎn)無人機(jī)

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi),已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長發(fā)表書面致辭,支持世貿(mào)組織《電子商務(wù)協(xié)定》達(dá)成臨時(shí)實(shí)施安排

2026-03-28 21:54

40余家單位聯(lián)盟,中國最大人形機(jī)器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會(huì)預(yù)判:百億智能體或成新物種,AI推動(dòng)人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市,售價(jià)4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉庫并致烏克蘭人傷亡消息不實(shí)

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國務(wù)卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個(gè)詞的搜索量最高一天達(dá)到7.7萬次,比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國首個(gè)可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動(dòng)2026”在北京啟動(dòng)

2026-03-28 19:03

國務(wù)院食安辦、市場監(jiān)管總局約談相關(guān)地方市級人民政府負(fù)責(zé)人,督辦“3?15”晚會(huì)曝光問題整改

2026-03-28 18:44

飛書 CLI 開源:AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個(gè)月中國創(chuàng)新藥對外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國和菲律賓舉行南海問題雙邊磋商機(jī)制第十一次會(huì)議

2026-03-28 17:30

印尼正式實(shí)施16歲以下社媒禁令,約7000萬人受影響

2026-03-28 17:04

美國加州禁止官員借內(nèi)幕消息在預(yù)測市場牟利

2026-03-28 17:02

北京“超現(xiàn)場”生態(tài)共同體建設(shè)暨全國覆蓋啟動(dòng)

掃描下載App