?Jacob, Athul Paul, et al. "The consensus game: Language model generation via equilibrium search." arXiv preprint arXiv:2310.09139 (2023).
“針對這些模型內(nèi)部一致性的研究非常有限,”機器人公司Field AI的首席科學(xué)官Shayegan Omidshafiei說。“這篇論文是第一批巧妙而系統(tǒng)地解決這個問題的論文之一,它為語言模型創(chuàng)建了一個可以自我博弈的游戲。”[3]
“這確實是一項非常激動人心的研究,”Google Research的研究科學(xué)家Ahmad Beirami說。他指出,多年來,語言模型對提示的響應(yīng)方式一直沒有變化。“麻省理工學(xué)院的研究團隊通過引入博弈機制,為這一流程帶來了全新的范式,可能會催生許多新的應(yīng)用場景。”
這項新的研究利用博弈來提升人工智能,與過去通過游戲來衡量人工智能成功與否的方式形成對比。
例如1997年,IBM的“深藍”計算機擊敗了國際象棋大師Garry Kasparov,這標志著思維機器的一個里程碑。19年后,Google DeepMind的AlphaGo在對戰(zhàn)前圍棋冠軍李世石的五局比賽中贏得四局,揭示了另一個人類不再稱霸的競技場。[4]此外,機器還在跳棋、雙人撲克及其他零和游戲中超越了人類,這些游戲中一方的勝利必然意味著另一方的失敗。
而對AI研究者來說,更大的挑戰(zhàn)來自于“外交”博弈——這是像約翰·肯尼迪和亨利·基辛格這樣的政治家所喜愛的。這款游戲不僅僅是兩個對手,而是涉及七名玩家,他們的動機難以捉摸。為了獲勝,玩家必須進行談判,建立可以隨時被違背的合作關(guān)系。外交游戲的復(fù)雜性極高,以至于當Meta一個團隊編寫的AI程序Cicero2022年在40場比賽中達到“人類水平”時也表示滿意。雖未擊敗世界冠軍,但該程序在對抗人類參與者中的表現(xiàn)足以排在前10%。
在該項目中,Meta團隊的成員Jacob注意到Cicero依賴語言模型來與其他玩家進行對話。他意識到了尚未開發(fā)的潛能。他表示,團隊的目標是“為這個博弈而構(gòu)建的他們所能做到的最佳語言模型。”如果轉(zhuǎn)而專注于創(chuàng)建能夠最大化提升大型語言模型性能的博弈會怎樣呢?
在2023年,Jacob在麻省理工學(xué)院繼續(xù)探索他的研究課題,與Yikang Shen、Gabriele Farina和指導(dǎo)教授Jacob Andreas合作,開發(fā)了一種名為共識博弈的新模式。[5-7]這個游戲的核心概念是將兩人之間的對話視作一種合作性游戲,其中成功的關(guān)鍵在于聽者是否能理解說話者想要表達的內(nèi)容。具體來說,共識博弈旨在調(diào)和語言模型中負責(zé)生成問題的生成器和處理判別問題的鑒別器兩大系統(tǒng)。
經(jīng)過數(shù)月的起起落落,團隊最終將這一理念發(fā)展成完整的游戲。游戲開始時,生成器首先接收一個問題,這個問題可能來自人類或是預(yù)設(shè)的問題列表。例如:“巴拉克·奧巴馬出生在哪里?”隨后,生成器會收到幾個可能的回答,如檀香山、芝加哥和內(nèi)羅畢,這些答案可能來自人類、列表或是模型自身的搜索。
在給出回答前,生成器還需要根據(jù)一次公平的硬幣拋擲,來決定其回答應(yīng)正確還是錯誤。
如果硬幣正面朝上,生成器則嘗試給出正確答案,并將問題及其選定的答案發(fā)送給鑒別器。如果鑒別器認為生成器有意提供了正確答案,則雙方各獲得一分作為獎勵。
如果硬幣反面朝上,生成器則提供一個錯誤答案。若鑒別器判斷該答案是有意提供的錯誤答案,他們再次各得一分。這樣做的目的是為了鼓勵雙方達成一致。Jacob解釋說:“這就像訓(xùn)練狗狗做動作,做對了就給予獎勵。”
生成器和鑒別器在游戲開始時各自設(shè)定了一些“初始信念”,這些信念以概率分布的形式存在,關(guān)聯(lián)到不同的選擇。例如,基于從互聯(lián)網(wǎng)上獲取的信息,生成器可能認為奧巴馬在檀香山出生的可能性為80%,在芝加哥的可能性為 10%,在內(nèi)羅畢的可能性為5%,其他地方為 5%。
鑒別器可能會有不同的初始概率分布。盡管兩名“玩家”通過達成一致來獲得獎勵,他們?nèi)绻x最初的信念過遠,也會受到懲罰。這種設(shè)置鼓勵他們將對世界的認知——再次通過互聯(lián)網(wǎng)獲得——融入到他們的回答中,這能夠提升模型的準確性。如果沒有這種機制,他們可能會在一個完全錯誤的答案上達成一致,如德里,但仍然能夠得分。
![]()
?圖源:Matt Chinworth
在每個問題上,這兩個系統(tǒng)將進行大約1,000輪的對決。通過這些重復(fù)的游戲,雙方逐步了解對方的信念并調(diào)整自己的策略。
最終,生成器和鑒別器通過逐漸適應(yīng)達到了所謂的納什均衡。這是博弈論中的核心概念,它代表了游戲中的一種平衡狀態(tài),即任何玩家通過改變策略都無法改善自己的個人結(jié)果。例如,在石頭、剪刀、布游戲中,當玩家均衡地選擇每個選項時表現(xiàn)最佳,而任何其他策略都會導(dǎo)致更差的結(jié)果。
在共識博弈中,這種平衡可以通過多種方式體現(xiàn)。例如,鑒別器可能發(fā)現(xiàn)每次生成器發(fā)送“檀香山”作為奧巴馬出生地時,它都能得分。經(jīng)過反復(fù)的游戲,生成器和鑒別器將學(xué)會通過繼續(xù)這樣做來獲取獎勵,他們也沒有動機去嘗試其他任何事情。這種共識是針對這個問題可能的納什均衡的眾多示例之一。MIT團隊還利用了一種修改版的納什均衡,這種均衡考慮了玩家的先驗信念,有助于確保他們的回答更加貼近現(xiàn)實。
研究人員觀察到的總體效果是,參與這種游戲的語言模型變得更加準確,無論問題如何提出,都更可能給出一致的答案。為了測試共識游戲的效果,團隊對幾個參數(shù)在7億到13億之間的中等規(guī)模語言模型進行了一系列標準問題的測試。這些模型在正確回答的比例上常常超過了未參與游戲的模型,即使是那些參數(shù)高達 540億的大型模型也是如此。參與游戲還提升了模型的內(nèi)部一致性。
原則上,任何LLM都能從與自身進行博弈的過程中獲益,而在標準筆記本電腦上進行的 1,000輪游戲僅需幾毫秒。Omidshafiei指出:“這種方法的一個顯著優(yōu)點是它的計算需求非常低,不需要對基礎(chǔ)語言模型進行訓(xùn)練或修改。”
獲得初步的成功之后,Jacob現(xiàn)在正探索其他將博弈論融入LLM研究的方式。初步的結(jié)果顯示,通過與多個小型模型一同參與一個名為集成博弈的游戲,已經(jīng)表現(xiàn)強大的LLM能夠進一步提升性能。在這個游戲中,主要的LLM至少有一個小模型作為盟友,至少有一個扮演敵對角色。例如,當主要LLM被問及美國總統(tǒng)是誰時,如果其答案與盟友一致,則獲得一分;如果答案與對手不同,也同樣獲得一分。這種與小型模型的互動不僅能提升LLM的性能,而且無需額外訓(xùn)練或更改參數(shù)即可實現(xiàn)。
這只是一個開始。Google DeepMind的研究科學(xué)家 Ian Gemp表示,由于許多情境都可以視為游戲,博弈論的工具可以在多種現(xiàn)實世界的情境中得到應(yīng)用。在他與同事們于2024年2月發(fā)表的一篇論文中,他們研究了需要比簡單問答更復(fù)雜交流的談判場景。“這個項目的主要目標是讓語言模型具備更多的策略性。”
![]()
?Gemp, Ian, et al. "States as Strings as Strategies: Steering Language Models with Game-Theoretic Solvers." arXiv preprint arXiv:2402.01704 (2024).
他在一個學(xué)術(shù)會議上討論的一個例子是期刊或會議的論文審查過程,尤其在最初提交被嚴厲批評后。鑒于語言模型能夠為不同的回應(yīng)分配概率,研究者可以構(gòu)建類似于撲克游戲的游戲樹,圖示出可選的策略及其可能的結(jié)果。"做到這一點后,你就可以開始計算納什均衡,并對各種反駁進行排序,"Gemp說。模型本質(zhì)上是在指導(dǎo)你應(yīng)該怎樣回應(yīng)。
得益于博弈論的洞察,語言模型未來能夠處理更加復(fù)雜的互動,而不再僅限于問答問題。“未來的重大進展將關(guān)注更長的對話。”Andreas 說。“下一步是讓人工智能與人而非僅與另一個語言模型進行交互。”
Jacob將DeepMind的工作視為共識博弈及集成博弈的補充。“從更高層次看,這兩種方法都是在結(jié)合語言模型與博弈論。”他說,盡管各自的目標略有不同。雖然Gemp小組正通過游戲化常見場景來協(xié)助戰(zhàn)略決策,Jacob表示,“我們正在利用我們對博弈論的了解來改進一般任務(wù)中的語言模型。”
Jacob表示,這些努力目前呈現(xiàn)為“同一棵樹上的兩個分支”——利用兩種不同的方法來增強語言模型的功能。“我們希望在未來一到兩年內(nèi),這兩個分支能夠得到融合。”
參考文獻:
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論