美女裸体网站久久久,欧美一区二区三区在钱免费

?Jacob, Athul Paul, et al. "The consensus game: Language model generation via equilibrium search." arXiv preprint arXiv:2310.09139 (2023).

“針對這些模型內(nèi)部一致性的研究非常有限，”機器人公司Field AI的首席科學(xué)官Shayegan Omidshafiei說。“這篇論文是第一批巧妙而系統(tǒng)地解決這個問題的論文之一，它為語言模型創(chuàng)建了一個可以自我博弈的游戲。”^[3]

“這確實是一項非常激動人心的研究，”Google Research的研究科學(xué)家Ahmad Beirami說。他指出，多年來，語言模型對提示的響應(yīng)方式一直沒有變化。“麻省理工學(xué)院的研究團隊通過引入博弈機制，為這一流程帶來了全新的范式，可能會催生許多新的應(yīng)用場景。”

將博弈融入研究

這項新的研究利用博弈來提升人工智能，與過去通過游戲來衡量人工智能成功與否的方式形成對比。

例如1997年，IBM的“深藍”計算機擊敗了國際象棋大師Garry Kasparov，這標志著思維機器的一個里程碑。19年后，Google DeepMind的AlphaGo在對戰(zhàn)前圍棋冠軍李世石的五局比賽中贏得四局，揭示了另一個人類不再稱霸的競技場。^[4]此外，機器還在跳棋、雙人撲克及其他零和游戲中超越了人類，這些游戲中一方的勝利必然意味著另一方的失敗。

而對AI研究者來說，更大的挑戰(zhàn)來自于“外交”博弈——這是像約翰·肯尼迪和亨利·基辛格這樣的政治家所喜愛的。這款游戲不僅僅是兩個對手，而是涉及七名玩家，他們的動機難以捉摸。為了獲勝，玩家必須進行談判，建立可以隨時被違背的合作關(guān)系。外交游戲的復(fù)雜性極高，以至于當Meta一個團隊編寫的AI程序Cicero2022年在40場比賽中達到“人類水平”時也表示滿意。雖未擊敗世界冠軍，但該程序在對抗人類參與者中的表現(xiàn)足以排在前10%。

在該項目中，Meta團隊的成員Jacob注意到Cicero依賴語言模型來與其他玩家進行對話。他意識到了尚未開發(fā)的潛能。他表示，團隊的目標是“為這個博弈而構(gòu)建的他們所能做到的最佳語言模型。”如果轉(zhuǎn)而專注于創(chuàng)建能夠最大化提升大型語言模型性能的博弈會怎樣呢？

兩廂情愿的互動

在2023年，Jacob在麻省理工學(xué)院繼續(xù)探索他的研究課題，與Yikang Shen、Gabriele Farina和指導(dǎo)教授Jacob Andreas合作，開發(fā)了一種名為共識博弈的新模式。^[5-7]這個游戲的核心概念是將兩人之間的對話視作一種合作性游戲，其中成功的關(guān)鍵在于聽者是否能理解說話者想要表達的內(nèi)容。具體來說，共識博弈旨在調(diào)和語言模型中負責(zé)生成問題的生成器和處理判別問題的鑒別器兩大系統(tǒng)。

經(jīng)過數(shù)月的起起落落，團隊最終將這一理念發(fā)展成完整的游戲。游戲開始時，生成器首先接收一個問題，這個問題可能來自人類或是預(yù)設(shè)的問題列表。例如：“巴拉克·奧巴馬出生在哪里？”隨后，生成器會收到幾個可能的回答，如檀香山、芝加哥和內(nèi)羅畢，這些答案可能來自人類、列表或是模型自身的搜索。

在給出回答前，生成器還需要根據(jù)一次公平的硬幣拋擲，來決定其回答應(yīng)正確還是錯誤。

如果硬幣正面朝上，生成器則嘗試給出正確答案，并將問題及其選定的答案發(fā)送給鑒別器。如果鑒別器認為生成器有意提供了正確答案，則雙方各獲得一分作為獎勵。

如果硬幣反面朝上，生成器則提供一個錯誤答案。若鑒別器判斷該答案是有意提供的錯誤答案，他們再次各得一分。這樣做的目的是為了鼓勵雙方達成一致。Jacob解釋說：“這就像訓(xùn)練狗狗做動作，做對了就給予獎勵。”

生成器和鑒別器在游戲開始時各自設(shè)定了一些“初始信念”，這些信念以概率分布的形式存在，關(guān)聯(lián)到不同的選擇。例如，基于從互聯(lián)網(wǎng)上獲取的信息，生成器可能認為奧巴馬在檀香山出生的可能性為80%，在芝加哥的可能性為 10%，在內(nèi)羅畢的可能性為5%，其他地方為 5%。

鑒別器可能會有不同的初始概率分布。盡管兩名“玩家”通過達成一致來獲得獎勵，他們?nèi)绻x最初的信念過遠，也會受到懲罰。這種設(shè)置鼓勵他們將對世界的認知——再次通過互聯(lián)網(wǎng)獲得——融入到他們的回答中，這能夠提升模型的準確性。如果沒有這種機制，他們可能會在一個完全錯誤的答案上達成一致，如德里，但仍然能夠得分。

在每個問題上，這兩個系統(tǒng)將進行大約1,000輪的對決。通過這些重復(fù)的游戲，雙方逐步了解對方的信念并調(diào)整自己的策略。

最終，生成器和鑒別器通過逐漸適應(yīng)達到了所謂的納什均衡。這是博弈論中的核心概念，它代表了游戲中的一種平衡狀態(tài)，即任何玩家通過改變策略都無法改善自己的個人結(jié)果。例如，在石頭、剪刀、布游戲中，當玩家均衡地選擇每個選項時表現(xiàn)最佳，而任何其他策略都會導(dǎo)致更差的結(jié)果。

在共識博弈中，這種平衡可以通過多種方式體現(xiàn)。例如，鑒別器可能發(fā)現(xiàn)每次生成器發(fā)送“檀香山”作為奧巴馬出生地時，它都能得分。經(jīng)過反復(fù)的游戲，生成器和鑒別器將學(xué)會通過繼續(xù)這樣做來獲取獎勵，他們也沒有動機去嘗試其他任何事情。這種共識是針對這個問題可能的納什均衡的眾多示例之一。MIT團隊還利用了一種修改版的納什均衡，這種均衡考慮了玩家的先驗信念，有助于確保他們的回答更加貼近現(xiàn)實。

研究人員觀察到的總體效果是，參與這種游戲的語言模型變得更加準確，無論問題如何提出，都更可能給出一致的答案。為了測試共識游戲的效果，團隊對幾個參數(shù)在7億到13億之間的中等規(guī)模語言模型進行了一系列標準問題的測試。這些模型在正確回答的比例上常常超過了未參與游戲的模型，即使是那些參數(shù)高達 540億的大型模型也是如此。參與游戲還提升了模型的內(nèi)部一致性。

原則上，任何LLM都能從與自身進行博弈的過程中獲益，而在標準筆記本電腦上進行的 1,000輪游戲僅需幾毫秒。Omidshafiei指出：“這種方法的一個顯著優(yōu)點是它的計算需求非常低，不需要對基礎(chǔ)語言模型進行訓(xùn)練或修改。”

用語言玩游戲

獲得初步的成功之后，Jacob現(xiàn)在正探索其他將博弈論融入LLM研究的方式。初步的結(jié)果顯示，通過與多個小型模型一同參與一個名為集成博弈的游戲，已經(jīng)表現(xiàn)強大的LLM能夠進一步提升性能。在這個游戲中，主要的LLM至少有一個小模型作為盟友，至少有一個扮演敵對角色。例如，當主要LLM被問及美國總統(tǒng)是誰時，如果其答案與盟友一致，則獲得一分；如果答案與對手不同，也同樣獲得一分。這種與小型模型的互動不僅能提升LLM的性能，而且無需額外訓(xùn)練或更改參數(shù)即可實現(xiàn)。

這只是一個開始。Google DeepMind的研究科學(xué)家 Ian Gemp表示，由于許多情境都可以視為游戲，博弈論的工具可以在多種現(xiàn)實世界的情境中得到應(yīng)用。在他與同事們于2024年2月發(fā)表的一篇論文中，他們研究了需要比簡單問答更復(fù)雜交流的談判場景。“這個項目的主要目標是讓語言模型具備更多的策略性。”

?Gemp, Ian, et al. "States as Strings as Strategies: Steering Language Models with Game-Theoretic Solvers." arXiv preprint arXiv:2402.01704 (2024).

他在一個學(xué)術(shù)會議上討論的一個例子是期刊或會議的論文審查過程，尤其在最初提交被嚴厲批評后。鑒于語言模型能夠為不同的回應(yīng)分配概率，研究者可以構(gòu)建類似于撲克游戲的游戲樹，圖示出可選的策略及其可能的結(jié)果。"做到這一點后，你就可以開始計算納什均衡，并對各種反駁進行排序，"Gemp說。模型本質(zhì)上是在指導(dǎo)你應(yīng)該怎樣回應(yīng)。

得益于博弈論的洞察，語言模型未來能夠處理更加復(fù)雜的互動，而不再僅限于問答問題。“未來的重大進展將關(guān)注更長的對話。”Andreas 說。“下一步是讓人工智能與人而非僅與另一個語言模型進行交互。”

Jacob將DeepMind的工作視為共識博弈及集成博弈的補充。“從更高層次看，這兩種方法都是在結(jié)合語言模型與博弈論。”他說，盡管各自的目標略有不同。雖然Gemp小組正通過游戲化常見場景來協(xié)助戰(zhàn)略決策，Jacob表示，“我們正在利用我們對博弈論的了解來改進一般任務(wù)中的語言模型。”

Jacob表示，這些努力目前呈現(xiàn)為“同一棵樹上的兩個分支”——利用兩種不同的方法來增強語言模型的功能。“我們希望在未來一到兩年內(nèi)，這兩個分支能夠得到融合。”

快報

2026-03-28 23:01

澤連斯基稱與中東3國達成防務(wù)合作協(xié)議，涉聯(lián)合生產(chǎn)無人機

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi)，已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長發(fā)表書面致辭，支持世貿(mào)組織《電子商務(wù)協(xié)定》達成臨時實施安排

2026-03-28 21:54

40余家單位聯(lián)盟，中國最大人形機器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會預(yù)判：百億智能體或成新物種，AI推動人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市，售價4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉庫并致烏克蘭人傷亡消息不實

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國務(wù)卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個詞的搜索量最高一天達到7.7萬次，比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國首個可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動2026”在北京啟動

2026-03-28 19:03

國務(wù)院食安辦、市場監(jiān)管總局約談相關(guān)地方市級人民政府負責(zé)人，督辦“3?15”晚會曝光問題整改

2026-03-28 18:44

飛書 CLI 開源：AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個月中國創(chuàng)新藥對外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國和菲律賓舉行南海問題雙邊磋商機制第十一次會議

2026-03-28 17:30

印尼正式實施16歲以下社媒禁令，約7000萬人受影響

2026-03-28 17:04

美國加州禁止官員借內(nèi)幕消息在預(yù)測市場牟利

2026-03-28 17:02

北京“超現(xiàn)場”生態(tài)共同體建設(shè)暨全國覆蓋啟動

將博弈融入研究

兩廂情愿的互動

用語言玩游戲

敬原創(chuàng)，有鈦度，得贊賞

敬原創(chuàng)，有鈦度，得贊賞