卡耐基梅隆大學(xué)計(jì)算機(jī)系教授、德?lián)銩I之父 Tuomas Sandholm

“人工智能時(shí)代,針對(duì)機(jī)器的算法是機(jī)器學(xué)習(xí),針對(duì)人類(lèi)的算法是博弈論。”這是清華大學(xué)交叉信息研究院青年千人助理教授、博士生導(dǎo)師、計(jì)算經(jīng)濟(jì)學(xué)研究室主任唐平中,在2017年7月20日鈦媒體與杉數(shù)科技聯(lián)合舉辦的“AI大師圓桌會(huì)之AI時(shí)代的博弈與行為分析”活動(dòng)上提出的觀點(diǎn)。

唐平中在加入清華之前,于美國(guó)卡耐基梅隆大學(xué)計(jì)算機(jī)系從事博士后研究工作,師從德?lián)銩I之父Tuomas Sandholm,從事人工智能、電子商務(wù)和機(jī)制設(shè)計(jì)的研究工作。

Tuomas Sandholm是卡耐基梅隆大學(xué)計(jì)算機(jī)系教授,研究興趣包括人工智能、機(jī)制設(shè)計(jì)、優(yōu)化理論、博弈論、電子商務(wù)、多代理系統(tǒng)、自動(dòng)談判及合同等廣泛領(lǐng)域,迄今已經(jīng)發(fā)表450多篇論文,還是Optimized Markets和Strategic Machine兩家公司的創(chuàng)始人。

Tuomas Sandholm 在“AI時(shí)代的博弈與行為分析”圓桌會(huì)上,分享了在他帶領(lǐng)下完成的人工智能系統(tǒng)Libratus(中文名:冷撲大師)及其在今年以來(lái)?yè)魯∪虻轮輷淇耸澜绺呤值慕?jīng)歷。

Tuomas表示,Libratus系統(tǒng)結(jié)合了優(yōu)化的博弈論和機(jī)器學(xué)習(xí)等算法,是迄今為止唯一擊敗人類(lèi)德州撲克世界最頂級(jí)高手的人工智能系統(tǒng),在戰(zhàn)略推理和戰(zhàn)略思維方面達(dá)到了超越人類(lèi)的水平。

與AlphaGo圍棋的完美信息場(chǎng)景不同,德州撲克是典型的非完美信息場(chǎng)景,已經(jīng)挑戰(zhàn)人工智能+博弈論數(shù)十年之久。Tuomas表示,Libratus算法無(wú)應(yīng)用領(lǐng)域限制,可廣泛應(yīng)用到多種商業(yè)與經(jīng)濟(jì)場(chǎng)景中。

在此次圓桌會(huì)上,除了唐平中和Tuomas Sandholm,上海財(cái)經(jīng)大學(xué)教授、奧數(shù)金牌、杉數(shù)科技科學(xué)家何斯邁與上海財(cái)經(jīng)大學(xué)交叉科學(xué)研究院院長(zhǎng)、杉數(shù)科技首席科學(xué)家葛冬冬以及不列顛哥倫比亞大學(xué)(UBC)Sauder商學(xué)院助理教授丁弋川等也進(jìn)行了分享。

博弈AI大時(shí)代的崛起

清華大學(xué)交叉信息研究院青年千人助理教授、博士生導(dǎo)師、計(jì)算經(jīng)濟(jì)學(xué)研究室主任唐平中

有人的地方就有博弈。從囚徒困境到智豬博弈再到美女的硬幣,博弈論一再說(shuō)明一個(gè)道理,就是人類(lèi)的思維不同于機(jī)器,特別由于人類(lèi)的社會(huì)化屬性,但凡有兩個(gè)人以上的地方就充滿著博弈的思想。因?yàn)橛腥说牡胤骄陀懈?jìng)爭(zhēng),有競(jìng)爭(zhēng)就有博弈。

作為數(shù)據(jù)、計(jì)算機(jī)與經(jīng)濟(jì)學(xué)的交叉學(xué)科,博弈論已經(jīng)成為經(jīng)濟(jì)學(xué)的標(biāo)準(zhǔn)分析工具之一,在金融學(xué)、證券學(xué)、生物學(xué)、經(jīng)濟(jì)學(xué)、國(guó)際關(guān)系、計(jì)算機(jī)科學(xué)、政治學(xué)、軍事戰(zhàn)略和其它很多領(lǐng)域都有廣泛的應(yīng)用。博弈分為合作博弈與非合作博弈、完全信息博弈與非完全信息博弈、靜態(tài)博弈與動(dòng)態(tài)博弈等多種類(lèi)型。

唐平中表示,博弈論在西方已經(jīng)有近90年的歷史,而在中國(guó)則是于近5年得到了廣泛的關(guān)注和應(yīng)用。從2009年開(kāi)始的互聯(lián)網(wǎng)廣告拍賣(mài)設(shè)計(jì)算法,使博弈論在國(guó)內(nèi)經(jīng)濟(jì)界得到了重視,如今國(guó)內(nèi)工業(yè)界對(duì)博弈AI的算法也有大量的需求。

究其原因是在研究人工智能的時(shí)候,發(fā)現(xiàn)僅處理針對(duì)機(jī)器的算法遠(yuǎn)不能滿足實(shí)際商業(yè)的需求,在現(xiàn)代商業(yè)中往往是“人+機(jī)器”的復(fù)雜場(chǎng)景,而博弈論恰好是針對(duì)人類(lèi)的智能算法。

丁弋川在解讀Tuomas Sandholm對(duì)AI的觀點(diǎn)時(shí),強(qiáng)調(diào)博弈論與最優(yōu)化決策的結(jié)合。正如Tuomas Sandholm所解釋?zhuān)┺恼摫旧碇皇且粋€(gè)描述性工具,并不做出具體的決策,而最優(yōu)化決策則指出每一步的最優(yōu)化結(jié)果,但同時(shí)并沒(méi)有考慮對(duì)方的情況,AI就把二者結(jié)合起來(lái)做出二人博弈時(shí)的最優(yōu)化決策平衡點(diǎn)。

這就是德州撲克在人工智能學(xué)術(shù)上不亞于甚至是超過(guò)AlphaGo的意義所在,它提供了一種新模型去分析在沒(méi)有或缺乏信息的情況下,如何計(jì)算平衡點(diǎn)。

Tuomas Sandholm強(qiáng)調(diào),撲克游戲本身就是非完美信息的場(chǎng)景,德州撲克更是非完美信息的典型場(chǎng)景。在德州撲克進(jìn)行的過(guò)程中,缺乏甚至沒(méi)有任何數(shù)據(jù),在這種情況如何計(jì)算出每一步的最優(yōu)平衡點(diǎn),同時(shí)還要考慮進(jìn)對(duì)手的每一步情況。德州撲克有10的161次方個(gè)決策點(diǎn),是非完美信息博弈算法的標(biāo)準(zhǔn)測(cè)試場(chǎng)景,國(guó)際上一直有學(xué)術(shù)團(tuán)隊(duì)在挑戰(zhàn)這一場(chǎng)景。

葛冬冬介紹說(shuō),在杉數(shù)科技從事項(xiàng)目算法開(kāi)發(fā)與實(shí)施的過(guò)程,發(fā)現(xiàn)很多現(xiàn)實(shí)中的商業(yè)問(wèn)題不僅僅需要考慮最優(yōu)化,很多時(shí)候還需要考慮到人類(lèi)的行為,這些人類(lèi)行為將給問(wèn)題的解決帶來(lái)額外的難度。

比如在考慮電商定價(jià)的時(shí)候,不僅要根據(jù)以前的價(jià)格歷史來(lái)計(jì)算未來(lái)的最優(yōu)價(jià)格,還要考慮到與顧客和競(jìng)爭(zhēng)對(duì)手的反應(yīng)。當(dāng)價(jià)格低的時(shí)候,電商顧客會(huì)根據(jù)情況囤積自己的小庫(kù)存,便宜就多買(mǎi)、不便宜就不買(mǎi),同時(shí)競(jìng)爭(zhēng)對(duì)手也會(huì)實(shí)時(shí)比價(jià)跟隨定價(jià)。因此,在新零售等場(chǎng)景中,不再僅僅是數(shù)據(jù)驅(qū)動(dòng),還要考慮復(fù)雜情況下的顧客和競(jìng)爭(zhēng)對(duì)手博弈等,這就應(yīng)用了很多AI技巧。

博弈AI的崛起,正是復(fù)雜商業(yè)需求驅(qū)動(dòng)的結(jié)果。

冷撲大師:超人類(lèi)的機(jī)器戰(zhàn)略思維

上海財(cái)經(jīng)大學(xué)教授、奧數(shù)金牌、杉數(shù)科技科學(xué)家何斯邁

2017年1月,在賓夕法尼亞州匹茲堡的賭場(chǎng)里,Libratus冷撲大師挑戰(zhàn)了世界排名前15中的4位“一對(duì)一無(wú)限注”德州撲克人類(lèi)高手,在設(shè)計(jì)了非常保守的對(duì)人類(lèi)極為友好的對(duì)戰(zhàn)環(huán)境后,Libratus在20天賽程內(nèi)一共進(jìn)行了12萬(wàn)手牌比賽,最后Libratus以絕對(duì)優(yōu)勢(shì)戰(zhàn)勝4位人類(lèi)選手。

2017年4月,Libratus應(yīng)邀以“冷撲大師”之名到中國(guó)與來(lái)自中國(guó)的一組撲克、AI和計(jì)算機(jī)高手組成的“龍之隊(duì)”對(duì)決,冷撲大師最終以792,327總記分牌的戰(zhàn)績(jī)獲勝,獲得了此次表演賽的200萬(wàn)獎(jiǎng)勵(lì)。Libratus冷撲大師完勝中外的德州撲克高手,說(shuō)明其代表的博弈AI算法已經(jīng)到了相當(dāng)成熟的高度。

Tuomas Sandholm在“AI時(shí)代的博弈與行為分析”分享會(huì)上介紹了Libratus的歷史,這是一項(xiàng)長(zhǎng)達(dá)12年的研究。

從最早的2005年Rhode Island Hold’em撲克游戲起步,該游戲是一種小型的撲克游戲,但也有高達(dá)31億個(gè)決策節(jié)點(diǎn),具備大型德州撲克的許多特征。Tuomas Sandholm與Andrew Gilpin于2005年在AAAI會(huì)議上發(fā)表了論文,介紹了該項(xiàng)研究的初步成果。

從2005年起步,Tuomas Sandholm和團(tuán)隊(duì)在2014年5月推出了Tartanian7人工智能系統(tǒng)并贏得了2014年ACAP計(jì)算機(jī)撲克大賽,2015年4月推出了下一代Claudico人工智能系統(tǒng),但Claudico在2015年敗給了人類(lèi)選手。

2015年12月推出的下一代Baby Tartanian8贏得了2016年ACAP大賽,接著又推出了Tartanian8。最后,就是2017年1月的Libratus贏得了人機(jī)對(duì)戰(zhàn)的勝利。

Libratus包括了三個(gè)模塊,分別是賽前的游戲規(guī)則抽取和納什均衡近似,賽中用到的殘局解算(Endgame Solving)以及持續(xù)自我強(qiáng)化。

博弈論中的納什均衡主要指博弈雙方的理性參與者都不會(huì)有單獨(dú)改變策略的沖動(dòng),而該系統(tǒng)中采用納什均衡,使得不論對(duì)手用什么樣的策略,都不能取勝。

在前期尋求納什均衡的過(guò)程中,采用了CFR算法(Counterfactual Regret Minimization,反事實(shí)遺憾最小化)的強(qiáng)化學(xué)習(xí),這是一個(gè)源自心理學(xué)的算法,即“如果當(dāng)初做了另外一種選擇就好了”的反向思考方式,這種強(qiáng)調(diào)試錯(cuò)的方法可以讓機(jī)器自己和自己玩大量游戲。

通過(guò)CFR算法,Tuomas Sandholm向Libratus描述了游戲規(guī)則后,經(jīng)過(guò)幾個(gè)月的隨機(jī)訓(xùn)練100萬(wàn)億手牌后,達(dá)到了足以挑戰(zhàn)最優(yōu)秀人類(lèi)選手的水平,還開(kāi)發(fā)出了一些人類(lèi)沒(méi)有的玩法。

而在殘局解算中,Libratus的改進(jìn)算法包括考慮進(jìn)了對(duì)方所犯下的錯(cuò)誤、盡早開(kāi)始?xì)埦纸馑?、?duì)手每出一招即實(shí)時(shí)展開(kāi)殘局解算(Nested Endgame Solving)等等。

而在持續(xù)自我強(qiáng)化模塊,Libratus在比賽的每晚不是分析對(duì)手的問(wèn)題,而是總結(jié)自己當(dāng)天的主要敗筆,這就好像人類(lèi)每天總結(jié)自己的弱點(diǎn)再有針對(duì)性的彌補(bǔ),這樣自己的弱點(diǎn)越來(lái)越少,給對(duì)手的可趁之機(jī)也越來(lái)越少,這種主動(dòng)防守型的打法,最壞的結(jié)果就是雙方打成平手,所謂納什均衡追求的就是一種平衡。

當(dāng)然,12年的研究成果并不是聊聊幾句就可以完全解釋清楚。除了主要算法的改進(jìn)外,Libratus在計(jì)算方面也有所改進(jìn)以適應(yīng)龐大的分布式計(jì)算需求。根據(jù)匹茲堡超算中心的數(shù)字,Libratus約使用了150臺(tái)服務(wù)器。隨著硬件能力的提升,Libratus有望使用越來(lái)越少的計(jì)算資源,甚至將來(lái)有可能運(yùn)行在手機(jī)里。

打開(kāi)非完美信息世界之門(mén)

上海財(cái)經(jīng)大學(xué)交叉科學(xué)研究院院長(zhǎng)、杉數(shù)科技首席科學(xué)家葛冬冬(左),不列顛哥倫比亞大學(xué)(UBC)Sauder商學(xué)院助理教授丁弋川(右)

Libratus是博弈AI的最新成果和高度,當(dāng)然這并不意味著Libratus就已經(jīng)完美。Libratus針對(duì)的是一對(duì)一比賽的場(chǎng)景,主要是納什均衡即針對(duì)一對(duì)一對(duì)場(chǎng)景,在多人博弈場(chǎng)景下納什均衡就不太適用。此外,Libratus針對(duì)的是每場(chǎng)重置籌碼的比賽,而人類(lèi)不重置籌碼的比賽也未必適用。

盡管Libratus還有局限性,但Libratus至少打開(kāi)非完美信息世界的大門(mén)。

目前Libratus已經(jīng)取得的成就,可以通過(guò)機(jī)器自動(dòng)化的方式在很多商業(yè)場(chǎng)景中替人類(lèi)做出戰(zhàn)略決策和最優(yōu)化策略選擇,這就是人工智能夢(mèng)寐以求的決策自動(dòng)化。

Tuomas Sandholm表示,如果機(jī)器能夠替代人類(lèi)做出戰(zhàn)略決策,那么結(jié)合深度學(xué)習(xí)的機(jī)器學(xué)習(xí),就可以形成自動(dòng)化的學(xué)習(xí)-決策-再學(xué)習(xí)-再?zèng)Q策的閉環(huán),這才是完整的人工智能算法。

何斯邁介紹了杉數(shù)科技在新零售行業(yè),特別是收益和庫(kù)存管理中應(yīng)用博弈論和人工智能的例子。

很多國(guó)內(nèi)企業(yè)開(kāi)始進(jìn)入數(shù)字化和數(shù)據(jù)化時(shí)代,基于數(shù)據(jù)積累要開(kāi)始量化管理,需要用到博弈AI算法。比如根據(jù)友商價(jià)格、顧客價(jià)格敏感度、顧客心理價(jià)位、季節(jié)性、產(chǎn)品替代及互補(bǔ)性、促銷(xiāo)及拉升效應(yīng)等多種量?jī)r(jià)關(guān)系要素來(lái)進(jìn)行動(dòng)態(tài)博弈,解決方案包括使用網(wǎng)絡(luò)爬蟲(chóng)及機(jī)器學(xué)習(xí)來(lái)捕捉友商實(shí)際價(jià)格及分析友商價(jià)格策略,分析產(chǎn)品市場(chǎng)定位(主導(dǎo)者/跟隨者/競(jìng)爭(zhēng)者),再尋找遠(yuǎn)期利益與近期利益的動(dòng)態(tài)平衡點(diǎn)。

何斯邁表示,現(xiàn)在普遍商業(yè)企業(yè)的規(guī)模很大,在一個(gè)調(diào)度管理問(wèn)題的實(shí)例中,可能涉及決策變量就有上百萬(wàn)個(gè),而且對(duì)實(shí)時(shí)性要求非常高,必須在秒級(jí)別完成上百萬(wàn)個(gè)決策變量的問(wèn)題求解。何斯邁一直在杉數(shù)科技進(jìn)行這方面的工作。

葛冬冬也強(qiáng)調(diào),在杉數(shù)科技等的推動(dòng)下,特定類(lèi)型問(wèn)題中百萬(wàn)級(jí)變量的整數(shù)規(guī)劃問(wèn)題求解,可以在1秒鐘完成。實(shí)際上,對(duì)整數(shù)規(guī)劃來(lái)說(shuō),哪怕只有幾百個(gè)變量都求解都非常困難,極端情況下最好的商業(yè)軟件也需要很長(zhǎng)時(shí)間才能計(jì)算出來(lái)。

杉數(shù)這方面的進(jìn)展,是與斯坦福大學(xué)的葉蔭宇教授、喬治亞理工的藍(lán)光輝教授、上海財(cái)經(jīng)大學(xué)的“Leaves”優(yōu)化實(shí)驗(yàn)室長(zhǎng)期艱苦合作,才能實(shí)現(xiàn)特定場(chǎng)景下秒級(jí)百萬(wàn)規(guī)模變量的最優(yōu)化求解。

有了Libratus這樣成熟的博弈AI算法,其算法并沒(méi)有行業(yè)領(lǐng)域的應(yīng)用限制,再加上超大規(guī)模最優(yōu)化問(wèn)題秒級(jí)求解的工程化能力,就能在戰(zhàn)略定價(jià)、產(chǎn)品組合優(yōu)化、金融、商業(yè)談判、業(yè)務(wù)戰(zhàn)略、下一代安全、拍賣(mài)、醫(yī)療健康等廣泛的非完美信息場(chǎng)景中實(shí)現(xiàn)機(jī)器決策+機(jī)器學(xué)習(xí)的完整人工智能體系,這將對(duì)整個(gè)社會(huì)、經(jīng)濟(jì)和商業(yè)帶來(lái)深遠(yuǎn)的影響。(本文首發(fā)鈦媒體)

本文系作者 吳寧川 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容
  • ai崛起

    回復(fù) 2017.07.29 · via android
  • 人工智能最先要實(shí)現(xiàn)在商業(yè)的落地 要有具體的產(chǎn)品 這樣才能有好的商業(yè)模式

    回復(fù) 2017.07.29 · via pc
  • 這個(gè)要是成了,我們大部分運(yùn)營(yíng)都要下崗了??

    回復(fù) 2017.07.29 · via iphone

快報(bào)

更多

19:59

國(guó)航C919正式投入北京—廈門(mén)、北京—哈爾濱兩條航線運(yùn)營(yíng)

19:57

中鋁國(guó)際:2025年歸母凈利潤(rùn)2.58億元,同比增長(zhǎng)16.47%

19:19

伊朗稱(chēng)已打擊與美軍工有關(guān)聯(lián)的兩家企業(yè)

18:36

伊朗與巴基斯坦兩國(guó)外長(zhǎng)通電話,討論地區(qū)局勢(shì)

18:35

2025年玩具(不含潮玩)國(guó)內(nèi)市場(chǎng)零售總額達(dá)1035.3億元

18:08

全國(guó)豬價(jià)跌破5元,創(chuàng)歷史新低

18:07

時(shí)代天使2025年實(shí)現(xiàn)收入3.7億美元,同比增長(zhǎng)37.8%

17:57

電魂網(wǎng)絡(luò):擬投資4920萬(wàn)元取得上海漫魂51%股權(quán)

17:51

美國(guó)1天超3000場(chǎng)反戰(zhàn)示威

17:28

雀巢12噸巧克力被盜

17:11

伊朗官員表示將“果斷反擊”美軍奪島

17:08

伊朗議長(zhǎng)稱(chēng)武裝部隊(duì)“正等著美軍地面行動(dòng)”,并將“懲罰”其地區(qū)盟友

17:05

三安光電:董事長(zhǎng)及總經(jīng)理擬增持公司股份

16:58

全球多地爆發(fā)示威抗議,民眾高呼“不要戰(zhàn)爭(zhēng)”

16:55

中信證券:配置上建議繼續(xù)堅(jiān)守中國(guó)優(yōu)勢(shì)制造業(yè),靜待4月決斷

16:38

美國(guó)土安全部資金中斷進(jìn)入第44天,創(chuàng)美國(guó)史上最長(zhǎng)政府部分“停擺”紀(jì)錄

16:17

北京啟動(dòng)智能網(wǎng)聯(lián)新能源汽車(chē)商業(yè)保險(xiǎn)開(kāi)發(fā)應(yīng)用,統(tǒng)一適配L2至L4全級(jí)別智能網(wǎng)聯(lián)新能源汽車(chē)

16:16

恒林股份發(fā)布AI體感工學(xué)白皮書(shū),加速布局AI智能家居

16:15

中國(guó)國(guó)家創(chuàng)新指數(shù)綜合排名世界第9位,較上年提升1位

16:05

朗新科技:2025年歸母凈利潤(rùn)1.05億元,同比扭虧為盈

3

掃描下載App