啟元“智能體訓(xùn)練云平臺(tái)”發(fā)布現(xiàn)場
繼AlphaGo之后,AI在世界人機(jī)大戰(zhàn)中再一次獲勝。
6月21日,在啟元世界舉辦的國內(nèi)首屆《星際AI頂級(jí)職業(yè)選手挑戰(zhàn)賽》中,啟元“AI星際指揮官”以2:0的成績戰(zhàn)勝《星際爭霸I/II》全國冠軍黃慧明(TooDming)和黃金總決賽冠軍、最強(qiáng)人族選手李培楠(Time)。
本次比賽是全國首次現(xiàn)場直播星際AI與人類頂級(jí)職業(yè)選手的對(duì)戰(zhàn)。
與圍棋相比,《星際爭霸》屬于不完全信息博弈,戰(zhàn)爭迷霧對(duì)AI的戰(zhàn)略規(guī)劃、布局、決策提出了更高的要求。而且在決策空間上,圍棋只有361種,星際2大約有1026。因此,更具挑戰(zhàn)性的《星際爭霸》成為了AI與人類較量的下一個(gè)競技場。
據(jù)了解,“星際指揮官”是由啟元世界(北京)信息技術(shù)服務(wù)有限公司(以下簡稱:啟元世界)圍繞智能體訓(xùn)練云開展技術(shù)、研發(fā)型產(chǎn)品。
公開資料顯示,啟元世界成立于2017年,是一家認(rèn)知決策智能技術(shù)研發(fā)公司,基于深度學(xué)習(xí)、強(qiáng)化學(xué)習(xí)、超大規(guī)模并行計(jì)算等技術(shù),搭建了深度強(qiáng)化學(xué)習(xí)算法平臺(tái),以在線游戲?yàn)閷?shí)驗(yàn)平臺(tái),快速驗(yàn)證智能體算法,致力于打造決策智能、構(gòu)建平行世界、激發(fā)人類潛能。
2018年12月,啟元世界完成知名投資機(jī)構(gòu)Pre-A輪融資。目前,啟元“智能體訓(xùn)練云平臺(tái)”已在全國數(shù)十家商業(yè)組織和機(jī)構(gòu)進(jìn)行合作,其覆蓋了數(shù)字娛樂、公共科技、機(jī)器人等行業(yè)。
啟元世界創(chuàng)始人袁泉向鈦媒體表示,《星際爭霸》無論從戰(zhàn)斗、戰(zhàn)役、戰(zhàn)略經(jīng)濟(jì)等層面,都蘊(yùn)含了人類感知、認(rèn)知決策的訓(xùn)練環(huán)境,所以在公司成立的第一天他就確定以《星際爭霸》為研究環(huán)境,并且堅(jiān)信它是孕育下一代新人工智能體非常好的訓(xùn)練平臺(tái)。
事實(shí)上,在此次比賽之前,自2018年在第38屆ACM全球總決賽亮相并發(fā)布AI人機(jī)協(xié)作挑戰(zhàn)賽以來,“星際指揮官”不斷收獲優(yōu)異成績:
2019年9月達(dá)到白金水平,3:0擊敗人類黃金級(jí)選手;2019年12月達(dá)到鉆石級(jí)水平,并在人工智能頂級(jí)峰會(huì)NeurlPS上現(xiàn)場展示。
究竟“星際指揮官”與圍棋有何不同,啟元世界CTO龍海濤從博弈和決策空間的角度作出了解釋,“從博弈的角度來看,圍棋是一個(gè)完全信息的博弈,棋子之中黑子、白子都可以看到;而《星際爭霸》則屬于非完全信息博弈,像猜拳一樣,人類選手需要不停地猜測對(duì)方在干什么,下一步動(dòng)作是什么。”
龍海濤介紹,從決策空間來看,圍棋是回合制,在19乘19的格子之中,每次決策在361個(gè)點(diǎn)進(jìn)行選擇動(dòng)作;《星際爭霸》則是有決策主體、決策目標(biāo),每分鐘的決策次數(shù)在300-400次頻率,整個(gè)空間加起來有10的26次方,這是每次AI作決策可能性的來源,而且要做兩千、三千次決策,才有可能戰(zhàn)勝頂級(jí)的人類選手,這是對(duì)AI訓(xùn)練的巨大考驗(yàn)。
啟元世界也在從工程和算法兩個(gè)層面各進(jìn)行了深層次的優(yōu)化,通過乘數(shù)效應(yīng)的疊加最終實(shí)現(xiàn)了看似不可能的“奇跡”。
袁泉透露,《星際爭霸》僅僅是智能體訓(xùn)練云的一塊“試驗(yàn)田”,啟元世界的目標(biāo)是通過智能體訓(xùn)練云平臺(tái)幫助各行各業(yè)訓(xùn)練出自己的智能體,助力產(chǎn)業(yè)升級(jí)。
智能體訓(xùn)練云平臺(tái)會(huì)提供方便的編程接口,供智能體開發(fā)人員調(diào)用高效的算法庫、網(wǎng)絡(luò)模型庫及訓(xùn)練方法,快速開發(fā)構(gòu)建自己的智能體。同時(shí),平臺(tái)還會(huì)根據(jù)訓(xùn)練任務(wù)進(jìn)行彈性算力調(diào)度,匹配智能體的推演和訓(xùn)練速度,實(shí)現(xiàn)高效率的超大規(guī)模并行訓(xùn)練。
袁泉講述了七步打造智能體訓(xùn)練云路徑:
第一步,環(huán)境配置。構(gòu)建智能體訓(xùn)練環(huán)境,無論是《星際爭霸》、數(shù)字孿生環(huán)境、仿真環(huán)境等,讓AI智能體在環(huán)境中不斷探索、交互。
第二步,智能體設(shè)計(jì)。平臺(tái)將提供編程接口,供開發(fā)人員調(diào)用底層數(shù)十個(gè)算法庫、網(wǎng)絡(luò)模型庫以及智能體的訓(xùn)練方法,快速開發(fā)構(gòu)建自己的智能體。
第三步,算力調(diào)度。主要是針對(duì)大規(guī)模協(xié)作的時(shí)候,比如某一個(gè)特定的任務(wù)到底需要分配多少CPU、GPU、大內(nèi)存,甚至是萬兆通信網(wǎng)絡(luò)這些資源,能夠更好地適應(yīng)任務(wù)訓(xùn)練自己的智能體。
第四步,自我對(duì)抗學(xué)習(xí)。將配置好的智能體進(jìn)行對(duì)抗學(xué)習(xí)和演練,就像“星際指揮官”一樣,在對(duì)戰(zhàn)場景下不斷試錯(cuò)、學(xué)習(xí)和自我迭代,不斷調(diào)整最優(yōu)對(duì)策。
第五步,對(duì)抗樣本。支持?jǐn)?shù)百個(gè)實(shí)體單元的大規(guī)模并行對(duì)抗訓(xùn)練,可解決10的26次方復(fù)雜動(dòng)作空間決策問題,達(dá)到甚至超過人類高手水平。
第六步,智能體模型。隨著訓(xùn)練時(shí)間的增長包括平臺(tái)提供穩(wěn)定訓(xùn)練的特性,能夠幫助大家發(fā)掘到最優(yōu)的智能體策略。
第七步,評(píng)估部署。將最終訓(xùn)練好的智能體接入仿真推演環(huán)境,讓智能體背后的AI系統(tǒng)進(jìn)行各種環(huán)境應(yīng)對(duì)策略決策。
按照袁泉的規(guī)劃,啟元世界將致力于把智能體帶入每個(gè)行業(yè)、每個(gè)家庭、每個(gè)人,提升產(chǎn)業(yè)效能和生活體驗(yàn),為公共科技、數(shù)字娛樂、電力能源、交通物流等行業(yè)提供基于平臺(tái)產(chǎn)品的人工智能解決方案。(本文首發(fā)鈦媒體,作者/郭虹妘,編輯/蔡鵬程)
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論
鈦媒體的文章還是不錯(cuò)的