免费看在线a黄视频|99爽99操日韩毛片儿|91停婷在线无码观看|日韩三级片小视频|一级黄片免费播放|欧美成人视频网站导航|亚洲日韩欧美七区|国产视频在线观看91|人成视频免费在线播放|国产精品成人在线免费观看

【鈦坦白】微軟亞洲研究院秦濤:深度學習的五個挑戰(zhàn)和其解決方案

目前深度學習的進一步發(fā)展和普及,面臨著哪些挑戰(zhàn)?深度學習有哪些前沿領域正在、需要繼續(xù)被攻克?

在鈦媒體Pro專業(yè)用戶和付費用戶專享的“鈦坦白”在線課堂第32期,我們請來了三位鈦客,分享對機器學習的思考 。本期鈦客之一、微軟亞洲研究院主管研究員秦濤博士,在國際會議和期刊上發(fā)表學術論文100余篇,曾/現(xiàn)任機器學習及人工智能方向多個國際大會領域主席或程序委員會成員,曾任多個國際學術研討會聯(lián)合主席。他是中國科學技術大學博士生導師,IEEE、ACM會員。他和他的團隊的研究重點是深度學習、強化學習的算法設計、理論分析及在實際問題中的應用。

本文節(jié)選自秦濤在鈦坦白的分享。如果您還不是鈦媒體Pro用戶,希望查看鈦坦白所有干貨,進入鈦坦白九個專業(yè)群交流,并查看更豐富的專業(yè)數(shù)據(jù)和信息,可點擊:http://m.chcmb.cn/pro 注冊。

以下根據(jù)秦濤在鈦坦白的分享實錄整理:

大家好,我是微軟亞洲研究院的秦濤,非常感謝鈦媒體提供這樣一個平臺和機會,能夠和大家交流、分享。

先介紹一下我所在的機器學習組。微軟亞洲研究院機器學習組研究的重點是機器學習,包含機器學習的各個主要方向,從底層的深度學習分布式機器學習平臺(AI的Infrastructure)到中層的深度學習、強化學習、符號學習算法以及再上面的機器學習理論。

今天晚上我將分享我們組對深度學習這個領域的一些思考,以及我們最近的一些研究工作。歡迎大家一起交流討論。

人工智能近年的進展

從1956年達特茅斯會議上人工智能的誕生開始,到如今人工智能已經(jīng)發(fā)展了61年,這期間人工智能歷經(jīng)風雨,經(jīng)歷了數(shù)次高潮也有數(shù)次低谷,每次高潮都是因為核心技術的提出引起了人們極大的興趣,吸引了大量的資金的投入。但同時由于大家的期望值遠遠超過了技術所能夠達到的高度,因此當人們發(fā)現(xiàn)巨大的資金和人才的投入不能達到預期成果的時候,人工智能的冬天也隨之而來。幸運的是,現(xiàn)在我們正處于人工智能的第三次浪潮,并且目前看來,距離下一個冬天還是挺遠的。從媒體的報道,大家可能都能了解到,人工智能在各個方向都取得了非常大的進展,不管是研究上、實踐上,還是應用上。下面我們簡單回顧一下人工智能近年來在各個方向取得的進展。

早在2012年,微軟就在“21世紀的計算”大會上展示了一個同聲傳譯的系統(tǒng),這個系統(tǒng)其實相當復雜:當微軟研究院創(chuàng)始人Rick Rashid用英文演講的時候,這個系統(tǒng)首先需要將英文的語音識別成英文的文本,然后通過一個翻譯系統(tǒng)把英文翻譯成中文,然后再把中文文本合成成為中文的語音。整個復雜的過程都是通過深度學習的技術來支撐的。

在2015年底,發(fā)生了一件對計算機視覺領域而言非常重要的事情,就是微軟亞洲研究院的研究員提出了一個新的基于CNN的深度模型叫做殘差網(wǎng)絡,這個殘差網(wǎng)絡深度高達152層,取得了當時圖象識別比賽上面最好的成績。到現(xiàn)在為止,深度殘差網(wǎng)絡在計算機視覺的研究中被廣泛使用,并且被集成到微軟還有其他大公司的產(chǎn)品中。

再到后來,2016年初,可能大家都知道,AlphaGo這個系統(tǒng)打敗了圍棋世界冠軍李世石,這非常出乎人們的預料,特別是AI專家的預料,因為大家普遍認為,機器要在圍棋上戰(zhàn)勝人類可能還需要20年。在2016年下半年,微軟宣布了另外一項AI上的進展,就是在日常對話的語音識別中,微軟的技術已經(jīng)達到了人類的水平,這也是非常了不起的,因為如果大家關注一下我們?nèi)粘5闹v話,就會發(fā)現(xiàn),其中有很多停頓,并且?guī)б恍┱Z氣詞,與朗誦或者新聞播音相差很大,這種日常對話識別要達到人類的水平是很不容易的。

從以上的簡單回顧可以看出,人工智能的第三波浪潮和深度學習是分不開的。深度學習里最經(jīng)典的模型是全連接的神經(jīng)網(wǎng)絡,就是每相臨的兩層之間節(jié)點之間是通過邊全連接;再就是卷積神經(jīng)網(wǎng)絡,這個在計算機視覺里面用得非常多;再就是循環(huán)神經(jīng)網(wǎng)絡RNN,這個在對系列進行建模,例如自然語言處理或者語音信號里面用得很多,這些都是非常成功的深度神經(jīng)網(wǎng)絡的模型。還有一個非常重要的技術就是深度強化學習技術,這是深度學習和強化學習的結合,也是AlphaGo系統(tǒng)所采用的技術。

深度學習的成功主要歸功于三大因素——大數(shù)據(jù)、大模型、大計算?,F(xiàn)在可以利用的數(shù)據(jù)特別是人工標注的數(shù)據(jù)非常多,使得我們能夠從數(shù)據(jù)中學到以前沒法學習的東西。另外技術上的發(fā)展使得訓練大模型成為了可能,例如上千層的深度神經(jīng)網(wǎng)絡,這個在四年以前都覺得不能想象的事情,現(xiàn)在都已經(jīng)發(fā)展成為現(xiàn)實,并且在產(chǎn)品中都有了很廣泛的使用。再就是大計算,從CPU到GPU,可獲取的計算資源越來越豐富。

大數(shù)據(jù)、大模型、大計算是深度學習的三大支柱,因此這三個方向都是當前研究的熱點,例如如何從更多更大的數(shù)據(jù)里面進行學習,如何訓練更大更深的模型。非常深的模型,當前更成功的例子是在計算機視覺里面,但如何把這種更深的模型引入到自然語言處理里面,還需要研究,例如當前幾個大公司的神經(jīng)機器翻譯模型,都是利用較深的RNN,但是還是遠遠達不到殘差網(wǎng)絡的深度。從大計算這個方面來講,整個演變過程是從CPU到GPU到FPGA,再發(fā)展到現(xiàn)在有些公司定制自己專有芯片,國內(nèi)的有一些創(chuàng)業(yè)公司,也都在做一些AI芯片,專門為AI來設計一些硬件。大計算另外一個角度就是深度學習的平臺和系統(tǒng),這個可以說是各大AI或者是互聯(lián)網(wǎng)公司的著重發(fā)力的地方,例如微軟的CNTK、DMTK,再比如TensorFlow、Torch,以及學術界的開源平臺包括Theano、Caffe、MxNet等等??梢灶A計,在短期內(nèi),各大公司還會在這個領域做非常激烈的競爭,希望能夠吸引第三方公司使用他們的平臺和系統(tǒng)。

俗話說成也蕭何敗也蕭何,大數(shù)據(jù)、大模型、大計算是深度學習成功的三大支柱因素,但他們同時也為深度學習的進一步發(fā)展和普及帶來了一些制約因素。

挑戰(zhàn)1:標注數(shù)據(jù)代價昂貴

前沿1:從無標注的數(shù)據(jù)里學習

大家都知道,深度學習訓練一個模型需要很多的人工標注的數(shù)據(jù)。例如在圖象識別里面,經(jīng)常我們可能需要上百萬的人工標注的數(shù)據(jù),在語音識別里面,我們可能需要成千上萬小時的人工標注的數(shù)據(jù),機器翻譯更是需要數(shù)千萬的雙語句對做訓練,在圍棋里面DeepMind當初訓練這個模型也用了數(shù)千萬圍棋高手走子的記錄,這些都是大數(shù)據(jù)的體現(xiàn)。

但是,很多時候找專家來標注數(shù)據(jù)是非常昂貴的,并且對一些應用而言,很難找到大規(guī)模的標注的數(shù)據(jù),例如一些疑難雜癥,或者是一些比較稀有的應用場景。這里我們做一個粗略的分析,看看標注數(shù)據(jù)的代價有多高。比如說對機器翻譯而言,現(xiàn)在如果我們請人工來翻譯,一個單詞的費用差不多是5—10美分之間,一個句子平均長度差不多是30個單詞,如果我們需要標注一千萬個雙語句對,也就是我們需要找專家翻譯一千萬句話,這個標注的費用差不多是2200萬美元。

大家可以看到數(shù)據(jù)標注的費用是非常非常高的,讓一個創(chuàng)業(yè)公司或者一些剛剛涉足人工智能的公司拿這么大一筆資金來標注數(shù)據(jù)是很難或者是不太可行的。因此當前深度學習的一個前沿就是如何從無標注的數(shù)據(jù)里面進行學習?,F(xiàn)在已經(jīng)有相關的研究工作,包括最近比較火的生成式對抗網(wǎng)絡,以及我們自己提出的對偶學習。

生成式對抗網(wǎng)絡的主要目的是學到一個生成模型,這樣它可以生成很多圖像,這種圖像看起來就像真實的自然圖像一樣。它解決這個問題的思路跟以前的方法不太一樣,它是同時學習兩個神經(jīng)網(wǎng)絡:一個神經(jīng)網(wǎng)絡生成圖像,另外一個神經(jīng)網(wǎng)絡給圖像進行分類,區(qū)分真實的圖像和生成的圖像。在生成式對抗網(wǎng)絡里面,第一個神經(jīng)網(wǎng)絡也就是生成式神經(jīng)網(wǎng)絡,它的目的是希望生成的圖像非常像自然界的真實圖像,這樣的話,那后面的第二個網(wǎng)絡,也就是那個分類器沒辦法區(qū)分真實世界的圖像和生成的圖像;而第二個神經(jīng)網(wǎng)絡,也就是分類器,它的目的是希望能夠正確的把生成的圖像也就是假的圖像和真實的自然界圖像能夠區(qū)分開。大家可以看到,這兩個神經(jīng)網(wǎng)絡的目的其實是不一樣的,他們一起進行訓練,就可以得到一個很好的生成式神經(jīng)網(wǎng)絡。生成式對抗網(wǎng)絡最初提出的時候,主要是對于圖像的生成,現(xiàn)在很多人把他應用到各個不同的問題上,包括自然語言理解,比如說最近我們有一個工作,就是把這種思想應用到機器翻譯里面,能夠很大幅度的提高機器翻譯的準確度。

針對如何從無標注的數(shù)據(jù)進行學習,我們組里面提出了一個新思路,叫做對偶學習。對偶學習的思路和前面生成式對抗學習會非常不一樣。對偶學習的提出是受到一個現(xiàn)象的啟發(fā):我們發(fā)現(xiàn)很多人工智能的任務在結構上有對偶屬性。比如說在機器翻譯里面,我們把中文翻譯成英文,這是一個任務,但是我們同樣也需要把英文翻譯成中文,這是一個對偶的任務。這種原任務和對偶任務之間,他們的輸入和輸出正好是反著來的。在語音處理里面,語音識別是把語音轉化成文字,語音合成是把文字轉化成語音,也是互為對偶的兩個任務。在圖像理解里面,看圖說話,也就是給一張圖生成一句描述性的語句,它的對偶任務是給一句話生成一張圖,這兩個任務一個是從圖像到文本,另外一個是從文本到圖像。在對話系統(tǒng)里面,回答問題和問題生成也是互為對偶的兩個問題,前者是給定問題生成答案,后者是給定答案生成問題。在搜索引擎里面,給定檢索詞返回相關文檔和給定文檔或者廣告返回關鍵詞也是互為對偶的問題:搜索引擎最主要的任務是針對用戶提交的檢索詞匹配一些文檔,返回最相關的文檔;當廣告商提交一個廣告之后,廣告平臺需要給他推薦一些關健詞使得他的廣告在用戶搜索這些詞能夠展現(xiàn)出來被用戶點擊。

對偶學習試圖把這種結構的對偶屬性應用在機器學習里。其基本思想比較簡單,我們以機器翻譯為例子來說明。我們想把一個中文句子翻譯成英文,我們可以先用一個中文到英文的翻譯模型,把這個句子翻譯成英文的句子,因為我們沒有英文的標注,所以不知道這個英文的翻譯是好還是壞以及有多好多壞。我們再利用從英文到中文的翻譯模型,把這個英文的句子翻譯成中文的句子,這樣一來,我們就得到了一個新的中文句子。整個過程包含了正向翻譯和反向翻譯互為對偶的兩個步驟。然后我們比較原始中文的句子和后來得到的中文句子,如果兩個翻譯模型都很好的話,這兩個中文的句子應該比較相似,如果兩個模型不好或者有一個模型不好的話,得到的兩個中文句子就不相似。因此我們可以通過這種對偶過程從無標注的數(shù)據(jù)獲得反饋信息,知道我們的模型工作的好還是不好,進而根據(jù)這些反饋信息來訓練更新正向反向模型,從而達到從無標注數(shù)據(jù)學習的目的。

我們在機器翻譯里面做了一些實驗,發(fā)現(xiàn)通過對偶學習的過程,我們只需要用10%標注的數(shù)據(jù)(大概100萬英法雙語句對),再加上很多沒有標注的數(shù)據(jù),達到用100%標注數(shù)據(jù)(1200萬英法雙語句對)訓練的模型的準確度。大家回想一下,我們前面有個粗略的估計,一千萬個訓練語料標注的費用差不多2200萬美元,如果我們能把標注的人工費用從2200萬美元降到200萬美元,這會是一個非常好的結果,能夠大大降低公司運營成本提高運營效率。

最近我們在對偶學習的研究上有一些新的進展,把對偶學習這種基本思想應用到其他的問題里面,像圖像分類、圖像生成,以及對自然語言的情感分析。我們發(fā)現(xiàn)這種結構的對偶屬性可以從不同角度幫助機器學習,提高學習算法的準確度。

從無標注的數(shù)據(jù)進行學習,我們預計在未來三到五年還是非常重要的一個問題,并且對我們實際的應用也會有很大的幫助。很多問題以前是因為受限于沒有標注的數(shù)據(jù),沒有辦法用深度學習技術,如果我們能夠從無標注的數(shù)據(jù)進行學習,那么很多應用很多問題里面都可以應用深度學習技術。

挑戰(zhàn)2:大模型不方便在移動設備上使用

前沿2:降低模型大小

現(xiàn)在常見的模型,像圖像分類里面,微軟設計的深度殘差網(wǎng)絡,模型大小差不多都在500M以上。自然語言處理的一些模型,例如語言模型(language modeling)隨著詞表的增長而變大,可以有幾G、幾十G的大小,機器翻譯的模型也都是500兆以上。當然500M的大小大家可能覺得沒有多大,一個CPU服務器很容易就把這個模型給load進去使用。但是大家要注意到,很多時候深度學習的模型需要在一些移動設備上使用。比如說手機輸入法,還有各種對圖像做變換做處理做藝術效果的app,如果使用深度學習的話效果會非常好,但是這種模型由于它們的size太大,就不太適合在手機上應用。大家可以設想一下,如果一個手機的app需要加載一個500M甚至1G以上的模型恐怕不太容易被用戶接受。

因此當前深度學習面臨的第二個挑戰(zhàn)就是如何把大模型變成小模型,這樣可以在各種移動設備上使用。因為移動設備不僅僅是內(nèi)存或者存儲空間的限制,更多是因為能耗的限制,不允許我們用太大的模型。近兩年來,有一些相應的工作,今天我主要介紹兩種:第一種是針對計算機視覺里面的CNN模型,也就是卷積神經(jīng)網(wǎng)絡,做模型壓縮;第二種是我們?nèi)ツ曜龅?,針對一些序列模型或者類似自然語言處理的RNN模型如何做一個更巧妙的算法,使得它模型變小,并且同時精度沒有損失。

  • 通過模型壓縮的技術縮減模型的大小

對卷積神經(jīng)網(wǎng)絡而言,近一兩年有一些工作,他們主要是采用模型壓縮的技術縮減模型的大小。這些模型壓縮的技術,可以分為幾個方面:

一個是叫剪枝,大家知道,神經(jīng)網(wǎng)絡主要是由一層一層的節(jié)點通過邊連接,每個邊上有些權重。剪枝的意思很簡單,如果我們發(fā)現(xiàn)某些邊上的權重很小,這樣的邊可能不重要,這些邊就可以去掉。我們在把大模型訓練完之后,看看哪些邊的權重比較小,把這些邊去掉,然后在保留的邊上重新訓練模型;

模型壓縮的另外一種做法就是通過權值共享。假設相鄰兩層之間是全連接,每層有一千個節(jié)點,那么這兩層之間有一千乘一千也就是一百萬個權值(參數(shù))。我們可以對一百萬個權值做個聚類,看看哪些權值很接近,我們可以用每個類的均值來代替這些屬于這一類的權值,這樣很多邊(如果他們聚在同一類)共享相同的權值。如果我們把一百萬個數(shù)聚成一千類,就可以把參數(shù)的個數(shù)從一百萬降到一千個,這也是一個非常重要的一個壓縮模型大小的技術。

還有一個技術可以認為是權值共享的更進一步,叫量化。深度神經(jīng)網(wǎng)絡模型的參數(shù)都是用的浮點型的數(shù)表達,32bit長度的浮點型數(shù)。實際上沒必要保留那么高的精度,我們可以通過量化,比如說就用0到255表達原來32個bit所表達的精度,通過犧牲精度來降低每一個權值所需要占用的空間。

這種量化的更極致的做法就是第四類的技術,叫二制神經(jīng)網(wǎng)絡。所謂二制神經(jīng)網(wǎng)絡,就是所有的權值不用浮點數(shù)表達了,就是一個二進制的數(shù),要么是+1要么是-1,用二進制的方式來表達,這樣原來一個32 bit權值現(xiàn)在只需要一個bit來表達,從而大大降低這個模型的尺寸。

上面這張圖顯示了多種模型壓縮的技術在不同卷積神經(jīng)網(wǎng)絡上的結果。我們可以看到,隨著原始網(wǎng)絡大小的不同,得到的壓縮比是不一樣的,特別是VGGNet,一個非常重要的卷積神經(jīng)網(wǎng)絡,能夠把大小從原來的550M壓縮到11M,并且讓人驚奇的是,壓縮后分類的準確率沒有下降,反而略微有一點提高,這是非常了不起的。

  • 通過設計更精巧的算法來降低模型大小

下面簡單提一下我們組是如何對一些序列模型進行壓縮,也就是對循環(huán)神經(jīng)網(wǎng)絡RNN做壓縮,我們提了一種新的循環(huán)神經(jīng)網(wǎng)絡叫做LightRNN,它不是通過模型壓縮的方式降低模型的大小,而是通過設計一種更精巧的算法來達到降低模型大小。

自然語言相關的應用中,模型之所以大,是因為我們需要把每一個詞要做詞嵌入(word embedding),把每一個單詞表達成向量空間的一個向量。詞嵌入的基本思想是,語義相似或相近的詞在向量空間里面的向量也比較接近,這樣就可以通過向量空間表達詞之間的語義信息或者是相似性。因為通常我們的詞表會很大,比如說在輸入法里面,可能詞表需要說上百萬。如果我們詞表有上百萬的詞,每個詞如果是用一千維的一個向量來表達,這個大小就是差不多是一百萬乘以一千再乘以4 Byte(用32位的浮點數(shù)來表達),詞嵌入向量的總體大小差不多就有4G左右,所以整個RNN模型是非常大的。搜索引擎的詞表有上千萬的詞,僅僅詞嵌入向量這部分大小就有40G左右,考慮到輸入的詞嵌入和輸出的詞嵌入,整個詞嵌入的大小有80G左右了,這么大的模型很難加載到GPU上訓練模型和使用,更不用說放在移動設備上使用。

我們的算法的基本思想是:不是用一個向量來表達一個詞,而是用兩個向量表達一個詞,一個行向量+一個列向量,不同的詞之間共享行或列向量。我們用一個二維的表格來表達整個詞表,假設這個二維的表格有一千行一千列,這個表格可以表達一百萬個詞;這個表格的每一行有一個行向量,每一列有一個列向量,這樣整個二維表格只需要兩千個向量。如果一個詞(January)在第一行第一列的話,它就由行向量X1和列向量Y1來聯(lián)合表達??紤]一個有一百萬個詞的詞表,原來需要一百萬個嵌入向量,通過這樣一個二維或者是兩個component的表格詞嵌入,現(xiàn)在我們只需要一千個行向量和一千個列向量來進行表達,這樣大大降低詞嵌入向量模型的大小。

我們在很多公共的數(shù)據(jù)集上做測試,結果表明我們提出的LightRNN算法極大的減小了模型的尺寸,可以把原來語言模型的大小從4G降到40M左右,當這個模型只有40兆的時候,很容易使得我們在移動設備或者是GPU上使用。我們的方法使得深度模型在各種能耗比較低或者內(nèi)存比較小的設備上的使用成為了可能。并且我們還發(fā)現(xiàn),通過這樣一種共享的二維詞表的嵌入,我們得到的循環(huán)神經(jīng)網(wǎng)絡模型的精度并沒有受到很大的影響,實際上LightRNN的精度反而略微有上升,和前面的卷積神經(jīng)網(wǎng)絡壓縮的結果比較類似。

挑戰(zhàn)3:大計算需要昂貴的物質、時間成本

前沿3:全新的硬件設計、算法設計、系統(tǒng)設計

大計算說起來容易,其實做起來非常不容易,非常不簡單。我們微軟亞洲研究院研究員提出深度殘差網(wǎng)絡,這種網(wǎng)絡如果在ImageNet這樣一個上百萬的數(shù)據(jù)上進行訓練的話,用四塊現(xiàn)在最先進的GPU卡K80學習訓練時間大概要三周。最近百度做的神經(jīng)機器翻譯系統(tǒng),他們用了32塊K40的GPU用了十天做訓練,谷歌的機器翻譯系統(tǒng)用了更多,用了96塊K80的GPU訓練了六天。大家可能都知道AlphaGo, 它也需要非常大量的計算資源。AlphaGo的模型包含一個策略神經(jīng)網(wǎng)絡,還有一個值網(wǎng)絡,這兩個都是卷積神經(jīng)網(wǎng)絡。它的策略網(wǎng)絡用了50塊GPU做訓練,訓練了3個周,值網(wǎng)絡也是用了50塊GPU,訓練了一周,因此它整個的訓練過程用了50塊CPU四周時間,差不多一個月。大家可以想一想,如果訓練一個模型就要等一個月,并且我們經(jīng)常要調(diào)各種超參數(shù),一組超參數(shù)得到的結果不好,換另外一組超參數(shù),可能要嘗試很多組超參數(shù),如果我們沒有大量的計算資源,一等就是一個月,這從產(chǎn)品的更新?lián)Q代還有技術創(chuàng)新的角度而言,都不能接受。剛才說了只是AlphaGo訓練的復雜度,其實它的測試,比如說比賽的時候,復雜度也非常高, AlphaGo的單機版和人下棋的時候,每次下棋需要用48塊CPU 8塊GPU,它的分布式版本就用的更多,每次需要用1200塊CPU再加上176塊GPU。大家可以想一想,地球上有幾個公司能承受這么高昂的代價來做深度學習。

因此我們認為,深度學習所面臨的第三個挑戰(zhàn)是如何設計一些更高級的算法,更快的算法,更有效的算法。手段可能是通過一些全新的硬件設計或者是全新的算法設計,或者是全新的系統(tǒng)設計,使得這種訓練能夠大大的加速。如果我們還是這種訓練動不動就要幾十塊GPU或者幾百塊GPU,要等幾個星期或者是幾個月的話,對工業(yè)界和學術界而言都不是好事,我們需要更快速更有效的訓練方法。

挑戰(zhàn)4:如何像人一樣從小樣本進行有效學習?

前沿4:數(shù)據(jù)+知識,深度學習與知識圖譜、邏輯推理、符號學習相結合

現(xiàn)在的深度學習主要是從大數(shù)據(jù)進行學習,就是我給你很多標注的數(shù)據(jù),使用深度學習算法學習得到一些模型。這種學習方式和人的智能是非常不一樣的,人往往是從小樣本進行學習。人對圖像進行分類,如果人想知道一個圖像是不是蘋果,只需要很少幾個樣本就可以做到準確分類。兩三歲小孩,開始認識世界的時候,他如果想知道什么樣的動物是狗,我們給他看幾張狗的圖片,并且告訴他狗有什么特征,和其他動物像貓或者羊有什么區(qū)別的話,小孩可以很快很準確的識別狗。但是在ImageNet比賽里,像深度殘差神經(jīng)網(wǎng)絡,一般來說一個類別大概需要上千張圖片才能進行比較充分的訓練,得到比較準確的結果。還有一個例子就是汽車駕駛,一般來說,通過在駕校的培訓,也就是幾十個小時的學習,幾百公里的練習,大多數(shù)人就可以開車上路了,但是像現(xiàn)在的無人車可能已經(jīng)行駛了上百萬公里,還是達不到人的全自動駕駛的水平。原因在于,人經(jīng)過有限的訓練,結合規(guī)則和知識能夠應付各種復雜的路況,但是當前的AI還沒有邏輯思考、聯(lián)想和推理的能力,必須靠大數(shù)據(jù)來覆蓋各種可能的路況,但是各種可能的路況幾乎是無窮的。

前面提到的小孩子認識世界的過程,很多時候,大人可以把一些經(jīng)驗或者是知識傳授給他們,比如說蘋果是圓形的,有紅色的或者青的蘋果,狗和貓的區(qū)別在什么地方。這種知識很容易通過語言進行傳授,但是對于一個AI或者對于一個深度學習算法而言,如何把這種知識轉化成實際模型的一部分,怎么把數(shù)據(jù)和知識結合起來,提高模型的訓練的速度或者是識別的精度,這是一個很復雜的問題。

現(xiàn)在我們組有同事正在做這方面的嘗試和努力,我們希望把深度學習、知識圖譜、邏輯推理、符號學習等等結合起來,希望能夠進一步推動人工智能的發(fā)展,使人工智能更接近人的智能。

今年的人工智能國際頂級會議AAAI 2017的最佳論文獎,頒給了一個利用物理或者是一些領域的專業(yè)知識來幫助深度神經(jīng)網(wǎng)絡做無標注數(shù)據(jù)學習的項目。論文里的具體例子是上面這張圖里面一個人扔枕頭的過程,論文想解決的問題是從視頻里檢測這個枕頭,并且跟蹤這個枕頭的運動軌跡。如果我們沒有一些領域的知識,就需要大量的人工標注的數(shù)據(jù),比如說把枕頭標注出來,每幀圖像的哪塊區(qū)域是枕頭,它的軌跡是什么樣子的。實際上因為我們知道,枕頭的運動軌跡應該是拋物線,二次型,結合這種物理知識,我們就不需要標注的數(shù)據(jù),能夠把這個枕頭給檢測出來,并且把它的軌跡準確的預測出來。這篇論文之所以獲得了最佳論文獎,也是因為它把知識和數(shù)據(jù)結合起來,實現(xiàn)了從無標注數(shù)據(jù)進行學習的可能。

挑戰(zhàn)5:如何從認知性的任務擴展到?jīng)Q策性任務?

前沿5:博弈機器學習

人的智能包含了很多方面,最基本的階段是認知性智能,也就是對整個世界的認知。我們看到一幅圖能知道里面有什么,我們聽到一句話知道在說文字?,F(xiàn)在對于圖象識別、語音識別,AI已經(jīng)差不多能達到人類的水平,當然可能是在某些特定的約束條件下,能夠達到人類的水平。但是其實這種認知性的任務,對人類而言都是非常簡單的,比如說一個三五歲的小孩子已經(jīng)能做得很好了,現(xiàn)在AI所能做的這種事情或者能達到的水平,人其實也很容易做到,只是AI可能在速度上更快,并且規(guī)模上去之后成本更低,并且24小時都不需要休息。更有挑戰(zhàn)的問題是,人工智能能不能做一些人類做不了或者是很難做好的事情。

像圖象識別、語音識別這類認知性的任務,AI之所以做得好,是因為這些任務是靜態(tài)的,所謂靜態(tài)就是給定輸入,預測結果不會隨著時間改變。但是決策性問題,往往和環(huán)境有很復雜的交互,在某些場景里面,如何做最優(yōu)決策,這些最優(yōu)決策往往是動態(tài)的,會隨著時間改變。

現(xiàn)在有人嘗試把AI用到金融市場,例如如何用AI技術來分析股票,預測股票漲跌,對股票交易給出建議,甚至是代替人來進行股票交易,這類問題就是動態(tài)決策性問題。同樣一支股票同樣的價格,在一周前可能是值得買入,但是一周之后可能就要賣出了,同樣一個事件或者是政治新聞比如說是在總統(tǒng)大選之前發(fā)生還是之后發(fā)生,對股票市場的影響也完全不一樣。所以決策問題的一個難點就在于時變性。

決策性問題的第二個難點在于各種因素相互影響,牽一發(fā)而動全身。一支股票的漲跌會對其他股票產(chǎn)生影響,一個人的投資決策,特別是大的機構的投資決策,可能會對整個市場產(chǎn)生影響,這就和靜態(tài)的認知性任務不一樣的。在靜態(tài)認知性任務我們的預測結果不會對問題(例如其他的圖像或者語音)產(chǎn)生任何影響,但是在股票市場,任何一個決定,特別是大的機構的投資策略會對整個市場產(chǎn)生影響,對別的投資者產(chǎn)生影響,對將來會產(chǎn)生影響。無人駕駛某種程度上也是比較類似的,一輛無人車在路上怎么行駛,是由環(huán)境和很多車輛共同決定的,當我們通過AI來控制一輛車的時候,我們需要關注周圍的車輛,因為我們要考慮到周圍的車輛對于當前這個無人車的影響,以及我們無人車(如左轉右轉或者并線)對周圍車輛的影響。

當前深度學習已經(jīng)在靜態(tài)任務里面取得了很大的成功,如何把這種成功延續(xù)和擴展到這種復雜的動態(tài)決策問題中,也是當前一個深度學習的挑戰(zhàn)之一。我們認為,一個可能的思路是博弈機器學習。在博弈機器學習里,通過觀察環(huán)境和其他個體的行為,對每個個體構建不同的個性化行為模型,AI就可以三思而后行,選擇一個最優(yōu)策略,該策略會自適應環(huán)境的變化和其他個體的行為的改變。

以上是我今天的分享。最后,我們微軟亞洲研究院機器學習組正在招聘,大家如果對機器學習的任何一個方向感興趣,歡迎加入我們。

(本文獨家首發(fā)鈦媒體,根據(jù)微軟亞洲研究院主管研究員秦濤博士在鈦坦白上的分享整理)

………………………………

鈦坦白第32期,AI已來之機器學習1,今晚7點繼續(xù)!

地點:鈦坦白 | 人工智能(微信群)

報名聽課、交流:

鈦坦白目前有醫(yī)療健康、人工智能、文娛社交、VR/AR、區(qū)塊鏈、支付創(chuàng)新、體育、云計算、SaaS等九個專業(yè)群。

1、鈦媒體Pro專業(yè)版用戶,可以點擊鏈接http://m.chcmb.cn/pro,登錄賬號,在線免費、任意選擇自己要進入的群,按提示操作;

2、非鈦媒體Pro專業(yè)版用戶,可以添加微信號taitanbai0,在通過好友后,發(fā)99元紅包給小鈦,你將有權利從九個群中任選一個群進入,長期聽課、交流。請告訴小鈦你要進入哪一個群,然后等待小鈦拉你入群~

推薦鈦客、贊助、合作:

請與鈦坦白負責人佳音聯(lián)系,郵箱jiayinge@tmtpost.com

本文系作者 葛佳音 授權鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學習,不構成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

掃描下載App