作者:王維嘉,斯坦福大學(xué)電氣工程系博士,曾在斯坦福大學(xué)師從人工智能鼻祖之一、美國國家工程院院士伯納德·威德羅教授。
出版社:中信出版集團
出版時間:2019年4月
近年來人工智能逐步走入大眾視野,帶來了一系列的震撼與神跡,但卻少有人能夠?qū)⑷斯ぶ悄芗捌浔澈蟮倪壿嬛v得通俗易懂,為什么呢?因為人工智能中確實存在“不可解釋性”。
大家知道柯潔和AlphaGo下完棋以后到后臺擦眼淚,說根本看不到贏的希望,但讓我們吃驚的是不光棋手不理解AlphaGo怎么下的,連設(shè)計它的谷歌工程師都搞不清楚它為什么這么走。
谷歌在AlphaGo之后又造了一個AlphaGo 0。AlphaGo是先學(xué)人類的殘局學(xué)棋譜,最后超越了人類。AlphaGo 0不學(xué)人類的經(jīng)驗,而是自己和自己對弈,弄個雙胞胎兄弟自己打,所以AlphaGo 0的意思就是從零學(xué)起。結(jié)果七天之后,AlphaGo 0就超過AlphaGo的水平,40天之后就打遍天下無敵手,到今天沒有人能打敗它。
這件事給我們帶來了更大的震撼,我們?nèi)祟愐詾榘练e累了兩千年的圍棋經(jīng)驗,對AlphaGo 0來說一錢不值。不僅一錢不值而且是累贅,學(xué)了人類的棋譜后反而受到了限制,水平無法提高了。這兩件事的震撼非常大,逼著我們要把這個問題想清楚,想到底學(xué)習的本質(zhì)、知識的本質(zhì)是什么?
暗知識來襲
一直以來人類的知識可以分為兩類:“明知識”和“默知識”(Tacit Knowldge,又稱默會知識)。明知識就是那些可以用文字或公式清晰描述和表達出來的知識。默知識則是個人在感覺上能把握但無法清晰描述和表達的知識,也即我們常說的“只可意會,不可言傳”的那類知識。
人類發(fā)明文字以來,積累的知識主要是明知識,因為只有明知識才可以被記錄和傳播。一直到70年前,有一個奧匈科學(xué)家叫麥克波蘭尼發(fā)現(xiàn)了另外一種知識:默知識。比如說騎自行車,沒有一個人是看著手冊學(xué)會的,每個人都是先騎到車上,歪歪扭扭摔個跤就學(xué)會了。
我們?nèi)祟惖暮芏嗥渌寄苋沁@類的,只會意會、不可言傳。為什么說不出來?因為這類知識是在我們的大腦里建立了一個非常復(fù)雜的神經(jīng)元的聯(lián)系,但是我們語言的表達能力又非常弱,比如我們平均每秒鐘可以說五個字,語言能表達出來的信息要遠遠少于我們大腦里面存儲的信息。
直到現(xiàn)在,在人工智能特別是其中的一個重要流派——神經(jīng)網(wǎng)絡(luò)里,突然發(fā)現(xiàn)了海量的、人類既無法感受又無法描述和表達的新知識:“暗知識”——隱藏在海量數(shù)據(jù)中的相關(guān)性,或者萬事萬物間的隱蔽關(guān)系。
什么叫不可感受?就是那些人體感官無法感受的物理量、化學(xué)量。像我們眼睛看不到紫外線、紅外線、X射線,耳朵聽不到超聲波?;蛘呤俏覀兏泄倌芨惺艿竽X沒反應(yīng),不會建立新的神經(jīng)元連接,像我們聽馬路上噪聲,什么都聽不出來。
什么叫不可表達?就是這些量之間的關(guān)系太多太復(fù)雜,根本無法用文字或者公式描述。AlphaGo下棋就是這類暗知識。暗知識就是人發(fā)現(xiàn)不了,但機器能發(fā)現(xiàn)的萬事萬物間的隱蔽關(guān)系。
注意,暗知識不是那些人類尚未發(fā)現(xiàn)但一經(jīng)發(fā)現(xiàn)就可以理解的知識。比如牛頓雖然沒有發(fā)現(xiàn)相對論,但如果愛因斯坦穿越時空回去給他講,他是完全可以理解的,因為理解相對論用到的數(shù)學(xué)知識如微積分牛頓都有了。即使在微積分產(chǎn)生之前,如果愛因斯坦穿越2 000年給亞里士多德講相對論,亞里士多德也能理解,至少能理解狹義相對論背后的物理直覺。
但如果給亞里士多德講量子力學(xué)他就不能理解,因為他的生活經(jīng)驗中既沒有薛定諤的貓(用來比喻量子力學(xué)中的不確定性,一個封閉的盒子里的貓在盒子沒打開時同時既是死的也是活的,一旦打開盒子看,貓就只能有一種狀態(tài),要么是死要么是活),他的數(shù)學(xué)水平也無法理解波動方程。那么我們可以說對亞里士多德來說,量子力學(xué)就是暗知識。量子力學(xué)因為沒有經(jīng)驗基礎(chǔ),甚至和經(jīng)驗矛盾,在剛發(fā)現(xiàn)的初期,幾乎所有的物理學(xué)家都大呼“不懂”,至今能夠透徹理解的人也極少。甚至連愛因斯坦都不接受不確定性原理。
人類過去積累的明知識呈現(xiàn)出完美的結(jié)構(gòu),整個數(shù)學(xué)就建立在幾個公理之上,整個物理就建立在幾個定律之上,化學(xué)可以看成是物理的應(yīng)用,生物是化學(xué)的應(yīng)用,認知科學(xué)是生物學(xué)的應(yīng)用,心理學(xué)、社會學(xué)、經(jīng)濟學(xué)都是這些基礎(chǔ)科學(xué)的應(yīng)用組合。這些知識模塊之間有清晰的關(guān)系。但是機器挖掘出來的暗知識則像一大袋土豆,每個之間都沒有什么關(guān)系,更準確地說是我們不知道它們之間有什么關(guān)系。
機器如何學(xué)習暗知識
人類學(xué)習的本質(zhì)是大腦神經(jīng)元之間的連接,正是基于這一理解人類才開始模仿人腦,造出了電子神經(jīng)元和神經(jīng)網(wǎng)絡(luò)。
我們可以把大腦看成一個黑盒子。黑盒子上有很多旋鈕,每個旋鈕就是神經(jīng)網(wǎng)絡(luò)中的一個權(quán)重。 假設(shè)我們現(xiàn)在要讓這個黑盒子學(xué)會識別汽車和貓, 黑盒子怎么學(xué)呢?
我們先找100張汽車的圖片和100張貓的圖片, 我們在黑盒子的輸出端裝兩個燈泡,第一個燈泡亮表示機器認出了汽車,第二個燈泡亮表示機器認出了貓。現(xiàn)在我們給機器一張張看汽車的圖片。 一開始,機器不會認,燈是亂亮,可能兩個都亮或者兩個都不亮,甚至只有第二個燈亮,把汽車認成貓。那我們就慢慢調(diào)節(jié)旋鈕,一直調(diào)到只有第一個燈燈亮。把100張汽車圖片一張一張給機器看,都是第一個燈亮。然后給機器看貓的圖片,耐心調(diào)旋鈕,一直到只有第二個燈亮。 現(xiàn)在我們就說機器訓(xùn)練的差不多了,可以認汽車和貓了。這時候我們還不放心,就再找一些機器沒見過的汽車和貓的圖片給它看,如果燈亮的都是正確的,我們就說訓(xùn)練成功了。
常說的機器訓(xùn)練需要大量的訓(xùn)練數(shù)據(jù)就是說的這個過程,所謂訓(xùn)練數(shù)據(jù)就是那100張汽車和貓的圖。當然實際當中訓(xùn)練數(shù)據(jù)要大得多。聽上去很神秘的神經(jīng)網(wǎng)絡(luò),但它的工作原理就是這么簡單。
今天,一顆芯片上可以放大概一億個這樣的黑盒子,從1960年到現(xiàn)在,計算機芯片的技術(shù)是上千萬倍的增長。所以說當神經(jīng)原多了以后,它就可以識別更復(fù)雜的圖形,比如說人臉識別,看X光片子等。
神經(jīng)網(wǎng)絡(luò)的局限在于不適合發(fā)現(xiàn)因果關(guān)系,也不會推理。事物間有兩類關(guān)系:一類是因果關(guān)系,一類是相關(guān)關(guān)系。因果是一件事導(dǎo)致另一件事,比如陽光很毒導(dǎo)致皮膚曬黑;相關(guān)是一件事和另一件事同時發(fā)生,皮膚曬黑時冰激凌也化了,皮膚曬黑不是冰激凌化了的原因,它們共同的原因可能是陽光很毒。
神經(jīng)網(wǎng)絡(luò)最擅長的是,發(fā)現(xiàn)事物間隱蔽的相關(guān)性,也就是暗知識。數(shù)據(jù)量越大,相關(guān)性越隱蔽,人越頭痛,機器越得心應(yīng)手。 但給神經(jīng)網(wǎng)絡(luò)一個簡單的邏輯推理問題可能就難倒它了。
比如你讓它聽兩個句子: 第一個是“餐館拒絕了這幫學(xué)生的訂餐要求,因為他們害怕喧嘩”,這里的“他們”是指誰?再聽個句子:“餐館拒絕了這幫學(xué)生訂餐要求,因為他們喜歡喧嘩”,這里的“他們”又是誰?對我們?nèi)祟悂碚f非常簡單,第一個“他們”當然指餐館,第二個指學(xué)生,但對機器可就難死了。因為機器首先要理解場景:餐館是干什么的?喧嘩什么意思?為什么餐館里不能喧嘩?餐館和學(xué)生是什么關(guān)系?各自有什么權(quán)利?一大堆背景常識和一大堆因果關(guān)系,這些都不是神經(jīng)網(wǎng)絡(luò)擅長的。神經(jīng)網(wǎng)絡(luò)雖然在很多方面能遠超人類,但在有些方面還是遠遠不及人。
暗知識可以應(yīng)用在哪些領(lǐng)域
暗知識是指神經(jīng)網(wǎng)絡(luò)或者機器發(fā)現(xiàn)的事物間隱藏的關(guān)系。理解了暗知識就可以把握人工智能的本質(zhì),甄別核心技術(shù),找到創(chuàng)業(yè)和投資的最佳領(lǐng)域。
1.人臉識別
現(xiàn)在國內(nèi)應(yīng)用最廣的就是人臉識別,人臉識別是一個特別適合神經(jīng)網(wǎng)絡(luò)的領(lǐng)域。人看東西就是抓取主要特征,在過去幾十萬年的演化中,所有感觀演化就是:第一覓食,第二求偶,第三求生。就這么簡單地做出決定,因為沒時間觀察復(fù)雜的東西,所以人類到今天也不善于觀察特別復(fù)雜的東西。
比如我們看人臉,這個人高鼻梁、大眼睛、方臉盤,感覺都一樣。但機器不一樣,它可以看得非常細,像一個很有經(jīng)驗的老偵探,看你臉上的皺紋和兩眼的距離。因為抓取的特征多,所以機器識別就比人類準。
2.精準醫(yī)療
現(xiàn)在的很多人類疾病,比如說血糖高,有很多的原因,可能是遺傳、飲食、生活習慣、腎功能、心臟功能等。你要把所有原因列出來,可能有幾百個原因,它們之間的關(guān)系是非常復(fù)雜的,它影響的量也不一樣。我們?nèi)祟惖尼t(yī)學(xué)對這樣一個病的診斷,只能把最重要的原因抓出來。
在北京一個大醫(yī)院看病,需要花好大的勁才能掛一個專家號,進去以后只有五分鐘時間,因為一個醫(yī)生一天要看很多病人,只能給你五分鐘,在看病歷和病人對話的過程中,他只可能抓住幾個最主要的原因。但應(yīng)用了人工智能的精準醫(yī)療就可以做出非常精細的判斷,不光是這樣,如果它能夠把歷史上所有的已知病人的資料都學(xué)一遍的話,它就可能成為地球上最有經(jīng)驗的醫(yī)生,相當于看過一百萬個病人的醫(yī)生。
3.新藥研發(fā)
新藥發(fā)現(xiàn)簡單來說分成兩個階段:第一個階段,就是生物學(xué)家要發(fā)現(xiàn)某種疾病是由哪個蛋白質(zhì)造成的;第二個階段是由化學(xué)家找到一種化合物和這個蛋白質(zhì)發(fā)生反應(yīng),比如說把蛋白質(zhì)抑制住,這樣這個病就治好了。簡單粗暴來講就是這樣,當然實際情況比這個復(fù)雜。
過去這件事怎么做呢?就是那些很有經(jīng)驗的化學(xué)家,看蛋白質(zhì)的三維結(jié)構(gòu),然后就在想,我似乎見過類似的東西,我在已知化合物的庫里面(這個庫有多大呢?現(xiàn)在超過十億個)挑出一個適合它的??梢韵胂筮@需要做多少實驗。所以說這個過程大概需要2~3年的試錯過程,非常慢?,F(xiàn)在機器怎么做?就是把歷史上化合物和蛋白質(zhì)匹配的歷史信息全部學(xué)一遍,然后就可以在幾天之內(nèi)能算出一個最適合的化合物。所以這個也是在大量的數(shù)據(jù)里頭找到相關(guān)性的關(guān)系。
機器認知新時代
今后10年、20年會是一個非常有意思的時代,我們可能會進入一個新的世界,這個時代我把它叫機器認知時代。
機器認知時代的第一個特點,就是到處都有傳感器,記錄著我們周圍很多的量;第二個特點是,機器可以從大量記錄下來的變量里發(fā)現(xiàn)很復(fù)雜的相關(guān)性,然后用來為我們的生活、為我們的生產(chǎn)服務(wù);第三個特點是,未來可能有很多機器在不知疲倦地7×24小時工作。
今天我們面對的許多問題都像圍棋一樣有巨大的變量,解決這些問題和下圍棋一樣是在組合爆炸中尋求最優(yōu)方案。例如全球變暖的預(yù)測和預(yù)防、癌癥的治愈、重要經(jīng)濟社會政策的實施效果等,系統(tǒng)越復(fù)雜、變量越多,人類越無法把握,機器學(xué)習就越得心應(yīng)手。
我們可以預(yù)見一幅未來世界的知識圖譜:所有的知識分為兩大類界限分明的知識——人類知識和機器知識。人類的知識如果不可陳述則不可記錄和傳播,但機器發(fā)掘出來的知識即使無法陳述和理解也可以被記錄并能在機器間傳播。
無數(shù)的機器將不知疲倦地晝夜工作,很快我們就會發(fā)現(xiàn)機器新發(fā)掘出來的暗知識會迅速積累。和下圍棋一樣,暗知識的數(shù)量和質(zhì)量都將快速超過我們在某個領(lǐng)域積累了幾百年甚至幾千年的知識,這場人類認知革命的意義也許會超過印刷術(shù)的發(fā)明,也許會超過文字的發(fā)明,甚至只有人類產(chǎn)生語言可與之相比。
【鈦媒體作者介紹:寇藝明,中信出版社主編 】
《暗知識:機器認知如何顛覆商業(yè)和社會》將會納入鈦媒體Pro版書庫,敬請大家關(guān)注前沿書庫的上新動態(tài)~每位Pro專業(yè)用戶一年可以在書庫中任意選擇三本書,由鈦媒體免費贈送哦~點擊鏈接、登錄,進入“前沿書庫”選書:http://m.chcmb.cn/pro
- 更多人工智能相關(guān)好書:http://m.chcmb.cn/3122712.html
- 創(chuàng)業(yè)事項相關(guān)好書:http://m.chcmb.cn/2788508.html
- 培養(yǎng)領(lǐng)導(dǎo)力相關(guān)好書:http://m.chcmb.cn/2678549.html






快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論
這是一個不錯的思路。
這是一個很好的研究方向?。?/p>