在鈦媒體Pro專業(yè)用戶和付費(fèi)用戶專享的“鈦坦白”在線課堂第33期,我們?cè)俅握?qǐng)來(lái)三位鈦客分享對(duì)機(jī)器學(xué)習(xí)的思考 。本期鈦客之一、第四范式聯(lián)合創(chuàng)始人、首席研究科學(xué)家陳雨強(qiáng),曾在 NIPS、AAAI、ACL、SIGKDD 等頂級(jí)會(huì)議上發(fā)表論文,并獲得了 APWeb 2010 Best Paper Award,在KDD Cup 2011名列前三。在百度鳳巢任職期間,陳雨強(qiáng)主持了世界首個(gè)商用深度學(xué)習(xí)系統(tǒng);在今日頭條期間,陳雨強(qiáng)主持了全新的信息流推薦與廣告系統(tǒng)的設(shè)計(jì)實(shí)現(xiàn)。
本文節(jié)選自陳雨強(qiáng)在鈦坦白的分享。如果您還不是鈦媒體Pro用戶,希望查看鈦坦白所有干貨,進(jìn)入鈦坦白九個(gè)專業(yè)群交流,并查看更豐富的專業(yè)數(shù)據(jù)和信息,可點(diǎn)擊:http://m.chcmb.cn/pro 注冊(cè)。
以下根據(jù)陳雨強(qiáng)在鈦坦白的分享實(shí)錄整理:
大家晚上好,我是陳雨強(qiáng),現(xiàn)在在第四范式負(fù)責(zé)人工智能算法的研究和開發(fā)相關(guān)的工作。今天我要跟大家分享的題目是《人工智能在工業(yè)界應(yīng)用的必經(jīng)之路》,分享一下我之前在工業(yè)界的經(jīng)歷,希望和大家有一些思想上的碰撞。
人工智能正進(jìn)入更多產(chǎn)品、企業(yè)、行業(yè)
最近人工智能在工業(yè)界越來(lái)越火,過(guò)去五年之間人工智能的應(yīng)用是以指數(shù)級(jí)在上升,不管在公司內(nèi)部還是行業(yè)之間,人工智能變成一個(gè)炙手可熱的名詞。從公開資料上可以看到,谷歌在2012的時(shí)候,其實(shí)跟Facebook一樣都只有很少量的一些應(yīng)用使用了人工智能技術(shù),比如說(shuō)在他們最當(dāng)家的那些搜索或者是Feed流上使用的這些技術(shù),但是到2016年Q2的時(shí)候,谷歌已經(jīng)有超過(guò)2000家的應(yīng)用使用了人工智能技術(shù),而在Facebook里已經(jīng)有超過(guò)17個(gè)大的團(tuán)隊(duì),25%以上的工程師正在使用人工智能。也就是說(shuō),在互聯(lián)網(wǎng)的這些巨頭里面,人工智能的影響力正在從少數(shù)幾個(gè)產(chǎn)品迅速的擴(kuò)展到各種各樣的產(chǎn)品線上。
還有一個(gè)比較有意思的現(xiàn)象,就是人工智能在工業(yè)界的影響會(huì)越來(lái)越大,熱詞正從“移動(dòng)+”“互聯(lián)網(wǎng)+”到“AI+”轉(zhuǎn)變。之前處于跑馬圈地的時(shí)代,所以說(shuō)有“移動(dòng)+”和“互聯(lián)網(wǎng)+”作為渠道,能讓傳統(tǒng)的實(shí)體行業(yè)煥發(fā)新的一春,但是等到流量的紅利已經(jīng)到達(dá)了一定的邊界的時(shí)候,我們急需一些新的方式能讓增長(zhǎng)保持持續(xù)。
AI是下一個(gè)增長(zhǎng)的點(diǎn),所以傳統(tǒng)的“互聯(lián)網(wǎng)+”的公司紛紛轉(zhuǎn)向“AI+”,比如說(shuō)滴滴、美團(tuán),小米,他們擁有很多的數(shù)據(jù),他們現(xiàn)在也在紛紛建立研究院,研究這些數(shù)據(jù)怎么樣能產(chǎn)生更大的價(jià)值。比如美圖,它背后有大量的照片,所以他們也可以成為非常優(yōu)秀的人工智能公司。除此之外,還有一些天生就是人工智能與行業(yè)結(jié)合的公司,比如說(shuō)人工智能加上新聞就是頭條,人工智能加上機(jī)器人就是大疆這樣的公司。
給大家分享之前我介紹一下自己的經(jīng)歷。AI大潮從2001年開始呈指數(shù)級(jí)的上升,非常有幸我趕上了這波的大潮,當(dāng)時(shí)在學(xué)校里,我主要做的是遷移學(xué)習(xí)方面的研究,在NIPS和AAAI等頂會(huì)上有比較多的論文發(fā)表,然后到了工業(yè)界之后,我發(fā)現(xiàn)其實(shí)看到的問(wèn)題和現(xiàn)在有很大的不同。
我畢業(yè)之后首先去的是百度,在百度主要負(fù)責(zé)的是搜索廣告系統(tǒng)——鳳巢系統(tǒng),這個(gè)階段是解決一個(gè)公司的一個(gè)問(wèn)題,就是怎么提高廣告點(diǎn)擊率,當(dāng)時(shí)做的事情偏純技術(shù),我主要做的是如何將上千億特征的機(jī)器學(xué)習(xí)系統(tǒng)變成一個(gè)深度學(xué)習(xí)的系統(tǒng),這也是當(dāng)時(shí)我們所知道的世界上第一個(gè)把深度學(xué)習(xí)應(yīng)用到商業(yè)變現(xiàn)上的一個(gè)成功的系統(tǒng)。
之后我去了今日頭條,在頭條和百度遇到的問(wèn)題其實(shí)并不太一樣,百度鳳巢里面遇到的問(wèn)題主要是搜索廣告,在頭條里我會(huì)遇到很多的問(wèn)題,比如說(shuō)主信息流推薦、小頻道推薦、視頻推薦、信息流廣告,還有評(píng)論排序等等非常非常多的應(yīng)用和業(yè)務(wù),這樣的應(yīng)用和業(yè)務(wù)對(duì)我來(lái)說(shuō)最大的感受是,我發(fā)現(xiàn)了人工智能需要更緊密地和產(chǎn)品、應(yīng)用相結(jié)合。我在頭條除了做了一個(gè)大規(guī)模的機(jī)器學(xué)習(xí)系統(tǒng),能讓它有個(gè)性化的推薦效果之外,還有一個(gè)很重要的事情,就是設(shè)計(jì)了一套機(jī)制,能夠讓機(jī)器學(xué)習(xí)系統(tǒng)發(fā)揮最大的效能。打個(gè)比方來(lái)說(shuō),機(jī)器學(xué)習(xí)系統(tǒng)是一個(gè)汽車的引擎,而我們?cè)O(shè)計(jì)的就是一個(gè)傳動(dòng)系統(tǒng),有了一個(gè)比較好的傳動(dòng)系統(tǒng),才能把機(jī)器學(xué)習(xí)的能力發(fā)揮到極至。
離開了頭條之后,我到了第四范式,在第四范式我面臨的行業(yè)更加多種多樣。不止是新聞行業(yè)了,可能是金融、電信、互聯(lián)網(wǎng),包括各種各樣的問(wèn)題,有獲客、風(fēng)控、營(yíng)銷、推薦、排序等很多很多的問(wèn)題。所以在這個(gè)地方,我遇到的新問(wèn)題是,怎么樣能把我在過(guò)去擁有的人工智能的知識(shí)應(yīng)用到各行各業(yè)。
從解決一個(gè)公司的一個(gè)問(wèn)題,到解決一個(gè)公司的很多問(wèn)題,到解決各行各業(yè)的各種問(wèn)題,這個(gè)經(jīng)歷給了我比較多的思考,比方說(shuō)如何做一個(gè)人工智能系統(tǒng),如何讓一個(gè)人工智能系統(tǒng)更加廣泛的在一個(gè)公司內(nèi)部被使用,如何讓一個(gè)人工智能系統(tǒng)有更好的機(jī)制,以及如何讓人工智能系統(tǒng)進(jìn)入到更多的行業(yè)之內(nèi)。
人工智能成功的五個(gè)條件
為什么人工智能在最近一段時(shí)間非?;?,而不是更早的比方說(shuō)十年前,二十年前非?;鹉?,為什么AlphaGo能打敗李世石,在2016年而不是更早呢,我們直觀地認(rèn)為,因?yàn)樗惴ǖ膭?chuàng)新,因?yàn)槌霈F(xiàn)了深度學(xué)習(xí),因?yàn)槌霈F(xiàn)了DQN這樣新的算法,但是這只是一部分原因。國(guó)內(nèi)外很多專家總結(jié)出了人工智能成功的五大條件,我這里跟大家分享一下:
- 邊界清晰。就是說(shuō)對(duì)于比如說(shuō)下圍棋這樣的問(wèn)題來(lái)說(shuō),我們需要做的是一個(gè)19×19的棋盤上,黑白兩方輪流下子,最后看誰(shuí)圍的空多,誰(shuí)就贏這樣的一個(gè)問(wèn)題。如果我們把棋盤的大小變成20×20,或者我們改變了黑白兩種子的顏色,有黑白紅三種顏色,或者說(shuō)我們改變了圍棋的規(guī)則的話,這都會(huì)導(dǎo)致AlphaGo失效。
- 充足的外部反饋。外部的反饋其實(shí)包括兩點(diǎn)因素,第一點(diǎn)我們需要有外部告訴他是輸還是贏,不斷的有外部的棋手跟他進(jìn)行對(duì)戰(zhàn),或者是自我的博奕,能有輸贏,外部的反饋才會(huì)讓他不斷的進(jìn)步。第二點(diǎn)這個(gè)系統(tǒng)本身也需要不斷的自我更新,適應(yīng)外部的反饋。
- 計(jì)算資源。雖然說(shuō)最近的算法有了非常大的進(jìn)步,但是計(jì)算資源也是產(chǎn)生智能非常關(guān)鍵的一點(diǎn)。最近業(yè)界在分布式計(jì)算的成功,讓我們相對(duì)于幾十年前有了一個(gè)技術(shù)上巨大的飛躍。舉個(gè)非常有趣的例子,當(dāng)時(shí)AlphaGo描述他的棋力的時(shí)候,都使用的是他使用的硬件資源來(lái)描述他的棋力,比方說(shuō)用單機(jī)版的AlphaGo和更高智能所謂多機(jī)并行的AlphaGo,從這個(gè)地方可以看出,計(jì)算資源對(duì)于人工智能的高低起著至關(guān)重要的作用。
- 頂尖的數(shù)據(jù)科學(xué)家和頂尖的人才。強(qiáng)化學(xué)習(xí)、深度學(xué)習(xí)最近被重新提出,需要非常多的科學(xué)家的大量的工作,這些算法才能真正的被推行。現(xiàn)在在圍棋、語(yǔ)音和圖像上面這些技術(shù)都獲得了非常廣泛的長(zhǎng)足的進(jìn)步,那在其他的領(lǐng)域,仍然需要非常多的科學(xué)家做很多的研究,能讓這些技術(shù)能真正的進(jìn)入各行各業(yè)。
- 大數(shù)據(jù)。這個(gè)其實(shí)是AlphaGo成功的關(guān)鍵。當(dāng)時(shí)KGS流行,在KGS上有數(shù)十萬(wàn)盤高手對(duì)弈的棋譜,如果沒(méi)有這些數(shù)據(jù),AlphaGo絕對(duì)不可能在這么短時(shí)間之內(nèi)擊敗人類。
這些要素總結(jié)起來(lái)有三點(diǎn):一方面我們需要有很好的技術(shù),包括計(jì)算資源和大數(shù)據(jù),一方面是業(yè)務(wù)邊界要清晰,要有反饋,另外一方面我們需要有人,我們需要有很好的科學(xué)家,需要有很好的場(chǎng)景,能讓我們使用上這個(gè)人工智能。
如何獲得一個(gè)好的機(jī)器學(xué)習(xí)系統(tǒng)?
首先說(shuō)說(shuō)什么是好的機(jī)器學(xué)習(xí)系統(tǒng)。好的機(jī)器學(xué)習(xí)系統(tǒng)一定是可擴(kuò)展的機(jī)器學(xué)習(xí)系統(tǒng)??蓴U(kuò)展的機(jī)器學(xué)習(xí)系統(tǒng)并不等于可擴(kuò)展的系統(tǒng),這里面最大的區(qū)別是什么呢?最大的區(qū)別就是,可擴(kuò)展的機(jī)器學(xué)習(xí)系統(tǒng)一方面數(shù)據(jù)的處理的吞吐隨著集群和機(jī)器數(shù)量的增加而增加,這是傳統(tǒng)的可擴(kuò)展系統(tǒng);而另一方面可擴(kuò)展機(jī)器學(xué)習(xí)系統(tǒng)指的是智能的水平和體驗(yàn)的壁壘,隨著業(yè)務(wù)和數(shù)據(jù)的增加而增加,這個(gè)可能是機(jī)器學(xué)習(xí)最不可替代的價(jià)值所在。
比如,過(guò)去要建立競(jìng)爭(zhēng)壁壘主要是通過(guò)業(yè)務(wù)的創(chuàng)新,行業(yè)的跑馬圈地,通過(guò)新的渠道來(lái)提升效率。這種方式之中,對(duì)于產(chǎn)品本身來(lái)說(shuō)是相對(duì)很容易被抄襲的,而資本的投入、運(yùn)營(yíng)的強(qiáng)度和渠道是否完整是整個(gè)公司成功的關(guān)鍵。但是隨著數(shù)據(jù)和AI的普及現(xiàn)在有了一個(gè)新的方式,就是通過(guò)時(shí)間和數(shù)據(jù)創(chuàng)造壁壘。
比如現(xiàn)在的搜索引擎,即使有人有了百度全部的代碼,也很難做出一個(gè)超過(guò)百度的體驗(yàn)水平的搜索引擎,因?yàn)榘俣葥碛凶罱耆袊?guó)上十億人所有的搜索數(shù)據(jù)。如果沒(méi)有了這些數(shù)據(jù)的話,即使有同樣的算法,也沒(méi)有辦法得到同樣的體驗(yàn)水平。從這個(gè)角度上來(lái)說(shuō),將來(lái)的競(jìng)爭(zhēng)壁壘,將不僅僅只是在我們的業(yè)務(wù)上,更會(huì)在我們的數(shù)據(jù)上,有了更多的數(shù)據(jù)我們就可以通過(guò)人工智能產(chǎn)生更高的壁壘,然后拉開更大的差距。
那怎樣獲得一個(gè)高智能水平的可擴(kuò)展的機(jī)器學(xué)習(xí)系統(tǒng)呢?1960年代到1990年代,Vapnik 和 Chervonenkis提出了“VC維”理論,形式化地描述了機(jī)器學(xué)習(xí)算法對(duì)復(fù)雜函數(shù)擬合的能力。“VC維”類似人腦內(nèi)的神經(jīng)元,有越多的神經(jīng)元代表這個(gè)人越聰明。但有越高的智商不一定會(huì)有越高的成就,還有一個(gè)很關(guān)鍵的因素就是你需要有很多的經(jīng)歷,只有那些智商比較高同時(shí)又很多經(jīng)歷的人才能悟出很多的道理,在機(jī)器學(xué)習(xí)“VC維”也是講的這么一個(gè)道理。
如下圖,過(guò)去的數(shù)據(jù)不是很大,所以隨著我們的迭代的增加,我們的訓(xùn)練損失函數(shù)在不斷的下降,我們測(cè)試損失函數(shù)先會(huì)下降然后會(huì)上升,這個(gè)地方我們需要控制VC維,讓模型不要共擬合。這好比你是一個(gè)比較聰明的孩子,很小的時(shí)候不能讓你過(guò)度地思考,因?yàn)槟愕木Ρ容^少,所以非常容易誤入歧途。其實(shí)比較好的做法是上方右側(cè)這幅圖,也就是我們使用VC維比較低的模型,讓訓(xùn)練的損失和測(cè)試的損失函數(shù)同時(shí)的下降,這是我們認(rèn)為比較好的一個(gè)模型。
當(dāng)然這只是故事的一半,隨著時(shí)代的不斷的發(fā)展,我們會(huì)發(fā)現(xiàn)數(shù)據(jù)會(huì)越來(lái)越多,如果我們把橫軸替換成數(shù)據(jù)這個(gè)維度,如下方這幅圖,在數(shù)據(jù)比較小的時(shí)候,低VC維的模型比高VC維的模型效果好,因?yàn)楦遃C維的模型會(huì)over-fitting,但是隨著數(shù)據(jù)越來(lái)越多,高VC維的效果會(huì)不斷提升,而低VC維系統(tǒng)會(huì)達(dá)到一個(gè)上階,這就是所謂的under-fitting的問(wèn)題。當(dāng)然這只是故事的一半,隨著時(shí)代的不斷的發(fā)展,我們會(huì)發(fā)現(xiàn)數(shù)據(jù)會(huì)越來(lái)越多,如果我們把橫軸替換成數(shù)據(jù)這個(gè)維度,數(shù)據(jù)從小到大這么一個(gè)過(guò)程,我們會(huì)發(fā)現(xiàn),下方這幅圖就是有兩條曲線。其中第一條曲線是說(shuō),過(guò)去的曲線是這條over-fitting的曲線,在數(shù)據(jù)比較小的時(shí)候,我們低VC維的模型比高VC維的模型效果好,因?yàn)楦遃C維的模型會(huì)over-fitting,但是隨著數(shù)據(jù)越來(lái)越多的時(shí)候,高VC維的效果會(huì)不斷提升,而低VC維系統(tǒng)會(huì)達(dá)到一個(gè)上階,這就是所謂的under-fitting的問(wèn)題。
在將來(lái)大數(shù)據(jù)的時(shí)代,under-fitting可能是需要更關(guān)注的一個(gè)問(wèn)題,因?yàn)閡nder-fitting會(huì)限制你使用大數(shù)據(jù),以及限制數(shù)據(jù)的價(jià)值的體現(xiàn)。所以說(shuō)在大數(shù)據(jù)的時(shí)代里面,我們強(qiáng)調(diào)可擴(kuò)展的概念,智能水平、模型的效果應(yīng)該隨著數(shù)據(jù)的增加而不斷的增加,而不是隨著數(shù)據(jù)的增加達(dá)到一個(gè)瓶頸,我們要設(shè)計(jì)的系統(tǒng)應(yīng)該是高VC維的系統(tǒng)。
從模型角度、特征角度提高VC維
我們知道機(jī)器學(xué)習(xí)等于數(shù)據(jù)+特征+模型,如果說(shuō)我已經(jīng)有了很多的數(shù)據(jù),提升VC維的途徑就只有兩條——從特征的角度和從模型的角度。
我們把特征分成兩類,一類叫做宏觀特征,描述的統(tǒng)計(jì)類特征,比如說(shuō)整體的點(diǎn)擊率,或者整體統(tǒng)計(jì)系統(tǒng)這樣的特征;另一類特征是微觀特征,最典型的微觀特征可能是ID類的特征,每個(gè)人都會(huì)有這樣的特征,每個(gè)物品也會(huì)有一個(gè)ID,然后人和物品的組合也會(huì)有這樣的ID類特征;相應(yīng)的模型也會(huì)分成兩類,一類是簡(jiǎn)單的模型,比方說(shuō)線性模型,另一類是復(fù)雜模型,比如說(shuō)深度學(xué)習(xí)模型。
這里我們引入機(jī)器學(xué)習(xí)的四個(gè)象限的概念:
第一象限是簡(jiǎn)單模型加上宏觀特征,這是我們傳統(tǒng)的專家系統(tǒng)和統(tǒng)計(jì)模型所在的范疇,大家可能比較熟悉的一些傳統(tǒng)的機(jī)器學(xué)習(xí)數(shù)據(jù)集比如說(shuō)UCI就是典型的這個(gè)象限內(nèi)的。這大概是七八十年代的數(shù)據(jù)集,每個(gè)數(shù)據(jù)集里面有一千個(gè)左右的訓(xùn)練數(shù)據(jù),特征維度也不高,分的類數(shù)也并不多,在這樣的一個(gè)數(shù)據(jù)集里面,統(tǒng)計(jì)模型會(huì)比較盛行,他主要解決的問(wèn)題是怎么樣找出特征之間的關(guān)系,以及各自的關(guān)聯(lián)度。
第二象限是簡(jiǎn)單模型加上復(fù)雜特征,這里面最成功的案例可能就是谷歌的Adwords。谷歌的Adwords里面有上千億的特征,取得了非常大的成功,給谷歌帶來(lái)了很多的收益,現(xiàn)在占據(jù)了谷歌70%以上的收入。同時(shí)谷歌的展示廣告也使用了同樣的技術(shù),并且占據(jù)剩下20%的收入。這樣的模型現(xiàn)在不僅是在谷歌,在整個(gè)互聯(lián)網(wǎng)廣告中都是被使用的最廣泛的一個(gè)技術(shù)。
第三象限是使用復(fù)雜的模型、宏觀的特征,這里最典型的代表是雅虎news和bing這樣的系統(tǒng),bing的廣告在2013年提出他們的BPR模型,來(lái)去刻畫每個(gè)特征的知信度,雅虎也是第三象限最忠實(shí)的支持者之一,大家所熟悉的COEC就來(lái)自于這樣的模型,雅虎還設(shè)計(jì)了很多增強(qiáng)學(xué)習(xí)的機(jī)制,比如說(shuō)多臂老虎機(jī),這也是這個(gè)里面最成功的應(yīng)用之一。
第四象限是復(fù)雜模型和微觀特征,現(xiàn)在還是一個(gè)非常熱門的研究領(lǐng)域,里面最難的一個(gè)問(wèn)題是如何在這么大規(guī)模的特征情況下,使用非線性模型。計(jì)算量是一個(gè)很大的一個(gè)難點(diǎn),比方說(shuō)如果我有上千億的特征,我的節(jié)點(diǎn)有上千個(gè),我可能需要上萬(wàn)億甚至更多的參數(shù),才能保存下來(lái)這個(gè)模型,這個(gè)可能不管是從內(nèi)存上還是計(jì)算上都是不可接受的,所以這是一個(gè)非常熱門的研究領(lǐng)域,非常多的研究機(jī)構(gòu)正在這個(gè)方面進(jìn)行嘗試。
我們現(xiàn)在講一下如何沿著第三象限就是復(fù)雜模型和宏觀特征這條路來(lái)優(yōu)化模型。這條路主要是由學(xué)術(shù)界主導(dǎo),這樣的模型主要來(lái)自于 ICML、NIPS、ICLR這樣的會(huì)議,非線性有三把寶劍分別是Kernel、Boosting、Neural Network。Boosting最成功的是現(xiàn)在熟知的GBDT,Kernel比較成功的是SVM里面流行的那個(gè)RBF Kernel,Neural network比較流行的現(xiàn)在最成功的深度學(xué)習(xí)?,F(xiàn)在科學(xué)家為了實(shí)驗(yàn)的方便,對(duì)工程的實(shí)現(xiàn)能力要求并不是特別的高,大部分的模型是單機(jī)科學(xué)家在做,要解決的實(shí)際問(wèn)題是數(shù)據(jù)分布式和降低分布式通信帶來(lái)overhead這樣的問(wèn)題。
- 從模型角度提高VC維
工業(yè)界怎么根據(jù)特定應(yīng)用來(lái)優(yōu)化模型呢?主要的思路是:先觀察問(wèn)題,得到一些思考和假設(shè),然后我們把思考和假設(shè)通過(guò)建模的方式加入新的結(jié)構(gòu)和參數(shù),重新擬合我們的數(shù)據(jù),最后得到一個(gè)新的模型和新的驗(yàn)證。
以時(shí)序動(dòng)態(tài)的協(xié)同過(guò)濾為例,我們這里引用的是Koren、Yehuda發(fā)表的論文Collaborative filtering with temporal dynamics,這是這個(gè)領(lǐng)域被引用最多的一篇經(jīng)典論文。在這篇論文里面,我們首先有一個(gè)低秩的假設(shè),我們認(rèn)為一個(gè)矩陣是被分解成兩個(gè)更低維的矩陣相乘的結(jié)果。就比方說(shuō)圖上的這個(gè)4×4的矩陣就被分解為了兩個(gè),一個(gè)4×2的矩陣,一個(gè)2×4的矩陣,這兩個(gè)低維的矩陣一個(gè)是user的隱變量,一個(gè)是Item的隱變量。
靠下位置作者給出的圖,是作者發(fā)現(xiàn)的打分的問(wèn)題,比如MDB電影的打分會(huì)隨著時(shí)間的推移而不斷地上升,所以他設(shè)計(jì)了一系列的線性模型來(lái)擬合這樣的趨勢(shì)。他會(huì)設(shè)計(jì)一個(gè)User打分的時(shí)間,第一次打分的時(shí)間的偏置乘一個(gè)斜率是他打分的偏置,同時(shí)他會(huì)對(duì)每一個(gè)電影設(shè)計(jì)這樣的打分的偏置,考慮到每個(gè)Item隨著時(shí)間的影響受到的打分的波動(dòng)。
在第三個(gè)公式里面你可以看到,時(shí)間的波動(dòng)不會(huì)是一個(gè)純的線性的關(guān)系,所以作者用非線性的方式進(jìn)行分段的擬合,但是不管怎么說(shuō),這樣一個(gè)模式是比較清晰的,也就是說(shuō)我們首先觀察數(shù)據(jù),從數(shù)據(jù)中得到一些假設(shè),然后根據(jù)假設(shè)設(shè)計(jì)一個(gè)模型,這個(gè)模型會(huì)有幾個(gè)未知的參數(shù),我們通過(guò)機(jī)器學(xué)習(xí)的方式擬合這樣的參數(shù),最后得到一個(gè)模型,在新的數(shù)據(jù)上進(jìn)行驗(yàn)證,看它的效果如何。
- 從特征角度提高VC維
這方面工作主要是工業(yè)界主導(dǎo)的,比較有意思的成果主要發(fā)表在ADD、ADKDD或者WWW這樣一些學(xué)術(shù)會(huì)議上,這些模型相對(duì)來(lái)說(shuō)比較簡(jiǎn)單粗暴,基本上都是LR。
沿著特征這條路優(yōu)化的特點(diǎn)就是模型一定要做成分布式的,這個(gè)在工程上的挑戰(zhàn)是非常非常大的。在這條路上比較成功的典型公司,比如谷歌使用了上千億的特征,百度也使用了上千億的特征,這些公司都是是從最細(xì)的角度來(lái)描述這些數(shù)據(jù)。
上千億的特征是個(gè)什么概念呢?如果我們每個(gè)特征只用一個(gè)Float來(lái)表示也需要上T的內(nèi)存,這是單機(jī)非常非常難以存儲(chǔ)下來(lái)的。這個(gè)地方還只是講到了模型存儲(chǔ)的空間,如果考慮到數(shù)據(jù)存儲(chǔ)的空間和其他的一些額外開銷的話,我們必須要設(shè)計(jì)一個(gè)模型分布式的系統(tǒng),而不是一個(gè)單機(jī)的系統(tǒng)。針對(duì)這樣的難點(diǎn),學(xué)術(shù)界里面比如KDD、WWW等頂會(huì)上都有很多的文章在研究如何高效的并行,如何保證快速收斂,有很多的異步的模式被提出來(lái),比如說(shuō)ASP、BSP同步異步算法。
我們用到的模型主要都是邏輯回歸模型,所以說(shuō)線性模型的理論其實(shí)是非常成熟的,模型本身的一些改進(jìn)和優(yōu)化并沒(méi)有像上面那個(gè)第三象限里面那么多,所以說(shuō)它的更新、改進(jìn)主要會(huì)集中在所謂的特征提取或者特征工程這樣的領(lǐng)域。
我先解釋一下為什么會(huì)有這么多特征。我們對(duì)所有觀察到的微觀變量進(jìn)行建模,以搜索廣告為例,每一個(gè)user的ID,每一個(gè)query,每一個(gè)廣告,都會(huì)有一個(gè)獨(dú)立的特征,同時(shí)為了個(gè)性化,user+廣告ID,user+query,query+廣告ID,我們有上億的user,上億的廣告,上億的query,這樣的組合會(huì)產(chǎn)生爆炸性的特征量,所以我們可以產(chǎn)生非常非常多的特征,這些特征是我們需要去建模的基礎(chǔ)的變量。
這樣的一個(gè)思路會(huì)比較奇怪,為什么我們把所有ID類特征作為基礎(chǔ)的建模變量,那是不是說(shuō)如果我們把用戶作為一個(gè)變量的話,只要來(lái)了一個(gè)新的用戶我們就不能對(duì)這個(gè)用戶進(jìn)行廣告點(diǎn)擊率的預(yù)估呢?并不是這個(gè)樣子的。這里面就涉及到另外一個(gè)概念就是特征的層次化,即使我們沒(méi)有見過(guò)這個(gè)新用戶,我們會(huì)有這個(gè)用戶的設(shè)備信息,地域信息,還可能有性別等特征,這些特征也能幫助我們?nèi)ヅ袛噙@個(gè)用戶的點(diǎn)擊率。
還以時(shí)序動(dòng)態(tài)協(xié)同過(guò)濾為例,我們看看如何沿著特征這條路來(lái)解決這個(gè)問(wèn)題。首先一點(diǎn)是我們不再對(duì)這樣的問(wèn)題有低秩假設(shè),如下圖左上角這個(gè)矩陣,還是原來(lái)ABCD四個(gè)人,WXYZ四個(gè)物品,我們把這樣一個(gè)矩陣直接拉平,變成一個(gè)往后one hot encoding的方式,這樣我們把所有的組合特征就變成了一個(gè)二維的矩陣,變成了一個(gè)一維組合特征的方式來(lái)表示。這樣的方式來(lái)說(shuō),就不需要再有更多的低值假設(shè),那b_ui這樣一項(xiàng)其實(shí)就可以通過(guò)我們的數(shù)據(jù)進(jìn)行擬合。
第二點(diǎn),可以通過(guò)不同維度的時(shí)間組合來(lái)建模時(shí)間維度的非線性跳變。作者也在論文寫到,他發(fā)現(xiàn)有些電影的打分并不是線性的,有時(shí)會(huì)出現(xiàn)一些不可解釋不可描述的跳變,這些跳變其實(shí)很難通過(guò)某種固定的方式進(jìn)行建模。所以他提出了下面好幾種建模的方式,比如說(shuō)把時(shí)間進(jìn)行分統(tǒng),跟每個(gè)物品Item進(jìn)行組合,跟每個(gè)用戶進(jìn)行組合,包括分統(tǒng)了以后進(jìn)行分段組合,這種方式都是不再對(duì)具體的時(shí)序特點(diǎn)進(jìn)行建模,而是把他變成一個(gè)參數(shù)統(tǒng)一的由數(shù)據(jù)進(jìn)行擬合。這個(gè)地方你也可以看出來(lái),當(dāng)我們的研究人員不能給出比較好的模型假設(shè)的時(shí)候,我們又不知道如何去應(yīng)對(duì)突變的時(shí)候,我們可以更多的去依賴于數(shù)據(jù),用潛在的參數(shù)建模可能性,然后通過(guò)數(shù)據(jù)學(xué)到這些參數(shù)應(yīng)該對(duì)應(yīng)的權(quán)重,然后進(jìn)行建模。
寬與深的大戰(zhàn)
其實(shí)并沒(méi)有哪個(gè)模型在所有的情況下都更好,換句話說(shuō),機(jī)器學(xué)習(xí)并沒(méi)有免費(fèi)的午餐也不會(huì)存在萬(wàn)能的模型。
沒(méi)有免費(fèi)午餐定理是由兩位數(shù)學(xué)家在95年提出來(lái)的,他們證明了,任何的算法不會(huì)嚴(yán)格優(yōu)于另一個(gè)算法,也就是說(shuō),如果我們能在某種損失函數(shù)下發(fā)現(xiàn)A優(yōu)化算法好于B優(yōu)化算法的話,我們一定能找出其他的一個(gè)損失函數(shù)使得B優(yōu)化算法好于A優(yōu)化算法。更直觀的描述是說(shuō),我們總能找出一個(gè)損失函數(shù),讓所有的算法都并不比隨機(jī)猜更好。
這個(gè)告訴了我們什么呢?所有的機(jī)器學(xué)習(xí)模型都是偏置,這個(gè)偏置代表你對(duì)數(shù)據(jù)的假設(shè),偏置本身并不會(huì)有哪個(gè)更好,所以說(shuō)你既可以使用更多的模型假設(shè)使用更少的數(shù)據(jù),也可以使用更少的模型假設(shè)使用更多的數(shù)據(jù),這都是能使得最終的模型效果變好的方式。總結(jié)起來(lái),對(duì)于我們工業(yè)界來(lái)說(shuō),機(jī)器學(xué)習(xí)并沒(méi)有免費(fèi)的午餐,一定要做出對(duì)于業(yè)務(wù)合適的選擇。
追求高VC維有兩條路,一個(gè)是走寬和離散的路,比如說(shuō)谷歌那條路,另一條是走深的那條路,比方說(shuō)雅虎news或者是bingads的路,這就是寬與深的大戰(zhàn)。因?yàn)閷捙c深在工業(yè)界都有非常成功的案例,所以堅(jiān)信寬的人和堅(jiān)信深的人在很長(zhǎng)一段時(shí)間內(nèi),都是互相不能理解的。
堅(jiān)信深度學(xué)習(xí)復(fù)雜模型的人認(rèn)為,寬度模型實(shí)在太簡(jiǎn)單了,20年前模型已經(jīng)被研究非常透徹了,沒(méi)有什么更多的創(chuàng)新。堅(jiān)持寬度模型的人來(lái)說(shuō),攻擊深度學(xué)習(xí)的點(diǎn)也非常的簡(jiǎn)單,深度學(xué)習(xí)從來(lái)就沒(méi)有真正的把所有的數(shù)據(jù)都用好過(guò),從來(lái)沒(méi)有真正發(fā)揮過(guò)所有數(shù)據(jù)的全部?jī)r(jià)值,沒(méi)有真正做到過(guò)真正的個(gè)性化,因?yàn)榇_實(shí)深度模型在推理上做得很好,但是在個(gè)性化,在記憶方面其實(shí)相比于寬度模型會(huì)差很多。
非常有幸的是我之前在兩邊都做過(guò)比較多的實(shí)際的探索和研究,其實(shí)寬和深都有各自的好處的。寬度模型和深度模型有非常強(qiáng)的融合的趨勢(shì)。換句話說(shuō),寬度模型和深度模型并沒(méi)有誰(shuí)比誰(shuí)更好,這就是所謂的沒(méi)有免費(fèi)的午餐定理。不同的業(yè)務(wù)應(yīng)該使用不同的模型,不同的模型也會(huì)有不同的特點(diǎn)。
寬度模型是有比較準(zhǔn)確的記憶能力的,而深度模型是有很強(qiáng)的推理能力的;寬度模型的泛化是靠層次化的特征進(jìn)行泛化,深度模型是靠模型本身的疊加進(jìn)行泛化;寬度模型有很強(qiáng)的可解釋性,比如說(shuō)一個(gè)線性的模型,我可以非常容易的知道每個(gè)特征的權(quán)重是多少,以及一每個(gè)特征是如何去影響最終的結(jié)果,而對(duì)于一個(gè)深度模型來(lái)說(shuō),我們是非常難理解原始的輸入和最終的輸出是怎么樣一個(gè)對(duì)應(yīng)的關(guān)系。
寬度的模型對(duì)平臺(tái)工程要求是更高的,因?yàn)槲覀兂诵枰獙?duì)數(shù)據(jù)進(jìn)行并行,還需要對(duì)模型進(jìn)行并行,而深度的模型對(duì)平臺(tái)工程的要求相對(duì)更低一點(diǎn),他的模型基本上都是單機(jī)可加載的。
還有對(duì)于選型很關(guān)鍵的一點(diǎn),寬度模型這條路上,特征工程的創(chuàng)新是提升效果的關(guān)鍵,業(yè)務(wù)的知識(shí)是很容易加入建模的,所以說(shuō)在寬度模型這條路上,業(yè)務(wù)專家是非常容易產(chǎn)生價(jià)值的,并且非常容易的可以參與到整個(gè)模型的優(yōu)化之中的。而相比來(lái)說(shuō),深度模型的創(chuàng)新主要來(lái)自于模型本身的結(jié)構(gòu)的創(chuàng)新,這樣的創(chuàng)新基本上都來(lái)自于學(xué)術(shù)界和研究的專家,每種業(yè)務(wù)知識(shí)的加入可能都意味著是一種新的模型,所以說(shuō)這兩種模型的選型代表著不同的人來(lái)優(yōu)化你的系統(tǒng)。
寬度和深度的大戰(zhàn)在我看來(lái),各自有各自的優(yōu)缺點(diǎn),可以取長(zhǎng)補(bǔ)短,對(duì)他們進(jìn)行一些融合?,F(xiàn)在寬和深的融合也就是所謂的第四象限已經(jīng)逐漸成為了一個(gè)研究的熱點(diǎn),谷歌在去年4月份發(fā)表了一篇論文,介紹他們最新的工作Deep & Wide Model,這樣的模型分成deep的部分和wide的兩部分,它對(duì)細(xì)的特征有很好的記憶,也有很好的推理能力,我們認(rèn)為將來(lái)的方向都應(yīng)該朝這條路上走。
最近還有不少工作在探索這個(gè)研究的新方向。張偉楠2016年也發(fā)表論文,探索如何通過(guò)使用FM的方式,對(duì)離散的一個(gè)寬度特征進(jìn)行分解。首先進(jìn)行分解,然后再使用深度學(xué)習(xí)進(jìn)行建模,獲得了比較好的效果。隨后在WSDM上他發(fā)了另外一篇文章,講述如何加入內(nèi)積和外積的方式,更好的刻劃特征與特征之間的關(guān)系,最近第四范式也有了一些新的進(jìn)展。在去年7月份的時(shí)候,第四范式發(fā)表了一個(gè)DSN算法,這個(gè)算法底層是上千億上大小的寬度網(wǎng)絡(luò),上層是全連接的網(wǎng)絡(luò),這樣一個(gè)DSN的難點(diǎn)在于如何解決可計(jì)算性。
剛才我分享的是人工智能在工業(yè)界的應(yīng)用,我現(xiàn)在在第四范式做的事情是希望把這些經(jīng)驗(yàn)?zāi)軌蚬袒轿覀兊漠a(chǎn)品中來(lái),能讓所有的人都能使用上人工智能,所有的人都能享受到這樣的經(jīng)驗(yàn)帶來(lái)的一些便利和好處。
在過(guò)去AI其實(shí)是沒(méi)有人能使用得,但最近AI開始被一些大的、小的公司使用,但是我們認(rèn)為,將來(lái)隨著數(shù)據(jù)越來(lái)越多,將來(lái)隨著場(chǎng)景越來(lái)越多,AI這樣的技術(shù)應(yīng)該是被更多的人使用,我們是希望能達(dá)到Al for everyone的一個(gè)狀態(tài)。大家可能非常熟悉一個(gè)比賽叫Kaggel,這個(gè)比賽是比較知名的針對(duì)機(jī)器學(xué)習(xí)專家的建模比賽,在Kaggle上會(huì)源源不斷的涌現(xiàn)出非常好的建模專家。我們最近做了一件非常有意思的事情,舉辦了世界上第一個(gè)非機(jī)器學(xué)習(xí)專業(yè)人士的機(jī)器學(xué)習(xí)建模大賽,我們稱這個(gè)比賽為Exciting。
這個(gè)比賽里面,所有有過(guò)機(jī)器學(xué)習(xí)背景的,有過(guò)建模背景的人都不允許參加,而能參加的人可能是做市場(chǎng)、銷售、研發(fā)工程師的。最終我們發(fā)現(xiàn),通過(guò)使用第四范式的平臺(tái),我們讓70%以上的非機(jī)器學(xué)習(xí)專業(yè)人士最終實(shí)現(xiàn)了AUC0.8以上的效果,這個(gè)是非常高的工業(yè)界可以應(yīng)用的水平。
最近我們又開啟了一個(gè)新的項(xiàng)目叫做范式大學(xué),我們希望讓更多沒(méi)有人工智能背景的人能夠參與到人工智能的研究和人工智能的開發(fā)之中來(lái)。這樣的項(xiàng)目會(huì)越來(lái)越多,我們相信第四范式也會(huì)離Al for everyone目標(biāo)越來(lái)越近。
鈦坦白群友互動(dòng):
1.Dr.陳,在你目前這么寬的行業(yè)視野內(nèi),除了個(gè)性化推薦外,機(jī)器學(xué)習(xí)在互聯(lián)網(wǎng)公司的自動(dòng)化測(cè)試、智能運(yùn)維、智能巡檢等方向,是否有應(yīng)用的可能性呢?還有,剛才你提到了獲客,機(jī)器學(xué)習(xí)在這個(gè)方向的應(yīng)用是個(gè)什么場(chǎng)景?
陳雨強(qiáng):關(guān)于機(jī)器學(xué)習(xí)能不能在其他的領(lǐng)域進(jìn)行應(yīng)用,我覺(jué)得主要還是五個(gè)條件是否能滿足。是否有足夠的數(shù)據(jù),問(wèn)題定義的是否足夠清晰,有清晰的邊界,人工智能的人才,計(jì)算資源,外部反饋。
獲客這個(gè)角度來(lái)說(shuō),其實(shí)機(jī)器學(xué)習(xí)會(huì)有非常廣泛的應(yīng)用,其實(shí)這不是最近才出來(lái)的概念,獲客在DSP出現(xiàn)的時(shí)候就已經(jīng)是非常廣泛使用的技術(shù)了。就是在DSP報(bào)價(jià)的時(shí)候,對(duì)于一個(gè)新來(lái)的流量,他會(huì)通過(guò)機(jī)器學(xué)習(xí)的方式去預(yù)估這個(gè)流量給這個(gè)網(wǎng)站,這個(gè)商家?guī)?lái)的價(jià)值是高還是低,或者說(shuō)CTR點(diǎn)擊率是高還是低,通過(guò)這個(gè)方式來(lái)進(jìn)行報(bào)價(jià)。
2. 自動(dòng)化巡檢的話,我的感覺(jué)是需要用到大量的圖片信息來(lái)判斷業(yè)務(wù)的狀態(tài),那這大量的圖片如果分辨率很高,是不是就很難做計(jì)算了?
陳雨強(qiáng):如果分辨率高但是有標(biāo)注的話,其實(shí)也是可解的。
3. 請(qǐng)問(wèn)一下,您之前合作過(guò)的行業(yè)領(lǐng)域和應(yīng)用場(chǎng)景主要有哪些? 能舉些稍微具體一點(diǎn)的例子嗎?
陳雨強(qiáng):之前具體合作的行業(yè)有金融行業(yè)的,比如信用卡分期的營(yíng)銷,比如欺詐的檢測(cè),風(fēng)險(xiǎn)控制,然后我們還做了很多關(guān)于推薦、搜索相關(guān)的方案。
(本文獨(dú)家首發(fā)鈦媒體,根據(jù)第四范式聯(lián)合創(chuàng)始人、首席研究科學(xué)家陳雨強(qiáng)在鈦坦白上的分享整理)
……………………………………
鈦坦白第33期,AI已來(lái)之機(jī)器學(xué)習(xí)2,三晚上的分享已經(jīng)結(jié)束了
干貨會(huì)陸續(xù)發(fā)布:http://m.chcmb.cn/tag/1508094
鈦坦白第34期:二手“大”市場(chǎng)
孔夫子舊書網(wǎng)創(chuàng)始人、回收寶合伙人、轉(zhuǎn)轉(zhuǎn)公司3C事業(yè)部總經(jīng)理,將帶來(lái)精彩分享~
地點(diǎn):鈦坦白|文娛社交(微信群)
報(bào)名聽課、交流:
鈦坦白目前有醫(yī)療健康、人工智能、文娛社交、VR/AR、區(qū)塊鏈、支付創(chuàng)新、體育、云計(jì)算、SaaS等九個(gè)專業(yè)群。
1、鈦媒體Pro專業(yè)版用戶,可以點(diǎn)擊鏈接http://m.chcmb.cn/pro,登錄賬號(hào),在線免費(fèi)、任意選擇自己要進(jìn)入的群,按提示操作;
2、非鈦媒體Pro專業(yè)版用戶,可以添加微信號(hào)taitanbai0,在通過(guò)好友后,發(fā)99元紅包給小鈦,你將有權(quán)利從九個(gè)群中任選一個(gè)群進(jìn)入,長(zhǎng)期聽課、交流。請(qǐng)告訴小鈦你要進(jìn)入哪一個(gè)群,然后等待小鈦拉你入群~
推薦鈦客、贊助、合作:
請(qǐng)與鈦坦白負(fù)責(zé)人佳音聯(lián)系,郵箱jiayinge@tmtpost.com






快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論
內(nèi)容夠深度㊣