日韩电影黄色生活一片,日本精品资源日本有码一级片 ,伊人22开心激情网

第三課：如何提高系統(tǒng)的VC維？

陳雨強(qiáng) / 人工智能在工業(yè)界應(yīng)用的必經(jīng)之路

第三課：如何提高系統(tǒng)的VC維？

小欣：這節(jié)課，陳雨強(qiáng)老師會(huì)為我們講解如何提高VC維。

陳雨強(qiáng)：我們知道機(jī)器學(xué)習(xí)等于數(shù)據(jù)+特征+模型。如果說(shuō)我已經(jīng)有了很多的數(shù)據(jù)，提升VC維的途徑就只有兩條——從特征和模型的角度。

我們把特征分成兩類(lèi)：一類(lèi)叫做宏觀特征。描述的統(tǒng)計(jì)類(lèi)特征，比如說(shuō)整體的點(diǎn)擊率或者整體統(tǒng)計(jì)系統(tǒng)這樣的特征；另一類(lèi)特征是微觀特征。最典型的微觀特征是ID類(lèi)的特征，每個(gè)人都會(huì)有這樣的特征，每個(gè)物品也會(huì)有一個(gè)ID，然后人和物品的組合也會(huì)有這樣的ID類(lèi)特征。相應(yīng)的模型也會(huì)分成兩類(lèi)：一類(lèi)是簡(jiǎn)單的模型，比方說(shuō)線性模型；另一類(lèi)是復(fù)雜模型，比如說(shuō)深度學(xué)習(xí)模型。

這里我們引入機(jī)器學(xué)習(xí)四個(gè)象限的概念：

第一象限是簡(jiǎn)單模型加上宏觀特征。這是我們傳統(tǒng)的專家系統(tǒng)和統(tǒng)計(jì)模型所在的范疇，大家可能比較熟悉的一些傳統(tǒng)的機(jī)器學(xué)習(xí)數(shù)據(jù)集比如說(shuō)UCI就是典型的這個(gè)象限內(nèi)的。這大概是七八十年代的數(shù)據(jù)集，每個(gè)數(shù)據(jù)集里面有一千個(gè)左右的訓(xùn)練數(shù)據(jù)，特征維度也不高、分的類(lèi)數(shù)也并不多，在這樣的一個(gè)數(shù)據(jù)集里面統(tǒng)計(jì)模型會(huì)比較盛行。它主要解決的問(wèn)題是怎么樣找出特征之間的關(guān)系，以及各自的關(guān)聯(lián)度。

第二象限是簡(jiǎn)單模型加上復(fù)雜特征。這里面最成功的案例可能就是谷歌的Adwords。谷歌的Adwords里面有上千億的特征，取得了非常大的成功，給谷歌帶來(lái)了很多的收益占據(jù)谷歌收入的70%以上。同時(shí)谷歌的展示廣告也使用了同樣的技術(shù)并且占據(jù)剩下收入的20%。這樣的模型不僅是在谷歌在整個(gè)互聯(lián)網(wǎng)廣告中都是被使用最廣泛的一個(gè)技術(shù)。

第三象限是使用復(fù)雜模型、宏觀特征。這里最典型的代表是雅虎news和bing這樣的系統(tǒng)。bing的廣告在2013年提出他們的BPR模型，來(lái)去刻畫(huà)每個(gè)特征的知信度。雅虎也是第三象限最忠實(shí)的支持者之一，大家所熟悉的COEC就來(lái)自于這樣的模型，雅虎還設(shè)計(jì)了很多增強(qiáng)學(xué)習(xí)的機(jī)制比如說(shuō)多臂老虎機(jī)，這也是這個(gè)里面最成功的應(yīng)用之一。

第四象限是復(fù)雜模型和微觀特征?，F(xiàn)在還是一個(gè)非常熱門(mén)的研究領(lǐng)域，里面最難的一個(gè)問(wèn)題是如何在這么大規(guī)模的特征情況下使用非線性模型。計(jì)算量是一個(gè)很大的一個(gè)難點(diǎn)，比方說(shuō)如果我有上千億的特征，我的節(jié)點(diǎn)有上千個(gè)，我可能需要上萬(wàn)億甚至更多的參數(shù)才能保存下來(lái)這個(gè)模型。這個(gè)可能不管是從內(nèi)存上還是計(jì)算上都是不可接受的，所以這是一個(gè)非常熱門(mén)的研究領(lǐng)域，非常多的研究機(jī)構(gòu)正在這個(gè)方面進(jìn)行嘗試。

我們現(xiàn)在講一下如何沿著第三象限就是復(fù)雜模型和宏觀特征這條路來(lái)優(yōu)化模型。這條路主要是由學(xué)術(shù)界主導(dǎo)，這樣的模型主要來(lái)自于 ICML、NIPS、ICLR這樣的會(huì)議，非線性有三把寶劍分別是Kernel、Boosting、Neural Network。Boosting最成功的是現(xiàn)在熟知的GBDT；Kernel比較成功的是SVM里面流行的RBF Kernel；Neural network比較流行的現(xiàn)在最成功的深度學(xué)習(xí)?，F(xiàn)在科學(xué)家為了實(shí)驗(yàn)的方便，對(duì)工程的實(shí)現(xiàn)能力要求并不是特別的高，大部分的模型是單機(jī)科學(xué)家在做，要解決的實(shí)際問(wèn)題是數(shù)據(jù)分布式和降低分布式通信帶來(lái)overhead這樣的問(wèn)題。

小欣：下節(jié)課，陳雨強(qiáng)老師會(huì)為我們講解如何從模型角度提高VC維。

【版權(quán)歸鈦媒體所有，未經(jīng)許可不得轉(zhuǎn)載】