-->

免费看在线a黄视频|99爽99操日韩毛片儿|91停婷在线无码观看|日韩三级片小视频|一级黄片免费播放|欧美成人视频网站导航|亚洲日韩欧美七区|国产视频在线观看91|人成视频免费在线播放|国产精品成人在线免费观看

違規(guī)提示

請(qǐng)您遵循相關(guān)法律法規(guī),避免再次出現(xiàn)類(lèi)似問(wèn)題

如有任何疑問(wèn),請(qǐng)聯(lián)系support@tmtpost.com

關(guān)閉
第三課:如何提高系統(tǒng)的VC維?
陳雨強(qiáng) / 人工智能在工業(yè)界應(yīng)用的必經(jīng)之路
第三課:如何提高系統(tǒng)的VC維?

第三課:如何提高系統(tǒng)的VC維?

小欣:這節(jié)課,陳雨強(qiáng)老師會(huì)為我們講解如何提高VC維。

陳雨強(qiáng):我們知道機(jī)器學(xué)習(xí)等于數(shù)據(jù)+特征+模型。如果說(shuō)我已經(jīng)有了很多的數(shù)據(jù),提升VC維的途徑就只有兩條——從特征和模型的角度。

我們把特征分成兩類(lèi):一類(lèi)叫做宏觀特征。描述的統(tǒng)計(jì)類(lèi)特征,比如說(shuō)整體的點(diǎn)擊率或者整體統(tǒng)計(jì)系統(tǒng)這樣的特征;另一類(lèi)特征是微觀特征。最典型的微觀特征是ID類(lèi)的特征,每個(gè)人都會(huì)有這樣的特征,每個(gè)物品也會(huì)有一個(gè)ID,然后人和物品的組合也會(huì)有這樣的ID類(lèi)特征。相應(yīng)的模型也會(huì)分成兩類(lèi):一類(lèi)是簡(jiǎn)單的模型,比方說(shuō)線性模型;另一類(lèi)是復(fù)雜模型,比如說(shuō)深度學(xué)習(xí)模型。

這里我們引入機(jī)器學(xué)習(xí)四個(gè)象限的概念:

第一象限是簡(jiǎn)單模型加上宏觀特征。這是我們傳統(tǒng)的專家系統(tǒng)和統(tǒng)計(jì)模型所在的范疇,大家可能比較熟悉的一些傳統(tǒng)的機(jī)器學(xué)習(xí)數(shù)據(jù)集比如說(shuō)UCI就是典型的這個(gè)象限內(nèi)的。這大概是七八十年代的數(shù)據(jù)集,每個(gè)數(shù)據(jù)集里面有一千個(gè)左右的訓(xùn)練數(shù)據(jù),特征維度也不高、分的類(lèi)數(shù)也并不多,在這樣的一個(gè)數(shù)據(jù)集里面統(tǒng)計(jì)模型會(huì)比較盛行。它主要解決的問(wèn)題是怎么樣找出特征之間的關(guān)系,以及各自的關(guān)聯(lián)度。

第二象限是簡(jiǎn)單模型加上復(fù)雜特征。這里面最成功的案例可能就是谷歌的Adwords。谷歌的Adwords里面有上千億的特征,取得了非常大的成功,給谷歌帶來(lái)了很多的收益占據(jù)谷歌收入的70%以上。同時(shí)谷歌的展示廣告也使用了同樣的技術(shù)并且占據(jù)剩下收入的20%。這樣的模型不僅是在谷歌在整個(gè)互聯(lián)網(wǎng)廣告中都是被使用最廣泛的一個(gè)技術(shù)。

第三象限是使用復(fù)雜模型、宏觀特征。這里最典型的代表是雅虎news和bing這樣的系統(tǒng)。bing的廣告在2013年提出他們的BPR模型,來(lái)去刻畫(huà)每個(gè)特征的知信度。雅虎也是第三象限最忠實(shí)的支持者之一,大家所熟悉的COEC就來(lái)自于這樣的模型,雅虎還設(shè)計(jì)了很多增強(qiáng)學(xué)習(xí)的機(jī)制比如說(shuō)多臂老虎機(jī),這也是這個(gè)里面最成功的應(yīng)用之一。

第四象限是復(fù)雜模型和微觀特征?,F(xiàn)在還是一個(gè)非常熱門(mén)的研究領(lǐng)域,里面最難的一個(gè)問(wèn)題是如何在這么大規(guī)模的特征情況下使用非線性模型。計(jì)算量是一個(gè)很大的一個(gè)難點(diǎn),比方說(shuō)如果我有上千億的特征,我的節(jié)點(diǎn)有上千個(gè),我可能需要上萬(wàn)億甚至更多的參數(shù)才能保存下來(lái)這個(gè)模型。這個(gè)可能不管是從內(nèi)存上還是計(jì)算上都是不可接受的,所以這是一個(gè)非常熱門(mén)的研究領(lǐng)域,非常多的研究機(jī)構(gòu)正在這個(gè)方面進(jìn)行嘗試。

我們現(xiàn)在講一下如何沿著第三象限就是復(fù)雜模型和宏觀特征這條路來(lái)優(yōu)化模型。這條路主要是由學(xué)術(shù)界主導(dǎo),這樣的模型主要來(lái)自于 ICML、NIPS、ICLR這樣的會(huì)議,非線性有三把寶劍分別是Kernel、Boosting、Neural Network。Boosting最成功的是現(xiàn)在熟知的GBDT;Kernel比較成功的是SVM里面流行的RBF Kernel;Neural network比較流行的現(xiàn)在最成功的深度學(xué)習(xí)?,F(xiàn)在科學(xué)家為了實(shí)驗(yàn)的方便,對(duì)工程的實(shí)現(xiàn)能力要求并不是特別的高,大部分的模型是單機(jī)科學(xué)家在做,要解決的實(shí)際問(wèn)題是數(shù)據(jù)分布式和降低分布式通信帶來(lái)overhead這樣的問(wèn)題。

小欣:下節(jié)課,陳雨強(qiáng)老師會(huì)為我們講解如何從模型角度提高VC維。

【版權(quán)歸鈦媒體所有,未經(jīng)許可不得轉(zhuǎn)載】

分享課程:
大家都在學(xué)
72問(wèn) 有聲書(shū)系列 / 中國(guó)經(jīng)濟(jì)2021
精品小課 揭秘黃金投資:2022年以來(lái)上漲表現(xiàn)最好的資產(chǎn)之一
精品小課 阿里人力資源體系課

Oh! no

您是否確認(rèn)要?jiǎng)h除該條評(píng)論嗎?

全部課程 ( 6 )
倒序播放

00:00
/
00:00
X1.0

注冊(cè)郵箱未驗(yàn)證

我們已向下方郵箱發(fā)送了驗(yàn)證郵件,請(qǐng)查收并按提示驗(yàn)證您的郵箱。

如果您沒(méi)有收到郵件,請(qǐng)留意垃圾郵件箱。

更換郵箱

您當(dāng)前使用的郵箱可能無(wú)法接收驗(yàn)證郵件,建議您更換郵箱

賬號(hào)合并

經(jīng)檢測(cè),你是“鈦媒體”和“商業(yè)價(jià)值”的注冊(cè)用戶?,F(xiàn)在,我們對(duì)兩個(gè)產(chǎn)品因進(jìn)行整合,需要您選擇一個(gè)賬號(hào)用來(lái)登錄。無(wú)論您選擇哪個(gè)賬號(hào),兩個(gè)賬號(hào)的原有信息都會(huì)合并在一起。對(duì)于給您造成的不便,我們深感歉意。