Martin Wainwright:美國(guó)加州大學(xué)伯克利分校的教授,國(guó)際著名統(tǒng)計(jì)學(xué)和計(jì)算科學(xué)專家
鈦媒體注:人工智能在商業(yè)領(lǐng)域的應(yīng)用正如火如荼,AI對(duì)產(chǎn)業(yè)顛覆性影響,正由越來越多的科學(xué)家、企業(yè)家、創(chuàng)業(yè)者乃至資本方合力完成,他們,是這個(gè)趨勢(shì)中最活躍的大腦。
Martin Wainwright先生,是國(guó)際著名的統(tǒng)計(jì)學(xué)和計(jì)算科學(xué)專家,作為美國(guó)加州大學(xué)伯克利分校的教授,他既任教于該校的統(tǒng)計(jì)學(xué)系也任教于該校的電子工程與計(jì)算科學(xué)(EE&CS)系,由此而具備了橫跨數(shù)學(xué)與計(jì)算科學(xué)兩個(gè)領(lǐng)域的獨(dú)特觀點(diǎn)與優(yōu)勢(shì)。
在2017年7月15日由順豐科技、鈦媒體和杉數(shù)科技共同舉辦的“AI與智慧物流圓桌論壇”上(該論壇),Martin介紹了一種近兩年來出現(xiàn)的新型統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法Newton Sketch,該算法有助于超大規(guī)模數(shù)據(jù)集的快速優(yōu)化、分析與理解。
作為全球統(tǒng)計(jì)學(xué)頂級(jí)大獎(jiǎng) COPSS 的2014年獲得者,Martin強(qiáng)調(diào)Newton Sketch可以用更短的計(jì)算時(shí)間和更低的計(jì)算成本來處理超大規(guī)模高維數(shù)據(jù)集和高維神經(jīng)元網(wǎng)絡(luò),這對(duì)于推動(dòng)人工智能在商業(yè)領(lǐng)域的快速普及有著重要意義。
統(tǒng)計(jì)學(xué)最早起源于兩千多年前的古希臘?,F(xiàn)代統(tǒng)計(jì)學(xué)以數(shù)理統(tǒng)計(jì)為代表,數(shù)理統(tǒng)計(jì)則以概率論為基礎(chǔ),屬于基礎(chǔ)數(shù)學(xué)學(xué)科,統(tǒng)計(jì)學(xué)由此進(jìn)入了統(tǒng)計(jì)與數(shù)學(xué)結(jié)合階段。
二十世紀(jì)初,t分布論文發(fā)表,出現(xiàn)了小樣本代替大樣本進(jìn)行統(tǒng)計(jì)研究的方法,由此開辟了統(tǒng)計(jì)學(xué)新時(shí)代。統(tǒng)計(jì)學(xué)的核心問題就轉(zhuǎn)化為:根據(jù)樣本探求有關(guān)總體的真實(shí)情況。而過去由于計(jì)算設(shè)備、存儲(chǔ)設(shè)備和計(jì)算能力等限制,無法獲得全體數(shù)據(jù)集,在近十年來,這變成了可能。視頻數(shù)據(jù)、社交數(shù)據(jù)、工業(yè)數(shù)據(jù)、各類傳感器數(shù)據(jù)等培育了所謂大數(shù)據(jù)現(xiàn)象。根據(jù)IBM在2013年的一項(xiàng)研究,之前的兩年產(chǎn)生的數(shù)據(jù)量接近全球數(shù)據(jù)總量的90%。IDC預(yù)測(cè)從2013年開始,全球數(shù)據(jù)總量每?jī)赡攴环?/p>
過去沒有全體世界的數(shù)據(jù),只能通過極少數(shù)據(jù)去推斷,而現(xiàn)在不僅存在全體世界的數(shù)據(jù),而且還在不斷膨脹。更進(jìn)一步地,一個(gè)數(shù)據(jù)對(duì)象有上千甚至上萬個(gè)維度(屬性),也就是“高維數(shù)據(jù)”。當(dāng)計(jì)算和存儲(chǔ)設(shè)備可以捕獲全體數(shù)據(jù)的時(shí)候,問題就變成如何對(duì)全體世界的數(shù)據(jù)進(jìn)行降維,從而可以在有限的時(shí)間和成本內(nèi)理解和反映真實(shí)世界的情況。
經(jīng)典統(tǒng)計(jì)學(xué)、計(jì)算科學(xué)和人工智能應(yīng)用等的交集,出現(xiàn)了數(shù)據(jù)科學(xué)。數(shù)據(jù)科學(xué)是經(jīng)典統(tǒng)計(jì)學(xué)、計(jì)算機(jī)及應(yīng)用的交集。Martin介紹說,在過去的數(shù)年間,學(xué)術(shù)界和產(chǎn)業(yè)目睹了數(shù)據(jù)科學(xué)這場(chǎng)變革,統(tǒng)計(jì)機(jī)器學(xué)習(xí)也應(yīng)運(yùn)而生。
統(tǒng)計(jì)機(jī)器學(xué)習(xí)是一門新興的交叉學(xué)科,融合了計(jì)算科學(xué)、優(yōu)化和系統(tǒng)科學(xué),因此很多研究命題都來源于實(shí)際應(yīng)用。在現(xiàn)實(shí)中,數(shù)據(jù)流規(guī)模日益增長(zhǎng),也變得更加動(dòng)態(tài)和異構(gòu),因而對(duì)于算法的要求越來越高,而統(tǒng)計(jì)機(jī)器學(xué)習(xí)為此提供了一套非常有效的分析方法。相關(guān)領(lǐng)域例如生物信息學(xué)、人工智能、信號(hào)處理、通信、金融、控制論無一不受到統(tǒng)計(jì)機(jī)器學(xué)習(xí)的巨大影響。
Martin表示,由于數(shù)據(jù)噪音和丟失數(shù)據(jù)等原因,真實(shí)世界的大數(shù)據(jù)問題很有挑戰(zhàn),機(jī)器學(xué)習(xí)的目標(biāo)是通過自動(dòng)化的軟件流程從數(shù)據(jù)中提取可靠、有用的信息,而統(tǒng)計(jì)推理本身也可從數(shù)據(jù)噪音中提取有用信息,二者結(jié)合將有更好的效果。
隨機(jī)投影(Randomized Projection)是近年來新興的統(tǒng)計(jì)機(jī)器學(xué)習(xí)中的算法,它把高維大數(shù)據(jù)集“投影”到低維數(shù)據(jù)集,而在降維過程中并不損失有效信息,這樣就只需要在低維空間研究數(shù)據(jù)即可。Martin表示,隨機(jī)投影已經(jīng)在多個(gè)領(lǐng)域得到廣泛應(yīng)用,被證明是有效的算法。在此基礎(chǔ)之上,Martin把該算法用于經(jīng)典牛頓迭代非線性優(yōu)化算法,即為Newton Sketch。
2015年5月,Martin與同事Mert Pilanci一起發(fā)表了論文《Newton Sketch: A Linear-time Optimization Algorithm with Linear-Quadratic Convergence》,該論文介紹了把隨機(jī)投影方法和抽樣Hessian函數(shù)用于牛頓迭代法,取得了非常好的近似線性效果,從而大幅簡(jiǎn)化了牛頓迭代的復(fù)雜性,可廣泛用于大規(guī)模線性規(guī)劃和二次規(guī)劃等非線性規(guī)劃問題, 例如邏輯回歸(Logistic Regression)、支持向量機(jī)(Support Vector Machine)等機(jī)器學(xué)習(xí)模型。
Newton Sketch對(duì)于深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)算法有何意義呢?Martin表示,深度神經(jīng)元網(wǎng)絡(luò)需要GPU等特殊硬件的支持,雖然近年來谷歌等公司也在開發(fā)TPU等新型專用硬件、GPU也取得了大幅進(jìn)展,但價(jià)格依然不菲。另一方面,深度神經(jīng)元網(wǎng)絡(luò)本身在實(shí)際的商業(yè)應(yīng)用中還缺乏工程穩(wěn)定性,特別是在數(shù)據(jù)質(zhì)量不佳的情況下容易失效。最重要的是深度神經(jīng)元網(wǎng)絡(luò)有著“數(shù)據(jù)饑餓”現(xiàn)象:需要大量數(shù)據(jù)用于模型訓(xùn)練。而Newton Sketch則能大幅簡(jiǎn)化深度神經(jīng)元網(wǎng)絡(luò)應(yīng)用的前提和條件。
Newton Sketch非常適于分布式的機(jī)器學(xué)習(xí)任務(wù)。在分布式機(jī)器學(xué)習(xí)中,海量數(shù)據(jù)分散存儲(chǔ)在計(jì)算機(jī)集群的節(jié)點(diǎn)上,機(jī)器學(xué)習(xí)算法必須反復(fù)遍歷這些數(shù)據(jù),尋求最優(yōu)模型。而Newton Sketch方法通過隨機(jī)概括(Randomized Skeching)的技術(shù)來計(jì)算一個(gè)“合成數(shù)據(jù)集”。這個(gè)數(shù)據(jù)集概括了原有數(shù)據(jù)的本質(zhì)信息,并且往往規(guī)模很小,甚至可以由單機(jī)處理。在這個(gè)數(shù)據(jù)集上進(jìn)一步分析與建模,就可以獲得更快速度、更低成本、更高效率的計(jì)算效果。
以Newton Sketch為代表的統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法,為人工智能在現(xiàn)實(shí)商業(yè)世界的快速普及打開了一條道路,對(duì)于城市交通、智慧物流、電力網(wǎng)絡(luò)等復(fù)雜巨系統(tǒng)的研究與建模有著很重要的現(xiàn)實(shí)意義,甚至對(duì)于電商推薦系統(tǒng)、社交網(wǎng)絡(luò)評(píng)分系統(tǒng)等也有很高的價(jià)值,因?yàn)檫@些都是高維數(shù)據(jù)。
正如Martin在“AI與智慧物流圓桌論壇”所說,現(xiàn)實(shí)生活中數(shù)據(jù)大多都“生活”在“高維空間”,越簡(jiǎn)單方式處理高維數(shù)據(jù)就越有現(xiàn)實(shí)意義。隨著像Martin這樣的國(guó)際學(xué)術(shù)專家把統(tǒng)計(jì)機(jī)器學(xué)習(xí)等算法介紹到中國(guó),有望加速人工智能等解決中國(guó)大數(shù)據(jù)現(xiàn)象的挑戰(zhàn),以工程化方式讓人工智能算法真正落地,創(chuàng)造商業(yè)價(jià)值。
------------【下一場(chǎng)精彩預(yù)告】-----------
時(shí)間:7月20日下午 地點(diǎn):上海財(cái)大豪生大酒店
掃描圖片二維碼進(jìn)入「AI大師圓桌會(huì)·上海站」搶票地址
AI大師圓桌會(huì)·上海站日程(擬)
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論
期待著