Martin Wainwright:美國(guó)加州大學(xué)伯克利分校的教授,國(guó)際著名統(tǒng)計(jì)學(xué)和計(jì)算科學(xué)專家

鈦媒體注:人工智能在商業(yè)領(lǐng)域的應(yīng)用正如火如荼,AI對(duì)產(chǎn)業(yè)顛覆性影響,正由越來越多的科學(xué)家、企業(yè)家、創(chuàng)業(yè)者乃至資本方合力完成,他們,是這個(gè)趨勢(shì)中最活躍的大腦。

Martin Wainwright先生,是國(guó)際著名的統(tǒng)計(jì)學(xué)和計(jì)算科學(xué)專家,作為美國(guó)加州大學(xué)伯克利分校的教授,他既任教于該校的統(tǒng)計(jì)學(xué)系也任教于該校的電子工程與計(jì)算科學(xué)(EE&CS)系,由此而具備了橫跨數(shù)學(xué)與計(jì)算科學(xué)兩個(gè)領(lǐng)域的獨(dú)特觀點(diǎn)與優(yōu)勢(shì)。

在2017年7月15日由順豐科技、鈦媒體和杉數(shù)科技共同舉辦的“AI與智慧物流圓桌論壇”上(該論壇),Martin介紹了一種近兩年來出現(xiàn)的新型統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法Newton Sketch,該算法有助于超大規(guī)模數(shù)據(jù)集的快速優(yōu)化、分析與理解。

作為全球統(tǒng)計(jì)學(xué)頂級(jí)大獎(jiǎng) COPSS 的2014年獲得者,Martin強(qiáng)調(diào)Newton Sketch可以用更短的計(jì)算時(shí)間和更低的計(jì)算成本來處理超大規(guī)模高維數(shù)據(jù)集和高維神經(jīng)元網(wǎng)絡(luò),這對(duì)于推動(dòng)人工智能在商業(yè)領(lǐng)域的快速普及有著重要意義。

大數(shù)據(jù)引發(fā)的高維現(xiàn)象

統(tǒng)計(jì)學(xué)最早起源于兩千多年前的古希臘?,F(xiàn)代統(tǒng)計(jì)學(xué)以數(shù)理統(tǒng)計(jì)為代表,數(shù)理統(tǒng)計(jì)則以概率論為基礎(chǔ),屬于基礎(chǔ)數(shù)學(xué)學(xué)科,統(tǒng)計(jì)學(xué)由此進(jìn)入了統(tǒng)計(jì)與數(shù)學(xué)結(jié)合階段。

二十世紀(jì)初,t分布論文發(fā)表,出現(xiàn)了小樣本代替大樣本進(jìn)行統(tǒng)計(jì)研究的方法,由此開辟了統(tǒng)計(jì)學(xué)新時(shí)代。統(tǒng)計(jì)學(xué)的核心問題就轉(zhuǎn)化為:根據(jù)樣本探求有關(guān)總體的真實(shí)情況。而過去由于計(jì)算設(shè)備、存儲(chǔ)設(shè)備和計(jì)算能力等限制,無法獲得全體數(shù)據(jù)集,在近十年來,這變成了可能。視頻數(shù)據(jù)、社交數(shù)據(jù)、工業(yè)數(shù)據(jù)、各類傳感器數(shù)據(jù)等培育了所謂大數(shù)據(jù)現(xiàn)象。根據(jù)IBM在2013年的一項(xiàng)研究,之前的兩年產(chǎn)生的數(shù)據(jù)量接近全球數(shù)據(jù)總量的90%。IDC預(yù)測(cè)從2013年開始,全球數(shù)據(jù)總量每?jī)赡攴环?/p>

過去沒有全體世界的數(shù)據(jù),只能通過極少數(shù)據(jù)去推斷,而現(xiàn)在不僅存在全體世界的數(shù)據(jù),而且還在不斷膨脹。更進(jìn)一步地,一個(gè)數(shù)據(jù)對(duì)象有上千甚至上萬個(gè)維度(屬性),也就是“高維數(shù)據(jù)”。當(dāng)計(jì)算和存儲(chǔ)設(shè)備可以捕獲全體數(shù)據(jù)的時(shí)候,問題就變成如何對(duì)全體世界的數(shù)據(jù)進(jìn)行降維,從而可以在有限的時(shí)間和成本內(nèi)理解和反映真實(shí)世界的情況。

統(tǒng)計(jì)機(jī)器學(xué)習(xí)對(duì)人工智能的意義

經(jīng)典統(tǒng)計(jì)學(xué)、計(jì)算科學(xué)和人工智能應(yīng)用等的交集,出現(xiàn)了數(shù)據(jù)科學(xué)。數(shù)據(jù)科學(xué)是經(jīng)典統(tǒng)計(jì)學(xué)、計(jì)算機(jī)及應(yīng)用的交集。Martin介紹說,在過去的數(shù)年間,學(xué)術(shù)界和產(chǎn)業(yè)目睹了數(shù)據(jù)科學(xué)這場(chǎng)變革,統(tǒng)計(jì)機(jī)器學(xué)習(xí)也應(yīng)運(yùn)而生。

統(tǒng)計(jì)機(jī)器學(xué)習(xí)是一門新興的交叉學(xué)科,融合了計(jì)算科學(xué)、優(yōu)化和系統(tǒng)科學(xué),因此很多研究命題都來源于實(shí)際應(yīng)用。在現(xiàn)實(shí)中,數(shù)據(jù)流規(guī)模日益增長(zhǎng),也變得更加動(dòng)態(tài)和異構(gòu),因而對(duì)于算法的要求越來越高,而統(tǒng)計(jì)機(jī)器學(xué)習(xí)為此提供了一套非常有效的分析方法。相關(guān)領(lǐng)域例如生物信息學(xué)、人工智能、信號(hào)處理、通信、金融、控制論無一不受到統(tǒng)計(jì)機(jī)器學(xué)習(xí)的巨大影響。

Martin表示,由于數(shù)據(jù)噪音和丟失數(shù)據(jù)等原因,真實(shí)世界的大數(shù)據(jù)問題很有挑戰(zhàn),機(jī)器學(xué)習(xí)的目標(biāo)是通過自動(dòng)化的軟件流程從數(shù)據(jù)中提取可靠、有用的信息,而統(tǒng)計(jì)推理本身也可從數(shù)據(jù)噪音中提取有用信息,二者結(jié)合將有更好的效果。

隨機(jī)投影(Randomized Projection)是近年來新興的統(tǒng)計(jì)機(jī)器學(xué)習(xí)中的算法,它把高維大數(shù)據(jù)集“投影”到低維數(shù)據(jù)集,而在降維過程中并不損失有效信息,這樣就只需要在低維空間研究數(shù)據(jù)即可。Martin表示,隨機(jī)投影已經(jīng)在多個(gè)領(lǐng)域得到廣泛應(yīng)用,被證明是有效的算法。在此基礎(chǔ)之上,Martin把該算法用于經(jīng)典牛頓迭代非線性優(yōu)化算法,即為Newton Sketch。

2015年5月,Martin與同事Mert Pilanci一起發(fā)表了論文《Newton Sketch: A Linear-time Optimization Algorithm with Linear-Quadratic Convergence》,該論文介紹了把隨機(jī)投影方法和抽樣Hessian函數(shù)用于牛頓迭代法,取得了非常好的近似線性效果,從而大幅簡(jiǎn)化了牛頓迭代的復(fù)雜性,可廣泛用于大規(guī)模線性規(guī)劃和二次規(guī)劃等非線性規(guī)劃問題, 例如邏輯回歸(Logistic Regression)、支持向量機(jī)(Support Vector Machine)等機(jī)器學(xué)習(xí)模型。

Newton Sketch對(duì)于深度學(xué)習(xí)為代表的機(jī)器學(xué)習(xí)算法有何意義呢?Martin表示,深度神經(jīng)元網(wǎng)絡(luò)需要GPU等特殊硬件的支持,雖然近年來谷歌等公司也在開發(fā)TPU等新型專用硬件、GPU也取得了大幅進(jìn)展,但價(jià)格依然不菲。另一方面,深度神經(jīng)元網(wǎng)絡(luò)本身在實(shí)際的商業(yè)應(yīng)用中還缺乏工程穩(wěn)定性,特別是在數(shù)據(jù)質(zhì)量不佳的情況下容易失效。最重要的是深度神經(jīng)元網(wǎng)絡(luò)有著“數(shù)據(jù)饑餓”現(xiàn)象:需要大量數(shù)據(jù)用于模型訓(xùn)練。而Newton Sketch則能大幅簡(jiǎn)化深度神經(jīng)元網(wǎng)絡(luò)應(yīng)用的前提和條件。

Newton Sketch非常適于分布式的機(jī)器學(xué)習(xí)任務(wù)。在分布式機(jī)器學(xué)習(xí)中,海量數(shù)據(jù)分散存儲(chǔ)在計(jì)算機(jī)集群的節(jié)點(diǎn)上,機(jī)器學(xué)習(xí)算法必須反復(fù)遍歷這些數(shù)據(jù),尋求最優(yōu)模型。而Newton Sketch方法通過隨機(jī)概括(Randomized Skeching)的技術(shù)來計(jì)算一個(gè)“合成數(shù)據(jù)集”。這個(gè)數(shù)據(jù)集概括了原有數(shù)據(jù)的本質(zhì)信息,并且往往規(guī)模很小,甚至可以由單機(jī)處理。在這個(gè)數(shù)據(jù)集上進(jìn)一步分析與建模,就可以獲得更快速度、更低成本、更高效率的計(jì)算效果。

以Newton Sketch為代表的統(tǒng)計(jì)機(jī)器學(xué)習(xí)算法,為人工智能在現(xiàn)實(shí)商業(yè)世界的快速普及打開了一條道路,對(duì)于城市交通、智慧物流、電力網(wǎng)絡(luò)等復(fù)雜巨系統(tǒng)的研究與建模有著很重要的現(xiàn)實(shí)意義,甚至對(duì)于電商推薦系統(tǒng)、社交網(wǎng)絡(luò)評(píng)分系統(tǒng)等也有很高的價(jià)值,因?yàn)檫@些都是高維數(shù)據(jù)。

正如Martin在“AI與智慧物流圓桌論壇”所說,現(xiàn)實(shí)生活中數(shù)據(jù)大多都“生活”在“高維空間”,越簡(jiǎn)單方式處理高維數(shù)據(jù)就越有現(xiàn)實(shí)意義。隨著像Martin這樣的國(guó)際學(xué)術(shù)專家把統(tǒng)計(jì)機(jī)器學(xué)習(xí)等算法介紹到中國(guó),有望加速人工智能等解決中國(guó)大數(shù)據(jù)現(xiàn)象的挑戰(zhàn),以工程化方式讓人工智能算法真正落地,創(chuàng)造商業(yè)價(jià)值。

------------【下一場(chǎng)精彩預(yù)告】-----------

AI大師圓桌會(huì)之“AI時(shí)代,博弈與行為分析”,與“冷撲大師之父”面對(duì)面

時(shí)間:7月20日下午        地點(diǎn):上海財(cái)大豪生大酒店

掃描圖片二維碼進(jìn)入「AI大師圓桌會(huì)·上海站」搶票地址

AI大師圓桌會(huì)·上海站日程(擬)

席位有限,搶票即刻開啟歡掃描上圖二維碼、或點(diǎn)擊進(jìn)入報(bào)名鏈接:

http://hasrbxdj-1.eventdove.com

本文系作者 吳寧川 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接
本內(nèi)容來源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容
  • 期待著

    回復(fù) 2017.07.19 · via android

快報(bào)

更多

22:59

以色列一工業(yè)區(qū)遭襲,危險(xiǎn)物質(zhì)泄漏

22:22

海南自由貿(mào)易港民營(yíng)企業(yè)座談會(huì)舉行

22:12

中國(guó)科學(xué)院院士:全固態(tài)電池或至少再等5年

22:11

今年以來逾1370萬人次旅客訪港

22:08

下周(3月30日-4月5日)市場(chǎng)大事預(yù)告

22:06

民調(diào)顯示美國(guó)選民對(duì)特朗普“不滿意率”創(chuàng)新高

21:43

納比勒·法赫米將擔(dān)任新一任阿盟秘書長(zhǎng)

21:07

群核科技通過港交所聆訊:2025年實(shí)現(xiàn)盈利,沖刺“全球空間智能第一股”

21:05

油價(jià)飆升埃及多措施節(jié)能,埃及上調(diào)公共交通票價(jià)

21:05

英矽智能與禮來達(dá)成AI藥物研發(fā)合作,交易總值最高可達(dá)27.5億美元

21:04

3月29日新聞聯(lián)播速覽20條

21:01

中國(guó)銀河證券:中長(zhǎng)期仍看好科技板塊產(chǎn)業(yè)驅(qū)動(dòng)與周期板塊漲價(jià)線索的雙主線

20:34

大風(fēng)、降水來襲,長(zhǎng)江江蘇段部分區(qū)域?qū)嵤┡R時(shí)交通管制

19:59

國(guó)航C919正式投入北京—廈門、北京—哈爾濱兩條航線運(yùn)營(yíng)

19:57

中鋁國(guó)際:2025年歸母凈利潤(rùn)2.58億元,同比增長(zhǎng)16.47%

19:19

伊朗稱已打擊與美軍工有關(guān)聯(lián)的兩家企業(yè)

18:36

伊朗與巴基斯坦兩國(guó)外長(zhǎng)通電話,討論地區(qū)局勢(shì)

18:35

2025年玩具(不含潮玩)國(guó)內(nèi)市場(chǎng)零售總額達(dá)1035.3億元

18:08

全國(guó)豬價(jià)跌破5元,創(chuàng)歷史新低

18:07

時(shí)代天使2025年實(shí)現(xiàn)收入3.7億美元,同比增長(zhǎng)37.8%

1

掃描下載App