文丨AI觀景臺(tái)
在大劉的《三體》宇宙中,有著一個(gè)名為“智子”的超級(jí)AI,它能夠?qū)⒍S的質(zhì)子通過電路蝕刻改造成計(jì)算機(jī)后轉(zhuǎn)回到高維,從而實(shí)現(xiàn)對(duì)地球知識(shí)、通訊的全面監(jiān)控,此時(shí)地球除人類思維外無任何隱私可言,地球也進(jìn)入了基礎(chǔ)科學(xué)停滯的百年黑暗時(shí)代,這大概就是AI侵犯隱私后的終極恐懼吧!
現(xiàn)實(shí)世界沒有能夠全面監(jiān)視人類的智子,人類在AI面前還有一小塊隱私自留地,但被AI捕獲的一丁點(diǎn)隱私足以讓普通人無處遁形??▋?nèi)基梅隆大學(xué)Latanya Sweeney教授在《簡單的人口統(tǒng)計(jì)往往能識(shí)別出人的獨(dú)特性》報(bào)告中提到,在基于美國選舉人公共注冊信息的基礎(chǔ)上,AI僅需基于郵編、性別就有可能讓87%的美國人個(gè)人身份完全暴露。
AI與隱私注定對(duì)立。
過往經(jīng)驗(yàn)告訴我們,人類發(fā)展的歷史就是一部保護(hù)隱私的打臉史。
在刀耕火種的原始時(shí)代,人類一沒有尖牙、二沒有利爪,圍獵獲取食物與組團(tuán)抵御猛獸侵襲讓人類組成一個(gè)又一個(gè)小團(tuán)體,生存戰(zhàn)勝了隱私;工業(yè)時(shí)代,工業(yè)革命帶來全新的生產(chǎn)關(guān)系,城市與工廠讓人們分工合作更加密切,發(fā)展碾壓了隱私;信息時(shí)代,互聯(lián)網(wǎng)與AI讓萬物互聯(lián)互通,對(duì)更高層次發(fā)展的追求再一次戰(zhàn)勝了隱私。
《人工智能:一種現(xiàn)代的方法》一書認(rèn)為,AI誕生的目的讓計(jì)算機(jī)這臺(tái)機(jī)器能夠像人一樣思考,從而讓人們生活工作更簡單。
1955年,Newell(紐厄爾)與后來的諾貝爾獎(jiǎng)得主Simon在J. C. Shaw的協(xié)助下開發(fā)了“邏輯理論家(Logic Theorist)”。這個(gè)程序能夠證明《數(shù)學(xué)原理》中前52個(gè)定理中的38個(gè),其中某些證明比原著更加新穎和精巧。而紐厄爾設(shè)計(jì)的這個(gè)原始AI用到了243263 bit數(shù)據(jù),相當(dāng)于12萬多個(gè)漢字,對(duì)于半個(gè)世紀(jì)前的人們來說這就是海量的數(shù)據(jù)。
1950年,圖靈提出了著名的圖靈測試:如果一臺(tái)機(jī)器能夠與人類展開對(duì)話(通過電傳設(shè)備)而不能被辨別出其機(jī)器身份,那么稱這臺(tái)機(jī)器具有智能。前面提到紐厄爾開發(fā)的“邏輯理論家”這個(gè)算不上智能的簡單程序就需要243263 bit數(shù)據(jù),而勉勉強(qiáng)強(qiáng)算得上符合圖靈測試的深藍(lán)(象棋AI),就吃下了一百多年來歷屆優(yōu)秀棋手的對(duì)局兩百多萬局?jǐn)?shù)據(jù),可以說數(shù)據(jù)就是AI成長發(fā)育所必須的蛋白質(zhì)。
![]()
亞瑟·克拉克在《2001太空漫游》的小說中,大膽設(shè)想了一個(gè)超越人類的AI“哈爾9000”,能夠幫助宇航員駕駛飛船且最后還覺醒了自我意識(shí),這或許就是人類對(duì)AI的最終設(shè)想。雖然目前AI還未達(dá)到“哈爾9000”的水平,但是也已經(jīng)達(dá)到投其所好和初步的以假亂真地步,例如AI作畫、今日頭條千人千面的信息推薦機(jī)制等,但前提是得摸清人類的喜好。
![]()
AI摸清人類喜好這就涉及到了隱私數(shù)據(jù),從AI進(jìn)步角度與隱私泄露的趨勢來看,AI的進(jìn)步顯然是建立在隱私數(shù)據(jù)之上的。在20世紀(jì)60年代,在AI起步階段除各國情報(bào)機(jī)構(gòu)對(duì)機(jī)關(guān)、軍隊(duì)等特色群體的監(jiān)控外,幾乎沒有出現(xiàn)過隱私泄露事件;但來到21世紀(jì),隱私泄露變得平民化,安全公司Risk Based Security公布的數(shù)據(jù)顯示,2019年上半年發(fā)生數(shù)據(jù)泄露事件3800余起,相比去年同期增加54%,AI發(fā)達(dá)程度與隱私數(shù)據(jù)呈正相關(guān)。
誠然AI與隱私天然對(duì)立,但現(xiàn)實(shí)告訴我們AI與隱私卻一個(gè)都不能少。
3月初,韓國人剛過完春節(jié),雖然已上班復(fù)工但節(jié)日的氛圍還未消散,集會(huì)聚會(huì)在韓國人的日程上安排得滿滿的,可新天地會(huì)這次集會(huì)讓韓國的疫情急轉(zhuǎn)直下,確診患者從普通民眾到機(jī)關(guān)政要、軍隊(duì)每日呈百數(shù)增加,韓國也得開始自己造新冠疫情檢測試劑了。這里就不得不說韓國的效率了,從立項(xiàng)到研發(fā)成功前后僅花費(fèi)3天時(shí)間,這背后除了向中國取經(jīng)外,還有AI的對(duì)檢測試劑的比對(duì)分析,AI可提升生產(chǎn)力。
AI是生產(chǎn)力提升的助推器的話,那么它還是人類能力范圍擴(kuò)大的拓荒者。每次生產(chǎn)力的提升,人類的能力范圍也隨之得到提升,農(nóng)耕文明之前人類的能力范圍僅限于小山頭的圍獵捕殺,工業(yè)革命的到來讓人類能夠上天下海,而信息時(shí)代則將人類的能力又一次帶入到不可能的境界。
電影《蜂鳥計(jì)劃》中,紐交所的天才操盤手Vincent為了突破17毫秒的傳播極限,辭去工作欲依靠架設(shè)一條完全直線的光纜打破這一極限,但最終還是停留在20毫秒,戲劇性的一幕是Vincent的老板通過程序算法將時(shí)間提升至了10毫秒,完成了不可能,或許Vincent出獄后才會(huì)知道打敗它的這種技術(shù)叫AI吧!
![]()
AI能提升生產(chǎn)力,能創(chuàng)造不可能,而隱私呢?隱私并不能推動(dòng)人類社會(huì)發(fā)展進(jìn)步,但它卻實(shí)實(shí)在在的影響著社會(huì)與每個(gè)個(gè)體。
1944年,一位德國高級(jí)間諜給德國作戰(zhàn)部連發(fā)兩封電報(bào),內(nèi)容都是“加萊”,于是反法西斯的第二戰(zhàn)場得以開辟。給德國最高作戰(zhàn)部發(fā)送情報(bào)的是歷史上著名的雙重間諜胡安·普約爾·加西亞,就是靠著滿口跑火車拿著28份工資的神奇男人。
其實(shí)胡安事先早就知道盟軍進(jìn)攻的是諾曼底,但此時(shí)德國敗像已成,胡安果斷選擇把這個(gè)秘密留在心里并憑借德國對(duì)自己的信任將進(jìn)攻地點(diǎn)說成加萊,人類歷史上最殘酷的戰(zhàn)爭得以提前結(jié)束。
![]()
隱私大可關(guān)乎人類命運(yùn)走向,小則影響個(gè)人生活質(zhì)量。2017年3月,北京的馬琳的銀行卡提示被劃走了40087元,原因是接到“小紅書客服”(詐騙團(tuán)伙)電話按其指導(dǎo)一步一步走向?qū)Ψ劫~戶付款。
藍(lán)鯨TMT報(bào)道的內(nèi)容顯示,與馬琳具有相似被騙經(jīng)歷的還有50余位,她們都是因?yàn)榻拥搅?ldquo;小紅書客服”的電話,并且能夠準(zhǔn)確的說出購物的相關(guān)信息這才騙過了這些女士。詐騙團(tuán)伙能夠準(zhǔn)確的說出其購物信息,顯然是她們的隱私被一絲不掛的泄露了。
生存與發(fā)展是歷史永恒的主題,AI作為先進(jìn)生產(chǎn)力的代表是歷史的大勢所趨,當(dāng)然隱私在生產(chǎn)力更加發(fā)達(dá)的現(xiàn)在也顯得更加重要,如何讓AI能夠不靠吮吸隱私,優(yōu)雅的長大這才是問題的關(guān)鍵。
而這問題的關(guān)鍵就是在于數(shù)據(jù)上,數(shù)據(jù)不僅是AI的糧食,也是隱私的載體。要想讓AI能夠吃到足夠多的數(shù)據(jù),又得讓這些數(shù)據(jù)不足以泄露關(guān)鍵的隱私信息,數(shù)據(jù)脫敏就是這么一個(gè)折中方案。數(shù)據(jù)脫敏,顧名思義就是把原始數(shù)據(jù)通過再處理手段剔除、替換或讓敏感信息失真,同時(shí)保留數(shù)據(jù)可用性的過程,目前數(shù)據(jù)脫敏可大致分為靜態(tài)數(shù)據(jù)脫敏與動(dòng)態(tài)數(shù)據(jù)脫敏兩種,一個(gè)管進(jìn),一個(gè)既管進(jìn)又管出。
靜態(tài)數(shù)據(jù)脫敏是指按照脫敏規(guī)則一次性完成大批量數(shù)據(jù)的變形轉(zhuǎn)換處理,一般用于開發(fā)、測試或者外發(fā)環(huán)境時(shí)使用。通俗的來講,就是某種AI產(chǎn)品還處于內(nèi)部開發(fā)與測試環(huán)境時(shí),需要真實(shí)的數(shù)據(jù)對(duì)其進(jìn)行初始的訓(xùn)練,而靜態(tài)脫敏就是在AI獲取數(shù)據(jù)的入口加一個(gè)過濾網(wǎng),把數(shù)據(jù)中關(guān)于姓名、電話、郵箱等敏感信息直接抽離或模糊化。
![]()
靜態(tài)脫敏
動(dòng)態(tài)脫敏則是通過類似網(wǎng)絡(luò)代理的中間件技術(shù),按照脫敏規(guī)則對(duì)于外部申請(qǐng)?jiān)L問的數(shù)據(jù)進(jìn)行即時(shí)處理并返回脫敏后結(jié)果,一般用于已經(jīng)上市的AI或數(shù)據(jù)查詢服務(wù)中。這就好比房產(chǎn)中介,租房的需要查詢房屋信息,房產(chǎn)中介雖然有房東老板的姓名、電話等敏感信息,但他返回給租房者時(shí)只會(huì)提供房子的區(qū)位信息與價(jià)格信息等,自動(dòng)去掉房東老板的敏感信息,動(dòng)態(tài)脫敏也是這樣。
![]()
動(dòng)態(tài)脫敏
在靜態(tài)脫敏與動(dòng)態(tài)脫敏的基礎(chǔ)上,如今數(shù)據(jù)脫敏技術(shù)已延伸出了Differential Privacy(差分隱私)、FederatedLearning(聯(lián)邦學(xué)習(xí))兩種主流的隱私方案。
差分隱私法是應(yīng)用最為廣泛的數(shù)據(jù)脫敏方案,其原理是將多組具有相同屬性的數(shù)據(jù)集合打包取特定的約定值,從而讓所有數(shù)據(jù)大同小異從而減小敏感數(shù)泄露的風(fēng)險(xiǎn)。假設(shè)李逵的市場部門每個(gè)月都會(huì)用一個(gè)表格統(tǒng)計(jì)部門每個(gè)人的工資發(fā)放金額,除了制表人,別人無法查看這個(gè)表格,只能通過一個(gè)查詢函數(shù)S知道這個(gè)表的總額,某個(gè)月李逵調(diào)去了行政,那么別人就可以通過上個(gè)月表格A,和這個(gè)月表格B,來推測出李逵的工資,只需用S(A)減去S(B)。而差分隱私就是要讓兩組表格看上去差不多,這樣一來你AI就只能推測出你的模糊畫像,而避開了敏感信息的暴露。
![]()
分差法
聯(lián)邦學(xué)習(xí)法則是近些年來新興數(shù)據(jù)脫敏方案,其原理是利用分布式的邊緣設(shè)備,如用戶的手機(jī)、電腦的算力本地計(jì)算產(chǎn)生一個(gè)數(shù)據(jù)模型,再將這個(gè)數(shù)據(jù)模型分發(fā)至中央的服務(wù)器用于AI訓(xùn)練,敏感數(shù)據(jù)自始至終均未進(jìn)入中心服務(wù)器。這就好比開盲盒,邊緣設(shè)備就是外面的盒子,用戶的核心隱私就是里面的玩偶,而中心服務(wù)器的AI就是你,只要你不在店里當(dāng)場拆開盒子永遠(yuǎn)不知道里面具體是什么玩偶,只知道是什么類型或者某個(gè)IP的玩偶,這就是聯(lián)邦學(xué)習(xí)法的作用。
![]()
數(shù)據(jù)來源:Google I/O
現(xiàn)在,像Google、Facebook等在AI開發(fā)中走到前列的巨頭們,也已在普遍在AI研究中采用數(shù)據(jù)脫敏技術(shù)了。在經(jīng)歷過用戶數(shù)據(jù)泄露后,F(xiàn)acebook對(duì)用戶隱私的保護(hù)格外看重,2019年Facebook旗下深度學(xué)習(xí)框架PyTorch就與OpenMined宣布開發(fā)一個(gè)聯(lián)合平臺(tái)的計(jì)劃,加速差分隱私與聯(lián)邦學(xué)習(xí)法對(duì)隱私保護(hù)的技術(shù)研究,目前在在Github(AI算法社區(qū))已經(jīng)擁有5.2k個(gè)Star。顯然,保護(hù)隱私的數(shù)據(jù)脫敏成為了AI發(fā)展的下一站。
![]()
數(shù)據(jù)來源:PYSyft on Github
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論