星云Clustar副總裁許振
6月9日,首屆 CTIS 2021消費(fèi)者科技及創(chuàng)新展覽會(huì)在上海新國際博覽中心正式開幕。在鈦媒體聯(lián)合CTiS共同打造的“AI·創(chuàng)新數(shù)字生活主題論壇”上,星云Clustar副總裁許振進(jìn)行了以“隱私計(jì)算構(gòu)建AI基礎(chǔ)設(shè)施,釋放數(shù)據(jù)價(jià)值”為主題的分享。
機(jī)器學(xué)習(xí)是人工智能的一個(gè)細(xì)分領(lǐng)域,它是在海量數(shù)據(jù)的基礎(chǔ)上去挖掘數(shù)據(jù)的價(jià)值,如果我們抽象來看,它總結(jié)下來就是算法、算力和大數(shù)據(jù)共同工作的產(chǎn)物,它最革命性的東西就是能夠用算法和算力去代替人,去總結(jié)數(shù)據(jù)中的洞察。
“可是當(dāng)我們面對(duì)產(chǎn)業(yè)時(shí),我們發(fā)現(xiàn)數(shù)據(jù)并不大,大部分都是小數(shù)據(jù),孤島,煙囪。我們?cè)谧约核鶕碛械倪@些數(shù)據(jù)上能夠做的挖掘,基本上已經(jīng)達(dá)到了極致,我們?cè)儆酶玫乃惴?、更?qiáng)大的算力,也只能去提升一兩個(gè)百分點(diǎn),已經(jīng)很難引起質(zhì)變了。”許振說,“所以我們?cè)谠S多場(chǎng)景中不得不需要引入外部新的數(shù)據(jù),以對(duì)消費(fèi)者進(jìn)行畫像,預(yù)測(cè)和洞察消費(fèi)者行為”。
由此就產(chǎn)生了一個(gè)矛盾,企業(yè)要提高自己人工智能的水平,必須引入外部數(shù)據(jù),但引入外部數(shù)據(jù)又會(huì)受到數(shù)據(jù)保護(hù)法的限制,這一矛盾該如何解決成為了一個(gè)重要的問題。
而隱私計(jì)算就是回答這一問題的答案。許振介紹說,通過隱私計(jì)算技術(shù),兩個(gè)機(jī)構(gòu)進(jìn)行聯(lián)合建模為需求方提供服務(wù),但數(shù)據(jù)的原文不會(huì)被各方看到,甚至不用出數(shù)據(jù)庫,做到“數(shù)據(jù)可用而不可見”,從而保護(hù)數(shù)據(jù)隱私,這就是隱私計(jì)算所解決的問題。
有機(jī)構(gòu)曾預(yù)測(cè),到2025年,有50%的企業(yè)都是隱私計(jì)算的用戶,不僅限于金融行業(yè),還包括醫(yī)療、生物、政務(wù)、零售等行業(yè),都會(huì)是隱私計(jì)算的目標(biāo)客戶。
“隱私計(jì)算這個(gè)賽道是剛剛起步,應(yīng)用方興未艾。”許振說,“星云Clustar將會(huì)堅(jiān)持在隱私計(jì)算領(lǐng)域貢獻(xiàn)自己的科技力量。”
感謝主辦方的邀請(qǐng),我是來自星云Clustar的許振。今天我所講的話題可能距離消費(fèi)者端有點(diǎn)遠(yuǎn),它更加貼近產(chǎn)業(yè)端。
我今天所演講的話題,分享的內(nèi)容主要是有兩個(gè)關(guān)鍵詞:一個(gè)是隱私計(jì)算,另一個(gè)則是基礎(chǔ)設(shè)施。
機(jī)器學(xué)習(xí)是人工智能的一個(gè)細(xì)分領(lǐng)域,它是在海量數(shù)據(jù)的基礎(chǔ)上去挖掘數(shù)據(jù)的價(jià)值,如果我們抽象來看,它總結(jié)下來就是算法、算力和大數(shù)據(jù)共同工作的產(chǎn)物,它最革命性的東西就是能夠用算法和算力去代替人,去總結(jié)數(shù)據(jù)中的洞察。
最近幾年為什么機(jī)器學(xué)習(xí)這么火,也是因?yàn)槲辶曛?,谷歌的AlphaGo,還有李飛飛的貓,這兩個(gè)事件推進(jìn)了深度學(xué)習(xí),還有其他比較高效的算法,這些算法使得我們可以將數(shù)據(jù)的挖掘交由機(jī)器,這才進(jìn)一步導(dǎo)致了后面行業(yè)的爆發(fā)。包括自動(dòng)語音識(shí)別,機(jī)器視覺技術(shù),大部分也都是用機(jī)器學(xué)習(xí)和深度學(xué)習(xí)去實(shí)現(xiàn)。抽象來說,就是讓機(jī)器在算法的驅(qū)動(dòng)下,在數(shù)據(jù)中去尋找規(guī)律。
可是當(dāng)我們面對(duì)產(chǎn)業(yè)時(shí),我們發(fā)現(xiàn)數(shù)據(jù)并不大,大部分都是小數(shù)據(jù),孤島,煙囪。我們?cè)谧约核鶕碛械倪@些數(shù)據(jù)上能夠做的挖掘,基本上已經(jīng)達(dá)到了極致,我們?cè)儆酶嗟乃惴?、更?qiáng)大的算力,也只能去提升一兩個(gè)百分點(diǎn),已經(jīng)很難引起質(zhì)變了。所以我們?cè)谠S多場(chǎng)景中不得不需要引入外部新的數(shù)據(jù),以對(duì)例如消費(fèi)者進(jìn)行畫像,預(yù)測(cè)和洞察消費(fèi)者行為。
舉個(gè)例子,在金融行業(yè),我們要對(duì)消費(fèi)者信用等級(jí)進(jìn)行評(píng)估,這個(gè)評(píng)估僅僅依靠金融行業(yè)內(nèi)部、銀行內(nèi)部的數(shù)據(jù)是不夠的,因?yàn)殂y行內(nèi)部可能只有消費(fèi)者自己提交的家庭住址、學(xué)歷、收入水平,并沒有他的消費(fèi)習(xí)慣、互聯(lián)網(wǎng)記錄。如果加入這些數(shù)據(jù),銀行對(duì)去申請(qǐng)貸款的消費(fèi)者的洞察會(huì)更加全面,銀行風(fēng)控能力會(huì)更強(qiáng)。
但這涉及到了隱私問題,用消費(fèi)者的數(shù)據(jù)去建立機(jī)器學(xué)習(xí)模型的過程中,是不是會(huì)侵犯隱私?
在歐洲和美國,對(duì)于隱私的保護(hù)是非常嚴(yán)厲的,比如CCPA和GDPR,他們很嚴(yán)苛,收集個(gè)人隱私數(shù)據(jù)的公司不能將這些數(shù)據(jù)共享出去,一旦發(fā)現(xiàn)隱私泄露,罰款額度是非常高的,大約占這個(gè)公司整體營業(yè)收入的2%,谷歌、Facebook都被罰過。
而在中國,個(gè)人隱私保護(hù)法也馬上就要上線了,例如去年《民法典》也已經(jīng)明確規(guī)定了:隱私數(shù)據(jù),特別是消費(fèi)者的隱私數(shù)據(jù),是不能外泄的。
由此就產(chǎn)生了一個(gè)矛盾,企業(yè)要提高自己人工智能的水平,必須引入外部數(shù)據(jù),但引入外部數(shù)據(jù)又會(huì)受到數(shù)據(jù)保護(hù)法的限制,這一矛盾該如何解決成為了一個(gè)重要的問題。
其實(shí),隱私計(jì)算就是能讓企業(yè)在引入外部數(shù)據(jù)時(shí),保護(hù)消費(fèi)者隱私的一種方法。
以前做法很簡(jiǎn)單。比如互聯(lián)網(wǎng)機(jī)構(gòu)和銀行做聯(lián)合建模,利用消費(fèi)行為評(píng)估信用等級(jí),互聯(lián)網(wǎng)公司就把數(shù)據(jù)拷到數(shù)據(jù)中心,這會(huì)導(dǎo)致數(shù)據(jù)的泄露,這種做法已經(jīng)不被允許了。
第二種是數(shù)據(jù)脫敏,把關(guān)鍵字符,比如身份證號(hào)、手機(jī)號(hào)、家庭住址等等,做一些分析,然后再去做機(jī)器學(xué)習(xí)的模型,去探尋規(guī)律,這種方法的最后結(jié)果是不保真的。
而隱私計(jì)算是一種數(shù)據(jù)不用出本地的解決方案。比如兩個(gè)機(jī)構(gòu)可以通過聯(lián)合建模的方法,在數(shù)據(jù)保持在本地的前提下,建出一個(gè)模型來為需求方做服務(wù)。這就衍生了一個(gè)非常好的商業(yè)價(jià)值,就是它保護(hù)了數(shù)據(jù)的所有權(quán),使數(shù)據(jù)的所有權(quán)和使用權(quán)相分離。
以前如果要做一個(gè)數(shù)據(jù)的模型,我們需要把數(shù)據(jù)拷出去,而隨著數(shù)據(jù)拷貝,這個(gè)數(shù)據(jù)的所有權(quán)也就喪失了。隱私計(jì)算是數(shù)據(jù)不出域的,也就是說你可以使用數(shù)據(jù),但見不到數(shù)據(jù),所以它保證了數(shù)據(jù)的所有權(quán)和使用權(quán)的隔離,這使得我們可以去激發(fā)整個(gè)市場(chǎng)數(shù)據(jù)。
我們國家一直強(qiáng)調(diào)要讓數(shù)據(jù)成為生產(chǎn)要素。既然是生產(chǎn)要素,就是商品,就要定價(jià)流通,所以隱私計(jì)算的衍生價(jià)值就是讓數(shù)據(jù)可以變成商品,成為可流通的、有價(jià)值、可定價(jià)的東西。所以這是隱私計(jì)算的副產(chǎn)品,也是它未來可能對(duì)這個(gè)行業(yè)帶來的最大的創(chuàng)新源泉。
說到隱私計(jì)算,內(nèi)部還有細(xì)分,有三大門派。“華山派”就是指的比較早的可信計(jì)算、安全屋,比較流行的像英特爾和阿里螞蟻的技術(shù),這種技術(shù)可以保證安全可信的計(jì)算環(huán)境;第二個(gè)叫“少林派”,指的是多方安全計(jì)算,它的做法就是用秘密分享,不經(jīng)意傳輸,混淆電路等算法,保證你的數(shù)據(jù)既能使用又安全;第三個(gè)“武當(dāng)派”,就是聯(lián)邦學(xué)習(xí),聯(lián)邦學(xué)習(xí)是最近比較火的話題,就是在多個(gè)分布式的節(jié)點(diǎn),使數(shù)據(jù)能夠進(jìn)行交互,最后不僅能訓(xùn)練出一個(gè)模型來,還能保證數(shù)據(jù)的隱私和安全性。從三個(gè)不同技術(shù)的對(duì)比可以看出來,聯(lián)邦學(xué)習(xí)是最能保證數(shù)據(jù)的隱私,又能保證效果的一個(gè)方法。
現(xiàn)在的隱私計(jì)算在金融行業(yè)還是非?;鸨摹5谝?,金融行業(yè)對(duì)外部數(shù)據(jù)的依賴程度很大,因?yàn)榻鹑谛袠I(yè)能夠收集到的客戶數(shù)據(jù)非常有限,風(fēng)險(xiǎn)控制對(duì)于銀行來講是一個(gè)非常重要的指標(biāo),它要提高風(fēng)險(xiǎn)控制能力,降低壞賬率,提高業(yè)務(wù)水平,所以隱私計(jì)算在金融行業(yè)是非常重要的。
其次,在一些其他的消費(fèi)者隱私數(shù)據(jù)比較敏感的地方,比如醫(yī)療、政府等等大數(shù)據(jù)領(lǐng)域,甚至后邊可以擴(kuò)散到小微企業(yè)、產(chǎn)業(yè)鏈金融、還有工業(yè),對(duì)個(gè)人數(shù)據(jù)價(jià)值的保護(hù),還有數(shù)據(jù)資產(chǎn)的界定,隱私計(jì)算都是非常好的一種解決方案?,F(xiàn)在我們正處于一個(gè)技術(shù)的啟動(dòng)期,大概在2019年的時(shí)候,各種技術(shù)已經(jīng)基本成熟了,2020年有些產(chǎn)業(yè)開始做一些試點(diǎn)和試用(POC),還有一些點(diǎn)到點(diǎn)的打通。而到了2021年,這個(gè)產(chǎn)業(yè)就逐漸開始爆發(fā)。
舉幾個(gè)例子,隱私計(jì)算在金融的幾個(gè)細(xì)分領(lǐng)域應(yīng)用范圍也是比較廣的,主要是反洗錢、聯(lián)合定價(jià)、聯(lián)合信貸風(fēng)控,還有客戶價(jià)值的營銷篩選模型,在這些領(lǐng)域中隱私計(jì)算都已經(jīng)有落地案例了。
隱私計(jì)算的口號(hào)就是打破數(shù)據(jù)孤島。
數(shù)據(jù)孤島分為內(nèi)部孤島和外部孤島。一個(gè)大型的集團(tuán),比如像某汽車集團(tuán),它下面有很多分公司,比如有保險(xiǎn)公司、金融公司、汽車公司、車聯(lián)網(wǎng)公司,這些公司有各種各樣的數(shù)據(jù),如果該集團(tuán)想做數(shù)據(jù)打通,它是不能把數(shù)據(jù)拷在一起的,如果拷在一起就違反了《數(shù)據(jù)安全法》,就出域了。
另外一個(gè),機(jī)構(gòu)和機(jī)構(gòu)之間的數(shù)據(jù)打通,比如要反洗錢,上海某個(gè)銀行要和銀聯(lián)進(jìn)行數(shù)據(jù)打通,銀聯(lián)的數(shù)據(jù)不能出來,銀行的數(shù)據(jù)也不能出去,這種情況下就需要機(jī)構(gòu)和機(jī)構(gòu)之間的數(shù)據(jù)打通。
除了金融行業(yè),還有其他行業(yè),比如樣本數(shù)據(jù)的共享,我們知道CV樣本是很難獲取的,因?yàn)橛袝r(shí)候我們?nèi)z測(cè)缺陷,缺陷并不容易出現(xiàn),一旦出現(xiàn),我們即便是標(biāo)注好了,它的數(shù)據(jù)樣本依然是不夠的,所以如果我們大量的人都參與這個(gè)行業(yè),去標(biāo)注自己的樣本,樣本又能共享,變成一個(gè)樣本池。同時(shí),這個(gè)樣本又只屬于我自己,你用我的樣本,但不會(huì)擁有這個(gè)樣本,這時(shí)候又生成了一個(gè)產(chǎn)業(yè),對(duì)于CV數(shù)據(jù)的共享,隱私計(jì)算也能發(fā)揮非常大的作用。
這是金融行業(yè)幾個(gè)比較典型的案例,包括增強(qiáng)風(fēng)控能力,合規(guī),還有小微企業(yè)的貸款幾個(gè)方面。舉個(gè)小例子,現(xiàn)在我們都講供應(yīng)鏈金融,想給小微企業(yè)貸款,很難,特別是它的信用貸,它沒有辦法證明自己的還款能力。什么能證明?發(fā)票,稅務(wù)局有它的開票記錄,或者經(jīng)營記錄也能證明,這些經(jīng)營記錄可能是在電商,有它的交易流水記錄。用聯(lián)邦學(xué)習(xí)的技術(shù),進(jìn)行數(shù)據(jù)打通,增加小微企業(yè)畫像的完整度,銀行就可以給小微企業(yè)做一個(gè)非??陀^的信用評(píng)分,再給它一個(gè)授信額度,小微企業(yè)就得到了企業(yè)資金的滿足。
星云Clustar在這里邊做什么呢?
隱私計(jì)算是機(jī)器學(xué)習(xí)的一個(gè)分支,機(jī)器學(xué)習(xí)是人工智能的一個(gè)分支,所有的行業(yè)都在用人工智能的技術(shù)去解決它的問題,星云Clustar想做的事情就是用隱私計(jì)算去為企業(yè)提供一個(gè)全棧的解決方案,這包括從算力層到計(jì)算框架層,再到最上層的數(shù)據(jù)。隱私計(jì)算就意味著數(shù)據(jù)是要打通的,要有外部數(shù)據(jù)輸入才能完成一個(gè)完整的流程和場(chǎng)景,星云Clustar在這三個(gè)方面都是給客戶提供一站式的解決方案,只要有了這三個(gè)東西,客戶落地一個(gè)隱私計(jì)算或者聯(lián)邦學(xué)習(xí)的業(yè)務(wù)場(chǎng)景是非??斓摹?/p>
星云Clustar是秉承開源的,現(xiàn)在聯(lián)邦學(xué)習(xí)最大的開源社區(qū)叫FATE,星云在里邊貢獻(xiàn)了很多源碼,我們還會(huì)持續(xù)為FATE社區(qū)進(jìn)行貢獻(xiàn)。還有包括聯(lián)邦學(xué)習(xí)的產(chǎn)業(yè)委員會(huì),星云Clustar也在里面起到了非常大的推動(dòng)作用。
有一個(gè)機(jī)構(gòu)曾做了一個(gè)預(yù)測(cè),到2025年的時(shí)候,有50%的企業(yè)都是隱私計(jì)算的用戶,所以我們可以想像一下,我們?cè)谧鲆恍I(yè)務(wù)決策的時(shí)候,要做BI,要做各種數(shù)據(jù)的匯總,CRM、ERP,那都是內(nèi)部的數(shù)據(jù),引入外部數(shù)據(jù)意味著比你自己在數(shù)據(jù)上去做各種升維降維、衍生變量,效率更高。所以除了剛才我們提到的金融行業(yè),還有醫(yī)療、生物、政務(wù)、零售等行業(yè),都會(huì)是隱私計(jì)算的目標(biāo)客戶。
所以隱私計(jì)算這個(gè)賽道是剛剛起步,而且應(yīng)用方興未艾,星云Clustar將會(huì)堅(jiān)持在隱私計(jì)算領(lǐng)域貢獻(xiàn)自己的科技力量。
我的介紹到這里,謝謝。
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論