圖片來(lái)源@視覺(jué)中國(guó)
文丨王詩(shī)強(qiáng)
互聯(lián)網(wǎng)信息的爆炸式增長(zhǎng),具有大規(guī)模、多元化、組織結(jié)構(gòu)松散等特點(diǎn),如何有效獲取信息和知識(shí)面臨巨大挑戰(zhàn)。
近年來(lái)興起的“知識(shí)圖譜”,漸漸成為一種新穎的管理海量信息的方式,受到各大互聯(lián)網(wǎng)公司青睞,并在不知不覺(jué)中被廣泛應(yīng)用于搜索、電商、社交等各個(gè)領(lǐng)域。
除此之外,該技術(shù)還被各大金融機(jī)構(gòu)以及人工智能公司關(guān)注,開(kāi)始在金融反欺詐、安防等新的領(lǐng)域進(jìn)行嘗試應(yīng)用。但是,知識(shí)圖譜技術(shù)依然不夠成熟,從第三方獲取技術(shù)服務(wù)費(fèi)等商業(yè)化依然處于探索階段。
關(guān)于知識(shí)圖譜定義,復(fù)旦大學(xué)教授肖仰華在其著作《知識(shí)圖譜》中這么解釋:“作為一種知識(shí)表示形式,知識(shí)圖譜是一種大規(guī)模語(yǔ)義網(wǎng)絡(luò),包括實(shí)體、概念及其之間的各種語(yǔ)義關(guān)系。”如下圖,柏拉圖就是一個(gè)實(shí)體,他是一個(gè)哲學(xué)家(概念)。
![]()
冰鑒科技知識(shí)圖譜業(yè)務(wù)負(fù)責(zé)人認(rèn)為:“知識(shí)圖譜核心價(jià)值在于如何沉淀知識(shí)。圖譜開(kāi)始建立的時(shí)候,都是關(guān)系圖譜,通過(guò)大量的模型,借助于圖譜模型的高度解釋性的優(yōu)勢(shì),構(gòu)建和形成很多隱性關(guān)系和實(shí)體標(biāo)簽,最后建設(shè)成為知識(shí)圖譜。在關(guān)系圖譜到知識(shí)圖譜的建設(shè)過(guò)程中,業(yè)務(wù)專家高度參與,利用知識(shí)圖譜的探索式數(shù)據(jù)分析能力,自助構(gòu)建高度解釋性的業(yè)務(wù)知識(shí)模型,形成知識(shí)沉淀的迭代和高度分享。”
知識(shí)圖譜是典型的大數(shù)據(jù)時(shí)代產(chǎn)物,具有規(guī)模巨大、質(zhì)量精良、結(jié)構(gòu)友好等優(yōu)點(diǎn)。
2017年,我國(guó)科學(xué)目錄調(diào)整時(shí),首次出現(xiàn)了知識(shí)圖譜學(xué)科,教育部對(duì)知識(shí)圖譜這一學(xué)科的定位是“大規(guī)模知識(shí)工程”。
![]()
知識(shí)圖譜早期主要用于搜索結(jié)果優(yōu)化,隨著電商、互聯(lián)網(wǎng)金融等興起,應(yīng)用領(lǐng)域不斷增加,包括智能推薦、智能客服、金融風(fēng)控、安全與安防等都在積極探索。
知識(shí)圖譜的誕生最早可以追溯到2010年前后,主要是為了解決搜索引擎用戶體驗(yàn)問(wèn)題。
搜索領(lǐng)域主要面臨兩方面問(wèn)題:一方面,搜索需求和搜索結(jié)果往往難以匹配,經(jīng)常有“搜”非所問(wèn)的情況;另一方面,搜索結(jié)果編排無(wú)序,顯示雜亂。
2010年,微軟開(kāi)始構(gòu)建MicrosoftSatori知識(shí)圖譜來(lái)增強(qiáng)Bing搜索能力;2012年5月,Google公司為了支撐其語(yǔ)義搜索推出KnowledgeGraph,目前已成為全球最大的知識(shí)圖譜。2012年11月22日,搜狗知立方上線,成為國(guó)內(nèi)首個(gè)搜索引擎“中文知識(shí)圖譜”。差不多同一時(shí)間,百度知識(shí)圖譜被立項(xiàng)。2013 年,F(xiàn)acebook發(fā)布OpenGraph應(yīng)用于社交網(wǎng)絡(luò)智能搜索。
早期各大搜索平臺(tái)主要依賴“關(guān)鍵字搜索”技術(shù),返回給用戶包含關(guān)鍵字的網(wǎng)頁(yè)列表,用戶需要進(jìn)一步瀏覽這些網(wǎng)頁(yè)并且過(guò)濾掉大量無(wú)用信息才能找到真正想要的結(jié)果,用戶更希望能夠“直接得到答案”。利用知識(shí)圖譜技術(shù)可以直接給出用戶想要的搜索結(jié)果,而不再是各類鏈接。如下圖,搜索“上海有多少人?”360搜索直接展示出國(guó)家統(tǒng)計(jì)局的數(shù)據(jù),用戶直接將鼠標(biāo)移動(dòng)到相應(yīng)年份,可以快速查看各年數(shù)據(jù)。
![]()
隨后,知識(shí)圖譜引入到電商搜索領(lǐng)域。2015年,阿里巴巴開(kāi)始構(gòu)建電商領(lǐng)域知識(shí)圖譜——認(rèn)知圖譜;2016年Amazon也緊隨其后開(kāi)始構(gòu)建知識(shí)圖譜。2018年5月,美團(tuán)點(diǎn)評(píng)NLP中心開(kāi)始構(gòu)建大規(guī)模的餐飲娛樂(lè)知識(shí)圖譜——美團(tuán)大腦。
![]()
![]()
在搜索領(lǐng)域,知識(shí)圖譜能夠?qū)⒂脩羲峤坏牟樵冊(cè)~理解成實(shí)體或者概念,通過(guò)實(shí)體或者概念匹配為用戶返回其可能關(guān)心的全部網(wǎng)頁(yè)內(nèi)容。搜索引擎中知識(shí)圖譜的搜索過(guò)程如下:
![]()
知識(shí)圖譜用文本和知識(shí)融合的閱讀理解模型,使搜索結(jié)果更理解客戶需求。
對(duì)于電商平臺(tái)來(lái)說(shuō),交易量和客戶活躍度也是其核心競(jìng)爭(zhēng)力,而客戶一般都是通過(guò)搜索獲得想要的商品,越精準(zhǔn)的搜索結(jié)果,客戶使用越多。
因此,百度、搜狗、阿里巴巴、美團(tuán)、騰訊等不斷摸索,紛紛嘗試構(gòu)建自己的知識(shí)圖譜平臺(tái)。
![]()
除了優(yōu)化搜索結(jié)果,知識(shí)圖譜還可以幫助電商以及社交平臺(tái)解決一些智能推薦問(wèn)題。例如,當(dāng)前一些中小平臺(tái)在智能推薦方面最大的問(wèn)題是“買了啥,推薦啥”或者“推薦的商品與客戶無(wú)關(guān)聯(lián)”。推薦商品缺乏新穎性,導(dǎo)致轉(zhuǎn)化效果一般。
知識(shí)圖譜可以幫助電商平臺(tái)跳出這種簡(jiǎn)單的推薦邏輯,使得推薦結(jié)果更加智能化,促進(jìn)用戶購(gòu)買。
![]()
備注:左圖展示了實(shí)體鏈接如何應(yīng)用于智能問(wèn)答問(wèn)題推薦,問(wèn)題通過(guò)SLU處理之后會(huì)得到其意圖和主實(shí)體,然后借助實(shí)體推薦得到相關(guān)的實(shí)體,相關(guān)實(shí)體被用來(lái)構(gòu)建相關(guān)的問(wèn)題,比如說(shuō)”武漢大學(xué)周邊好吃的?“,識(shí)別到其主實(shí)體為”武漢大學(xué)“、核心意圖為”美食“,以此推薦實(shí)體相關(guān)的問(wèn)題,比如說(shuō)”華中科技大學(xué)周邊有什么好吃的?“,”清華大學(xué)周邊有什么好吃的?“,”武漢科技大學(xué)周邊有什么好吃的?“。同時(shí)實(shí)現(xiàn)了推薦意圖相關(guān)的問(wèn)題,比如說(shuō)”武漢大學(xué)周邊有什么好玩的?“,”武漢大學(xué)周邊有什么景點(diǎn)?“,”武漢大學(xué)周邊有什么酒店?“等等。右圖展示了實(shí)體推薦在圖譜自動(dòng)化構(gòu)建平臺(tái)上的應(yīng)用,當(dāng)用戶搜索一個(gè)實(shí)體的時(shí)候,平臺(tái)會(huì)為其推薦相關(guān)的實(shí)體。
近些年,消費(fèi)金融和小微企業(yè)貸興起后,銀行以及其他持牌金融公司、助貸機(jī)構(gòu)、人工智能公司等開(kāi)始將知識(shí)圖譜應(yīng)用于風(fēng)險(xiǎn)控制,特別是識(shí)別團(tuán)伙欺詐。
知識(shí)圖譜的推理能力和可解釋性,在金融場(chǎng)景中具有天然的優(yōu)勢(shì)。
艾瑞咨詢年初發(fā)布的《2020年中國(guó)面向人工智能“新基建”的知識(shí)圖譜行業(yè)研究報(bào)告》指出,隨著近些年金融數(shù)據(jù)的爆發(fā)式增長(zhǎng),傳統(tǒng)風(fēng)控系統(tǒng)逐漸力有不逮,而應(yīng)用機(jī)器學(xué)習(xí)算法和知識(shí)圖譜的智能風(fēng)控系統(tǒng)在風(fēng)險(xiǎn)識(shí)別能力和大規(guī)模運(yùn)算方面具有突出優(yōu)勢(shì),逐漸成為金融領(lǐng)域風(fēng)控反欺詐的主要手段。
在金融領(lǐng)域,知識(shí)圖譜可以應(yīng)用于小微企業(yè)信貸、消費(fèi)信貸、信用卡申請(qǐng)等反欺詐業(yè)務(wù),還可以用來(lái)識(shí)別會(huì)計(jì)造假。
基本原理簡(jiǎn)單理解是:“物以類聚,人以群分。”
”如“同一個(gè)WiFi下多個(gè)企業(yè)借款客戶”,或者“同一個(gè)設(shè)備注冊(cè)多個(gè)企業(yè)賬號(hào)申請(qǐng)借款”,均有可能與欺詐相關(guān) 。
因此,信貸欺詐的識(shí)別問(wèn)題可以轉(zhuǎn)化為客戶知識(shí)圖譜挖掘或社交網(wǎng)絡(luò)分析問(wèn)題。即把企業(yè)工商信息、新聞動(dòng)態(tài)、股東關(guān)系、股權(quán)變更、司法訴訟等等整合到反欺詐知識(shí)圖譜里,經(jīng)過(guò)分析和預(yù)測(cè),挖掘識(shí)別欺詐案件,如利用殼公司貸款等。
據(jù)冰鑒科技知識(shí)圖譜負(fù)責(zé)人介紹,目前冰鑒正在與銀行合作,構(gòu)建不同條件下,不同場(chǎng)景的知識(shí)圖譜模型,給知識(shí)圖譜的實(shí)體關(guān)系打上標(biāo)簽或者挖掘新的關(guān)系,以便更好的應(yīng)用于金融風(fēng)控。
圖7:圖特征整體框架設(shè)計(jì)
![]()
資料來(lái)源:冰鑒科技研究院
再?gòu)某R?jiàn)的擔(dān)保業(yè)務(wù)來(lái)看,擔(dān)保網(wǎng)絡(luò)可簡(jiǎn)化為規(guī)模較小、相對(duì)獨(dú)立的擔(dān)保群。擔(dān)保群間擔(dān)保關(guān)聯(lián)稀疏;擔(dān)保群內(nèi)部聯(lián)系緊密,擔(dān)保圈風(fēng)險(xiǎn)一般只發(fā)生在群內(nèi)部,找到風(fēng)險(xiǎn)最大的擔(dān)保群,然后就可以找到風(fēng)險(xiǎn)最大的擔(dān)保企業(yè)。
![]()
在金融領(lǐng)域,除了冰鑒科技外,建設(shè)銀行、招商銀行、光大銀行、南京銀行等商業(yè)銀行,360數(shù)科、萬(wàn)象智聯(lián)等均在積極嘗試?yán)迷摷夹g(shù)進(jìn)行風(fēng)險(xiǎn)控制。
公安機(jī)關(guān)在偵查案件時(shí),經(jīng)??吹睫k案民警用圖譜梳理案件及人物關(guān)系。在電視劇《人民的名義》中,警方利用知識(shí)圖譜分析,可以很快看清“山水集團(tuán)”背后的利益鏈條。
![]()
除此之外,知識(shí)圖譜從大數(shù)據(jù)中深度挖掘關(guān)聯(lián)關(guān)系,可準(zhǔn)實(shí)時(shí)分析多至千億級(jí)海量關(guān)系數(shù)據(jù),轉(zhuǎn)化為關(guān)系圖譜數(shù)據(jù),支撐公安機(jī)關(guān)展開(kāi)情報(bào)研判分析、犯罪團(tuán)伙跟蹤以及重大事情預(yù)警等。
5、其他領(lǐng)域
除了以上應(yīng)用領(lǐng)域外,智慧醫(yī)療、智能客服(智能問(wèn)答)等領(lǐng)域也在積極利用知識(shí)圖譜技術(shù),使結(jié)果更加準(zhǔn)確,使機(jī)器人客服更加智能。
![]()
2018年10月,知識(shí)圖譜首次進(jìn)入國(guó)際知名咨詢公司Gartener的技術(shù)成熟度曲線,目前正處于技術(shù)成熟曲線的上升階段,特別是學(xué)習(xí)和推理技術(shù)亟待突破,預(yù)計(jì)進(jìn)入成熟期還需要5-10年。
知識(shí)融合和知識(shí)推理是知識(shí)圖譜的關(guān)鍵技術(shù),但目前都面臨很多挑戰(zhàn),主要包括:
1、當(dāng)知識(shí)圖譜不能準(zhǔn)確將具有同義異名的實(shí)體對(duì)齊或?qū)⑼惲x的實(shí)體消歧就會(huì)導(dǎo)致知識(shí)圖譜中出現(xiàn)知識(shí)冗余或缺失;
2、如何模仿人腦機(jī)制實(shí)現(xiàn)小樣本或零樣本學(xué)習(xí)知識(shí)推理;
3、知識(shí)圖譜中知識(shí)的有效性往往受到時(shí)間空間等動(dòng)態(tài)因素約束,如何合理利用知識(shí)的動(dòng)態(tài)約束信息完成動(dòng)態(tài)推理也是知識(shí)推理的一大挑戰(zhàn);
4、在自然語(yǔ)言處理仍然不能有效完成抽取任務(wù)的現(xiàn)實(shí)下,能否充分利用各類資源,能否有效利用已經(jīng)積累的業(yè)務(wù)知識(shí),能否充分利用人力因素進(jìn)行驗(yàn)證或者標(biāo)注,均對(duì)知識(shí)圖譜落地的效果產(chǎn)生顯著影響。
比如搜索“蘋(píng)果”,淘寶出現(xiàn)的全是蘋(píng)果手機(jī),而京東既有蘋(píng)果手機(jī),也有蘋(píng)果(水果)。這說(shuō)明兩家公司對(duì)同一客戶需求判斷出現(xiàn)了語(yǔ)義分歧,前者認(rèn)為客戶只需要蘋(píng)果手機(jī),后者認(rèn)為客戶還可能想吃蘋(píng)果。但是,出現(xiàn)這樣的結(jié)果卻很難判斷誰(shuí)好誰(shuí)壞,不同用戶體驗(yàn)是不一樣的。
![]()
此外,電商、金融、安防等等領(lǐng)域都可以搭建知識(shí)圖譜平臺(tái),但是如何更好的與這些應(yīng)用場(chǎng)景結(jié)合,在不同公司不同行業(yè)之間低成本遷移、商業(yè)化落地,面臨重大挑戰(zhàn)。
目前來(lái)看,電商領(lǐng)域(淘寶、美團(tuán)等)、通用搜索平臺(tái)(百度、搜狗搜索)都是自建知識(shí)圖譜平臺(tái),且已經(jīng)有效提高了客戶體驗(yàn),增加了用戶粘性。但知識(shí)圖譜在第三方的商業(yè)化依然處于探索階段。
據(jù)冰鑒科技研究院了解,智能客服已經(jīng)在很多行業(yè)開(kāi)始商業(yè)化應(yīng)用,而其核心技術(shù)就是知識(shí)圖譜,極大地減少企業(yè)的客服成本。
在電商領(lǐng)域,未來(lái)很可能會(huì)將相關(guān)知識(shí)圖譜技術(shù)對(duì)外輸出,特別是一些垂直領(lǐng)域的電商平臺(tái)。
在金融領(lǐng)域,第三方人工智能公司為銀行等金融機(jī)構(gòu)搭建知識(shí)圖譜平臺(tái)獲取技術(shù)服務(wù)費(fèi)是其主要的商業(yè)化的方法之一。如建設(shè)銀行,在2019年6月對(duì)外發(fā)布人工智能運(yùn)維知識(shí)圖譜產(chǎn)品供應(yīng)商征集公告。
![]()
從短期來(lái)看,在大多數(shù)細(xì)分領(lǐng)域,知識(shí)圖譜平臺(tái)商業(yè)化還比較困難,一方面缺少有效付費(fèi)用戶,另一方面公開(kāi)數(shù)據(jù)有限、相關(guān)知識(shí)抽取困難,知識(shí)圖譜平臺(tái)難以搭建;從長(zhǎng)期來(lái)看,據(jù)艾瑞咨詢推算,知識(shí)圖譜核心產(chǎn)品的市場(chǎng)規(guī)模預(yù)計(jì)2024年將突破200億元,年復(fù)合增長(zhǎng)率達(dá)到20.4%。
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論