![]()
圖片由AI生成
這次的速訪(fǎng)嘉賓是來(lái)自北京彩智科技公司CEO徐劍軍。彩智科技的核心產(chǎn)品是深知可信知識(shí)模型,能幫助大模型修正幻覺(jué)問(wèn)題,讓智能體可以“開(kāi)箱即用”地得到準(zhǔn)確可信的業(yè)務(wù)知識(shí),從而能夠在嚴(yán)肅工作場(chǎng)景下解決信息不準(zhǔn)確和內(nèi)容不安全的問(wèn)題。
智客Zhiker:請(qǐng)介紹下核心團(tuán)隊(duì)背景。
徐劍軍:我們核心團(tuán)隊(duì)由兩部分組成,一部分來(lái)自于清華大學(xué)計(jì)算機(jī)系知識(shí)工程組,專(zhuān)業(yè)做知識(shí)圖譜知識(shí)工程與大模型融合。另一部分長(zhǎng)期做傳統(tǒng)行業(yè)的政企業(yè)務(wù)。
我在清華讀博期間協(xié)助導(dǎo)師做了一些校企合作項(xiàng)目,承接一些部委的頂層架構(gòu)設(shè)計(jì)、數(shù)據(jù)資源圖譜與對(duì)應(yīng)語(yǔ)義網(wǎng)絡(luò)分析等工作。畢業(yè)后,我們依然在服務(wù)一些大型企業(yè)和政府,做行業(yè)標(biāo)準(zhǔn)規(guī)范以及數(shù)據(jù)資源規(guī)劃,也就是把數(shù)據(jù)資源背后的原數(shù)據(jù)圖譜化。我們做的案例有:為2008年北京奧運(yùn)旅游官網(wǎng)做的旅游資源梳理;原華北電力集團(tuán)的采購(gòu)體系梳理等。
智客Zhiker:是什么契機(jī)轉(zhuǎn)型做深知可信?
徐劍軍:2020年GPT-3發(fā)布,它在語(yǔ)言理解能力、推理能力和編程能力上已經(jīng)展現(xiàn)了驚人的潛力,我們深刻認(rèn)識(shí)到新的時(shí)代即將到來(lái),項(xiàng)目制的知識(shí)圖譜無(wú)法代表知識(shí)工程領(lǐng)域的未來(lái),真正的未來(lái)應(yīng)該是與深度學(xué)習(xí)體系深度融合。
而另一方面,我們還有一個(gè)判斷,就是無(wú)論transform和強(qiáng)化學(xué)習(xí)發(fā)展到什么程度,它的強(qiáng)項(xiàng)始終是針對(duì)自然形成的知識(shí)與能力。因?yàn)楸举|(zhì)上,transform就是一種自監(jiān)督或者無(wú)監(jiān)督算法。它可以憑借巨大的算力,來(lái)訓(xùn)練全人類(lèi)的所有文獻(xiàn),以此來(lái)獲得全人類(lèi)自然形成的各種能力。在這些能力上,它一定會(huì)比肩乃至超過(guò)人類(lèi)。
但是對(duì)于非自然形成的知識(shí),例如我們?nèi)祟?lèi)社會(huì)所構(gòu)建的大量規(guī)章制度、組織流程、商業(yè)規(guī)則等內(nèi)容,從原理上是沒(méi)有辦法通過(guò)自監(jiān)督或無(wú)監(jiān)督訓(xùn)練的。因?yàn)檫@些知識(shí)本身并不是通過(guò)自然知識(shí)推理而得的產(chǎn)物,而是由人類(lèi)社會(huì)根據(jù)特定目標(biāo)和需求,人為構(gòu)建的。大語(yǔ)言模型通過(guò)概率算法來(lái)學(xué)習(xí)這些非自然形成的知識(shí),一定會(huì)產(chǎn)生大量幻覺(jué),最終還是得回到知識(shí)圖譜這種結(jié)構(gòu)化梳理。這也是整個(gè)產(chǎn)業(yè)界給知識(shí)工程留的最后一片陣地。
智客Zhiker:大語(yǔ)言模型會(huì)產(chǎn)生怎樣的幻覺(jué)?
徐劍軍:你去問(wèn)通用大模型一些行業(yè)標(biāo)準(zhǔn)、行業(yè)規(guī)范或者一些國(guó)家政策,你會(huì)發(fā)現(xiàn)所有的大模型都能給你回答,但他們的回答中一定會(huì)有10%—20%的內(nèi)容是不準(zhǔn)確的。
我舉個(gè)例子,比如涉及到衛(wèi)生許可證,全國(guó)幾百個(gè)城市的規(guī)定都有差別,這方面的商業(yè)規(guī)則以每個(gè)城市不同的最新規(guī)范文件為準(zhǔn)。但目前的通用大模型,是綜合按過(guò)去20年所有城市在這方面發(fā)布的文件數(shù)據(jù)進(jìn)行無(wú)監(jiān)督計(jì)算,主要通過(guò)概率來(lái)找規(guī)律,這完全無(wú)法保證準(zhǔn)確性。
智客Zhiker:會(huì)為每個(gè)客戶(hù)單獨(dú)構(gòu)建知識(shí)圖譜來(lái)訓(xùn)練垂直行業(yè)的模型嗎?
徐劍軍:那太不酷了,不代表通用人工智能。關(guān)鍵是過(guò)去一年半在這種項(xiàng)目制知識(shí)工程做大模型應(yīng)用落地,有不少失敗教訓(xùn)。
我們深知可信做的第一件事情就是一個(gè)大知識(shí)工程。通用人工智能時(shí)代里,不應(yīng)該是我們需要服務(wù)哪個(gè)行業(yè)或者哪家公司了,再花時(shí)間學(xué)習(xí)梳理,構(gòu)建圖譜。大知識(shí)工程本身不再為某一個(gè)行業(yè)或者具體公司服務(wù),而是把全中國(guó),所有中文語(yǔ)境里能找到的章程類(lèi)知識(shí)全部結(jié)構(gòu)化,形成一個(gè)覆蓋法律、政策、標(biāo)準(zhǔn)、企業(yè)制度等領(lǐng)域的超大規(guī)模知識(shí)圖譜。
目前,全國(guó)所有能夠找到的網(wǎng)頁(yè),涉及到章程類(lèi)知識(shí),又沒(méi)有版權(quán)糾紛的文件大概小100億,技術(shù)去重之后剩20億,業(yè)務(wù)溯源歸一化之后只有1.7億文件,共16億的知識(shí)點(diǎn)。通過(guò)對(duì)這些知識(shí)點(diǎn)的結(jié)構(gòu)化處理,我們構(gòu)建了一個(gè)巨大的語(yǔ)義關(guān)系網(wǎng)絡(luò)來(lái)判斷在某一個(gè)場(chǎng)景下,到底適用于怎樣的規(guī)則和條款。這就是我們做的第一件事,大知識(shí)工程。
今天這個(gè)大知識(shí)工程已經(jīng)開(kāi)放內(nèi)測(cè),全中國(guó)300多個(gè)城市,任何一個(gè)城市里涉及到章程和制度的知識(shí),都可以來(lái)問(wèn)我們的深知可信,我們給出的答案一定是目前市面上所有大模型中最準(zhǔn)確的。
智客Zhiker:咱16億知識(shí)點(diǎn)的整理,聽(tīng)起來(lái)是一個(gè)浩瀚的工程。
徐劍軍:如果按照我們之前構(gòu)建知識(shí)圖譜的工作方式去處理這16億知識(shí)點(diǎn),我可能需要一支10萬(wàn)人的團(tuán)隊(duì)。因?yàn)檫@16億的知識(shí)點(diǎn)并不是靜態(tài)的,而是動(dòng)態(tài)更新的。我們國(guó)家的所有規(guī)章制度平均每年的變化量是20%。顯然不可能依靠傳統(tǒng)的人工方式來(lái)維護(hù)如此龐大的知識(shí)體系。
這里就得提到4年半之前,我們承接的一個(gè)科技部重大專(zhuān)項(xiàng)的子課題任務(wù)——大規(guī)模知識(shí)圖譜的自動(dòng)化構(gòu)建。這套知識(shí)工程模型,就是我們用來(lái)替代10萬(wàn)人工團(tuán)隊(duì)的核心技術(shù)。
智客Zhiker:這套知識(shí)工程模型是如何實(shí)現(xiàn)自動(dòng)化構(gòu)建?
徐劍軍:一開(kāi)始我們自研了一套大知識(shí)工程的自動(dòng)化平臺(tái),這個(gè)平臺(tái)的第一件事就是把我們?nèi)祟?lèi)知識(shí)分析師的工作拆成了十幾道工序,以求先實(shí)現(xiàn)流水線(xiàn)作業(yè)。在流水線(xiàn)中,我們特別注重分析和知識(shí)標(biāo)注的高質(zhì)量,所以我們把十幾個(gè)分析師分成兩組交叉驗(yàn)證,一起負(fù)責(zé)構(gòu)建同一批知識(shí)點(diǎn)。在每一個(gè)流水線(xiàn)環(huán)節(jié)都積累了有監(jiān)督下的大量的輸入和輸出數(shù)據(jù)之后,我們按照人類(lèi)分析師的行為訓(xùn)練出了一個(gè)“一是一、二是二”的消除了所有幻覺(jué)的專(zhuān)有大知識(shí)模型。
4年半以來(lái),在一次次迭代升級(jí)中,大知識(shí)模型逐漸開(kāi)始取代50%、60%、70%、80%的人工,到現(xiàn)在已經(jīng)接近于完全的自動(dòng)化。
我們團(tuán)隊(duì)和4年前相差無(wú)幾,但是每天知識(shí)點(diǎn)的處理量已經(jīng)從過(guò)去一個(gè)月幾千到現(xiàn)在每天將近100萬(wàn)。再加上我們做了一個(gè)輕量化知識(shí)工程模型,也就是我們的深知可信知識(shí)模型,現(xiàn)在我們可以以更快的速度現(xiàn)場(chǎng)為客戶(hù)做數(shù)據(jù)訓(xùn)練了。
智客Zhiker:訓(xùn)練是對(duì)大語(yǔ)言模型聯(lián)想和推理功能的限制嗎?
徐劍軍:基于大語(yǔ)言模型的原理,我們?cè)谶M(jìn)行全量有監(jiān)督訓(xùn)練的時(shí)候,不可避免會(huì)造成我們訓(xùn)練出的模型對(duì)他既有某些能力的遺忘,包括它的推理能力、數(shù)學(xué)能力。但是通過(guò)我們的工程實(shí)踐,難能可貴地保留了最基礎(chǔ)的通用能力,包括對(duì)自然語(yǔ)言的理解能力等,也算沒(méi)有徹底練傻。
在這個(gè)過(guò)程中,我們還意外地發(fā)現(xiàn),我們的模型實(shí)現(xiàn)了另一個(gè)很有價(jià)值的功能。
智客Zhiker:什么功能?
徐劍軍:價(jià)值觀(guān)的對(duì)齊。
智客Zhiker:如何實(shí)現(xiàn)這個(gè)功能?
徐劍軍:推理模型就是太聰明了,太聰明就會(huì)出現(xiàn)一些幻覺(jué),也會(huì)出現(xiàn)我們想象不到的安全隱患。而我們深知可信對(duì)于幻覺(jué)天生就有很強(qiáng)的抵抗能力,首先,我們是拿所有規(guī)范性文件訓(xùn)練出來(lái)的,不會(huì)別的,只會(huì)文件中的知識(shí)點(diǎn)。所以任何的誘導(dǎo)對(duì)我們的模型都沒(méi)有用,這個(gè)是我們安全的基礎(chǔ)。
另外,我們實(shí)現(xiàn)了深知可信知識(shí)模型和通用大模型之間的一個(gè)工作配合。我們把深知可信知識(shí)模型準(zhǔn)確的知識(shí)召回能力和進(jìn)行安全對(duì)話(huà)風(fēng)控的能力,變成一個(gè)開(kāi)放MCP接口。在很多實(shí)際場(chǎng)景下,通用大模型會(huì)是主導(dǎo),他來(lái)主控,做常識(shí)的推演,但是涉及到章程和規(guī)則的問(wèn)題,他就會(huì)來(lái)通過(guò)我們的MCP接口來(lái)召回準(zhǔn)確的章程類(lèi)的知識(shí)。
在通用大模型回答用戶(hù)問(wèn)題之前,也會(huì)經(jīng)過(guò)我們獨(dú)有的一個(gè)安全風(fēng)控模型,判斷一下該問(wèn)題有沒(méi)有安全風(fēng)險(xiǎn)。如果有安全風(fēng)險(xiǎn),我們會(huì)給一個(gè)安全的識(shí)別碼,然后由我們的模型代答,以規(guī)避風(fēng)險(xiǎn)。如果判斷沒(méi)有風(fēng)險(xiǎn),回答過(guò)程就交給大模型智能體,只在需要調(diào)用規(guī)章知識(shí)時(shí)再調(diào)用我們的模型即可。
智客Zhiker:已經(jīng)接入哪些通用大模型?
徐劍軍:最早就接入了智譜開(kāi)放平臺(tái),后來(lái)又接入了百度的千帆,華為的小e和鴻蒙的智能體生態(tài),阿里的百鏈,還有騰訊的一個(gè)和元寶配合的生態(tài),叫元?dú)?。四周以前,字?jié)也主動(dòng)找到我們,也一起順勢(shì)簽約合作了。大家都比較重視這種嚴(yán)肅場(chǎng)景下的模型應(yīng)用,也都愿意嘗試與我們合作。尤其是智譜的開(kāi)放平臺(tái)bigmodel.cn。
智譜GLM4.5本身以Agentic能力見(jiàn)長(zhǎng),特別適合支撐智能體使用各類(lèi)工具來(lái)解決場(chǎng)景問(wèn)題。與之對(duì)應(yīng),智譜開(kāi)放平臺(tái)也對(duì)各類(lèi)工具,一方面嚴(yán)加測(cè)試、另一方面又大力推廣。我們?cè)谥亲V開(kāi)放平臺(tái)上不僅僅有生態(tài)調(diào)用,甚至智譜本身的一些產(chǎn)品,如智譜數(shù)字人等也在調(diào)用我們的接口服務(wù)。這種綜合性的平臺(tái)生態(tài)能力,在我們看來(lái),會(huì)是各家知名通用大模型企業(yè)大力發(fā)展的能力。
智客Zhiker:只能在中文語(yǔ)境使用嗎?有出海打算嗎?
徐劍軍:國(guó)家在去年有一個(gè)指示,就是咱們中國(guó)的人工智能要出海。在這個(gè)背景下,目前相關(guān)機(jī)構(gòu)與企業(yè)正在籌備成立自主大模型的社會(huì)組織,深知可信也很有幸受邀參與。事實(shí)上我們已經(jīng)在深圳嘗試了多語(yǔ)種模型,當(dāng)時(shí)看起來(lái)有點(diǎn)超前,但未來(lái)一定會(huì)走向海外市場(chǎng)。
智客Zhiker:商業(yè)化情況如何?
徐劍軍:我們目前的商業(yè)化分成兩個(gè)方面:
第一,是未來(lái)的藍(lán)海市場(chǎng)。我們會(huì)服務(wù)于各種各樣的第三方的智能體和應(yīng)用。比如說(shuō)攜程的智能體一直會(huì)有一個(gè)難題,就是關(guān)于護(hù)照制度的咨詢(xún)。全中國(guó)辦護(hù)照是以縣為單位,每個(gè)縣和每個(gè)縣的規(guī)矩都不太一樣。像這個(gè)問(wèn)題,調(diào)用我們深知可信知識(shí)模型就非常合適。但這條收入渠道非常依賴(lài)于整個(gè)生態(tài)的成熟度,目前帶來(lái)的收入還不足以規(guī)?;?。
第二,是我們目前幾個(gè)真正能賺錢(qián)的渠道。第一渠道是政府。政府門(mén)戶(hù)網(wǎng)站、國(guó)務(wù)院政策問(wèn)答平臺(tái)、深圳市政務(wù)服務(wù)平臺(tái)等都是我們的客戶(hù)。政務(wù)數(shù)字化的大背景疊加人工智能的轉(zhuǎn)型需求,給我們創(chuàng)造了不錯(cuò)的收入空間。
第二個(gè)渠道就是全國(guó)各地的12345。包括一些專(zhuān)項(xiàng)政務(wù)熱線(xiàn),像稅務(wù)熱線(xiàn)、公積金熱線(xiàn)等。全國(guó)政務(wù)熱線(xiàn)大概有1000家,每年的預(yù)算投入大幾百個(gè)億,70%是人員的投入。我們現(xiàn)在主打的產(chǎn)品叫智能知識(shí)助手,服務(wù)的是熱線(xiàn)的坐席人員。目前全國(guó)政務(wù)熱線(xiàn)平均完成一個(gè)咨詢(xún)工單的響應(yīng)時(shí)間是6分鐘,我們的智能知識(shí)助手介入后,平均完成工單的響應(yīng)時(shí)間可以縮短到1分鐘。
第三個(gè)渠道就是這半年增長(zhǎng)最快的市場(chǎng)——企業(yè)市場(chǎng)。出于企業(yè)自身降本增效的需求,以及我們能夠在企業(yè)內(nèi)部做有“私有知識(shí)接入即用、公共知識(shí)開(kāi)箱即用”的快速訓(xùn)練的產(chǎn)品優(yōu)勢(shì),我們的產(chǎn)品很受知識(shí)和規(guī)章驅(qū)動(dòng)型企業(yè)的歡迎。這方面的增長(zhǎng)在近幾個(gè)月非常明顯。尤其通過(guò)我們模型與MCP在各大廠(chǎng)生態(tài)上的推廣,有不少?gòu)氖聜鹘y(tǒng)軟件業(yè)務(wù)的軟件公司找我們合作形成了不少訂單落地,我們深感企業(yè)在內(nèi)控管理等領(lǐng)域?qū)﹂_(kāi)箱即用、智能可信的知識(shí)服務(wù)有廣闊需求。
我們?nèi)ツ甑拇竽P蜆I(yè)務(wù)年收入2000萬(wàn)左右,這三個(gè)渠道的占比為4:2:4。今年大模型收入應(yīng)該能做到4500萬(wàn),并且三個(gè)渠道的收入結(jié)構(gòu)也會(huì)發(fā)生變化,可能會(huì)變成2:2:6。
智客Zhiker:融資進(jìn)度怎么樣?
徐劍軍:其實(shí)我們深知智能立項(xiàng)之后只融過(guò)一輪。是智譜生態(tài)的星連資本(Z基金)最早投資的企業(yè)之一。又拿了一些份額給清華系的基金和盛景。
我們接下來(lái)的A輪融資,首先會(huì)更傾向于一些傳統(tǒng)軟件公司,因?yàn)樗麄儾粌H可以帶來(lái)資金,更可以帶來(lái)訂單,這方面進(jìn)展很順利。同時(shí)我們也歡迎對(duì)通用人工智能有興趣有信心的其它類(lèi)型基金來(lái)了解與投資我們。(本文首發(fā)于鈦媒體App,作者|郭虹妘,編輯|陶天宇)

快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論