過去半年,向量數(shù)據(jù)庫成為為數(shù)不多在AIGC光環(huán)下迅速走紅的賽道,甚至有人將其視為AIGC成功的基石。7月4日,騰訊云也正式宣布推出向量數(shù)據(jù)庫,成為大廠中首例,目前阿里云、亞馬遜云等尚未釋放出明確信號(hào)。

“誰最先發(fā)布并不重要,重要的是誰有強(qiáng)大的資源能夠?qū)⑦@件事情快速落實(shí)下去。”一位數(shù)據(jù)庫產(chǎn)業(yè)觀察者對(duì)鈦媒體表示。對(duì)于大廠而言,是否要做一個(gè)獨(dú)立的數(shù)據(jù)庫還有待高層戰(zhàn)略選擇和布局節(jié)奏。但資本市場(chǎng)絕不會(huì)錯(cuò)過追逐任何一個(gè)風(fēng)口。

今年4月,Pinecone獲得了a16z領(lǐng)投的1億美元B輪融資,估值一度達(dá)到7.5億美元。作為OpenAI的合作方之一,Pinecone團(tuán)隊(duì)的創(chuàng)始人Liberty還是亞馬遜AI實(shí)驗(yàn)室的領(lǐng)導(dǎo)者,創(chuàng)建了當(dāng)前有名的機(jī)器學(xué)習(xí)平臺(tái)SageMaker。而另一家同為OpenAI合作方、且估值超過5億美金的團(tuán)隊(duì),是來自中國的Zilliz。據(jù)鈦媒體獨(dú)家獲悉,近段時(shí)間,多家VC正在聯(lián)絡(luò)Zilliz試圖給出新一輪融資,而這家企業(yè)距上一輪融資不足一年。

據(jù)鈦媒體不完全統(tǒng)計(jì),僅在2023年4月前后的一個(gè)月內(nèi),這個(gè)賽道已經(jīng)相繼有數(shù)家企業(yè)獲得主流投資機(jī)構(gòu)的投資,除了Pinecone外,還有Weaviate的5000萬美元B輪融資、Qdrant的750萬美元種子輪融資、Chroma的1800萬美元種子輪融資……向量數(shù)據(jù)庫無疑給了資本市場(chǎng)新的投資杠桿,但也有相關(guān)從業(yè)者預(yù)警,“想要做好需要積累,現(xiàn)在入局向量細(xì)分賽道已經(jīng)晚了。”

向量數(shù)據(jù)庫在大模型時(shí)代中展現(xiàn)出了巨大的商業(yè)機(jī)會(huì)。東北證券分析指出,向量數(shù)據(jù)庫市場(chǎng)空間巨大,目前處于從0-1階段。預(yù)測(cè)到2030年,全球向量數(shù)據(jù)庫市場(chǎng)規(guī)模有望達(dá)到500億美元,國內(nèi)向量數(shù)據(jù)庫市場(chǎng)規(guī)模有望超過600億人民幣。

不過,目前來看,這個(gè)賽道仍然充滿變數(shù)。

一方面,應(yīng)用廣泛。即便傳統(tǒng)數(shù)據(jù)庫廠商不單獨(dú)研發(fā)向量數(shù)據(jù)庫,基本上也會(huì)選擇主張支持原生的向量詞嵌入和向量搜索引擎。對(duì)于那些缺乏向量檢索功能的數(shù)據(jù)庫,實(shí)現(xiàn)它可能也是時(shí)間早晚的問題。而對(duì)于有能力的大企業(yè)客戶也完全可以基于開源引擎嘗試使用,在此之前,許多互聯(lián)網(wǎng)公司、AI大公司也早就在使用向量引擎。值得一提的是,最近這段時(shí)間就連老牌MongoDB也在其NoSQL數(shù)據(jù)庫中增加向量搜索的方式進(jìn)入到這股潮流。

另一方面,向量數(shù)據(jù)庫依然有其落地的技術(shù)難點(diǎn)。例如相似性檢索和計(jì)算復(fù)雜度的問題,對(duì)于Clickhouse的依賴性問題;作為一款面向AI應(yīng)用的新型數(shù)據(jù)庫(與現(xiàn)有的SQL稍做區(qū)分),它并沒有替換已有的數(shù)據(jù)庫,依然需要跟傳統(tǒng)數(shù)據(jù)庫搭配使用。

值得一提的是,AIGC大模型到來,實(shí)際上帶來了新的場(chǎng)景應(yīng)用點(diǎn),這跟以往向量數(shù)據(jù)庫廠商在探索的客戶場(chǎng)景會(huì)有所不同。探索與創(chuàng)新,會(huì)顯得十分重要。未來數(shù)據(jù)庫能不能為上層的AI應(yīng)用提供穩(wěn)定、高性能的基礎(chǔ)設(shè)施能力,才是重點(diǎn)考察方向。

目前業(yè)內(nèi)也在尋求數(shù)據(jù)庫與AIGC大模型的結(jié)合方式,例如阿里云今年最新迭代的云原生多模數(shù)據(jù)庫Lindorm,也可以支持AIGC場(chǎng)景應(yīng)用。

“能力是ready的,但沒有人會(huì)非常有把握,因?yàn)楝F(xiàn)在AI的變化太快了,跟數(shù)據(jù)庫的結(jié)合應(yīng)該有更多的層次。”國內(nèi)某數(shù)據(jù)庫創(chuàng)業(yè)公司負(fù)責(zé)人表示,通過過去一段時(shí)間與客戶的交流,現(xiàn)在正做的事情是將AI能力植入到其所倡導(dǎo)的Serverless HTAP數(shù)據(jù)庫架構(gòu)中。

 圖片引用自摩天輪《中國數(shù)據(jù)庫行業(yè)分析報(bào)告》,2022.10

結(jié)合墨天輪去年10月公布的全球數(shù)據(jù)庫行業(yè)分析報(bào)告可以看到,其從技術(shù)維度將向量數(shù)據(jù)庫產(chǎn)品進(jìn)行了拆分:包括向量檢索庫、向量插件、向量字段、向量執(zhí)行化引擎。這其實(shí)也在透露出一個(gè)問題:當(dāng)下火的其實(shí)并不完全是向量數(shù)據(jù)庫,而是在向量這一場(chǎng)景下的價(jià)值收益。

向量數(shù)據(jù)庫怎么就火了

近期,許多具備大模型技術(shù)棧研發(fā)實(shí)力的企業(yè),都會(huì)不約而同地提及“應(yīng)用語言向量檢索技術(shù)用于模型訓(xùn)練”。

在技術(shù)界,向量檢索并不是一個(gè)新名詞。但它的發(fā)展與人工智能浪潮的推動(dòng)高度綁定。

向量,顧名思義Embedding,最開始的用于文本表達(dá)的詞向量,到后來可用于表達(dá)圖片、視頻、語音等非結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化的深層語義,通過數(shù)據(jù)向量化可被計(jì)算機(jī)識(shí)別、使用,且在轉(zhuǎn)化的過程中不丟失信息。一開始,向量技術(shù)也基本使用于互聯(lián)網(wǎng)大公司的業(yè)務(wù)場(chǎng)景中。

 圖片引用自Pinecone博客

例如,微軟Bing搜索引擎,在2000年就曾宣布使用向量實(shí)現(xiàn)搜索引擎的增強(qiáng),可處理2000多億張網(wǎng)頁的向量數(shù)據(jù)。在那個(gè)時(shí)代,這個(gè)數(shù)據(jù)已經(jīng)非常龐大了,但在更多的工業(yè)界或?qū)嶒?yàn)室里,向量數(shù)據(jù)仍處于小規(guī)模驗(yàn)證的階段。

真正的改變則來自于2017年前后,伴隨深度學(xué)習(xí)在工業(yè)界的廣泛落地,實(shí)際應(yīng)用場(chǎng)景下的數(shù)據(jù)量級(jí)開始直線增加。這一年,F(xiàn)AIR研究人員開源了(FAISS,F(xiàn)acebook AI Similarity Search)AI向量相似性檢索庫,在十億級(jí)數(shù)據(jù)集上創(chuàng)建了鄰近搜索、且運(yùn)行于GPU的k-selection算法。2020年7月,谷歌研究院開源了向量相似性搜索庫ScaNN,提出新的數(shù)據(jù)集向量壓縮技術(shù),以提高向量檢索的準(zhǔn)確性。

實(shí)際上,在此期間,國內(nèi)的互聯(lián)網(wǎng)公司也沒閑著,據(jù)說阿里巴巴自研了Proxima,對(duì)于更多的企業(yè),包括創(chuàng)業(yè)廠商在內(nèi),也會(huì)使用向量相似性檢索技術(shù)的相關(guān)開源組件如Faiss、Nmslib和Annoy等ANN庫,京東零售基于Faiss的Vearch也已經(jīng)在各自規(guī)?;瘶I(yè)務(wù)場(chǎng)景中投入使用。

創(chuàng)業(yè)公司Zilliz從2018年開始布局做向量數(shù)據(jù)庫,2019年開源了Milvus,單獨(dú)作為一個(gè)品類進(jìn)行研發(fā)創(chuàng)新。其做法比較明確:開源Milvus向量數(shù)據(jù)庫,持續(xù)運(yùn)營積累大量社區(qū)開發(fā)者使用;在商業(yè)化方面,推出云端全托管數(shù)據(jù)庫服務(wù)Zilliz Cloud,并與Milvus形成插件化集成,與國產(chǎn)大模型進(jìn)行對(duì)接。

不過,不同于2017年前后在行業(yè)風(fēng)口和資本熱錢影響下成立的一批AI公司,一開始就瞄準(zhǔn)向量數(shù)據(jù)庫創(chuàng)業(yè)賽道的企業(yè)其實(shí)寥寥無幾。即便Zilliz也并非是從創(chuàng)業(yè)之初錨定向量數(shù)據(jù)庫——Zilliz創(chuàng)始人星爵在去年9月與鈦媒體交流時(shí)曾解釋:“AI時(shí)代,數(shù)據(jù)處理的類型和計(jì)算體系架構(gòu)都發(fā)生了較大變化,但當(dāng)時(shí)團(tuán)隊(duì)對(duì)最終產(chǎn)品形態(tài)是什么,并不是很清晰。不斷交流的過程中,我們意識(shí)到企業(yè)對(duì)海量非結(jié)構(gòu)化數(shù)據(jù)管理的需求。”

總結(jié)起來,在向量數(shù)據(jù)庫的發(fā)展過程中,技術(shù)進(jìn)展和創(chuàng)新起到了重要的推動(dòng)作用。

首先在數(shù)據(jù)層面,向量作為一個(gè)新型數(shù)據(jù)處理單元,其數(shù)據(jù)量達(dá)到了一定規(guī)模,需要一個(gè)專用的管理系統(tǒng),對(duì)管理的復(fù)雜度如分布式、高可用性、數(shù)據(jù)的一致性和備份等要求也越來越高。

其次,數(shù)據(jù)庫系統(tǒng)的研究者和工程師們不斷改進(jìn)和優(yōu)化向量數(shù)據(jù)庫的存儲(chǔ)引擎、索引結(jié)構(gòu)和查詢算法,提高了向量數(shù)據(jù)的存儲(chǔ)效率和查詢性能。

此外,隨著硬件技術(shù)的發(fā)展,如GPU、FPGA、ARM架構(gòu)芯片的應(yīng)用,也為向量數(shù)據(jù)庫的性能提升帶來了新的機(jī)會(huì)。

這三點(diǎn)因素共同促使了向量數(shù)據(jù)庫系統(tǒng)的誕生——想要高效處理這些海量的向量數(shù)據(jù),就需要更細(xì)分、更專業(yè)的數(shù)據(jù)基礎(chǔ)設(shè)施,為向量構(gòu)建專門的數(shù)據(jù)庫處理系統(tǒng)。

現(xiàn)階段,客戶有必要替換嗎?

從產(chǎn)品層面講,如果傳統(tǒng)數(shù)據(jù)庫廠商不單獨(dú)研發(fā)向量數(shù)據(jù)庫,那么基本上會(huì)主張支持原生的向量詞嵌入和向量搜索引擎。

向量數(shù)據(jù)庫市場(chǎng)的陣營在ChatGPT影響之前就已經(jīng)在形成分化,既包括提供開源組件的Milvus、Vald、Weaviate、Qdrant、Vaspa、Vearch、AquilaDB、Marqo,到商業(yè)化服務(wù)產(chǎn)品Pinecone,再到大廠谷歌推出的Vertex AI匹配引擎,數(shù)據(jù)庫廠商Elastic和Redis基于自身提供的向量檢索功能等等。

這其實(shí)也表明了當(dāng)前向量數(shù)據(jù)庫市場(chǎng)存在的兩種路線:一個(gè)是基于分析數(shù)據(jù)庫的向量化執(zhí)行引擎,英文是Vectorization,這是學(xué)術(shù)界2013年提出的名詞,如Clickhouse、Spark引擎,是一種新型的執(zhí)行方式,用于處理傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)如表單等,更多的是結(jié)構(gòu)化數(shù)據(jù)分析數(shù)據(jù)里面做并行執(zhí)行的一種方式,在新型的處理芯片上進(jìn)行處理。

另一個(gè)則是推出向量數(shù)據(jù)庫(Vector Database),本質(zhì)上處理的是AI領(lǐng)域的一類新型數(shù)據(jù)類型,例如對(duì)多模數(shù)據(jù)的處理,相比其他的向量檢索技術(shù)在檢索速度和精準(zhǔn)性上都有了一個(gè)很高的提升。

后者的做法也基本在幾家主流云廠商如亞馬遜云、阿里云上能夠看到,而這些云平臺(tái)應(yīng)用市場(chǎng)也會(huì)提供給這些第三方向量數(shù)據(jù)庫企業(yè)進(jìn)行托管。例如,阿里云開發(fā)的內(nèi)存數(shù)據(jù)庫Tair,在兼容Redis生態(tài)的同時(shí),也具備向量檢索能力,實(shí)現(xiàn)緩存+向量二合一,已經(jīng)投入在電商等場(chǎng)景。

“如果你看好AI,你就可以看好向量數(shù)據(jù)庫。”2023年的大模型大火一段時(shí)間后,騰訊云數(shù)據(jù)庫團(tuán)隊(duì)最終明確了這樣一個(gè)邏輯。

騰訊云會(huì)更傾向于倡導(dǎo)向量數(shù)據(jù)庫“專庫專用”的理念,并且認(rèn)可這樣一個(gè)趨勢(shì)。騰訊云正式發(fā)布向量數(shù)據(jù)庫時(shí),騰訊云數(shù)據(jù)庫副總經(jīng)理羅云這樣對(duì)鈦媒體解釋:“向量檢索技術(shù)確實(shí)不是今天才有,在此之前有像基于Faiss庫的單機(jī)檢索引擎,也有已有數(shù)據(jù)庫上外掛插件的形態(tài),還有的則是具備Purpose-built的獨(dú)立向量數(shù)據(jù)庫。”

在他看來,由于向量檢索是一個(gè)極消耗CPU和內(nèi)存資源的工作,當(dāng)支撐的業(yè)務(wù)負(fù)載越來越大之后,之前這種傳統(tǒng)的插件形式就會(huì)面臨一定的挑戰(zhàn)。而獨(dú)立向量數(shù)據(jù)庫可以讓用戶更好地精細(xì)化管理大模型訓(xùn)練時(shí)的資源成本和時(shí)間問題。此外,還由于客戶對(duì)私域數(shù)據(jù)的保護(hù),不會(huì)放在共有云的大模型平臺(tái)上進(jìn)行訓(xùn)練,而是更愿意將私域數(shù)據(jù)存儲(chǔ)在向量數(shù)據(jù)庫中,當(dāng)需要推理時(shí)就會(huì)將一部分信息傳遞給大模型作推理。云廠商提供的數(shù)據(jù)服務(wù)會(huì)更有競(jìng)爭(zhēng)力。

據(jù)羅云所述,騰訊云自研的分布式向量數(shù)據(jù)庫核心引擎Olama,原名ElasticFaiss,最早于2019年4月進(jìn)行孵化,過去幾年,Olama對(duì)開源架構(gòu)技術(shù)點(diǎn)持續(xù)優(yōu)化,以支撐越來越多的算法庫。

目前,處在探索期的向量數(shù)據(jù)庫依然充滿挑戰(zhàn):一是數(shù)據(jù)存儲(chǔ)和索引。由于向量數(shù)據(jù)通常具有高維度和大規(guī)模的特點(diǎn),傳統(tǒng)的存儲(chǔ)和索引方法無法滿足其高效查詢的需求。二是查詢性能和計(jì)算復(fù)雜度。由于向量數(shù)據(jù)的特殊性質(zhì),相似性搜索和向量操作往往需要進(jìn)行大量的計(jì)算和比較。三是數(shù)據(jù)質(zhì)量和準(zhǔn)確性。向量數(shù)據(jù)中可能存在噪聲、缺失值和異常值等問題,這些問題會(huì)對(duì)數(shù)據(jù)的查詢和分析結(jié)果產(chǎn)生不良影響等。

相較于大模型的高調(diào)火熱,向量數(shù)據(jù)庫仍然靠近底層,并沒有達(dá)到真正意義上的全民皆知,向量數(shù)據(jù)庫更多時(shí)候是需要集成到其他平臺(tái)或云上被銷售。

而從需求端看,過去,向量檢索還主要聚焦于機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域,通過高效的數(shù)據(jù)存儲(chǔ)和查詢工具,使得相似性搜索和聚類分析成為可能。在推薦系統(tǒng)中,向量數(shù)據(jù)庫助力個(gè)性化推薦,根據(jù)用戶興趣和商品相似性,呈現(xiàn)給用戶最貼切的推薦結(jié)果。

如今,在ChatGPT爆火之后,前來咨詢向量數(shù)據(jù)庫的客戶也絡(luò)繹不絕,并且涌現(xiàn)出了一批新的中小型開發(fā)者。Zilliz團(tuán)隊(duì)的一個(gè)直觀感受是,目前大家主要的競(jìng)爭(zhēng)會(huì)集中在產(chǎn)品功能設(shè)計(jì)和易用性上。如Midjourey只有11人團(tuán)隊(duì),這類小團(tuán)隊(duì)用戶業(yè)務(wù)更加聚焦于大模型應(yīng)用,這與此前大數(shù)據(jù)量的互聯(lián)網(wǎng)B端用戶有明顯需求的不同。

一位售前人員解釋,還是要根據(jù)客戶的業(yè)務(wù)屬性,需要的數(shù)據(jù)庫系統(tǒng)是否解決的是面向AI應(yīng)用的部分。

無論怎樣,外界正在意識(shí)到向量數(shù)據(jù)庫作為一種新型數(shù)據(jù)庫存在的價(jià)值。不過,理解大模型只是AI的其中一種形態(tài),泛化能力變強(qiáng),場(chǎng)景通用性也更強(qiáng),以大模型助力AI落地變得更順暢的過程中,還有很多可優(yōu)化空間。

(本文首發(fā)鈦媒體APP 作者 | 楊麗,編輯 | 蓋虹達(dá))

本文系作者 TechHorizon 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接
本內(nèi)容來源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

12:19

柬埔寨國會(huì)通過《反電信網(wǎng)絡(luò)詐騙法》草案

12:15

保利發(fā)展59億競(jìng)得上海中山公園一宅地,成交樓面價(jià)77697元/平

12:09

倫鋅日內(nèi)漲超2%,報(bào)3177.08美元/噸

12:05

港股午評(píng):恒生指數(shù)跌0.93%,恒生科技指數(shù)跌1.70%

11:58

中國將在長江水下開高鐵,沿江高鐵總投資超5000億元,帶動(dòng)上下游行業(yè)增加值增長近1.5萬億元

11:48

世界最大直徑高鐵盾構(gòu)機(jī)“領(lǐng)航號(hào)”歷經(jīng)23個(gè)月安全掘進(jìn),成功“上岸”

11:37

A股午評(píng):三大指數(shù)早盤漲跌不一,貴金屬板塊持續(xù)走強(qiáng)

11:34

國內(nèi)期貨主力合約多數(shù)上漲,集運(yùn)歐線漲近6%

11:26

滬金主力合約日內(nèi)漲幅擴(kuò)大至2%,現(xiàn)報(bào)1012.30元/克

11:25

水利部長江委:今年汛期長江流域來水量偏枯

11:15

富時(shí)中國A50指數(shù)期貨轉(zhuǎn)漲,此前跌超1%

11:13

現(xiàn)貨黃金漲0.22%,報(bào)4504.97美元/盎司

11:12

滬指率先翻紅,此前一度跌超1%

11:07

隔夜SHIBOR報(bào)1.3180%,上漲0.10個(gè)基點(diǎn)

11:02

特朗普稱伊朗已同意“15點(diǎn)計(jì)劃”中“大部分內(nèi)容”

10:55

世界數(shù)據(jù)組織今天正式投入運(yùn)行,總部設(shè)在北京

10:52

特朗普:已摧毀許多“覬覦已久”的伊朗境內(nèi)目標(biāo)

10:49

日本政府放棄在本財(cái)年內(nèi)通過2026財(cái)年預(yù)算案

10:49

智元機(jī)器人總裁彭志輝:2026年通用具身機(jī)器人將加速進(jìn)入規(guī)?;涞氐碾A段

10:41

商業(yè)航天概念持續(xù)走高,神劍股份3連板

掃描下載App