AI for DB正悄悄成為一個火熱賽道。最顯著的特征之一是去年紅極一時的向量數(shù)據(jù)庫/向量檢索技術(shù),越來越受到AI大模型落地的追捧。
AI for DB,即關(guān)注AI為database數(shù)據(jù)庫服務(wù)。從用戶痛點上,傳統(tǒng)的數(shù)據(jù)庫基礎(chǔ)設(shè)施并不是為AI大模型所設(shè)計的,也不是為了滿足現(xiàn)如今的向量檢索而設(shè)計。
例如,企業(yè)落地大模型應(yīng)用,必然需要構(gòu)建龐大的數(shù)據(jù)集,只有高質(zhì)量、高密度的數(shù)據(jù)去訓(xùn)練模型,才有可能得到更精準(zhǔn)的效果。但獲取和管理如此龐大的數(shù)據(jù)通常需要大量資源,包括存儲資源、計算能力和數(shù)據(jù)處理能力。同時,集成具有各類格式、質(zhì)量、顆粒度、異構(gòu)的數(shù)據(jù)源也會使得模型訓(xùn)練過程變得復(fù)雜。這也是為什么企業(yè)目前對生成式AI仍保持謹(jǐn)慎樂觀的原因之一。
鈦媒體注意到,從去年開始,在海外市場,頭部的數(shù)據(jù)庫/數(shù)倉企業(yè),甚至于大模型企業(yè)都已經(jīng)在積極采取產(chǎn)品發(fā)布、或進(jìn)行收購、合作的方式,搶占AI數(shù)據(jù)庫的市場先機(jī)。例如,云數(shù)倉公司Snowflake宣布將與英偉達(dá)合作,為企業(yè)量身定制AI模型;Databricks以10億美金收購Apache Iceberg背后公司Tabular;OpenAI以5億美金收購擁有向量檢索技術(shù)的數(shù)據(jù)庫公司Sockset……
不過,從目前來看,AI與數(shù)據(jù)庫的結(jié)合思路,也不僅僅是與向量檢索相關(guān)。過去幾年,像自治數(shù)據(jù)庫、數(shù)據(jù)庫自監(jiān)控自診斷、將低代碼+AI引入到text2SQL等等,都是業(yè)內(nèi)企業(yè)客戶還在探索、尚無定論的方向。
但也有業(yè)內(nèi)人士警示,AI與數(shù)據(jù)庫的結(jié)合仍然是個很新的技術(shù)方向,也可能存在技術(shù)的踏空。
不論AI for DB的趨勢,一個首先存在的疑問是:為什么是現(xiàn)在?以及新的解決思路是什么?
以O(shè)racle為例。
過去兩個月,Oracle先后公布對其兩款核心數(shù)據(jù)庫管理系統(tǒng)——Oracle Database和MySQL HeatWave數(shù)據(jù)庫進(jìn)行了AI重塑。單從其數(shù)據(jù)庫名稱的變更上就有了明顯的指向性:前者由Database 23c直接改為Database 23ai,而后者則升級為了HeatWave GenAI。不同時代版本從“i”互聯(lián)網(wǎng)、“g”網(wǎng)格、“c”云、“ai”人工智能、“GenAI”生成式AI的變遷,能夠反映出Oracle敏銳洞察不同時代下客戶訴求的引爆點。其中,Database 23ai正是對上述提及的向量數(shù)據(jù)庫,以及超過300個主要功能進(jìn)行了升級。
開發(fā)人員可以用自然語言與Oracle數(shù)據(jù)庫“對話”,調(diào)用生成式AI的能力,生成SQL并執(zhí)行出最終結(jié)果,達(dá)到跟數(shù)據(jù)庫對話的目的。
具體來講,23ai的Vector Search(向量檢索)功能,使LLM(大語言模型)可以使用自然語言界面查詢私有業(yè)務(wù)數(shù)據(jù),并幫助LLM提供更準(zhǔn)確和更相關(guān)的結(jié)果。客戶可以使用Vector Search功能,安全地將文檔、圖像和其他非結(jié)構(gòu)化數(shù)據(jù)與私有業(yè)務(wù)數(shù)據(jù)結(jié)合搜索,而無需移動或復(fù)制這些數(shù)據(jù)。這意味著,可以將AI算法引入到數(shù)據(jù)所在的位置,而不必將數(shù)據(jù)遷移到AI算法所在的位置,實現(xiàn)AI在Oracle數(shù)據(jù)庫中的實時運行,大大提高AI的有效性、效率和安全性。
HeatWave GenAI,主要包含數(shù)據(jù)庫內(nèi)LLM、自動化數(shù)據(jù)庫內(nèi)向量存儲、可擴(kuò)展向量處理,以及基于非結(jié)構(gòu)化內(nèi)容進(jìn)行自然語言上下文對話的功能。使用HeatWave GenAI,開發(fā)人員可以使用內(nèi)置的嵌入模型,通過單個SQL命令為企業(yè)非結(jié)構(gòu)化內(nèi)容創(chuàng)建向量存儲。用戶可以使用數(shù)據(jù)庫內(nèi)或外部LLM在單個步驟執(zhí)行自然語言搜索。數(shù)據(jù)不必離開數(shù)據(jù)庫,由于HeatWave具備龐大的規(guī)模和超高的性能,用戶不需要預(yù)配GPU。因此,開發(fā)人員可以降低應(yīng)用的復(fù)雜性、提高性能、加強(qiáng)數(shù)據(jù)安全性并降低成本。
不難看出,Oracle的思路是,為AI和數(shù)據(jù)提供統(tǒng)一操作平臺,這與其他數(shù)據(jù)庫產(chǎn)品形成鮮明對比。
例如,數(shù)據(jù)庫內(nèi)LLM功能使得用戶可以執(zhí)行開發(fā)模型和應(yīng)用程序所需的任務(wù),而無需將數(shù)據(jù)導(dǎo)出到可能不安全的環(huán)境中或?qū)⒖赡懿话踩腖LM導(dǎo)入其數(shù)據(jù)環(huán)境。由于無需導(dǎo)出或?qū)耄虼瞬淮嬖谕ǔEc導(dǎo)出大量數(shù)據(jù)或?qū)氪罅縇LM相關(guān)的成本;數(shù)據(jù)庫內(nèi)向量存儲,則讓用戶無需將數(shù)據(jù)移動到單獨的向量數(shù)據(jù)庫,也不需要具備AI專業(yè)知識。
而關(guān)于業(yè)內(nèi)關(guān)注的向量數(shù)據(jù)庫,鈦媒體此前曾分析,如果數(shù)據(jù)庫廠商不單獨研發(fā)向量數(shù)據(jù)庫,那么基本上會主張支持原生的向量詞嵌入和向量搜索引擎。
目前從23ai其實也在通過產(chǎn)品自證:向量檢索應(yīng)該是數(shù)據(jù)庫內(nèi)置能力,而非獨立產(chǎn)品。如果兩種類型的數(shù)據(jù)都由單個數(shù)據(jù)庫管理,那么對業(yè)務(wù)和語義數(shù)據(jù)組合的搜索會更容易、更快、更精確。而支撐這一路徑的解決方案是,一個可以管理所有數(shù)據(jù)的數(shù)據(jù)庫,并以高性能和非常經(jīng)濟(jì)的方式進(jìn)行管理。在甲骨文公司副總裁及中國區(qū)董事總經(jīng)理吳承楊看來,“所有數(shù)據(jù)都應(yīng)該放在一個地方。這樣一來,提問和查詢就變得容易多了。”
“今天大多數(shù)人的做法是,將數(shù)據(jù)庫的數(shù)據(jù)拿到AI,再拿出來,往往還會涉及數(shù)據(jù)安全問題、管理權(quán)限問題等等。Oracle的做法是把AI帶到數(shù)據(jù)庫,將向量數(shù)據(jù)庫嵌到整個數(shù)據(jù)庫。不光是向量,能夠?qū)⑽谋?、圖、JSON等多種類型數(shù)據(jù)整合起來的融合數(shù)據(jù)庫,這一點只有Oracle能做到。”吳承楊表示。
甲骨文公司中國區(qū)技術(shù)咨詢部高級總監(jiān)李珈給鈦媒體分享了一則案例:某企業(yè)客戶從開源向量數(shù)據(jù)庫遷移到了Oracle融合數(shù)據(jù)庫。其背后驅(qū)動因素核心有三點:一是應(yīng)用架構(gòu)方面,原有應(yīng)用架構(gòu)涉及了不同技術(shù)棧,且管理復(fù)雜度較高,效率低;二是在數(shù)據(jù)與架構(gòu)擴(kuò)展時的性能問題;三是無法與現(xiàn)有業(yè)務(wù)數(shù)據(jù)實現(xiàn)集成,檢索整體環(huán)節(jié)的效率往往不高。在李珈看來,做出這樣選擇的客戶越來越多,已不是個例。
“有的客戶就是將標(biāo)簽信息放到MongoDB,權(quán)限信息、身份信息放到MySQL,知識圖譜放到圖數(shù)據(jù)庫,然后文檔等向量數(shù)據(jù)存放到向量數(shù)據(jù)庫里,這導(dǎo)致應(yīng)用整合起來比較難。”李珈表示。
吳承楊指出,遷移這件事情本身并不復(fù)雜。關(guān)鍵是,客戶需要通過對比去感受,哪種技術(shù)方案(融合還是其他)會更加適合自己。客戶認(rèn)為數(shù)據(jù)很重要,但除了專業(yè)的DBA,客戶往往對數(shù)據(jù)庫是無感的。今天的數(shù)據(jù)庫,不是講特別時髦的技術(shù)名詞,而是通過客戶的使用感受去決定數(shù)據(jù)庫應(yīng)該怎么做。
為此,Oracle還提出了現(xiàn)代數(shù)據(jù)平臺包括“4個Any”,即Anytime,Anywhere,Any Data,Anyone,目標(biāo)就是將數(shù)據(jù)的管理、開發(fā)到生成,都得到簡化。
整體來看,Oracle的AI戰(zhàn)略圍繞著企業(yè)使用AI的實際場景而制定,打造了涵蓋整個技術(shù)堆棧的端到端生成式AI矩陣。包括基于Oracle Cloud Infrastructure(OCI)的AI基礎(chǔ)設(shè)施構(gòu)建支撐,面向AI提供數(shù)據(jù)的Oracle Database,Oracle Autonomous Database和MySQL HeatWave等數(shù)據(jù)庫產(chǎn)品,以及內(nèi)嵌生成式AI功能的ERP、HCM和CX等SaaS應(yīng)用。
不久前的財年財報中,Oracle就釋放出一項重要信息:僅在第四季度,Oracle就簽訂了超過30份AI銷售合同,總價值超過125億美元,其中包括一項重要合作,將微軟Azure平臺擴(kuò)展到OCI,支持OpenAI在推理等算力方面的需求。
現(xiàn)在大模型競爭是非常激烈的,近期各家大模型產(chǎn)品迭代的速度正明顯加快,這對于模型訓(xùn)練速度就會提出很高的要求。GPU越多、數(shù)據(jù)集越大、語料庫越大,提供的基礎(chǔ)設(shè)施能力越強(qiáng),訓(xùn)練時間越短,就越能提高新品更新速度。
“目前Oracle最大的算力集群可達(dá)到3萬張卡,未來量級可能會更大。”甲骨文公司中國區(qū)技術(shù)咨詢部高級總監(jiān)嵇小峰指出,OCI從第一天起就致力于提供先進(jìn)的AI和HPC基礎(chǔ)設(shè)施,Oracle專門做了網(wǎng)絡(luò)的優(yōu)化,構(gòu)建了一套無損網(wǎng)絡(luò)體系,讓整個GPU的可擴(kuò)展性變得更加強(qiáng)大。
OCI Supercluster可以實現(xiàn)多個GPU協(xié)同工作,同時Oracle即將發(fā)布高性能文件系統(tǒng),可以更好滿足客戶的訓(xùn)練需求。憑借新的OCI Compute裸機(jī)實例、超低延遲RDMA網(wǎng)絡(luò)和高效能儲存,OCI Supercluster的速度將顯著加快。OCI將會推出采用NVIDIA B200的機(jī)型,最大化幫助企業(yè)應(yīng)對AI模型不斷增長的需求。
值得關(guān)注的是,2022年,Oracle與英偉達(dá)宣布長期合作以來,旨在將英偉達(dá)的完整加速計算堆棧引入OCI,如今,OCI已成為英偉達(dá)的超大規(guī)模云技術(shù)提供商,提供大規(guī)模的AI計算服務(wù)NVIDIA DGX Cloud。
嵇小峰解釋道:“盡管現(xiàn)在有了MoE模式,但在推理階段仍然需要大量算力。Oracle跟英偉達(dá)的合作,不同于以往伙伴間的合作,在一些核心服務(wù)的落地,兩邊的產(chǎn)品部門都有深層的合作。”
某種意義上講,Oracle已經(jīng)不單純是一家數(shù)據(jù)庫公司了。近些年在OCI、SaaS等層面的投入,已經(jīng)讓Oracle真正意義上成為像微軟、谷歌一樣的云計算公司。因而,理解Oracle在數(shù)據(jù)庫層面的投入邏輯,也不能照搬數(shù)據(jù)庫技術(shù)產(chǎn)品的限定,更不能站在國產(chǎn)替代的視角去判斷Oracle在中國市場的更多打開路徑。
目前23ai公有云版本已經(jīng)推出了,預(yù)計在今年下半年會有本地版落地。這意味著中國企業(yè)客戶使用23ai的門檻也將大大降低。
過去幾年,Oracle已經(jīng)在不斷強(qiáng)調(diào),在服務(wù)中國出海、跨國公司在中國業(yè)務(wù)的“雙循環(huán)”拓展邏輯,Oracle與中國企業(yè)客戶的合作,也在刷新對用戶訴求的理解。
(本文首發(fā)于鈦媒體APP 作者 | 楊麗,編輯 | 蓋虹達(dá))
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機(jī)號后發(fā)表評論