鈦媒體App 3月11日消息,李開復(fù)博士創(chuàng)立的零一萬物宣布,公司成功研發(fā)出基于全導(dǎo)航圖的新型向量數(shù)據(jù)庫 “笛卡爾(Descartes)”,并已包攬權(quán)威榜單ANN-Benchmarks 6項數(shù)據(jù)集評測第一名。

零一萬物表示,在國際權(quán)威評測平臺ANN-Benchmarks離線測試中,零一萬物笛卡爾向量數(shù)據(jù)庫比之前榜單上同業(yè)第一名有顯著性能提升,部分?jǐn)?shù)據(jù)集上的性能提升甚至超過2倍以上,在gist-960-euclidean數(shù)據(jù)集維度更大幅領(lǐng)先榜單原TOP1 286%。

零一萬物強調(diào),笛卡爾向量數(shù)據(jù)庫將應(yīng)用于公司即將正式發(fā)布的 AI 產(chǎn)品中,未來還將結(jié)合工具提供給廣大開發(fā)者。

據(jù)悉,零一萬物(01.AI)成立于2023年5月16日,致力于打造全新的 AI 2.0 平臺與AI-first生產(chǎn)力應(yīng)用的全球化公司,由創(chuàng)新工場董事長兼CEO李開復(fù)博士親自掛帥,擔(dān)任零一萬物CEO。

2023年中關(guān)村論壇上,李開復(fù)就對鈦媒體App等表示,以GPT-4等大模型為代表的生成式 AI 熱度在全球蔓延,意味著AI 2.0時代已經(jīng)到來,它將帶來比移動互聯(lián)網(wǎng)時代大十倍的機(jī)會,穿透各行各業(yè)極大地提振生產(chǎn)力。“我們預(yù)測,全新的 AI 2.0平臺將能有效幫助提升人類生產(chǎn)力,創(chuàng)造巨大的經(jīng)濟(jì)價值及社會價值。”

2023年11月,零一萬物發(fā)布首款研發(fā)的最強開源 AI 大模型系列“Yi”,包括Yi-6B(數(shù)據(jù)參數(shù)量為60億)、Yi-34B(340億)兩款,均是雙語(英文/中文)、支持開源。

其中,Yi-34B模型在多項評測基準(zhǔn)中全球領(lǐng)跑,基于超強Infra下模型訓(xùn)練成本實測下降40%,模擬千億規(guī)模訓(xùn)練成本可下降多達(dá)50%,并以更小模型尺寸的基準(zhǔn)結(jié)果超過LLaMA2-34B/70B、Falcon-180B等大尺寸開源模型,以及百川智能(王小川創(chuàng)立)的Baichuan2-13B。

“隨著團(tuán)隊到位,2023年6、7月份開始寫第一行代碼,短短四個月做了非常自豪的產(chǎn)品。我們是‘不鳴則已,一鳴驚人’。所以‘一鳴驚人’之后,如果我們過半年甚至過一年回頭看,今天對我們來說只是剛剛開始,我們還會不斷的去開發(fā)、推動、宣布更多令人驚艷的成果。”李開復(fù)當(dāng)時表示。

此次公布的向量數(shù)據(jù)庫,又被稱為AI時代的信息檢索技術(shù),是檢索增強生成(RAG)內(nèi)核技術(shù)之一。隨著大模型為代表的AI 2.0時代到來,圖片、視頻、自然語言等多模態(tài)的非結(jié)構(gòu)化數(shù)據(jù)量陡增。區(qū)別于傳統(tǒng)數(shù)據(jù)庫,向量數(shù)據(jù)庫專門用來存儲、管理、查詢和檢索向量化的非結(jié)構(gòu)化數(shù)據(jù),而ChatGPT模型進(jìn)一步強化了向量數(shù)據(jù)庫的作用。

截至目前,Google、微軟、Met 等大廠的相關(guān)向量大模型產(chǎn)品先后問世,Zilliz、Pinecone、Weaviate、Qdrant等創(chuàng)業(yè)公司也異軍突起。2023年,OpenAI的向量數(shù)據(jù)庫合作方Pinecone完成了B輪1.38億美元融資,國內(nèi)初創(chuàng)企業(yè)Fabarta ArcNeural也完成了上億元Pre-A輪融資。

如今,李開復(fù)帶領(lǐng)的團(tuán)隊也自主研發(fā)出全新的向量數(shù)據(jù)庫。

具體來說,零一萬物笛卡爾主要聚焦于高性能向量數(shù)據(jù)庫,采用領(lǐng)先的全導(dǎo)航圖技術(shù)、首創(chuàng)自適應(yīng)鄰居選擇策略等新功能,以及采用了兩級量化方案增強RAG,在處理復(fù)雜查詢、提高檢索效率、優(yōu)化數(shù)據(jù)存儲方面相比業(yè)界擁有顯著的比較優(yōu)勢。另外,零一萬物還采用索引結(jié)構(gòu)優(yōu)化、連通性保障等全棧向量技術(shù)方案,從而提高笛卡爾向量數(shù)據(jù)庫的性能。

以電商推薦場景為例。上架商品數(shù)量可能千萬級,每個商品可以由一個向量表達(dá),即使庫中向量數(shù)不算很大,如果電商用戶基數(shù)非常龐大,高峰時每秒用戶請求數(shù)非常大,可能達(dá)到幾十萬甚至上百萬的吞吐量QPS(每秒內(nèi)處理的請求數(shù)),使用高性能向量數(shù)據(jù)庫可以有效提升電商場景里面搜索、廣告業(yè)務(wù)的推薦效果,促進(jìn)銷售額增長。

零一萬物表示,笛卡爾擁有超高精度、超高性能兩個優(yōu)點:一、超高精度,基于多層縮略圖和坐標(biāo)系實現(xiàn)層間導(dǎo)航和圖上方位導(dǎo)航,以及圖連通性保障,實現(xiàn)精度大于99%,相同性能下,精度大幅領(lǐng)先業(yè)內(nèi)水平;二、超高性能,高效的邊選擇和裁剪技術(shù),千萬數(shù)據(jù)庫ms(秒級)響應(yīng)。

該公司指出,在兩級量化降低計算復(fù)雜方面,相比傳統(tǒng)PQ查表,笛卡爾向量數(shù)據(jù)庫的性能得到大幅提升到2-3倍;目標(biāo)向量層面,笛卡爾讓RAG向量檢索性能提高15%-30%,從而幫助企業(yè)客戶構(gòu)建私域知識庫、智能客服系統(tǒng);在自動駕駛領(lǐng)域,使用高性能向量數(shù)據(jù)庫可來加速自動駕駛模型訓(xùn)練等。

基準(zhǔn)測試層面,在glove-25-angular、glove-100-angular、sift-128-euclidean、nytimes-256-angular、fashion-mnist-784-euclidean、gist-960-euclidean六大數(shù)據(jù)集中,零一萬物笛卡爾向量數(shù)據(jù)庫在6項數(shù)據(jù)集評測中都處于最高位。

零一萬物強調(diào),笛卡爾向量數(shù)據(jù)庫是團(tuán)隊基于RAG的初步嘗試,將在近期發(fā)布的AI生產(chǎn)力產(chǎn)品中得到有效應(yīng)用。未來各家大模型優(yōu)化到一定程度后,向量數(shù)據(jù)庫的能力可能決定各家大模型的天花板。零一萬物后續(xù)會持續(xù)專注研發(fā)和分享,為用戶帶來更好的技術(shù)和體驗。

“零一萬物的數(shù)據(jù)處理管線、算法研究、實驗平臺、GPU資源和 AI Infra 都已經(jīng)準(zhǔn)備好,我們的動作會越來越快”。李開復(fù)表示,零一萬物希望有更多的開發(fā)者使用Yi系列模型,打造自己場景中的“ChatGPT”,引領(lǐng)下一代前沿創(chuàng)新和商業(yè)模型,探索走向通用 AI 時代。

鈦媒體App了解到,零一萬物即將推出基于 AI 2.0 的超級應(yīng)用產(chǎn)品。

(本文首發(fā)鈦媒體App,作者|林志佳)

 

本文系作者 林志佳 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

19:59

國航C919正式投入北京—廈門、北京—哈爾濱兩條航線運營

19:57

中鋁國際:2025年歸母凈利潤2.58億元,同比增長16.47%

19:19

伊朗稱已打擊與美軍工有關(guān)聯(lián)的兩家企業(yè)

18:36

伊朗與巴基斯坦兩國外長通電話,討論地區(qū)局勢

18:35

2025年玩具(不含潮玩)國內(nèi)市場零售總額達(dá)1035.3億元

18:08

全國豬價跌破5元,創(chuàng)歷史新低

18:07

時代天使2025年實現(xiàn)收入3.7億美元,同比增長37.8%

17:57

電魂網(wǎng)絡(luò):擬投資4920萬元取得上海漫魂51%股權(quán)

17:51

美國1天超3000場反戰(zhàn)示威

17:28

雀巢12噸巧克力被盜

17:11

伊朗官員表示將“果斷反擊”美軍奪島

17:08

伊朗議長稱武裝部隊“正等著美軍地面行動”,并將“懲罰”其地區(qū)盟友

17:05

三安光電:董事長及總經(jīng)理擬增持公司股份

16:58

全球多地爆發(fā)示威抗議,民眾高呼“不要戰(zhàn)爭”

16:55

中信證券:配置上建議繼續(xù)堅守中國優(yōu)勢制造業(yè),靜待4月決斷

16:38

美國土安全部資金中斷進(jìn)入第44天,創(chuàng)美國史上最長政府部分“停擺”紀(jì)錄

16:17

北京啟動智能網(wǎng)聯(lián)新能源汽車商業(yè)保險開發(fā)應(yīng)用,統(tǒng)一適配L2至L4全級別智能網(wǎng)聯(lián)新能源汽車

16:16

恒林股份發(fā)布AI體感工學(xué)白皮書,加速布局AI智能家居

16:15

中國國家創(chuàng)新指數(shù)綜合排名世界第9位,較上年提升1位

16:05

朗新科技:2025年歸母凈利潤1.05億元,同比扭虧為盈

掃描下載App