拓數(shù)派創(chuàng)始人兼CEO 馮雷(Ray Von)
鈦媒體獲悉,拓數(shù)派(OpenPie)不久前發(fā)布了全新產(chǎn)品虛擬數(shù)倉PieCloudDB「云上云」版(CoC:Cloud on Cloud),并正式上線基于阿里云構(gòu)建公共云數(shù)據(jù)倉庫服務。
據(jù)創(chuàng)始人兼CEO馮雷所述,基于數(shù)倉虛擬化打造的旗艦產(chǎn)品PieCloudDB,是對行業(yè)頂級數(shù)據(jù)庫的抽象思考和設(shè)計原則復用為技術(shù)路線,實現(xiàn)了分析型數(shù)據(jù)數(shù)倉上云虛擬化。
拓數(shù)派成立于2021年,創(chuàng)立之初便獲得頭部產(chǎn)業(yè)基金連續(xù)兩筆天使輪投資,并于2022年6月再度獲得新一輪戰(zhàn)略融資,其核心產(chǎn)品PieCloudDB是面向企業(yè)級的云原生虛擬數(shù)倉。
如今過去兩年,拓數(shù)派已相繼發(fā)布PieCloudDB的企業(yè)版/社區(qū)版(基于私有云部署)、軟硬件一體機、「云上云」版本(首先基于阿里云構(gòu)建公共云數(shù)倉)。
拓數(shù)派為此給出了數(shù)倉虛擬化技術(shù)理念的完整演繹。據(jù)介紹,團隊將多個數(shù)倉整合到一個高可用的云虛擬數(shù)倉,以打通多云數(shù)據(jù)管道,數(shù)據(jù)計算資源按需擴縮容,同時可計算數(shù)據(jù)空間實現(xiàn)了數(shù)量級增加,數(shù)倉的管理復雜度和成本均得到降低。這個過程中使用了存算分離、eMPP(elastic Massive Parallel Processing,彈性大規(guī)模并行計算)、服務器無感知及TDE等多項核心技術(shù)。
PieCloudDB數(shù)倉虛擬化四大核心技術(shù)架構(gòu):
云原生存算分離架構(gòu):運用元數(shù)據(jù)-計算-數(shù)據(jù)分離的三層架構(gòu),實現(xiàn)云上存儲資源與計算資源的獨立管理。云上計算資源可彈性分配,有查詢計算任務的時候按需啟動,按照使用時間和規(guī)模計算成本。
eMPP分布式專利技術(shù):在云上,PieCloudDB利用eMPP架構(gòu),實現(xiàn)多集群并發(fā)執(zhí)行任務。企業(yè)可靈活進行擴縮容,隨著負載的變化實現(xiàn)高效的伸縮,輕松應對PB級海量數(shù)據(jù)。
全新的存儲「簡墨」和緩存架構(gòu)設(shè)計:在計算層,各個計算節(jié)點針對元數(shù)據(jù)和用戶數(shù)據(jù)都設(shè)計了多層緩存結(jié)構(gòu),避免網(wǎng)絡(luò)延遲和數(shù)據(jù)移動,提高計算效率,保證用戶的實時性需求。針對底層對象存儲設(shè)計了高效的文件格式,可在節(jié)省網(wǎng)絡(luò)請求的同時提高計算效率。
全新的優(yōu)化器「達奇」:可更智能高效地生成統(tǒng)計信息,并生成更高效的查詢計劃,達奇優(yōu)化器支持聚集下推,預計算,Block Skipping等高級特性,全面滿足各種復雜的分析查詢需求。
云原生數(shù)據(jù)庫/數(shù)倉技術(shù)近些年在概念上非常熱,但怎么實現(xiàn)云原生的彈性優(yōu)勢、存算分離,各家廠商的產(chǎn)品成熟度和技術(shù)積累難免有所差異。從產(chǎn)品迭代周期和研發(fā)復雜性上看,拓數(shù)派的技術(shù)路徑難度頗高。據(jù)了解,團隊已經(jīng)進行了百萬行代碼的推倒重寫。
以eMPP為例,PC版分析型數(shù)據(jù)庫所采用的傳統(tǒng)MPP技術(shù),在遇到云端海量數(shù)據(jù)時會存在比較明顯的缺陷:如拓展困難、升級部署難,以及大量的數(shù)據(jù)孤島。eMPP則基于云計算架構(gòu)的彈性并行計算,存儲和計算各自作為兩個獨立變量,各自在云里彈性伸縮,同時可以實現(xiàn)瞬間擴縮容。此外,用戶對于云中數(shù)據(jù)同時開啟多個集群進行數(shù)據(jù)計算,可以持續(xù)將所有數(shù)據(jù)在云中存儲,為已有的應用和未來的應用真正實現(xiàn)數(shù)據(jù)共享。
在媒體溝通會上,拓數(shù)派CTO郭罡告訴鈦媒體,“團隊最開始在單機版本上進行原型創(chuàng)新,支持多節(jié)點共享元數(shù)據(jù)和用戶數(shù)據(jù),后來才支持分布式集群,相當于在Postgres上重新實現(xiàn)了一個新的分析型數(shù)據(jù)庫(OLAP)。”
從產(chǎn)品迭代節(jié)奏上,他還指出,“并不是因為Teradata退出中國,而是目前國內(nèi)企業(yè)客戶還是會有對一體機的場景需求,未來也會跟更多的國產(chǎn)硬件廠商進行適配。”“目前來看,基于私有化部署的業(yè)務占比會更高,但未來3~5年內(nèi)還是希望將公有云的業(yè)務收入進行持續(xù)提升。”
另外值得一提的是,馮雷為原Pivotal(中國)創(chuàng)始人兼總經(jīng)理,在此之前,Pivotal就已經(jīng)是一家非常成功的技術(shù)公司,其支持運營的開源數(shù)據(jù)庫Greenplum、PaaS平臺Cloud Foundry和Java開發(fā)的Spring框架在業(yè)內(nèi)赫赫有名,云原生(cloud native)一詞最早起也源于Pivotal公司。
談及Greenplum的創(chuàng)新邏輯,郭罡明確指出:“團隊并沒有沿襲GP技術(shù)棧進行創(chuàng)新,而是進行了數(shù)據(jù)庫內(nèi)核的重構(gòu);但另一方面,團隊保留了GP的部分優(yōu)勢,通過GP生態(tài)進行更廣泛的用戶連接。”
在鈦媒體看來,從以Teradata為代表的一體機MPP數(shù)據(jù)庫產(chǎn)品,到Greenplum和Vertica等基于PC的MPP數(shù)據(jù)庫,再到如今企業(yè)所倡導的云原生數(shù)據(jù)庫/數(shù)倉,盡管市場對新一代數(shù)據(jù)技術(shù)棧的關(guān)注在近些年十分火熱,但國產(chǎn)數(shù)據(jù)庫產(chǎn)業(yè)的整體資金投入、人才積累以及實際應用案例的深度仍有待提高。
作為一家初創(chuàng)公司,拓數(shù)派正式組織研發(fā)與市場力量不過兩年,有其發(fā)展的優(yōu)勢與契機。
(本文首發(fā)鈦媒體APP 作者 | 楊麗)
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論