OceanBase首席技術(shù)官(CTO)楊傳輝

2025年,開源AI模型DeepSeek、OpenAI推出的GPT-4.5引爆全球新一輪生成式AI熱潮。

作為AI技術(shù)發(fā)展“數(shù)據(jù)、算法、算力”三大要素之一,數(shù)據(jù)已經(jīng)成為推動AI技術(shù)發(fā)展的關(guān)鍵因素,也是數(shù)字時代的新型核心生產(chǎn)要素。

IDC數(shù)據(jù)顯示,2024年,全球大數(shù)據(jù)IT總投資規(guī)模約為3540億美元。預(yù)計到2028年,這一規(guī)模接近6440億美元,五年復(fù)合增長率(CAGR)約16.8%。其中,2028年中國大數(shù)據(jù)IT支出規(guī)模預(yù)計為621.7億美元,全球占比約10%,復(fù)合增長率24.9%位居全球第一。而當(dāng)前,中國的數(shù)據(jù)產(chǎn)量已經(jīng)占全球數(shù)據(jù)總產(chǎn)量的23%。

OceanBase CTO楊傳輝對鈦媒體AGI表示,AI時代來臨,數(shù)據(jù)處理的邊界得到進(jìn)一步延伸,如多模態(tài)大模型圖片、文本、視頻等富媒體的無結(jié)構(gòu)化數(shù)據(jù)規(guī)模增長。而且,數(shù)據(jù)擴展性、數(shù)據(jù)規(guī)模、碎片化等行業(yè)挑戰(zhàn)不斷加劇,OceanBase希望形成一體化數(shù)據(jù)處理平臺,解決客戶需求和難題。

據(jù)悉,OceanBase創(chuàng)立于2010年,是國內(nèi)領(lǐng)先的一體化分布式數(shù)據(jù)庫公司。2020年,螞蟻集團旗下的OceanBase成立北京奧星貝斯科技有限公司并開始商業(yè)化運作,陸續(xù)發(fā)布自研OceanBase4.0、4.2、4.3版本等系列技術(shù)產(chǎn)品和解決方案。目前,OceanBase已助力金融、政務(wù)、運營商、零售、互聯(lián)網(wǎng)等多個行業(yè)的2000多家客戶實現(xiàn)關(guān)鍵業(yè)務(wù)系統(tǒng)升級。

2025年4月,OceanBase CEO楊冰發(fā)布全員信,宣布OceanBase將全面進(jìn)入AI時代,打造“DATA×AI”核心能力,建設(shè)AI時代的一體化數(shù)據(jù)底座,螞蟻集團接下來也將向OceanBase開放全部AI場景。同時,為保障戰(zhàn)略推進(jìn),OceanBase啟動人才和組織體系升級,任命公司CTO楊傳輝擔(dān)任AI戰(zhàn)略一號位,并成立AI平臺與應(yīng)用部、AI引擎組等新部門。

5月17日,OceanBase將舉辦2025開發(fā)者大會,大會主題同樣與AI相關(guān)。大會前夕,鈦媒體AGI與OceanBase CTO楊傳輝進(jìn)行了一場獨家對話。這也是楊傳輝被任命為OceanBase公司AI戰(zhàn)略一號位之后的首次公開對話。

楊傳輝對鈦媒體AGI表示,打造“AI時代的一體化數(shù)據(jù)底座”是OceanBase現(xiàn)有戰(zhàn)略的自然延伸,這來自于市場需求以及OceanBase已經(jīng)具備的產(chǎn)品技術(shù)能力。AI時代下,數(shù)據(jù)規(guī)模和數(shù)據(jù)種類越來越復(fù)雜多樣,數(shù)據(jù)庫與AI的關(guān)系不是簡單的DATA+AI,應(yīng)該是DATA×AI,背后則是處理海量數(shù)據(jù)和不同結(jié)構(gòu)數(shù)據(jù)的能力,以及將數(shù)據(jù)與模型融合的工程能力。作為一體化分布式數(shù)據(jù)庫平臺,OceanBase將成為AI時代下的最好選擇。

楊傳輝強調(diào),要實現(xiàn)這一目標(biāo),OceanBase還面臨不少挑戰(zhàn),包括技術(shù)創(chuàng)新、生態(tài)建設(shè)等,因此OceanBase需要不斷把握策略定力,讓時間和足夠堅持來確保公司的未來發(fā)展。

“我們堅信,AI時代的一體化數(shù)據(jù)底座,一定能夠滿足用戶需求。”楊傳輝稱。

以下是鈦媒體AGI和楊傳輝獨家交流速記整理(有部分刪減):

鈦媒體AGI:最近許多公司都宣布加碼AI戰(zhàn)略,而OceanBase也提出戰(zhàn)略升級到“AI時代的一體化數(shù)據(jù)底座”,那么對于外界來說,如何思考OceanBase這個轉(zhuǎn)變?

楊傳輝:首先要明確的是,不是因為有AI熱潮O(jiān)ceanBase才提出AI戰(zhàn)略。本質(zhì)上,要做“AI時代的一體化數(shù)據(jù)底座”,是OceanBase現(xiàn)有戰(zhàn)略的一個延伸。

原本數(shù)據(jù)庫處理大部分是結(jié)構(gòu)化數(shù)據(jù),及少部分半結(jié)構(gòu)化數(shù)據(jù)。隨著IT發(fā)展,尤其AI時代來臨后,數(shù)據(jù)處理的邊界就得到了延伸,需要在數(shù)據(jù)層面直接處理無結(jié)構(gòu)化的數(shù)據(jù),如多模態(tài)大模型的圖片、文本、視頻等富媒體數(shù)據(jù)。同時,AI大模型也使得數(shù)據(jù)規(guī)模變得比以前更大。

OceanBase是一個原生分布式數(shù)據(jù)庫,我們經(jīng)歷了雙11海量數(shù)據(jù)場景考驗,也具備金融場景數(shù)據(jù)庫的穩(wěn)定性安全性,同時我們的一體化能力又原生支持多種數(shù)據(jù)類型,提供向量能力,這種分布式和一體化產(chǎn)品特色,在AI時代的用武之地會變得更大。

所以,我們戰(zhàn)略由一個“數(shù)據(jù)庫”,慢慢延伸成“數(shù)據(jù)底座”,我們希望全方位、一體化處理結(jié)構(gòu)化、半結(jié)構(gòu)化、無結(jié)構(gòu)化數(shù)據(jù),同時數(shù)據(jù)庫的研發(fā)團隊天然具備AI基礎(chǔ)設(shè)施的工程能力,我們希望將數(shù)據(jù)與模型也實現(xiàn)一體化融合,這是DATA×AI的關(guān)鍵。

從全球來看,最有名的數(shù)據(jù)庫公司包括甲骨文Oracle、Snowflake、Databricks等,隨著業(yè)務(wù)場景的不斷變化和演進(jìn),它們也會隨著趨勢變化。如今AI時代下,我們也要確保OceanBase的未來會比今天更流行,在AI趨勢下抓住新的應(yīng)用場景。大家會發(fā)現(xiàn)TP/AP負(fù)載、向量、搜索等技術(shù)的邊界會越來越模糊,最終企業(yè)需要AI時代下的一體化“數(shù)據(jù)底座”,這會讓OceanBase成為AI時代下最好的一個選擇。

鈦媒體AGI:2024年鈦媒體和ITvalue舉辦的數(shù)字價值年會上,OceanBase CEO楊冰提到AI對于數(shù)據(jù)庫的重要性:一個是AI for DB,一個是 DB for AI,如今,OceanBase提出的DATA×AI是怎樣一種新變化?

楊傳輝:我們對數(shù)據(jù)庫、AI兩者關(guān)系進(jìn)行了深入思考,我們認(rèn)為,兩者不是簡單的DATA+AI,而應(yīng)該是DATA×AI。

一方面,客戶的數(shù)據(jù)天然存儲在OceanBase這類數(shù)據(jù)庫,而AI大模型原本也具備token這類公有的通用數(shù)據(jù),兩者應(yīng)該有更融合的化學(xué)反應(yīng)。另一方面,大模型在技術(shù)層面主要分為算法能力、工程能力、數(shù)據(jù)能力、應(yīng)用能力,在工程能力上,由于工作的本質(zhì)都在于如何讓數(shù)據(jù)處理更高效,解決計算、資源、效率等問題,除了數(shù)據(jù)能力外,數(shù)據(jù)庫的研發(fā)團隊也天然具備這一工程能力,這能夠幫助DATA與AI技術(shù)進(jìn)一步融合,也就是實現(xiàn)DATA×AI,在開發(fā)者大會上我也會進(jìn)一步闡釋清楚。

鈦媒體AGI:目前,生成式AI技術(shù)面臨數(shù)據(jù)量通貨膨脹、數(shù)據(jù)孤島碎片化嚴(yán)重、數(shù)據(jù)分析需求爆發(fā)等挑戰(zhàn),對于這些變化,OceanBase做了哪些新的工作?

楊傳輝:AI確實給數(shù)據(jù)處理的工作帶來了挑戰(zhàn),比如你提到的數(shù)據(jù)規(guī)模、數(shù)據(jù)孤島、多模態(tài)挑戰(zhàn),尤其是數(shù)據(jù)規(guī)模會變得越來越大,對數(shù)據(jù)庫的要求很高。

OceanBase的分布式能力、一體化架構(gòu)都能解決相關(guān)問題,但只是在個別問題上還沒有做到完美,所以我們一直在堅持加強擴展性、工程能力等層面。

我們的4.3版本和4.4版本,基本上都沿著一體化方向繼續(xù)前進(jìn)。AI 時代更是一種延伸,變化在于,我們的發(fā)展會更大膽一些,例如更好地處理無結(jié)構(gòu)化數(shù)據(jù),進(jìn)一步加強我們的向量能力等。

鈦媒體AGI:今年OceanBase開發(fā)者大會主題也是AI,預(yù)計會有哪些發(fā)布?

楊傳輝:首先,我們會發(fā)布AI相關(guān)的數(shù)據(jù)庫產(chǎn)品和能力,在包括向量數(shù)據(jù)庫等一體化數(shù)據(jù)底座的數(shù)據(jù)處理能力上有很大提升。無論在性能,還是性價比上,我們基本都達(dá)到了業(yè)界一流水平。

其次,我們會發(fā)布RAG服務(wù)。我們在 AI 領(lǐng)域原本就有很強的技術(shù)能力,將以RAG服務(wù)方式幫助企業(yè)通過一體化把自有數(shù)據(jù)和采用公開數(shù)據(jù)模型相結(jié)合,獲得更大的業(yè)務(wù)價值。

最后,我們也會發(fā)布OceanBase自身應(yīng)用大模型取得的成果。

鈦媒體AGI:現(xiàn)在做AI基座模型的企業(yè)越來越少,很多模型企業(yè)已經(jīng)不再做預(yù)訓(xùn)練,而是做推理模型,或是行業(yè)模型,數(shù)據(jù)參數(shù)規(guī)模沒有之前那么大了。那么,客戶數(shù)據(jù)處理需求會持續(xù)不斷嗎?

楊傳輝:這可能是兩個問題。

第一,我是這么理解預(yù)訓(xùn)練技術(shù)的。本身預(yù)訓(xùn)練門檻越來越高,像考試考到90分以后,再往上評分就越來越難,需要更多的數(shù)據(jù)和工程能力積累。但是,我們也可以看到,也有很多企業(yè)對預(yù)訓(xùn)練模型進(jìn)行更大的投入。未來我相信,少數(shù)幾家公司還是會不斷提升能力,尤其后續(xù)強化學(xué)習(xí)可以挖掘的空間很大。

第二,預(yù)訓(xùn)練和對數(shù)據(jù)的需求是兩個問題,特別是對于OceanBase這樣的一體化數(shù)據(jù)底座來說,我們的數(shù)據(jù)量會越來越大。因為數(shù)據(jù)底座的數(shù)據(jù)量跟預(yù)訓(xùn)練數(shù)據(jù)不一樣,預(yù)訓(xùn)練可能是把token拿過來,但一體化數(shù)據(jù)底座的數(shù)據(jù)量取決于AI應(yīng)用量級。AI應(yīng)用越多,數(shù)據(jù)量越大,而當(dāng)下AI應(yīng)用需求不斷爆發(fā),加上 AI 應(yīng)用對數(shù)據(jù)需求、數(shù)據(jù)種類、數(shù)據(jù)結(jié)構(gòu)需求不斷增加,最終AI對數(shù)據(jù)的需求只會越來越大。

鈦媒體AGI:隨著企業(yè)在使用大模型過程中越來越多采用自有數(shù)據(jù),模型的“幻覺”未來會變?yōu)?嗎?“幻覺”會影響AI發(fā)揮價值嗎?

楊傳輝:模型的“幻覺”不能完全消除,但會降低“幻覺”。

有時候我們需要換一種思維模式,AI大模型原理是預(yù)測下一個token,這就對算力的要求很高,是從很多詞語當(dāng)中進(jìn)行選擇。同時,AI調(diào)用模型也是一個“煉丹”的過程,不是一個確定性問題,而是概率性問題。我們需要從兩方面看待“幻覺”這件事。

一、隨著AI推理訓(xùn)練、強化學(xué)習(xí)等技術(shù)發(fā)展,模型幻覺肯定會變得越來越低,而且語料準(zhǔn)確率也會不斷提升,它有一個技術(shù)紅利。

二、盡管有幻覺因素,但今天的AI技術(shù)水平,已經(jīng)能夠在很多場景當(dāng)中應(yīng)用,未來慢慢還有很多新的產(chǎn)品浮出水面。未來5年,如果AI部分幻覺降低,另一部分的技術(shù)能力充分發(fā)揮出來,在各個應(yīng)用場景里面使用,將會有非常巨大潛力。

鈦媒體AGI:要實現(xiàn)面向AI時代的一體化數(shù)據(jù)底座,OceanBase還面臨哪些挑戰(zhàn)?未來的更大終極目標(biāo)和發(fā)展前景有哪些?

楊傳輝:挑戰(zhàn)還是比較多的。

第一是技術(shù)本身的挑戰(zhàn)。我們對于發(fā)展前景想得很清楚,OceanBase優(yōu)勢也很多,但是如何真正讓DATA x AI,兩者結(jié)合在一起,把幻覺、成本變得更低,讓數(shù)據(jù)融入AI,這本身的技術(shù)挑戰(zhàn)就是世界級的,大家都在探索。

第二是生態(tài)的挑戰(zhàn)。無論是數(shù)據(jù)底座,還是數(shù)據(jù)庫,本質(zhì)上還是要轉(zhuǎn)化為千萬家企業(yè)要用的技術(shù)產(chǎn)品,這是一個過程,涉及開源策略、商業(yè)策略、服務(wù)能力、生態(tài)層面等細(xì)節(jié),這些都需要策略、時間和足夠的堅持,一個都不能少。具體來說,策略包括兩個部分:一是由數(shù)據(jù)庫產(chǎn)品到AI時代的一體化數(shù)據(jù)底座,適應(yīng)AI時代需求,讓產(chǎn)品迭代速度更快、更敏捷;二是更加開放,鍛煉研發(fā)團隊能力,讓團隊擴展外部能力。

從數(shù)據(jù)庫生態(tài)來講,OceanBase的開源社區(qū)已經(jīng)是國內(nèi)最強、最流行的數(shù)據(jù)庫社區(qū),但在全球我們還有差距,如何讓生態(tài)真正做到“全球級”,也是一個重要課題。

至于終極目標(biāo),我認(rèn)為OceanBase無論是做數(shù)據(jù)庫,還是做數(shù)據(jù)底座,本身依然專注于數(shù)據(jù)處理,這是我們的核心。隨著數(shù)據(jù)種類,數(shù)據(jù)規(guī)模不斷變化,OceanBase要幫助用戶完成數(shù)據(jù)處理,成為全球數(shù)據(jù)處理領(lǐng)域最好的一個選擇,這個目標(biāo)永遠(yuǎn)都沒有變。

很多人認(rèn)為,OceanBase是強大的“分布式關(guān)系型數(shù)據(jù)庫”,但我們的未來在于做AI時代的一體化數(shù)據(jù)底座。所以我們不想把自己用“關(guān)系型數(shù)據(jù)庫”的標(biāo)準(zhǔn)來卡在“舒適圈”里面。我們產(chǎn)品是一流的,我們工程能力是一流的,因此需要用一種更開放的心態(tài)看待最新的業(yè)務(wù)場景和數(shù)據(jù)。

我們堅信,AI時代的一體化數(shù)據(jù)底座,一定能夠滿足用戶需求。

(本文首發(fā)于鈦媒體App,作者|林志佳)

本文系作者 林志佳 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

11:48

中國首臺商用12兆伏串列加速器成功下線

11:40

美副總統(tǒng)稱無意滯留伊朗,將很快撤出

11:39

中關(guān)村兩院具身通用智能基座模型與社會模擬器等科研成果發(fā)布

11:37

清明檔新片預(yù)售票房突破2000萬

11:30

約千人“包圍”洛杉磯政府機構(gòu)大樓,兩人被捕

10:59

中穎電子:有序推進(jìn)車規(guī)芯片研發(fā),新產(chǎn)品預(yù)期今年推出

10:50

德研究報告:中國工業(yè)數(shù)字化水平全球領(lǐng)先

10:39

訊飛醫(yī)療2025年營收增長25%,虧損收窄

10:14

廣東省市場監(jiān)管局聯(lián)合廣州市市場監(jiān)管局召開平臺企業(yè)座談會

10:10

貝殼啟動戰(zhàn)略變革:管理者站上一線,經(jīng)紀(jì)人KPI減負(fù)

10:06

中東戰(zhàn)事致燃油短缺,越南多家航司將削減航班數(shù)量

10:06

新研究估計全球每年逾25萬人死于腦膜炎

10:02

印尼16歲以下人群“社媒禁令”正式生效

10:01

調(diào)查顯示日本市場逾2500種食品4月份將漲價

10:01

西南首個商業(yè)衛(wèi)星遙感測運控站啟用

09:25

美國全國范圍爆發(fā)反對特朗普政府集會,預(yù)計超900萬人參與,或為“美國歷史上規(guī)模最大”抗議活動

09:23

馬斯克旗下AI公司初創(chuàng)“11羅漢”全部離職

09:21

巴基斯坦稱伊朗已同意再放行20艘巴船只通過霍爾木茲海峽

09:20

法國警方挫敗美資銀行門前爆炸企圖

09:18

美軍否認(rèn)其人員在迪拜遭襲

掃描下載App