美東時(shí)間12月17日,數(shù)據(jù)分析和AI平臺(tái)巨頭Databricks宣布將完成100億美元J輪融資,公司估值將從此前的430億美元攀升至620億美元。本輪融資由Thrive Capital領(lǐng)投,多家知名投資機(jī)構(gòu)參與本輪融資,包括Andreessen Horowitz、DST Global、GIC、Insight Partners和WCM Investment Management作為共同領(lǐng)投方。此外,安大略教師退休金計(jì)劃、ICONIQ Growth、MGX、Sands Capital和Wellington Management也參與其中。該輪融資將用于投資于新的AI產(chǎn)品、收購(gòu)以及大幅擴(kuò)張其國(guó)際市場(chǎng)業(yè)務(wù)。
截至目前,參與Databricks融資的投資方已超過(guò)63家,融資總額已超過(guò)140億美元。
過(guò)去十年,初創(chuàng)公司從風(fēng)險(xiǎn)融資到最終上市或被收購(gòu)的周期,已經(jīng)在拉長(zhǎng)。分析個(gè)中原因,一方面在于近些年政府對(duì)大型客戶公司采取的反壟斷審查壓制了企業(yè)收購(gòu)路徑,另一方面多數(shù)軟件股票受到高利率以及宏觀經(jīng)濟(jì)的影響普遍表現(xiàn)不佳,包括同樣是大數(shù)據(jù)公司的Snowflake市值曾達(dá)到710億美金,如今已跌去20%。不過(guò),還有部分分析認(rèn)為,明年特朗普的上任將推動(dòng)美國(guó)科技股上市和交易市場(chǎng)的打開(kāi)。
值得關(guān)注的是,該輪融資還將用于回購(gòu)現(xiàn)任和前任員工持有的股份,這無(wú)疑對(duì)于Databricks的早期員工是一次重大利好。
此前路透社援引消息人士報(bào)道稱,這輪融資幾乎超額認(rèn)購(gòu)了兩倍,超過(guò)公司最初的目標(biāo)。更早一個(gè)月前,Databricks就被曝光進(jìn)行新一輪至少50億美元的現(xiàn)金融資,預(yù)計(jì)估值550億美元。目前來(lái)看,該輪融資比預(yù)計(jì)的要高出許多。
該輪融資目前成為歷史上最大的風(fēng)險(xiǎn)投資輪之一。另一位消息人士補(bǔ)充說(shuō),除了股權(quán)融資外,Databricks還在就籌集45億美元的債務(wù)融資進(jìn)行談判,其中包括直接貸款人提供的25億美元定期貸款。
![]()
Databricks成立于2013年,總部位于舊金山,由7位數(shù)據(jù)科學(xué)家聯(lián)手創(chuàng)立。分析在融資數(shù)十輪之后依然能獲得如此高額融資的背后,其實(shí)得益于Databricks自身快速發(fā)展的勢(shì)頭。按公司估值在620億美元,預(yù)計(jì)以每股92.50美元的價(jià)格交易。這個(gè)價(jià)格在一些投資者眼中被認(rèn)為是一筆劃算的交易。
盡管該公司尚未盈利,但這輪融資將標(biāo)志著其估值的大幅上升。此外,該公司計(jì)劃將部分資金用于從早期員工手中回購(gòu)到期的限制性股票,并支付相關(guān)的稅收成本。作為交易的一部分,Databricks還計(jì)劃向參與本輪融資的投資者發(fā)行優(yōu)先股。這意味著Databricks此次籌集巨額資金以解決即將到期的員工期權(quán)問(wèn)題,而不是增加其資產(chǎn)負(fù)債表。事實(shí)上,在此之前金融支付公司Stripe也有類似做法,該公司去年以500億美金估值獲得了65億美元融資。
過(guò)去幾年,Databricks就曾頻繁被追問(wèn)上市準(zhǔn)備情況,但直至如今,Databricks一直沒(méi)有給出明確的時(shí)間表。其實(shí)從競(jìng)爭(zhēng)對(duì)手之一的Snowflake可見(jiàn)端倪。Snowflake于2020年9月上市,其股價(jià)在最初一年里曾突破390美元,但如今股價(jià)與最高水平相比已跌去56%。另一家數(shù)據(jù)管理公司Confluent的股價(jià)基本在26美元徘徊,遠(yuǎn)低于上市之初的36美元。而近段時(shí)間,軟件股票受到高利率以及宏觀經(jīng)濟(jì)的影響普遍表現(xiàn)不佳。
外部分析,目前市場(chǎng)環(huán)境對(duì)于初創(chuàng)公司IPO并不友好。Databricks通過(guò)融資,減少員工套現(xiàn)壓力,也進(jìn)一步降低了未來(lái)IPO的緊迫或必要性。
不過(guò),Databricks首席執(zhí)行官Ali Ghodsi在11月20日的一次會(huì)議上還是透露了一些信息,他表示正在為Databricks未來(lái)十年甚至二十年的成功而布局,而不是為IPO而布局,“如果上市,最早也要等到明年年中。或許明年就有可能。”
至于潛在的收購(gòu),Ghodsi表示他正在尋找專注于AI的初創(chuàng)公司,以尋找技術(shù)和人才。
Databricks預(yù)計(jì),截至明年1月的2024財(cái)年?duì)I收將超過(guò)30億美元,第三季度銷售額同比增長(zhǎng)60%以上,且預(yù)計(jì)在第四季度收入運(yùn)行率將超過(guò)30億美元,實(shí)現(xiàn)“正向自由現(xiàn)金流”。此前,Databricks還表達(dá)下一財(cái)年預(yù)計(jì)收入為38億美元。
客戶層面,Databricks服務(wù)了超過(guò)一萬(wàn)家企業(yè)客戶,并且其中超過(guò)500家客戶每年付費(fèi)金額超過(guò)百萬(wàn)美元。
頂級(jí)風(fēng)投對(duì)諸如Databricks一樣的潛力股,正不余遺力地追加投資,并支持企業(yè)保持更長(zhǎng)時(shí)間的私有化。據(jù)CB Insights統(tǒng)計(jì),今年有至少三分之一的風(fēng)險(xiǎn)投資都投給了AI板塊初創(chuàng)公司。比如最近兩個(gè)月內(nèi),OpenAI以1650億美元的估值籌集了65億美元,馬斯克的xAI公司以400億美元估值籌集了60億美元。投資容易,變現(xiàn)難,亦成為當(dāng)下AI風(fēng)險(xiǎn)投資者的窘境。
鈦媒體此前分析Databricks的成功離不開(kāi)三點(diǎn)優(yōu)勢(shì):一是產(chǎn)品理念上始終堅(jiān)持的統(tǒng)一架構(gòu)模式,面向數(shù)據(jù)科學(xué)、人工智能領(lǐng)域的不斷探索;二是在開(kāi)源(COSS)運(yùn)營(yíng)手段上的推動(dòng)和北美環(huán)境的獨(dú)特優(yōu)勢(shì),有龐大且忠誠(chéng)的開(kāi)發(fā)者社區(qū);三是基于按訂閱制付費(fèi)的SaaS模式,且面向多云環(huán)境提供服務(wù)。
2023年,Databricks開(kāi)源了其首個(gè)大語(yǔ)言模型dolly 2.0,并為后續(xù)推出大模型做了一系列鋪墊。同年,Databricks以以13億美元收購(gòu)大模型初創(chuàng)公司MosaicML。通過(guò)對(duì)MosaicML的技術(shù)和團(tuán)隊(duì)整合,MosaicML被全面整合進(jìn)Lakehouse產(chǎn)品中。
今年3月,Databricks發(fā)布了一款132B混合專家模型DBRX,該大模型由內(nèi)部Mosaic Research團(tuán)隊(duì)開(kāi)發(fā),其人員一部分就來(lái)自于此前對(duì)MosaicML團(tuán)隊(duì)的收編而來(lái)。據(jù)Databricks透露,目前DBRX性能在多個(gè)標(biāo)準(zhǔn)基準(zhǔn)測(cè)試中超過(guò)了OpenAI的GPT-3.5。DBRX完全基于Databricks平臺(tái)開(kāi)發(fā),利用Unity Catalog等工具進(jìn)行數(shù)據(jù)治理、Apache Spark進(jìn)行數(shù)據(jù)處理以及Mosaic AI Training進(jìn)行模型訓(xùn)練和微調(diào)。正是這種深度集成帶來(lái)解決方案的新價(jià)值,客戶可以通過(guò)API訪問(wèn)DBRX,從而無(wú)縫集成到現(xiàn)有工作流程和應(yīng)用程序中。
Databricks指出,DBRX可讓客戶以更低的成本構(gòu)建、訓(xùn)練和定制模型,而無(wú)需依賴一小部分閉源模型,如ChatGPT和GPT-3.5,后者基于私有模型權(quán)重和源代碼,而開(kāi)源模型如LlaMa、Dolly和DBRX則具有公開(kāi)可用的源代碼和模型權(quán)重。為此,企業(yè)開(kāi)發(fā)人員可以查看模型架構(gòu)和訓(xùn)練數(shù)據(jù)并定制源代碼,或在Databricks提供的檢查點(diǎn)上繼續(xù)訓(xùn)練,這種靈活性使組織能夠根據(jù)企業(yè)特定需求定制模型的功能。
DBRX已集成到Databricks的生成式AI應(yīng)用中,并且已經(jīng)顯示出良好的效果。例如在SQL查詢生成和優(yōu)化等應(yīng)用中,DBRX顯示出了比其他先進(jìn)模型包括GPT 3.5、Claude 3、Llama 2和Grok-1等更有競(jìng)爭(zhēng)力的性能表現(xiàn)。
如果說(shuō)Databricks借了生成式AI的東風(fēng)不假。但是多年以來(lái)Databricks在AI和數(shù)據(jù)科學(xué)領(lǐng)域也在持續(xù)投入和布局。在開(kāi)源界多款項(xiàng)目霸榜開(kāi)源榜單,包括分布式計(jì)算框架Apache Spark,數(shù)據(jù)湖表格式Delta Lake。
Databricks的產(chǎn)品目前包括三大板塊:數(shù)據(jù)湖倉(cāng)、數(shù)據(jù)工具和AI工具。
![]()
其核心產(chǎn)品Lakehouse(湖倉(cāng)一體),就是基于Apache Spark、Delta Lake、MLflow等開(kāi)源組件構(gòu)建而來(lái)。其中,數(shù)據(jù)湖表格式Delta Lake,側(cè)重于為Apache Spark和其他大數(shù)據(jù)引擎提供可伸縮的ACID事務(wù),讓用戶可以基于HDFS和云存儲(chǔ)構(gòu)建數(shù)據(jù)湖;開(kāi)發(fā)和維護(hù)AI生命周期管理開(kāi)源平臺(tái)MLflow,用于進(jìn)行機(jī)器學(xué)習(xí)模型的部署和訓(xùn)練;數(shù)據(jù)分析工具Koalas,可讓使用Pandas進(jìn)行編程的數(shù)據(jù)科學(xué)家直接切換到Spark上,用于大型分布式集群應(yīng)用;Unity Catalog,用于不同企業(yè)間數(shù)據(jù)和AI負(fù)載存放的可互操目錄,用于管理和安全訪問(wèn)存儲(chǔ)在Delta中的數(shù)據(jù)。
今年6月,Databricks宣布高價(jià)收購(gòu)與其在表格式領(lǐng)域一直存在競(jìng)爭(zhēng)的初創(chuàng)公司Tabular。從后續(xù)市場(chǎng)的一系列動(dòng)作來(lái)看,此次收購(gòu)顯然對(duì)Snowflake和Confluent等競(jìng)爭(zhēng)對(duì)手帶來(lái)了新的壓力。
Databricks的Delta Lake和Apache Iceberg、Apache Hudi被認(rèn)為新一代數(shù)據(jù)湖在開(kāi)源表格式應(yīng)用上的“三劍客”。三大開(kāi)源項(xiàng)目各自有其發(fā)展的歷史背景及優(yōu)勢(shì)特征。此前,鈦媒體APP獲取的一份2022年3月份的有關(guān)GitHub存儲(chǔ)庫(kù)的貢獻(xiàn)數(shù)據(jù)顯示,目前Netflix、Apple、AWS等主要基于Apache Iceberg,國(guó)內(nèi)如阿里巴巴、字節(jié)跳動(dòng)、螞蟻、中移蘇研、華為、騰訊等企業(yè)則主要熱衷于Hudi,而對(duì)Delta Lake的貢獻(xiàn)維護(hù),81.3%都來(lái)自于Databricks。
2021年,Iceberg和Hudi的主要?jiǎng)?chuàng)始人相繼創(chuàng)立了其商業(yè)化初創(chuàng)公司,即Tabular和Onehouse。收購(gòu)Tabular,將意味著Databricks將間接控制Iceberg,而Snowflake、AWS、Netflix、蘋(píng)果等公司也是Iceberg的主要貢獻(xiàn)者,此舉亦有助于強(qiáng)化其在開(kāi)源數(shù)據(jù)湖存儲(chǔ)標(biāo)準(zhǔn)的地位。過(guò)去,數(shù)據(jù)湖存儲(chǔ)的弱點(diǎn)是治理,開(kāi)源項(xiàng)目多導(dǎo)致治理復(fù)雜,如果能從技術(shù)層面實(shí)現(xiàn)統(tǒng)一,也將極大降低用戶使用門(mén)檻。
同時(shí),Iceberg往往用于AI應(yīng)用數(shù)據(jù)管理,其重要性日益凸顯??梢詤f(xié)調(diào)跨不同云數(shù)據(jù)存儲(chǔ)服務(wù)(例如Amazon S3、Google Cloud Storage和Microsoft Azure Blob Storage)的數(shù)據(jù)移動(dòng),從而建立數(shù)據(jù)連接,并且能夠?qū)?shù)據(jù)與Apache Spark、Flink和Trino等開(kāi)源分析引擎連接起來(lái)。
Snowflake近年以來(lái)其實(shí)也經(jīng)歷了一段艱難時(shí)刻,今年3月前首席執(zhí)行官Frank Slootman的辭職退休,其市值曾一夜之間縮水近200億美元。Snowflake需要在生成式AI領(lǐng)域快速找準(zhǔn)定位。
幾乎亦步亦趨的是,Snowflake今年4月同樣發(fā)布了其開(kāi)源大模型Arctic,以4800億參數(shù)MoE架構(gòu)試圖擊敗Databricks的DBRX。
而就在Databricks收購(gòu)Tabular之后,Snowflake宣布開(kāi)源其元數(shù)據(jù)目錄Polaris Catalog,專為Iceberg而設(shè)計(jì),用于支持Iceberg基于REST的API,解決元數(shù)據(jù)目錄的潛在鎖定問(wèn)題。該項(xiàng)目Snowflake客戶以Iceberg格式處理自己存儲(chǔ)中的數(shù)據(jù),同時(shí)仍然受益于Snowflake的易用性,性能和統(tǒng)一治理。不過(guò)其內(nèi)置治理解決方案Horizon仍是閉源的,包括基于角色的訪問(wèn)控制和合規(guī)性等高價(jià)值治理功能。
為應(yīng)對(duì)這一市場(chǎng)策略的轉(zhuǎn)變,隨即Databricks宣布開(kāi)源了Unity Catalog,包括開(kāi)源整個(gè)元數(shù)據(jù)目錄。
結(jié)合ETR截至今年7月對(duì)1800名企業(yè)用戶的調(diào)研顯示,60%使用Databricks的用戶同樣也會(huì)安裝Snowflake的軟件,40%使用Snowflake的用戶也會(huì)安裝Databricks的軟件。也就是說(shuō),對(duì)于客戶而言,他們往往會(huì)用上多款大數(shù)據(jù)工具,無(wú)論是Snowflake還是Databricks均有各自使用場(chǎng)景及優(yōu)勢(shì)。
不久前,《新經(jīng)濟(jì)學(xué)人》影響力研究發(fā)現(xiàn),僅22%的企業(yè)認(rèn)為其IT基礎(chǔ)設(shè)施已為AI做好準(zhǔn)備。45%的數(shù)據(jù)科學(xué)家在構(gòu)建企業(yè)大模型應(yīng)用時(shí)并不具備企業(yè)專屬數(shù)據(jù),這導(dǎo)致模型缺乏質(zhì)量、治理和評(píng)估能力。同時(shí),40%的受訪者承認(rèn)其組織的數(shù)據(jù)和AI治理不足,一半的數(shù)據(jù)工程師表示,治理比其他任何事情都更耗時(shí),許多從業(yè)者和高管指出,統(tǒng)一治理是解鎖企業(yè)AI的關(guān)鍵。
無(wú)論如何,這都表明了現(xiàn)如今技術(shù)迭代的速度之快,而隨著人工智能的發(fā)展,這種變化速度可能會(huì)更快。有一件事情是值得肯定的,數(shù)據(jù)治理比以往任何時(shí)候都更加重要。
嗅到AI市場(chǎng)的增長(zhǎng)空間,不滿足于單純做大數(shù)據(jù)服務(wù)的Databricks,也正努力轉(zhuǎn)型成為一家人工智能公司。這將為日后上市維持市值增長(zhǎng)提供更多保障;不過(guò),在拓展更大市場(chǎng)過(guò)程中,Databricks從業(yè)務(wù)模式到技術(shù)模式也還有一些挑戰(zhàn)。
一位從事數(shù)據(jù)存儲(chǔ)和分析的資深技術(shù)專家此前與鈦媒體交流時(shí)對(duì)湖倉(cāng)市場(chǎng)的判斷是:“Databricks只做云,沒(méi)有任何KA大客戶經(jīng)驗(yàn),從中國(guó)現(xiàn)階段而言,使用湖倉(cāng)產(chǎn)品的客戶首先肯定不是中小客戶,后者還仍不具備該應(yīng)用方式,如足夠多的數(shù)據(jù)、多形態(tài)的數(shù)據(jù)、需要各種數(shù)據(jù)、需要大量分析。二是中國(guó)企業(yè)客戶,除了需要湖倉(cāng)產(chǎn)品,還需要廠商為其梳理整個(gè)數(shù)據(jù)治理過(guò)程。技術(shù)上沒(méi)那么簡(jiǎn)單,數(shù)據(jù)安全性也同樣需要關(guān)注。”(本文首發(fā)于鈦媒體APP,作者 | 楊麗,編輯 | 蓋虹達(dá))
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論