當(dāng)大模型的演進(jìn)速度開(kāi)始變慢,也就意味著眾多與之相關(guān)聯(lián)的新技術(shù)棧到了產(chǎn)品化的階段,而不是小修小補(bǔ)式的試驗(yàn)。
行業(yè)內(nèi)外都關(guān)注到了大模型的計(jì)算需求,但是存儲(chǔ)需求沒(méi)有得到應(yīng)有的重視,目前傳統(tǒng)陣列在GPU集群前已經(jīng)淪為性能瓶頸和擴(kuò)展性瓶頸,行業(yè)共同的認(rèn)知是,這一次存儲(chǔ)行業(yè)面臨的是不是漸進(jìn)式升級(jí),而是架構(gòu)級(jí)的徹底重構(gòu)。
從大模型訓(xùn)練對(duì)帶寬與并發(fā)的極限壓榨,到推理階段多模態(tài)數(shù)據(jù)的孤島困局,從企業(yè)不愿示人的核心數(shù)據(jù)安全焦慮,到舊架構(gòu)在GPU+全閃存時(shí)代下的“硬件不適配癥”,傳統(tǒng)存儲(chǔ)的短板正在被AI放大。
在海外市場(chǎng),AI存儲(chǔ)賽道也有獨(dú)角獸估值狂飆,以“統(tǒng)一存儲(chǔ)層+AI原生接口”的打法已得到市場(chǎng)認(rèn)可,中國(guó)存儲(chǔ)廠商ExponTech也發(fā)布了自研的WADP平臺(tái)主打一套架構(gòu)統(tǒng)管生產(chǎn)與AI數(shù)據(jù)流。
ExponTech創(chuàng)始人曹羽中表示,在傳統(tǒng)信息化時(shí)代,雖然出現(xiàn)了諸多存儲(chǔ)新技術(shù),但這些技術(shù)都未從根本上改變市場(chǎng)格局,傳統(tǒng)存儲(chǔ)列依舊是主導(dǎo)方案,企業(yè)的投資也仍然集中在這個(gè)領(lǐng)域。不過(guò)隨著 AI 時(shí)代的到來(lái),存儲(chǔ)領(lǐng)域?qū)?huì)迎來(lái)重大變革,類似計(jì)算領(lǐng)域從 CPU 中心向 GPU 中心的轉(zhuǎn)型。
具體來(lái)說(shuō),存儲(chǔ)需求會(huì)呈現(xiàn)出以下四大核心變化。第一,由大模型訓(xùn)練驅(qū)動(dòng)的超高性能需求,大模型訓(xùn)練對(duì)存儲(chǔ)系統(tǒng)提出了極致要求,它需要存儲(chǔ)系統(tǒng)提供超高帶寬與高并發(fā)能力,以此來(lái)支撐多卡并行訓(xùn)練。只有存儲(chǔ)性能充分釋放,才能夠確保 GPU 卡利用率達(dá)到最大化。
第二,推理時(shí)代的效率優(yōu)化。未來(lái)全球具備大模型訓(xùn)練能力的企業(yè)會(huì)極為有限,絕大多數(shù)企業(yè)會(huì)通過(guò)應(yīng)用大模型來(lái)實(shí)現(xiàn)業(yè)務(wù)革新,也就是進(jìn)入推理階段。這個(gè)階段的核心在于優(yōu)化推理效率,其本質(zhì)是解決計(jì)算資源與存儲(chǔ)資源的協(xié)同問(wèn)題。
一方面是多模態(tài)數(shù)據(jù)的統(tǒng)一管理,當(dāng)前企業(yè)的數(shù)據(jù)大多呈碎片化狀態(tài),是因?yàn)閭鹘y(tǒng)存儲(chǔ)設(shè)計(jì)遵循“業(yè)務(wù)系統(tǒng)導(dǎo)向”原則。而在 AI 時(shí)代,需要構(gòu)建統(tǒng)一存儲(chǔ)底座,實(shí)現(xiàn)全量數(shù)據(jù)的融合管理與高效調(diào)用,避免進(jìn)行跨孤島數(shù)據(jù)遷移。
另一方面是記憶持久化與以存代算。傳統(tǒng)的推理采用暴力計(jì)算模式,每次處理提示詞時(shí)都需要重新計(jì)算,這會(huì)導(dǎo)致算力浪費(fèi),通過(guò)存儲(chǔ)系統(tǒng)緩存中間結(jié)果可以減少重復(fù)運(yùn)算。此外,還需要增強(qiáng) AI 模型的記憶能力,當(dāng)前無(wú)狀態(tài)設(shè)計(jì)僅能保留短暫會(huì)話記憶,而利用存儲(chǔ)技術(shù)可以增強(qiáng)模型長(zhǎng)期記憶功能,并且讓模型結(jié)合企業(yè)數(shù)據(jù)來(lái)解決業(yè)務(wù)問(wèn)題。
第三,數(shù)據(jù)可控與安全。沒(méi)有企業(yè)愿意把核心數(shù)據(jù)喂給公共大模型,而且受限于數(shù)據(jù)隱私要求,這些數(shù)據(jù)也難以直接遷移至公有云。所以,構(gòu)建數(shù)據(jù)中心級(jí)統(tǒng)一數(shù)據(jù)層并實(shí)施細(xì)粒度權(quán)限管控就成為了必然的選擇。
第四,傳統(tǒng)架構(gòu)的局限性。傳統(tǒng)存儲(chǔ)陣列存在根本性的缺陷,一是孤島式設(shè)計(jì),它針對(duì)不同業(yè)務(wù)特征定制獨(dú)立的存儲(chǔ)系統(tǒng)及接口;二是存儲(chǔ)軟件架構(gòu)老化對(duì)新一代硬件適配不足,它難以有效支持 GPU + 全閃存 + RDMA 網(wǎng)絡(luò)等新硬件環(huán)境;三是漸進(jìn)式優(yōu)化局限,有廠商通過(guò)在傳統(tǒng)存儲(chǔ)上新增加功能和接口來(lái)應(yīng)對(duì)AI場(chǎng)景需求,這屬于打補(bǔ)丁式的局部?jī)?yōu)化,而不是系統(tǒng)性解決方案。
曹羽中表示,理想的 AI 時(shí)代存儲(chǔ)系統(tǒng)應(yīng)該具備以下特點(diǎn):
如前文所述,AI在存儲(chǔ)層面的需求商業(yè)化前景已經(jīng)被印證——美國(guó)一家AI Infra企業(yè),成立僅9年估值超過(guò)300億美金,ARR收入約10億美金,F(xiàn)ortune 100客戶已覆蓋25%。其優(yōu)勢(shì)是統(tǒng)一且面向AI時(shí)代的存儲(chǔ)設(shè)計(jì),已經(jīng)建立了成熟的解決方案。
扁平化架構(gòu)采用單一統(tǒng)一存儲(chǔ)層,通過(guò)多接口適配不同業(yè)務(wù)需求,避免了分層存儲(chǔ)和多套不同類型的存儲(chǔ)的復(fù)雜管理;一站式解決方案,無(wú)需跨系統(tǒng)遷移數(shù)據(jù);AI 場(chǎng)景專用接口,支持文件/對(duì)象/塊存儲(chǔ)外的 KV、向量等新型接口;數(shù)據(jù)閉環(huán),在統(tǒng)一平臺(tái)內(nèi)完成從訓(xùn)練到推理的全流程。
海外大模型和AI Infra在前,中國(guó)大模型和AI Infra緊隨其后,技術(shù)發(fā)展脈絡(luò)天然具有相似性。近日,ExponTech也正式發(fā)布了新一代統(tǒng)一AI數(shù)據(jù)平臺(tái)WADP(WiDE AI Data Platform)。WADP旨在解決企業(yè)AI應(yīng)用的核心痛點(diǎn)——高效融合存儲(chǔ)與管理海量多源數(shù)據(jù),實(shí)現(xiàn)AI算力與數(shù)據(jù)存力的無(wú)縫協(xié)同。
ExponTech WADP基于全自研的分布式存儲(chǔ)引擎與分布式KV元數(shù)據(jù)引擎構(gòu)建,運(yùn)行于標(biāo)準(zhǔn)服務(wù)器硬件,也可以廣泛適配各類通用硬件。它首次將企業(yè)核心生產(chǎn)系統(tǒng)(如關(guān)鍵數(shù)據(jù)庫(kù))與AI數(shù)據(jù)管道(訓(xùn)練、推理、向量檢索等)統(tǒng)一承載于同一平臺(tái),實(shí)現(xiàn)對(duì)傳統(tǒng)存儲(chǔ)陣列、文件系統(tǒng)及大數(shù)據(jù)存儲(chǔ)的現(xiàn)代化融合替代,為企業(yè)構(gòu)建面向未來(lái)的AI數(shù)據(jù)基礎(chǔ)設(shè)施。
目前,基于統(tǒng)一存儲(chǔ)架構(gòu)的AI數(shù)據(jù)基礎(chǔ)設(shè)施這一趨勢(shì)已在美國(guó)市場(chǎng)得到了廣泛驗(yàn)證,華瑞指數(shù)云WADP的技術(shù)路徑和產(chǎn)品實(shí)現(xiàn)和國(guó)際市場(chǎng)AI 基礎(chǔ)設(shè)施的技術(shù)趨勢(shì)不謀而合。
據(jù)悉,ExponTech堅(jiān)持核心代碼全棧自研,不依賴國(guó)外開(kāi)源技術(shù),其新一代分布式存儲(chǔ)引擎與元數(shù)據(jù)引擎成功突破萬(wàn)億級(jí)文件管理、千萬(wàn)級(jí)IOPS與微秒級(jí)延遲等技術(shù)高峰,其WADP存儲(chǔ)軟件2023年在面向企業(yè)核心業(yè)務(wù)場(chǎng)景,被譽(yù)為“存儲(chǔ)奧林匹克競(jìng)賽”的SPC-1評(píng)測(cè)中打破世界紀(jì)錄,實(shí)現(xiàn)分布式存儲(chǔ)軟件打破高端存儲(chǔ)陣列在企業(yè)核心業(yè)務(wù)場(chǎng)景壟斷地位的創(chuàng)舉;在2025年,WADP在面向AI場(chǎng)景的MLPerf Storage v2.0評(píng)測(cè)中取得優(yōu)異成果,充分驗(yàn)證了使用同一套分布式存儲(chǔ)軟件構(gòu)建Universal Storage的技術(shù)可行性,為應(yīng)對(duì)AI時(shí)代海量數(shù)據(jù)挑戰(zhàn)奠定了基礎(chǔ)。(本文首發(fā)于鈦媒體APP,作者 | 張帥,編輯 | 蓋虹達(dá))
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論