GMI Cloud亞太區(qū)總裁King Cui
“與互聯(lián)網(wǎng)技術(shù)和移動互聯(lián)網(wǎng)技術(shù)相比,如今的GPT4 / ChatGPT影響的用戶還非常有限,AI技術(shù)還遠(yuǎn)遠(yuǎn)未到‘技術(shù)普惠點’,我們正處在‘1995年的互聯(lián)網(wǎng)’時代。”
12月7日,GMI Cloud亞太區(qū)總裁King Cui出席參加了2024T-EDGE創(chuàng)新大會暨鈦媒體財經(jīng)年會的平行論壇EDGE Founders Demo Day,在現(xiàn)場分享了他們在AI出海大潮中的趨勢洞察,并介紹了GMI Cloud在GPU云平臺構(gòu)建方面的探索。
以下為King 演講精華:
King Cui將云計算的發(fā)展分為三個階段,每個階段都標(biāo)志著技術(shù)和社會的一次重大飛躍。
![]()
AI推動了云計算的發(fā)展。然而,在這個AI時代,AI企業(yè)在全球的發(fā)展將是一個確定性趨勢,未來三年將進(jìn)入高速發(fā)展階段。AI技術(shù)的發(fā)展速度和對人類生活的影響日益增強(qiáng),盡管AI 技術(shù)的發(fā)展處于早期階段,但已經(jīng)展現(xiàn)出巨大的潛力和機(jī)會。截止至2024年8月,全球AI WEB產(chǎn)品總數(shù)共1717個,其中中國AI WEB產(chǎn)品數(shù)量280個,出海AI WEB 產(chǎn)品數(shù)量95個。也就是說,有34%的AI產(chǎn)品從一開始的定位就是全球化。
中國 AI 企業(yè)在海外市場的布局正在加速。然而,機(jī)會與挑戰(zhàn)并存,在“AI三要素”(數(shù)據(jù)、算法和算力)中,算力——因其高昂的硬件成本和穩(wěn)定運(yùn)維的高難度,都是一個初創(chuàng)AI企業(yè)沒有能力去自己承擔(dān)的核心生產(chǎn)資料。
目前在AI出海過程中,以算力為中心的生產(chǎn)矛盾逐漸增多。具體矛盾主要表現(xiàn)在以下幾個方面:
1、國內(nèi)高端算力資源不足,導(dǎo)致業(yè)務(wù)進(jìn)展緩慢;
2、AI Infra的建設(shè)經(jīng)驗不足,軟件和硬件基礎(chǔ)設(shè)施構(gòu)建需消耗大量時間及經(jīng)濟(jì)成本;
3、供應(yīng)商(機(jī)房、能源、設(shè)備等)可靠性、穩(wěn)定性難保障,選型困難。
而所有上述問題產(chǎn)生的直接結(jié)果就是——AI Infra穩(wěn)定性不足,導(dǎo)致公司承擔(dān)了更多的經(jīng)濟(jì)以及時間成本。
以Meta為例, 其披露的報告顯示,為期54天的預(yù)訓(xùn)練階段中,總共出現(xiàn)了466次工作中斷,其中47次是計劃內(nèi)的自動維護(hù),419 次是意外的,且大部分都來自硬件問題,GPU又是最多的,占了其中的 58.7%。
然而,維持AI Infra層的穩(wěn)定性并不是一件簡單的事情。所以,這就意味著我們需要在組網(wǎng)、硬件、軟件、工程化等方面做大量工作,以減少GPU的掉卡率,保持任務(wù)的連續(xù)性,最大化GPU的使用效率!
很多AI企業(yè)在選擇Infra團(tuán)隊的時候,優(yōu)先考慮的往往是單價最低的GPU。但其實,GPU集群的穩(wěn)定性才是更為重要的考慮因素。穩(wěn)定性越高,模型訓(xùn)練、研發(fā)整體成本才會下降。
所以,選擇具有軟件加持和極強(qiáng)運(yùn)營能力的云平臺,一定比單純選擇價格低的GPU硬件更具性價比。
作為一個全棧AI應(yīng)用平臺,GMI Cloud在GPU硬件架構(gòu)層和IaaS層擁有完全自研和掌控的硬件和云平臺。在Iaas層GMI Cloud會基于硬件構(gòu)建自己的Cloud云平臺,把計算、存儲、網(wǎng)絡(luò)這些能力通過API的方式更好地提供給Paas層的客戶。而在硬件層GMI Cloud會提供高端的GPU服務(wù)器,包括高速存儲和高速網(wǎng)絡(luò)能力。
![]()
GMI Cloud致力于支持AI應(yīng)用開發(fā)者,提供高穩(wěn)定性的GPU集群,以提高AI應(yīng)用的研發(fā)效率和產(chǎn)品競爭力。
在Cluster Engine層面,GMI Cloud的Cluster Engine是一個端到端的全棧AI應(yīng)用平臺,從底層GPU硬件架構(gòu)層到應(yīng)用層,提供統(tǒng)一的資源管理和調(diào)度。GMI Cloud 通過Kubernetes和HPC Slurm開展工作。GMI Cloud將Slurm應(yīng)用到容器化中,實現(xiàn)硬件資源(尤其是GPU資源)像任務(wù)一樣靈活調(diào)度和分配,并由云集群引擎統(tǒng)一管理,滿足AI和HPC的資源需求。
![]()
除了軟件能力,“驗證體系”也是保證用戶體驗關(guān)鍵因素之一。GMI Cloud具有獨特的雙驗證體系。作為NCP(Nvidia Cloud Partner),GMI Cloud的集群設(shè)計要首先通過經(jīng)過Nvidia認(rèn)證,從一開始構(gòu)建集群的時候,構(gòu)建方案就需要Nvidia review。GMI的集群構(gòu)建完畢之后,英偉達(dá)會進(jìn)行再次的check,形成一個雙重的Nvidia認(rèn)證體系。另一方面,GMI Cloud在給客戶構(gòu)建私有集群之前,自己也會對于整個硬件和系統(tǒng)做測試。包括單機(jī)和跨機(jī)的這種分布式模型的訓(xùn)練,GMI Cloud會做一些壓力和功能測試。確保這個集群交給客戶是完全可以運(yùn)行的。在這套雙驗證體系的加持之下,GMI Cloud可以保證交付給客戶的集群是一個完全可用的狀態(tài)。
![]()
云服務(wù)不可能說永遠(yuǎn)不出問題,但是GMI Cloud會關(guān)注一旦出現(xiàn)問題,響應(yīng)速度是否足夠快,對問題的定位是否足夠快,集群的恢復(fù)是否足夠快。
GMI Cloud與GPU供應(yīng)商、IDC合作伙伴間共筑了三角合作的關(guān)系,為客戶提供更高水平的服務(wù)、更貼近源頭的問題追溯。GMI Cloud提供24x7x365的全年全天候的監(jiān)控和支持服務(wù)。一旦出現(xiàn)問題,GMI會以最快速度恢復(fù)我們的集群,減少故障時間,確保系統(tǒng)穩(wěn)定性。
![]()
GMI Cloud目前為AI Infra選型提供兩種方案,第一種是PRIVATE CLOUD,如果企業(yè)需要長期占有一個獨立集群,GMI Cloud會推薦這種私有的PRIVATE CLOUD,GMI Cloud會幫助完成模型從底層到上層的全部優(yōu)化,讓企業(yè)“拎包入住”。如果只是臨時使用一兩張卡、用幾天,那就推薦用ON-DEMAND來節(jié)約成本。
![]()
由Google X 的AI專家與硅谷精英共同參與創(chuàng)立的GMI Cloud是一家領(lǐng)先的AI Native Cloud 服務(wù)商,擁有遍布全球的數(shù)據(jù)中心網(wǎng)絡(luò),為企業(yè)AI應(yīng)用提供最新、最優(yōu)的GPU資源,為全球新創(chuàng)公司、研究機(jī)構(gòu)和大型企業(yè)提供穩(wěn)定安全、高效經(jīng)濟(jì)的AI云服務(wù)解決方案。
GMI Cloud憑借高穩(wěn)定性的技術(shù)架構(gòu)、強(qiáng)大的GPU供應(yīng)鏈以及令人矚目的GPU產(chǎn)品陣容(如擁有AI 強(qiáng)大算力的H100;能夠精準(zhǔn)平衡AI 成本與效率的H200;以及未來即將上線的具有卓越性能的GB200等),確保企業(yè)客戶在高度數(shù)據(jù)安全與計算效能的基礎(chǔ)上,高效低本地完成 AI 落地。
據(jù)悉,GMI Cloud在10月完成了A 輪8200 萬美元融資,由Headline Asia領(lǐng)投,同時獲得亞太區(qū)智能能源解決方案提供商Banpu (BANPU.BK)以及全球科技大廠緯創(chuàng)資通(3231.TW)的戰(zhàn)略投資。這筆資金將用于科羅拉多州數(shù)據(jù)中心的建設(shè),以強(qiáng)化GMI Cloud 在全球AI算力服務(wù)方面的布局。
在接下來的一年內(nèi),GMI Cloud的主要發(fā)展目標(biāo)是繼續(xù)提升GPU云服務(wù)的性能和穩(wěn)定性,除了Cluster Engine以外,還將重點發(fā)展Inference Engine,解決AI推理相關(guān)需求。(本文首發(fā)于鈦媒體APP,作者|郭虹妘 ,編輯|陶天宇)
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機(jī)號后發(fā)表評論