圖片來源:視覺中國

“這是一個比互聯(lián)網(wǎng)時代還大10倍的機會。”

在ChatGPT出現(xiàn)以后,科技界和各路風險投資機構(gòu)普遍認為,真正的人工智能有了可以實現(xiàn)的路徑,ChatGPT的推出是AI的“iPhone時刻”。2022年11月30日,OpenAI發(fā)布了聊天機器人ChatGPT。兩個月之后,ChatGPT的用戶量突破了1 億。在ChatGPT之前,TikTok 達到1 億用戶用了9 個月,微信用了14個月,Instagram 用了2 年半,Twitter則用了5 年。瑞銀分析師在報告中感嘆道,“在互聯(lián)網(wǎng)過去20 年的發(fā)展中,我們找不到哪款消費級互聯(lián)網(wǎng)應用的用戶增長速度比ChatGPT 更快。”

不過,應用層面的火爆只是這次AI浪潮中的一個頭浪,ChatGPT背后的大模型技術(shù),讓人們看到了更多的可能性。

所謂大模型,是指具有非常大參數(shù)數(shù)量的人工神經(jīng)網(wǎng)絡模型。公開數(shù)據(jù)顯示,到2020年時ChatGPT所使用的預訓練大大語言模型參數(shù)GPT—3,達到了1750億。

“當參數(shù)數(shù)量達到700億時,人工智能就發(fā)展出‘涌現(xiàn)’的能力,意味著出現(xiàn)了某種程度的智能。”曾經(jīng)在英偉達任職的石浩對鈦媒體App表示,目前學術(shù)界解釋不了“涌現(xiàn)”的原因,但ChatGPT的大模型訓練是現(xiàn)在行業(yè)可以參考的唯一方向。“國內(nèi)大模型的眾多參與者,也只能按照這個路線‘依葫蘆畫瓢’,先把模型理解了,才能一步步進行調(diào)優(yōu)。”

而伴隨著巨大參數(shù)數(shù)量的大模型參與到人工智能的研究中,算力成為了成敗的關(guān)鍵,GPU則是決定算力大小的核心部件。目前的算力市場,英偉達的產(chǎn)品幾乎是無可代替的存在。當越來越多的國產(chǎn)大模型進入到追趕GPT的隊伍中,國產(chǎn)GPU也迎來了行業(yè)的機遇和挑戰(zhàn)。

英偉達押對了籌碼

GPU為何能成為大模型算力基礎設施中最重要的一環(huán),還要追溯到十多年一次試驗的巧合。

根據(jù)財新的報道,2012年,多倫多大學的研究員聯(lián)合同學llya Sutskever與導師Geoffreytinton設計了一個深度卷積神經(jīng)網(wǎng)絡(CNN)。當時,訓練這一神經(jīng)網(wǎng)絡需要龐大的CPU資源,甚至花上幾個月時間。該團隊最后使用了兩張當時英偉達為大型PC游戲準備的GPU GTX580,結(jié)果訓練不到一周便完成了。

事實上,巧合的發(fā)生來源于GPU特有的單元架構(gòu)。

CPU 作為核心控制計算單元,高速緩沖存儲器(Cache)、控制單元(Control)在 CPU 硬件架構(gòu)設計中所占比例較大,主要為實現(xiàn)低延遲和處理單位內(nèi)核性能要求較高的工作而存在,而計算單元(ALU)所占比例較小,這使得 CPU 的大規(guī)模并行計算表現(xiàn)不佳。

而GPU 架構(gòu)內(nèi)主要為計算單元,采用極簡的流水線進行設計,適合處理高度線程化、相對簡單的并行計算。隨著 GPU 可編程性的不斷提高,去掉或減弱 GPU 的圖形顯示部分能力,全部投入通用計算的 GPGPU(通用計算處理器)也應運而生。

llya Sutskever后來成為了OpenAI的聯(lián)合創(chuàng)始人和首席科學家,他們所設計的網(wǎng)絡被稱為AlexNet。llya Sutskever稱,“我一直深信訓練數(shù)據(jù)集越大越好,成立OpenAI的目的之一,也是為了探究如何利用數(shù)據(jù)的規(guī)模。”此后,隨著ChatGPT的訓練模型的不斷增長,GPU成為大模型算力的重要供給工具。

不過,在巧合之外,英偉達的GPU之所以能夠在如今的人工智能領域,實現(xiàn)一家獨大,主要是之前選對了方向。

石浩對鈦媒體App表示,人工智能最早是由谷歌的人工智能深度學習系統(tǒng)——Tensorflow在2015年開創(chuàng)的。緊接著,英偉達將CUDA的生態(tài)遷移到Tensorflow上,與其兼容建立了人工智能早期的軟件生態(tài)。但是由于谷歌的TPU(張量處理單元,計算芯片的一種)不對外開放,導致英偉達的GPU和CUDA軟件生態(tài)越來越被行業(yè)認可。

與此同時,2015年前后PC游戲開始進入下行態(tài)勢,英偉達選擇聚焦人工智能領域,旗下負責游戲開發(fā)的工程師,也紛紛轉(zhuǎn)型到人工智能領域的開放工作中。

“從2015年-2022年,英偉達的工程師積累了大量的人工智能試驗方案,一些方案與英偉達的GPU是天生適配的。”石浩稱,這對于初入人工智能的用戶是非常好的一個方式,因為他們只需要買英偉達的產(chǎn)品,下載CUDA軟件生態(tài)中的參考方案就能復現(xiàn)自己想要的結(jié)果。

而對比英偉達,GPU并行計算的另一個主要玩家——AMD則出現(xiàn)了“戰(zhàn)略資源錯配”。

“從2015年到現(xiàn)在,AMD實際看重的是CPU市場,其服務器CPU的市場份額也從最初百分之十幾,上升到現(xiàn)在的40%。”石浩表示,但是隨著半導體先進制程一路從28納米走向12納米,再到3納米,工藝的升級就帶來了計算成本急劇的降低。而CPU內(nèi)部的計算資源大概只有10%,GPU則為90%。在目前這種情況下,受益最大的是GPU,AMD壓錯了方向。

受益于GPU暴漲的需求,英偉達的股價也一路水漲船高,最新市值超過了一萬億美元,是AMD的5倍多。

國產(chǎn)GPU,機會幾何

根據(jù)市場調(diào)研機構(gòu)Trendforce估計,2020年GPT模型處理訓練數(shù)據(jù)所需的A100數(shù)量達到了2萬張左右,未來ChatGPT商業(yè)化所需的A100數(shù)量將達到3萬張以上。Trendforce指出,英偉達

DGX A100是業(yè)界大數(shù)據(jù)分析和A加速的首選,隨著生成式A成為趨勢,英偉達將從中受益。

同時,根據(jù)摩根大通的一份最新報告顯示,英偉達將在今年的人工智能產(chǎn)品市場中獲得 60% 的份額,主要來自于其圖形處理器(GPU)和網(wǎng)絡互連產(chǎn)品。英特爾和 AMD 也出現(xiàn)在了榜單上,但他們的收入百分比可以忽略不計,低于 1%。

而當英偉達成為大模型浪潮中的主要算力提供方時,國內(nèi)諸如百度、阿里、華為這樣的大模型參與者,將面臨一個頗為棘手的境遇。

按照美國商務部2022年關(guān)于高端GPU的出口限令,中國只能向英偉達購買算力一致但傳輸速率只有A100三分之二的特供版芯片A800,且此后算力更強的GPU芯片都會被限制。在此情況下,國內(nèi)的GPU廠商能夠?qū)崿F(xiàn)對英偉達產(chǎn)品的部分替代,成為了行業(yè)共同面臨的問題。

目前,國產(chǎn)GPU 有兩條主要的發(fā)展路線:分別為傳統(tǒng)的 2D/3D 圖形渲染 GPU 和專注高性能計算的 GP GPU。生態(tài)方面,國產(chǎn)廠商大多兼容英偉達 CUDA,融入大生態(tài)進而實現(xiàn)客戶端導入。

其中,寒武紀旗下的思元370系列GPU產(chǎn)品,單精度浮點算力和半精度浮點算力分別為24TFLOPS和96TFLPOS,均超過了英偉達A100,但顯存容量只有24GB,與英偉達最新的H100也還相距甚遠。同樣地,海光信息的海光8100、壁仞科技的壁礪104P等國產(chǎn)GPU也存在著相當?shù)牟罹?,處于持續(xù)追趕中。

“對于算力的需求量主要與模型參數(shù)量相關(guān),大廠現(xiàn)在所做的通用大模型依然只能使用英偉達的產(chǎn)品。但是,垂類行業(yè)的大模型(金融、醫(yī)療等)或者參數(shù)量不像GPT那樣大的模型,國產(chǎn)GPU的算力已經(jīng)非常夠用了。”

電子行業(yè)分析師袁琪對鈦媒體App表示,目前國內(nèi)某短視頻平臺參數(shù)量約為1000億的大模型,就用了寒武紀的產(chǎn)品,做訓練和推理。同時,該模型也使用了英偉達A100。最后,按照短視頻平臺的標準對于兩個產(chǎn)品進行打分。

最終結(jié)果顯示,英偉達A100得分是92分,寒武紀得分為87,這意味兩者之間的表現(xiàn)已經(jīng)相差不大了。

“后續(xù)隨著模型對寒武紀芯片的定向調(diào)優(yōu)完成,這個得分肯定還會往上走。”袁琪稱,目前行業(yè)排名中,性能最強的是寒武紀的思遠590,其次則是華為的昇騰910。這兩者主要對標的是英偉達A100,國內(nèi)大模型的訓練和推理都可以用。

不過,在剛剛結(jié)束的GTC大會上,英偉達推出了基于新一代 GPU芯片H100的服務器,H100則采用的臺積電4nm的先進制程。英偉達創(chuàng)始人黃仁勛稱,該服務器相比A100服務器的速度提升了10倍,并可將大型語言模型的處理成本降低一個數(shù)量級。以GPT-3模型為例,目前使用的A100訓練時長需要5天,而H100僅需19小時。

這意味著,下一代國產(chǎn)GPU能否跟得上英偉達的步伐,依然是一個問題。

算力壓制下,國產(chǎn)大模型的破局之法

“實際上,對于算力和先進制程,大家看的比較籠統(tǒng)。”

袁琪表示,從市場的角度來看,GPU的計算資源、儲存資源和通信資源一般會要求達到一個均衡的狀態(tài),以此來實現(xiàn)GPU更高的利用率。更為先進的制程工藝,雖然能夠提高GPU單位面積的算力,但是隨著大模型完成數(shù)據(jù)訓練走到推理階段,所需的算力將不再像訓練階段那么大,限制模型成本的就不是單位面積的算力,而是單位面積的存儲。

以英偉達A100為例,該產(chǎn)品就有2個版本。這2個版本在計算性能上沒有任何差別,但一個是搭載了40GB的顯存容量,另一個是80GB。其中,80GB的A100,是OpenAI提出了需求才有的。也就是說,大模型后期對于顯存的需求要比計算的需求要高。

按照袁琪的說法,隨著大模型繼續(xù)往前推進,對于計算單元的主要考驗將不是算力,也不是先進制程,而是存儲。

基于上述的技術(shù)路徑,存算一體(Computing in Memory)的解決方案成為了提升大模型算力的另一條可行路徑。

所謂存算一體,就是在存儲器中嵌入計算能力,以新的運算架構(gòu)進行二維和三維矩陣乘法/加法運算。阿里達摩院在2021年發(fā)布采用混合鍵合(Hybrid Bonding)的3D堆疊技術(shù)——將計算芯片和存儲芯片face-to-face地用特定金屬材質(zhì)和工藝進行互聯(lián)。在實際推薦系統(tǒng)應用中,相比傳統(tǒng)CPU計算系統(tǒng),存算一體芯片的性能提升10倍以上,能效提升超過300倍。

另外,存算一體路線下的存內(nèi)計算方案中,存儲單元和計算單元完全融合,沒有獨立的計算單元:直接在存儲器顆粒上嵌入算法,由存儲器芯片內(nèi)部的存儲單元完成計算操作。

以國內(nèi)公司億鑄科技為例,基于CIM框架、RRAM存儲介質(zhì)的研發(fā)“全數(shù)字存算一體”大算力芯片,通過減少數(shù)據(jù)搬運提高運算能效比,同時利用數(shù)字存算一體方法保證運算精度,適用于云端AI推理和邊緣計算。

利用存內(nèi)計算方案,億鑄科技單板卡算力范圍在1000TOPS以上,在較低成本、低功耗、低延退下,能夠借著存算一體芯片,用較小的代價實現(xiàn)高算以上力,突破芯片大廠的生態(tài)壁壘。

存算一體之外,通過軟件調(diào)度來提升硬件處理數(shù)據(jù)的效率,也成為了解決大模型算力不足的另外一種選擇。

潞晨科技的創(chuàng)始人尤洋告訴鈦媒體App,理論上,用多個低端芯片來代替英偉達的一個高端芯片是可能的。比如,假設每一個低端芯片算力是100TFLOPS,四顆芯片簡單疊加就能得到400TFLOPS的算力。但是,在實際工作中,400TFLOPS的算力無法被完全發(fā)揮出來。因為數(shù)據(jù)在四個芯片之間要不斷地進行傳輸和交互,一顆芯片的速度過慢就會拖累整體的效率,這就需要高難度的軟件優(yōu)化。

尤洋曾任新加坡國立大學教授,從事分布式計算、機器學習、高性能計算相關(guān)研究。2021年,尤洋創(chuàng)辦了潞晨科技,試圖通過分布式AI開發(fā)和部署平臺,幫助企業(yè)降低大模型的落地成本,提升訓練、推理效率。創(chuàng)辦的18個月里,這家公司共計拿到了3輪融資。

事實上,根據(jù)一些公開的論文顯示,阿里巴巴、百度和華為已經(jīng)在尋求使用 A100、老一代 Nvidia 芯片 V100 和 P100 以及華為 Ascends (昇騰)芯片的各種組合方案。

在 3 月份的一篇論文中,華為研究人員展示了他們?nèi)绾谓Y(jié)合軟件技術(shù),通過僅使用華為的 Ascend 芯片而不使用 Nvidia 芯片,來訓練其最新一代大型語言模型。研究人員在論文中寫道,盡管存在一些缺點,但 PanGu-Σ(盤古) 的模型在一些中文任務上達到了最先進的性能,包括閱讀理解和語法挑戰(zhàn)。

“所以,在對ChatGPT的追趕上,我認為不用過度悲觀。”袁琪稱,面對差距,騰訊的冷靜態(tài)度是對的。這是一個非常新的東西,它是有顛覆性,但也有很多弊端。“縱觀這么多年的歷史,我們發(fā)現(xiàn)現(xiàn)在還沒有任何一項技術(shù),在短暫的落后之后,是永遠跟不上的。”(應受訪者要求,文中石浩、袁琪為化名,本文首發(fā)鈦媒體App,作者 | 饒翔宇,編輯 | 鐘毅)

轉(zhuǎn)載請注明出處、作者和本文鏈接
聲明:文章內(nèi)容僅供參考、交流、學習、不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

13:45

黑龍江海林樓房坍塌致7死

13:36

滬深兩市成交額突破1.5萬億,較上一日此時放量超1100億

13:33

智象未來與諾亦騰機器人達成戰(zhàn)略合作,探索具身智能數(shù)據(jù)生成

13:24

中國首個萬卡級全棧自主可控智算集群點亮

13:18

市場監(jiān)管總局:推動研究制定《禁止網(wǎng)絡不正當競爭條例》

13:12

市場監(jiān)管總局:健全反不正當競爭工作機制

13:11

市場監(jiān)管總局:著力提升對網(wǎng)絡不正當競爭行為的常態(tài)化監(jiān)管水平

13:11

市場監(jiān)管總局:防治大型企業(yè)等經(jīng)營者拖欠中小企業(yè)賬款

13:10

南下資金凈買入港股超50億港元

13:09

市場監(jiān)管總局:綜合運用各類反不正當競爭措施,著力防治平臺經(jīng)濟、光伏、鋰電池、新能源汽車等重點行業(yè)和領域“內(nèi)卷式”競爭

13:07

高鐵軌交概念午后異動,中鐵工業(yè)等多股漲停

13:03

光纖概念持續(xù)走強,長飛光纖5天3板續(xù)創(chuàng)歷史新高

12:44

恒鋒工具:距離“鋒工轉(zhuǎn)債”停止轉(zhuǎn)股日僅剩半個交易日

12:33

豐田2月份全球銷量為737,134輛,同比下降3.3%

12:24

商務部:將推出優(yōu)化離境退稅2.0版措施,讓境外旅客購物更便利更實惠

12:19

柬埔寨國會通過《反電信網(wǎng)絡詐騙法》草案

12:15

保利發(fā)展59億競得上海中山公園一宅地,成交樓面價77697元/平

12:09

倫鋅日內(nèi)漲超2%,報3177.08美元/噸

12:05

港股午評:恒生指數(shù)跌0.93%,恒生科技指數(shù)跌1.70%

11:58

中國將在長江水下開高鐵,沿江高鐵總投資超5000億元,帶動上下游行業(yè)增加值增長近1.5萬億元

掃描下載App