日韩欧美在线第一页,色欲精品网站五月丁香成人,黄色av一区91超碰网站

在ChatGPT出現(xiàn)以后，科技界和各路風險投資機構(gòu)普遍認為，真正的人工智能有了可以實現(xiàn)的路徑，ChatGPT的推出是AI的“iPhone時刻”。2022年11月30日，OpenAI發(fā)布了聊天機器人ChatGPT。兩個月之后，ChatGPT的用戶量突破了1 億。在ChatGPT之前，TikTok 達到1 億用戶用了9 個月，微信用了14個月，Instagram 用了2 年半，Twitter則用了5 年。瑞銀分析師在報告中感嘆道，“在互聯(lián)網(wǎng)過去20 年的發(fā)展中，我們找不到哪款消費級互聯(lián)網(wǎng)應用的用戶增長速度比ChatGPT 更快。”

不過，應用層面的火爆只是這次AI浪潮中的一個頭浪，ChatGPT背后的大模型技術(shù)，讓人們看到了更多的可能性。

所謂大模型，是指具有非常大參數(shù)數(shù)量的人工神經(jīng)網(wǎng)絡模型。公開數(shù)據(jù)顯示，到2020年時ChatGPT所使用的預訓練大大語言模型參數(shù)GPT—3，達到了1750億。

“當參數(shù)數(shù)量達到700億時，人工智能就發(fā)展出‘涌現(xiàn)’的能力，意味著出現(xiàn)了某種程度的智能。”曾經(jīng)在英偉達任職的石浩對鈦媒體App表示，目前學術(shù)界解釋不了“涌現(xiàn)”的原因，但ChatGPT的大模型訓練是現(xiàn)在行業(yè)可以參考的唯一方向。“國內(nèi)大模型的眾多參與者，也只能按照這個路線‘依葫蘆畫瓢’，先把模型理解了，才能一步步進行調(diào)優(yōu)。”

而伴隨著巨大參數(shù)數(shù)量的大模型參與到人工智能的研究中，算力成為了成敗的關(guān)鍵，GPU則是決定算力大小的核心部件。目前的算力市場，英偉達的產(chǎn)品幾乎是無可代替的存在。當越來越多的國產(chǎn)大模型進入到追趕GPT的隊伍中，國產(chǎn)GPU也迎來了行業(yè)的機遇和挑戰(zhàn)。

英偉達押對了籌碼

GPU為何能成為大模型算力基礎設施中最重要的一環(huán)，還要追溯到十多年一次試驗的巧合。

根據(jù)財新的報道，2012年，多倫多大學的研究員聯(lián)合同學llya Sutskever與導師Geoffreytinton設計了一個深度卷積神經(jīng)網(wǎng)絡(CNN)。當時，訓練這一神經(jīng)網(wǎng)絡需要龐大的CPU資源，甚至花上幾個月時間。該團隊最后使用了兩張當時英偉達為大型PC游戲準備的GPU GTX580，結(jié)果訓練不到一周便完成了。

CPU 作為核心控制計算單元，高速緩沖存儲器（Cache）、控制單元（Control）在 CPU 硬件架構(gòu)設計中所占比例較大，主要為實現(xiàn)低延遲和處理單位內(nèi)核性能要求較高的工作而存在，而計算單元（ALU）所占比例較小，這使得 CPU 的大規(guī)模并行計算表現(xiàn)不佳。

而GPU 架構(gòu)內(nèi)主要為計算單元，采用極簡的流水線進行設計，適合處理高度線程化、相對簡單的并行計算。隨著 GPU 可編程性的不斷提高，去掉或減弱 GPU 的圖形顯示部分能力，全部投入通用計算的 GPGPU（通用計算處理器）也應運而生。

llya Sutskever后來成為了OpenAI的聯(lián)合創(chuàng)始人和首席科學家，他們所設計的網(wǎng)絡被稱為AlexNet。llya Sutskever稱，“我一直深信訓練數(shù)據(jù)集越大越好，成立OpenAI的目的之一，也是為了探究如何利用數(shù)據(jù)的規(guī)模。”此后，隨著ChatGPT的訓練模型的不斷增長，GPU成為大模型算力的重要供給工具。

不過，在巧合之外，英偉達的GPU之所以能夠在如今的人工智能領域，實現(xiàn)一家獨大，主要是之前選對了方向。

石浩對鈦媒體App表示，人工智能最早是由谷歌的人工智能深度學習系統(tǒng)——Tensorflow在2015年開創(chuàng)的。緊接著，英偉達將CUDA的生態(tài)遷移到Tensorflow上，與其兼容建立了人工智能早期的軟件生態(tài)。但是由于谷歌的TPU(張量處理單元，計算芯片的一種）不對外開放，導致英偉達的GPU和CUDA軟件生態(tài)越來越被行業(yè)認可。

與此同時，2015年前后PC游戲開始進入下行態(tài)勢，英偉達選擇聚焦人工智能領域，旗下負責游戲開發(fā)的工程師，也紛紛轉(zhuǎn)型到人工智能領域的開放工作中。

“從2015年-2022年，英偉達的工程師積累了大量的人工智能試驗方案，一些方案與英偉達的GPU是天生適配的。”石浩稱，這對于初入人工智能的用戶是非常好的一個方式，因為他們只需要買英偉達的產(chǎn)品，下載CUDA軟件生態(tài)中的參考方案就能復現(xiàn)自己想要的結(jié)果。

而對比英偉達，GPU并行計算的另一個主要玩家——AMD則出現(xiàn)了“戰(zhàn)略資源錯配”。

“從2015年到現(xiàn)在，AMD實際看重的是CPU市場，其服務器CPU的市場份額也從最初百分之十幾，上升到現(xiàn)在的40%。”石浩表示，但是隨著半導體先進制程一路從28納米走向12納米，再到3納米，工藝的升級就帶來了計算成本急劇的降低。而CPU內(nèi)部的計算資源大概只有10%，GPU則為90%。在目前這種情況下，受益最大的是GPU，AMD壓錯了方向。

受益于GPU暴漲的需求，英偉達的股價也一路水漲船高，最新市值超過了一萬億美元，是AMD的5倍多。

國產(chǎn)GPU，機會幾何

根據(jù)市場調(diào)研機構(gòu)Trendforce估計，2020年GPT模型處理訓練數(shù)據(jù)所需的A100數(shù)量達到了2萬張左右，未來ChatGPT商業(yè)化所需的A100數(shù)量將達到3萬張以上。Trendforce指出，英偉達

DGX A100是業(yè)界大數(shù)據(jù)分析和A加速的首選，隨著生成式A成為趨勢，英偉達將從中受益。

同時，根據(jù)摩根大通的一份最新報告顯示，英偉達將在今年的人工智能產(chǎn)品市場中獲得 60% 的份額，主要來自于其圖形處理器（GPU）和網(wǎng)絡互連產(chǎn)品。英特爾和 AMD 也出現(xiàn)在了榜單上，但他們的收入百分比可以忽略不計，低于 1%。

而當英偉達成為大模型浪潮中的主要算力提供方時，國內(nèi)諸如百度、阿里、華為這樣的大模型參與者，將面臨一個頗為棘手的境遇。

按照美國商務部2022年關(guān)于高端GPU的出口限令，中國只能向英偉達購買算力一致但傳輸速率只有A100三分之二的特供版芯片A800，且此后算力更強的GPU芯片都會被限制。在此情況下，國內(nèi)的GPU廠商能夠?qū)崿F(xiàn)對英偉達產(chǎn)品的部分替代，成為了行業(yè)共同面臨的問題。

目前，國產(chǎn)GPU 有兩條主要的發(fā)展路線：分別為傳統(tǒng)的 2D/3D 圖形渲染 GPU 和專注高性能計算的 GP GPU。生態(tài)方面，國產(chǎn)廠商大多兼容英偉達 CUDA，融入大生態(tài)進而實現(xiàn)客戶端導入。

其中，寒武紀旗下的思元370系列GPU產(chǎn)品，單精度浮點算力和半精度浮點算力分別為24TFLOPS和96TFLPOS，均超過了英偉達A100，但顯存容量只有24GB，與英偉達最新的H100也還相距甚遠。同樣地，海光信息的海光8100、壁仞科技的壁礪104P等國產(chǎn)GPU也存在著相當?shù)牟罹?，處于持續(xù)追趕中。

“對于算力的需求量主要與模型參數(shù)量相關(guān)，大廠現(xiàn)在所做的通用大模型依然只能使用英偉達的產(chǎn)品。但是，垂類行業(yè)的大模型（金融、醫(yī)療等）或者參數(shù)量不像GPT那樣大的模型，國產(chǎn)GPU的算力已經(jīng)非常夠用了。”

電子行業(yè)分析師袁琪對鈦媒體App表示，目前國內(nèi)某短視頻平臺參數(shù)量約為1000億的大模型，就用了寒武紀的產(chǎn)品，做訓練和推理。同時，該模型也使用了英偉達A100。最后，按照短視頻平臺的標準對于兩個產(chǎn)品進行打分。

最終結(jié)果顯示，英偉達A100得分是92分，寒武紀得分為87，這意味兩者之間的表現(xiàn)已經(jīng)相差不大了。

“后續(xù)隨著模型對寒武紀芯片的定向調(diào)優(yōu)完成，這個得分肯定還會往上走。”袁琪稱，目前行業(yè)排名中，性能最強的是寒武紀的思遠590，其次則是華為的昇騰910。這兩者主要對標的是英偉達A100，國內(nèi)大模型的訓練和推理都可以用。

不過，在剛剛結(jié)束的GTC大會上，英偉達推出了基于新一代 GPU芯片H100的服務器，H100則采用的臺積電4nm的先進制程。英偉達創(chuàng)始人黃仁勛稱，該服務器相比A100服務器的速度提升了10倍，并可將大型語言模型的處理成本降低一個數(shù)量級。以GPT-3模型為例，目前使用的A100訓練時長需要5天，而H100僅需19小時。

這意味著，下一代國產(chǎn)GPU能否跟得上英偉達的步伐，依然是一個問題。

算力壓制下，國產(chǎn)大模型的破局之法

“實際上，對于算力和先進制程，大家看的比較籠統(tǒng)。”

袁琪表示，從市場的角度來看，GPU的計算資源、儲存資源和通信資源一般會要求達到一個均衡的狀態(tài)，以此來實現(xiàn)GPU更高的利用率。更為先進的制程工藝，雖然能夠提高GPU單位面積的算力，但是隨著大模型完成數(shù)據(jù)訓練走到推理階段，所需的算力將不再像訓練階段那么大，限制模型成本的就不是單位面積的算力，而是單位面積的存儲。

以英偉達A100為例，該產(chǎn)品就有2個版本。這2個版本在計算性能上沒有任何差別，但一個是搭載了40GB的顯存容量，另一個是80GB。其中，80GB的A100，是OpenAI提出了需求才有的。也就是說，大模型后期對于顯存的需求要比計算的需求要高。

按照袁琪的說法，隨著大模型繼續(xù)往前推進，對于計算單元的主要考驗將不是算力，也不是先進制程，而是存儲。

基于上述的技術(shù)路徑，存算一體（Computing in Memory）的解決方案成為了提升大模型算力的另一條可行路徑。

所謂存算一體，就是在存儲器中嵌入計算能力，以新的運算架構(gòu)進行二維和三維矩陣乘法/加法運算。阿里達摩院在2021年發(fā)布采用混合鍵合（Hybrid Bonding）的3D堆疊技術(shù)——將計算芯片和存儲芯片face-to-face地用特定金屬材質(zhì)和工藝進行互聯(lián)。在實際推薦系統(tǒng)應用中，相比傳統(tǒng)CPU計算系統(tǒng)，存算一體芯片的性能提升10倍以上，能效提升超過300倍。

另外，存算一體路線下的存內(nèi)計算方案中，存儲單元和計算單元完全融合，沒有獨立的計算單元：直接在存儲器顆粒上嵌入算法，由存儲器芯片內(nèi)部的存儲單元完成計算操作。

以國內(nèi)公司億鑄科技為例，基于CIM框架、RRAM存儲介質(zhì)的研發(fā)“全數(shù)字存算一體”大算力芯片，通過減少數(shù)據(jù)搬運提高運算能效比，同時利用數(shù)字存算一體方法保證運算精度，適用于云端AI推理和邊緣計算。

利用存內(nèi)計算方案，億鑄科技單板卡算力范圍在1000TOPS以上，在較低成本、低功耗、低延退下，能夠借著存算一體芯片，用較小的代價實現(xiàn)高算以上力，突破芯片大廠的生態(tài)壁壘。

存算一體之外，通過軟件調(diào)度來提升硬件處理數(shù)據(jù)的效率，也成為了解決大模型算力不足的另外一種選擇。

潞晨科技的創(chuàng)始人尤洋告訴鈦媒體App，理論上，用多個低端芯片來代替英偉達的一個高端芯片是可能的。比如，假設每一個低端芯片算力是100TFLOPS，四顆芯片簡單疊加就能得到400TFLOPS的算力。但是，在實際工作中，400TFLOPS的算力無法被完全發(fā)揮出來。因為數(shù)據(jù)在四個芯片之間要不斷地進行傳輸和交互，一顆芯片的速度過慢就會拖累整體的效率，這就需要高難度的軟件優(yōu)化。

尤洋曾任新加坡國立大學教授，從事分布式計算、機器學習、高性能計算相關(guān)研究。2021年，尤洋創(chuàng)辦了潞晨科技，試圖通過分布式AI開發(fā)和部署平臺，幫助企業(yè)降低大模型的落地成本，提升訓練、推理效率。創(chuàng)辦的18個月里，這家公司共計拿到了3輪融資。

事實上，根據(jù)一些公開的論文顯示，阿里巴巴、百度和華為已經(jīng)在尋求使用 A100、老一代 Nvidia 芯片 V100 和 P100 以及華為 Ascends （昇騰）芯片的各種組合方案。

在 3 月份的一篇論文中，華為研究人員展示了他們?nèi)绾谓Y(jié)合軟件技術(shù)，通過僅使用華為的 Ascend 芯片而不使用 Nvidia 芯片，來訓練其最新一代大型語言模型。研究人員在論文中寫道，盡管存在一些缺點，但 PanGu-Σ（盤古）的模型在一些中文任務上達到了最先進的性能，包括閱讀理解和語法挑戰(zhàn)。

“所以，在對ChatGPT的追趕上，我認為不用過度悲觀。”袁琪稱，面對差距，騰訊的冷靜態(tài)度是對的。這是一個非常新的東西，它是有顛覆性，但也有很多弊端。“縱觀這么多年的歷史，我們發(fā)現(xiàn)現(xiàn)在還沒有任何一項技術(shù)，在短暫的落后之后，是永遠跟不上的。”（應受訪者要求，文中石浩、袁琪為化名，本文首發(fā)鈦媒體App，作者 | 饒翔宇，編輯 | 鐘毅）

快報