NPU 相比 CPU 和 GPU,有大量專門(mén)進(jìn)行大矩陣乘法和卷積運(yùn)算的 AI Core

ASIC 思想下的 AI 芯片作為一種專用處理器,通過(guò)在硬件層面優(yōu)化深度學(xué)習(xí)算法所需的大矩陣乘法、張量運(yùn)算、卷積運(yùn)算等關(guān)鍵運(yùn)算,可以顯著加速 AI 應(yīng)用的執(zhí)行速度,降低功耗。與在通用 CPU 上用軟件模擬這些運(yùn)算相比,AI 芯片能帶來(lái)數(shù)量級(jí)的性能提升。因此,AI 芯片已成為如今大模型訓(xùn)練和推理的關(guān)鍵載體。

AI 專用處理器的發(fā)展最早可以追溯到 2015 年。2015 年 6 月,谷歌 I/O 開(kāi)發(fā)者大會(huì)上推出第一代神經(jīng)網(wǎng)絡(luò)計(jì)算專用芯片 TPU,專門(mén)用于加速 TensorFlow 框架下的機(jī)器學(xué)習(xí)任務(wù)。區(qū)別于 GPU,谷歌 TPU 是一種 ASIC 芯片方案,一般來(lái)說(shuō) ASIC 芯片開(kāi)發(fā)時(shí)間長(zhǎng)、研發(fā)成本高,服務(wù)于專用計(jì)算,實(shí)現(xiàn)的下游任務(wù)較為固定和狹窄。此后,谷歌又陸續(xù)推出了多個(gè) TPU 系列產(chǎn)品,不斷優(yōu)化其架構(gòu)和性能。

終端推理側(cè)的AI芯片:AI Phone的關(guān)鍵能力

盡管 AI 芯片的種類、實(shí)現(xiàn)的任務(wù)和部署形態(tài)多樣且復(fù)雜,但其功能最終可以歸結(jié)為兩種:訓(xùn)練和推理。

在訓(xùn)練階段,AI 芯片需要支持大規(guī)模的數(shù)據(jù)處理和復(fù)雜的模型訓(xùn)練。這需要芯片具有強(qiáng)大的并行計(jì)算能力、高帶寬的存儲(chǔ)器訪問(wèn)以及靈活的數(shù)據(jù)傳輸能力。NVIDIA 最新的 H100 GPU、華為昇騰 Ascend NPU、谷歌 TPU 等專門(mén)為 AI 訓(xùn)練設(shè)計(jì)的芯片,擁有超強(qiáng)的計(jì)算能力、超大顯存和極高的帶寬,能夠處理海量數(shù)據(jù),特別適合訓(xùn)練類似 GPT 等大語(yǔ)言模型。

在推理階段,AI 芯片需要在功耗、成本和實(shí)時(shí)性等方面進(jìn)行優(yōu)化,以滿足不同應(yīng)用場(chǎng)景的需求。云端推理通常對(duì)性能和吞吐量要求較高,因此需要使用高性能的  AI 芯片,邊緣和端側(cè)推理對(duì)功耗和成本更加敏感,因此需要使用低功耗、低成本的 AI 芯片,如專門(mén)為桌面、移動(dòng)和嵌入式設(shè)備設(shè)計(jì)的 NPU等。

英特爾最新的酷睿 Ultra 旗艦處理器,基于 x86 平臺(tái)的異構(gòu)AI計(jì)算,集成的 GPU 和 NPU 性能越來(lái)越高。高通和 MediaTek 最新的高端移動(dòng)處理器,針對(duì)不同任務(wù)的 AI 計(jì)算加速,整個(gè) SoC 微架構(gòu)上,NPU 的重要性也越來(lái)越突出。

相較于訓(xùn)練芯片在云端成為某種“基礎(chǔ)設(shè)施”,端側(cè)的推理芯片則站在了 AI 應(yīng)用的前沿。將訓(xùn)練好的模型為現(xiàn)實(shí)世界提供智能服務(wù),特別是目前已經(jīng)成為“個(gè)人信息Hub”的手機(jī)終端,某種意義上已經(jīng)成為了普通人新生長(zhǎng)出來(lái)的器官,當(dāng)大模型與手機(jī)融合,不依賴網(wǎng)絡(luò)和云端算力就能讓手機(jī)具備大模型能力,AI Phone 的商業(yè)想象力巨大。

高通 VS MediaTek ,最新的移動(dòng)旗艦芯片

大模型推理正在向手機(jī)、PC、智能汽車等終端滲透。但是,在終端部署 AI 大模型時(shí),仍面臨著多模態(tài)模型壓縮、存儲(chǔ)與計(jì)算瓶頸、數(shù)據(jù)傳輸帶寬限制、模型 always-on 設(shè)備功耗和發(fā)熱、軟硬件聯(lián)合調(diào)優(yōu)等多重挑戰(zhàn)。特別是在手機(jī)端,芯片必須在保證高性能的同時(shí),盡量降低功耗,這要求芯片設(shè)計(jì)在硬件架構(gòu)和算法加速技術(shù)上進(jìn)行優(yōu)化,以提高計(jì)算效率并減少能源消耗。

以高通最新的驍龍旗艦芯片為例,“為了實(shí)現(xiàn)更快的 AI 推理性能,高通提升了所有(AI計(jì)算)加速器內(nèi)核的吞吐量,還為標(biāo)量和向量加速器增加了更多內(nèi)核,滿足增長(zhǎng)的生成式AI運(yùn)算需求,尤其是面向大語(yǔ)言模型(LLM)和大視覺(jué)模型(LVM)用例,以在處理過(guò)程中支持更長(zhǎng)的上下文。至于大眾關(guān)心的能耗,高通這次將每瓦特性能提高 45%。終端更加高效,不需要大量消耗電池續(xù)航。”

根據(jù)高通的官方描述:高通最新的旗艦移動(dòng)芯片,驍龍 8 至尊版首次采用了一系列領(lǐng)先技術(shù),包括第二代定制的高通 Oryon CPU、全新切片架構(gòu)的高通 Adreno GPU 和增強(qiáng)的高通Hexagon NPU,能夠?yàn)橛脩魩?lái)終端體驗(yàn)的全面革新。作為高通迄今為止最快的CPU,Oryon CPU 擁有 2 個(gè)主頻高達(dá) 4.32GHz 的超級(jí)內(nèi)核和 6 個(gè)主頻 3.53GHz 的性能內(nèi)核。其單核性能和多核性能相比前代均提升了 45%,瀏覽器性能提升了 62%,可為大量的多任務(wù)處理、飛速網(wǎng)頁(yè)瀏覽和疾速游戲響應(yīng)體驗(yàn)提供強(qiáng)大的性能和能效支持。同時(shí),驍龍8至尊版還支持高達(dá) 10.7Gbps 速率的 LPDDR5X 內(nèi)存,為用戶帶來(lái)更為豐富的終端側(cè) AI 使用體驗(yàn)。

基于全新的高通 Hexagon NPU,驍龍 8 至尊版首次支持終端側(cè)個(gè)性化多模態(tài) AI 助手,能夠賦能規(guī)模更大且更加復(fù)雜的多模態(tài)生成式 AI 用例在終端側(cè)高效運(yùn)行。在處理器上,高通 Hexagon NPU 增加了額外內(nèi)核,擁有 6 核向量處理器和 8 核標(biāo)量處理器,能夠進(jìn)一步滿足生成式 AI 運(yùn)算不斷增長(zhǎng)的需求。

得益于在軟件上的不斷優(yōu)化、Hexagon NPU 新增的處理器核心以及多模態(tài)模型,驍龍 8 至尊版能實(shí)現(xiàn)更快的 AI 處理速度。其 AI 性能提升了 45%,每瓦特性能提升 45%,并支持 70+ tokens/sec 的輸入,用戶可以上傳更大的文檔、音頻和圖像,讓手機(jī)在處理復(fù)雜任務(wù)時(shí)能夠更加游刃有余。

有了全新 Hexagon NPU 的支持,無(wú)論是在拍照時(shí)的智能識(shí)別與優(yōu)化,還是游戲中的實(shí)時(shí)渲染與計(jì)算,驍龍 8 至尊版都能為用戶提供強(qiáng)大的 AI 引擎支持,幫助用戶能夠隨時(shí)隨地開(kāi)啟靈感世界,創(chuàng)造無(wú)限可能。在影像處理能力上,通過(guò) AI-ISP 和 Hexagon NPU 的深度融合,驍龍 8 至尊版可帶來(lái)突破性的拍攝體驗(yàn),讓用戶在拍照時(shí)得到更多的AI加持,其支持 4.3GP/s 像素處理能力,數(shù)據(jù)吞吐量相比上代提升了 33%,能夠支持三個(gè) 4800 萬(wàn)像素圖像傳感器同時(shí)進(jìn)行 30fps 視頻拍攝。

驍龍 8 至尊版支持無(wú)限語(yǔ)義分割功能,可以對(duì)圖像進(jìn)行超過(guò) 250 層語(yǔ)義識(shí)別和分割,針對(duì)性優(yōu)化圖像中的每個(gè)細(xì)節(jié)。在無(wú)限語(yǔ)義分割基礎(chǔ)上,驍龍 8 至尊版的實(shí)時(shí)皮膚和天空算法可以利用 Hexagon NPU 來(lái)識(shí)別光線條件并進(jìn)行修圖,即使在光線條件不足的情況下,也能拍出具有自然效果的皮膚和天空色調(diào)。

基于Hexagon NPU,驍龍8至尊版還支持實(shí)時(shí) AI 補(bǔ)光技術(shù),讓用戶即使在近乎黑暗的環(huán)境下,也能生動(dòng)記錄 4K 60fps 的視頻。在視頻通話或者直播時(shí)遇到背光情況,實(shí)時(shí) AI 補(bǔ)光技術(shù)仿佛增加了一個(gè)虛擬的可移動(dòng)光源,讓用戶時(shí)刻都能展現(xiàn)自己美好的一面。在強(qiáng)大算力的支持下,驍龍 8 至尊版還支持視頻魔法擦除功能,用戶可以直接在視頻中選擇需要擦除的對(duì)象將其消除,而無(wú)需將視頻上傳到云端。

此外,驍龍 8 至尊版還擁有 AI 寵物拍攝套件,能夠清晰記錄萌寵們“放飛自我”的調(diào)皮時(shí)刻,無(wú)論是快速奔跑還是嬉戲打鬧,都能被精準(zhǔn)捕捉。

在高通發(fā)布驍龍 8 之前,多年蟬聯(lián)手機(jī)移動(dòng)芯片市場(chǎng)份額第一的 MediaTek,也在最新的天璣 9400 旗艦芯集成 MediaTek 第八代 AI 處理器 NPU 890,在其支持下,天璣 9400 支持時(shí)域張量(Temporal Tensor)硬件加速技術(shù)、端側(cè)高畫(huà)質(zhì)視頻生成技術(shù),賦能端側(cè)運(yùn)行 Stable Diffusion 的性能提升了 2 倍,不僅能夠?qū)崿F(xiàn)高分辨率生圖,更支持端側(cè)動(dòng)圖和視頻生成,實(shí)現(xiàn)更多新玩法。

根據(jù) MediaTek 官方描述:天璣 9400 擁有強(qiáng)悍的端側(cè)多模態(tài) AI 運(yùn)算性能,處理能力高達(dá) 50 tokens/秒;運(yùn)行各種主流大模型,平均功耗可節(jié)省 35%,為手機(jī)終端用戶帶來(lái)更智慧、更省電的 AI 智能體互動(dòng)。隨著大語(yǔ)言模型能力的提升,智能體多輪對(duì)話與復(fù)雜場(chǎng)景的判斷需求越來(lái)越重要。天璣 9400 已能支持到至高 32K tokens 的文本長(zhǎng)度,是上一代的 8 倍!為了強(qiáng)化端側(cè)模型的數(shù)據(jù)安全和個(gè)人隱私作用,MediaTek 天璣 9400 支持端側(cè) LoRA 訓(xùn)練,不用傳資料上云,每位用戶在端側(cè)就可以安心享受實(shí)時(shí)的個(gè)性化訓(xùn)練與生成,還可用個(gè)人照片創(chuàng)建各種畫(huà)風(fēng)的數(shù)字形象,并更換各種姿勢(shì)和背景,讓隱私更安全。

AI Phone算力芯片的關(guān)鍵指標(biāo):Prefill階段首Token延遲,以及Decoding階段Token生成速率

無(wú)論云端模型還是端側(cè)大模型,本質(zhì)是“一堆參數(shù)”。手機(jī)終端執(zhí)行大模型推理的過(guò)程:用戶輸入文本(提示詞,也即常說(shuō)的 Prompt)編碼轉(zhuǎn)化為向量,內(nèi)存加載參數(shù),激活參數(shù)執(zhí)行 AI 計(jì)算,輸出向量解碼。
大模型推理的基本流程,用戶提供一個(gè) prompt(提示詞),手機(jī)運(yùn)行的推理框架根據(jù)輸入的提示詞生成回答。推理過(guò)程通常分為兩個(gè)階段:prefill 階段和 decoding 階段。在 Prefill 階段,內(nèi)存加載模型參數(shù),推理框架接收用戶的提示詞輸入,然后執(zhí)行模型參數(shù)計(jì)算,直到輸出第一個(gè) token。這個(gè)階段只運(yùn)行一次,耗時(shí)較長(zhǎng)。

接下來(lái)是 Decoding 階段,這個(gè)階段是一個(gè)自回歸的過(guò)程,每次生成一個(gè) token。具體來(lái)說(shuō),它會(huì)將上一時(shí)刻的輸出 token 作為當(dāng)前時(shí)刻的輸入,然后計(jì)算下一時(shí)刻的 token。如果用戶的輸出數(shù)據(jù)很長(zhǎng),這個(gè)階段就會(huì)運(yùn)行很多次。Decoding 階段的 Token 吞吐率,即常說(shuō)的推理速度 XXToken/sec。

如何評(píng)價(jià)不同品牌的AI Phone 的大模型運(yùn)行性能的優(yōu)劣?運(yùn)行同樣參數(shù)尺寸(比如3B)的端側(cè)模型,模型的“知識(shí)密度”相同的情況下,Prefill 階段的首 Token 延遲,以及 Decoding 階段 Token 生成速率是兩個(gè)最直觀的指標(biāo),它直接反饋一款A(yù)I Phone運(yùn)行大模型是否流暢,用戶體驗(yàn)感知最明顯。當(dāng)然 AI Phone 運(yùn)行模型時(shí)的內(nèi)存占用壓縮,量化精度損失,AI Phone 運(yùn)行的多模態(tài)模型和文本基座模型本身的性能和功能,模型層的優(yōu)劣影響也是決定性的。一個(gè)高效壓縮、功能全面、性能強(qiáng)悍、跨算力平臺(tái)兼容性好的端側(cè)模型,還沒(méi)有公認(rèn)的最強(qiáng)者。

目前,AI Phone 算力芯片支持的推理框架,適配優(yōu)化支持的模型種類和數(shù)量,正在肉眼可見(jiàn)的增長(zhǎng)和繁榮。端側(cè)模型運(yùn)行在不同終端,針對(duì)不同 ASIC 芯片 NPU 的兼容,進(jìn)行 AI 計(jì)算硬件加速和調(diào)度優(yōu)化的空間還非常大,這是一個(gè)涉及終端廠商、芯片廠商、模型廠商三方的生態(tài)構(gòu)建。誰(shuí)能提前布局,不辭辛勞更多做幕后看不到的“有用功”,大模型時(shí)代它一定獲得市場(chǎng)的“加速”。

本文系作者 X研究媛 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論

請(qǐng) 登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

13:32

本周南向資金凈買入251億港元,泡泡瑪特凈買入超36億港元

13:17

沙特每日700萬(wàn)桶石油繞過(guò)霍爾木茲

13:16

中東兩大鋁廠遇襲,恐影響全球供應(yīng)鏈

12:58

全國(guó)累計(jì)器官捐獻(xiàn)志愿登記人數(shù)超過(guò)733萬(wàn)

12:46

宇樹(shù)科技具身智能體驗(yàn)館亞洲首店將于5月底落地上海

12:44

洛杉磯10萬(wàn)人參加“不要國(guó)王”抗議,多人被捕

12:37

今年前兩月霍爾果斯口岸果蔬出口增長(zhǎng)29.3%

11:48

中國(guó)首臺(tái)商用12兆伏串列加速器成功下線

11:40

美副總統(tǒng)稱無(wú)意滯留伊朗,將很快撤出

11:39

中關(guān)村兩院具身通用智能基座模型與社會(huì)模擬器等科研成果發(fā)布

11:37

清明檔新片預(yù)售票房突破2000萬(wàn)

11:30

約千人“包圍”洛杉磯政府機(jī)構(gòu)大樓,兩人被捕

10:59

中穎電子:有序推進(jìn)車規(guī)芯片研發(fā),新產(chǎn)品預(yù)期今年推出

10:50

德研究報(bào)告:中國(guó)工業(yè)數(shù)字化水平全球領(lǐng)先

10:39

訊飛醫(yī)療2025年?duì)I收增長(zhǎng)25%,虧損收窄

10:14

廣東省市場(chǎng)監(jiān)管局聯(lián)合廣州市市場(chǎng)監(jiān)管局召開(kāi)平臺(tái)企業(yè)座談會(huì)

10:10

貝殼啟動(dòng)戰(zhàn)略變革:管理者站上一線,經(jīng)紀(jì)人KPI減負(fù)

10:06

中東戰(zhàn)事致燃油短缺,越南多家航司將削減航班數(shù)量

10:06

新研究估計(jì)全球每年逾25萬(wàn)人死于腦膜炎

10:02

印尼16歲以下人群“社媒禁令”正式生效

掃描下載App