国产原创在线偷拍,欧美特黄A级高清,中日一二中文区在线观看

ASIC 思想下的 AI 芯片作為一種專用處理器，通過(guò)在硬件層面優(yōu)化深度學(xué)習(xí)算法所需的大矩陣乘法、張量運(yùn)算、卷積運(yùn)算等關(guān)鍵運(yùn)算，可以顯著加速 AI 應(yīng)用的執(zhí)行速度，降低功耗。與在通用 CPU 上用軟件模擬這些運(yùn)算相比，AI 芯片能帶來(lái)數(shù)量級(jí)的性能提升。因此，AI 芯片已成為如今大模型訓(xùn)練和推理的關(guān)鍵載體。

AI 專用處理器的發(fā)展最早可以追溯到 2015 年。2015 年 6 月，谷歌 I/O 開(kāi)發(fā)者大會(huì)上推出第一代神經(jīng)網(wǎng)絡(luò)計(jì)算專用芯片 TPU，專門(mén)用于加速 TensorFlow 框架下的機(jī)器學(xué)習(xí)任務(wù)。區(qū)別于 GPU，谷歌 TPU 是一種 ASIC 芯片方案，一般來(lái)說(shuō) ASIC 芯片開(kāi)發(fā)時(shí)間長(zhǎng)、研發(fā)成本高，服務(wù)于專用計(jì)算，實(shí)現(xiàn)的下游任務(wù)較為固定和狹窄。此后，谷歌又陸續(xù)推出了多個(gè) TPU 系列產(chǎn)品，不斷優(yōu)化其架構(gòu)和性能。

終端推理側(cè)的AI芯片：AI Phone的關(guān)鍵能力

盡管 AI 芯片的種類、實(shí)現(xiàn)的任務(wù)和部署形態(tài)多樣且復(fù)雜，但其功能最終可以歸結(jié)為兩種：訓(xùn)練和推理。

在訓(xùn)練階段，AI 芯片需要支持大規(guī)模的數(shù)據(jù)處理和復(fù)雜的模型訓(xùn)練。這需要芯片具有強(qiáng)大的并行計(jì)算能力、高帶寬的存儲(chǔ)器訪問(wèn)以及靈活的數(shù)據(jù)傳輸能力。NVIDIA 最新的 H100 GPU、華為昇騰 Ascend NPU、谷歌 TPU 等專門(mén)為 AI 訓(xùn)練設(shè)計(jì)的芯片，擁有超強(qiáng)的計(jì)算能力、超大顯存和極高的帶寬，能夠處理海量數(shù)據(jù)，特別適合訓(xùn)練類似 GPT 等大語(yǔ)言模型。

在推理階段，AI 芯片需要在功耗、成本和實(shí)時(shí)性等方面進(jìn)行優(yōu)化，以滿足不同應(yīng)用場(chǎng)景的需求。云端推理通常對(duì)性能和吞吐量要求較高，因此需要使用高性能的 AI 芯片，邊緣和端側(cè)推理對(duì)功耗和成本更加敏感，因此需要使用低功耗、低成本的 AI 芯片，如專門(mén)為桌面、移動(dòng)和嵌入式設(shè)備設(shè)計(jì)的 NPU等。

英特爾最新的酷睿 Ultra 旗艦處理器，基于 x86 平臺(tái)的異構(gòu)AI計(jì)算，集成的 GPU 和 NPU 性能越來(lái)越高。高通和 MediaTek 最新的高端移動(dòng)處理器，針對(duì)不同任務(wù)的 AI 計(jì)算加速，整個(gè) SoC 微架構(gòu)上，NPU 的重要性也越來(lái)越突出。

相較于訓(xùn)練芯片在云端成為某種“基礎(chǔ)設(shè)施”，端側(cè)的推理芯片則站在了 AI 應(yīng)用的前沿。將訓(xùn)練好的模型為現(xiàn)實(shí)世界提供智能服務(wù)，特別是目前已經(jīng)成為“個(gè)人信息Hub”的手機(jī)終端，某種意義上已經(jīng)成為了普通人新生長(zhǎng)出來(lái)的器官，當(dāng)大模型與手機(jī)融合，不依賴網(wǎng)絡(luò)和云端算力就能讓手機(jī)具備大模型能力，AI Phone 的商業(yè)想象力巨大。

高通 VS MediaTek ，最新的移動(dòng)旗艦芯片

大模型推理正在向手機(jī)、PC、智能汽車等終端滲透。但是，在終端部署 AI 大模型時(shí)，仍面臨著多模態(tài)模型壓縮、存儲(chǔ)與計(jì)算瓶頸、數(shù)據(jù)傳輸帶寬限制、模型 always-on 設(shè)備功耗和發(fā)熱、軟硬件聯(lián)合調(diào)優(yōu)等多重挑戰(zhàn)。特別是在手機(jī)端，芯片必須在保證高性能的同時(shí)，盡量降低功耗，這要求芯片設(shè)計(jì)在硬件架構(gòu)和算法加速技術(shù)上進(jìn)行優(yōu)化，以提高計(jì)算效率并減少能源消耗。

以高通最新的驍龍旗艦芯片為例，“為了實(shí)現(xiàn)更快的 AI 推理性能，高通提升了所有（AI計(jì)算）加速器內(nèi)核的吞吐量，還為標(biāo)量和向量加速器增加了更多內(nèi)核，滿足增長(zhǎng)的生成式AI運(yùn)算需求，尤其是面向大語(yǔ)言模型(LLM)和大視覺(jué)模型(LVM)用例，以在處理過(guò)程中支持更長(zhǎng)的上下文。至于大眾關(guān)心的能耗，高通這次將每瓦特性能提高 45%。終端更加高效，不需要大量消耗電池續(xù)航。”

根據(jù)高通的官方描述：高通最新的旗艦移動(dòng)芯片，驍龍 8 至尊版首次采用了一系列領(lǐng)先技術(shù)，包括第二代定制的高通 Oryon CPU、全新切片架構(gòu)的高通 Adreno GPU 和增強(qiáng)的高通Hexagon NPU，能夠?yàn)橛脩魩?lái)終端體驗(yàn)的全面革新。作為高通迄今為止最快的CPU，Oryon CPU 擁有 2 個(gè)主頻高達(dá) 4.32GHz 的超級(jí)內(nèi)核和 6 個(gè)主頻 3.53GHz 的性能內(nèi)核。其單核性能和多核性能相比前代均提升了 45%，瀏覽器性能提升了 62%，可為大量的多任務(wù)處理、飛速網(wǎng)頁(yè)瀏覽和疾速游戲響應(yīng)體驗(yàn)提供強(qiáng)大的性能和能效支持。同時(shí)，驍龍8至尊版還支持高達(dá) 10.7Gbps 速率的 LPDDR5X 內(nèi)存，為用戶帶來(lái)更為豐富的終端側(cè) AI 使用體驗(yàn)。

基于全新的高通 Hexagon NPU，驍龍 8 至尊版首次支持終端側(cè)個(gè)性化多模態(tài) AI 助手，能夠賦能規(guī)模更大且更加復(fù)雜的多模態(tài)生成式 AI 用例在終端側(cè)高效運(yùn)行。在處理器上，高通 Hexagon NPU 增加了額外內(nèi)核，擁有 6 核向量處理器和 8 核標(biāo)量處理器，能夠進(jìn)一步滿足生成式 AI 運(yùn)算不斷增長(zhǎng)的需求。

得益于在軟件上的不斷優(yōu)化、Hexagon NPU 新增的處理器核心以及多模態(tài)模型，驍龍 8 至尊版能實(shí)現(xiàn)更快的 AI 處理速度。其 AI 性能提升了 45%，每瓦特性能提升 45%，并支持 70+ tokens/sec 的輸入，用戶可以上傳更大的文檔、音頻和圖像，讓手機(jī)在處理復(fù)雜任務(wù)時(shí)能夠更加游刃有余。

有了全新 Hexagon NPU 的支持，無(wú)論是在拍照時(shí)的智能識(shí)別與優(yōu)化，還是游戲中的實(shí)時(shí)渲染與計(jì)算，驍龍 8 至尊版都能為用戶提供強(qiáng)大的 AI 引擎支持，幫助用戶能夠隨時(shí)隨地開(kāi)啟靈感世界，創(chuàng)造無(wú)限可能。在影像處理能力上，通過(guò) AI-ISP 和 Hexagon NPU 的深度融合，驍龍 8 至尊版可帶來(lái)突破性的拍攝體驗(yàn)，讓用戶在拍照時(shí)得到更多的AI加持，其支持 4.3GP/s 像素處理能力，數(shù)據(jù)吞吐量相比上代提升了 33%，能夠支持三個(gè) 4800 萬(wàn)像素圖像傳感器同時(shí)進(jìn)行 30fps 視頻拍攝。

驍龍 8 至尊版支持無(wú)限語(yǔ)義分割功能，可以對(duì)圖像進(jìn)行超過(guò) 250 層語(yǔ)義識(shí)別和分割，針對(duì)性優(yōu)化圖像中的每個(gè)細(xì)節(jié)。在無(wú)限語(yǔ)義分割基礎(chǔ)上，驍龍 8 至尊版的實(shí)時(shí)皮膚和天空算法可以利用 Hexagon NPU 來(lái)識(shí)別光線條件并進(jìn)行修圖，即使在光線條件不足的情況下，也能拍出具有自然效果的皮膚和天空色調(diào)。

基于Hexagon NPU，驍龍8至尊版還支持實(shí)時(shí) AI 補(bǔ)光技術(shù)，讓用戶即使在近乎黑暗的環(huán)境下，也能生動(dòng)記錄 4K 60fps 的視頻。在視頻通話或者直播時(shí)遇到背光情況，實(shí)時(shí) AI 補(bǔ)光技術(shù)仿佛增加了一個(gè)虛擬的可移動(dòng)光源，讓用戶時(shí)刻都能展現(xiàn)自己美好的一面。在強(qiáng)大算力的支持下，驍龍 8 至尊版還支持視頻魔法擦除功能，用戶可以直接在視頻中選擇需要擦除的對(duì)象將其消除，而無(wú)需將視頻上傳到云端。

此外，驍龍 8 至尊版還擁有 AI 寵物拍攝套件，能夠清晰記錄萌寵們“放飛自我”的調(diào)皮時(shí)刻，無(wú)論是快速奔跑還是嬉戲打鬧，都能被精準(zhǔn)捕捉。

在高通發(fā)布驍龍 8 之前，多年蟬聯(lián)手機(jī)移動(dòng)芯片市場(chǎng)份額第一的 MediaTek，也在最新的天璣 9400 旗艦芯集成 MediaTek 第八代 AI 處理器 NPU 890，在其支持下，天璣 9400 支持時(shí)域張量（Temporal Tensor）硬件加速技術(shù)、端側(cè)高畫(huà)質(zhì)視頻生成技術(shù)，賦能端側(cè)運(yùn)行 Stable Diffusion 的性能提升了 2 倍，不僅能夠?qū)崿F(xiàn)高分辨率生圖，更支持端側(cè)動(dòng)圖和視頻生成，實(shí)現(xiàn)更多新玩法。

根據(jù) MediaTek 官方描述：天璣 9400 擁有強(qiáng)悍的端側(cè)多模態(tài) AI 運(yùn)算性能，處理能力高達(dá) 50 tokens/秒；運(yùn)行各種主流大模型，平均功耗可節(jié)省 35%，為手機(jī)終端用戶帶來(lái)更智慧、更省電的 AI 智能體互動(dòng)。隨著大語(yǔ)言模型能力的提升，智能體多輪對(duì)話與復(fù)雜場(chǎng)景的判斷需求越來(lái)越重要。天璣 9400 已能支持到至高 32K tokens 的文本長(zhǎng)度，是上一代的 8 倍!

為了強(qiáng)化端側(cè)模型的數(shù)據(jù)安全和個(gè)人隱私作用，MediaTek 天璣 9400 支持端側(cè) LoRA 訓(xùn)練，不用傳資料上云，每位用戶在端側(cè)就可以安心享受實(shí)時(shí)的個(gè)性化訓(xùn)練與生成，還可用個(gè)人照片創(chuàng)建各種畫(huà)風(fēng)的數(shù)字形象，并更換各種姿勢(shì)和背景，讓隱私更安全。

AI Phone算力芯片的關(guān)鍵指標(biāo)：Prefill階段首Token延遲，以及Decoding階段Token生成速率

無(wú)論云端模型還是端側(cè)大模型，本質(zhì)是“一堆參數(shù)”。手機(jī)終端執(zhí)行大模型推理的過(guò)程：用戶輸入文本（提示詞，也即常說(shuō)的 Prompt)編碼轉(zhuǎn)化為向量，內(nèi)存加載參數(shù)，激活參數(shù)執(zhí)行 AI 計(jì)算，輸出向量解碼。

大模型推理的基本流程，用戶提供一個(gè) prompt（提示詞），手機(jī)運(yùn)行的推理框架根據(jù)輸入的提示詞生成回答。推理過(guò)程通常分為兩個(gè)階段：prefill 階段和 decoding 階段。在 Prefill 階段，內(nèi)存加載模型參數(shù)，推理框架接收用戶的提示詞輸入，然后執(zhí)行模型參數(shù)計(jì)算，直到輸出第一個(gè) token。這個(gè)階段只運(yùn)行一次，耗時(shí)較長(zhǎng)。

接下來(lái)是 Decoding 階段，這個(gè)階段是一個(gè)自回歸的過(guò)程，每次生成一個(gè) token。具體來(lái)說(shuō)，它會(huì)將上一時(shí)刻的輸出 token 作為當(dāng)前時(shí)刻的輸入，然后計(jì)算下一時(shí)刻的 token。如果用戶的輸出數(shù)據(jù)很長(zhǎng)，這個(gè)階段就會(huì)運(yùn)行很多次。Decoding 階段的 Token 吞吐率，即常說(shuō)的推理速度 XXToken/sec。

如何評(píng)價(jià)不同品牌的AI Phone 的大模型運(yùn)行性能的優(yōu)劣？運(yùn)行同樣參數(shù)尺寸（比如3B)的端側(cè)模型，模型的“知識(shí)密度”相同的情況下，Prefill 階段的首 Token 延遲，以及 Decoding 階段 Token 生成速率是兩個(gè)最直觀的指標(biāo)，它直接反饋一款A(yù)I Phone運(yùn)行大模型是否流暢，用戶體驗(yàn)感知最明顯。當(dāng)然 AI Phone 運(yùn)行模型時(shí)的內(nèi)存占用壓縮，量化精度損失，AI Phone 運(yùn)行的多模態(tài)模型和文本基座模型本身的性能和功能，模型層的優(yōu)劣影響也是決定性的。一個(gè)高效壓縮、功能全面、性能強(qiáng)悍、跨算力平臺(tái)兼容性好的端側(cè)模型，還沒(méi)有公認(rèn)的最強(qiáng)者。

目前，AI Phone 算力芯片支持的推理框架，適配優(yōu)化支持的模型種類和數(shù)量，正在肉眼可見(jiàn)的增長(zhǎng)和繁榮。端側(cè)模型運(yùn)行在不同終端，針對(duì)不同 ASIC 芯片 NPU 的兼容，進(jìn)行 AI 計(jì)算硬件加速和調(diào)度優(yōu)化的空間還非常大，這是一個(gè)涉及終端廠商、芯片廠商、模型廠商三方的生態(tài)構(gòu)建。誰(shuí)能提前布局，不辭辛勞更多做幕后看不到的“有用功”，大模型時(shí)代它一定獲得市場(chǎng)的“加速”。

本文系作者 X研究媛授權(quán)鈦媒體發(fā)表，并經(jīng)鈦媒體編輯，轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào)，文章內(nèi)容僅供參考、交流、學(xué)習(xí)，不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn)，點(diǎn)擊這里投稿。創(chuàng)業(yè)或融資尋求報(bào)道，點(diǎn)擊這里。

快報(bào)