AI大模型帶來的浪潮已經(jīng)席卷全球,時至今日幾乎所有的科技企業(yè)都在AI大模型方面有所布局。
隨著這一輪AI技術(shù)的快速發(fā)展,我們不難看出,AI已經(jīng)從“卷”技術(shù)走向“卷”應(yīng)用的階段,如果說2023年是生成式AI元年的話,那么2024年必將是生成式AI企業(yè)側(cè)應(yīng)用落地的元年。
回看2023年,各大廠商爭先恐后的發(fā)布各自大模型產(chǎn)品,而當(dāng)產(chǎn)品發(fā)布后,幾乎所有人關(guān)注的焦點都在參數(shù)有多大上。彼時,人們似乎不約而同都在以參數(shù)的大小衡量大模型產(chǎn)品的好壞。
生成式AI“鼻祖”發(fā)布的GPT-3.5據(jù)報道可達(dá)1750億個參數(shù),而后續(xù)推出的GPT-4雖然未知參數(shù),但顯然要比GPT-3.5更高;中國移動發(fā)布的“九天智能基座”大模型也擁有千億級別參數(shù);通義千問最新開源的模型達(dá)到1100億參數(shù); Google AI 發(fā)布了 Pathways Language Model (PaLM),擁有 5400 億個參數(shù),在各種自然語言處理基準(zhǔn)測試中取得了最先進(jìn)的結(jié)果;浪潮信息發(fā)布的“源1.0”1大模型具有2457億參數(shù)......
而隨著參數(shù)數(shù)量的增加,也意味著訓(xùn)練模型需要更多的計算資源和訓(xùn)練時間。訓(xùn)練一個擁有數(shù)十億甚至數(shù)百億參數(shù)的 LLM,往往需要大量的計算設(shè)備和電力消耗。此外,龐大的參數(shù)也帶來更高的模型復(fù)雜度,對模型的訓(xùn)練和調(diào)優(yōu)也提出了更大的挑戰(zhàn)。
以一個5000億參數(shù)的大模型為例,訓(xùn)練這個大模型需要2萬張H100的數(shù)據(jù)中心集群,需要大概10億美元的建設(shè)成本,而每年訓(xùn)練所消耗的電費將達(dá)到5.3億元人民幣,無論對哪個企業(yè)而言,這都將是一筆難以估算與接受的開銷。
在此背景下,AI大模型要想在企業(yè)側(cè)大規(guī)模落地應(yīng)用,企業(yè)就需要更多的考慮到算力效率,從模算效率層面,整體評估與衡量模型的精度和開銷。對此,浪潮信息人工智能首席科學(xué)家吳韶華告訴鈦媒體APP,算力效率越高,意味著單位算力投入的情況下,模型精度回報越高,造成的算力浪費現(xiàn)象越小,對模型的訓(xùn)練非常有利。而所謂模算效率,正是追求并實現(xiàn) “模型能力更強(qiáng)且算力消耗更少”的技術(shù)方式。

浪潮信息人工智能首席科學(xué)家吳韶華
“假設(shè)擁有很高的模算效率,我們基于更多token訓(xùn)練更到參數(shù)量模型就成為可能,”吳韶華對鈦媒體APP進(jìn)一步指出,“尤其是在企業(yè)側(cè)應(yīng)用的過程中,模型訓(xùn)練、推理的整體成本會隨著模算效率的提升而降低,也就進(jìn)一步降低了企業(yè)應(yīng)用AI的成本門檻。”
就如同互聯(lián)網(wǎng)的發(fā)展一般,消費級的產(chǎn)品只是技術(shù)出現(xiàn)在人們眼前的渠道,而真正的技術(shù)價值還得看企業(yè)級的應(yīng)用。AI大模型在這點上與彼時的互聯(lián)網(wǎng)相似。隨著“產(chǎn)業(yè)AI化”進(jìn)程的推進(jìn),企業(yè)需要找到一個能“用得起”的大模型產(chǎn)品。這時候MoE架構(gòu)的出現(xiàn),就成為了現(xiàn)階段企業(yè)應(yīng)用大模型的最佳技術(shù)展現(xiàn)形式。
對此,吳韶華告訴鈦媒體APP,當(dāng)算力以及訓(xùn)練數(shù)據(jù)發(fā)展變緩,或者成本變高的時候,我們需要另外一種可以讓模型能力繼續(xù)進(jìn)行擴(kuò)展(scale)的創(chuàng)新方式。“基于此,今天,更好地利用一定規(guī)模的算力和數(shù)據(jù)構(gòu)建更大規(guī)模、資源消耗更少、性能更好的大語言模型,是產(chǎn)業(yè)面臨的核心問題。”吳韶華強(qiáng)調(diào)。
而MoE(Mixture of Experts,混合專家模型)恰好就滿足了人們對于更大規(guī)模、更低消耗,更低算力資源占用的愿景。MoE本質(zhì)上是一種高效的scaling 技術(shù),用較少的計算資源實現(xiàn)更大的模型規(guī)模,從而獲得更好的模型性能表現(xiàn)。
MoE作為一種由專家模型和門控模型組成稀疏門控制的深度學(xué)習(xí)技術(shù),由多個專家模型組成,每個子模型都是一個局部模型。門控功能“稀疏性”的引入讓MoE在處理輸入數(shù)據(jù)時只激活使用少數(shù)專家模型,大部分專家模型處于未激活狀態(tài)。換言之,只有擅長某一特定領(lǐng)域的模型會被派遣,為用戶提供最專業(yè)的服務(wù),而其他模型則原地待命,靜待自己擅長的領(lǐng)域到來。這種“稀疏狀態(tài)”作為混合專家模型的重要優(yōu)勢,進(jìn)一步提升了模型訓(xùn)練和推理過程的效率。
吳韶華告訴鈦媒體APP,MoE模型的一個顯著優(yōu)勢——能夠在遠(yuǎn)少于稠密模型所需的計算資源下進(jìn)行有效的預(yù)訓(xùn)練。“這意味著在相同的計算預(yù)算條件下,可以顯著擴(kuò)大模型或數(shù)據(jù)集的規(guī)模。特別是在預(yù)訓(xùn)練階段,與稠密模型相比,混合專家模型通常能夠更快地達(dá)到相同的質(zhì)量水平。”吳韶華表示。
據(jù)了解,近日浪潮信息全新發(fā)布的“源2.0-M32”(簡稱M32) 正是基于MoE架構(gòu)的開源大模型,“M32包含了32個專家的MoE大語言模型,參數(shù)量400億并大幅提升了模型算力效率,”吳韶華告訴鈦媒體APP,“M32憑借特別優(yōu)化設(shè)計的模型架構(gòu),在僅激活37億參數(shù)的情況下,取得了和700億參數(shù)LLaMA3相當(dāng)?shù)男阅芩?,所消耗算力僅為LLaMA3的1/19。”
基于MoE架構(gòu),M32延用源2.0非均勻流水并行的方法,綜合運用流水線并行+數(shù)據(jù)并行的策略,為硬件差異較大訓(xùn)練環(huán)境提供了一種高性能的訓(xùn)練方法,模算效率得到了大幅提升。
其實從今年以來各大廠商發(fā)布的大模型產(chǎn)品上就不難看出,MoE架構(gòu)已經(jīng)成為當(dāng)下大模型產(chǎn)品的主流架構(gòu)之一,今年初,深度求索團(tuán)隊發(fā)布了開源的160億參數(shù)專家模型DeepSeek MoE,而OpenAI的GPT-4、谷歌的Gemini、Mistral AI的Mistral、xAI的Grok-1等主流大模型也都采用了MoE架構(gòu)。
相比于Dense模型,MoE無論在可擴(kuò)展性,計算效率、訓(xùn)練效率,還是靈活性、專業(yè)化、容錯率等方面都有著出色的表現(xiàn),這也讓MoE架構(gòu)成為企業(yè)側(cè)應(yīng)用大模型的不二選擇。
顯然,在模算效率方面,基于MoE架構(gòu)開發(fā)的M32大模型擁有非常明顯的優(yōu)勢,這讓企業(yè)在使用M32大模型的過程中,算力資源的浪費更少,成本更低,在這個追求降本增效的背景下,MoE更適合企業(yè)側(cè)部署大模型。
不過對于企業(yè)而言,“既要,又要”的想法肯定是每個企業(yè)都追求的,企業(yè)當(dāng)然不希望降低成本是以犧牲性能作為代價的。這時候,作為大模型提供商來說,就需要平衡好性能與成本之間的天平。
以最近剛剛發(fā)布的M32為例,吳韶華告訴鈦媒體APP,基于對性能的考慮,此次發(fā)布的M32使用了全新的門控網(wǎng)絡(luò)——Attention Router,負(fù)責(zé)調(diào)度各個token到不同專家模型上進(jìn)行混合計算,“Attention Router是一種專家間協(xié)同性的度量方法,”吳韶華指出,“在計算過程中可以將輸入樣本中任意兩個token通過一個計算步驟直接聯(lián)系起來,解決了傳統(tǒng)的門控機(jī)制中,選擇兩個或多個專家參與計算時關(guān)聯(lián)性缺失的問題。”
Attention Router網(wǎng)絡(luò)結(jié)構(gòu)通過創(chuàng)造一種專家間協(xié)同性的度量方法,能夠使得專家之間協(xié)同處理數(shù)據(jù)的水平和效能大為提升,從而實現(xiàn)以更少的激活參數(shù),達(dá)到更高的智能水平。
除此之外,大模型在企業(yè)側(cè)應(yīng)用過程中,不可避免的要解決幻覺的問題,大模型在企業(yè)側(cè)并不像是在消費端,消費側(cè)的模型只要參數(shù)夠大,數(shù)據(jù)量夠大,即便有一些質(zhì)量不佳的數(shù)據(jù),偶爾產(chǎn)生一些“幻覺”問題也是可以接受,而企業(yè)側(cè)的應(yīng)用并不是這樣。
在企業(yè)側(cè),大模型需要精度更高,準(zhǔn)確率更高,甚至對于有些行業(yè)而言,0.01%的錯誤拒絕率都是難以容忍的。這就對企業(yè)側(cè)應(yīng)用大模型產(chǎn)品提出了更高的要求。
對于鈦媒體APP提出的幻覺方面的擔(dān)憂,浪潮信息人工智能與高性能應(yīng)用軟件部AI軟件架構(gòu)師Allen Wang認(rèn)為,對于大模型幻覺問題,業(yè)內(nèi)目前已經(jīng)有很多方式方法進(jìn)行避免,“業(yè)內(nèi)比較常見的事通過模型的微調(diào)、小樣本學(xué)習(xí),或者外掛知識庫的形式,能有效解決大模型幻覺的問題。”Allen Wang如是說。
另外,Allen Wang也進(jìn)一步告訴鈦媒體APP,不久前,浪潮信息也剛剛發(fā)布了EPAI 企業(yè)大模型開發(fā)平臺,包含各種增強(qiáng)式技術(shù)及模塊化的技術(shù),很大程度上可以幫助企業(yè)處理幻覺問題。以微調(diào)數(shù)據(jù)舉例,EPAI所擁有覆蓋范圍廣泛的1億+基礎(chǔ)數(shù)據(jù),也為提升模型精度做出了極大的貢獻(xiàn)。”Allen Wang強(qiáng)調(diào),“未來,M32也將與EPAI企業(yè)大模型開發(fā)平臺一同,助力企業(yè)實現(xiàn)更快的技術(shù)迭代與高效的應(yīng)用落地。”
除此之外,業(yè)內(nèi)也有不少大模型廠商在嘗試通過技術(shù)降低大模型出現(xiàn)幻覺的可能性。在前不久的IBM Think 大會上,IBM宣布正在 Hugging Face 和 GitHub 上開源其 Granite 大模型系列,包括其最先進(jìn)的代碼大模型,這些模型在多項行業(yè)基準(zhǔn)上超越比之規(guī)模更大的模型。 同時還與紅帽共同推出一個開源新方法InstructLab, 通過社區(qū)參與企業(yè)級的知識型數(shù)據(jù)與技能型數(shù)據(jù)的分類和表達(dá),并通過合成數(shù)據(jù)-驗證的方式后,對企業(yè)的基礎(chǔ)模型進(jìn)行微調(diào)。InstructLab 首次實現(xiàn)了對預(yù)訓(xùn)練 LLM 的修改。“這是一項首創(chuàng)的大模型對齊技術(shù)(LAB),可將開源社區(qū)的資源直接引入大語言模型,讓企業(yè)在應(yīng)用大模型的時候只需要極少的數(shù)據(jù),就可以達(dá)到更大的準(zhǔn)確率。”IBM中國系統(tǒng)實驗室CTO孟繁晶告訴鈦媒體APP。
而通過以浪潮信息與IBM為代表的各大布局企業(yè)側(cè)大模型產(chǎn)品最新的舉措也不難看出,平臺化的大模型產(chǎn)品已經(jīng)成為當(dāng)下企業(yè)應(yīng)用大模型產(chǎn)品的最佳方式。這種開源的方式,可以接入更多的基礎(chǔ)大模型與專家大模型,并在企業(yè)使用的時候,在確保提供高可用的大模型解決方案的同時,還能進(jìn)一步降低企業(yè)使用大模型的成本門檻與技術(shù)門檻,真正做到簡單、易用。
搭建好大模型平臺之后,下一步各大廠商就需要一方面在原有產(chǎn)品上不斷進(jìn)行模型的優(yōu)化,開發(fā)新的版本,提供更高模算效率,更強(qiáng)性能的基礎(chǔ)大模型;另一方面,如何在平臺上提供更多的工具和軟件供企業(yè)側(cè)的開發(fā)者選擇使用,以及這些工具的易用性和可用性將成為接下來各大大模型廠商角逐的重要賽道。(本文首發(fā)于鈦媒體APP,作者|張申宇,編輯丨蓋虹達(dá))
![]()
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機(jī)號后發(fā)表評論