(圖片來源:unsplash)
近期,一則關(guān)于“大模型測不出9.11和9.9哪個(gè)大”的消息引發(fā)討論。
當(dāng)用戶問包括GPT-4o在內(nèi)的國內(nèi)外12款 AI大模型“9.11和9.9哪個(gè)更大”這樣一道小學(xué)生難度的數(shù)學(xué)題,最終結(jié)果中,竟然只有阿里通義千問、百度文心一言、Minimax和騰訊元寶4個(gè)答對,而ChatGPT-4o等8款大模型給出了錯(cuò)誤的答案。
這意味著,大模型的數(shù)學(xué)能力較差,存在諸多問題亟待解決。
早前與鈦媒體AGI獨(dú)家對話時(shí),上海交通大學(xué)重慶人工智能研究院(滬渝人工智能研究院)AI大模型中心主任齊鵬博士表示,盡管大模型潛力巨大,能處理復(fù)雜問題并具備學(xué)習(xí)泛化能力。但大語言模型可能由于模型架構(gòu)限制,更像是“文科生”,缺乏理科能力。而且目前受限算力不足、文本數(shù)據(jù)不足、精確度和可靠性有偏差以及模型規(guī)模不夠大等問題,其智能水平仍在孩童級別,更像是一個(gè)“五歲的小孩”,難以處理復(fù)雜任務(wù),“幻覺”長期存在。
齊鵬本碩畢業(yè)于清華大學(xué),并在美國威斯康星大學(xué)完成博士學(xué)位,現(xiàn)任職于上海交大重慶人工智能研究院。齊鵬多年深耕數(shù)據(jù)科學(xué)、AI 等領(lǐng)域,參與多個(gè)國家級科技課題,擁有多項(xiàng)知識(shí)產(chǎn)權(quán)。
隨著ChatGPT風(fēng)靡全球,過去一年多時(shí)間,齊鵬帶領(lǐng)上海交大重慶人工智能研究院AI大模型中心團(tuán)隊(duì),自主研發(fā)“兆言”大語言模型,并在今年3月SuperCLUE中文大模型智能體評測基準(zhǔn)中位列全球第三、國內(nèi)第二。
與此同時(shí),今年7月,齊鵬帶領(lǐng)上海交通大學(xué)博士生莊少彬等人參加開源社區(qū)項(xiàng)目成功復(fù)現(xiàn)了類Sora文生視頻模型,采用先進(jìn)的Latte時(shí)空解耦注意力架構(gòu),經(jīng)過精心訓(xùn)練,能夠在InternVid視頻數(shù)據(jù)集上生成長達(dá)16秒(128幀)的視頻,相比之前開源模型僅能生成3秒(24幀)視頻,性能提升了5倍(500%)。
7月12日,齊鵬、莊少彬二人與鈦媒體進(jìn)行約2小時(shí)的獨(dú)家對話,圍繞Sora發(fā)展現(xiàn)狀以及大模型的發(fā)展所面臨的挑戰(zhàn)、行業(yè)落地情況,以及未來的發(fā)展方向等話題展開對話。
談及Sora技術(shù)帶來的影響,齊鵬對鈦媒體AGI表示,Sora更像一個(gè)新“錘子”,能夠解決多種問題。Sora文生視頻模型在視頻生成之外,還能在自動(dòng)駕駛、物理世界模擬等多個(gè)領(lǐng)域發(fā)揮作用。而最直觀的應(yīng)用就是視頻生成,用戶只需輸入文字描述,就能快速生成符合要求的視頻內(nèi)容,提高了視頻制作的效率和便捷性。
談到行業(yè)落地,齊鵬指出,大模型在多個(gè)垂直行業(yè)都有廣泛的應(yīng)用,但真正落地的案例卻相對較少。主要原因有兩點(diǎn):一是大模型的數(shù)學(xué)能力和工程能力的不足;二是大模型作為機(jī)器學(xué)習(xí)范疇的一部分,其基于統(tǒng)計(jì)方法的本質(zhì)決定了它無法做到100%的正確度。
展望未來AGI發(fā)展,齊鵬強(qiáng)調(diào),人類社會(huì)正處于通往AGI的關(guān)鍵時(shí)期。盡管當(dāng)前模型能力沒有達(dá)到AGI標(biāo)準(zhǔn),但將來某一天,人們回顧這段歷史時(shí),可能會(huì)意識(shí)到,ChatGPT讓我們正站在一個(gè)重要的歷史節(jié)點(diǎn)上。
“研究院的一個(gè)重要目標(biāo)是實(shí)現(xiàn)技術(shù)的商業(yè)化落地,大模型中心目前專注于AIGC的落地應(yīng)用,特別是‘最后一公里’問題,如何將研究成果轉(zhuǎn)化為實(shí)際的產(chǎn)品或服務(wù),以滿足市場需求。盡管大模型智力可以不斷提升,從五歲、十歲到十八歲,甚至達(dá)到頂級專家的水平,但這樣的系統(tǒng)永遠(yuǎn)需要配套的設(shè)施和工具來支持其運(yùn)行和應(yīng)用。設(shè)施研發(fā)成本可能相對較低,但它們在推動(dòng)大模型的實(shí)際應(yīng)用和社會(huì)價(jià)值方面起到至關(guān)重要的作用。”齊鵬表示。
![]()
上海交通大學(xué)重慶人工智能研究院AI大模型中心主任齊鵬博士
齊鵬:這個(gè)項(xiàng)目是由莊少彬博士帶領(lǐng)團(tuán)隊(duì)研發(fā)的。團(tuán)隊(duì)選擇使用全開源的數(shù)據(jù)進(jìn)行模型訓(xùn)練。團(tuán)隊(duì)不僅開源了數(shù)據(jù),還公開了訓(xùn)練流程。這樣,其他研究者或開發(fā)者可以根據(jù)相同的步驟和參數(shù)設(shè)置,在自己的環(huán)境中重現(xiàn)模型的訓(xùn)練過程,驗(yàn)證模型的有效性和穩(wěn)定性。
核心差異點(diǎn)主要表現(xiàn)在三方面:
第一,團(tuán)隊(duì)使用全開源數(shù)據(jù)進(jìn)行模型訓(xùn)練意味著整個(gè)訓(xùn)練過程是基于公開可訪問的數(shù)據(jù)集進(jìn)行的。這樣的方式可以保證了訓(xùn)練過程的透明度和可重復(fù)性,任何有興趣的人都可以使用相同的數(shù)據(jù)集來復(fù)現(xiàn)或改進(jìn)模型。
第二,團(tuán)隊(duì)采用了間接式的訓(xùn)練方式,這種方式能夠在較低的計(jì)算成本下高效地訓(xùn)練出模型。這種方法適用于大規(guī)模數(shù)據(jù)集和復(fù)雜模型,因?yàn)樗鼈冃枰L的訓(xùn)練時(shí)間和更高的計(jì)算資源。通過使用間接式訓(xùn)練,可以在不增加單個(gè)計(jì)算節(jié)點(diǎn)算力成本的前提下,通過增加計(jì)算節(jié)點(diǎn)的數(shù)量來縮短訓(xùn)練時(shí)間。
第三,團(tuán)隊(duì)還進(jìn)行了一些底層的優(yōu)化工作,特別是針對顯存開銷的優(yōu)化。這些優(yōu)化可以使模型能夠在集群或服務(wù)器上穩(wěn)定地進(jìn)行長視頻的訓(xùn)練,提高了模型的訓(xùn)練效率和可擴(kuò)展性。
齊鵬:與商業(yè)化項(xiàng)目不同,團(tuán)隊(duì)和開源社區(qū)合作的研究類項(xiàng)目采用開源模型的優(yōu)勢是能夠吸引更多研發(fā)人員的參與。由于沒有版權(quán)和商業(yè)化的限制,任何對這個(gè)項(xiàng)目感興趣的人都可以輕松地獲取和使用模型,可以提出自己的改進(jìn)意見或貢獻(xiàn)新的代碼。這種模式可以幫助模型的持續(xù)改進(jìn)和優(yōu)化,還可以加強(qiáng)跨學(xué)科、跨領(lǐng)域的交流與合作。
齊鵬:團(tuán)隊(duì)研發(fā)類Sora模型架構(gòu)并不是完全摒棄了Transformer或其他傳統(tǒng)模型,是在DiT的基礎(chǔ)上進(jìn)行了擴(kuò)展,加入了時(shí)間維度以支持視頻處理。這種新架構(gòu)的考量可能是為了更好地適應(yīng)視頻數(shù)據(jù)的特性,提高模型在視頻生成或處理任務(wù)上的性能。
莊少彬:目前團(tuán)隊(duì)正在訓(xùn)練的最好模型能夠生成最長16秒的視頻。這相較于之前基于unet架構(gòu)的模型已經(jīng)有了很大的進(jìn)步,因?yàn)槟菚r(shí)的模型通常只能生成兩到三秒的視頻。16秒并不是特別長的時(shí)長,但在目前在視頻生成領(lǐng)域已經(jīng)是一個(gè)相對較長的記錄了。
視頻生成中連續(xù)性和連貫性的問題,這主要受到數(shù)據(jù)質(zhì)量的影響。如果視頻數(shù)據(jù)中存在畫面跳變等不連貫的情況,那么訓(xùn)練出來的模型也很可能會(huì)生成不連貫的視頻。此外,模型訓(xùn)練時(shí)的幀率和分辨率對視頻生成質(zhì)量的影響。如果模型只訓(xùn)練在較低分辨率和幀率的數(shù)據(jù)上,那么它可能無法生成高分辨率和流暢的視頻。
為什么無法端到端生成一兩分鐘長度的視頻?端到端的一兩分鐘的視頻意味著上千幀甚至兩三千幀的數(shù)據(jù),這需要上百上千倍的計(jì)算資源消耗。雖然Latte時(shí)空耦合注意力架構(gòu)在理論上可以擴(kuò)展到這樣的時(shí)長,但目前還沒有機(jī)構(gòu)擁有足夠的算力和數(shù)據(jù)來支撐這樣的訓(xùn)練。
莊少彬:在C端,對于非專業(yè)的視頻制作者,如普通家庭用戶,Sora這類視頻生成模型能夠極大地降低視頻制作的難度。用戶只需簡單輸入文字描述,即可生成精美的視頻內(nèi)容,從而更容易地參與到視頻創(chuàng)作中來。
在B端,對于專業(yè)的視頻剪輯師和創(chuàng)意人員,Sora能夠生成復(fù)雜的、或者一些天馬行空的視頻素材。專業(yè)人員可以在模型提供的素材基礎(chǔ)上進(jìn)行微調(diào)和優(yōu)化,從而提高了工作效率和創(chuàng)作質(zhì)量。
Sora不僅僅用在視頻制作上,在自動(dòng)駕駛、3D生成與建模、物理學(xué)研究等多個(gè)領(lǐng)域也有一系列的探索。自動(dòng)駕駛系統(tǒng)需要準(zhǔn)確預(yù)測周圍物體的動(dòng)態(tài)變化,而Sora作為“世界模擬器”,能夠模擬和預(yù)測物體的運(yùn)動(dòng)軌跡,為自動(dòng)駕駛系統(tǒng)提供更為精準(zhǔn)的環(huán)境建模。
例如在自動(dòng)駕駛領(lǐng)域,特斯拉的自動(dòng)駕駛方案以及類似的高級駕駛輔助系統(tǒng)在技術(shù)上已經(jīng)取得了顯著的進(jìn)步,它們能夠?qū)崟r(shí)感知周圍環(huán)境,包括車輛、行人、障礙物等,這是實(shí)現(xiàn)自動(dòng)駕駛的基礎(chǔ)。Sora幫助自動(dòng)駕駛系統(tǒng)提前做出決策,避免潛在的危險(xiǎn)情況,如碰撞、追尾等。同時(shí),通過預(yù)判物體的移動(dòng),系統(tǒng)還可以優(yōu)化行駛路線和速度,提高交通效率,減少擁堵和排放。
總的來說,Sora降低了視頻制作的門檻,使得更多人能夠參與到視頻創(chuàng)作中來,無論是C端的非專業(yè)用戶還是B端專業(yè)視頻制作者都能從中受益。
齊鵬:Sora更像一個(gè)“錘子”,一種新工具,能夠解決多種問題的工具。Sora文生視頻模型在視頻生成之外,還能在自動(dòng)駕駛、物理世界模擬等多個(gè)領(lǐng)域發(fā)揮作用。最直觀的應(yīng)用就是視頻生成,用戶只需輸入文字描述,就能快速生成符合要求的視頻內(nèi)容,提高了視頻制作的效率和便捷性。
很多時(shí)候,技術(shù)的發(fā)展并不是為了解決某個(gè)特定問題而進(jìn)行的,而是在研究過程中意外發(fā)現(xiàn)了強(qiáng)大的解決方法。這種方法一旦成熟,就能夠廣泛應(yīng)用于多個(gè)領(lǐng)域,解決一系列問題。
目前,Sora仍處于測試階段,并未廣泛公開使用。在中國,可能有一些內(nèi)測或外測版本的應(yīng)用案例,但數(shù)量相對較少,且主要限于生成短小的視頻或電影片段。由于這是測試版,很多情況下可能是免費(fèi)提供的。如果未來開始收費(fèi),成本也是當(dāng)前視頻制作費(fèi)用的很小一部分,比如幾百元,從而極大地降低視頻制作的成本。
齊鵬:這個(gè)項(xiàng)目主要是和開源社區(qū)合作的,主要的研發(fā)工作是由莊少彬博士和一、兩名研發(fā)人員合作進(jìn)行的。項(xiàng)目整體被分為了四個(gè)組,分別負(fù)責(zé)數(shù)據(jù)采集與打標(biāo)、模型訓(xùn)練、模型評測以及訓(xùn)練提速和機(jī)器優(yōu)化。
莊少彬:在模型訓(xùn)練過程中,團(tuán)隊(duì)面臨的最大挑戰(zhàn)是計(jì)算資源不夠。特別是在處理大規(guī)模數(shù)據(jù)和復(fù)雜模型時(shí),對計(jì)算資源的需求非常高。為了更高效地利用有限的機(jī)器資源,項(xiàng)目組的算法團(tuán)隊(duì)進(jìn)行了大量的優(yōu)化工作。
這些優(yōu)化包括模型并行、流水線并行等高級優(yōu)化策略,以及針對單個(gè)模型的顯存優(yōu)化。
此外,團(tuán)隊(duì)還針對視頻領(lǐng)域進(jìn)行的優(yōu)化,這樣可以使項(xiàng)目有明確的應(yīng)用場景和目標(biāo)領(lǐng)域,更好滿足項(xiàng)目的實(shí)際應(yīng)用需求。
齊鵬:重慶作為唯一一個(gè)有農(nóng)村場景的直轄市,為農(nóng)業(yè)大模型的應(yīng)用提供了豐富的場景和廣闊的空間。鄉(xiāng)村振興大模型利用了海量的網(wǎng)上數(shù)據(jù)和農(nóng)科院的農(nóng)業(yè)數(shù)據(jù),這些數(shù)據(jù)為模型的構(gòu)建和訓(xùn)練提供了基礎(chǔ),能夠更準(zhǔn)確地反映農(nóng)業(yè)生產(chǎn)的實(shí)際情況。目前,此項(xiàng)目是與政府機(jī)構(gòu)、鄉(xiāng)村振興(重慶)研究院等多方聯(lián)合開發(fā)的。這種合作模式有助于整合資源、技術(shù)和資金,共同推動(dòng)農(nóng)業(yè)大模型的研發(fā)和應(yīng)用。
鄉(xiāng)村振興大模型計(jì)劃打造14款,目前已有3-4款相關(guān)產(chǎn)品,通過大模型將專家的知識(shí)轉(zhuǎn)化為可普及、易理解的信息,解決農(nóng)業(yè)生產(chǎn)、管理和民生中的問題,幫助農(nóng)業(yè)從業(yè)者能夠像城鎮(zhèn)居民一樣方便地獲取和使用農(nóng)業(yè)知識(shí),助于縮小城鄉(xiāng)之間的信息差距,提高農(nóng)業(yè)生產(chǎn)的效率和效益。
齊鵬:首先,明確團(tuán)隊(duì)對大模型的定義是什么,是大語言模型。大語言模型是主流,核心在于知識(shí)和邏輯。隨著大語言模型的不斷發(fā)展,其智能水平可能會(huì)從五歲小孩的智商逐漸提升到十歲、十八歲甚至超人的水平。這一過程主要依賴于模型對知識(shí)和邏輯的掌握和應(yīng)用。
與大語言模型不同,文生視頻模型是大模型的另一條線,不涉及復(fù)雜的知識(shí)和邏輯,而是更側(cè)重于對物理世界規(guī)律的理解和模擬。文生視頻建模這類模型能夠基于感知和經(jīng)驗(yàn)來預(yù)測和應(yīng)對物理世界的變化,但缺乏高層次的邏輯理解和知識(shí)總結(jié)能力。
此外,還有多模態(tài)模型,這類模型能夠?qū)⑽淖?、圖像、聲音等多種信息形式進(jìn)行編碼并統(tǒng)一處理。多模態(tài)模型是未來的發(fā)展方向之一,它能夠更全面地理解和處理現(xiàn)實(shí)世界中的復(fù)雜信息。
目前,大模型目前進(jìn)入平臺(tái)期,在智能水平上好像難以實(shí)現(xiàn)質(zhì)的飛躍。我們還是相信更大的模型往往能處理更復(fù)雜的問題,具有更強(qiáng)的學(xué)習(xí)和泛化能力。一旦有一個(gè)模型能夠達(dá)到99.9%正確率,那么這種大模型將成為一種全新的生產(chǎn)力工具,能夠勝任各種任務(wù)。
大模型的發(fā)展存在算力不足、文本數(shù)據(jù)不足、精確度和可靠性有偏差以及模型規(guī)模不夠大等問題。這樣,使大模型“智商”還不夠高,更像一個(gè)五六歲小孩智商的水平,大模型的處理復(fù)雜任務(wù)的能力有限,無法達(dá)到人們期望的程度。
其次,由于大語言模型架構(gòu)限制,大模型有點(diǎn)像“文科生”,它對語言的處理非常好,但是做數(shù)學(xué)、工程就就不太行??梢园汛竽P捅茸髌髽I(yè)的“CEO或COO”。這個(gè)“CEO或COO”,雖然可能對技術(shù)不太懂,但能夠調(diào)動(dòng)各種高技術(shù)的組件。
同時(shí),國內(nèi)的大廠和初創(chuàng)企業(yè)在發(fā)展大模型遇到的的困境,主要是因?yàn)橥度氤杀揪薮?,而商業(yè)化又不足以支撐算力和數(shù)據(jù)持續(xù)的投入。
如果大模型的智能水平無法在短時(shí)間內(nèi)實(shí)現(xiàn)顯著提升,那么發(fā)展應(yīng)用便成為了一個(gè)可行的選擇?,F(xiàn)階段的大模型發(fā)展,客戶需要在不同應(yīng)用場景實(shí)踐中探索和提升。通過應(yīng)用商業(yè)化,可以產(chǎn)生收入,進(jìn)而支撐大模型的持續(xù)發(fā)展和優(yōu)化。這既保證了項(xiàng)目的經(jīng)濟(jì)可持續(xù)性,也為未來的技術(shù)創(chuàng)新提供了可能。
此外,大模型企業(yè)還可以通過融資來支持項(xiàng)目的發(fā)展。不過融資并非易事,需要看市場是否認(rèn)可項(xiàng)目的潛力和價(jià)值。
齊鵬:原因有兩點(diǎn):
第一,當(dāng)前技術(shù)能力不足導(dǎo)致提升有限,降低了主動(dòng)升級的積極性;
第二,新技術(shù)的應(yīng)用需要新的硬件和算力支持,但各個(gè)企業(yè)準(zhǔn)備不足,缺乏足夠的機(jī)房和智能算力資源來部署和運(yùn)行大模型,使得大模型落地到垂直行業(yè)變得困難重重。第二個(gè)問題其實(shí)可以通過相應(yīng)政策解決,如果企業(yè)可以信任政府投資的研究院或者算力中心對于數(shù)據(jù)安全的保證,就可以在建設(shè)自己的智能算力機(jī)房前開始大模型解決方案開發(fā)。
大模型,尤其是那些能夠生成高質(zhì)量文本、圖像等內(nèi)容的模型,通常需要大量的計(jì)算資源來運(yùn)行。例如100萬用戶同時(shí)使用大模型時(shí),每年的算力成本可能會(huì)上億,難以商業(yè)化。對于普通用戶來說,這樣高成本大模型應(yīng)用產(chǎn)品可能難以承受,這也限制了C端應(yīng)用的推廣。
現(xiàn)階段,解決方案可能包括采用更高效的算法、優(yōu)化模型結(jié)構(gòu)以減少計(jì)算量,或者利用云計(jì)算等分布式計(jì)算資源來分?jǐn)偝杀尽?/p>
而當(dāng)前大模型的智能體在某些方面還像是一個(gè)“五歲的小孩”,存在“智商”不夠高,發(fā)揮不穩(wěn)定、容易產(chǎn)生幻覺等問題,這嚴(yán)重影響了用戶體驗(yàn)和信任度。這些問題需要高準(zhǔn)確性的應(yīng)用場景,如政府或金融客服場景中是不可接受的。即便是在一些對準(zhǔn)確性要求不那么高的咨詢或運(yùn)維領(lǐng)域,當(dāng)前的準(zhǔn)確率如80%或60%也還未達(dá)到廣泛應(yīng)用的臨界點(diǎn)。
提高智能體的性能和穩(wěn)定性需要不斷優(yōu)化算法、增加訓(xùn)練數(shù)據(jù)的多樣性和數(shù)量、引入更復(fù)雜的模型架構(gòu)等。同時(shí),也需要加強(qiáng)實(shí)時(shí)監(jiān)控和錯(cuò)誤處理機(jī)制,以確保大模型在復(fù)雜環(huán)境下的穩(wěn)定性。
圖像識(shí)別是多模態(tài)大模型應(yīng)用中一個(gè)非常重要的領(lǐng)域,在預(yù)訓(xùn)練模型基礎(chǔ)上,可以以極低成本開發(fā)新圖像識(shí)別模型,覆蓋眾多長尾場景,具有較大的市場潛力。盡管圖像識(shí)別有很多應(yīng)用場景,但當(dāng)前的圖像識(shí)別大模型仍然有精度低的問題,同時(shí)算力要求也相對較高。
此外,由于之前一代的人工智能,在圖像理解方面已經(jīng)做得相對成熟,人們對大模型能夠產(chǎn)生的額外價(jià)值還沒有完全接受,這也影響了其推廣速度。
齊鵬:在垂直行業(yè)落地方面,以制造業(yè)的人形機(jī)器人為例,人形機(jī)器人要達(dá)到家庭可用的程度,可能還需要五到十年的時(shí)間,這主要是因?yàn)樗鼈冊谲浖系姆夯芰ι胁蛔銐颍瑫r(shí)硬件方面也需要進(jìn)一步的研發(fā)和完善。
更實(shí)際的研究方向,就是專注于制造業(yè)場景中的機(jī)械臂泛化問題。雖然機(jī)械臂本身已經(jīng)非常成熟,并且在市場上被國內(nèi)外的主要制造商所占據(jù),現(xiàn)有的機(jī)械臂缺乏足夠的泛化能力,它們不能靈活地適應(yīng)多種不同的工作任務(wù)。這導(dǎo)致在實(shí)際應(yīng)用中,每當(dāng)需要機(jī)械臂執(zhí)行新的任務(wù)時(shí),都需要進(jìn)行重新的編程,這在任務(wù)頻繁變化的情況下是不切實(shí)際的。
解決機(jī)械臂泛化問題的關(guān)鍵在于軟件開發(fā),特別是那些能夠使機(jī)械臂處理更廣泛場景的軟件。預(yù)計(jì)在一兩年之內(nèi),通過軟件的優(yōu)化和開發(fā),機(jī)械臂的泛化能力將能夠得到顯著提升。
當(dāng)然,要實(shí)現(xiàn)機(jī)械臂的泛化能力這一目標(biāo)需要面臨一些挑戰(zhàn),就是數(shù)據(jù)的不足。為了訓(xùn)練出能夠處理多種場景的機(jī)械臂,需要大量的高質(zhì)量數(shù)據(jù)來支持算法的學(xué)習(xí)和優(yōu)化。
其實(shí),大模型在制造業(yè)中可以作為一種智能體,能夠整體地調(diào)用不同的軟件。意味著,在制造業(yè)的復(fù)雜系統(tǒng)中,原本需要人工操作或編程連接的各種軟件,現(xiàn)在理論上可以通過大模型來實(shí)現(xiàn)自動(dòng)化的調(diào)用和整合。
用戶只需通過語言或想法與大模型交互,大模型便能自動(dòng)執(zhí)行相應(yīng)的程序,完成各種任務(wù)。但由于不同制造業(yè)公司的生產(chǎn)環(huán)境、系統(tǒng)和API各不相同,大模型在不同場景下的適配性成為一大挑戰(zhàn)。即使在一個(gè)場景中調(diào)優(yōu)得很好的大模型,換到另一個(gè)環(huán)境也可能無法正常工作。因此,企業(yè)開發(fā)者需要針對具體場景進(jìn)行精調(diào),以提高大模型的性能和精度。
這一限制直接影響了大模型在制造業(yè)中的廣泛應(yīng)用和深入發(fā)展。因?yàn)橹圃鞓I(yè)往往涉及高度復(fù)雜和精細(xì)化的操作,需要高精度的計(jì)算和控制。如果大模型無法勝任這些任務(wù),那么它就無法在制造業(yè)中發(fā)揮出應(yīng)有的潛力。
除了大模型自身的能力限制外,系統(tǒng)間的兼容性問題也是制約大模型在制造業(yè)中應(yīng)用的一個(gè)重要因素。不同公司或生產(chǎn)單位可能使用完全不同的系統(tǒng),包括不同的軟件、硬件和API。這使得大模型在一個(gè)場景下調(diào)優(yōu)后,很難直接應(yīng)用于另一個(gè)場景,因?yàn)閮蓚€(gè)場景的系統(tǒng)環(huán)境可能截然不同。這種系統(tǒng)間的差異性增加了大模型在制造業(yè)中應(yīng)用的復(fù)雜性和成本。
其實(shí)有一種解決的辦法。針對制造業(yè)或者金融、零售等垂直行業(yè),可以定義標(biāo)準(zhǔn)化大模型的接口。這些接口將明確大模型能夠提供的具體能力,使得所有系統(tǒng)都能夠通過這些接口來調(diào)用大模型的功能。這樣做的好處是,無論系統(tǒng)環(huán)境如何變化,只要它們遵循這些標(biāo)準(zhǔn)化的接口規(guī)范,就能夠與大模型進(jìn)行無縫對接。
所以,通過定義標(biāo)準(zhǔn)化的接口,企業(yè)開發(fā)者可以大大降低大模型與不同系統(tǒng)之間的匹配難度,使得大模型能夠更加快速地適應(yīng)不同的生產(chǎn)環(huán)境。標(biāo)準(zhǔn)化的接口有助于確保大模型能夠在各種系統(tǒng)中穩(wěn)定運(yùn)行,減少因系統(tǒng)差異而導(dǎo)致的兼容性問題。
總的來說,大模型在多個(gè)垂直行業(yè)都有廣泛的應(yīng)用,但真正落地的案例卻相對較少。主要是是兩方面的原因:一是數(shù)學(xué)能力和工程能力的不足,大模型在實(shí)際應(yīng)用中難以達(dá)到足夠的精度和穩(wěn)定性。二是大模型本身作為機(jī)器學(xué)習(xí)范疇的一部分,其基于統(tǒng)計(jì)方法的本質(zhì)決定了它無法做到百分之百的正確。
其實(shí),人類的大腦結(jié)構(gòu)也不是百分之百精確,但人的判斷往往足夠精確,能夠滿足大多數(shù)實(shí)際場景的需求。相比之下,大模型即使經(jīng)過訓(xùn)練,其精確度可能仍停留在95%左右,這在某些對精度要求極高的場景中可能不夠用。此外,大模型的數(shù)學(xué)能力相對較差,也限制了其在某些領(lǐng)域的應(yīng)用。
如果想克服這些限制,需要意識(shí)到大模型配套設(shè)施的重要性。通過為大模型提供必要的配套設(shè)施和工具,可以彌補(bǔ)其數(shù)學(xué)和工程能力上的不足,從而使其更好地適應(yīng)實(shí)際應(yīng)用場景的需求。這種配套設(shè)施可能包括更精確的數(shù)據(jù)集、更高效的算法、更穩(wěn)定的硬件平臺(tái)等。
齊鵬:有時(shí)候是由于原始數(shù)據(jù)本身缺失或者存在問題,大語言模型在訓(xùn)練過程中無法學(xué)習(xí)到正確的知識(shí),因此無法做出正確的推斷。這種錯(cuò)誤不是由于大語言模型本身的缺陷造成的,而是由于輸入數(shù)據(jù)的不準(zhǔn)確性。
如果在一個(gè)假設(shè)的、所有信息都指向錯(cuò)誤結(jié)論的環(huán)境中訓(xùn)練大模型,那么這個(gè)大模型也會(huì)基于這些錯(cuò)誤的信息做出錯(cuò)誤的判斷。這強(qiáng)調(diào)了數(shù)據(jù)和環(huán)境對智能體和大模型性能的重要影響。
有時(shí)候大模型可能會(huì)生成看似有邏輯、有思想但實(shí)際上并不真實(shí)或準(zhǔn)確的響應(yīng)。這類似于5歲小孩經(jīng)常會(huì)信誓旦旦的描述一些錯(cuò)誤的記憶。
成人在處理信息和記憶時(shí)也經(jīng)常出現(xiàn)幻覺或記憶錯(cuò)誤。例如在庭審記錄、案件分析時(shí)候,當(dāng)事人在非常嚴(yán)肅和重要的場合下,也可能因?yàn)楦鞣N壓力、誤導(dǎo)性信息等而產(chǎn)生錯(cuò)誤的記憶或幻覺。
齊鵬:目前,國外在提升技術(shù)方面仍然保持著較強(qiáng)的信心,并沒有完全轉(zhuǎn)向應(yīng)用發(fā)展。這可能與國外市場相對較為成熟和穩(wěn)定有關(guān),使得企業(yè)能夠有更多的資源和空間來專注于技術(shù)研發(fā)和創(chuàng)新。相比之下,國內(nèi)市場則面臨著更為激烈的競爭環(huán)境,大部分大模型底座研發(fā)企業(yè)已經(jīng)大規(guī)模轉(zhuǎn)向應(yīng)用。
國內(nèi)市場的競爭不僅體現(xiàn)在企業(yè)數(shù)量上,還體現(xiàn)在價(jià)格戰(zhàn)上。由于多家企業(yè)同時(shí)提供類似的服務(wù),導(dǎo)致大模型的價(jià)格迅速下降,這使得企業(yè)難以通過提供服務(wù)來收回成本。而在國外,以ChatGPT為代表的企業(yè)能夠憑借其在技術(shù)上的領(lǐng)先地位和市場認(rèn)可度,持續(xù)獲得收入并用于進(jìn)一步的研發(fā)和創(chuàng)新。
在國內(nèi)市場,由于價(jià)格戰(zhàn)的激烈和付費(fèi)意愿的相對較弱,企業(yè)可能不得不將更多的精力放在開發(fā)新的應(yīng)用上,以尋求商業(yè)化的突破。這種策略雖然能夠在一定程度上緩解企業(yè)的經(jīng)濟(jì)壓力,但也可能導(dǎo)致企業(yè)在技術(shù)研發(fā)上的投入不足,從而影響其長期的競爭力。
齊鵬:我認(rèn)為,人類社會(huì)正處于通往AGI的關(guān)鍵時(shí)期。盡管現(xiàn)階段業(yè)界認(rèn)為某些技術(shù)或模型沒有在通向AGI的正確道路上,認(rèn)為這些技術(shù)或者模型不屬于AGI。但將來某一天,我們回顧這段歷史時(shí),可能會(huì)意識(shí)到我們正站在一個(gè)重要的歷史節(jié)點(diǎn)上。
以特斯拉的自動(dòng)駕駛技術(shù)為例,五年前人們可能還認(rèn)為L4級別的自動(dòng)駕駛技術(shù)需要一二十年才能實(shí)現(xiàn),但現(xiàn)在這一技術(shù)已經(jīng)取得了顯著的進(jìn)展。這種偶然性的進(jìn)步讓業(yè)界可以相信,真正的AGI也可能在不經(jīng)意間就實(shí)現(xiàn)了。
莊少彬:AGI的理想狀態(tài)是什么?AGI應(yīng)該不僅具備高階的思維能力,更重要的是能夠應(yīng)用于實(shí)際生活中,特別是在產(chǎn)業(yè)界。
目前,人們已經(jīng)看到了很多機(jī)器人和AI技術(shù)在實(shí)體設(shè)備上的應(yīng)用,這表明人們正在努力將AI技術(shù)從計(jì)算機(jī)中解放出來,轉(zhuǎn)變?yōu)橛行蔚摹⒛軇?dòng)的實(shí)體。這一跨越對于AI技術(shù)來說是非常重要的,只有在實(shí)際應(yīng)用中,AI才能創(chuàng)造出更大的價(jià)值。
齊鵬:在AGI發(fā)展過程中,人類需要有一種多元和包容的態(tài)度。如果把AGI比作一個(gè)班級中不同成績的學(xué)生作業(yè),盡管學(xué)生們的能力有所差異,但都能完成一些最基本的事情。類似地,即使各架構(gòu)在性能上存在差異,但它們都能完成一些基本任務(wù),只是在高難度任務(wù)上能力有所不同。
尤其是,在大量數(shù)據(jù)和算力的支持下,不同的架構(gòu)可能會(huì)通過增加參數(shù)量等方式來提升其基礎(chǔ)能力,使得它們都能表現(xiàn)出一定的水平。同時(shí),當(dāng)前大模型領(lǐng)域也有一些新的趨勢,如線性注意力機(jī)制等優(yōu)化方法,這些方法旨在減少傳統(tǒng)Transformer模型的計(jì)算量,提升效率
對于AGI的最終實(shí)現(xiàn)路徑,其實(shí)沒有一條固定的路線,目前的各種模型和技術(shù)都有其優(yōu)點(diǎn)和局限性。在AGI的發(fā)展過程中,需要多種架構(gòu)和技術(shù)的不斷探索和融合。不同的架構(gòu)和技術(shù)都會(huì)在這個(gè)過程中為AGI提供重要的參考和借鑒,推動(dòng)其不斷向前發(fā)展。同時(shí)也需要關(guān)注模型的實(shí)用性和自我修正能力。
齊鵬:在創(chuàng)新研究方面,由于資金有限,研究院需要明確自己能夠努力達(dá)成的目標(biāo),而不是盲目追求那些需要大量資源的項(xiàng)目,如百度等大公司才能承擔(dān)的大語言模型。
其次,研究院團(tuán)隊(duì)要選擇可以通過一定努力可以實(shí)現(xiàn)的、具有實(shí)際價(jià)值的研究項(xiàng)目。例如,團(tuán)隊(duì)研發(fā)的基于Latte時(shí)空耦合注意力架構(gòu)的類Sora模型,以16秒高清視頻生成為例,這是研究院在現(xiàn)有資源下可以努力達(dá)成的目標(biāo)。同時(shí),研究院也需要選擇一些可能需要較少資源的研究方向,如模型優(yōu)化或配套應(yīng)用等。
在商業(yè)化落地方面,研究院應(yīng)該專注于AIGC的落地應(yīng)用,特別是“最后一公里”的問題。這就意味著研究院需要關(guān)注如何將研究成果轉(zhuǎn)化為實(shí)際的產(chǎn)品或服務(wù),以滿足市場需求,實(shí)現(xiàn)商業(yè)化落地。
盡管大模型的智商可以不斷提升,從五歲、十歲到十八歲,甚至達(dá)到頂級專家的水平,但這樣的系統(tǒng)永遠(yuǎn)需要配套的設(shè)施或工具來支持其運(yùn)行和應(yīng)用。這些配套設(shè)施的研發(fā)成本可能相對較低,但它們在推動(dòng)大模型的實(shí)際應(yīng)用和社會(huì)價(jià)值方面起著至關(guān)重要的作用。
因此,國內(nèi)AI領(lǐng)域的研究機(jī)構(gòu)團(tuán)隊(duì)?wèi)?yīng)該主要專注于這些配套設(shè)施的研發(fā),以支持大模型的運(yùn)行和落地應(yīng)用。
(本文首發(fā)鈦媒體App,作者|竇悅怡、林志佳,編輯|林志佳)
![]()
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號(hào)后發(fā)表評論
解決不了9.11與9.9誰大的問題
盡管大模型潛力巨大,但也存在不足
大模型難以處理復(fù)雜任務(wù),幻覺長期存在。
大模型解決的是高端問題。