亚洲一级黄色电影,国产无码激情自拍,久久久精品99久久

近期，一則關(guān)于“大模型測不出9.11和9.9哪個(gè)大”的消息引發(fā)討論。

當(dāng)用戶問包括GPT-4o在內(nèi)的國內(nèi)外12款 AI大模型“9.11和9.9哪個(gè)更大”這樣一道小學(xué)生難度的數(shù)學(xué)題，最終結(jié)果中，竟然只有阿里通義千問、百度文心一言、Minimax和騰訊元寶4個(gè)答對，而ChatGPT-4o等8款大模型給出了錯(cuò)誤的答案。

這意味著，大模型的數(shù)學(xué)能力較差，存在諸多問題亟待解決。

早前與鈦媒體AGI獨(dú)家對話時(shí)，上海交通大學(xué)重慶人工智能研究院（滬渝人工智能研究院）AI大模型中心主任齊鵬博士表示，盡管大模型潛力巨大，能處理復(fù)雜問題并具備學(xué)習(xí)泛化能力。但大語言模型可能由于模型架構(gòu)限制，更像是“文科生”，缺乏理科能力。而且目前受限算力不足、文本數(shù)據(jù)不足、精確度和可靠性有偏差以及模型規(guī)模不夠大等問題，其智能水平仍在孩童級別，更像是一個(gè)“五歲的小孩”，難以處理復(fù)雜任務(wù)，“幻覺”長期存在。

齊鵬本碩畢業(yè)于清華大學(xué)，并在美國威斯康星大學(xué)完成博士學(xué)位，現(xiàn)任職于上海交大重慶人工智能研究院。齊鵬多年深耕數(shù)據(jù)科學(xué)、AI 等領(lǐng)域，參與多個(gè)國家級科技課題，擁有多項(xiàng)知識(shí)產(chǎn)權(quán)。

隨著ChatGPT風(fēng)靡全球，過去一年多時(shí)間，齊鵬帶領(lǐng)上海交大重慶人工智能研究院AI大模型中心團(tuán)隊(duì)，自主研發(fā)“兆言”大語言模型，并在今年3月SuperCLUE中文大模型智能體評測基準(zhǔn)中位列全球第三、國內(nèi)第二。

與此同時(shí)，今年7月，齊鵬帶領(lǐng)上海交通大學(xué)博士生莊少彬等人參加開源社區(qū)項(xiàng)目成功復(fù)現(xiàn)了類Sora文生視頻模型，采用先進(jìn)的Latte時(shí)空解耦注意力架構(gòu)，經(jīng)過精心訓(xùn)練，能夠在InternVid視頻數(shù)據(jù)集上生成長達(dá)16秒（128幀）的視頻，相比之前開源模型僅能生成3秒（24幀）視頻，性能提升了5倍（500%）。

7月12日，齊鵬、莊少彬二人與鈦媒體進(jìn)行約2小時(shí)的獨(dú)家對話，圍繞Sora發(fā)展現(xiàn)狀以及大模型的發(fā)展所面臨的挑戰(zhàn)、行業(yè)落地情況，以及未來的發(fā)展方向等話題展開對話。

談及Sora技術(shù)帶來的影響，齊鵬對鈦媒體AGI表示，Sora更像一個(gè)新“錘子”，能夠解決多種問題。Sora文生視頻模型在視頻生成之外，還能在自動(dòng)駕駛、物理世界模擬等多個(gè)領(lǐng)域發(fā)揮作用。而最直觀的應(yīng)用就是視頻生成，用戶只需輸入文字描述，就能快速生成符合要求的視頻內(nèi)容，提高了視頻制作的效率和便捷性。

談到行業(yè)落地，齊鵬指出，大模型在多個(gè)垂直行業(yè)都有廣泛的應(yīng)用，但真正落地的案例卻相對較少。主要原因有兩點(diǎn)：一是大模型的數(shù)學(xué)能力和工程能力的不足；二是大模型作為機(jī)器學(xué)習(xí)范疇的一部分，其基于統(tǒng)計(jì)方法的本質(zhì)決定了它無法做到100%的正確度。

展望未來AGI發(fā)展，齊鵬強(qiáng)調(diào)，人類社會(huì)正處于通往AGI的關(guān)鍵時(shí)期。盡管當(dāng)前模型能力沒有達(dá)到AGI標(biāo)準(zhǔn)，但將來某一天，人們回顧這段歷史時(shí)，可能會(huì)意識(shí)到，ChatGPT讓我們正站在一個(gè)重要的歷史節(jié)點(diǎn)上。

“研究院的一個(gè)重要目標(biāo)是實(shí)現(xiàn)技術(shù)的商業(yè)化落地，大模型中心目前專注于AIGC的落地應(yīng)用，特別是‘最后一公里’問題，如何將研究成果轉(zhuǎn)化為實(shí)際的產(chǎn)品或服務(wù)，以滿足市場需求。盡管大模型智力可以不斷提升，從五歲、十歲到十八歲，甚至達(dá)到頂級專家的水平，但這樣的系統(tǒng)永遠(yuǎn)需要配套的設(shè)施和工具來支持其運(yùn)行和應(yīng)用。設(shè)施研發(fā)成本可能相對較低，但它們在推動(dòng)大模型的實(shí)際應(yīng)用和社會(huì)價(jià)值方面起到至關(guān)重要的作用。”齊鵬表示。

上海交通大學(xué)重慶人工智能研究院AI大模型中心主任齊鵬博士

以下是鈦媒體AGI與齊鵬、莊少彬的對話整理：

鈦媒體AGI：相比其他視頻模型，此次上海交通大學(xué)重慶人工智能研究院聯(lián)合研發(fā)復(fù)現(xiàn)類Sora文生視頻模型核心差異點(diǎn)是什么？

齊鵬：這個(gè)項(xiàng)目是由莊少彬博士帶領(lǐng)團(tuán)隊(duì)研發(fā)的。團(tuán)隊(duì)選擇使用全開源的數(shù)據(jù)進(jìn)行模型訓(xùn)練。團(tuán)隊(duì)不僅開源了數(shù)據(jù)，還公開了訓(xùn)練流程。這樣，其他研究者或開發(fā)者可以根據(jù)相同的步驟和參數(shù)設(shè)置，在自己的環(huán)境中重現(xiàn)模型的訓(xùn)練過程，驗(yàn)證模型的有效性和穩(wěn)定性。

第一，團(tuán)隊(duì)使用全開源數(shù)據(jù)進(jìn)行模型訓(xùn)練意味著整個(gè)訓(xùn)練過程是基于公開可訪問的數(shù)據(jù)集進(jìn)行的。這樣的方式可以保證了訓(xùn)練過程的透明度和可重復(fù)性，任何有興趣的人都可以使用相同的數(shù)據(jù)集來復(fù)現(xiàn)或改進(jìn)模型。

第二，團(tuán)隊(duì)采用了間接式的訓(xùn)練方式，這種方式能夠在較低的計(jì)算成本下高效地訓(xùn)練出模型。這種方法適用于大規(guī)模數(shù)據(jù)集和復(fù)雜模型，因?yàn)樗鼈冃枰L的訓(xùn)練時(shí)間和更高的計(jì)算資源。通過使用間接式訓(xùn)練，可以在不增加單個(gè)計(jì)算節(jié)點(diǎn)算力成本的前提下，通過增加計(jì)算節(jié)點(diǎn)的數(shù)量來縮短訓(xùn)練時(shí)間。

第三，團(tuán)隊(duì)還進(jìn)行了一些底層的優(yōu)化工作，特別是針對顯存開銷的優(yōu)化。這些優(yōu)化可以使模型能夠在集群或服務(wù)器上穩(wěn)定地進(jìn)行長視頻的訓(xùn)練，提高了模型的訓(xùn)練效率和可擴(kuò)展性。

鈦媒體AGI：選擇開源模式的背后邏輯和原因是什么？

齊鵬：與商業(yè)化項(xiàng)目不同，團(tuán)隊(duì)和開源社區(qū)合作的研究類項(xiàng)目采用開源模型的優(yōu)勢是能夠吸引更多研發(fā)人員的參與。由于沒有版權(quán)和商業(yè)化的限制，任何對這個(gè)項(xiàng)目感興趣的人都可以輕松地獲取和使用模型，可以提出自己的改進(jìn)意見或貢獻(xiàn)新的代碼。這種模式可以幫助模型的持續(xù)改進(jìn)和優(yōu)化，還可以加強(qiáng)跨學(xué)科、跨領(lǐng)域的交流與合作。

鈦媒體AGI：這款復(fù)現(xiàn)的類Sora視頻模型采用Latte時(shí)空耦合注意力架構(gòu)，沒有與DiT架構(gòu)產(chǎn)生聯(lián)系的原因是什么？

齊鵬：團(tuán)隊(duì)研發(fā)類Sora模型架構(gòu)并不是完全摒棄了Transformer或其他傳統(tǒng)模型，是在DiT的基礎(chǔ)上進(jìn)行了擴(kuò)展，加入了時(shí)間維度以支持視頻處理。這種新架構(gòu)的考量可能是為了更好地適應(yīng)視頻數(shù)據(jù)的特性，提高模型在視頻生成或處理任務(wù)上的性能。

鈦媒體AGI：DiT架構(gòu)在生成長視頻方面存在限制，而Latte時(shí)空耦合注意力架構(gòu)是否能解決這些問題？

莊少彬：目前團(tuán)隊(duì)正在訓(xùn)練的最好模型能夠生成最長16秒的視頻。這相較于之前基于unet架構(gòu)的模型已經(jīng)有了很大的進(jìn)步，因?yàn)槟菚r(shí)的模型通常只能生成兩到三秒的視頻。16秒并不是特別長的時(shí)長，但在目前在視頻生成領(lǐng)域已經(jīng)是一個(gè)相對較長的記錄了。

視頻生成中連續(xù)性和連貫性的問題，這主要受到數(shù)據(jù)質(zhì)量的影響。如果視頻數(shù)據(jù)中存在畫面跳變等不連貫的情況，那么訓(xùn)練出來的模型也很可能會(huì)生成不連貫的視頻。此外，模型訓(xùn)練時(shí)的幀率和分辨率對視頻生成質(zhì)量的影響。如果模型只訓(xùn)練在較低分辨率和幀率的數(shù)據(jù)上，那么它可能無法生成高分辨率和流暢的視頻。

為什么無法端到端生成一兩分鐘長度的視頻？端到端的一兩分鐘的視頻意味著上千幀甚至兩三千幀的數(shù)據(jù)，這需要上百上千倍的計(jì)算資源消耗。雖然Latte時(shí)空耦合注意力架構(gòu)在理論上可以擴(kuò)展到這樣的時(shí)長，但目前還沒有機(jī)構(gòu)擁有足夠的算力和數(shù)據(jù)來支撐這樣的訓(xùn)練。

鈦媒體AGI：目前來看，Sora到底誰在用？解決哪些問題？帶來哪些價(jià)值？

莊少彬：在C端，對于非專業(yè)的視頻制作者，如普通家庭用戶，Sora這類視頻生成模型能夠極大地降低視頻制作的難度。用戶只需簡單輸入文字描述，即可生成精美的視頻內(nèi)容，從而更容易地參與到視頻創(chuàng)作中來。

在B端，對于專業(yè)的視頻剪輯師和創(chuàng)意人員，Sora能夠生成復(fù)雜的、或者一些天馬行空的視頻素材。專業(yè)人員可以在模型提供的素材基礎(chǔ)上進(jìn)行微調(diào)和優(yōu)化，從而提高了工作效率和創(chuàng)作質(zhì)量。

Sora不僅僅用在視頻制作上，在自動(dòng)駕駛、3D生成與建模、物理學(xué)研究等多個(gè)領(lǐng)域也有一系列的探索。自動(dòng)駕駛系統(tǒng)需要準(zhǔn)確預(yù)測周圍物體的動(dòng)態(tài)變化，而Sora作為“世界模擬器”，能夠模擬和預(yù)測物體的運(yùn)動(dòng)軌跡，為自動(dòng)駕駛系統(tǒng)提供更為精準(zhǔn)的環(huán)境建模。

例如在自動(dòng)駕駛領(lǐng)域，特斯拉的自動(dòng)駕駛方案以及類似的高級駕駛輔助系統(tǒng)在技術(shù)上已經(jīng)取得了顯著的進(jìn)步，它們能夠?qū)崟r(shí)感知周圍環(huán)境，包括車輛、行人、障礙物等，這是實(shí)現(xiàn)自動(dòng)駕駛的基礎(chǔ)。Sora幫助自動(dòng)駕駛系統(tǒng)提前做出決策，避免潛在的危險(xiǎn)情況，如碰撞、追尾等。同時(shí)，通過預(yù)判物體的移動(dòng)，系統(tǒng)還可以優(yōu)化行駛路線和速度，提高交通效率，減少擁堵和排放。

總的來說，Sora降低了視頻制作的門檻，使得更多人能夠參與到視頻創(chuàng)作中來，無論是C端的非專業(yè)用戶還是B端專業(yè)視頻制作者都能從中受益。

齊鵬：Sora更像一個(gè)“錘子”，一種新工具，能夠解決多種問題的工具。Sora文生視頻模型在視頻生成之外，還能在自動(dòng)駕駛、物理世界模擬等多個(gè)領(lǐng)域發(fā)揮作用。最直觀的應(yīng)用就是視頻生成，用戶只需輸入文字描述，就能快速生成符合要求的視頻內(nèi)容，提高了視頻制作的效率和便捷性。

很多時(shí)候，技術(shù)的發(fā)展并不是為了解決某個(gè)特定問題而進(jìn)行的，而是在研究過程中意外發(fā)現(xiàn)了強(qiáng)大的解決方法。這種方法一旦成熟，就能夠廣泛應(yīng)用于多個(gè)領(lǐng)域，解決一系列問題。

目前，Sora仍處于測試階段，并未廣泛公開使用。在中國，可能有一些內(nèi)測或外測版本的應(yīng)用案例，但數(shù)量相對較少，且主要限于生成短小的視頻或電影片段。由于這是測試版，很多情況下可能是免費(fèi)提供的。如果未來開始收費(fèi)，成本也是當(dāng)前視頻制作費(fèi)用的很小一部分，比如幾百元，從而極大地降低視頻制作的成本。

鈦媒體AGI：團(tuán)隊(duì)在做Sora模型研發(fā)過程中遇到哪些挑戰(zhàn)？如何克服這些挑戰(zhàn)？

齊鵬：這個(gè)項(xiàng)目主要是和開源社區(qū)合作的，主要的研發(fā)工作是由莊少彬博士和一、兩名研發(fā)人員合作進(jìn)行的。項(xiàng)目整體被分為了四個(gè)組，分別負(fù)責(zé)數(shù)據(jù)采集與打標(biāo)、模型訓(xùn)練、模型評測以及訓(xùn)練提速和機(jī)器優(yōu)化。

莊少彬：在模型訓(xùn)練過程中，團(tuán)隊(duì)面臨的最大挑戰(zhàn)是計(jì)算資源不夠。特別是在處理大規(guī)模數(shù)據(jù)和復(fù)雜模型時(shí)，對計(jì)算資源的需求非常高。為了更高效地利用有限的機(jī)器資源，項(xiàng)目組的算法團(tuán)隊(duì)進(jìn)行了大量的優(yōu)化工作。

這些優(yōu)化包括模型并行、流水線并行等高級優(yōu)化策略，以及針對單個(gè)模型的顯存優(yōu)化。

此外，團(tuán)隊(duì)還針對視頻領(lǐng)域進(jìn)行的優(yōu)化，這樣可以使項(xiàng)目有明確的應(yīng)用場景和目標(biāo)領(lǐng)域，更好滿足項(xiàng)目的實(shí)際應(yīng)用需求。

鈦媒體AGI：之前上海交通大學(xué)重慶人工智能研究院還與鄉(xiāng)村振興（重慶）研究院發(fā)布了鄉(xiāng)村振興農(nóng)業(yè)大模型“兆言·兆豐”，為何要開發(fā)這種模型？

齊鵬：重慶作為唯一一個(gè)有農(nóng)村場景的直轄市，為農(nóng)業(yè)大模型的應(yīng)用提供了豐富的場景和廣闊的空間。鄉(xiāng)村振興大模型利用了海量的網(wǎng)上數(shù)據(jù)和農(nóng)科院的農(nóng)業(yè)數(shù)據(jù)，這些數(shù)據(jù)為模型的構(gòu)建和訓(xùn)練提供了基礎(chǔ)，能夠更準(zhǔn)確地反映農(nóng)業(yè)生產(chǎn)的實(shí)際情況。目前，此項(xiàng)目是與政府機(jī)構(gòu)、鄉(xiāng)村振興（重慶）研究院等多方聯(lián)合開發(fā)的。這種合作模式有助于整合資源、技術(shù)和資金，共同推動(dòng)農(nóng)業(yè)大模型的研發(fā)和應(yīng)用。

鄉(xiāng)村振興大模型計(jì)劃打造14款，目前已有3-4款相關(guān)產(chǎn)品，通過大模型將專家的知識(shí)轉(zhuǎn)化為可普及、易理解的信息，解決農(nóng)業(yè)生產(chǎn)、管理和民生中的問題，幫助農(nóng)業(yè)從業(yè)者能夠像城鎮(zhèn)居民一樣方便地獲取和使用農(nóng)業(yè)知識(shí)，助于縮小城鄉(xiāng)之間的信息差距，提高農(nóng)業(yè)生產(chǎn)的效率和效益。

鈦媒體AGI：現(xiàn)階段，大模型技術(shù)的發(fā)展瓶頸是什么？

齊鵬：首先，明確團(tuán)隊(duì)對大模型的定義是什么，是大語言模型。大語言模型是主流，核心在于知識(shí)和邏輯。隨著大語言模型的不斷發(fā)展，其智能水平可能會(huì)從五歲小孩的智商逐漸提升到十歲、十八歲甚至超人的水平。這一過程主要依賴于模型對知識(shí)和邏輯的掌握和應(yīng)用。

與大語言模型不同，文生視頻模型是大模型的另一條線，不涉及復(fù)雜的知識(shí)和邏輯，而是更側(cè)重于對物理世界規(guī)律的理解和模擬。文生視頻建模這類模型能夠基于感知和經(jīng)驗(yàn)來預(yù)測和應(yīng)對物理世界的變化，但缺乏高層次的邏輯理解和知識(shí)總結(jié)能力。

此外，還有多模態(tài)模型，這類模型能夠?qū)⑽淖?、圖像、聲音等多種信息形式進(jìn)行編碼并統(tǒng)一處理。多模態(tài)模型是未來的發(fā)展方向之一，它能夠更全面地理解和處理現(xiàn)實(shí)世界中的復(fù)雜信息。

目前，大模型目前進(jìn)入平臺(tái)期，在智能水平上好像難以實(shí)現(xiàn)質(zhì)的飛躍。我們還是相信更大的模型往往能處理更復(fù)雜的問題，具有更強(qiáng)的學(xué)習(xí)和泛化能力。一旦有一個(gè)模型能夠達(dá)到99.9%正確率，那么這種大模型將成為一種全新的生產(chǎn)力工具，能夠勝任各種任務(wù)。

大模型的發(fā)展存在算力不足、文本數(shù)據(jù)不足、精確度和可靠性有偏差以及模型規(guī)模不夠大等問題。這樣，使大模型“智商”還不夠高，更像一個(gè)五六歲小孩智商的水平，大模型的處理復(fù)雜任務(wù)的能力有限，無法達(dá)到人們期望的程度。

其次，由于大語言模型架構(gòu)限制，大模型有點(diǎn)像“文科生”，它對語言的處理非常好，但是做數(shù)學(xué)、工程就就不太行?？梢园汛竽Ｐ捅茸髌髽I(yè)的“CEO或COO”。這個(gè)“CEO或COO”，雖然可能對技術(shù)不太懂，但能夠調(diào)動(dòng)各種高技術(shù)的組件。

同時(shí)，國內(nèi)的大廠和初創(chuàng)企業(yè)在發(fā)展大模型遇到的的困境，主要是因?yàn)橥度氤杀揪薮?，而商業(yè)化又不足以支撐算力和數(shù)據(jù)持續(xù)的投入。

如果大模型的智能水平無法在短時(shí)間內(nèi)實(shí)現(xiàn)顯著提升，那么發(fā)展應(yīng)用便成為了一個(gè)可行的選擇?，F(xiàn)階段的大模型發(fā)展，客戶需要在不同應(yīng)用場景實(shí)踐中探索和提升。通過應(yīng)用商業(yè)化，可以產(chǎn)生收入，進(jìn)而支撐大模型的持續(xù)發(fā)展和優(yōu)化。這既保證了項(xiàng)目的經(jīng)濟(jì)可持續(xù)性，也為未來的技術(shù)創(chuàng)新提供了可能。

此外，大模型企業(yè)還可以通過融資來支持項(xiàng)目的發(fā)展。不過融資并非易事，需要看市場是否認(rèn)可項(xiàng)目的潛力和價(jià)值。

鈦媒體AGI：市場對大模型熱情很高，但落地應(yīng)用推進(jìn)緩慢，與市場期待有誤差，為什么大模型應(yīng)用推進(jìn)緩慢？

第一，當(dāng)前技術(shù)能力不足導(dǎo)致提升有限，降低了主動(dòng)升級的積極性；

第二，新技術(shù)的應(yīng)用需要新的硬件和算力支持，但各個(gè)企業(yè)準(zhǔn)備不足，缺乏足夠的機(jī)房和智能算力資源來部署和運(yùn)行大模型，使得大模型落地到垂直行業(yè)變得困難重重。第二個(gè)問題其實(shí)可以通過相應(yīng)政策解決，如果企業(yè)可以信任政府投資的研究院或者算力中心對于數(shù)據(jù)安全的保證，就可以在建設(shè)自己的智能算力機(jī)房前開始大模型解決方案開發(fā)。

大模型，尤其是那些能夠生成高質(zhì)量文本、圖像等內(nèi)容的模型，通常需要大量的計(jì)算資源來運(yùn)行。例如100萬用戶同時(shí)使用大模型時(shí)，每年的算力成本可能會(huì)上億，難以商業(yè)化。對于普通用戶來說，這樣高成本大模型應(yīng)用產(chǎn)品可能難以承受，這也限制了C端應(yīng)用的推廣。

現(xiàn)階段，解決方案可能包括采用更高效的算法、優(yōu)化模型結(jié)構(gòu)以減少計(jì)算量，或者利用云計(jì)算等分布式計(jì)算資源來分?jǐn)偝杀尽?/p>

而當(dāng)前大模型的智能體在某些方面還像是一個(gè)“五歲的小孩”，存在“智商”不夠高，發(fā)揮不穩(wěn)定、容易產(chǎn)生幻覺等問題，這嚴(yán)重影響了用戶體驗(yàn)和信任度。這些問題需要高準(zhǔn)確性的應(yīng)用場景，如政府或金融客服場景中是不可接受的。即便是在一些對準(zhǔn)確性要求不那么高的咨詢或運(yùn)維領(lǐng)域，當(dāng)前的準(zhǔn)確率如80%或60%也還未達(dá)到廣泛應(yīng)用的臨界點(diǎn)。

提高智能體的性能和穩(wěn)定性需要不斷優(yōu)化算法、增加訓(xùn)練數(shù)據(jù)的多樣性和數(shù)量、引入更復(fù)雜的模型架構(gòu)等。同時(shí)，也需要加強(qiáng)實(shí)時(shí)監(jiān)控和錯(cuò)誤處理機(jī)制，以確保大模型在復(fù)雜環(huán)境下的穩(wěn)定性。

圖像識(shí)別是多模態(tài)大模型應(yīng)用中一個(gè)非常重要的領(lǐng)域，在預(yù)訓(xùn)練模型基礎(chǔ)上，可以以極低成本開發(fā)新圖像識(shí)別模型，覆蓋眾多長尾場景，具有較大的市場潛力。盡管圖像識(shí)別有很多應(yīng)用場景，但當(dāng)前的圖像識(shí)別大模型仍然有精度低的問題，同時(shí)算力要求也相對較高。

此外，由于之前一代的人工智能，在圖像理解方面已經(jīng)做得相對成熟，人們對大模型能夠產(chǎn)生的額外價(jià)值還沒有完全接受，這也影響了其推廣速度。

鈦媒體AGI：如何看待當(dāng)前垂直行業(yè)大模型的產(chǎn)業(yè)創(chuàng)新，為什么落地的垂直行業(yè)案例很少？

齊鵬：在垂直行業(yè)落地方面，以制造業(yè)的人形機(jī)器人為例，人形機(jī)器人要達(dá)到家庭可用的程度，可能還需要五到十年的時(shí)間，這主要是因?yàn)樗鼈冊谲浖系姆夯芰ι胁蛔銐颍瑫r(shí)硬件方面也需要進(jìn)一步的研發(fā)和完善。

更實(shí)際的研究方向，就是專注于制造業(yè)場景中的機(jī)械臂泛化問題。雖然機(jī)械臂本身已經(jīng)非常成熟，并且在市場上被國內(nèi)外的主要制造商所占據(jù)，現(xiàn)有的機(jī)械臂缺乏足夠的泛化能力，它們不能靈活地適應(yīng)多種不同的工作任務(wù)。這導(dǎo)致在實(shí)際應(yīng)用中，每當(dāng)需要機(jī)械臂執(zhí)行新的任務(wù)時(shí)，都需要進(jìn)行重新的編程，這在任務(wù)頻繁變化的情況下是不切實(shí)際的。

解決機(jī)械臂泛化問題的關(guān)鍵在于軟件開發(fā)，特別是那些能夠使機(jī)械臂處理更廣泛場景的軟件。預(yù)計(jì)在一兩年之內(nèi)，通過軟件的優(yōu)化和開發(fā)，機(jī)械臂的泛化能力將能夠得到顯著提升。

當(dāng)然，要實(shí)現(xiàn)機(jī)械臂的泛化能力這一目標(biāo)需要面臨一些挑戰(zhàn)，就是數(shù)據(jù)的不足。為了訓(xùn)練出能夠處理多種場景的機(jī)械臂，需要大量的高質(zhì)量數(shù)據(jù)來支持算法的學(xué)習(xí)和優(yōu)化。

其實(shí)，大模型在制造業(yè)中可以作為一種智能體，能夠整體地調(diào)用不同的軟件。意味著，在制造業(yè)的復(fù)雜系統(tǒng)中，原本需要人工操作或編程連接的各種軟件，現(xiàn)在理論上可以通過大模型來實(shí)現(xiàn)自動(dòng)化的調(diào)用和整合。

用戶只需通過語言或想法與大模型交互，大模型便能自動(dòng)執(zhí)行相應(yīng)的程序，完成各種任務(wù)。但由于不同制造業(yè)公司的生產(chǎn)環(huán)境、系統(tǒng)和API各不相同，大模型在不同場景下的適配性成為一大挑戰(zhàn)。即使在一個(gè)場景中調(diào)優(yōu)得很好的大模型，換到另一個(gè)環(huán)境也可能無法正常工作。因此，企業(yè)開發(fā)者需要針對具體場景進(jìn)行精調(diào)，以提高大模型的性能和精度。

這一限制直接影響了大模型在制造業(yè)中的廣泛應(yīng)用和深入發(fā)展。因?yàn)橹圃鞓I(yè)往往涉及高度復(fù)雜和精細(xì)化的操作，需要高精度的計(jì)算和控制。如果大模型無法勝任這些任務(wù)，那么它就無法在制造業(yè)中發(fā)揮出應(yīng)有的潛力。

除了大模型自身的能力限制外，系統(tǒng)間的兼容性問題也是制約大模型在制造業(yè)中應(yīng)用的一個(gè)重要因素。不同公司或生產(chǎn)單位可能使用完全不同的系統(tǒng)，包括不同的軟件、硬件和API。這使得大模型在一個(gè)場景下調(diào)優(yōu)后，很難直接應(yīng)用于另一個(gè)場景，因?yàn)閮蓚€(gè)場景的系統(tǒng)環(huán)境可能截然不同。這種系統(tǒng)間的差異性增加了大模型在制造業(yè)中應(yīng)用的復(fù)雜性和成本。

其實(shí)有一種解決的辦法。針對制造業(yè)或者金融、零售等垂直行業(yè)，可以定義標(biāo)準(zhǔn)化大模型的接口。這些接口將明確大模型能夠提供的具體能力，使得所有系統(tǒng)都能夠通過這些接口來調(diào)用大模型的功能。這樣做的好處是，無論系統(tǒng)環(huán)境如何變化，只要它們遵循這些標(biāo)準(zhǔn)化的接口規(guī)范，就能夠與大模型進(jìn)行無縫對接。

所以，通過定義標(biāo)準(zhǔn)化的接口，企業(yè)開發(fā)者可以大大降低大模型與不同系統(tǒng)之間的匹配難度，使得大模型能夠更加快速地適應(yīng)不同的生產(chǎn)環(huán)境。標(biāo)準(zhǔn)化的接口有助于確保大模型能夠在各種系統(tǒng)中穩(wěn)定運(yùn)行，減少因系統(tǒng)差異而導(dǎo)致的兼容性問題。

總的來說，大模型在多個(gè)垂直行業(yè)都有廣泛的應(yīng)用，但真正落地的案例卻相對較少。主要是是兩方面的原因：一是數(shù)學(xué)能力和工程能力的不足，大模型在實(shí)際應(yīng)用中難以達(dá)到足夠的精度和穩(wěn)定性。二是大模型本身作為機(jī)器學(xué)習(xí)范疇的一部分，其基于統(tǒng)計(jì)方法的本質(zhì)決定了它無法做到百分之百的正確。

其實(shí)，人類的大腦結(jié)構(gòu)也不是百分之百精確，但人的判斷往往足夠精確，能夠滿足大多數(shù)實(shí)際場景的需求。相比之下，大模型即使經(jīng)過訓(xùn)練，其精確度可能仍停留在95%左右，這在某些對精度要求極高的場景中可能不夠用。此外，大模型的數(shù)學(xué)能力相對較差，也限制了其在某些領(lǐng)域的應(yīng)用。

如果想克服這些限制，需要意識(shí)到大模型配套設(shè)施的重要性。通過為大模型提供必要的配套設(shè)施和工具，可以彌補(bǔ)其數(shù)學(xué)和工程能力上的不足，從而使其更好地適應(yīng)實(shí)際應(yīng)用場景的需求。這種配套設(shè)施可能包括更精確的數(shù)據(jù)集、更高效的算法、更穩(wěn)定的硬件平臺(tái)等。

鈦媒體AGI：為什么大模型會(huì)產(chǎn)生幻覺？

齊鵬：有時(shí)候是由于原始數(shù)據(jù)本身缺失或者存在問題，大語言模型在訓(xùn)練過程中無法學(xué)習(xí)到正確的知識(shí)，因此無法做出正確的推斷。這種錯(cuò)誤不是由于大語言模型本身的缺陷造成的，而是由于輸入數(shù)據(jù)的不準(zhǔn)確性。

如果在一個(gè)假設(shè)的、所有信息都指向錯(cuò)誤結(jié)論的環(huán)境中訓(xùn)練大模型，那么這個(gè)大模型也會(huì)基于這些錯(cuò)誤的信息做出錯(cuò)誤的判斷。這強(qiáng)調(diào)了數(shù)據(jù)和環(huán)境對智能體和大模型性能的重要影響。

有時(shí)候大模型可能會(huì)生成看似有邏輯、有思想但實(shí)際上并不真實(shí)或準(zhǔn)確的響應(yīng)。這類似于5歲小孩經(jīng)常會(huì)信誓旦旦的描述一些錯(cuò)誤的記憶。

成人在處理信息和記憶時(shí)也經(jīng)常出現(xiàn)幻覺或記憶錯(cuò)誤。例如在庭審記錄、案件分析時(shí)候，當(dāng)事人在非常嚴(yán)肅和重要的場合下，也可能因?yàn)楦鞣N壓力、誤導(dǎo)性信息等而產(chǎn)生錯(cuò)誤的記憶或幻覺。

鈦媒體AGI：國內(nèi)外大模型市場環(huán)境的差異化體現(xiàn)在哪里？

齊鵬：目前，國外在提升技術(shù)方面仍然保持著較強(qiáng)的信心，并沒有完全轉(zhuǎn)向應(yīng)用發(fā)展。這可能與國外市場相對較為成熟和穩(wěn)定有關(guān)，使得企業(yè)能夠有更多的資源和空間來專注于技術(shù)研發(fā)和創(chuàng)新。相比之下，國內(nèi)市場則面臨著更為激烈的競爭環(huán)境，大部分大模型底座研發(fā)企業(yè)已經(jīng)大規(guī)模轉(zhuǎn)向應(yīng)用。

國內(nèi)市場的競爭不僅體現(xiàn)在企業(yè)數(shù)量上，還體現(xiàn)在價(jià)格戰(zhàn)上。由于多家企業(yè)同時(shí)提供類似的服務(wù)，導(dǎo)致大模型的價(jià)格迅速下降，這使得企業(yè)難以通過提供服務(wù)來收回成本。而在國外，以ChatGPT為代表的企業(yè)能夠憑借其在技術(shù)上的領(lǐng)先地位和市場認(rèn)可度，持續(xù)獲得收入并用于進(jìn)一步的研發(fā)和創(chuàng)新。

在國內(nèi)市場，由于價(jià)格戰(zhàn)的激烈和付費(fèi)意愿的相對較弱，企業(yè)可能不得不將更多的精力放在開發(fā)新的應(yīng)用上，以尋求商業(yè)化的突破。這種策略雖然能夠在一定程度上緩解企業(yè)的經(jīng)濟(jì)壓力，但也可能導(dǎo)致企業(yè)在技術(shù)研發(fā)上的投入不足，從而影響其長期的競爭力。

鈦媒體AGI：未來AGI發(fā)展方向有哪些？

齊鵬：我認(rèn)為，人類社會(huì)正處于通往AGI的關(guān)鍵時(shí)期。盡管現(xiàn)階段業(yè)界認(rèn)為某些技術(shù)或模型沒有在通向AGI的正確道路上，認(rèn)為這些技術(shù)或者模型不屬于AGI。但將來某一天，我們回顧這段歷史時(shí)，可能會(huì)意識(shí)到我們正站在一個(gè)重要的歷史節(jié)點(diǎn)上。

以特斯拉的自動(dòng)駕駛技術(shù)為例，五年前人們可能還認(rèn)為L4級別的自動(dòng)駕駛技術(shù)需要一二十年才能實(shí)現(xiàn)，但現(xiàn)在這一技術(shù)已經(jīng)取得了顯著的進(jìn)展。這種偶然性的進(jìn)步讓業(yè)界可以相信，真正的AGI也可能在不經(jīng)意間就實(shí)現(xiàn)了。

莊少彬：AGI的理想狀態(tài)是什么？AGI應(yīng)該不僅具備高階的思維能力，更重要的是能夠應(yīng)用于實(shí)際生活中，特別是在產(chǎn)業(yè)界。

目前，人們已經(jīng)看到了很多機(jī)器人和AI技術(shù)在實(shí)體設(shè)備上的應(yīng)用，這表明人們正在努力將AI技術(shù)從計(jì)算機(jī)中解放出來，轉(zhuǎn)變?yōu)橛行蔚摹⒛軇?dòng)的實(shí)體。這一跨越對于AI技術(shù)來說是非常重要的，只有在實(shí)際應(yīng)用中，AI才能創(chuàng)造出更大的價(jià)值。

鈦媒體AGI：除了DiT這條路線之外，AGI的發(fā)展是否還存在其他可能的路線或策略？AGI的實(shí)現(xiàn)路徑是什么？

齊鵬：在AGI發(fā)展過程中，人類需要有一種多元和包容的態(tài)度。如果把AGI比作一個(gè)班級中不同成績的學(xué)生作業(yè)，盡管學(xué)生們的能力有所差異，但都能完成一些最基本的事情。類似地，即使各架構(gòu)在性能上存在差異，但它們都能完成一些基本任務(wù)，只是在高難度任務(wù)上能力有所不同。

尤其是，在大量數(shù)據(jù)和算力的支持下，不同的架構(gòu)可能會(huì)通過增加參數(shù)量等方式來提升其基礎(chǔ)能力，使得它們都能表現(xiàn)出一定的水平。同時(shí)，當(dāng)前大模型領(lǐng)域也有一些新的趨勢，如線性注意力機(jī)制等優(yōu)化方法，這些方法旨在減少傳統(tǒng)Transformer模型的計(jì)算量，提升效率

對于AGI的最終實(shí)現(xiàn)路徑，其實(shí)沒有一條固定的路線，目前的各種模型和技術(shù)都有其優(yōu)點(diǎn)和局限性。在AGI的發(fā)展過程中，需要多種架構(gòu)和技術(shù)的不斷探索和融合。不同的架構(gòu)和技術(shù)都會(huì)在這個(gè)過程中為AGI提供重要的參考和借鑒，推動(dòng)其不斷向前發(fā)展。同時(shí)也需要關(guān)注模型的實(shí)用性和自我修正能力。

鈦媒體AGI：國內(nèi)大模型領(lǐng)域研究創(chuàng)新與商業(yè)化落地之間如何進(jìn)行平衡？

齊鵬：在創(chuàng)新研究方面，由于資金有限，研究院需要明確自己能夠努力達(dá)成的目標(biāo)，而不是盲目追求那些需要大量資源的項(xiàng)目，如百度等大公司才能承擔(dān)的大語言模型。

其次，研究院團(tuán)隊(duì)要選擇可以通過一定努力可以實(shí)現(xiàn)的、具有實(shí)際價(jià)值的研究項(xiàng)目。例如，團(tuán)隊(duì)研發(fā)的基于Latte時(shí)空耦合注意力架構(gòu)的類Sora模型，以16秒高清視頻生成為例，這是研究院在現(xiàn)有資源下可以努力達(dá)成的目標(biāo)。同時(shí)，研究院也需要選擇一些可能需要較少資源的研究方向，如模型優(yōu)化或配套應(yīng)用等。

在商業(yè)化落地方面，研究院應(yīng)該專注于AIGC的落地應(yīng)用，特別是“最后一公里”的問題。這就意味著研究院需要關(guān)注如何將研究成果轉(zhuǎn)化為實(shí)際的產(chǎn)品或服務(wù)，以滿足市場需求，實(shí)現(xiàn)商業(yè)化落地。

盡管大模型的智商可以不斷提升，從五歲、十歲到十八歲，甚至達(dá)到頂級專家的水平，但這樣的系統(tǒng)永遠(yuǎn)需要配套的設(shè)施或工具來支持其運(yùn)行和應(yīng)用。這些配套設(shè)施的研發(fā)成本可能相對較低，但它們在推動(dòng)大模型的實(shí)際應(yīng)用和社會(huì)價(jià)值方面起著至關(guān)重要的作用。

因此，國內(nèi)AI領(lǐng)域的研究機(jī)構(gòu)團(tuán)隊(duì)?wèi)?yīng)該主要專注于這些配套設(shè)施的研發(fā)，以支持大模型的運(yùn)行和落地應(yīng)用。

（本文首發(fā)鈦媒體App，作者｜竇悅怡、林志佳，編輯｜林志佳）

本文系作者竇悅怡授權(quán)鈦媒體發(fā)表，并經(jīng)鈦媒體編輯，轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號(hào)，文章內(nèi)容僅供參考、交流、學(xué)習(xí)，不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn)，點(diǎn)擊這里投稿。創(chuàng)業(yè)或融資尋求報(bào)道，點(diǎn)擊這里。

發(fā)表評論

0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求，請綁定手機(jī)號(hào)后發(fā)表評論

請登錄后輸入評論內(nèi)容

萱萱的可樂
解決不了9.11與9.9誰大的問題
回復(fù) 2024.07.23 · via iphone
睡著了88435
盡管大模型潛力巨大，但也存在不足
回復(fù) 2024.07.22 · via h5
南敘先生yyd
大模型難以處理復(fù)雜任務(wù)，幻覺長期存在。
回復(fù) 2024.07.22 · via android
桔梗不只是朵花兒
大模型解決的是高端問題。
回復(fù) 2024.07.22 · via android

快報(bào)