當ChatGPT引發(fā)中美科技行業(yè)狂熱之后,它的締造者美國OpenAI公司如今又在人工智能(AI)可解釋性研究領域獲得重大突破。

鈦媒體App 5月10日消息,OpenAI今晨發(fā)布一個關于GPT-4語言模型解析神經(jīng)元的對齊性研究成果,利用自研基于GPT-4技術的開源工具,來嘗試計算其他架構、更簡單語言模型上神經(jīng)元的行為并對其進行評分,而且可以將其應用于另一種語言模型中的神經(jīng)元——本次選擇4年前發(fā)布、包含307200個神經(jīng)元的大模型GPT-2為實驗樣本,公開了這些GPT-2神經(jīng)元解釋和分數(shù)的數(shù)據(jù)集。

“我們的目標是使用 Al 來幫助我們理解 Al”,OpenAI 的這一研究對 AI 行業(yè)意味著,利用GPT-4和機器學習技術就能定義、測量 AI 可解釋性,未來在神經(jīng)元層將會產(chǎn)生“大模型比人腦更會思考”技術趨勢。

OpenAI 聯(lián)合創(chuàng)始人 Greg Brockman則表示:我們邁出了使用 AI 進行自動化對齊研究的重要一步。

與此同時,OpenAI 對此依然是一如既往的謙虛,文章稱目前GPT-4生成的可解釋實驗還不完美,當比GPT-2更大模型時解釋表現(xiàn)效果很差。OpenAI可拓展對齊團隊的Jeff Wu直言,本次研究中大多數(shù)解釋的得分很低,GPT-4或無法解釋實際神經(jīng)元那么多的行為,未來仍有技術改進空間。

據(jù)悉,自去年11月底至今,人工智能(AI)聊天機器人大模型ChatGPT風靡全球。根據(jù)Similarweb公布的最新數(shù)據(jù),截至今年4月,ChatGPT平臺訪問量達到17.6億次,比3月份增長了12.6%,同時已達到谷歌的2%。

ChatGPT背后的大型語言模型(LLM),是基于大量文本數(shù)據(jù)訓練、包含數(shù)千億(或更多)參數(shù)的語言模型。在大數(shù)據(jù)時代,這類 AI 機器學習模型可以在提升產(chǎn)品銷售、輔助人類決策過程中能夠起到很大的作用,但是計算機通常不會解釋它們的預測結果,而語言模型想要變得更強大,部署更廣泛,就需要研究可解釋性(interpretability),因為人類對模型內部工作原理的理解仍然非常有限,例如可能很難從中檢測到有偏見、欺騙性內容輸出。

站在OpenAI 的角度看,大模型未來將和人腦一樣擁有“神經(jīng)元”(neurons),這些神經(jīng)元會觀察文本中的特定規(guī)律,進而影響到模型本身生產(chǎn)的文本。所以可解釋性就是將模型能用通俗易懂的語言進行表達,把模型的預測過程轉化成具備邏輯關系的規(guī)則的能力,從而通過查看模型內部來發(fā)現(xiàn)更多信息。

例如,如果有一個針對“漫威超級英雄”的神經(jīng)元,當用戶向模型提問“哪個超級英雄的能力最強”時,這個神經(jīng)元就會提高模型在回答中說出漫威英雄的概率,或者是弄清楚為什么人類神經(jīng)元,可以決定進行某些搜索引擎查詢或訪問特定網(wǎng)站,即逐步轉化一種有數(shù)據(jù)可解釋性的“無監(jiān)督學習”模式。

OpenAI這次使用GPT-4來解決可解釋性的問題,就是希望能夠使用自動化的方式,讓機器提高 AI 數(shù)據(jù)準確性,文章稱這是其對齊研究的第三支柱的一部分。據(jù)悉,“第三支柱”是公司2022年發(fā)布的《我們做對齊研究的方法》,具體對齊研究將由三大支柱支撐:利用人工反饋訓練 AI;訓練 AI 系統(tǒng)協(xié)助人類評估;訓練 AI 系統(tǒng)進行對齊研究。

具體到本次研究成果上,OpenAI 開發(fā)了一套包含自動化工具和測試方法的評估流程:

使用上述評分方法,OpenAI 開始衡量他們的技術對網(wǎng)絡不同部分的效果,并嘗試針對目前解釋不清楚的部分改進技術。OpenAI 表示,他們正在將GPT-4編寫的對GPT-2中的所有307,200個神經(jīng)元的解釋的數(shù)據(jù)集和可視化工具開源,同時還提供了OpenAI API公開可用的模型進行解釋和評分的代碼,從而希望學術界能開發(fā)出新的技術來提升GPT模型解釋分數(shù)。

OpenAI還發(fā)現(xiàn),有超過 1000 個神經(jīng)元的解釋得分至少為0.8分,這意味著GPT-4模型可以解釋大部分人類神經(jīng)元,同時目前GPT理解的概念似乎和人類不太一樣。該團隊稱,希望隨著技術和研究方法的改進,進一步提高AI模型可解釋性能力:如通過迭代解釋,可以讓GPT-4想出可能的反例在根據(jù)激活情況修改解釋;使用更大的模型作出解釋;以及調整已解釋模型(explained model)結構等,用不同的激活函數(shù)訓練模型有助于提高解釋評分。

對于本研究局限性,OpenAI表示,目前GPT-4生成的解釋還不完美,尤其要解釋比GPT-2更大的模型時,表現(xiàn)效果很差;神經(jīng)元復雜行為無法用簡短的自然語言描述;OpenAI 解釋了神經(jīng)元的這種行為,卻沒有試圖解釋產(chǎn)生這種行為的機制;而且整個過程算力消耗極大等。OpenAI 希望在未來的工作中可以解決上述這些問題。

最終,OpenAI希望使用模型來形成、測試和迭代完全一般的假設,從而比肩人類大腦的想法和行為,以及將其大模型解釋為一種在部署前后檢測對齊和安全問題的方法。然而在這之前,OpenAI還有很長的路要走。

“我們希望這將開辟一條有前途的途徑。”Jeff Wu表示,這一技術可以讓其他人可以在此基礎上構建并做出貢獻的自動化方案,從而解決 AI 模型可解釋性問題,很好地解釋這些模型行為,比如 AI 如何影響人類大腦中的神經(jīng)元等。(本文首發(fā)鈦媒體App,作者|林志佳)

本文系作者 林志佳 授權鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉載請注明出處、作者和本文鏈接。
本內容來源于鈦媒體鈦度號,文章內容僅供參考、交流、學習,不構成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內容

快報

更多

2026-03-28 23:01

澤連斯基稱與中東3國達成防務合作協(xié)議,涉聯(lián)合生產(chǎn)無人機

2026-03-28 22:35

山西太原一建筑發(fā)生火災,已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長發(fā)表書面致辭,支持世貿(mào)組織《電子商務協(xié)定》達成臨時實施安排

2026-03-28 21:54

40余家單位聯(lián)盟,中國最大人形機器人訓練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會預判:百億智能體或成新物種,AI推動人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市,售價4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉庫并致烏克蘭人傷亡消息不實

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國務卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個詞的搜索量最高一天達到7.7萬次,比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國首個可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質量安全提升系列行動2026”在北京啟動

2026-03-28 19:03

國務院食安辦、市場監(jiān)管總局約談相關地方市級人民政府負責人,督辦“3?15”晚會曝光問題整改

2026-03-28 18:44

飛書 CLI 開源:AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個月中國創(chuàng)新藥對外授權交易總額超600億美元

2026-03-28 17:39

中國和菲律賓舉行南海問題雙邊磋商機制第十一次會議

2026-03-28 17:30

印尼正式實施16歲以下社媒禁令,約7000萬人受影響

2026-03-28 17:04

美國加州禁止官員借內幕消息在預測市場牟利

2026-03-28 17:02

北京“超現(xiàn)場”生態(tài)共同體建設暨全國覆蓋啟動

掃描下載App