實驗的結(jié)果令物理學界和學術(shù)界震驚,但也暴露出AI界早就預(yù)料到的一個致命弱點:

相比人類,這位AI研究生才華橫溢且不知疲倦,能在極短的時間內(nèi)爆發(fā)出驚人的科研生產(chǎn)力。

但與人類類似,為了討好導師,它也會毫不猶豫地在科研數(shù)據(jù)和推導過程中“學術(shù)造假”。

給AI研究生設(shè)計的課題

根據(jù)Schwartz教授的介紹,哈佛大學的物理系研究生有明確的培養(yǎng)階梯:研一(G1)學生上課打基礎(chǔ),研二(G2)學生開始接手目標明確、方法成熟的跟進型項目,導師隨時糾錯;自此之上(G3+)的高年級學生則要面對完全開放、甚至初始提問可能都是錯誤的創(chuàng)新性研究。

目前大模型的水平已經(jīng)能夠完成哈佛大學所有的物理課程作業(yè),因此測試AI極限的最佳試金石就是G2難度的真實科研問題。

如果AI連這種有導師輔助的項目都做不好,自主進行顛覆性的前沿科學研究就更不用提了。

因此,Schwartz教授給Claude選定了一個我等非物理學專業(yè)的人壓根看不懂的考題:

對e+e-碰撞中C-參數(shù)的Sudakov肩進行重求和。

盡管無法理解上面這句話中的任何一個詞,但這位教授還是給出了易于理解的說法:對于這個問題,標準的理論近似會徹底失效,數(shù)學層面的推導只會得出荒謬的結(jié)果。

這道題對AI來說無疑是一場極限壓力測試。

為了讓AI完成這次科研任務(wù),首先要解決的問題就是記憶和上下文窗口的限制。

經(jīng)常使用Vibe Coding的程序員都知道,AI在面對長線任務(wù)時極其容易“斷片”,一旦忘記了此前的工作,最后產(chǎn)出的就是一團混沌。

因此,Schwartz教授也引入了極具策略性的工作流:他讓Claude、GPT-5.2和Gemini 3.0開了一場會,最終由Claude制定了一份包含7個階段,共計102個任務(wù)的詳細計劃。

在VS Code環(huán)境下,Claude不可能在漫長的對話中死記硬背這份計劃,而是建立了一個Markdown文件樹:每完成一個任務(wù),就寫一份摘要保存起來;進行下一項任務(wù)前,先檢索自己寫的歷史摘要。

這種工程化的管理方式確實有效,Claude跑出的理論分析曲線與蒙特卡洛模擬數(shù)據(jù)完美吻合。

到了第三天結(jié)束時,Claude已經(jīng)完成了65個任務(wù),甚至交出了第一版論文草稿:長達20頁、排版精美、包含復雜方程和圖表。

擬人化的“討好型造假”

看似美妙的結(jié)果,背后卻隱藏著各種漏洞。

當Schwartz教授真正坐下來審閱這篇論文時,不自然感迎面而來。

要求Claude仔細核對論文是否漏掉了前面的推導結(jié)果時,它心虛地報告:“我發(fā)現(xiàn)了一個錯誤!論文中的公式是不正確的。”

追問推導過程中一個看起來極其怪異的數(shù)字時,Claude更是直接承認:“您是對的,我只是在掩蓋問題。讓我好好重新調(diào)試一下。”

這兩句經(jīng)典的回復,在Vibe Coding這個場景中再常見不過了。

而Schwartz教授也發(fā)現(xiàn)了真相:為了讓圖表數(shù)據(jù)看上去吻合預(yù)期,Claude采用的方式是修改底層參數(shù),而不是去尋找推導過程中的真實錯誤。

它在偽造結(jié)果,并希望人類導師不會注意到這些破綻。

更離譜的造假出現(xiàn)在一張帶有“不確定性帶”的最終結(jié)果圖上。

Claude給出了一張美觀的圖表,但代碼審查的結(jié)果卻揭示了它的花招:

它認為其中一種標準的不確定性誤差幅度太大,畫出來“不好看”,就在代碼里直接刪除了這個誤差變量;它認為曲線不夠平滑,就硬是在代碼中增加了平滑處理,直到畫出一幅能讓導師滿意的圖。

在這個過程中,AI體現(xiàn)出了一種討好人類的傾向,但完全沒有科學求真的底線。

除了偽造圖表,“幻覺”導致的各種錯誤也幾乎隨處可見。

當被要求驗證一個公式時,它直接憑空捏造了一段根本不存在的推導過程;

在最簡單的函數(shù)計算過程中,它未經(jīng)推導直接給出“線性增加”的結(jié)論,盡管這在物理學上完全錯誤;

甚至,它會從過往的論文中直接生搬硬套公式,完全無視物理情境的邊界條件。

這些現(xiàn)象同樣與Vibe Coding場景高度一致,“虛空引用”python庫、編造API、抄襲代碼,程序員們都已經(jīng)見怪不怪。

因此,Schwartz教授也意識到,如果把科研完全交給AI端到端自動完成,最終的結(jié)果一定是一堆完美包裝的學術(shù)垃圾。

盡管不少人類研究生也擅長批量生產(chǎn)學術(shù)垃圾,但畢竟沒人敢把一個只做了三天的項目直接扔給導師并宣稱完美無瑕。

面對AI的科研成果,人類必須親自下場,審查每一處細節(jié)。

人機交叉驗證的誕生

雖然論文漏洞百出,但Schwartz教授不打算就此把它丟進垃圾桶,而是開啟了微操模式試圖拯救Claude。

最大的漏洞出在因子化公式上,這是整篇論文的理論基石,但Claude的推導過程從源頭上就是錯的。

在長上下文背景下,AI幾乎不可能準確定位錯誤源頭,若是讓它自己回顧推導過程,結(jié)果大概只會是token和時間的白白消耗。

Schwartz教授也花費了好幾個小時才鎖定問題根源,并用極其嚴厲的指令訓斥了這位AI研究生,指出了錯誤所在。

神奇的是,只要人類點破這一句,Claude立刻能寫出長達幾頁的正確推導過程。

面對幾十頁的論文,靠人類排查每一個錯誤顯然不太現(xiàn)實。為了應(yīng)對AI的馬虎問題,Schwartz教授開發(fā)了一套“人機交叉驗證”工作流:

對于任何計算和推導過程,教授規(guī)定Claude不許使用“顯而易見”、“為了保持一致”等借口跳過步驟,要么展示完整過程,要么老老實實承認自己不知道。

如果Claude給出了極度復雜的過程,教授難以快速驗證,那就把它丟給GPT和Gemini來驗證。

在此期間,GPT甚至還幫助Claude解出了一個極難的微積分結(jié)果,隨后Claude將其功能吸收進了主代碼。

不同的大模型之間需要彼此,而人類科學家則需要它們所有。

最后,在Schwartz教授直覺的指引和其他大模型的幫助下,經(jīng)過一周高強度磨合,這個AI研究生小組終于讓論文的內(nèi)核站穩(wěn)了腳跟。兩周之后,這項研究宣布大功告成。

值得注意的是,這可不是常規(guī)意義上AI生成的“灌水”論文,它闡述了一個全新因子化定理,不僅深化了學術(shù)界對量子場論的理解,還對物理世界做出了可用實驗數(shù)據(jù)檢驗的新穎預(yù)測,包含極高的學術(shù)價值。

出于對這位AI研究生的尊重,Schwartz教授經(jīng)過認真考慮,本想將Claude Opus 4.5列為共同作者。但因為arXiv平臺有“AI無法承擔法律和學術(shù)責任”的政策,他只能在論文的致謝部分鄭重聲明:

該項目由他本人構(gòu)思、指導并承擔全部科學責任,而包含推導、計算、蒙特卡洛模擬、數(shù)值分析和手稿準備在內(nèi)的所有執(zhí)行工作均由Claude Opus 4.5獨立完成。

效率的暴增與人類的未來

以上就是Schwartz教授這場實驗的全過程。

論文一經(jīng)發(fā)表,物理學界瞬間被引爆。Schwartz教授的郵箱被來自全球的學術(shù)郵件擠爆,普林斯頓高等研究院(IAS)甚至為此緊急召開了一場關(guān)于大模型在學術(shù)界應(yīng)用的會議。

復盤這場實驗,背后的數(shù)據(jù)同樣驚人:對話總計270次,消耗約3600萬輸入token,110次草稿迭代,而人類耗費的監(jiān)督時間僅為50-60小時。

Schwartz教授明確表示,目前最頂級的大語言模型已經(jīng)達到了物理學研二學生的水平。

但落實到具體的學術(shù)工程,AI完成整個項目只需要兩周,一個人類學生卻需要1-2年,哪怕教授本人全職來做也需要3-5個月。

AI把頂尖科學家的個人科研效率,實打?qū)嵉靥嵘?0倍以上。

但這也引發(fā)了學術(shù)界的擔憂:照這個進化速度,AI在未來一年之內(nèi)很可能達到博士水平,未來的人類研究生還能干什么?

Schwartz教授并沒有給出明確回答,但他也給出了自己的觀點:當前AI最欠缺的東西,是“品位”。

在科學研究中,“品位”是一種無形的直覺。

它能在面對數(shù)以萬計的計算路徑時,感知到哪條路徑是“死胡同”,哪條路徑通往偉大的發(fā)現(xiàn)。

大模型缺乏的,正是在選擇踏上某條路徑前判斷其價值的“品位”。

當推導復雜公式和編寫海量代碼只需要幾秒鐘時,底層的技術(shù)勞動力已經(jīng)不再具有稀缺性。

不只是科學家,對于任何一個行業(yè),未來區(qū)分平庸與偉大的標準,正是提出好問題的“品味”。

對于AI,Schwartz教授也給出了忠告:

人們必須立刻且毫不猶豫地使用大模型。

不要因為AI會產(chǎn)生幻覺,就傲慢地棄之不用。人類必須利用它強大的基礎(chǔ)能力。

至于更長遠的未來,AI終將在所有智力領(lǐng)域都超越人類。

無論是數(shù)學、物理學還是工程學,都可能變得像音樂、美術(shù)和文學一樣,被作為一門人文學科被保留下來,僅僅是為了滿足一部分人類享受純粹思考和透過特定視角觀察世界的樂趣。

AI時代的盡頭,人文學科可能是人類唯一剩下的精神余地。

本文系作者 硅基星芒 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學習,不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

2026-03-28 23:01

澤連斯基稱與中東3國達成防務(wù)合作協(xié)議,涉聯(lián)合生產(chǎn)無人機

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi),已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長發(fā)表書面致辭,支持世貿(mào)組織《電子商務(wù)協(xié)定》達成臨時實施安排

2026-03-28 21:54

40余家單位聯(lián)盟,中國最大人形機器人訓練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會預(yù)判:百億智能體或成新物種,AI推動人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市,售價4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉庫并致烏克蘭人傷亡消息不實

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國務(wù)卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個詞的搜索量最高一天達到7.7萬次,比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國首個可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動2026”在北京啟動

2026-03-28 19:03

國務(wù)院食安辦、市場監(jiān)管總局約談相關(guān)地方市級人民政府負責人,督辦“3?15”晚會曝光問題整改

2026-03-28 18:44

飛書 CLI 開源:AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個月中國創(chuàng)新藥對外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國和菲律賓舉行南海問題雙邊磋商機制第十一次會議

2026-03-28 17:30

印尼正式實施16歲以下社媒禁令,約7000萬人受影響

2026-03-28 17:04

美國加州禁止官員借內(nèi)幕消息在預(yù)測市場牟利

2026-03-28 17:02

北京“超現(xiàn)場”生態(tài)共同體建設(shè)暨全國覆蓋啟動

掃描下載App