(1)Gemini 3's secret:Scaling is still a greenfield

Gemini 3上線以來,幾乎實(shí)現(xiàn)了全面屠榜,尤其在多模態(tài)和深度推理領(lǐng)域無人能敵。

我實(shí)測下來,Gemini 3在投研領(lǐng)域比上一代模型而言,無論是推理深度、思考邏輯完備性、取數(shù)精準(zhǔn)度等方面都有了不小的提升。

不久之后大家就能在我們的AI投研工具AlphaEngine上體驗到我描述的感受。

Gemini 3為什么能取得這么大的突破?

來聽聽Gemini團(tuán)隊的負(fù)責(zé)人Oriol Vinyals的最新揭秘。

沒錯,Gemini 3背后的秘密,就是預(yù)訓(xùn)練和后訓(xùn)練的Scaling仍然有著較大的空間。

樸素的答案往往最接近真相。

如果總結(jié)本輪AI革命的核心,那就是“聚焦一點(diǎn),登峰造極”。

GPT模型的本質(zhì),是把“智能”抽象成“根據(jù)上文預(yù)測下一個token”。

在此基礎(chǔ)上,不斷擴(kuò)大數(shù)據(jù)、算力,最后從這個簡單到不能再簡單的單一任務(wù)中,實(shí)現(xiàn)智能的泛化。

這是一種把一切非標(biāo)復(fù)雜需求轉(zhuǎn)化為簡單標(biāo)準(zhǔn)任務(wù)的思想,是一種把一切問題轉(zhuǎn)化成計算問題的哲學(xué)。

(2)情感是人類內(nèi)置的價值函數(shù)

昨天Ilya參加了一個訪談,干貨很多。網(wǎng)上流傳著一些AI會議摘要,存在著一定的誤導(dǎo)性,建議大家都去聽聽原文,有不少insights,這里我總結(jié)幾個對我比較有啟發(fā)性的觀點(diǎn),談?wù)勎业睦斫狻?/p>

人類的學(xué)習(xí)方式和目前大模型的學(xué)習(xí)方式存在顯著的差異,二者差異背后的原因,可能是下一輪AI算法創(chuàng)新的根源所在。

在被問到目前Ilya團(tuán)隊在AI算法創(chuàng)新上的最新進(jìn)展時,Ilya舉了一個耐人尋味的例子。

多年前,Ilya接觸過一個因為腦損傷失去情感處理能力的個體。

正常人能夠感知到的喜怒哀樂,他都感受不到。

我們可能以為,情感的缺失對日常生活影響不大,但是事實(shí)恰恰相反。

雖然這位患者能保持正常的語言能力,但他卻在任何decision-making問題上,表現(xiàn)出極大的能力缺失。

比如他可能會因為挑選哪一雙襪子而耗費(fèi)數(shù)個小時,或者經(jīng)常做出災(zāi)難性的財務(wù)決策。

因此Ilya提出一個猜想:如果把人類的學(xué)習(xí)過程類比為RL的話,情感(emotion)可能就是人類的“內(nèi)置價值函數(shù)”。

對于AI模型而言,價值函數(shù)的作用在于能夠在解決任務(wù)的過程中,提供前置的反饋信號。

比如當(dāng)你探索決策樹的過程中,在1000步之后發(fā)現(xiàn)這條路徑并不可行時,你會學(xué)到一個經(jīng)驗教訓(xùn),下次遇到類似的問題時,即使在1000步之前,你也可以預(yù)見到1000步之后的結(jié)果,所以你會做出另一個選擇。

這種RL中價值函數(shù)的學(xué)習(xí)反饋,在人類身上被歸納為“經(jīng)驗教訓(xùn)”,具體體現(xiàn)為喜怒哀樂等“情感表現(xiàn)”。

我再舉個例子,假設(shè)你在工作生活中遇到一個爛人,最開始你可能沒有明顯的感受,但是隨著相處的時間越來越久,你發(fā)現(xiàn)對方身上的存在種種問題,最終你決定遠(yuǎn)離他。

那么當(dāng)你未來再遇到另一個人時,如果他身上有著和之前你接觸過的爛人有著類似的品行特征時,你會不自覺的出現(xiàn)“厭惡”的情緒,驅(qū)使你直接遠(yuǎn)離他,而不用再像第一個人一樣,相處幾年后再做出遠(yuǎn)離的決定。

從個體的微觀尺度上來看,這個過程是“經(jīng)驗教訓(xùn)”的總結(jié)與成長。

從人類的中觀尺度上來看,這個過程是群體“文化”的傳承與發(fā)展。

從生物的宏觀尺度上來看,這個過程是“進(jìn)化”中的優(yōu)勝劣汰,適者生存。

(3)Benchmark與現(xiàn)實(shí)的差距:泛化能力不足

Ilya直言當(dāng)前AI模型在各種benchmark上表現(xiàn)優(yōu)異,甚至能輕松通過很難的測評集,但在實(shí)際任務(wù)中的表現(xiàn)卻差強(qiáng)人意,二者形成了明顯的矛盾。

以coding為例,雖然目前的大模型在Aider、SWE等有一定難度的coding benchmark上表現(xiàn)得非常好,但大家實(shí)際使用AI來vibe coding時,經(jīng)常會遇到一些尷尬的情況。

比如,當(dāng)你指出AI生成的代碼存在某個bug時,模型會承認(rèn)問題并嘗試修復(fù),但修復(fù)過程中往往會引入新的bug。

當(dāng)用戶指出新bug時,AI會承認(rèn)錯誤,并恢復(fù)之前的舊bug,導(dǎo)致新舊bug交替出現(xiàn),讓嘗試vibe coding的工程師們十分苦惱。

大家只要試過vibe coding,一定對Ilya的這段描述感同身受。

為什么會出現(xiàn)這種差異呢?Ilya給了一個很形象的解釋。

假設(shè)有兩個學(xué)生,學(xué)生A以成為頂尖coding競賽程序員為目標(biāo),通過10000小時的專項訓(xùn)練,不斷刷題最終成為了頂尖競賽高手。

學(xué)生B也想在競賽中得獎,但他只用100個小時進(jìn)行專項訓(xùn)練。

假如兩位學(xué)生最后在競賽中得分將近,那么誰在將來的職業(yè)發(fā)展上有更大的潛力呢?肯定是學(xué)生B。

學(xué)生A通過高強(qiáng)度的專項訓(xùn)練,收集所有競賽歷史題目(預(yù)訓(xùn)練)、做海量練習(xí)題(后訓(xùn)練),雖然得到了高分,成為了優(yōu)秀的競賽選手,但這種高強(qiáng)度的專項訓(xùn)練未必能夠泛化到其他任務(wù)上。

正是這種“泛化能力”的不足,導(dǎo)致大模型出現(xiàn)了Benchmark和實(shí)際任務(wù)表現(xiàn)的差異。

(4)重新回歸The Age of Research

Ilya將AI的歷史發(fā)展分為三個階段。

從2012年到2020年是age of research。AlexNet、ResNet、Transformer等重要的算法創(chuàng)新層出不窮,為GPT的出現(xiàn)奠定了理論基礎(chǔ)。

從2021年至今是age of scaling。隨著Scaling Law的確認(rèn),scaling成為所有AI大廠“最安全”的投入方向。

畢竟基礎(chǔ)研究的投入產(chǎn)出不確定性太高了,你可能花了幾個億做研究,最后只打了個水漂。

但是在Scaling的敘事邏輯下,你只要花足夠的錢堆算力,就大概率能得到一個更強(qiáng)大的模型,從而獲得更大的商業(yè)競爭優(yōu)勢。

這種Scaling為王的氣氛帶動了NVDA的收入高增,也帶動了全球AI Capex的狂潮,但這也導(dǎo)致了一個明顯的問題:隨著Scaling效果邊際遞減,AI競爭逐漸趨于同質(zhì)化。

在當(dāng)下這個關(guān)鍵時點(diǎn),Ilya認(rèn)為26年開始,整個AI產(chǎn)業(yè)將重新回歸age of research。

對于這個觀點(diǎn),我還是比較認(rèn)同的。

雖然現(xiàn)如今的大模型(如gemini 3)已經(jīng)很強(qiáng)大了,也具備很高的經(jīng)濟(jì)價值,但要想實(shí)現(xiàn)AGI,當(dāng)前算法路徑存在明顯瓶頸也是不爭的事實(shí)。

上次和我們CTO李漁博士討論下一個AI重點(diǎn)突破可能在哪里,我們觀點(diǎn)比較一致,那就是“可持續(xù)學(xué)習(xí)”。

如果把人類比作大模型的話,我們的大腦其實(shí)是一臺“訓(xùn)推一體機(jī)”。

白天我們從花花世界中接觸海量數(shù)據(jù),晚上入眠后,我們的海馬體將這些數(shù)據(jù)通過某種方式訓(xùn)練到“大模型”中。

第二天眼睛睜開時,我們的大腦模型更新完畢,可以用一個全新的大模型迎接新的一天。

Brand new day, brand new me.

這種生物內(nèi)置的“可持續(xù)學(xué)習(xí)”的框架,對于目前的LLM而言,仍是一種奢望。

最近我們關(guān)注到一份Google的研究論文,就在試圖解決LLM的可持續(xù)學(xué)習(xí)難題。

(5)Nested Learning:Google向可持續(xù)學(xué)習(xí)發(fā)起的挑戰(zhàn)

Google在11月7日發(fā)表了一篇題為“Nested Learning”的研究成果,向大模型的“可持續(xù)學(xué)習(xí)”難題發(fā)起了挑戰(zhàn)。

可持續(xù)學(xué)習(xí)可以定義為:模型在不遺忘舊知識的前提下,隨著時間推移主動獲取新知識和技能的能力。

在這一方面,人類大腦是公認(rèn)的“金標(biāo)準(zhǔn)”。

大腦實(shí)現(xiàn)可持續(xù)學(xué)習(xí)的秘訣在于“神經(jīng)可塑性”(neuroplasticity)

這是一種神秘而強(qiáng)大的能力,使得人類能夠根據(jù)新的經(jīng)歷和體驗動態(tài)改變大腦結(jié)構(gòu)。

人類有一種疾病叫做“順行性遺忘”(anterograde amnesia),它的癥狀體現(xiàn)為患者無法將短期記憶轉(zhuǎn)化成長期記憶。

患有順行性遺忘的人類,他的思考推理將永久被局限在當(dāng)下的語境中。

這點(diǎn)和當(dāng)前LLM的處境非常類似,它的知識僅限于context window,以及預(yù)訓(xùn)練期間學(xué)到的靜態(tài)信息。

為了讓大模型學(xué)習(xí)新的知識,我們需要不斷更新模型參數(shù),但這經(jīng)常會導(dǎo)致災(zāi)難性遺忘(Catastrophic Forgetting),即學(xué)了新的忘了舊的。

從仿生學(xué)的角度來看,如何讓大模型擁有類似人類大腦“神經(jīng)可塑性”是一條值得深入的研究方向。

Google這次提出的解決方案Nested Learning本質(zhì)上是一種“嵌套學(xué)習(xí)”框架。

嵌套學(xué)習(xí)不再將單個ML模型視作一個連續(xù)的過程,而是將其看做一個由互相連接、多層級學(xué)習(xí)問題組成的統(tǒng)一系統(tǒng),從而進(jìn)行同步優(yōu)化。

為了進(jìn)行概念驗證,研究團(tuán)隊設(shè)計了名為Hope的模型,它是基于Titans架構(gòu)的一個變體。

具體來說,Titans架構(gòu)是一種長期記憶模塊,其核心機(jī)制是根據(jù)記憶的“驚奇度”(即意外程度)來對記憶進(jìn)行優(yōu)先級排序。

盡管其記憶管理能力很強(qiáng),但它只有兩級參數(shù)更新,這導(dǎo)致它只能實(shí)現(xiàn)一階(first-order)上下文學(xué)習(xí)。

相比之下,Hope是一種自修正(self-modifying)的循環(huán)架構(gòu),與 Titans不同,它能夠利用無限層級(unbounded levels)的上下文學(xué)習(xí),此外Hope 還加入了 CMS(連續(xù)記憶系統(tǒng))模塊,使其能夠擴(kuò)展并處理更大的上下文窗口。

實(shí)驗數(shù)據(jù)初步證實(shí)了嵌套學(xué)習(xí)的可行性,它把模型的“網(wǎng)絡(luò)架構(gòu)”和“訓(xùn)練規(guī)則”統(tǒng)一成了一個概念,把它們視作不同層級的優(yōu)化任務(wù),從而讓大模型有機(jī)會解決災(zāi)難性遺忘問題,實(shí)現(xiàn)可持續(xù)學(xué)習(xí)。

(6)結(jié)語:探索AI投研的有效前沿

Gemini 3、Nested Learning、可持續(xù)學(xué)習(xí),以及之前我專門討論過的Rubin CPX是近期特別值得關(guān)注的AI產(chǎn)業(yè)趨勢。

我不是從投資的角度來探討“AI bubble”,而是從AI應(yīng)用從業(yè)者的角度,提前規(guī)劃明后年的產(chǎn)品形態(tài)。

我們的AI投研產(chǎn)品AlphaEngine目前服務(wù)于超過70000名專業(yè)的機(jī)構(gòu)投資者。

AlphaEngine的使命很簡單,那就是讓所有用戶第一時間體驗到全球最強(qiáng)的AI投研效果。

本文系作者 AlphaEngineer 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

2026-03-28 23:01

澤連斯基稱與中東3國達(dá)成防務(wù)合作協(xié)議,涉聯(lián)合生產(chǎn)無人機(jī)

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi),已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長發(fā)表書面致辭,支持世貿(mào)組織《電子商務(wù)協(xié)定》達(dá)成臨時實(shí)施安排

2026-03-28 21:54

40余家單位聯(lián)盟,中國最大人形機(jī)器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會預(yù)判:百億智能體或成新物種,AI推動人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市,售價4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉庫并致烏克蘭人傷亡消息不實(shí)

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國務(wù)卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個詞的搜索量最高一天達(dá)到7.7萬次,比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國首個可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動2026”在北京啟動

2026-03-28 19:03

國務(wù)院食安辦、市場監(jiān)管總局約談相關(guān)地方市級人民政府負(fù)責(zé)人,督辦“3?15”晚會曝光問題整改

2026-03-28 18:44

飛書 CLI 開源:AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個月中國創(chuàng)新藥對外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國和菲律賓舉行南海問題雙邊磋商機(jī)制第十一次會議

2026-03-28 17:30

印尼正式實(shí)施16歲以下社媒禁令,約7000萬人受影響

2026-03-28 17:04

美國加州禁止官員借內(nèi)幕消息在預(yù)測市場牟利

2026-03-28 17:02

北京“超現(xiàn)場”生態(tài)共同體建設(shè)暨全國覆蓋啟動

掃描下載App