?大模型機制的簡略示意圖。 @ Patrick Mineault
蛋白質(zhì)對大部分人來說都是一個相當(dāng)日常的概念,比如現(xiàn)在常說的“高蛋白低碳水飲食”。但科學(xué)界對蛋白質(zhì)的理解仍然不足,就算在21世紀(jì)的今天,蛋白質(zhì)仍是合成生物學(xué)和計算生物學(xué)的核心研究對象。
蛋白質(zhì)的研究挑戰(zhàn)主要源于其序列和空間結(jié)構(gòu)都包含著巨大的不確定性。蛋白質(zhì)由20種氨基酸組成,而即使是一條長度為100的肽鏈,其理論上可能的序列組合數(shù)就達(dá)到20^100,遠(yuǎn)遠(yuǎn)大于宇宙中原子的總數(shù)。除了序列排列組合的多樣性,每一條氨基酸序列,都有可能折疊成不同的三維結(jié)構(gòu)。所以,科學(xué)家們不僅要關(guān)注蛋白質(zhì)的氨基酸序列,還要關(guān)注它們的三維結(jié)構(gòu)、生物活性以及與其他分子的相互作用。
獲得諾貝爾獎的AlphaFold項目的重要之處就在于,它可以根據(jù)蛋白質(zhì)的序列精準(zhǔn)預(yù)測其三維結(jié)構(gòu)。這項技術(shù)的突破,得益于過去幾十年科學(xué)家通過冷凍電鏡(cryo-EM)、X射線晶體學(xué)等技術(shù)對蛋白質(zhì)結(jié)構(gòu)的細(xì)致研究,并將這些研究成果匯集于如PDB(蛋白質(zhì)數(shù)據(jù)庫)等的大型數(shù)據(jù)庫中,使這些數(shù)據(jù)成為訓(xùn)練機器學(xué)習(xí)模型的基礎(chǔ)。
但蛋白質(zhì)折疊預(yù)測僅是當(dāng)前生物大模型應(yīng)用的冰山一角。如今該領(lǐng)域已擴展至更多維度。這些模型正在讓我們以前所未有的方式理解生命分子,推動合成生物學(xué)進(jìn)入一個由大模型驅(qū)動的新階段。
![]()
?合成生物學(xué)中一種以生態(tài)系統(tǒng)為中心的大模型視角:模型只是更大生態(tài)系統(tǒng)中的一部分。@ Patrick Mineault
在大模型的支持下,我們不僅可以預(yù)測單個蛋白質(zhì)的結(jié)構(gòu)。一些模型,比如AlphaFold Multimer,能模擬多個蛋白質(zhì)之間的相互作用;還有RFDiffusion,可以根據(jù)功能需求“定制”蛋白質(zhì);又比如ProteinMPNN,它則實現(xiàn)了“逆向折疊”,從結(jié)構(gòu)反推最有可能的氨基酸序列。此外,還有許多在ESM等大模型基礎(chǔ)上微調(diào)而來的新模型,能跨多個生物領(lǐng)域預(yù)測蛋白質(zhì)活性。
這些技術(shù)進(jìn)步依賴于長期積累的生態(tài)系統(tǒng)支持。數(shù)十年來積累的大量開源工具和數(shù)據(jù)庫,使我們能夠輕松瀏覽蛋白質(zhì)及其序列,比對相似結(jié)構(gòu),查看三維結(jié)構(gòu)……這些數(shù)據(jù)庫中收錄了無數(shù)蛋白質(zhì)的結(jié)構(gòu)、序列、生物實驗數(shù)據(jù)與預(yù)測結(jié)果。
而傳統(tǒng)的物理建模工具如Rosetta、分子動力學(xué)模擬等并沒有被取代,它們?nèi)允菍C器學(xué)習(xí)方法的重要補充。更重要的是,物理模型有時還能反過來為機器學(xué)習(xí)模型提供訓(xùn)練數(shù)據(jù),實現(xiàn)“攤銷式推理”(amortized inference),即提前習(xí)得對新任務(wù)快速做出判斷的能力。
在這些數(shù)十年積累的基礎(chǔ)上,我們已突破單純理解蛋白質(zhì)的階段,實現(xiàn)了對生物分子的主動改造。我們可以合成新的蛋白質(zhì)序列、將其裝入質(zhì)粒中復(fù)制、打包進(jìn)腺相關(guān)病毒(AAV)進(jìn)行遞送、使用CRISPR進(jìn)行基因編輯、再通過測序驗證編輯結(jié)果。這些技術(shù)鏈條的整合,大大加速了合成生物學(xué)和計算生物學(xué)的研究進(jìn)程。
當(dāng)然,現(xiàn)有的模型并非完美,但它們能通過計算篩選潛在候選方案,顯著減少傳統(tǒng)實驗中耗時費力的物理優(yōu)化步驟。生物學(xué)中早就習(xí)慣使用“替代終點”(surrogate endpoints),比如用小鼠模型模擬人類疾病;只是這些替代物往往存在偏差,難以直接轉(zhuǎn)化為人體應(yīng)用。理想的替代指標(biāo)需同時滿足快速和準(zhǔn)確的要求。
舉個最新的例子:Science期刊最近報道的EVOLVEPro系統(tǒng)展示了蛋白質(zhì)設(shè)計的創(chuàng)新路徑。蛋白質(zhì)設(shè)計面臨一個組合爆炸問題——對于一條有100個殘基的肽鏈,其可能序列組合數(shù)量高達(dá)20的100次方,遠(yuǎn)超宇宙中原子的總數(shù),因此窮舉搜索完全不可行。
![]()
?Kaiyi Jiang et al. ,Rapid in silico directed evolution by a protein language model with EVOLVEpro.Science387,eadr6006(2025).DOI:10.1126/science.adr6006。圖源:Science
EVOLVEPro提供了一種高效的解決方案。它在12個深度突變掃描數(shù)據(jù)集的基準(zhǔn)測試中(涵蓋抗原結(jié)合、核酸結(jié)合、酶催化等任務(wù))超越零樣本(zero-shot)方法,并成功改造六類蛋白質(zhì),包括將單克隆抗體結(jié)合親和力提升40倍、CRISPR核酸酶活性提高五倍。
聽起來非常驚人,對吧?其實它的原理并不復(fù)雜:首先在蛋白質(zhì)大模型上附加“預(yù)測頭”,用已有突變數(shù)據(jù)訓(xùn)練其預(yù)測目標(biāo)指標(biāo);隨后預(yù)測出一批最有潛力的蛋白質(zhì)序列,并進(jìn)行合成、實驗驗證;再將實驗結(jié)果反饋到模型中進(jìn)行迭代更新,進(jìn)入下一輪預(yù)測與實驗。如此反復(fù)幾輪,便能逐步迭代出性能更優(yōu)的蛋白質(zhì)。
![]()
?EvolvePro系統(tǒng)示意圖,摘自論文圖1。PLM:蛋白質(zhì)語言模型,此處為ESM2。Domain Expert Top Layer為隨機森林模型
該模型基于一種蛋白質(zhì)語言領(lǐng)域的大模型ESM2。ESM2是一種類似BERT的“掩碼語言模型”(masked language model),它將蛋白質(zhì)序列中的每一個殘基(氨基酸)編碼為一個高維向量,并通過在UniProt上的訓(xùn)練獲得了廣泛的通用性。
一旦獲得蛋白質(zhì)序列的向量表示(embedding),就可以被用于多種任務(wù),比如結(jié)構(gòu)預(yù)測(如ESMFold),或者可以通過對所有殘基表示進(jìn)行平均,得到一個固定長度的“摘要向量”。熟悉大語言模型的讀者們可能會敏銳地意識到,這些摘要向量實際上就等同于 LLM中的詞語向量(Word Vector)。一旦實現(xiàn)了對這些看似無序且無限的粒子的向量化,就可以較為輕易地在此基礎(chǔ)上進(jìn)行進(jìn)一步的學(xué)習(xí)和數(shù)據(jù)處理,比如進(jìn)行檢索增強生成(RAG)、推薦系統(tǒng)、聚類分析和性質(zhì)預(yù)測等任務(wù)。
在這個平均表示的基礎(chǔ)上,研究人員還添加了一個非常簡單的“預(yù)測起始站(prediction head)”——一個隨機森林模型。為了獲得初始數(shù)據(jù),研究者合成了一批隨機突變的蛋白質(zhì),然后進(jìn)入了一個主動設(shè)計過程。他們使用模型預(yù)測下一個最值得嘗試的突變,選擇過程很直接:他們模擬所有可能的單殘基突變,然后挑選出模型預(yù)測得分最高的前N個候選序列。
聽起來很簡單?的確如此。一旦擁有一個功能強大的大模型,再配合一個基礎(chǔ)的回歸器模型和一個可以快速完成“實驗反饋閉環(huán)”的設(shè)計流程,優(yōu)化蛋白質(zhì)結(jié)構(gòu)就不再遙不可及。
所有這一切的實現(xiàn),要依賴一個工具與資源高度集成的生態(tài)系統(tǒng):我們不僅能夠隨時讀取和寫入序列,擁有開放的數(shù)據(jù)共享平臺來支持再訓(xùn)練和微調(diào)模型框架,還有高效的實驗室自動化流程,讓蛋白質(zhì)活性檢測變得前所未有地高效。
這標(biāo)志著蛋白質(zhì)優(yōu)化速度發(fā)生了質(zhì)的飛躍,而驅(qū)動力來自整個生態(tài)系統(tǒng)的協(xié)同:除了大模型,還包括數(shù)據(jù)集、數(shù)據(jù)庫、結(jié)構(gòu)圖譜、計算工具,甚至是經(jīng)典的物理建模方法。
![]()
?用于優(yōu)化GECIs的閉環(huán)系統(tǒng)。Wait et al.,2023年
這種技術(shù)革新對神經(jīng)科學(xué)領(lǐng)域的影響也不容小覷。神經(jīng)科學(xué)研究中對蛋白質(zhì)的需求極高,從測量神經(jīng)活動到精確干預(yù)神經(jīng)功能,幾乎每一個關(guān)鍵工具都依賴于蛋白質(zhì)設(shè)計。比如:遺傳編碼的鈣/電壓指示器(GECIs、GEVIs),光遺傳學(xué)(optogenetics),化學(xué)遺傳學(xué)工具(如DREADDs等),又或者是用于神經(jīng)環(huán)路映射的條形碼技術(shù)(如MAP-seq、BRIC-seq、Connectome-seq)等。
更不用說當(dāng)下最熱門的腦部藥物也是改造后的肽類分子:比如GLP-1受體激動劑,它們不僅能調(diào)節(jié)血糖、控制體重,還展現(xiàn)出治療上癮、阿爾茨海默病(AD)和帕金森?。≒D)等神經(jīng)退行性疾病方面的巨大潛力。
那么,合成生物學(xué)中的經(jīng)驗?zāi)芊襁w移到神經(jīng)科學(xué)領(lǐng)域呢?現(xiàn)階段人類對于大腦的認(rèn)知是否足以支持這種舉一反三?
(1)數(shù)據(jù)是否足夠?結(jié)構(gòu)是否合理?
合成生物學(xué)的技術(shù)進(jìn)步很大程度上是有像PDB(蛋白質(zhì)數(shù)據(jù)庫)和UniProt這樣的高質(zhì)量數(shù)據(jù)庫為大模型的訓(xùn)練提供了堅實基礎(chǔ)。這些數(shù)據(jù)庫不僅覆蓋全面,而且具有高度的注釋和標(biāo)準(zhǔn)化格式,使得大規(guī)模學(xué)習(xí)變得可行。
盡管對于神經(jīng)科學(xué)而言,也有一些主流的數(shù)據(jù)平臺,例如DANDI、OpenNeuro,以及Allen Institute、IBL、HCP 等機構(gòu)提供的高質(zhì)量大腦活動數(shù)據(jù)。這些數(shù)據(jù)涵蓋了大量的神經(jīng)記錄形式(spikes、LFP、sEEG、fMRI、EEG),總量可能超過了 10000 小時,凝聚了無數(shù)研究者的努力。
但問題在于,這些數(shù)據(jù)能否構(gòu)成一個真正的“腦圖譜”?目前我們?nèi)院茈y同時獲得具有高空間覆蓋(全腦記錄)、高空間分辨率、以及高任務(wù)多樣性的完整數(shù)據(jù)集。這是因為現(xiàn)有的神經(jīng)記錄形式都各有側(cè)重。比如臨床常用的 fMRI 和 EEG,只能保證空間分辨率(fMRI)和時間分辨率(EEG)其中之一。而有些技術(shù)雖然可以同時保證高空間覆蓋,空間分辨率和時間分辨率(如MEG),但是成本太高,并且可移動性差。就算我們擁有了高維度記錄,它們也只能覆蓋神經(jīng)活動空間中的極小一部分。類比來說,這就像只從酵母菌的一條染色體中采樣序列來訓(xùn)練DNA語言模型,其通用性顯然受限。
細(xì)胞類型圖譜、FlyWire(果蠅全腦連接組)等更“生物本位”的神經(jīng)科學(xué)圖譜,或許在覆蓋性上更為完善,但它們?nèi)匀鄙訇P(guān)鍵的跨尺度數(shù)據(jù)橋梁。例如,F(xiàn)lyWire 提供了果蠅腦的完整連接組,但還需要每個神經(jīng)元的轉(zhuǎn)錄組背景、受體分布以及電生理特征來可靠地模擬神經(jīng)活動。
這類橋梁就像神經(jīng)科學(xué)領(lǐng)域的 “PDB+UniProt”,是將結(jié)構(gòu)數(shù)據(jù)如連接組轉(zhuǎn)化為功能機制(activity dynamics)所必需的。神經(jīng)科學(xué)要構(gòu)建大模型驅(qū)動的生態(tài)系統(tǒng),未來十年最關(guān)鍵的任務(wù)之一,就是為與人類親緣關(guān)系近的物種,甚至是人類本身,構(gòu)建類似的全層次整合圖譜,這包括遺傳背景信息,細(xì)胞圖譜與轉(zhuǎn)錄組數(shù)據(jù),分子注釋的中尺度與微尺度連接組,神經(jīng)活動圖譜,不同模態(tài)之間的“校準(zhǔn)數(shù)據(jù)集”(即跨模態(tài)橋梁)等。
(2)我們能否主動干預(yù)大腦系統(tǒng)?
相比可以隨意合成的蛋白質(zhì),當(dāng)前神經(jīng)系統(tǒng)的可操作性遠(yuǎn)低于蛋白質(zhì)合成技術(shù)。當(dāng)前帶寬與維度最高的干預(yù)方式主要集中在感官外圍,例如視網(wǎng)膜植入,或屏幕、耳機提供的視聽輸入。
Science Corp的生物混合器件(biohybrid devices)則采用新策略:將神經(jīng)元培養(yǎng)在微電極與微型 LED 上,主動與設(shè)備形成交互界面,并逐步生長入腦組織。這些技術(shù)將為更精細(xì)、維度更高的調(diào)控提供可能。
除了技術(shù)上的可操作性,對于神經(jīng)系統(tǒng)進(jìn)行人為改造的倫理問題也有待考量。畢竟,我們并不希望身不由己地成為《愛,死亡與機器人》中的齊馬,變成一個徹頭徹尾的機械人。
![]()
?https://science.xyz/technologies/biohybrid/
(3)能否閉環(huán)?
合成生物學(xué)中最重要的能力之一是“閉環(huán)優(yōu)化”,也就是從模型預(yù)測到實驗驗證,再到再訓(xùn)練模型,最后再次優(yōu)化的過程。神經(jīng)科學(xué)是否實現(xiàn)類似流程?目前已有一些案例展現(xiàn)了閉環(huán)可能性的雛形,比如視覺神經(jīng)元刺激中出現(xiàn)的“Inception loop”實驗,能夠?qū)ふ壹せ钐囟ㄒ曈X神經(jīng)元的最強刺激;以及全息光遺傳學(xué)干預(yù)實驗,也展示了對神經(jīng)活動的主動微調(diào)。
這些實驗?zāi)壳叭詫傧闰?qū)者,但它們揭示了大模型在閉環(huán)控制中的潛力。特別是其可微特性,意味著我們可以用梯度下降等方法直接搜索最優(yōu)輸入刺激;但該路徑依賴配套硬件的發(fā)展,仍需同步突破高精度神經(jīng)記錄與干預(yù)技術(shù)瓶頸。
![]()
?V4區(qū)神經(jīng)元響應(yīng)的最大化刺激由Inception環(huán)路確定。 Willeke et al. (2023)
讀到這里,親愛的讀者,您或許也已察覺:我們在神經(jīng)科學(xué)中抱有的雄心——治愈所有神經(jīng)類疾病、徹底理解智能與意識等——與我們目前所擁有的工具和數(shù)據(jù),仍存在巨大落差。
大模型為我們提供了一個突破口:它們能夠利用已有和未來的大規(guī)模神經(jīng)數(shù)據(jù),學(xué)習(xí)有效的神經(jīng)表征,做出預(yù)測,并在閉環(huán)系統(tǒng)中進(jìn)行優(yōu)化,借助深度學(xué)習(xí)模型的可微特性實現(xiàn)自動調(diào)整與反饋。
但這一切不能在真空中發(fā)生。技術(shù)突破依賴數(shù)據(jù)與工具的協(xié)同發(fā)展,我們所收集的數(shù)據(jù),以及用于“讀寫”神經(jīng)活動、細(xì)胞類型、突觸和連接的工具生態(tài),必須彼此協(xié)同、互為促進(jìn),形成一個良性循環(huán)。要實現(xiàn)這一點,幾乎可以肯定的是,我們需要開展大規(guī)模、非假設(shè)驅(qū)動的神經(jīng)科學(xué)研究,聚焦于工具與數(shù)據(jù)本身的建設(shè)。這種研究可能會以“聚焦型研究組織”(Focused Research Organizations, FROs)或跨機構(gòu)協(xié)同項目的形式展開。
非假設(shè)驅(qū)動的科學(xué)有時會被視為“無頭蒼蠅”,但我認(rèn)為它最有力的辯護(hù)來自“認(rèn)識論上的謙遜”:面對數(shù)十億神經(jīng)元、萬億級突觸連接、成千上萬的細(xì)胞類型、數(shù)百個腦區(qū)和受體——也許我們首先該做的,就是完成全面系統(tǒng)的數(shù)據(jù)采集,然后再考慮如何對其進(jìn)行精準(zhǔn)干預(yù),從而建立真正具備因果解釋力的神經(jīng)模型。
未來十年,我們將擁有更多類型的神經(jīng)圖譜和數(shù)據(jù)庫,它們將進(jìn)一步支撐專用大模型與生物物理仿真模型的發(fā)展。這些知識架構(gòu)將通過下一代神經(jīng)技術(shù)實現(xiàn)互證性校準(zhǔn),形成動態(tài)互聯(lián)的認(rèn)知網(wǎng)絡(luò)。
原文鏈接:
https://www.neuroai.science/p/what-are-foundation-models-for-lessons
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論