91伊人一区久色中文,黄色大片久久外国黄片

這個(gè)研究思路的本質(zhì)其實(shí)就是提示詞工程，比如其中的一些維度：

角色認(rèn)同（Role Identity）：給大模型指定一個(gè)古代身份；

行為引導(dǎo)（Behavioral Guidance）：引導(dǎo)大模型用類似獻(xiàn)計(jì)的方式輸出回復(fù)；

隱喻映射（Metaphor Mapping）：將現(xiàn)代的敏感概念替換為古代詞匯；

表達(dá)風(fēng)格（Expression Style）：要求大模型用辭、賦等特定的文體和句式作答；

除此之外，還有觸發(fā)模式、機(jī)制、知識(shí)關(guān)聯(lián)和情景設(shè)置維度。

簡(jiǎn)單來(lái)說(shuō)，就是用各種限制讓大模型穿越到古代，再以古人的身份和它交流，以此混淆現(xiàn)代安全檢測(cè)器的視聽(tīng)。

當(dāng)8個(gè)維度結(jié)合在一起，就產(chǎn)生了上萬(wàn)種策略組合，新的問(wèn)題又出現(xiàn)了：如何尋找那些最有效的繞開(kāi)安全防御機(jī)制的策略？

研究人員此時(shí)又利用了生物學(xué)的一種高效尋覓機(jī)制：仿生果蠅算法（Fruit Fly Optimization）。

一群賽博果蠅，要在幾萬(wàn)種提示詞生成策略中“大海撈針”，就必須有高效的分工合作機(jī)制。

第一步是嗅覺(jué)上的搜索，也就是讓果蠅依靠嗅覺(jué)判斷水果的哪個(gè)部分更香，本質(zhì)上則是局部微調(diào)。

原理很簡(jiǎn)單，系統(tǒng)先隨機(jī)生成幾個(gè)提示詞丟給大模型進(jìn)行測(cè)試，一旦其中的一條能讓安全機(jī)制稍顯懈怠，算法就可以在這條提示詞的基礎(chǔ)上開(kāi)始微調(diào)。

微調(diào)的方式，或是改變其中的部分詞匯，或是調(diào)整提示詞語(yǔ)序，但整體變動(dòng)幅度必須被控制在一個(gè)較小的區(qū)間內(nèi)。這個(gè)過(guò)程將重復(fù)多次，系統(tǒng)將會(huì)持續(xù)觀察效果是否有所提升。

第二步是視覺(jué)上的搜索，一只果蠅發(fā)現(xiàn)了美食后會(huì)迅速引導(dǎo)同伴前來(lái)享用。

系統(tǒng)一旦發(fā)現(xiàn)一個(gè)相對(duì)有效的提示詞組合，算法就會(huì)立刻做出調(diào)整，所有新生成的提示詞都會(huì)向這個(gè)“高分答案”靠攏，在此基礎(chǔ)上繼續(xù)優(yōu)化提示詞，直至攻破大模型的安全防御機(jī)制。

最后，如果經(jīng)過(guò)數(shù)次優(yōu)化的提示詞還是繞不開(kāi)安全防御機(jī)制該怎么辦？研究團(tuán)隊(duì)還考慮到了柯西突變，簡(jiǎn)單來(lái)說(shuō)就是掀桌子重來(lái)。

這種情況實(shí)際上相當(dāng)常見(jiàn)，即使黑客們現(xiàn)有的攻擊手段失效，但大模型的安全防御機(jī)制存在漏洞的事實(shí)大家心知肚明。

因此，算法在遇到這種情況時(shí)，會(huì)果斷拋棄當(dāng)前的思路，重新嘗試一種與原先截然不同的策略，這種超大跨度的轉(zhuǎn)變反而往往能命中大模型意想不到的安全盲區(qū)。

CC-BOS這種“基于語(yǔ)文知識(shí)的生物學(xué)方法”堪稱藝術(shù)，因?yàn)樗鼧O大程度模仿了生物行動(dòng)的邏輯，卻又完全不需要人工干預(yù)。

微調(diào)試探、集群攻擊，實(shí)在不行就及時(shí)換賽道，這些賽博果蠅能夠在上萬(wàn)種文言文提示詞中持續(xù)進(jìn)行迭代和優(yōu)化，而在海量的嘗試中，總會(huì)有一次精準(zhǔn)命中大模型的軟肋，最終徹底摧毀其安全防線。

03 頂級(jí)模型的全線潰敗

看似有些荒唐的想法，卻帶來(lái)了讓人大跌眼鏡的結(jié)果。

研究團(tuán)隊(duì)選用了去年撰寫(xiě)論文時(shí)最先進(jìn)的六款大模型：GPT-4o、Claude-3.7-Sonnet、Gemini-2.5-Flash、Grok-3、DeepSeek-Reasoner和Qwen3。

而這些曾經(jīng)的頂級(jí)模型，在最具權(quán)威性的有害行為基準(zhǔn)測(cè)試AdvBench中的表現(xiàn)令人十分擔(dān)憂：

無(wú)論是反復(fù)強(qiáng)調(diào)安全策略的OpenAI，還是經(jīng)常進(jìn)行安全研究的Anthropic，在CC-BOS的文言文攻擊下，六款大模型的防線全部被洞穿。

即便是中文能力更強(qiáng)、理應(yīng)更能理解文言文的兩款國(guó)產(chǎn)模型，也未能幸免。

過(guò)去的自動(dòng)化越獄攻擊算法更多依靠頻繁的嘗試實(shí)現(xiàn)突圍，往往要對(duì)模型進(jìn)行50-90次以上的反復(fù)試探才能成功。

但CC-BOS的平均查詢次數(shù)是恐怖的1.12-2.38次。換句話說(shuō)，不超過(guò)3次就能成功的攻擊手段，意味著算力成本接近于零，同時(shí)具備極強(qiáng)的隱蔽性，在大量正常對(duì)話中很難被識(shí)別出來(lái)。

用GPT-4o作為陪練生成的“文言文攻擊”提示詞，放到那些沒(méi)參加這次攻防演練的大模型身上同樣適用，成功率仍然保持在80%-96%的超高水平。

因此，文言文越獄絕不是部分模型存在的特定Bug，而是大語(yǔ)言模型的通用底層漏洞。

04 結(jié)語(yǔ)：智能體時(shí)代的“生死大考”

兩千年來(lái)竹簡(jiǎn)中流傳下來(lái)的智慧，輕松黑掉了迄今為止人類最先進(jìn)的硅基大腦。

結(jié)合當(dāng)下AI時(shí)代的現(xiàn)實(shí)來(lái)看，它敲響的是一聲刺耳的行業(yè)警鐘。

論文雖然寫(xiě)的是大語(yǔ)言模型，但別忘了，AI已經(jīng)不再是那個(gè)只能聊天的網(wǎng)頁(yè)對(duì)話框。

對(duì)于這個(gè)產(chǎn)品的看法，先前的文章中已經(jīng)寫(xiě)過(guò)，這里不再多談，我們只看事實(shí)。

各大互聯(lián)網(wǎng)巨頭瘋狂下場(chǎng)布局，國(guó)內(nèi)部分省市甚至出臺(tái)專項(xiàng)政策扶持技術(shù)落地。

可以推斷，在不久的未來(lái)，無(wú)論是主動(dòng)擁抱還是被動(dòng)升級(jí)，智能體深度接管電腦、手機(jī)和各類終端設(shè)備，必然是不可逆轉(zhuǎn)的常態(tài)。

只要當(dāng)下智能體的設(shè)計(jì)范式不發(fā)生根本性轉(zhuǎn)變，大語(yǔ)言模型在智能體中的核心地位就穩(wěn)如泰山。

過(guò)去，行業(yè)內(nèi)總在擔(dān)憂智能體的安全問(wèn)題，曾經(jīng)爆出來(lái)的智能體誤刪Gmail郵件事件也總是被當(dāng)成意外，一笑而過(guò)。

但這次的文言文越獄，直接觸及了底層的安全機(jī)制，令人細(xì)思極恐：一個(gè)大模型可以被文言文輕松騙過(guò)，卻擁有用戶電腦的操作系統(tǒng)級(jí)權(quán)限。

有心之人根本不需要編寫(xiě)復(fù)雜的木馬病毒，只需要通過(guò)網(wǎng)頁(yè)、郵件甚至PDF在屏幕上顯示一段精心構(gòu)造的文言文指令，原本負(fù)責(zé)保護(hù)用戶隱私的安全機(jī)制就會(huì)瞬間土崩瓦解。

原本用來(lái)自動(dòng)工作的智能體，談笑之間就會(huì)不自覺(jué)地把電腦上各種私密文件打包發(fā)送出去。防線一旦在語(yǔ)言理解層面崩潰，物理世界的資產(chǎn)就如同探囊取物。

更令人不寒而栗的事實(shí)在于，文言文絕非大語(yǔ)言模型唯一的底層漏洞。

復(fù)雜的神經(jīng)網(wǎng)絡(luò)把AI變成了難以窺探的黑盒，文言文只是恰好被研究人員探明的一個(gè)角落，其他地方大概率還隱藏著無(wú)數(shù)個(gè)尚未被發(fā)現(xiàn)的安全盲區(qū)。

文言文越獄成功，證明了現(xiàn)有的安全對(duì)齊機(jī)制還處于淺層過(guò)濾階段。

在我們將數(shù)字生活的最高權(quán)限徹底交給智能體之前，如何設(shè)計(jì)更有效的安全機(jī)制，已經(jīng)成為整個(gè)AI行業(yè)必須共同面對(duì)的生死大考。

然而，如今養(yǎng)蝦的浪潮，總讓我覺(jué)得下面這段話早晚會(huì)成為現(xiàn)實(shí)。

注：計(jì)算機(jī)領(lǐng)域最臭名昭著的Linux/Unix 刪庫(kù)跑路命令

本文系作者硅基星芒授權(quán)鈦媒體發(fā)表，并經(jīng)鈦媒體編輯，轉(zhuǎn)載請(qǐng)注明出處、作者和本文鏈接。
本內(nèi)容來(lái)源于鈦媒體鈦度號(hào)，文章內(nèi)容僅供參考、交流、學(xué)習(xí)，不構(gòu)成投資建議。
想和千萬(wàn)鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn)，點(diǎn)擊這里投稿。創(chuàng)業(yè)或融資尋求報(bào)道，點(diǎn)擊這里。

快報(bào)

2026-03-28 23:01

澤連斯基稱與中東3國(guó)達(dá)成防務(wù)合作協(xié)議，涉聯(lián)合生產(chǎn)無(wú)人機(jī)

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi)，已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長(zhǎng)發(fā)表書(shū)面致辭，支持世貿(mào)組織《電子商務(wù)協(xié)定》達(dá)成臨時(shí)實(shí)施安排

2026-03-28 21:54

40余家單位聯(lián)盟，中國(guó)最大人形機(jī)器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會(huì)預(yù)判：百億智能體或成新物種，AI推動(dòng)人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市，售價(jià)4.48萬(wàn)-5.48萬(wàn)元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉(cāng)庫(kù)并致烏克蘭人傷亡消息不實(shí)

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國(guó)務(wù)卿和歐盟官員被曝就烏克蘭問(wèn)題激烈交鋒

2026-03-28 19:44

“Token”這個(gè)詞的搜索量最高一天達(dá)到7.7萬(wàn)次，比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國(guó)首個(gè)可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動(dòng)2026”在北京啟動(dòng)

2026-03-28 19:03

國(guó)務(wù)院食安辦、市場(chǎng)監(jiān)管總局約談相關(guān)地方市級(jí)人民政府負(fù)責(zé)人，督辦“3?15”晚會(huì)曝光問(wèn)題整改

2026-03-28 18:44

飛書(shū) CLI 開(kāi)源：AI 可直連飛書(shū)辦公套件

2026-03-28 18:36

馬來(lái)西亞說(shuō)伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個(gè)月中國(guó)創(chuàng)新藥對(duì)外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國(guó)和菲律賓舉行南海問(wèn)題雙邊磋商機(jī)制第十一次會(huì)議

2026-03-28 17:30

印尼正式實(shí)施16歲以下社媒禁令，約7000萬(wàn)人受影響

2026-03-28 17:04

美國(guó)加州禁止官員借內(nèi)幕消息在預(yù)測(cè)市場(chǎng)牟利

2026-03-28 17:02

北京“超現(xiàn)場(chǎng)”生態(tài)共同體建設(shè)暨全國(guó)覆蓋啟動(dòng)

03 頂級(jí)模型的全線潰敗

04 結(jié)語(yǔ)：智能體時(shí)代的“生死大考”

敬原創(chuàng)，有鈦度，得贊賞

敬原創(chuàng)，有鈦度，得贊賞