近期,美國國家標(biāo)準(zhǔn)與技術(shù)研究院(NIST)人工智能標(biāo)準(zhǔn)與創(chuàng)新中心(CAISI)今日發(fā)布了《DeepSeek與美國AI模型綜合評估報(bào)告》。這一評估由美國總統(tǒng)特朗普的“AI行動(dòng)計(jì)劃”授權(quán)進(jìn)行,該報(bào)告對來自中國的DeepSeek AI模型與美國前沿AI模型在性能、成本和安全三個(gè)關(guān)鍵維度上進(jìn)行了全面對比測試。
多維度評估方面,美國模型整體領(lǐng)先。
CAISI研究團(tuán)隊(duì)對DeepSeek的三款模型(DeepSeek-R1、DeepSeek-R1-0528和DeepSeek-V3.1)與四款美國模型(包括GPT-5、GPT-5-mini、gpt-oss和AnthropicOpus 4)進(jìn)行了19項(xiàng)基準(zhǔn)測試。測試涵蓋了七個(gè)關(guān)鍵領(lǐng)域:軟件工程、網(wǎng)絡(luò)安全、科學(xué)知識、數(shù)學(xué)推理、限制遵守、成本效率和意識形態(tài)對齊。
評估結(jié)果明確顯示,美國模型在整體性能上優(yōu)于DeepSeek模型。特別是在軟件工程和網(wǎng)絡(luò)安全任務(wù)中,差距最為顯著。以網(wǎng)絡(luò)安全任務(wù)為例,表現(xiàn)最佳的美國模型GPT-5達(dá)到了68.9%的準(zhǔn)確率,而最佳的DeepSeek模型(DeepSeek-V3.1)僅達(dá)到36.7%,差距高達(dá)32.2個(gè)百分點(diǎn)。
在軟件工程領(lǐng)域,GPT-5再次領(lǐng)先,達(dá)到75.8%的準(zhǔn)確率,而DeepSeek-V3.1為54.8%,差距為21個(gè)百分點(diǎn)。這些數(shù)據(jù)顯示,在涉及代碼分析、漏洞檢測和安全策略制定等關(guān)鍵任務(wù)中,美國模型目前仍具有明顯的技術(shù)優(yōu)勢。
成本效率對比測試中,DeepSeek表現(xiàn)不佳。
值得注意的是,評估報(bào)告在成本效率方面得出了出人意料的結(jié)論。GPT-5-mini在與DeepSeek-V3.1的對比中,不僅性能更優(yōu),單token成本還低35%。這一發(fā)現(xiàn)挑戰(zhàn)了"美國模型價(jià)格更高"的常見看法。
CAISI主任Lynne Parker在新聞發(fā)布會上表示:“這一發(fā)現(xiàn)對市場認(rèn)知具有重要意義。許多企業(yè)選擇特定AI模型時(shí)往往僅考慮API價(jià)格,但我們的測試表明,綜合性能和成本效率,美國模型實(shí)際上提供了更好的價(jià)值主張。”
安全性評估:DeepSeek存在嚴(yán)重漏洞
報(bào)告中最引人關(guān)注的發(fā)現(xiàn)集中在安全性方面。測試顯示,DeepSeek-R1-0528模型在代理安全測試中被劫持的概率高達(dá)37%-49%,比美國前沿模型高出12倍。在越獄攻擊測試中,DeepSeek-R1-0528的合規(guī)率僅為8%,而美國模型為94%。
數(shù)據(jù)顯示,被劫持的DeepSeek代理在模擬環(huán)境中成功執(zhí)行了多項(xiàng)高風(fēng)險(xiǎn)操作,包括發(fā)送網(wǎng)絡(luò)釣魚郵件、下載惡意軟件和竊取用戶憑據(jù)。
意識形態(tài)對齊問題
評估還發(fā)現(xiàn),DeepSeek模型更傾向于傳播與其訓(xùn)練數(shù)據(jù)源一致的特定意識形態(tài)內(nèi)容。在測試中,DeepSeek模型重復(fù)特定敘事的頻率是美國模型的2到4倍,數(shù)據(jù)波動(dòng)取決于語言環(huán)境和具體主題。
DeepSeek使用率呈增長態(tài)勢
盡管存在這些明顯缺陷,DeepSeek的使用率仍在全球范圍內(nèi)顯著增長。報(bào)告顯示,DeepSeek模型的下載量自2025年1月以來增長了近1000%,API請求量在某些平臺上激增5900%。
NIST CAISI是一家全球領(lǐng)先的測量科學(xué)合作中心,其致力于加速美國在AI領(lǐng)域的進(jìn)展,通過開發(fā)和評估技術(shù)基礎(chǔ)來測試、評估和提高AI系統(tǒng)的能力、安全性和可信賴度,促進(jìn)美國AI生態(tài)系統(tǒng)的競爭力、創(chuàng)新力。(文|老馬商業(yè)評述,作者|馬金男)







快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論
你說不安全就不安全
美國模型在關(guān)鍵領(lǐng)域領(lǐng)先,看來技術(shù)研發(fā)還是有一手的!
越獄攻擊合規(guī)率才 8%,DeepSeek 安全性簡直不忍直視!
重復(fù)特定敘事頻率是美國模型好幾倍,DeepSeek 內(nèi)容不太中立啊。
性能和安全都有問題,DeepSeek 下載量和請求量還猛漲,有點(diǎn)迷啊!
DeepSeek-V3.1 軟件工程準(zhǔn)確率比 GPT-5 低 21%,技術(shù)短板明顯!
這報(bào)告一出,DeepSeek 得趕緊整改,不然市場要被搶走了!
網(wǎng)絡(luò)安全任務(wù)上差了 32.2 個(gè)百分點(diǎn),這差距也太大了,咋追呢?
就算有缺陷,DeepSeek 全球使用率還大增,肯定有它的優(yōu)勢。
美國模型在軟件工程和網(wǎng)絡(luò)安全上優(yōu)勢這么大,DeepSeek 得加油追了!