在线黄片,C0m,黄色成人动漫网站,2024AV国产日韩一

美國發(fā)布大模型評估報(bào)告：DeepSeek性能差、不安全

老馬商業(yè)評述

2025.11.19 07:54

?·?來自北京

全文1409字

00:00 / 04:08

評估結(jié)果明確顯示，美國模型在整體性能上優(yōu)于DeepSeek模型。特別是在軟件工程和網(wǎng)絡(luò)安全任務(wù)中，差距最為顯著。以網(wǎng)絡(luò)安全任務(wù)為例，表現(xiàn)最佳的美國模型GPT-5達(dá)到了68.9%的準(zhǔn)確率，而最佳的DeepSeek模型（DeepSeek-V3.1）僅達(dá)到36.7%，差距高達(dá)32.2個(gè)百分點(diǎn)。

近期，美國國家標(biāo)準(zhǔn)與技術(shù)研究院（NIST）人工智能標(biāo)準(zhǔn)與創(chuàng)新中心（CAISI）今日發(fā)布了《DeepSeek與美國AI模型綜合評估報(bào)告》。這一評估由美國總統(tǒng)特朗普的“AI行動(dòng)計(jì)劃”授權(quán)進(jìn)行，該報(bào)告對來自中國的DeepSeek AI模型與美國前沿AI模型在性能、成本和安全三個(gè)關(guān)鍵維度上進(jìn)行了全面對比測試。

多維度評估方面，美國模型整體領(lǐng)先。

CAISI研究團(tuán)隊(duì)對DeepSeek的三款模型（DeepSeek-R1、DeepSeek-R1-0528和DeepSeek-V3.1）與四款美國模型（包括GPT-5、GPT-5-mini、gpt-oss和AnthropicOpus 4）進(jìn)行了19項(xiàng)基準(zhǔn)測試。測試涵蓋了七個(gè)關(guān)鍵領(lǐng)域：軟件工程、網(wǎng)絡(luò)安全、科學(xué)知識、數(shù)學(xué)推理、限制遵守、成本效率和意識形態(tài)對齊。

在軟件工程領(lǐng)域，GPT-5再次領(lǐng)先，達(dá)到75.8%的準(zhǔn)確率，而DeepSeek-V3.1為54.8%，差距為21個(gè)百分點(diǎn)。這些數(shù)據(jù)顯示，在涉及代碼分析、漏洞檢測和安全策略制定等關(guān)鍵任務(wù)中，美國模型目前仍具有明顯的技術(shù)優(yōu)勢。

成本效率對比測試中，DeepSeek表現(xiàn)不佳。

值得注意的是，評估報(bào)告在成本效率方面得出了出人意料的結(jié)論。GPT-5-mini在與DeepSeek-V3.1的對比中，不僅性能更優(yōu)，單token成本還低35%。這一發(fā)現(xiàn)挑戰(zhàn)了"美國模型價(jià)格更高"的常見看法。

CAISI主任Lynne Parker在新聞發(fā)布會上表示：“這一發(fā)現(xiàn)對市場認(rèn)知具有重要意義。許多企業(yè)選擇特定AI模型時(shí)往往僅考慮API價(jià)格，但我們的測試表明，綜合性能和成本效率，美國模型實(shí)際上提供了更好的價(jià)值主張。”

安全性評估：DeepSeek存在嚴(yán)重漏洞

報(bào)告中最引人關(guān)注的發(fā)現(xiàn)集中在安全性方面。測試顯示，DeepSeek-R1-0528模型在代理安全測試中被劫持的概率高達(dá)37%-49%，比美國前沿模型高出12倍。在越獄攻擊測試中，DeepSeek-R1-0528的合規(guī)率僅為8%，而美國模型為94%。

數(shù)據(jù)顯示，被劫持的DeepSeek代理在模擬環(huán)境中成功執(zhí)行了多項(xiàng)高風(fēng)險(xiǎn)操作，包括發(fā)送網(wǎng)絡(luò)釣魚郵件、下載惡意軟件和竊取用戶憑據(jù)。

意識形態(tài)對齊問題

評估還發(fā)現(xiàn)，DeepSeek模型更傾向于傳播與其訓(xùn)練數(shù)據(jù)源一致的特定意識形態(tài)內(nèi)容。在測試中，DeepSeek模型重復(fù)特定敘事的頻率是美國模型的2到4倍，數(shù)據(jù)波動(dòng)取決于語言環(huán)境和具體主題。

DeepSeek使用率呈增長態(tài)勢

盡管存在這些明顯缺陷，DeepSeek的使用率仍在全球范圍內(nèi)顯著增長。報(bào)告顯示，DeepSeek模型的下載量自2025年1月以來增長了近1000%，API請求量在某些平臺上激增5900%。

NIST CAISI是一家全球領(lǐng)先的測量科學(xué)合作中心，其致力于加速美國在AI領(lǐng)域的進(jìn)展，通過開發(fā)和評估技術(shù)基礎(chǔ)來測試、評估和提高AI系統(tǒng)的能力、安全性和可信賴度，促進(jìn)美國AI生態(tài)系統(tǒng)的競爭力、創(chuàng)新力。（文｜老馬商業(yè)評述，作者｜馬金男）

轉(zhuǎn)載請注明出處、作者和本文鏈接。
聲明：文章內(nèi)容僅供參考、交流、學(xué)習(xí)、不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn)，點(diǎn)擊這里投稿。創(chuàng)業(yè)或融資尋求報(bào)道，點(diǎn)擊這里。

763人已贊賞 >

敬原創(chuàng)，有鈦度，得贊賞

贊賞支持

發(fā)表評論

0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求，請綁定手機(jī)號后發(fā)表評論

請登錄后輸入評論內(nèi)容

鈦a55L9a 1
你說不安全就不安全
回復(fù) 2025.11.19 · via android
愛都叫情
美國模型在關(guān)鍵領(lǐng)域領(lǐng)先，看來技術(shù)研發(fā)還是有一手的！
回復(fù) 2025.11.19 · via android
時(shí)光孤獨(dú)者
越獄攻擊合規(guī)率才 8%，DeepSeek 安全性簡直不忍直視！
回復(fù) 2025.11.19 · via iphone
碎碎念念
重復(fù)特定敘事頻率是美國模型好幾倍，DeepSeek 內(nèi)容不太中立啊。
回復(fù) 2025.11.19 · via h5
立羽盆
性能和安全都有問題，DeepSeek 下載量和請求量還猛漲，有點(diǎn)迷啊！
回復(fù) 2025.11.19 · via h5
鋒鋒睡不著
DeepSeek-V3.1 軟件工程準(zhǔn)確率比 GPT-5 低 21%，技術(shù)短板明顯！
回復(fù) 2025.11.19 · via h5
暴曬在一旁的寂寞
這報(bào)告一出，DeepSeek 得趕緊整改，不然市場要被搶走了！
回復(fù) 2025.11.19 · via android
請叫我
網(wǎng)絡(luò)安全任務(wù)上差了 32.2 個(gè)百分點(diǎn)，這差距也太大了，咋追呢？
回復(fù) 2025.11.19 · via iphone
立羽盆
就算有缺陷，DeepSeek 全球使用率還大增，肯定有它的優(yōu)勢。
回復(fù) 2025.11.19 · via pc
讓我踏實(shí)
美國模型在軟件工程和網(wǎng)絡(luò)安全上優(yōu)勢這么大，DeepSeek 得加油追了！
回復(fù) 2025.11.19 · via h5

更多評論

快報(bào)

2026-03-28 23:01

澤連斯基稱與中東3國達(dá)成防務(wù)合作協(xié)議，涉聯(lián)合生產(chǎn)無人機(jī)

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi)，已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長發(fā)表書面致辭，支持世貿(mào)組織《電子商務(wù)協(xié)定》達(dá)成臨時(shí)實(shí)施安排

2026-03-28 21:54

40余家單位聯(lián)盟，中國最大人形機(jī)器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會預(yù)判：百億智能體或成新物種，AI推動(dòng)人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市，售價(jià)4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉庫并致烏克蘭人傷亡消息不實(shí)

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國務(wù)卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個(gè)詞的搜索量最高一天達(dá)到7.7萬次，比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國首個(gè)可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動(dòng)2026”在北京啟動(dòng)

2026-03-28 19:03

國務(wù)院食安辦、市場監(jiān)管總局約談相關(guān)地方市級人民政府負(fù)責(zé)人，督辦“3?15”晚會曝光問題整改

2026-03-28 18:44

飛書 CLI 開源：AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個(gè)月中國創(chuàng)新藥對外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國和菲律賓舉行南海問題雙邊磋商機(jī)制第十一次會議

2026-03-28 17:30

印尼正式實(shí)施16歲以下社媒禁令，約7000萬人受影響

2026-03-28 17:04

美國加州禁止官員借內(nèi)幕消息在預(yù)測市場牟利

2026-03-28 17:02

北京“超現(xiàn)場”生態(tài)共同體建設(shè)暨全國覆蓋啟動(dòng)

掃描下載App

免费看在线a黄视频|99爽99操日韩毛片儿|91停婷在线无码观看|日韩三级片小视频|一级黄片免费播放|欧美成人视频网站导航|亚洲日韩欧美七区|国产视频在线观看91|人成视频免费在线播放|国产精品成人在线免费观看

美國發(fā)布大模型評估報(bào)告：DeepSeek性能差、不安全

多維度評估方面，美國模型整體領(lǐng)先。

成本效率對比測試中，DeepSeek表現(xiàn)不佳。