在這項(xiàng)任務(wù)中,大語言模型需要驅(qū)動(dòng)OpenClaw閱讀一份名為openclaw_report.pdf的研究報(bào)告,并回答8個(gè)具體的問題,比如:

“過濾前社區(qū)內(nèi)的技能總共有多少?(正確答案5705)”

“第二大類別的技能是什么?(正確答案Search & Research: 253)”

這項(xiàng)任務(wù)可以完全由程序自動(dòng)化評(píng)分。Python腳本會(huì)檢查生成的answer.txt文件,不僅會(huì)核對數(shù)字是否精準(zhǔn)匹配,還會(huì)用正則表達(dá)式驗(yàn)證日期格式以及關(guān)鍵詞是否存在。

評(píng)分標(biāo)準(zhǔn)也相當(dāng)嚴(yán)格,哪怕答對7道題,在最后一個(gè)簡單問題上只要錯(cuò)了一位數(shù)字,得分也是零。這種設(shè)計(jì)正是為了考察智能體最基本的結(jié)構(gòu)化和非結(jié)構(gòu)化信息提取能力精確執(zhí)行能力。

第二道題是skills倉庫中的task no.16:競爭市場研究。

相比于前面的任務(wù),這項(xiàng)任務(wù)更貼近用戶的實(shí)際應(yīng)用場景,要求智能體生成一份企業(yè)級(jí)的應(yīng)用性能監(jiān)控市場競爭分析報(bào)告。

要完成這項(xiàng)任務(wù),智能體需要經(jīng)過識(shí)別頭部廠商、分析差異化定位、梳理定價(jià)模式、輸出結(jié)構(gòu)化Markdown文檔等復(fù)雜環(huán)節(jié),這對于人類來說也是一項(xiàng)工作量相當(dāng)大的任務(wù)。

因此,這項(xiàng)任務(wù)采用混合評(píng)分,自動(dòng)化部分負(fù)責(zé)檢查“是否寫夠5個(gè)競品”、“有無對比表格”等評(píng)判標(biāo)準(zhǔn),研究質(zhì)量、分析洞察則交給頂尖模型打分,打分標(biāo)準(zhǔn)甚至?xí)?xì)到“風(fēng)格是否接近于人類商業(yè)分析師”、“趨勢是否與真實(shí)商業(yè)動(dòng)態(tài)吻合”。

02 評(píng)測結(jié)果:國產(chǎn)模型強(qiáng)勢突圍

在了解評(píng)測機(jī)制以后,我們來一起看看評(píng)測結(jié)果。

PinchBench將評(píng)測結(jié)果劃分為三個(gè)維度:成功率、速度和成本。

成功率方面,排名第一的選手來自Google,但令人意外的是,不是智能化程度最高的旗艦?zāi)P虶emini 3.1 Pro,而是性價(jià)比最高、面向海量智能體任務(wù)而設(shè)計(jì)的Gemini 3.1 Flash Lite。

更值得關(guān)注的是,這一次,國產(chǎn)大模型沒有在性能上被甩開,MiniMax的MiniMax-M2.1月之暗面的Kimi-K2.5這兩個(gè)霸占OpenClaw API調(diào)用量排行榜的國產(chǎn)模型位列第二、第三,與Google的差距盡在毫厘之間。

速度方面,MiniMax-M2.5更是直接登頂,阿里的Qwen3-Max-Thinking和智譜的GLM-5也沖進(jìn)前十名,位列第六、第七。

在絕大部分用戶最關(guān)心的成本方面,和我們此前預(yù)測的一樣,國產(chǎn)AI模型在成本端相比國際頂級(jí)大模型具備明顯優(yōu)勢。

可以看到,Gemini、GPT、Claude和Grok四家最新的旗艦?zāi)P投紵o緣前十,輕量級(jí)模型和舊版本模型雖然成本低廉,但成功率卻沒有保證,總成本未必占優(yōu)。

另外,值得注意的是,不同模型之間的成本差異巨大,排名第十的Qwen3-Coder-Next的token成本已經(jīng)超過排名第一的GPT-5-Nano的12倍,而這還只是最優(yōu)情況下消耗的成本。

在實(shí)際應(yīng)用中,用戶最需要的是模型能“把活干好”,在這個(gè)基礎(chǔ)之上開銷當(dāng)然越低越好。

若是把這張結(jié)合了任務(wù)成功率和成本的綜合圖劃分為四個(gè)區(qū)域,左上角就代表“便宜且好用”,右上角則是“貴但是好用”。

到MiniMax、月之暗面和智譜的模型名稱恰好都出現(xiàn)在左上角區(qū)域。

這也反映出技術(shù)層面上的現(xiàn)實(shí):

Agent時(shí)代的到來,有效縮短了底層大模型之間的能力差距。

而國產(chǎn)大模型不僅有token成本上的優(yōu)勢,在智能體任務(wù)上的性能也已經(jīng)達(dá)到國際頂尖水平。

03 免費(fèi)陷阱:隱性成本與安全隱患

回到最近的產(chǎn)業(yè)動(dòng)態(tài),騰訊的這次公益活動(dòng)可以說是把OpenClaw的使用門檻徹底抹除了。

即便無法線下參與,相比此前各大AI平臺(tái)推出的“一鍵部署”功能,掃碼登錄+一次點(diǎn)擊+復(fù)制粘貼的方式也已經(jīng)沒有什么技術(shù)難度。

深圳龍崗區(qū)甚至準(zhǔn)備出臺(tái)相關(guān)政策來扶持OpenClaw。

這一系列的重磅消息,屬實(shí)有些讓人不知所措,技術(shù)社區(qū)的人們甚至感覺有些荒唐。

在看完上面PinchBench的內(nèi)容后,大家應(yīng)該已經(jīng)明白:

打著免費(fèi)的旗號(hào)安裝OpenClaw,實(shí)際上并不免費(fèi)。

因?yàn)檫@背后隱藏著一個(gè)極其容易被忽視的技術(shù)細(xì)節(jié):運(yùn)行智能體和直接調(diào)用大語言模型,在資源消耗上完全是兩個(gè)概念。

前面的文章中我們也說過,直接調(diào)用大語言模型這種一問一答的聊天,消耗相對可控。

但用Agent干活則完全不同,搜索網(wǎng)頁、閱讀報(bào)告、整理文件、分析總結(jié),這些人類習(xí)以為常的工作,對AI來說就是成百上千次的API調(diào)用和token消耗。

更可怕的是,這種消耗是不透明的。越模糊的指令,意味著智能體需要進(jìn)行工具調(diào)用、上下文回溯、錯(cuò)誤重試的次數(shù)越多。

交互次數(shù)的線性增長,帶來的是token消耗的指數(shù)級(jí)上升。

這種極其隱蔽的資源消耗邏輯,以及OpenClaw可能帶來的安全風(fēng)險(xiǎn),對于沖著“免費(fèi)安裝”去的普通用戶來說是致命的。

這也解釋了技術(shù)社區(qū)的態(tài)度為什么會(huì)與普通用戶近期的態(tài)度截然相反。

騰訊這次公益活動(dòng)的后續(xù)消息也能一定程度上反映這個(gè)問題:在為用戶免費(fèi)安裝OpenClaw,還頒發(fā)“小龍蝦出生證明”后,幾個(gè)小時(shí)過去就已經(jīng)有網(wǎng)友反饋賬戶被持續(xù)小額扣費(fèi),累計(jì)200元以上。

雖然騰訊馬上回應(yīng)稱費(fèi)用是歷史行為產(chǎn)生,與OpenClaw部署無關(guān),但這已經(jīng)給用戶們敲響了警鐘:免費(fèi)安裝絕不等于免費(fèi)使用。

而近期各大國產(chǎn)AI企業(yè)接連推出Coding Plan相關(guān)產(chǎn)品作為直接購買API的高性價(jià)比替代方案,本質(zhì)上也是一種銷售多余token和云服務(wù)器的方式。

04 理性回歸:熱潮退去后能留下什么?

對于這次“養(yǎng)蝦”熱潮,Linuxdo論壇上一位用戶評(píng)論道:

言辭雖然有些偏激,但卻一針見血。

“折騰”本身沒有錯(cuò),技術(shù)愛好者們探索新工具、嘗試新方案,這就是推動(dòng)技術(shù)進(jìn)步的源動(dòng)力。

但回到產(chǎn)品本身,OpenClaw仍然面臨一個(gè)尷尬的局面:部署門檻幾乎為零,但有效使用門檻依然很高。

或許,這個(gè)周末安裝OpenClaw的大部分人,都享受到了部署成功那一瞬間的成就感,有了茶余飯后“我也在養(yǎng)蝦”的談資,卻無法感受到工具本身能夠帶來的實(shí)際價(jià)值。

在技術(shù)社區(qū)中,我看到一個(gè)值得分享的觀點(diǎn):

使用OpenClaw的人應(yīng)該具備以下三個(gè)條件:

①非常明確OpenClaw能做什么;

②非常明確OpenClaw如何實(shí)現(xiàn)價(jià)值;

③帶著目的去使用并實(shí)現(xiàn)良好的效果;

但現(xiàn)實(shí)往往與之相反:很多人因?yàn)楦L(fēng)或好奇而安裝OpenClaw,結(jié)果發(fā)現(xiàn)天馬行空的預(yù)期與實(shí)際的能力邊界完全對不上,“一句話干完一天活”的幻想落空后又不清楚OpenClaw還能做什么,最后自然無法實(shí)現(xiàn)預(yù)期效果,要么放在那里再也不動(dòng),要么直接卸載刪除。

這就是典型的“產(chǎn)品能力超前,用戶需求滯后”。

現(xiàn)在的這波熱潮,本質(zhì)上只是新一輪的跟風(fēng)。前有一鍵部署,后有免費(fèi)安裝,跟風(fēng)“養(yǎng)蝦”的人越來越多,魚缸里的寵物也越來越多。

不可否認(rèn)的是,在革命性的新產(chǎn)品誕生后,總會(huì)有人能將自己的創(chuàng)意發(fā)揮出遠(yuǎn)超token成本的價(jià)值。

但對于大部分普通用戶來說,技術(shù)本身無罪,但傳播過程中信息的過度簡化和預(yù)期管理的缺失,以及“免費(fèi)”二字帶來的盲目熱情,反而讓探索者承擔(dān)了不必要的試錯(cuò)成本。

熱潮終會(huì)褪去,留下的才是真正解決問題的工具和使用者。

PinchBench這類基準(zhǔn)測試的出現(xiàn),意味著智能體已經(jīng)從實(shí)驗(yàn)室的demo走向現(xiàn)實(shí)。

它不否認(rèn)創(chuàng)新的熱情,而是去建立一套可討論、可比較、可迭代的評(píng)估方案。

對于開發(fā)者,它是優(yōu)化模型和工具鏈的參照系;對于用戶,它是理性選擇技術(shù)方案的決策輔助。

PinchBench這次愿意把評(píng)分邏輯公開于眾的嘗試,至少讓用戶在選擇前有了一份可驗(yàn)證的依據(jù)。

更重要的是,在這個(gè)智能體爆發(fā)的時(shí)代,保持清醒比跟上潮流更重要。

本文系作者 硅基星芒 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接。
本內(nèi)容來源于鈦媒體鈦度號(hào),文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評(píng)論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號(hào)后發(fā)表評(píng)論

登錄后輸入評(píng)論內(nèi)容

快報(bào)

更多

2026-03-28 23:01

澤連斯基稱與中東3國達(dá)成防務(wù)合作協(xié)議,涉聯(lián)合生產(chǎn)無人機(jī)

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi),已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長發(fā)表書面致辭,支持世貿(mào)組織《電子商務(wù)協(xié)定》達(dá)成臨時(shí)實(shí)施安排

2026-03-28 21:54

40余家單位聯(lián)盟,中國最大人形機(jī)器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會(huì)預(yù)判:百億智能體或成新物種,AI推動(dòng)人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市,售價(jià)4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉庫并致烏克蘭人傷亡消息不實(shí)

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國務(wù)卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個(gè)詞的搜索量最高一天達(dá)到7.7萬次,比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國首個(gè)可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動(dòng)2026”在北京啟動(dòng)

2026-03-28 19:03

國務(wù)院食安辦、市場監(jiān)管總局約談相關(guān)地方市級(jí)人民政府負(fù)責(zé)人,督辦“3?15”晚會(huì)曝光問題整改

2026-03-28 18:44

飛書 CLI 開源:AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個(gè)月中國創(chuàng)新藥對外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國和菲律賓舉行南海問題雙邊磋商機(jī)制第十一次會(huì)議

2026-03-28 17:30

印尼正式實(shí)施16歲以下社媒禁令,約7000萬人受影響

2026-03-28 17:04

美國加州禁止官員借內(nèi)幕消息在預(yù)測市場牟利

2026-03-28 17:02

北京“超現(xiàn)場”生態(tài)共同體建設(shè)暨全國覆蓋啟動(dòng)

掃描下載App