在這項(xiàng)任務(wù)中,大語言模型需要驅(qū)動(dòng)OpenClaw閱讀一份名為openclaw_report.pdf的研究報(bào)告,并回答8個(gè)具體的問題,比如:
“過濾前社區(qū)內(nèi)的技能總共有多少?(正確答案5705)”
“第二大類別的技能是什么?(正確答案Search & Research: 253)”
這項(xiàng)任務(wù)可以完全由程序自動(dòng)化評(píng)分。Python腳本會(huì)檢查生成的answer.txt文件,不僅會(huì)核對數(shù)字是否精準(zhǔn)匹配,還會(huì)用正則表達(dá)式驗(yàn)證日期格式以及關(guān)鍵詞是否存在。
評(píng)分標(biāo)準(zhǔn)也相當(dāng)嚴(yán)格,哪怕答對7道題,在最后一個(gè)簡單問題上只要錯(cuò)了一位數(shù)字,得分也是零。這種設(shè)計(jì)正是為了考察智能體最基本的結(jié)構(gòu)化和非結(jié)構(gòu)化信息提取能力和精確執(zhí)行能力。
第二道題是skills倉庫中的task no.16:競爭市場研究。
![]()
相比于前面的任務(wù),這項(xiàng)任務(wù)更貼近用戶的實(shí)際應(yīng)用場景,要求智能體生成一份企業(yè)級(jí)的應(yīng)用性能監(jiān)控市場競爭分析報(bào)告。
要完成這項(xiàng)任務(wù),智能體需要經(jīng)過識(shí)別頭部廠商、分析差異化定位、梳理定價(jià)模式、輸出結(jié)構(gòu)化Markdown文檔等復(fù)雜環(huán)節(jié),這對于人類來說也是一項(xiàng)工作量相當(dāng)大的任務(wù)。
因此,這項(xiàng)任務(wù)采用混合評(píng)分,自動(dòng)化部分負(fù)責(zé)檢查“是否寫夠5個(gè)競品”、“有無對比表格”等評(píng)判標(biāo)準(zhǔn),研究質(zhì)量、分析洞察則交給頂尖模型打分,打分標(biāo)準(zhǔn)甚至?xí)?xì)到“風(fēng)格是否接近于人類商業(yè)分析師”、“趨勢是否與真實(shí)商業(yè)動(dòng)態(tài)吻合”。
在了解評(píng)測機(jī)制以后,我們來一起看看評(píng)測結(jié)果。
PinchBench將評(píng)測結(jié)果劃分為三個(gè)維度:成功率、速度和成本。
成功率方面,排名第一的選手來自Google,但令人意外的是,不是智能化程度最高的旗艦?zāi)P虶emini 3.1 Pro,而是性價(jià)比最高、面向海量智能體任務(wù)而設(shè)計(jì)的Gemini 3.1 Flash Lite。
![]()
更值得關(guān)注的是,這一次,國產(chǎn)大模型沒有在性能上被甩開,MiniMax的MiniMax-M2.1和月之暗面的Kimi-K2.5這兩個(gè)霸占OpenClaw API調(diào)用量排行榜的國產(chǎn)模型位列第二、第三,與Google的差距盡在毫厘之間。
速度方面,MiniMax-M2.5更是直接登頂,阿里的Qwen3-Max-Thinking和智譜的GLM-5也沖進(jìn)前十名,位列第六、第七。
![]()
在絕大部分用戶最關(guān)心的成本方面,和我們此前預(yù)測的一樣,國產(chǎn)AI模型在成本端相比國際頂級(jí)大模型具備明顯優(yōu)勢。
![]()
可以看到,Gemini、GPT、Claude和Grok四家最新的旗艦?zāi)P投紵o緣前十,輕量級(jí)模型和舊版本模型雖然成本低廉,但成功率卻沒有保證,總成本未必占優(yōu)。
另外,值得注意的是,不同模型之間的成本差異巨大,排名第十的Qwen3-Coder-Next的token成本已經(jīng)超過排名第一的GPT-5-Nano的12倍,而這還只是最優(yōu)情況下消耗的成本。
在實(shí)際應(yīng)用中,用戶最需要的是模型能“把活干好”,在這個(gè)基礎(chǔ)之上開銷當(dāng)然越低越好。
![]()
若是把這張結(jié)合了任務(wù)成功率和成本的綜合圖劃分為四個(gè)區(qū)域,左上角就代表“便宜且好用”,右上角則是“貴但是好用”。
到MiniMax、月之暗面和智譜的模型名稱恰好都出現(xiàn)在左上角區(qū)域。
這也反映出技術(shù)層面上的現(xiàn)實(shí):
Agent時(shí)代的到來,有效縮短了底層大模型之間的能力差距。
而國產(chǎn)大模型不僅有token成本上的優(yōu)勢,在智能體任務(wù)上的性能也已經(jīng)達(dá)到國際頂尖水平。
回到最近的產(chǎn)業(yè)動(dòng)態(tài),騰訊的這次公益活動(dòng)可以說是把OpenClaw的使用門檻徹底抹除了。
即便無法線下參與,相比此前各大AI平臺(tái)推出的“一鍵部署”功能,掃碼登錄+一次點(diǎn)擊+復(fù)制粘貼的方式也已經(jīng)沒有什么技術(shù)難度。
深圳龍崗區(qū)甚至準(zhǔn)備出臺(tái)相關(guān)政策來扶持OpenClaw。
這一系列的重磅消息,屬實(shí)有些讓人不知所措,技術(shù)社區(qū)的人們甚至感覺有些荒唐。
在看完上面PinchBench的內(nèi)容后,大家應(yīng)該已經(jīng)明白:
打著免費(fèi)的旗號(hào)安裝OpenClaw,實(shí)際上并不免費(fèi)。
因?yàn)檫@背后隱藏著一個(gè)極其容易被忽視的技術(shù)細(xì)節(jié):運(yùn)行智能體和直接調(diào)用大語言模型,在資源消耗上完全是兩個(gè)概念。
前面的文章中我們也說過,直接調(diào)用大語言模型這種一問一答的聊天,消耗相對可控。
但用Agent干活則完全不同,搜索網(wǎng)頁、閱讀報(bào)告、整理文件、分析總結(jié),這些人類習(xí)以為常的工作,對AI來說就是成百上千次的API調(diào)用和token消耗。
更可怕的是,這種消耗是不透明的。越模糊的指令,意味著智能體需要進(jìn)行工具調(diào)用、上下文回溯、錯(cuò)誤重試的次數(shù)越多。
交互次數(shù)的線性增長,帶來的是token消耗的指數(shù)級(jí)上升。
這種極其隱蔽的資源消耗邏輯,以及OpenClaw可能帶來的安全風(fēng)險(xiǎn),對于沖著“免費(fèi)安裝”去的普通用戶來說是致命的。
這也解釋了技術(shù)社區(qū)的態(tài)度為什么會(huì)與普通用戶近期的態(tài)度截然相反。
騰訊這次公益活動(dòng)的后續(xù)消息也能一定程度上反映這個(gè)問題:在為用戶免費(fèi)安裝OpenClaw,還頒發(fā)“小龍蝦出生證明”后,幾個(gè)小時(shí)過去就已經(jīng)有網(wǎng)友反饋賬戶被持續(xù)小額扣費(fèi),累計(jì)200元以上。
雖然騰訊馬上回應(yīng)稱費(fèi)用是歷史行為產(chǎn)生,與OpenClaw部署無關(guān),但這已經(jīng)給用戶們敲響了警鐘:免費(fèi)安裝絕不等于免費(fèi)使用。
而近期各大國產(chǎn)AI企業(yè)接連推出Coding Plan相關(guān)產(chǎn)品作為直接購買API的高性價(jià)比替代方案,本質(zhì)上也是一種銷售多余token和云服務(wù)器的方式。
對于這次“養(yǎng)蝦”熱潮,Linuxdo論壇上一位用戶評(píng)論道:
![]()
言辭雖然有些偏激,但卻一針見血。
“折騰”本身沒有錯(cuò),技術(shù)愛好者們探索新工具、嘗試新方案,這就是推動(dòng)技術(shù)進(jìn)步的源動(dòng)力。
但回到產(chǎn)品本身,OpenClaw仍然面臨一個(gè)尷尬的局面:部署門檻幾乎為零,但有效使用門檻依然很高。
或許,這個(gè)周末安裝OpenClaw的大部分人,都享受到了部署成功那一瞬間的成就感,有了茶余飯后“我也在養(yǎng)蝦”的談資,卻無法感受到工具本身能夠帶來的實(shí)際價(jià)值。
在技術(shù)社區(qū)中,我看到一個(gè)值得分享的觀點(diǎn):
使用OpenClaw的人應(yīng)該具備以下三個(gè)條件:
①非常明確OpenClaw能做什么;
②非常明確OpenClaw如何實(shí)現(xiàn)價(jià)值;
③帶著目的去使用并實(shí)現(xiàn)良好的效果;
但現(xiàn)實(shí)往往與之相反:很多人因?yàn)楦L(fēng)或好奇而安裝OpenClaw,結(jié)果發(fā)現(xiàn)天馬行空的預(yù)期與實(shí)際的能力邊界完全對不上,“一句話干完一天活”的幻想落空后又不清楚OpenClaw還能做什么,最后自然無法實(shí)現(xiàn)預(yù)期效果,要么放在那里再也不動(dòng),要么直接卸載刪除。
這就是典型的“產(chǎn)品能力超前,用戶需求滯后”。
現(xiàn)在的這波熱潮,本質(zhì)上只是新一輪的跟風(fēng)。前有一鍵部署,后有免費(fèi)安裝,跟風(fēng)“養(yǎng)蝦”的人越來越多,魚缸里的寵物也越來越多。
不可否認(rèn)的是,在革命性的新產(chǎn)品誕生后,總會(huì)有人能將自己的創(chuàng)意發(fā)揮出遠(yuǎn)超token成本的價(jià)值。
但對于大部分普通用戶來說,技術(shù)本身無罪,但傳播過程中信息的過度簡化和預(yù)期管理的缺失,以及“免費(fèi)”二字帶來的盲目熱情,反而讓探索者承擔(dān)了不必要的試錯(cuò)成本。
熱潮終會(huì)褪去,留下的才是真正解決問題的工具和使用者。
PinchBench這類基準(zhǔn)測試的出現(xiàn),意味著智能體已經(jīng)從實(shí)驗(yàn)室的demo走向現(xiàn)實(shí)。
它不否認(rèn)創(chuàng)新的熱情,而是去建立一套可討論、可比較、可迭代的評(píng)估方案。
對于開發(fā)者,它是優(yōu)化模型和工具鏈的參照系;對于用戶,它是理性選擇技術(shù)方案的決策輔助。
PinchBench這次愿意把評(píng)分邏輯公開于眾的嘗試,至少讓用戶在選擇前有了一份可驗(yàn)證的依據(jù)。
更重要的是,在這個(gè)智能體爆發(fā)的時(shí)代,保持清醒比跟上潮流更重要。
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號(hào)后發(fā)表評(píng)論