Tabbit成功提取但范圍不準確
![]()
夸克直接顯示無法提取
我們進一步降低指令難度。讓它們訪問豆瓣電影Top250頁面(https://movie.douban.com/top250),提取前10部電影的電影名稱、導演、上映年份、評分,生成Markdown表格。需要指出的是,夸克依托的是千問大模型和千問助手,且千問已深度融合到夸克中,執(zhí)行回郵件、跨標簽分析等眾多智能化功能。
![]()
夸克整理的電影排名
![]()
Tabbit整理的電影排名
測試結果顯示,Tabbit與夸克均成功完成了數據抓取并生成了表格,但兩者輸出的內容存在差異。在第三部電影《泰坦尼克號》的數據上出現了分歧。
核查后,我們發(fā)現該片在豆瓣的實際評分為9.5分,與Tabbit的抓取結果一致,夸克存在偏差。這一輪,Tabbit表現更優(yōu)。
場景二:讓AI瀏覽器在京東、天貓、拼多多搜索iPhone16Pro 256GB的價格和庫存,需識別現貨、缺貨、預售等不同表述,選擇有貨且價格最低的平臺,加入購物車但不支付。
測試結果顯示,Tabbit與夸克均無法直接完成加入購物車的自動化操作,但兩者呈現出不同的應對策略。
夸克明確提示無法直接訪問電商平臺,更無法執(zhí)行加購操作,轉而給出的代替方案是,根據公開資料整理了一份iPhone16Pro 256GB的各平臺報價清單。
Tabbit則呈現出“能訪問但執(zhí)行失敗”的狀態(tài)。界面顯示其能夠訪問京東、天貓等平臺,并結合了部分數據資料,生成了“加入購物車”的操作按鈕。
然而,當用戶點擊執(zhí)行該操作時,系統顯示報錯,實際并未完成加購流程。這表明Tabbit的Agent能力并不穩(wěn)定,最終仍需用戶手動跳轉至電商平臺完成購買。
![]()
Tabbit顯示系統錯誤
場景三:讓AI瀏覽器連續(xù)3天上午10點打開某基金凈值頁面,并復制數字到表格上,如果網頁打不開,等1小時再試;如果連續(xù)3次打不開,就放棄并報錯。
![]()
夸克無法執(zhí)行定時任務
![]()
Tabbit無法執(zhí)行定時任務
結果顯示,Tabbit與夸克均無法執(zhí)行該任務,表示不具備定時任務和后臺自動訪問網頁的能力。
綜合三組測試結果可以看出,Tabbit在信息提取和基礎指令執(zhí)行方面具備一定能力,但在復雜網頁環(huán)境、跨平臺操作等場景下,仍存在不足。這種表現也與當前AI瀏覽器整體的發(fā)展階段相符,它們能在部分場景中提升效率,但距離真正的“數字員工”還存在明顯差距。
在不少從業(yè)者看來,當前無論是國內還是國外,AI瀏覽器仍是一個技術復雜、尚未成熟的領域,商業(yè)模式也遠未清晰。即便如此,美團依然選擇推出Tabbit,背后與其想要搶占AI時代的入口有關。
相比其在本地生活領域穩(wěn)固的地位,美團在AI產品尤其是C端產品上的存在感始終不強。
近兩年,美團在B端的AI應用上已取得一定進展,比如面向商家的AI應用有“袋鼠參謀”、“袋鼠管家”,但在面向普通消費者的C端,始終缺乏一款具有代表性的產品。無論是此前推出的AI助手“LongCat”,還是美團App內的智能搜索入口“問小團”,都未能形成明顯的用戶心智。
與此同時,AI助手的競爭已經進入新的階段。以字節(jié)跳動的豆包、阿里的千問、騰訊的元寶為代表的產品,正在從“能用”走向“好用”,并不斷向具體場景延伸。大廠的競爭焦點已不再是誰的AI更聰明,而是看誰能成為用戶日常使用AI的主要入口。
在這樣的背景下,AI瀏覽器成為一個被重新審視的形態(tài)。
與封閉的應用不同,瀏覽器天然連接整個互聯網信息環(huán)境,這使其具備一種獨特的能力:在同一界面中完成信息獲取、決策參考乃至后續(xù)操作。疊加AI能力后,理論上可以讓用戶在瀏覽網頁的過程中直接調用智能助手完成任務。
有技術人員以點奶茶舉例,用戶在千問APP中點奶茶,通常是通過API接口完成,只能獲取阿里生態(tài)或合作方開放的結構化數據(如店名、價格、庫存)。而AI瀏覽器模式一旦走通,可直接抓取網頁上的公開信息,包括各外賣平臺的實時價格,以及社交媒體上的用戶評價做參考,最終讓用戶在一個界面內完成查看攻略-比價?-下單的全流程。
當然,正如前文測試中的表現那樣,這一能力距離完全成熟仍有距離。但對于像美團這樣同時擁有大量商家資源與消費場景的平臺來說,如果AI瀏覽器形態(tài)能逐步走通,未來確實有可能串聯起龐大的B端商家與豐富的C端消費場景,構建起一個從信息決策到交易的完整閉環(huán)。
除了入口意義,AI瀏覽器也是美團展示Agent能力的重要載體。
資深Agent領域專家趙江杰指出,Agent技術已成為當前AI與軟件行業(yè)最受關注的方向之一。對美團而言,公司需要一個合適的平臺來展示其大模型在任務規(guī)劃、自主執(zhí)行等方面的能力,但美團App功能相對固化、場景集中,并非理想的測試環(huán)境。同時,美團還需權衡Agent的自主決策對平臺現有商業(yè)模式(如廣告分發(fā)和流量閉環(huán))可能產生的沖擊。因此,選擇更通用、更開放的瀏覽器作為入口,自然成為技術落地的新方向。
同樣還是以“點奶茶”為例,當用戶向千問發(fā)出指令時,得到的通常只是一個直接的奶茶推薦結果,用戶無法知曉其篩選和決策的過程,而Tabbit這類AI瀏覽器的核心優(yōu)勢在于,它能將任務執(zhí)行過程可視化。即隨著技術的成熟,用戶可以親眼看到AI是如何一步步操作的:先打開外賣平臺頁面,輸入“奶茶”,然后根據設定的條件(如價格、評分)進行篩選,最終將選定的商品加入購物車。這種交互形式,比封閉的對話式響應更透明、更可信。
從技術布局來看,趙江杰認為,美團自研的LongCat大模型基礎能力不錯,但因為起步較晚,與國內頭部梯隊相比仍有一定距離,但其在Agent方向上投入堅決、聚焦明確,此次推出Tabbit,是其將模型能力與實際應用場景結合的一次重要嘗試。
雖然Tabbit被視為美團的一次重要嘗試,但從市場反饋來看,并沒有在行業(yè)激起太大水花。
產品上線首日,不少業(yè)內人士試用后的評價是“與市面上現有的AI瀏覽器功能差異不大”;次日引發(fā)廣泛討論,則是因陷入了抄襲開源代碼的爭議。
但許多從業(yè)者認為,行業(yè)的冷靜并不完全是Tabbit本身的問題,更重要的原因在于,當前行業(yè)的注意力已經發(fā)生轉移。
近期,無論國內還是海外,AI領域的關注焦點已明顯轉向能夠深度操控操作系統的Agent,討論度最高的就是OpenClaw。其展示出的廣闊想象空間,讓仍停留在應用層的AI瀏覽器顯得聲勢不足。
簡單來說,OpenClaw這類產品的目標,是讓AI像人一樣操作整臺電腦:打開軟件、填寫表格、發(fā)送郵件,甚至在不同應用之間完成復雜任務流程。
盡管技術路徑不同,但在“替代人工完成重復操作”這一目標上,AI瀏覽器與系統級Agent確實存在一定重疊。
比如,當用戶需要處理一份數據表格時,AI瀏覽器可以操作網頁版Excel,但如果任務涉及多個本地應用,例如處理Excel后再發(fā)送到微信,目前還難以獨立完成。而OpenClaw可以直接操作本地Excel文件,并在不同軟件之間切換,完成整個流程。
這種能力差異的背后,是兩類產品在技術架構上的不同。
許多AI瀏覽器執(zhí)行操作時,會截圖再由視覺模型理解畫面,最后決策并執(zhí)行這一套流程,需花費較長時間。
而且在處理圖表、游戲等復雜頁面時,由于無法解析底層代碼,只能依賴像素猜測,導致結果準確率大大降低。此外,各大網站的防爬機制也限制了瀏覽器的自動化操作。
相比之下,OpenClaw 選擇了一條不同的技術路徑。它并非AI瀏覽器,而是一個運行在本地的通用AI Agent,其核心能力之一是控制瀏覽器。它的獨特之處在于,并非依賴多模態(tài)視覺模型對頁面截圖進行理解,而是通過獲取系統的“輔助功能樹”(Accessibility Tree)快照來解析頁面。這些快照會轉換為包含按鈕、鏈接、文本框等元素的文本化頁面結構描述,大語言模型(LLM)通過閱讀這些文本來“看見”并理解界面。
簡而言之,如果說傳統AI瀏覽器是從“系統外部”猜測界面,那么OpenClaw則是從“系統內部”直接理解界面。這種更接近底層、更結構化的理解方式,也是許多用戶感覺OpenClaw表現更為智能的主要原因。
不過,能力越強,也意味著更高的風險與門檻。
一方面,系統級Agent需要獲得更高的操作權限,一旦指令理解出現偏差,就可能造成誤操作,造成失控風險。有用戶曾報告其OpenClaw因指令異常,自動刪除郵箱郵件,這也讓安全問題成為業(yè)內討論的焦點。
另一方面,OpenClaw的使用門檻也較高。其部署過程復雜,對普通用戶不夠友好,甚至催生了從數百元到數千美元不等的付費教安裝服務。而且持續(xù)調用大模型API將產生高昂費用,一些重度用戶每月開銷可達數百美元,被戲稱為“貸款上班”。
從更長遠的視角看,AI瀏覽器與系統級Agent或許并不是簡單的替代關系,而更像是Agent發(fā)展的兩條不同路徑:前者依托瀏覽器這一成熟入口,更容易觸達普通用戶并快速規(guī)模化;后者能力邊界更大,但在安全、成本上仍有門檻。
在這樣的行業(yè)背景下,Tabbit的處境也頗為微妙。它既是在探索AI瀏覽器這一尚未定型的賽道,也不得不面對一個現實,行業(yè)注意力正被更具想象空間的系統級Agent所吸引。Tabbit能否突圍,就得看產品進化的速度能不能跟得上大家的期待了。
快報
根據《網絡安全法》實名制要求,請綁定手機號后發(fā)表評論