"幫我點(diǎn)一杯奶茶。"

"幫我在京東上買一個(gè)籃球。"

"幫我在貓眼上買一張電影票。"

豆包手機(jī)和各家APP的控制權(quán)爭奪戰(zhàn)還未有一個(gè)結(jié)果,千問點(diǎn)外賣的操作也只是深度打通了自家的生態(tài),如今火遍全網(wǎng)的小龍蝦(OpenClaw)也沒能解決跨端自動(dòng)化的難題。

但近日,兩位來自某硬件大廠的工程師張志勇和單文榜,卻用自研的Agent ZeroFlow?;诰邆涠嗄B(tài)能力的國產(chǎn)大模型,在安卓設(shè)備、Chrome 瀏覽器及 PC 桌面上完美實(shí)現(xiàn)了多模態(tài)操控能力ZeroFlow可以像真人一樣看屏幕、點(diǎn)擊、滑動(dòng)、輸入,完成一系列復(fù)雜的跨端自動(dòng)化任務(wù)。

不一樣的技術(shù)路線

在實(shí)現(xiàn)跨端自動(dòng)化任務(wù)的嘗試上,豆包手機(jī)和智譜的AutoGLM走的是截然不同的技術(shù)路線。

豆包手機(jī)通過與手機(jī)廠商合作,拿到了非常高的權(quán)限,可以繞過用戶或app的授權(quán)環(huán)節(jié),但這也直接點(diǎn)燃了app廠商們的抵抗情緒,引發(fā)了后續(xù)一系列的封禁動(dòng)作。

智譜開源的AutoGLM則是基于adb協(xié)議拿到的操作權(quán)限,但這個(gè)模式無法直接在用戶手機(jī)上跑通,所以AutoGLM走的是遠(yuǎn)程虛擬機(jī)模式,在虛擬機(jī)里用adb操作用戶的手機(jī)。這種模式信任成本較高。

而ZeroFlow的解決方案核心依賴的是 Android 無障礙服務(wù)(Accessibility Service)。無障礙服務(wù)原本是 Android 為視障用戶設(shè)計(jì)的系統(tǒng)級輔助功能,申請?jiān)摍?quán)限后,Agent可以讀取屏幕內(nèi)容,獲取當(dāng)前界面所有文本、按鈕、輸入框的位置和內(nèi)容。同時(shí),Agent可以模擬人類操作,執(zhí)行點(diǎn)擊、長按、滑動(dòng)、輸入文字等手勢。這套方案高度依賴Agent和底層模型的多模態(tài)操作能力,理論上是一套無法被App廠商封禁的解決方案。

原理聽起來很簡單,但實(shí)際的開發(fā)過程遠(yuǎn)比想象復(fù)雜。張志勇對創(chuàng)投家表示,其中一個(gè)最大的難點(diǎn)在于國內(nèi)的很多網(wǎng)頁在設(shè)計(jì)之初,為了防止自動(dòng)化操作(本質(zhì)上是"反爬蟲"和"反外掛"的延伸),設(shè)計(jì)了很多的驗(yàn)證步驟和工程上的"隱藏"。比如你看到一個(gè)按鈕在這里,但很有可能它的真實(shí)元素在一個(gè)非常遠(yuǎn)的地方。這讓從代碼維度理解網(wǎng)頁變得十分困難,但從多模態(tài)維度就相對簡單多了,這也正是有些大模型無法讀取網(wǎng)頁鏈接但可以讀取網(wǎng)頁截圖的根本原因。

另一方面,如何用最少的截圖讓Agent理解正確的意圖,也是一個(gè)工程優(yōu)化上的難點(diǎn)。

單文榜對創(chuàng)投家表示,網(wǎng)頁上的廣告彈窗、自動(dòng)跳轉(zhuǎn)都會給多模態(tài)理解造成干擾。用最強(qiáng)的多模態(tài)模型去理解,肯定可以給出最正確的答案,但是消耗的Token成本卻不一定是普通用戶能夠承受的。如何用便宜的模型、截取最少的圖、達(dá)到最好的理解效果,這也是非常有挑戰(zhàn)的工程難題。

安全與便捷的平衡

當(dāng)聊到是否擔(dān)心大廠做出同質(zhì)化產(chǎn)品時(shí),張志勇表示并不擔(dān)心。大廠基于自身的生態(tài)隔離,即使有這個(gè)技術(shù),也無法去實(shí)現(xiàn)真正跨平臺、跨端的自動(dòng)化操作,因?yàn)橐坏┮患掖髲S下場,就會被其他大廠針對,這一點(diǎn)正是創(chuàng)業(yè)團(tuán)隊(duì)的優(yōu)勢。

ZeroFlow借鑒了OpenClaw的開源理念,針對安全性、模型適配性、便捷性進(jìn)行了深度架構(gòu)設(shè)計(jì)與優(yōu)化。

OpenClaw的核心安全風(fēng)險(xiǎn)在于它作為"擁有工具調(diào)用能力的AI"本身,能執(zhí)行shell命令、讀寫文件、發(fā)送消息、訪問網(wǎng)絡(luò),如果prompt被注入攻擊或誘導(dǎo),可能導(dǎo)致主機(jī)被控制、敏感數(shù)據(jù)泄露等問題。

ZeroFlow通過沙箱隔離+小模型脫敏機(jī)制應(yīng)對這一風(fēng)險(xiǎn)。一方面在workspace將用戶的敏感信息如密鑰信息隔離隱藏,讓AI自己都無法輕易找到敏感文件;另一方面,用小模型監(jiān)控所有用戶與大模型的信息交互,如遇到敏感信息,將會進(jìn)行脫敏加密處理。這樣用戶存儲在云端的敏感文件既無法被輕易找到,找到了也無法輕易解析。雙重機(jī)制下,ZeroFlow讓普通用戶在享受Agent便利的同時(shí),隱私也得到最大程度的保護(hù)。

在便捷性上,ZeroFlow將龍蝦的使用門檻降到了新的"低度"。整個(gè)部署過程極度貼近互聯(lián)網(wǎng)產(chǎn)品使用習(xí)慣,幾乎感受不到。只需要打開瀏覽器,在網(wǎng)站上注冊一個(gè)賬號,就可以在對話框開始使用了。

OpenClaw因?yàn)榛贠penAI/Anthropic的Tool Calling規(guī)范設(shè)計(jì),與國產(chǎn)模型的適配上一直存在一些問題。而ZeroFlow針對國內(nèi)主流大模型(如 Kimi、DeepSeek 等)做了工程調(diào)優(yōu),不但優(yōu)化了工具調(diào)用上的體驗(yàn),還優(yōu)化了提示詞工程,將提示詞長度平均縮短了近40%,顯著降低了Token成本。

張志勇對創(chuàng)投家表示,普通用戶使用ZeroFlow的Token成本大約可以降低30%。

從編程智能體到通用Agent

ZeroFlow的誕生并非一次蹭流量的粗暴套殼。

當(dāng)大語言模型的浪潮剛剛涌現(xiàn)的時(shí)候,張志勇和單文榜團(tuán)隊(duì)就站在了最前沿。彼時(shí),他們沒有追逐某個(gè)宏大敘事,而是在解決一個(gè)極其具體的痛點(diǎn),如何讓工程師從繁復(fù)的編碼細(xì)節(jié)中解放出來,將智識真正用在創(chuàng)造上。于是,他們內(nèi)部孵化了第一代編程智能體,一個(gè)懂得上下文、能夠預(yù)判意圖、會主動(dòng)補(bǔ)全邏輯的"代碼伙伴"。

這個(gè)工具在他們的工程體系內(nèi)悄然生長。從 GPT-3.5 時(shí)代的樸素提示詞工程,到多輪對話記憶、工具調(diào)用、代碼審查閉環(huán)……每一次迭代,都是被真實(shí)需求逼出來的進(jìn)化。幾年間,這套系統(tǒng)幫助他們自身的研發(fā)效率實(shí)現(xiàn)了數(shù)倍級別的躍升。

OpenClaw爆發(fā)的時(shí)間點(diǎn)上,張志勇回憶,他們坐在會議室里,看著那些演示視頻,沉默了很久。不是因?yàn)檎痼@,而是因?yàn)樗麄冋J(rèn)出了某種熟悉的東西,他們走過的路,正在被更廣闊的世界重新走一遍。

那一刻,他們意識到,三年來鍛造的不只是一個(gè)編程工具,而是一套關(guān)于'讓智能體真正理解人類意圖并持續(xù)執(zhí)行'的方法論。

"如果這套方法論能讓工程師效率倍增,它為什么不能讓每一個(gè)行業(yè)的每一個(gè)人,都獲得同樣的解放?"于是,ZeroFlow 誕生了。

"一個(gè)人會走得更快"

從左至右為單文榜、張志勇

"我覺得Agent確實(shí)能讓所有人的生活質(zhì)量獲得提升,所有人都應(yīng)該被解放出來做一些更高位的事情,但現(xiàn)階段最大的問題就是普通人接入的成本還是太高了。不僅指擁有一只龍蝦,更是讓這只龍蝦能夠自由地跨端自動(dòng)化替主人解決真實(shí)場景下的問題。所以,我們想做的就是一個(gè)0接入成本、打開瀏覽器就能用的通用Agent。"張志勇說到。

“ZeroFlow不是編程助手的平替,而是將編程智能體的核心范式(理解意圖 → 規(guī)劃路徑 → 調(diào)用工具 → 持續(xù)執(zhí)行 → 反饋迭代)遷移到了更廣泛的知識工作場景中。財(cái)務(wù)分析、運(yùn)營流程、內(nèi)容生產(chǎn)、數(shù)據(jù)洞察……凡是有重復(fù)、有邏輯、有輸出的地方,都是 ZeroFlow 可以駐扎的領(lǐng)地。”單文榜表示。

當(dāng)被問到為什么不選擇在前司內(nèi)部實(shí)現(xiàn)自己的理想時(shí),張志勇和單文榜相視一笑:"我覺得一群人肯定會走得更遠(yuǎn),但一個(gè)人會走得更快。對于這個(gè)時(shí)代而言,快可能更重要。"

目前,依零科技已獲得個(gè)人天使和尚勢資本的近千萬天使輪投資,資金將主要用于產(chǎn)品功能的進(jìn)一步完善和推廣。

轉(zhuǎn)載請注明出處、作者和本文鏈接。
聲明:文章內(nèi)容僅供參考、交流、學(xué)習(xí)、不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報(bào)道,點(diǎn)擊這里

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容
  • 感覺是有想法的技術(shù)人哈哈,很贊??

    回復(fù) 3月18日 · via iphone

快報(bào)

更多

2026-03-28 23:01

澤連斯基稱與中東3國達(dá)成防務(wù)合作協(xié)議,涉聯(lián)合生產(chǎn)無人機(jī)

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi),已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長發(fā)表書面致辭,支持世貿(mào)組織《電子商務(wù)協(xié)定》達(dá)成臨時(shí)實(shí)施安排

2026-03-28 21:54

40余家單位聯(lián)盟,中國最大人形機(jī)器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會預(yù)判:百億智能體或成新物種,AI推動(dòng)人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市,售價(jià)4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉庫并致烏克蘭人傷亡消息不實(shí)

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國務(wù)卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個(gè)詞的搜索量最高一天達(dá)到7.7萬次,比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國首個(gè)可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動(dòng)2026”在北京啟動(dòng)

2026-03-28 19:03

國務(wù)院食安辦、市場監(jiān)管總局約談相關(guān)地方市級人民政府負(fù)責(zé)人,督辦“3?15”晚會曝光問題整改

2026-03-28 18:44

飛書 CLI 開源:AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個(gè)月中國創(chuàng)新藥對外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國和菲律賓舉行南海問題雙邊磋商機(jī)制第十一次會議

2026-03-28 17:30

印尼正式實(shí)施16歲以下社媒禁令,約7000萬人受影響

2026-03-28 17:04

美國加州禁止官員借內(nèi)幕消息在預(yù)測市場牟利

2026-03-28 17:02

北京“超現(xiàn)場”生態(tài)共同體建設(shè)暨全國覆蓋啟動(dòng)

1

掃描下載App