圖片由AI生成

商湯正式開源多模態(tài)自主推理模型SenseNova-MARS(8B/32B雙版本)。這是商湯首個支持動態(tài)視覺推理和圖文搜索深度融合的Agentic VLM模型,能自己規(guī)劃步驟、調(diào)用工具,搞定復(fù)雜任務(wù),讓AI具備“執(zhí)行能力”。

在MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等基準(zhǔn)測試中,SenseNova-MARS取得開源模型中的SOTA成績,超越了Gemini-3.0-Pro、GPT-5.2等頂級閉源模型,在搜索推理和視覺理解兩大領(lǐng)域領(lǐng)跑。
在MMSearch榜單(圖文搜索核心評測)中,模型以74.27分登頂,超過GPT-5.2(66.08分);HR-MMSearch(高清細(xì)節(jié)搜索評測)中以54.43分領(lǐng)先,拉開與閉源模型的差距。圖片來源:商湯技術(shù)報告

在MMSearch榜單(圖文搜索核心評測)中,模型以74.27分登頂,超過GPT-5.2(66.08分);HR-MMSearch(高清細(xì)節(jié)搜索評測)中以54.43分領(lǐng)先,拉開與閉源模型的差距。圖片來源:SenseNova-MARS技術(shù)報告

簡單理解,該模型解決的問題有二:“查遍全網(wǎng)”的知識密集型任務(wù),“火眼金睛”的細(xì)粒度視覺分析。

SenseNova-MARS能實(shí)實(shí)在在落地到我們生活和工作的場景,解決需要“多步驟推理+多工具協(xié)作”的問題。

市面上一些AI的工具調(diào)用,遇到需要“先放大細(xì)節(jié)、再識別物體、最后查背景”的復(fù)雜任務(wù)會束手無策。

而SenseNova-MARS能從產(chǎn)品和行業(yè)峰會的照片中,識別企業(yè)的標(biāo)志,快速搜集產(chǎn)品、企業(yè)的信息,以及時間、數(shù)量、參數(shù)等細(xì)節(jié)要素,輔助分析行業(yè)情況和格局。
1

圖片來源:SenseNova-MARS技術(shù)報告

同時,SenseNova-MARS能從賽事照片中識別畫面中的Logo、人物等信息,追溯比賽或人員背景信息,幫助補(bǔ)充重要細(xì)節(jié)。
圖片來源:SenseNova-MARS技術(shù)報告

圖片來源:SenseNova-MARS技術(shù)報告

擁有這種“自主思考+多工具協(xié)作”的能力,SenseNova-MARS能夠自動解決“細(xì)節(jié)識別 + 信息檢索 + 邏輯推理”復(fù)雜任務(wù),實(shí)現(xiàn)工作效率提升。

之所以能夠?qū)崿F(xiàn)上述能力,SenseNova-MARS采用了“因材施教”的訓(xùn)練方法。

第一階段:打基礎(chǔ)。針對跨模態(tài)多跳搜索推理訓(xùn)練數(shù)據(jù)稀缺的痛點(diǎn),提出了基于多模智能體的自動化數(shù)據(jù)合成引擎,采用細(xì)粒度視覺錨點(diǎn) + 多跳深度關(guān)聯(lián)檢索的機(jī)制,動態(tài)挖掘并關(guān)聯(lián)跨網(wǎng)頁實(shí)體的邏輯,自動化構(gòu)建高復(fù)雜度的多跳推理鏈路,同時引入閉環(huán)自洽性校驗(yàn)來去除幻覺數(shù)據(jù),構(gòu)造出具備嚴(yán)密邏輯鏈條與高知識密度的多跳搜索問答數(shù)據(jù)。

用篩選的“高難度案例”做教材,每個案例都標(biāo)注了“該用什么工具、步驟是什么”,讓AI先學(xué)會基本的“破案邏輯”。這些案例都是從海量數(shù)據(jù)中挑出的“硬骨頭”,確保AI一開始就接觸真實(shí)復(fù)雜場景。

第二階段:練實(shí)戰(zhàn)。采用“強(qiáng)化學(xué)習(xí)”——就像偵探在一次次破案中積累經(jīng)驗(yàn),AI每做對一次決策(比如選對工具、步驟合理)就會獲得獎勵,做錯了就調(diào)整策略。為了避免AI“學(xué)偏”,研究團(tuán)隊還加了個“穩(wěn)定器”——BN-GSPO算法,讓它在處理簡單題和復(fù)雜題時都能保持穩(wěn)定進(jìn)步,不會出現(xiàn)“偏科”。

這種基于雙階段歸一化的優(yōu)雅機(jī)制,有效平滑了動態(tài)工具調(diào)用返回分布多樣性帶來的優(yōu)化波動并確保了學(xué)習(xí)信號分布的一致性,從而解決了跨模態(tài)多步多工具智能體訓(xùn)練過程中的收斂性難題。

經(jīng)過這樣的訓(xùn)練,AI不僅學(xué)會了用工具,更培養(yǎng)“工具使用直覺”——知道在什么情況下應(yīng)該使用哪些工具,以及如何將不同工具的結(jié)果有機(jī)結(jié)合起來。

商湯日日新SenseNova-MARS模型、代碼、數(shù)據(jù)集全開源,支持Hugging Face直接下載。(作者|李程程,編輯|李玉鵬)

本文系作者 LCC_Beta版 授權(quán)鈦媒體發(fā)表,并經(jīng)鈦媒體編輯,轉(zhuǎn)載請注明出處、作者和本文鏈接
本內(nèi)容來源于鈦媒體鈦度號,文章內(nèi)容僅供參考、交流、學(xué)習(xí),不構(gòu)成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點(diǎn)和發(fā)現(xiàn),點(diǎn)擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點(diǎn)擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請綁定手機(jī)號后發(fā)表評論

登錄后輸入評論內(nèi)容

快報

更多

2026-03-28 23:01

澤連斯基稱與中東3國達(dá)成防務(wù)合作協(xié)議,涉聯(lián)合生產(chǎn)無人機(jī)

2026-03-28 22:35

山西太原一建筑發(fā)生火災(zāi),已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長發(fā)表書面致辭,支持世貿(mào)組織《電子商務(wù)協(xié)定》達(dá)成臨時實(shí)施安排

2026-03-28 21:54

40余家單位聯(lián)盟,中國最大人形機(jī)器人訓(xùn)練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會預(yù)判:百億智能體或成新物種,AI推動人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市,售價4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉庫并致烏克蘭人傷亡消息不實(shí)

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國務(wù)卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個詞的搜索量最高一天達(dá)到7.7萬次,比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國首個可微分物理仿真引擎Fysics

2026-03-28 19:13

“網(wǎng)售產(chǎn)品質(zhì)量安全提升系列行動2026”在北京啟動

2026-03-28 19:03

國務(wù)院食安辦、市場監(jiān)管總局約談相關(guān)地方市級人民政府負(fù)責(zé)人,督辦“3?15”晚會曝光問題整改

2026-03-28 18:44

飛書 CLI 開源:AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個月中國創(chuàng)新藥對外授權(quán)交易總額超600億美元

2026-03-28 17:39

中國和菲律賓舉行南海問題雙邊磋商機(jī)制第十一次會議

2026-03-28 17:30

印尼正式實(shí)施16歲以下社媒禁令,約7000萬人受影響

2026-03-28 17:04

美國加州禁止官員借內(nèi)幕消息在預(yù)測市場牟利

2026-03-28 17:02

北京“超現(xiàn)場”生態(tài)共同體建設(shè)暨全國覆蓋啟動

掃描下載App