百川智能創(chuàng)始人、CEO 王小川,圖片來源:百川智能

時隔九天,在開源新一代醫(yī)療大模型Baichuan-M3后,百川智能又有了新的發(fā)布。

1月22日,百川智能正式發(fā)布Baichuan-M3 Plus。在嚴肅醫(yī)療場景下的問答準確性、可靠性,再次刷新了剛剛推出的M3所創(chuàng)下的紀錄。

據百川智能介紹,憑借六源循證技術與M3基座結合,M3 Plus將幻覺率降低至2.6%,低于Open Evidence;首創(chuàng)“證據錨定”技術,不僅給出引文來源,還能將模型生成的每一句醫(yī)學結論,精確錨定到原始論文中的對應證據段落,使AI的醫(yī)學判斷真正做到可核驗、可追責、可教學。

此外,百川宣布推出“海納百川”計劃,將循證增強醫(yī)療大模型以API形式,免費開放給中國醫(yī)療服務機構。

據百川智能創(chuàng)始人、CEO王小川介紹,作為百川拓展低幻覺技術路線的實踐,M3首創(chuàng)的Fact-Aware RL的強化學習范式,使底座模型在無工具的設定下,幻覺也能大幅降低到SOTA水平。

在此基礎上,M3 Plus將M2 Plus模型已驗證有效的六源循證范式,引入模型訓練和推理過程,確保模型的每條建議都有專業(yè)醫(yī)學證據支持。最終,M3 Plus的事實性幻覺降低到新的SOTA,僅2.6%,相較GPT-5.2大幅下降超30%。即便與行業(yè)標桿Open Evidence相比,M3 Plus也完成了超越。

相比“說得像不像醫(yī)生”,臨床更關心的是:這句話,究竟依據哪篇論文、哪條指南、哪一段原文。當前行業(yè)中,無論是通用大模型還是醫(yī)療模型,大多已支持“文獻引用”——在結論后標注論文或指南來源。

但在實際使用中,醫(yī)生往往會發(fā)現(xiàn):點開引文,依然無法判斷AI的這句結論究竟源自哪一段證據。更常見的問題是兩類:一是“張冠李戴”,引用編號存在,但文獻內容對不上;二是“內容沖突”,文獻本身正確,但被引用的段落與結論并不匹配,甚至存在拼接、誤讀。

針對這一問題,百川M3 Plus提出了“證據錨定(Evidence Anchoring)”技術,不是簡單標注“引用自哪篇文獻”,而是要求模型生成的每一句醫(yī)學結論,都必須精確對應到原始論文或指南中的具體證據段落。每一句判斷,都能被逐字溯源、逐條核驗。

為實現(xiàn)這一目標,百川將“證據錨定”作為獨立訓練目標,引入Citation Reward Model,對錯誤引用進行明確懲罰,讓模型只能在“確實有證據支持”的空間中推理與生成。最終,結論與證據段落的匹配準確率超過95%,真正讓AI的醫(yī)學判斷做到可核驗、可追責、可教學。

此外,M3 Plus API調用價格較上一代模型大幅降低70%。百川全面開放M3 Plus的技術能力,API限時免費體驗15天,所有開發(fā)者均可申請使用。

以下是王小川在媒體溝通會的對話實錄,經鈦媒體編輯整理:

Q:海納百川計劃,API你們免費開放,這是一筆多大的支出?

王小川:要是全部臨床醫(yī)生都使用AI,我們覺得一年的成本也就是1億左右。中國現(xiàn)在有500萬的醫(yī)學工作者,我們認為這種成本是可接受的,帶來的行業(yè)變化會非常大。

Q:主要目的就是想讓大家用起來是嗎?

王小川:要讓大家享受到今天世界上最好的模型,就是看到和體驗。不只是我們一家能用上,海納百川就是讓行業(yè)“大海”中更多的機構都能夠做好醫(yī)學服務。國家去年就一直在倡導AI+醫(yī)療,但今天美國跑得比我們快,醫(yī)生都在使用OpenEvidence,ChatGPT可以讓2億患者用到,中國需要追趕上去,由于國情不一樣,需要更多的機構參與,不管是廠商還是院外的服務,社會主義就是能夠共創(chuàng),我們認為這是應該承擔的一種方式。

Q:海納百川計劃主要是面向機構,基層特別是三四線城市的醫(yī)生對于AI不是很了解,產生了很多可能被AI替代的憂慮,對于這些基層醫(yī)生個體,怎么想辦法讓他們用起來?有沒有什么讓他們加入計劃的措施?我們知道美國OpenEvidence主要是向醫(yī)生收費,但中國的醫(yī)療體系跟他們完全不一樣,醫(yī)生恐怕很難自己付費,將來To C的營收模式怎么建立?

王小川:我們對機構的要求就是機構本身服務醫(yī)務工作者,所以這是我們的限定。今天患者付費或者生命模型涉及的藥物研發(fā)更加長期,只要能夠把醫(yī)療水平提上去,讓患者受益,不管是患者還是藥廠都能夠得到新的商業(yè)模式,并不是向醫(yī)生收費,其實之前向醫(yī)院、醫(yī)生收費的商業(yè)模式已經被證明是不成立的。

Q:現(xiàn)在有多少醫(yī)生在使用你們的專業(yè)版產品?AI深入到他們工作中的哪一步?

王小川:我們看到醫(yī)生的留存率還是蠻高的,更多的是年輕的醫(yī)生在使用,更加擁抱AI,確實也有很多不懂的事情,面對需要決策場景的時候真正需要的是一個專家跟自己一起來做,但沒有那么多專家,AI就充當了很好的角色。我們看到非常有意思的Case就是醫(yī)生說“我認為我的主任說得不對,這個病人不應該轉院,我還有幾分鐘跟主任討論,你給我一些證據支持我”,就是類似這樣的場景??梢钥吹椒浅X撠熑巍⒎浅I线M的年輕醫(yī)生對于自己有很高的要求,需要更先進的工具支持,我們的服務是給他們提供幫助,最終還是患者受益。

Q:你們跟兒童醫(yī)院、腫瘤醫(yī)院合作的話,這一部分的AI應用是處于什么階段?哪些事情AI能夠做到,哪些事情AI做不到?

王小川:去年我們就在醫(yī)院里面部署系統(tǒng),腫瘤屬于皇冠上的明珠,我們已經在和醫(yī)院深入合作,不僅推動醫(yī)院的使用,甚至把百川作為藥廠進行Clinical Trial,就是注冊開展研究,下次我們會再和大家分享這方面的進展,我們在最硬核的醫(yī)學學科會有新的突破。

Q:API會不會成為比較重要的競爭入口?剛才提到價格降低70%,要是拋開免費計劃的話,你們的成本在行業(yè)大概是什么水平?

王小川:API開放是我們戰(zhàn)略的一部分,一方面是讓行業(yè)有更多伙伴們,共同來服務醫(yī)生,另一方面是改善醫(yī)患關系,所以通過醫(yī)生可以直接服務患者。我們跟其他廠商的想法不太一樣,終極目標是解決改善醫(yī)患關系,開放目的也是讓醫(yī)療機構擁抱AI,帶來一些快速的理解,有利于醫(yī)生與患者共同做好服務關系。國內沒有我們這種做法,我們的重點主要是改善醫(yī)患關系。

Token的成本是比DeepSeek更低,但是幻覺會引入額外的計算,同樣的Query其實是比DeepSeek更貴,但醫(yī)療場景就不應該和DeepSeek對比。

Q:免費時間有大概的預期嗎?

王小川:對于加入海納百川計劃的機構,我們是永久免費的,可以得到完整的生態(tài)服務。

Q:有沒有可能不用其他的,只用API?

王小川:可以,我們是整體性考慮,醫(yī)生擁抱以后就會產生一種信任和好感,要是醫(yī)生都使用這種引擎,對于藥廠和患者就有了更多的背書和觸點。

Q:剛才您提到百川醫(yī)療路線是想要改善醫(yī)患關系,上周M3更加強調患者,就是讓大家更加明明白白看病,而這周更加突出醫(yī)生醫(yī)院,您也提到以后會進入制藥環(huán)節(jié),目前哪一條線路是以后會一直持續(xù)的主線?

王小川:我們的布局是很完整的,今天不會完全公開背后的思路,但M3不是給患者的,M3屬于開源模型,本身就是為行業(yè)賦能,M3 Plus是前進了一步,能夠更好地為醫(yī)生、行業(yè)機構提供服務,再往下就會接觸患者,不斷地為大家公布產品。今天醫(yī)療本身就是有患者、醫(yī)生、藥械、科研的整體,醫(yī)學是一門不發(fā)達的科學,需要大量的數據積累才能提升醫(yī)學性能,包括藥物的有效性評價。

只有在行業(yè)中串聯(lián)起來,我們有足夠多的解決醫(yī)學真實世界的痛點以后,我們就能夠更好地幫助制藥,因此要在真實世界使用才能獲得數據。藥廠的研發(fā)大概會有12億美金,十年時間研發(fā)一款藥物,只有10%的成功率,大部分的錢都是花在臨床,所以臨床就需要引入醫(yī)生和患者,AI就是輔助真實世界。

Q:百川API平臺已經推出了很久,M2、M2 Plus都有API服務,你們主要的客戶群體是哪些類型的機構和企業(yè)?醫(yī)療教育機構?醫(yī)院還是高校?占比是多少?API服務的量級是怎樣的?

王小川:M2本身就有醫(yī)院在使用,也有一些是給醫(yī)生提供科研能力的中小型企業(yè),我們覺得還沒有分析占比,M3 Plus發(fā)布以后結構可能會有很大變化,無論是降價還是合作伙伴關系。原來通用集團也是我們的用戶,我們認為科研、臨床都會有使用。今天正好是一個分水嶺的起點,M3 Plus就是足夠在醫(yī)療臨床可用的狀態(tài)。

Q:要是跨過這個分水嶺,應用的場景會不會催生新的用途?

王小川:去年DeepSeek發(fā)布,今天美國也開始紛紛擁抱醫(yī)療,所以去年算是一個元年和松土,今年是AI進入醫(yī)療的關鍵一年。

Q:最近國內國外的幾個大佬對于AGI這個事情并沒有達成共識,您深耕醫(yī)療領域很長時間,AGI和造醫(yī)生的關系是什么?有沒有什么觀察和思考?

王小川:大家應該會驗證我們的觀點是正確的,之前我們的觀點都在被驗證,包括共情、低幻覺、多模態(tài)、強記憶,這些都跟醫(yī)生的需求一致。大家沒有共識的使用,可以引用哈薩比斯的分類方法,弱AGI,強AGI、ASI。弱AGI就是能夠取代大多數今天人類的職業(yè),可能寫代碼就是一個很大的輔助。

醫(yī)療行業(yè)要是能夠達到跟醫(yī)生同樣的水平,也能夠上崗,代表著對于人類職業(yè)的Benchmark。AI和代碼是兩個很好的場景,甚至AI比代碼更加復雜。強AGI就是達到人類頂尖水平,就像愛因斯坦、貝多芬。ASI就是人類不能企及的了,所以要和人類職業(yè)和個體進行對比。

Q:您認為什么時候能夠達到這種水平?

王小川:具身智能做手術會晚一點,要是表達、察言觀色的話,應該是三年以內。

Q:剛才您提到美國醫(yī)生對于AI的擁抱更快,中國比較偏保守,主要是因為模型層面的差別還是其他原因?

王小川:不是模型層面,我們的模型水平應該是超過OpenAI的,主要有幾個原因:今天中國醫(yī)生的工作環(huán)境不一樣,中國醫(yī)生太忙了,美國醫(yī)生可能一天看十個病人,中國醫(yī)生要看上百人,每個患者只有三五分鐘時間,所以美國醫(yī)生可以閑下來好好用AI,他們是預約制,頭一天就知道第二天誰來看病,中國醫(yī)生要用AI的話就會難很多。中國沒有像美國那么真實地表達進展,就像我們發(fā)布一個模型,我們說好的話大家都不信,美國人說大家才信。

不管是公司還是媒體,很多時候沒有那種求真的狀態(tài),假的東西太多了,真的東西出來也難以快速取得信任,成本就會高很多。醫(yī)療行業(yè)需要大家更加真誠地評價表達自己真實的狀態(tài),發(fā)布M2的時候,我們說比GPT5要差,高于市面上的開源模型,我們真的是這樣想、這樣做、這樣說,M3超過GPT5就是真正超過,M3 Plus幻覺真的低于OpenEvidence,但友商會說他們跟DeepSeek一樣,其他廠商幻覺比OpenEvidence多2-3倍,大家不是真誠地擁抱這種環(huán)境,導致進展慢很多,會有很多新的成本產生。

一些行業(yè)媒體說是某些模型完敗百川,其實不是認真嚴肅的,就像手機和汽車行業(yè)的黑公關很多,醫(yī)療行業(yè)同樣有這種現(xiàn)象。張文宏說的是AI不能服務腰部醫(yī)生,頭部醫(yī)生可以用。大家習慣了真實環(huán)境,醫(yī)生造模型是挺扯的,都是更加相信國外,國內應該更加良性競爭,把醫(yī)療行業(yè)做得更真實,這樣速度才會加快,否則就會有很多“皇帝的新衣”。

Q:因為現(xiàn)在推理成本更高,為什么引入外部工具降低幻覺?

王小川:必須以模型為核心加上循證方式,我們力所能及走到今天,已經是最優(yōu)的道路了,要是有更好的技術方式,可以跟我們講一講。

Q:站在醫(yī)院的角度,很多醫(yī)院要求提質增效,包括門診量、出診量的要求都有提高,很多年輕醫(yī)生都在習慣使用,現(xiàn)在也在開展垂直??坪吐?lián)合診療。MDT可能是接到一個需求,但不敢要求會診,可能是先做分析,某個專科醫(yī)生做不到全部??疲枰t(yī)療AI模型的幫助。百川未來有沒有可能針對醫(yī)務工作者做到垂直??萍毞?,包括多學科聯(lián)合診療分析,可能在固定場景下使用你們的產品,第一時間找到自己的診斷方向和問題?

王小川:MDT一般都是大專家來做,對于AI的擁抱度不夠,可能是我們自己的宣傳和產品不匹配,但現(xiàn)在已經夠用了,關鍵是怎么做到場景。我們是敦促行業(yè)伙伴更多地理解和使用這樣的系統(tǒng),所以要看其中有沒有問題。

Q:一個比較極限的問題,剛才在說百川推出海納百川計劃,幫助醫(yī)生進行醫(yī)學診斷,要是在AI輔助的情況下出現(xiàn)了罕見的疑難雜癥和診斷問題,可能就會考慮責任和風險應該怎么控制。就像自動駕駛行業(yè)一樣,現(xiàn)在都在講L2是很安全的,但要是出了問題,責任方怎么判定?

王小川:按照今天的現(xiàn)行法規(guī),模型是不能直接給出最終診斷的,因此權力和責任都是醫(yī)生的,醫(yī)生可以一起負擔責任。美國已經開始有了一些進步,猶他州可以直接讓AI開出處方藥,所以這是我們可以學習的。

Q:美國AI醫(yī)療的OpenEvidence商業(yè)模式就是通過聚集龐大的醫(yī)生用戶,然后通過藥企營銷取得收入,取代部分醫(yī)藥代表的角色,百川有沒有這方面的計劃和想法?

王小川:應該會有一些不一樣,需要符合中國國情。就像現(xiàn)在藥廠打廣告本身是不被允許的,通過學術會議進行營銷,我們有機會滲入進去。

Q:您之前提到AI Coding和醫(yī)療兩個領域有些共性,最近也有推出醫(yī)療工具,未來醫(yī)療領域會不會有代碼這樣的商業(yè)機會和市場機遇?

王小川:中國和美國會不太一樣,最近的兩個API都是給醫(yī)院服務,所以醫(yī)院提效大概2000多億美金,中國并不存在這樣的市場空間,所以必須通過符合中國國情的方式獲取價值回報。

Q:您也比較關注AI制藥,重點放在臨床招募患者階段,前端分子發(fā)現(xiàn)這些方面有沒有計劃?

王小川:我們不是做招募,而是藥效評價、藥物伴隨、Digital Companion的體系提高藥效,變成提高藥物療效的一部分。

Q:就是精準醫(yī)療的概念?

王小川:沒錯。

Q:真實醫(yī)療場景的幻覺有沒有一個可接受的值?是不是低于人類醫(yī)生平均誤診率?其實每次發(fā)布都是在和人類醫(yī)生比較,包括問診能力和誤診率,對標的是基層醫(yī)生、全科醫(yī)生還是專科醫(yī)生的能力?

王小川:全科、專科和基層我們都會判斷,但概率多低是醫(yī)院接受的事情,不是百川能夠判斷的,就像無人駕駛出一例事故可能就是特別大的事情,雖然人類司機的事故率遠遠高于無人駕駛。我們是先給醫(yī)生輔助,再給患者建議。以前大家要是用百度看病,醫(yī)生直接把你趕出門,現(xiàn)在醫(yī)生已經開始接受通過DeepSeek討論,所以未來兩三年接受度會有很大的提高,就是從國家政策到行業(yè)伙伴共同努力的事情。

Q:海納百川計劃應該是想跟醫(yī)生做朋友,但AI醫(yī)療可能會讓醫(yī)生焦慮,你們的生態(tài)有沒有針對醫(yī)療工作者,既能夠改善醫(yī)患關系,又能夠把蛋糕分得比較均衡,從而把醫(yī)療效率提高?

王小川:焦不焦慮跟技術沒有什么關系,沒有AI,醫(yī)生也會焦慮,比如別人比自己晉升更快,所以焦慮的問題我們解決不了,也不是AI能夠解決的。更多的是要有溝通機會,能夠讓醫(yī)生用好,所以我們要有合作伙伴共創(chuàng),可能“上船”以后就不焦慮了?,F(xiàn)在一邊說AI有問題,不能干這個不能干那個,一邊又在焦慮,這個誰管得了?醫(yī)生要接受AI有些方面比他們強,有些方面比他們弱,真實了就不焦慮了。

Q:你們模型訓練對齊的挑戰(zhàn)是什么?因為現(xiàn)在模型還不能踩診療結論這條紅線,不能給出太準確、太激進的答案,但也不能太保守,不然就沒用了。

王小川:我們給醫(yī)生的都是安全的,醫(yī)生已經把關之后,AI再給出提醒,明顯是有意義的,但是不踩紅線。

Q:訓練過程還是要靠人類標注嗎?怎么保證不會完全踩診療的紅線?

王小川:醫(yī)生使用可以給診療結果,由醫(yī)生最終決策判斷;但患者使用,不可以給結果,涉及各個場景覆蓋,不同的問題就是要有不同的結論。

Q:你們API向醫(yī)療開發(fā)者開放,具體會有什么二次創(chuàng)新,最終讓患者受益?有沒有代表性的案例?感覺醫(yī)療應用不像娛樂那么有感知。

王小川:我們希望能夠有好的案例,今年是特別好的一年,就是技術Ready,希望醫(yī)生不要自己造模型,更多的機構可以有更多的對話,更好地幫助醫(yī)生。

Q:之前不是用專業(yè)廠商的模型,非要自己做模型的原因是什么?

王小川:我也不知道。

Q:據說今年你們還會推出兩個產品,整體是免費的,但里面會包含收費的模塊,你們是針對患者還是針對醫(yī)院和醫(yī)生?

王小川:針對患者,收費不會針對醫(yī)院和醫(yī)生。

Q:但是醫(yī)療模型在中國這樣收費可能是比較困難的事情。

王小川:患者要為自己的健康負責,現(xiàn)在主要是沒有好的產品供給,要是有的話,他們是有付費意愿的,以前沒有創(chuàng)造更大的共計價值,不能拿過去的經驗來看今天。

Q:但是就個人的經驗來說,要是有健康問題,可能不是很信任AI,特別是收費的情況下,寧愿更加相信醫(yī)生一點。

王小川:因為你沒有需求,有需求就會相信了。還是你太健康了。

Q:你們的競品也很多,怎么占領用戶心智?大家用起來,你們就要在前端做很多工作。阿??梢院椭Ц秾?、醫(yī)保聯(lián)動,也可以有保險參與,你們有沒有考慮跟有資源的伙伴合作?

王小川:我們現(xiàn)在更多的是要把模型做得更加專業(yè),因為有大量的模型數據,不是當成互聯(lián)網產品來做研發(fā),能夠讓醫(yī)生和患者體驗到我們是更加負責任、更加有醫(yī)學推理、更加低幻覺,就像小朋友上學找最好的學校,去醫(yī)院看病找最好的醫(yī)生。

Q:目前同類產品都在爭奪醫(yī)院入口,可能以供應鏈入場,阿里健康也發(fā)布了相關產品,對于醫(yī)院和醫(yī)生來說,可能通過技術是比較難做的事情,你們會怎么介紹自己的產品?

王小川:我們就是醫(yī)生版的最強ChatGPT或者DeepSeek,用過的都覺得挺好的。(作者|李程程,編輯|李玉鵬)

本文系作者 LCC_Beta版 授權鈦媒體發(fā)表,并經鈦媒體編輯,轉載請注明出處、作者和本文鏈接。
本內容來源于鈦媒體鈦度號,文章內容僅供參考、交流、學習,不構成投資建議。
想和千萬鈦媒體用戶分享你的新奇觀點和發(fā)現(xiàn),點擊這里投稿 。創(chuàng)業(yè)或融資尋求報道,點擊這里。

敬原創(chuàng),有鈦度,得贊賞

贊賞支持
發(fā)表評論
0 / 300

根據《網絡安全法》實名制要求,請綁定手機號后發(fā)表評論

登錄后輸入評論內容

快報

更多

2026-03-28 23:01

澤連斯基稱與中東3國達成防務合作協(xié)議,涉聯(lián)合生產無人機

2026-03-28 22:35

山西太原一建筑發(fā)生火災,已致1人死亡25人受傷

2026-03-28 22:26

王文濤部長發(fā)表書面致辭,支持世貿組織《電子商務協(xié)定》達成臨時實施安排

2026-03-28 21:54

40余家單位聯(lián)盟,中國最大人形機器人訓練基地在京揭牌

2026-03-28 21:41

周鴻祎與劉慈欣在科幻大會預判:百億智能體或成新物種,AI推動人類文明分化

2026-03-28 21:38

第五代宏光MINIEV上市,售價4.48萬-5.48萬元

2026-03-28 20:42

烏稱伊朗襲擊迪拜倉庫并致烏克蘭人傷亡消息不實

2026-03-28 20:23

3月28日新聞聯(lián)播速覽23條

2026-03-28 20:05

美國務卿和歐盟官員被曝就烏克蘭問題激烈交鋒

2026-03-28 19:44

“Token”這個詞的搜索量最高一天達到7.7萬次,比去年日均搜索量高出1850%

2026-03-28 19:39

飛捷科思發(fā)布中國首個可微分物理仿真引擎Fysics

2026-03-28 19:13

“網售產品質量安全提升系列行動2026”在北京啟動

2026-03-28 19:03

國務院食安辦、市場監(jiān)管總局約談相關地方市級人民政府負責人,督辦“3?15”晚會曝光問題整改

2026-03-28 18:44

飛書 CLI 開源:AI 可直連飛書辦公套件

2026-03-28 18:36

馬來西亞說伊朗允許馬滯留油輪通行霍爾木茲海峽

2026-03-28 18:02

今年前三個月中國創(chuàng)新藥對外授權交易總額超600億美元

2026-03-28 17:39

中國和菲律賓舉行南海問題雙邊磋商機制第十一次會議

2026-03-28 17:30

印尼正式實施16歲以下社媒禁令,約7000萬人受影響

2026-03-28 17:04

美國加州禁止官員借內幕消息在預測市場牟利

2026-03-28 17:02

北京“超現(xiàn)場”生態(tài)共同體建設暨全國覆蓋啟動

掃描下載App