這是一顆54歲農(nóng)民的大腦。頂葉占位,水腫漫延,看著像顆爛蘋果。
醫(yī)生只能二選一:要么鋸開他的頭骨,切掉這塊疑似轉(zhuǎn)移腫瘤;要么打幾針青霉素,按神經(jīng)梅毒治療。如果把這條人命交給AI,結(jié)局會(huì)怎樣?
![]()
為了驗(yàn)證答案,我們部署了一套多智能體工作流,把這份真實(shí)病歷喂給了ChatGPT、DeepSeek、豆包、千問(wèn)和專注醫(yī)療的百川,進(jìn)行了3個(gè)階段累計(jì)31輪背靠背盲測(cè)。
結(jié)果完全出乎預(yù)料……因?yàn)檫@個(gè)梅毒患者,從一開始就在撒謊。歡迎來(lái)到,鈦AI了。
第一關(guān),我們給模型的初始信息,只有開場(chǎng)檢查和病人自述。男性,54 歲,已婚農(nóng)民。間歇性頭痛。否認(rèn)嫖娼史、性病史和輸血史。經(jīng)典高危病史隱瞞型病例。病人沒(méi)說(shuō)實(shí)話,AI只能自己判斷風(fēng)險(xiǎn)。
在初診階段,DeepSeek、ChatGPT和百川選擇相信病人自述,但在10輪推演中,它們都堅(jiān)持開出梅毒篩查單,沒(méi)有被帶偏。
可到具體診斷環(huán)節(jié),場(chǎng)面就開始失控了。
最奇葩的是百川,它一度懷疑這是孕婦高血壓并發(fā)癥,自己還注明病人是男性。標(biāo)簽丟失加推理崩潰。只能說(shuō)拉完了。
作為對(duì)比,ChatGPT也短暫提出過(guò)類似質(zhì)疑,但它根據(jù)“患者為男性”的信息,迅速排除了這種可能。邏輯閉環(huán),給到頂級(jí)。
DeepSeek則多次建議檢查睪丸瘤、乳腺癌,甚至人絨毛膜促性腺激素。乍一看還以為要給大爺驗(yàn)孕,為了排查罕見(jiàn)的生殖細(xì)胞瘤腦轉(zhuǎn)移,它的思路縝密到涉嫌過(guò)度檢查,人上人吧。
最讓人眼前一亮的是豆包和千問(wèn)。它們除了堅(jiān)持梅毒篩查,還各有一次“覺(jué)醒時(shí)刻”。豆包認(rèn)為病人口述可能存在有意隱瞞。千問(wèn)則指出“農(nóng)村地區(qū)存在隱性暴露風(fēng)險(xiǎn)”,患者可能都不知道自己感染了梅毒,補(bǔ)充了流行病學(xué)背景。這兩根獨(dú)苗,毫無(wú)疑問(wèn),夯。
到第二關(guān),矛盾徹底爆發(fā)。從影像上看,這個(gè)腫塊血供旺盛、邊界模糊,核磁報(bào)告懷疑是腦轉(zhuǎn)移瘤,建議盡快開顱活檢。可化驗(yàn)結(jié)果又顯示梅毒抗體陽(yáng)性,說(shuō)明這玩意也可能只是感染。到底該聽誰(shuí)的?
豆包屬于學(xué)院派精英,沒(méi)有著急選邊站,絕大多數(shù)輪次堅(jiān)持先做腰穿,確診后再治療,治不好再考慮開顱,嚴(yán)格按標(biāo)準(zhǔn)流程來(lái)。但中間它也有一次被忽悠瘸了,建議直接立體定向活檢。給個(gè)人上人吧。
DeepSeek像個(gè)有經(jīng)驗(yàn)的老專家。它明確拒絕開顱,在近半輪次中建議跳過(guò)腰穿,直接給藥。它的邏輯是,如果花幾百塊打一周青霉素,病灶縮小了,那就是變相確診。如果沒(méi)變化,再做腰穿或者活檢也不遲。比起四平八穩(wěn)走流程,DeepSeek認(rèn)為讓患者少遭罪、少花錢要更重要。夯。
千問(wèn)更狠,它不再糾結(jié)流程,而是直搗黃龍。3次從源頭上否定了影像科結(jié)論,因?yàn)檗D(zhuǎn)移瘤通常有原發(fā)灶,且分布不對(duì)稱,而這位病人雙側(cè)對(duì)稱,不符合基本病理特征。直接封死開顱方案。夯爆了。
表現(xiàn)最差的,依舊是ChatGPT和百川。GPT在兩輪中,一邊表示影像特異性有限,不能全信。一邊又認(rèn)為抗體不能代表當(dāng)前感染,也不能全信,等于啥都沒(méi)說(shuō)。純純職場(chǎng)老油子,拉完了。
百川更是墻頭草,絕大多數(shù)輪次堅(jiān)定站隊(duì)影像科,反復(fù)強(qiáng)調(diào)“影像才是金標(biāo)準(zhǔn)”,抗體陽(yáng)性只能說(shuō)明病人曾經(jīng)感染過(guò)梅毒,現(xiàn)在不一定是發(fā)病期,完全忽略了腦部占位因素。照它說(shuō)的做,病人這會(huì)兒已經(jīng)上手術(shù)臺(tái)了。拉中之拉。
第三關(guān),確診神經(jīng)梅毒后的治療方案,這本來(lái)是最簡(jiǎn)單的環(huán)節(jié),卻出現(xiàn)了最嚴(yán)重的醫(yī)療事故。
其中最要命的是ChatGPT,它靜脈滴注的所謂“芐星青霉素G鈉”,在臨床上根本不存在。這個(gè)詞拼接的青霉素 G 鈉,是用于靜脈注射的水劑,但拼的另一半芐星青霉素卻是長(zhǎng)效混懸劑,由無(wú)數(shù)不溶于水的微晶體組成。如果靜脈注射,這些晶體就會(huì)像泥沙一樣,迅速封死病人的肺部毛細(xì)血管網(wǎng),引發(fā)肺栓塞甚至心源性猝死。屬于明令禁止的一級(jí)醫(yī)療事故,完全拉完了。
百川更是重量級(jí),它一半以上的回答中表示,水劑青霉素G 即苯唑西林鈉。但這完全是倆東西,苯唑西林鈉主治金黃色葡萄球菌,對(duì)梅毒完全無(wú)效,純純耽誤病情。NPC。
DeepSeek和千問(wèn)的方案最標(biāo)準(zhǔn):水劑青霉素G,1800–2400萬(wàn)單位,靜脈注射,療程10–14天,引用最新指南,沒(méi)有錯(cuò)漏。毫無(wú)疑問(wèn),夯。
豆包的處方都沒(méi)毛病,但格式出了一次問(wèn)題。原文“注射用青霉素鈉(或注射用芐星青霉素?不,糾正……不對(duì),等下—— 正確的是注射用結(jié)晶青霉素G)”。直接把模型思維鏈的糾錯(cuò),原樣輸出到了最終答案里,嚴(yán)重影響了用戶的信任。而且它在第三階段這10輪測(cè)試?yán)铮?次切換成了英文思維鏈,可能是因?yàn)槎拱占母哔|(zhì)量中文醫(yī)學(xué)語(yǔ)料不夠多。以至于在面對(duì)復(fù)雜的藥理推演時(shí),不得不切換回英語(yǔ)母語(yǔ)思考,最后再翻譯輸出。雖然結(jié)果沒(méi)錯(cuò),但這證明它在本土化深層推理上,還有很大的提升空間。綜合給個(gè)頂級(jí)吧。
可是,人類就比這些AI更可靠嗎?難說(shuō)。
在現(xiàn)實(shí)中,拿到“梅毒抗體陽(yáng)性”的化驗(yàn)單后,醫(yī)生還是直接做了開顱占位切除術(shù)。最終活檢結(jié)果確認(rèn),病人腦袋里并不是腫瘤,而是青霉素就能解決的梅毒樹膠腫。雖然人救回來(lái)了,但患者卻為這次誤判,付出了沉重且完全可以避免的代價(jià)。
故事講完了,作為評(píng)測(cè)媒體,我們還得復(fù)盤一下這幾位選手的真實(shí)能力邊界。
首先是成本,最燒錢的居然是百川,平均Token消耗近12萬(wàn),是千問(wèn)的72倍。可奇怪的是,百川消耗了最多Token,回復(fù)字?jǐn)?shù)卻是全場(chǎng)最少,響應(yīng)速度也是全場(chǎng)最快。
我們推測(cè),這可能是觸發(fā)了后臺(tái)大規(guī)模RAG檢索,加載了海量醫(yī)療文獻(xiàn)作為背景知識(shí)。可離譜的是,它的成績(jī)又是墊底的,說(shuō)明信息蒸餾和推理可能存在斷層,需要再優(yōu)化去噪能力。不過(guò)這種架構(gòu),很適合2B醫(yī)療的SaaS場(chǎng)景。如果能接入醫(yī)院專屬知識(shí)庫(kù),做專病??莆⒄{(diào),還是有不小工程潛力的。給個(gè)NPC吧。
至于阿里千問(wèn),妥妥的性價(jià)比之王。它的Token消耗最低,響應(yīng)速度排第三,總回復(fù)控制在1900字左右。內(nèi)容緊湊、準(zhǔn)確,基本沒(méi)啥廢話。很適合分秒必爭(zhēng)的臨床輔助決策。給到夯。
接下來(lái)是內(nèi)耗選手豆包,它的響應(yīng)速度最慢,總字?jǐn)?shù)斷層領(lǐng)先,但這里面有60%是模型思考的自言自語(yǔ)。雖然很認(rèn)真,但確實(shí)不適合醫(yī)療這種緊急場(chǎng)景。勉強(qiáng)給個(gè)人上人吧。
再就是職場(chǎng)老油子ChatGPT。雖然它響應(yīng)非常快,但回復(fù)字?jǐn)?shù)高居榜首,對(duì)需要精準(zhǔn)決策的醫(yī)生來(lái)說(shuō),很難從這里面提煉到關(guān)鍵信息。再加上它的回答準(zhǔn)確率也比較差,還貢獻(xiàn)了一個(gè)致命處方。必須給一個(gè)拉完了。
然后是DeepSeek。雖然它的響應(yīng)速度處于中游,但整體結(jié)構(gòu)最平衡。平均思考鏈1218字,正式回復(fù)1848字,思考和輸出比約為1:1.5,既沒(méi)有豆包那樣的過(guò)度內(nèi)耗,也規(guī)避了ChatGPT的無(wú)效堆砌。邏輯展開有層次,表達(dá)克制有力,完全符合臨床決策支持系統(tǒng),要求的“黑盒透明化”原則,做到了既可解釋又能執(zhí)行。毫無(wú)疑問(wèn),夯。
![]()
最后,這場(chǎng)31輪的生死博弈告訴我們:哪怕是最頂尖的AI,現(xiàn)在依舊會(huì)犯錯(cuò);但哪怕表現(xiàn)最差的AI,在今天也有可能挽救一條人命。我們做這場(chǎng)測(cè)試,不是為了證明AI多無(wú)敵或者多拉跨,而是為了搞清楚:這玩意現(xiàn)在到底能干什么,不能干什么。幫大家摸清AI能力的真實(shí)邊界,讓技術(shù)真正服務(wù)于人。
這里是鈦AI了,我們只做最硬核的AI實(shí)戰(zhàn)測(cè)評(píng),感謝你的關(guān)注,我們下期見(jiàn)。
(本文/測(cè)評(píng)視頻 首發(fā)鈦媒體APP,作者/蔡正鑫)
快報(bào)
根據(jù)《網(wǎng)絡(luò)安全法》實(shí)名制要求,請(qǐng)綁定手機(jī)號(hào)后發(fā)表評(píng)論
您好,相關(guān)病歷信息可以提供一下參考嗎。
充分驗(yàn)證了張老師的說(shuō)法,凈信書不如無(wú)書。只是作為參考可以,但是過(guò)度的依賴參考有可能被帶到坑里。所以說(shuō),在容錯(cuò)率很低的醫(yī)療領(lǐng)域,AI智能體的應(yīng)用要謹(jǐn)慎。