先講一個案例,幾年前,保羅被他的初級保健醫(yī)生瓊斯醫(yī)生診斷為高血壓。瓊斯醫(yī)生建議保羅嘗試藥物治療,他先給保羅開了利尿劑,但保羅的血壓依舊很高,藥物沒起作用。
幾周后,瓊斯醫(yī)生又開了第二種藥物,鈣通道阻滯劑,但效果依然不理想。
這些結(jié)果使瓊斯醫(yī)生困惑不已。雖然過去的 3 個月保羅每周都會來復(fù)診,他的血壓略有下降,但仍然很高。沒有下一步治療方案,不但保羅很焦慮,瓊斯醫(yī)生也很苦惱,尤其保羅年紀(jì)不算大,而且身體一向健康。瓊斯醫(yī)生尋思著要嘗試第三種藥物。
就在這時,保羅碰巧搬到了一個新城市,在那里他咨詢了另一位初級保健醫(yī)生史密斯醫(yī)生。保羅向史密斯醫(yī)生講述了他一直以來與高血壓抗?fàn)幍慕?jīng)歷。
史密斯醫(yī)生立即回答說:“買一個家用血壓計,在家測測看血壓值是多少。我認(rèn)為你根本沒有高血壓。你可能只是得了白大褂綜合征——一進醫(yī)生辦公室,你的血壓就升高!”
保羅照辦了,果然,他在家時的血壓是正常的。從那以后一直很正常。史密斯醫(yī)生告訴保羅白大褂綜合征這件事一個月后,即便是在醫(yī)生的辦公室,保羅的血壓也都很正常了。
這個案例來自諾貝爾經(jīng)濟學(xué)獎得主丹尼爾?卡尼曼新作《噪聲》。在《噪聲》一書中,卡尼曼揭示了人類判斷中的行為缺陷。
令人震驚的是在我們最為信任的醫(yī)療領(lǐng)域,同樣存在可怕的“噪聲”,而如何才能減少噪聲、避免錯誤的診斷?我們需要首先探討醫(yī)療領(lǐng)域中的噪聲從何而來。
醫(yī)生的主要任務(wù)就是做出診斷——判斷病人是否患病了,如果患病了,還要鑒定出是哪種疾病。診斷往往需要做出某種判斷。
許多人都知道,當(dāng)醫(yī)生做判斷時,他們可能會有噪聲,而且可能會出錯;標(biāo)準(zhǔn)做法是建議患者再咨詢另外一位醫(yī)生,獲取第二診療意見。有一些醫(yī)院,第二診療意見是必須要給出的。
當(dāng)?shù)诙\療意見與首診意見產(chǎn)生分歧時,噪聲就出現(xiàn)了——當(dāng)然,我們可能不清楚哪個醫(yī)生是正確的。一些病人(包括保羅)會驚訝地發(fā)現(xiàn)第二診療意見與首診意見的分歧非常大。
令人驚訝的不是醫(yī)療領(lǐng)域存在噪聲,而是其數(shù)量之巨。值得注意的是,醫(yī)學(xué)中的噪聲并不局限于的診斷性判斷中的噪聲,治療也可能存在噪聲。如果患者的心臟存在問題,醫(yī)生們對最佳治療方案的判斷存在驚人的差異。
有大量的文獻都是關(guān)于醫(yī)學(xué)界存在噪聲的。當(dāng)存在噪聲時,一位醫(yī)生可能明顯是正確的,另一位可能明顯是錯誤的并且可能受到某些偏差的影響。正如我們料想的那樣,技能在其中發(fā)揮了關(guān)鍵作用。
“技能的差異可以解釋診斷決策中44%的變異”,培訓(xùn)和甄選對于減少誤差、消除噪聲和偏差至關(guān)重要,醫(yī)療界也是如此。
在某些專業(yè)領(lǐng)域,如放射學(xué)和病理學(xué),醫(yī)生對噪聲的存在一清二楚。例如,放射科醫(yī)生將診斷差異稱為“阿喀琉斯之踵”。
目前尚不清楚到底為什么放射學(xué)和病理學(xué)領(lǐng)域的噪聲如此受關(guān)注,可能因為這些領(lǐng)域的噪聲確實比其他領(lǐng)域要多,也可能因為這些領(lǐng)域的噪聲更容易被記錄下來。我們猜想易于記錄可能是更重要的原因。
在醫(yī)學(xué)領(lǐng)域,人與人之間的噪聲,或者說評估者信度(interrater reliability),通常用 kappa 統(tǒng)計量來衡量。kappa 值越高,噪聲越小。
kappa 值為 1 表示評估者的評估完全一致;kappa 值為 0,則意味著評估者之間的一致性就跟猴子往診斷列表上投飛鏢差不多。
在某些醫(yī)學(xué)診斷領(lǐng)域中,用該系數(shù)測量得到的信度是“微小”或者“糟糕”,這意味著該領(lǐng)域的噪聲非常高。大部分時候,該系數(shù)測出的信度是“一般”,這當(dāng)然更好了,但這依然表明存在著明顯的噪聲。
在診斷乳腺增生病變時,一致性同樣是“一般”。當(dāng)醫(yī)生根據(jù)核磁共振成像掃描結(jié)果判斷椎管狹窄程度時,一致性也是“一般”。這些發(fā)現(xiàn)很值得反思。
我們說過,在某些領(lǐng)域,醫(yī)學(xué)中的噪聲水平非常低。但在一些技術(shù)性要求非常高的領(lǐng)域,醫(yī)生們還遠沒有實現(xiàn)零噪聲。
患者是否會被確診患有癌癥等嚴(yán)重疾病,可能就像在抽獎,結(jié)果取決于他要看的是哪位醫(yī)生。
放射科醫(yī)生通過乳房 X 線檢測來診斷乳腺癌,這種診斷存在很大變異性。一項大型研究發(fā)現(xiàn),不同的放射科醫(yī)生,其診斷結(jié) 果的假陰性率為 0%(每次的診斷都是正確的)~ 50% 以上(在 超過一半的情況,放射科醫(yī)生錯誤地將乳腺癌患者的 X 線片診 斷為正常)。
同樣,假陽性率也為 1% ~ 64%(這意味著在將近 2/3 的時間里,放射科醫(yī)生將未患乳腺癌的人的 X 線片診斷為患有癌癥)。
這些存在于不同人之間的噪聲是現(xiàn)在的主要研究方向,但也有一些關(guān)于情境噪聲的發(fā)現(xiàn)。有時候,放射科醫(yī)生再次評估同一張片子時會給出不同的意見,也就是說與自己原有的意見不一致,但比與他人意見不一致的情況要少。
在重新評估血管造影顯示的血管阻塞程度時,22 名醫(yī)生與自己原有意見不一致的可能性為 63% ~ 92%。在那些標(biāo)準(zhǔn)模糊和判斷復(fù)雜的領(lǐng)域中,評估者信度可能非常差。
這些研究對這種情境噪聲沒有明確的解釋。但另一項不涉及診斷的研究發(fā)現(xiàn)了醫(yī)學(xué)中情境噪聲的一個簡單來源,這一發(fā)現(xiàn)值得患者和醫(yī)生牢記。簡言之,醫(yī)生在清晨比接近傍晚時更可能要求患者做癌癥篩查。在一天的晚些時候就診的患者接受指南推薦的癌癥篩查的可能性更小。
我們?nèi)绾谓忉屵@些發(fā)現(xiàn)?一種可能的答案是醫(yī)生們在遇到患有復(fù)雜疾病的患者后,他們的問診進度不可避免地會落后,這些病情復(fù)雜的患者需要的診斷時間比常規(guī)的 20 分鐘要長。由于壓力和疲勞,一些醫(yī)生為了趕上他們的時間進度,跳過了對預(yù)防性健康措施的討論。
接下來我們將著重討論一個決策衛(wèi)生策略:診斷指南。有關(guān)醫(yī)學(xué)中的噪聲,以及醫(yī)生、護士和醫(yī)院采取的各種補救措施,這被認(rèn)為是一種行之有效的方法。
在一種極端情況下,一些問題和疾病的診斷基本上是機械的,沒有做出判斷的余地。其他一些情況下,診斷雖然不是機械性的,卻很簡單直接:任何受過醫(yī)學(xué)訓(xùn)練的人都可能得出同樣的結(jié)論。
還有一些情況下,比如說肺癌專家,他們專業(yè)性雖不能完全消除噪聲,但能使噪聲數(shù)量最少。
但在另外一些極端情況下,一些病例給了醫(yī)生很大的判斷空間,并且診斷的相關(guān)標(biāo)準(zhǔn)太寬泛,這會導(dǎo)致噪聲巨大,且難以降低。正如我們將看到的,大部分精神病學(xué)診斷就屬于這種情況。
什么能降低醫(yī)學(xué)領(lǐng)域的噪聲?正如我們前面提到的,培訓(xùn)可以提高技能,而高超的技能當(dāng)然對減少噪聲有幫助。匯總多個專家的判斷也能減少噪聲。算法是一個特別有發(fā)展前景的手段,醫(yī)生們現(xiàn)在正在使用深度學(xué)習(xí)算法和人工智能來減少噪聲。
目前最好的算法,其診斷的準(zhǔn)確性優(yōu)于最好的病理學(xué)家。而人工智能可以通過乳房 X 線檢測癌癥,其表現(xiàn)幾乎和放射科醫(yī)生一樣出色。
但我們談?wù)摰娜祟惖呐袛嘀改?,因為醫(yī)學(xué)領(lǐng)域的情況能夠充分說明,在某些實踐應(yīng)用中指南能夠確保產(chǎn)生良好甚至極好的結(jié)果,而在其他應(yīng)用實踐中會產(chǎn)生更復(fù)雜的結(jié)果。也許診斷指南中最著名的例子,是 1952 年由產(chǎn)科麻醉師弗吉尼亞·阿普加(Virginia Apgar)發(fā)明的阿普加評分(Apgar score)。
過去,評估新生兒是否處于危險之中曾是醫(yī)生和助產(chǎn)士需要在臨床上做出的判斷。阿普加評分給了他們一個標(biāo)準(zhǔn)化的指南。
![]()
要注意的是,心率是評分中唯一一個嚴(yán)格計數(shù)的項目,其他項目都涉及判斷的成分。但是,由于判斷被分解為單獨的元素,每個元素都很容易評估,即使是那些僅受過一點點訓(xùn)練的醫(yī)師們,在評估時也不太可能產(chǎn)生很大的分歧,因此阿普加評分產(chǎn)生的噪聲很小。
阿普加評分展示了指南是如何發(fā)揮作用的,以及為什么指南會降低噪聲。與規(guī)則或算法不同,有了指南仍需判斷:決策不是直接的計算。阿普加評分的每一個項目上都可能存在分歧,因此在最終結(jié)論上也可能存在分歧。然而,指南成功地減少了噪聲,因為它在預(yù)先定義好的維度上將一個復(fù)雜的決策分解成了許多簡單的子判斷。
臨床醫(yī)生是根據(jù)幾條預(yù)測性線索來判斷新生兒的健康狀況。情境噪聲可能在其中發(fā)揮作用:就在某一天,或者就在某種情緒狀態(tài)下,臨床醫(yī)生可能會關(guān)注一些相對不那么重要的預(yù)測因素,或忽略一些重要的預(yù)測因素。
阿普加評分能夠?qū)⑨t(yī)生的注意力集中在 5 個已經(jīng)過實踐檢驗的重要維度上。然后,評分清晰地描述了該如何評估每個線索,這大大簡化了根據(jù)每條線索做出判斷的過程,從而降低了噪聲。
最后,阿普加評分還規(guī)定了如何機械性地給各個預(yù)測因素賦權(quán),并產(chǎn)生所需的總體判斷;而人類臨床醫(yī)生在給這些線索賦權(quán)時會存在差異。關(guān)注重要的預(yù)測因子,簡化預(yù)測模型,以及進行機械性匯總——所有這些都降低了噪聲。類似的方法已被用于許多醫(yī)學(xué)領(lǐng)域,并且取得了很多成功的例子。
快報
根據(jù)《網(wǎng)絡(luò)安全法》實名制要求,請綁定手機號后發(fā)表評論