"匯東華-認真作好每件事"
~統計,不再是阻力,而是助力~

第180題:Measuring the performance of screening tests (篩檢測試之績效評估)

Cite this as: BMJ 2014;349:g4438

https://www.bmj.com/content/349/bmj.4438

前言

本期文章與前期相通,均聚焦於 #篩檢測試績效評估(Screening Test Performance Evaluation),透過 #SCOFF問卷在飲食失調篩檢中的應用,探討篩檢測試的統計指標與臨床實務上之應用及可能面臨的問題。

兩篇文章分別涵蓋 #篩檢測試的統計學原則 與 #SCOFF問卷的臨床實證分析。前期文章說明 #敏感度(Sensitivity)、#特異度(Specificity)、#陽性預測值(PPV) 和 #陰性預測值(NPV) 之定義與計算方式,幫助讀者理解這些指標的數據解釋和應用範圍。本期文章則進一步分析 #ROC曲線(Receiver Operating Characteristic Curve) 如何幫助決定最佳篩檢臨界點(cut-off score),並探討不同篩檢標準對臨床決策的影響。

此外,文章也強調 #假陽性(False Positive) 與 #假陰性(False Negative) 在篩檢過程中的影響,並建議臨床上應使用 「高風險/低風險」 取代傳統的 「陽性/陰性」 來表達篩檢結果,以減少病人的誤解。這些關鍵概念對於 #公共衛生(Public Health) 和 #臨床診斷(Clinical Diagnosis) 的實務應用具有重要參考價值。並可與下列相關文獻一併閱讀,進一步系統性地了解篩檢指標、ROC等診斷精確性指標在實務場景之應用與其注意事項。針對此方面有興趣的朋友除了可參考線上課程流行病學總複習外,也能參考真實世界研究之分析或是密切注意下半年開設之診斷預測模型工作坊。

相關閱讀文獻

  • #第102題 Receiver operating characteristic curves(ROC curves)

  • #第137題 Screening tests and indices of performance: effects of prevalence(篩檢和效能指標:盛行率的影響)

  • #第152題 How to read a receiver operating characteristic curve(如何解讀 ROC curve)

  • #第179題:Screening tests: indices of performance (篩檢測試:績效指標)

另外,本人拙作 「ChatGPT於系統性文獻回顧和統合分析之應用」#台灣護理學會 發行之 #護理雜誌 2024年10月 71卷 5期刊登,歡迎閱讀與指教。系列內容將陸續發表,敬請持續關注。Hope u enjoy it

報名課程與工作坊

請至匯東華統計學院報名: 突破你的學術研究思維與能力!

【線上課程】: 流行病學總複習

【實體/現場直播】2025/2/22 (六)第六期 A05-SPSS 問卷與量表統計分析實戰班,共7小時。招生中!

【實體/現場直播】2025/2/23 (日):第一期 A06-AMOS 問卷與量表統計分析實戰班,共4小時。招生中!

【線上課程】 零代碼,網絡統合分析實戰課程
不懂程式也能輕鬆進行網絡分析,概念 + 實作 = 專業力倍增,助您在研究中脫穎而出。

【線上課程】 第一次使用 AI 助力文獻綜述就上手
AI 輔助,事半功倍,解放文獻綜述的繁瑣流程,學術效率再升級。

統計分析套餐 多元專業統計分析方案
高 CP 值統計服務,3-5天快速交付,專業保證,讓研究更具說服力。

問題

研究人員評估SCOFF問卷作為初級照護中篩檢飲食失調(Eating Disorders)之工具績效。該問卷包含五個問題,涉及 #神經性厭食症(Anorexia Nervosa) 和 #神經性暴食症(Bulimia Nervosa) 的核心特徵。本研究納入341名 18至50歲,在兩家一般科診所就診之連續女性病人。所有受試者均完成SCOFF問卷,並接受基於《診斷與統計手冊》第四版(DSM-IV)標準的臨床診斷面談【1】。

 

若女性對SCOFF問卷的五個問題中有兩個或以上回答「是」,則她被識別為 “陽性”,即屬於 “高風險” 飲食失調群體;反之,則識別為 “陰性”,即屬於 “低風險” 飲食失調群體。飲食失調的診斷為基於《診斷與統計手冊》第四版(DSM-IV)標準的臨床診斷面談確定的。

 

SCOFF問卷之敏感度為 84.6%,特異性為 89.6%,陽性預測值為 24.4%,陰性預測值為 99.3%。

篩檢結果 診斷為飲食失調 診斷未飲食失調 總計
≥2個陽性回答:陽性或「高風險」 11 (真陽性) 34 (假陽性) 45
0或1個陽性回答:陰性或「低風險」 2 (假陰性) 294 (真陰性) 296
總計 13 328 341

下列敘述何者正確?

  1. 敏感度(Sensitivity) 是指臨床診斷為飲食失調的女性中,被篩檢測試識別為「陽性」的比例。

  2. 特異度(Specificity) 是指未被診斷為飲食失調的女性中,被篩檢測試識別為「陰性」的比例。

  3. 陽性預測值(Positive Predictive Value, PPV) 是指篩檢結果為「陽性」的女性中,最終確診為飲食失調的比例。

  4. 陰性預測值(Negative Predictive Value, NPV) 是指篩檢結果為「陰性」的女性中,最終未被診斷為飲食失調的比例。

答案: 以上皆是。

 

詳細說明

對於所有在初級照護中的女性來說,直接進行臨床診斷面談以確定是否患有飲食失調不切實際。此種做法不僅耗時且費用昂貴,且對於大多數女性而言,可能既不方便,也無必要。SCOFF問卷目的在於預測臨床診斷面談的結果。SCOFF問卷本身並非一項診斷測試,其準確性不如臨床診斷面談。SCOFF問卷之作用為識別個案是否處於高風險(陽性結果)或低風險(陰性結果)的飲食失調群體。對於被識別為高風險的女性,則可建議進一步接受臨床診斷面談以確認診斷;而對於被識別為低風險的女性,則不會進一步邀請其接受診斷面談。SCOFF問卷填寫簡單且快速。透過僅邀請那些高風險的女性進行臨床診斷面談,能夠有效節省時間及金錢。

 

在本研究中,所有受試者均完成SCOFF問卷並接受臨床診斷面談。主要為了評估SCOFF問卷作為篩檢測試在預測飲食失調的臨床診斷狀態時的效能,詳細結果將於後文闡述。然而,在實際臨床應用中,只有被識別為高風險(陽性結果)女性才會被邀請進一步接受臨床診斷面談,以確認是否患有飲食失調。

 

作為一項篩檢測試,SCOFF問卷並無法完全準確地預測所有女性的診斷狀態。該研究的SCOFF問卷篩檢結果與臨床診斷面談的對比數據已於下表呈現。在表格中,SCOFF問卷篩檢結果與臨床診斷結果一致的女性被稱為 「真陽性(True Positives)」 與 「真陰性(True Negatives)」。

真陽性:在臨床診斷面談中確診患有飲食失調,且SCOFF問卷成功識別為「陽性」的女性。

真陰性:在臨床診斷面談中未被診斷為飲食失調,且SCOFF問卷成功識別為「陰性」的女性。

 

而,SCOFF問卷篩檢結果與臨床診斷結果不一致的女性則被稱為 「假陰性(False Negatives)」 與 「假陽性(False Positives)」。

假陰性:在臨床診斷面談中確診患有飲食失調,但SCOFF問卷錯誤識別為陰性的女性。

假陽性:在臨床診斷面談中未被診斷為飲食失調,但SCOFF問卷錯誤識別為陽性的女性。

 

SCOFF問卷作為篩檢測試在預測飲食失調診斷方面的效能,透過以下指標進行量化:

    敏感度(Sensitivity)

    特異度(Specificity)

    陽性預測值(Positive Predictive Value, PPV)

    陰性預測值(Negative Predictive Value, NPV)

 

SCOFF問卷的敏感度定義為:在所有被診斷為飲食失調的女性中,成功被篩檢為「陽性」的比例(即「真陽性」,a正確)。本研究中,共有 13名女性 在臨床診斷面談中被確診為患有飲食失調,其中 11名(84.6%) 被SCOFF問卷正確識別為「陽性」。剩餘 2名女性 則被SCOFF問卷錯誤識別為陰性(假陰性)。

 

SCOFF問卷的 特異度(Specificity) 指【未被診斷為飲食失調的女性中,篩檢結果為「陰性」的比例,並以百分比表示】(b正確)。在本研究中,共有 328名女性 在臨床診斷面談中未被診斷為飲食失調,其中 294名(89.6%) 被SCOFF問卷 正確識別為「陰性」(真陰性)。剩餘 34名女性則被SCOFF問卷 錯誤識別為「陽性」(假陽性結果)。

 

陽性預測值(Positive Predictive Value, PPV) 用於衡量 SCOFF問卷的「陽性」結果的準確性,即篩檢結果為「陽性」的女性中,最終被確診為飲食失調的比例(c正確)。在本研究中,共有 45名女性 在SCOFF問卷篩檢中被標記為「陽性」,其中 11名(24.4%) 最終在臨床診斷面談中被確診為 患有飲食失調(真陽性)。剩餘的 34名女性則被錯誤標記為「陽性」(假陽性結果),因為她們在臨床診斷面談中未被診斷為飲食失調。

 

陰性預測值(Negative Predictive Value, NPV) 用於衡量 SCOFF問卷的「陰性」結果的準確性,即篩檢結果為「陰性」的女性中,最終未被診斷為飲食失調的比例(選項 d 正確)。在本研究中,共有 296名女性 在SCOFF問卷篩檢中被標記為「陰性」,其中 294名(99.3%)在臨床診斷面談中未被診斷為飲食失調(真陰性)。剩餘的 2名女性 則被錯誤標記為「陰性」(假陰性結果),因為她們在臨床診斷面談中最終被確診為飲食失調。

 

篩檢測試的績效指標(如上述所描述)經常被混淆,特別是敏感度(Sensitivity) 與 陽性預測值(PPV)(選項 a 和 c)。

敏感度(Sensitivity) 和 特異性(Specificity)(選項 a 和 b)

        描述:篩檢測試正確識別已確診與未確診飲食失調女性的比例。

陽性預測值(PPV) 和 陰性預測值(NPV)(選項 c 和 d)

        描述:篩檢測試結果的準確性,即「陽性結果」和「陰性結果」是否能正確預測受試者的診斷狀況。

上述指標通常用於計算篩檢測試的效能。此外,陽性概似比(Positive Likelihood Ratio, PLR) 與 陰性概似比(Negative Likelihood Ratio, NLR) 也是常用來描述篩檢測試效能的指標【2】。

 

SCOFF問卷包含 五個問題。當受試者在這 五個問題中至少回答「是」兩次,則被識別為 「陽性」(即高風險);否則,則被識別為 「陰性」(即低風險)。研究人員調查受試者需要回答多少個問題為「是」,才應被識別為「陽性」,以確定最佳臨界點(cut-off score)。研究使用受試者操作特徵曲線(Receiver Operating Characteristic, ROC 曲線)確定最佳的篩檢標準【3】。

ROC曲線的應用:

 

研究人員依序設定不同的篩檢標準,例如將「至少答『是』的題數」設定為 1到5,並觀察其對篩檢結果的影響。

敏感度(Sensitivity) 與 特異度(Specificity) 在理想狀態下應該盡可能接近 100%,但在實際應用中,二者通常需要進行妥協。本研究顯示,篩檢標準的選擇將影響假陽性(False Positives) 和假陰性(False Negatives)的數量。當提高敏感度時,特異度可能會降低,反之亦然。最終,篩檢標準的選擇會影響被錯誤識別的女性人數(包括假陽性與假陰性個案),將直接影響臨床決策之準確性。

 

在描述篩檢測試結果時,應 避免使用「陽性」和「陰性」這些術語。雖然這些詞彙在實驗室報告與教科書中普遍使用,但研究顯示,這些詞語可能導致病人誤解。在一般語境下,「陽性」通常被視為好結果,然而在篩檢測試中,「陽性」表示可能罹患疾病,與大眾的直覺理解相反。因此,建議改用「高風險(High Risk)」和「低風險(Low Risk)」來取代傳統的「陽性/陰性」來描述篩檢結果,以減少對病人的誤導,提高醫病溝通之清晰度。

參考文獻

[1] Luck AJ, Morgan JF, Reid F, O’Brien A, Brunton J, Price C, et al. The SCOFF questionnaire and clinical interview for eating disorders in general practice: comparative study. BMJ 2002;325:755-6.

[2] Sedgwick P. Screening tests: likelihood ratios. BMJ 2011;342:d3986.

[3] Sedgwick P. Receiver operating characteristic curves. BMJ 2013;346:f2493.

重點整理

  1. 陽性預測值(PPV): 衡量篩檢工具中陽性結果的準確性。
    計算方式: 11 / (11 + 34) = 24.4%
    解釋: 被 SCOFF 問卷標識為「陽性」的女性中,僅有 24.4% 最終確診為飲食失調。
  2. 敏感度(Sensitivity): 衡量篩檢工具正確識別出患有飲食失調者的能力。
    計算方式: 11 / (11 + 2) = 84.6%
    解釋: 在所有診斷為飲食失調的女性中,84.6% 被正確識別為「陽性」。
  3. 特異性(Specificity): 衡量篩檢工具正確識別未患有飲食失調者的能力。
    計算方式: 294 / (294 + 34) = 89.6%
    解釋: 在所有未診斷為飲食失調的女性中,89.6% 被正確識別為「陰性」。
  4. 陰性預測值(NPV): 衡量篩檢工具中陰性結果的準確性。
    計算方式: 294 / (294 + 2) = 99.3%
    解釋: 被 SCOFF 問卷標識為「陰性」的女性中,99.3% 最終確實未患有飲食失調。

結果解讀

本研究評估了 SCOFF 問卷在初級照護中篩檢飲食失調(Eating Disorders)之效能。結果顯示,SCOFF 問卷具有 高敏感度(84.6%)和高特異性(89.6%),能夠有效區分可能患有飲食失調的個案。然而,其陽性預測值(PPV)較低(24.4%),表示許多被篩檢為「高風險」的女性在臨床診斷面談中未被確診為飲食失調,存在較高的假陽性率。

 

相對地,SCOFF 問卷的 陰性預測值(NPV)極高(99.3%),顯示對於未患病女性的排除能力極強。亦即,當篩檢結果為「低風險」時,幾乎可以排除飲食失調的可能性,使其成為一個高效能之「初步排除工具」,幫助醫療資源更聚焦於真正需要臨床評估的病人。

 

此外,本研究探討了不同篩檢標準(cut-off score)對篩檢效能的影響,並透過 ROC曲線(Receiver Operating Characteristic Curve)來確定最佳的篩檢臨界點。結果顯示,降低 cut-off(降低陽性判定標準)可提升敏感度,但會增加假陽性數量;反之,提高 cut-off 則會降低敏感度但提高特異性。在實際應用時,臨床醫師需根據臨床需求權衡敏感度與特異度之間的取捨,以確保篩檢結果能夠最大程度地幫助診斷決策。

#匯東華 #醫學統計 #篩檢測試 #敏感度 #特異性 #陽性預測值 #陰性預測值 #SCOFF問卷 #飲食失調篩檢 #臨床研究 #數據分析 #生物統計 #公共衛生 #醫療篩檢 #診斷工具 #統計指標 #EvidenceBasedMedicine #ScreeningTests #MedicalStatistics #DataDrivenHealthcare

 數據串接與清洗

數據是礦藏,數據清洗是挖出鑽石的第一步,尤其是巨量知識。數據清洗或串接執行過程需要細心與專注,且有可能會消耗許多時間和精力,就由我們來替各位處理掉這個大麻煩。

全民健保研究資料庫、國外大型資料庫資料非常齊全,種類多,需要串接與清洗,進行正規化後才能更進一步進行資料探勘與統計分析。




Fig1.同一個Project資料散落在不同tables,無法使用




Fig2.整併與清理為可分析的table




Fig.3整理和分析後形成有意義的知識


概念與流程示意圖

 教育培訓

課程規劃核心為以「學習者」為中心進行「傳承」

以學習者為中心,結合陳秀敏博士十多年來的統計實務以及教學經驗,設計適合學員學習方式,開設課程,達到有效學習。

 

開設線上統計學院

https://medata.teaches.cc/

SPSS基礎統計實戰班:第一次分析SCI研究就上手(上、下)

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=MPz2wqN0v2M

課程介紹2:https://www.youtube.com/watch?v=nd5A5duxO5E

 

臨床研究思維-Open your mind

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=yTHdBnCdSnY
課程介紹2 : https://www.youtube.com/watch?v=kE9tXraICqk

臨床研究基本原則 : https://www.youtube.com/watch?v=1tTApx1hjn0

 計畫撰寫與統計諮詢





為了讓匯東華的顧客與學員有更好的合作和消費體驗,故匯東華特別依據營業項目開發周邊產品,提供使用、購買。目前已有針對公共衛生師的題庫以及模擬試題,未來將針對醫學研究領域發展產品。