"匯東華-認真作好每件事"
~統計，不再是阻力，而是助力~

BMJ小小統計問題(95)：Cohen’s coefficient κ? (Cohen's kappa係數)

Cite this as: BMJ 2012;344:e1178

https://www.bmj.com/content/344/bmj.e1178

前言

本期介紹評量者間一致性之評估指標：Cohen's kappa係數。Cohen's kappa係數可以幫助我們了解評分者間的一致性是否超出隨機一致性的水準，提供有力的信度證據。其應用情境非常廣泛。

1.醫學研究：在醫學研究中，Cohen's kappa常用於衡量兩位或以上的醫生或護理師對同一組患者的病情評估一致性。例如，本例為兩位放射科醫師對於同一組X光片的判讀結果一致性情形。

2.機器學習：在監督式學習中，Cohen's kappa常用於衡量模型預測結果與人工標註數據的一致性。

3.社會科學研究：在社會科學研究中，Cohen's kappa可能用於衡量兩位或以上的研究者對於同一組問卷調查資料的分析結果是否一致。

3.內容分析：在媒體或通信研究中，Cohen's kappa可能用於衡量兩位或以上的研究者對於同一組文字、音訊或視訊資料的分析或解碼結果是否一致。

7月份公司課程招生中，精彩可期，介紹與報名連結請見留言區。

✅7/1(六)AI01-探索ChatGPT+ AI02-活用ChatGPT

“AI01課程將帶你了解ChatGPT的基本原理，並學習如何在日常工作或研究中運用它。AI02課程則是進階課程，將帶你深入瞭解如何在研究中活用ChatGPT，包括概念生成、文獻整理，到論文撰寫與審稿回覆等六大場景，及對學術研究的影響。”

✅7/8(六)「WS4-SPSS進階醫學統計：縱貫性研究設計與分析--重複測量分析法」熱烈招生中！

課程介紹與報名：https://reurl.cc/EoRxpg

問題

胸部x光片是診斷肺炎最佳方法，但在發展中國家往往欠缺。因此，世界衛生組織(WHO)在1990年制定了診斷僅為快速呼吸臨床症狀的非嚴重肺炎指引。然而，呼吸急促可能是肺炎以外的原因，因此僅根據呼吸急促被診斷為非嚴重肺炎的兒童可能接受不必要的抗生素治療。

根據WHO指引診斷出患有非嚴重肺炎之2至59個月大的巴基斯坦兒童從六家醫院門診部被邀請參加。總共有2000名兒童被納入研究，其中有1848張胸片可供評估。兩名放射科醫師在沒有臨床資訊的情況下使用標準化標準評估胸部x光片。主要結局是診斷肺炎(無或有)[1]。

兩位放射科醫師診斷一致的Cohen's kappa係數(κ)為0.46。少數兒童被診斷為細支氣管炎。研究人員得出結論，依據目前WHO定義診斷出的大多數非嚴重肺炎兒童的胸部X光片為正常。

下列敘述何者正確？

a) Cohen's kappa係數為計算放射科醫師對其診斷的總體一致性比例。

b)若放射科醫師間不存在一致性，κ將等於零。

c)放射科醫師在診斷上的一致性非常好。

答案

b正確，a、c錯誤

詳細說明

Cohen's kappa係數為衡量兩位放射科醫師根據胸部x光片做出的診斷是否一致的指標。該係數不是計算診斷總體一致的x線片比例(a錯誤)。Cohen's kappa係數衡量放射科醫生間的一致性標準，考慮隨機變化可能產生的一致性－預期一致性，即使放射科醫師顯示沒有一致性的診斷標準。其為通過比較放射科醫師間總體觀察到的和預期的一致比例所得。Cohen's kappa係數（κ）公式能在許多統計課本中找到。

放射科醫生根據1848名兒童之胸部x光片診斷結果進行交叉列表，如下表所示。診斷的總體一致比例為[(176+1252+52)/1848]×100=80.1%。然而，整體百分比一致可能會被誤認為一致性之衡量標準。為了說明這一點，放射科醫生B根據WHO指引對416名患有肺炎的兒童(占總數的22.5%)進行肺炎診斷。若兩位放射科醫師的診斷沒有一致性，我們預計放射科醫生A在這416名兒童中診斷出肺炎、無肺炎或細支氣管炎的比例與其總體比例相同，即放射科醫生A診斷出肺炎的比例為14%，細支氣管炎的比例為5%，無肺炎的比例為81%。因此，若放射科醫師間的診斷不存在一致性，則簡單隨機地，可以預期放射科醫生A在416名被放射科醫生b診斷為肺炎的兒童中診斷出14%的肺炎，即58.24名兒童。

此外，放射科醫生B診斷為無肺炎的1366名兒童中，放射科醫生A也可以隨機診斷0.81×1366=1106.46名無肺炎的兒童。最後，若放射科醫生間的診斷不一致，則在B放射科醫生診斷為毛細支氣管炎的66名兒童中，A放射科醫生也將在0.05×66=3.3名兒童中診斷出毛細支氣管炎。因此，即使兩名放射科醫生的診斷標準不一致，他們對58.24+1106.46+3.3=1168名兒童的診斷結果也應該一致。因此，隨機發生的總體預期一致百分比為(1168÷1848)×100=63.2%。

若放射科醫生間存在完美一致性，則Cohen's kappa係數(κ)等於1，若在某種意義上不存在一致，則通過隨機變化產生非預期一致性，則κ將等於0 (b正確)。理論上，Cohen’s κ可以為負值，如放射科醫生的診斷完全不一致，這種情況就會發生。

很難量化k應該多少才能構成良好的一致性。這部分取決於評估的背景和一致性的臨床重要性。有人認為，如果κ小於0.2，一致性較差，如果在0.21和0.4之間，一致性一般，如果在0.41和0.6之間，一致性中等，如果在0.61和0.8之間，一致性良好，如果在0.81和1之間，一致性非常好(c錯誤)。也能計算母群體參數Cohen’s κ的95%信賴區間來提供樣本估計的準確性。

Cohen 's κ最初是用來衡量兩個評分者對一個分類的一致程度的，在此分類中，不同類別間的分歧是相等的。若分類是在序位尺度上，比如“差”、“一般”、“好”和“優秀”，則κ係數將不能提供一致性的最佳衡量標準。可以使用加權的Cohen’s κ，為不一致但在序位尺度上更接近的觀測值提供更多權重，而對最不一致的觀測值給予更少權重。評分者間意見分歧的權重取決於對這種分歧的判斷有多嚴重。

Reference

Hazir T, Nisar YB, Qazi SA, Khan SF, Raza M, Zameer S, et al. Chest radiography in children aged 2-59 months diagnosed with non-severe pneumonia as defined by World Health Organization: descriptive multicentre study in Pakistan. BMJ 2006;333:629.

#BMJ #醫學統計 #Cohen's kappa