匯東華統計顧問有限公司
"匯東華-認真作好每件事"
~統計,不再是阻力,而是助力~
BMJ小小統計問題(145):Spearman’s rank correlation coefficient (Spearman's 等級相關係數)
Cite this as: BMJ 2014;349:g7327
https://www.bmj.com/content/349/bmj.g7327前言
本文主題為Spearman’s等級相關,之前幾個統計問題也有說明它與Pearson’s相關之異同,以及,應用情境。本文重點如下:(1)單調相關性:Spearman等級相關係數衡量的是兩個變數間的單調相關性,即一個變數隨著另一個變數的增加或減少而相應地增加或減少,但變化速率可以不同。這種相關性是非線性的,可以是遞增或遞減。(2)無母數檢定:Spearman等級相關係數的顯著性檢驗是一種無母數檢驗,亦即,它不依賴於變數的分佈形態,不需要假設變數是常態分佈。(3)相關性與因果關係的區分:Spearman等級相關係數可以揭示變數間的相關性,但並不表明因果關係。即使兩個變數之間存在顯著的相關,也不能自動推論一個變數的變化導致另一個變數的變化,需要進一步的因果關係研究來確定。
隨著AIGC的興起,並且這些工具越來越強的同時,學理的基礎更為重要。往後學習的重點之一,在於是否能夠具備判斷這些工具產出內容的正確性,而此能力,有賴於平時對專業知識的累積與內化程度。當然,除了不斷學習之外,更要能夠將所學應用於實際場景解決問題。學以致用,用以致學,形成學習雙向迴路,在AI時代來臨的現代,更為重要。
相關醫學統計概念課程可見於【eB02-小白的醫學統計必修課(上)】,講解醫學統計學核心概念進行系統性理解,專治統計不全症;以及,最實用的醫學實戰統計課程【eB02-小白的醫學統計必修課(下)】。另於官網最新消息公告公司直播課程,包括國外公開醫學資料庫、文獻管理利器、統合分析文獻解析等等;統計或研究課程/工作坊請至官網課程報名一覽,或是訂閱公司Google行事曆。
有任何問題可至本公司官方line:@medatatw洽詢。感謝眾多朋友兩年多來的一路陪伴。匯東華三周年生日即將到來,越發感謝。Hope u enjoy it
路徑:匯東華官網/學習專區/BMJ小小統計問題列表
本期相關主題:
#第1題:評估兩個連續性變項之線性相關程度
#第33題:皮爾森相關係數 (Pearson’s correlation coefficient)
#第34題:相關分析 (Correlation)
#第64題:Parametric v non-parametric statistical tests (母數 v 無母數統計檢定)
✨線上課程提供【流行病學】與【生物統計學】系列https://medata.teaches.cc/
✨匯東華會員制詳情:https://reurl.cc/NyjNMx
課程介紹與報名資訊:https://reurl.cc/EoRxpg
線上課程學院:https://medata.teaches.cc/
-----
問題:
研究人員調查澳大利亞自殺率與抗憂鬱藥處方間的關係[1]。研究人員對 1991 年至 2000 年間的國家資料庫進行回顧性分析。按性別和 10 個年齡組(15-24 歲、25-34 歲、35-44 歲、45-54 歲、55-64 歲、65-74 歲、75-84 歲和≥85 歲)記錄自殺率和抗憂鬱藥處方率。自殺率以 1986-90 年和 1996-2000 年這五年間每 100 000 人中的自殺人數表示。得出從 1986-90 年到 1996-2000 年自殺率的變化情況。抗憂鬱藥物處方量以每千人每天的估計定義日劑量(DDD/1000/天)表示。定義的日劑量為基於假定的成人主要適應症用藥的日平均劑量。得出 1991 年至 2000 年抗憂鬱藥物處方量的變化。
研究人員指出,從 1986 年至 1990 年到 1996 年至 2000 年,老年男性和老年女性的自殺率有所下降,而年輕男性和年輕女性的自殺率有所上升。從 1991 年到 2000 年,所有年齡組的男性和女性的抗憂鬱藥物處方率都有所上升。自殺率的變化與各年齡組抗憂鬱藥物處方的變化進行對比,並對男性和女性分別進行調查(圖 1)。Spearman's等級相關係數用於衡量自殺率變化與抗憂鬱藥物處方之間的關係。男性和女性的自殺率呈負相關,自殺率下降幅度最大的年齡組與抗憂鬱藥物處方增加幅度最大的年齡組相關。此關係在女性中顯著(rs=-0.74;P=0.04),但在男性中不顯著(rs=-0.62;P=0.10)。
source:BMJ 2014;349:g7327
研究人員認為,抗憂鬱藥物處方的增加可能是憂鬱症整體管理改善的一個替代標誌。若是如此,醫生增加開具抗憂鬱藥處方可能會對人們的心理健康產生可量化的益處。
下列敘述何者正確?
a) Spearman’s等級相關係數提供自殺率變化與各年齡組抗憂鬱藥物處方之間單調相關(montonic association)強度的測量值
b) Spearman’s等級相關係數的顯著性檢驗是母數檢定
c) 可以得出結論,對於女性來說,各年齡組自殺率的下降是由抗憂鬱藥處方的增加造成的。
答案
a 正確,而 b 和 c 錯誤。
詳細說明:
各年齡組自殺率的變化與抗憂鬱藥物處方間的關係使用散點圖表示,男性和女性分別繪製(圖 1)。研究人員通過每個散點圖上的點畫出一條直線,顯示最合適的線性關聯。
Spearman’s等級相關係數衡量各年齡組自殺率變化與抗憂鬱藥物處方間單調相關(montonic association)的強度和方向(a 正確)。單調相關為指隨著一個變數值的增加,另一個變數值也隨之增加,或者隨著一個變數值的增加,另一個變數值也隨之減少。在整個測量值範圍內,變數會增加或減少,但增加或減少的速度不一定相同。指數曲線即為單調相關的一個例子。若相關是線性的,則變數會在整個測量值範圍內以相同的速率增減。
由於Spearman’s等級相關係數測量的是單調相關的強度和方向,因此研究人員在每個散點圖上畫一條直線來表示線性相關可能是不合適的。Pearson’s相關係數用於測量兩個變數間線性關係的強度與方向[2]。尤其是,Pearson’s相關係數可以測量散點圖中各點與線性關係的緊密程度。簡單線性回歸[3, 4] 將提供通過散點圖中各點所畫直線的梯度,因此也是進行線性關係的度量。
Spearman’s等級相關係數與所有相關係數相同,均無單位,數值範圍從-1 到 0 到+1。在本例中,男性和女性之相關係數均為負數,表示在 1991 年至 2000 年期間,自殺率的下降與各年齡組抗憂鬱藥物處方的增加有關。若存在正相關,則自殺率的上升將與抗憂鬱藥物處方的增加有關。相關係數的大小表示相關的強度和方向;一般而言,其為衡量各點與單調相關的緊密程度。相關係數越接近-1 或+1,表示相關性越強,+1 或-1 表示完全單調相關。相關係數為 0 則表示兩個變數之間沒有關係。
傳統的統計假設檢定包括虛無假設和對立假設[5]。本例假設檢定結果得出 P 值,以檢驗Spearman’s等級相關係數的顯著性。分別對不同性別進行假設檢定。虛無假設是指抽取樣本的母群體相關係數為零。對立假設指出,抽取樣本的母群體相關係數不為零;對立假設是雙尾的,因此母群體相關係數可能<0或>0。女性自殺率的變化與抗憂鬱藥物處方間存在顯著負相關(P=0.04),但男性的負相關不顯著(P=0.10)。
Spearman’s等級相關係數的顯著性檢定為無母數檢定(b 錯誤)。而上述Pearson’s相關係數的檢定則為母數檢定。母數與無母數檢定已於之前介紹過 [6] [#BMJ統計問題64題]。當兩變數均以連續量表測量時,可以使用Pearson’s相關係數,在假設它們間存在線性關係時,且至少有一個變數是常態分佈。在本例中,Spearman’s等級相關係數的顯著性檢定沒有對任何一變數(自殺率或抗憂鬱藥物處方的變化)的分佈作出假設。換句話說,若無法符合Pearson’s相關係數的假設,即不能假設線性關係,或兩個變數均非常態分佈,或者至少有一個變數是離散的(例如,拔牙的數量),或是按順序測量的(例如,憂鬱評分),則可以使用Spearman’s等級相關係數。Spearman’s等級相關係數的母群體參數用 ρs 表示,Pearson’s相關係數的母群體參數用 ρ 表示,而樣本估計值分別用 rs 和 r 表示。
各年齡組自殺率的變化與抗憂鬱藥物處方間的相關性對女性而言是顯著的。但是,不能推斷出抗憂鬱藥物處方的增加會導致女性自殺率的下降(c 錯誤)。相關性研究的是兩變數間的聯繫;它不允許推論因果關係的結論,即一個變數的變化直接導致另一個變數的變化。此外,上述研究採用生態學研究設計 [7]。由於分析單位是年齡組,即資料是針對每個年齡組而非每個成年人進行匯總和分析的,因此研究結果容易出現生態學謬誤(ecological fallacy)。生態謬誤是指在群體層面分析所收集的資料,並假定其結果適用於個體層面的關聯。在上述研究中,各年齡組自殺率的變化與抗憂鬱藥物處方間呈負相關。雖然抗憂鬱藥物處方增加最多的年齡組自殺率下降幅度最大,但不能假設任何年齡組的成年人服用抗憂鬱藥物越多,自殺的可能性就越小。
無論是母數檢定或是無母數檢定,相關係數顯著性檢定的 P 值都與樣本數直接相關。一般而言,若樣本數較小,相關係數必須較大(接近-1 或 1),相關性才具有統計學意義。反之,若樣本數大,即使相關係數值很小且接近於零,其關聯也可能達到統計意義。一個常見的誤區為,只有當相關係數在統計上具有顯著性時,兩變數間才存在強相關。然而,在研究相關強度時,必須同時審查顯著性檢定結果和相關係數的值,並檢查兩變數的散點圖。在本研究中,自殺率的變化與抗憂鬱藥物處方間的相關係數很強,女性(rs = -0.74)與男性(rs=-0.62)的相關係數相似。不過,女性的相關係數具有統計學意義(P=0.04),而男性的相關係數不具有統計學意義(P=0.10)。對兩性別的分析均基於小樣本,即八個年齡組,因此,需要相對較大的相關係數才能達到統計學意義。亦即,若僅根據相關係數的統計顯著性來推斷兩個變數間的相關強度可能會產生誤導。
Reference:
[1] Hall WD, Mant A, Mitchell PB, Rendle VA, Hickie IB, McManus P. Association between antidepressant prescribing and suicide in Australia, 1991-2000: trend analysis. BMJ 2003;326:1008. 10.1136/bmj.326.7397.1008 12742921
[2] Sedgwick P. Pearson’s correlation coefficient. BMJ 2012;345:e448310.1136/bmj.e4483. 3
[4] Sedgwick P. Simple linear regression. BMJ 2013;346:f234010.1136/bmj.f2340. 5 Sedgwick P. Understanding statistical hypothesis testing. BMJ 2014;348:g3557. 10.1136/bmj.g3557 24879817
[6] Sedgwick P. Parametric v non-parametric statistical tests. BMJ 2012;344:e175310.1136/bmj.e1753.
[7] Sedgwick P. Ecological studies: advantages and disadvantages. BMJ 2014;348:g2979. 10.1136/bmj.g2979 25134102
#匯東華 #BMJ統計問題 #醫學統計 #Spearman’s等級相關 #Pearson’s積差相關 # #樣本數 #散佈圖
數據是礦藏,數據清洗是挖出鑽石的第一步,尤其是巨量知識。數據清洗或串接執行過程需要細心與專注,且有可能會消耗許多時間和精力,就由我們來替各位處理掉這個大麻煩。
全民健保研究資料庫、國外大型資料庫資料非常齊全,種類多,需要串接與清洗,進行正規化後才能更進一步進行資料探勘與統計分析。
Fig1.同一個Project資料散落在不同tables,無法使用
Fig2.整併與清理為可分析的table
Fig.3整理和分析後形成有意義的知識
概念與流程示意圖
課程規劃核心為以「學習者」為中心進行「傳承」
以學習者為中心,結合陳秀敏博士十多年來的統計實務以及教學經驗,設計適合學員學習方式,開設課程,達到有效學習。
開設線上統計學院
SPSS基礎統計實戰班:第一次分析SCI研究就上手(上、下)
課程網址:https://medata.teaches.cc/
課程介紹1:https://www.youtube.com/watch?v=MPz2wqN0v2M
課程介紹2:https://www.youtube.com/watch?v=nd5A5duxO5E
臨床研究思維-Open your mind
課程網址:https://medata.teaches.cc/
課程介紹1:https://www.youtube.com/watch?v=yTHdBnCdSnY
課程介紹2 : https://www.youtube.com/watch?v=kE9tXraICqk
為了讓匯東華的顧客與學員有更好的合作和消費體驗,故匯東華特別依據營業項目開發周邊產品,提供使用、購買。目前已有針對公共衛生師的題庫以及模擬試題,未來將針對醫學研究領域發展產品。