"匯東華-認真作好每件事"
~統計,不再是阻力,而是助力~

 BMJ小小統計問題(33)                                                    前言:

本期介紹很常用的皮爾森相關係數。不要看它常用,什麼正相關、負相關就沒了。這期內容也是很豐富的。包括線性關係強度到底為何意?有相關就能論因果?相關係數大,兩變項就是有顯著的線性關係?相關就是強?還有,更多。建議看完喔。
  
題目:
  根據1983年的《精神健康法案》,研究人員調查每年因精神疾病而非自願入院(拘留)的人數與NHS每年的精神病床位數量之間的關係。採用回顧性分析1996年至2006年的住院病例統計資料。獲取每年NHS可用的精神疾病床位數以及在NHS醫院和私人機構中非自願收治的精神病人總數。
  據報導,NHS的精神疾病床位數量逐年下降,從1996年到2006年,這一數字下降了29%。根據1983年的《精神衛生法》,每年NHS的精神病床位數量與非自願入院的NHS和私人機構的精神病患者總數之間存在顯著相關性(Pearson相關係數r=−0.94 (P<0.001))。
  
下列何項敘述是正確的?
a)Pearson相關係數提供了兩個變數之間線性關係強度的衡量
b)每年NHS的精神疾病床位數量與每年因精神疾病非自願入院的數量呈負相關
c)Pearson相關係數的顯著性檢驗是無母數的
d)可以推斷,NHS精神科床位數量的減少是由於每年因精神疾病而非自願入院的人數增加造成的
  
答案:
a、b正確,c、d錯誤。
  
詳細說明:
  皮爾森相關係數衡量兩個變數之間的線性關係強度(a正確)——在本例中,為1996年至2006年期間,英國每年根據《1983年精神健康法》,NHS下的精神疾病床位數量與NHS和私人機構中非自願入院人數間的關係。
  
  每年都有成對的兩項觀察值:NHS的精神疾病床位數量和因精神疾病非自願入院的人數。每年NHS的精神疾病床位數量和非自願入院人數間的關係可用散佈圖表示(圖1)。通過這些點繪製一條直線,以提供現存最適合之線性關聯。相關性是一種度量點與直線緊密程度的方法,即線性關係的強度。 
  
  皮爾森相關係數,也被稱為積差相關係數,在樣本中用r表示,而在樣本被抽取的母群體中用ρ表示。相關係數並無測量單位,數值範圍為−1到0到+1。若相關係數為正,表示有正相關存在,亦即較多的NHS精神科床位與較多的非自願精神疾病住院人數有關。如果相關係數為負,即存在負相關,亦即較少的NHS精神科病床數量與較多的非自願入院人數有關,反之亦然。
  
  若散佈圖上的所有點都在一條直線上,則存在完全相關(相關係數為1或−1)。相關係數為零表示此兩變數間沒有線性關聯——也就是說,它們不相關。圖2顯示相關情況示意圖。
  
  NHS精神疾病床數與NHS和私人機構收治的非自願精神疾病患者人數間存在負相關(r=−0.94)(b正確)。這些點似乎位於直線附近,表明存在很強的線性關聯,相關係數接近−1。隨著病床數連續幾年減少,非自願入院的人數每年都在增加。
  
  可以進行顯著性檢定來得出相關係數的P值[2]。虛無假設是指樣本來自的母群體相關係數為零。對立假設則是不等於零;對立假設是雙尾的,因此相關係數可能<0或>0。顯著性檢定是母數分析法(c錯誤),要求兩變數中至少有一個呈常態分佈。母數檢定已於之前說過[3]。相關係數(r=−0.94)的顯著性檢定P值<0.001,因此,每年NHS精神疾病床位數量與NHS和私人機構非自願收治的精神疾病患者數量間存在顯著的負相關。
  
  顯著相關並不意味著因果關係(d錯誤)。換句話說,不能推斷每年NHS的精神疾病床位數量減少是由於NHS和私人機構的非自願入院人數增加所造成。事實上,認為NHS精神科床位數量的減少是由於非自願入院人數的增加造成的似乎不合邏輯。這項研究目的是調查根據1983年英國精神健康法案非自願入院的人數,以及NHS的精神疾病床位數量是否足以滿足這些醫療保健需求。
  
  在本例中,相關係數來自於成對測量值:從1996年到2006年每年的NHS精神疾病床位數量和非自願入院的精神病患者數量。每一項測量都代表全英國的數字。從樣本中的每個人獲得成對的測量值後,相關係數可以被用來描述兩變數間的線性關係。然而,只有當每對測量值是獨立的,才適合計算相關係數。在本例中,每對測量值間是否存在獨立性並不確定,因為病人可能在一年中被強制入院超過一次,或者可能住院超過一年。
  
  r的統計顯著性與樣本量直接相關。小樣本要求相關係數有一個更大的值——更接近−1或1——才能達到顯著的線性關係。相反地,在大樣本中,較小的r值(接近於0)也可能是顯著的,儘管線性關聯很弱。此突顯相關係數一個常見的誤解,即顯著的相關係數意味著兩個變數之間存在很強的線性關係。當研究線性關係的強度時,檢視顯著性檢定的結果及相關係數的值與兩變數的散佈圖是很重要的。
  
  斯皮爾曼等級相關係數(Spearman’s rank correlation coefficient)是與皮爾森相關係數對應的無母數分析法。若兩個變數是數值型,且至少有一個呈常態分佈,則計算皮爾森相關係數。若兩變數都不呈常態分佈,或其中一個變數是離散型(如拔牙的數量),或者序位測量層次(如焦慮評分),則會計算Spearman等級相關係數。兩者有相近的性質。
    
Reference:
[1] Keown P, Mercer G, Scott J. Retrospective analysis of hospital episode statistics, involuntary admissions under the Mental Health Act 1983, and number of psychiatric beds in England 1996-2006. BMJ 2008;337:a1837.
[2] Sedgwick P. Statistical hypothesis testing. BMJ 2010;340:c2059.
[3] Sedgwick P. Parametric v non-parametric statistical tests. BMJ 2012;344:e1753.
Cite this as: BMJ 2012;345:e4483

 數據串接與清洗

數據是礦藏,數據清洗是挖出鑽石的第一步,尤其是巨量知識。數據清洗或串接執行過程需要細心與專注,且有可能會消耗許多時間和精力,就由我們來替各位處理掉這個大麻煩。

全民健保研究資料庫、國外大型資料庫資料非常齊全,種類多,需要串接與清洗,進行正規化後才能更進一步進行資料探勘與統計分析。




Fig1.同一個Project資料散落在不同tables,無法使用




Fig2.整併與清理為可分析的table




Fig.3整理和分析後形成有意義的知識


概念與流程示意圖

 教育培訓

課程規劃核心為以「學習者」為中心進行「傳承」

以學習者為中心,結合陳秀敏博士十多年來的統計實務以及教學經驗,設計適合學員學習方式,開設課程,達到有效學習。

 

開設線上統計學院

https://medata.teaches.cc/

SPSS基礎統計實戰班:第一次分析SCI研究就上手(上、下)

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=MPz2wqN0v2M

課程介紹2:https://www.youtube.com/watch?v=nd5A5duxO5E

 

臨床研究思維-Open your mind

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=yTHdBnCdSnY
課程介紹2 : https://www.youtube.com/watch?v=kE9tXraICqk

臨床研究基本原則 : https://www.youtube.com/watch?v=1tTApx1hjn0

 計畫撰寫與統計諮詢





為了讓匯東華的顧客與學員有更好的合作和消費體驗,故匯東華特別依據營業項目開發周邊產品,提供使用、購買。目前已有針對公共衛生師的題庫以及模擬試題,未來將針對醫學研究領域發展產品。