"匯東華-認真作好每件事"
~統計,不再是阻力,而是助力~

 BMJ小小統計問題(39)                                                    前言:

  本期要釐清的是簡單線性迴歸和相關,二者目的常被搞混。同第35題簡單線性迴歸及38題相關範例與概念。把X、Y對調,所得相關係數相同,但迴歸方程式不同,不能一概而論。需要提醒的是,本例所使用的研究設計為橫斷性研究法,並無法明確因果關係。此外,一圖抵萬言。探討兩個連續變項間的關係時,先作散佈圖了解兩變數的關係性質是非常重要的。無論相關或迴歸,其假設之一都有兩變數須為線性關係。可由兩變數的散佈圖檢視線性擬和狀況。這系列文為第33~38題,主題如下:
#BMJ統計問題33:皮爾森相關係數
#BMJ統計問題34:相關分析 (Correlation)
#BMJ統計問題35:簡單線性迴歸 (Simple linear regression)
#BMJ統計問題36:何謂顯著性 (What is significance?)
#BMJ統計問題37:研究結果的概化和外推 (Generalisation and extrapolation of study results)
#BMJ統計問題38:複迴歸 (Multiple regression)
於此,線性相關與迴歸到到一段落。Hope u enjoy it.
  
接下來要開啟的為Logistic regression以及研究設計主題。Logistic regression為近年很紅的機器學習常用演算法之一,因ML常見目的為用特徵(因子)對個案作分類,因此,依變數多為類別。最近BMJ刊登一篇針對機器學習問題進行論述的文章,有機會來分享。
另外,也會穿插meta-analysis議題,這方面有不少需求。還有 longitudinal data的分析,最近要開始處理的分析專案為全國性長達10年的追蹤資料,也是有許多可以談的主題。進行真實世界的大數據研究,要翻翻前面介紹的JAMA文章:臨床大數據研究分析指引。透過目前趨勢可以發現來自次級大資料庫這類型的研究設計愈來愈被嚴格檢視。就是為了能釐清X跟Y之間的關係,才持續不斷地透過許多方法嘗試去偽存真。
  
  
題目:
  研究人員調查右心室大小和功能與不同程度肺動脈高壓的關係[1]。採用橫斷面研究設計。參與者包括190名被轉介到肺動脈高壓診所的患者[2]。
  右心室大小的測量包括右心室收縮末期面積(RVESA)的心臟超音波圖記錄。肺動脈收縮壓(PASP)表示肺動脈高壓的程度。肺動脈收縮壓對於右心室收縮末期面積的散布圖如下圖。採用線性迴歸分析方法檢定右心室大小與肺動脈高壓程度的關係。得到的擬合線性迴歸線如下:
PASP=2.7133(RVESA)+15.717.
右心室收縮末期面積(RVESA)與肺動脈收縮壓間有顯著相關存在 (r=0.74;p<.001)。
  
下列敘述何者正確?
a)迴歸線便於從右心室收縮末期面積預測肺動脈收縮壓
b)迴歸線意為肺動脈收縮壓與右心室收縮末期面積存在因果關係
c)相關量化肺動脈收縮壓與右心室收縮末期面積線性相關的強度
d) Pearson相關係數可用於量化肺動脈收縮壓被右心室收縮末期面積所描述的變異程度
  
答案:
a,c,d正確,b錯誤。
  
詳細說明:
  本研究目的為探討右心室收縮末期面積與肺動脈高壓嚴重程度的關係。散佈圖(圖)提示正線性相關——隨著右心室收縮末期面積的增加,肺動脈收縮壓也增加。研究人員使用簡單線性迴歸和相關來調查這種關係。簡單線性迴歸和相關的目的常被搞混。
  
  簡單線性迴歸以一數學方程式來量化兩變數間線性關係[1]。以本例而言,最能描述肺動脈收縮壓(PASP)與右室收縮末期面積(RVESA)間的線性關係方程式為:PASP=2.7133(RVESA)+15.717;PASP被稱為因變數,而RVESA被稱為獨立、預測或解釋變數。迴歸線的斜率為2.7133,是方程式中RVESA的係數;代表RVESA每增加一個單位(1 cm**2),PASP的平均變化量。若將RVESA設為0,可得到迴歸線的截距為15.717,即直線與Y軸相交時PASP的值。迴歸線便於預測右室收縮末期面積各值的肺動脈平均收縮壓(a正確)。
  
  迴歸線量化肺動脈收縮壓隨右室收縮末期面積增加的平均變化,被稱為肺動脈收縮壓對右心室收縮末期面積的迴歸。然而,計算迴歸線的方式,無法量化隨著肺動脈收縮壓的增加,右心室收縮末期面積的平均變化。但是,線性迴歸的目為併不一定是推論右心室收縮末期面積的改變引起肺動脈收縮壓的改變(b錯誤),而是這兩變數間關係的性質。
  
  相關[3,4]量化肺動脈收縮壓與右心室收縮末期面積間的線性關係(c正確)。具體來說,相關表示各點與迴歸線的距離。上面例子中使用Pearson相關係數。係數測量沒有單位,範圍從−1到0到+1。肺動脈收縮壓與右室收縮末期面積有顯著相關(r=0.74;P < 0.001)。表示肺動脈收縮壓值與右室收縮末期面積間存在很強的正相關,即隨著肺動脈收縮壓的增加,右室收縮末期面積也隨之增加。
  
  迴歸線擬合數據的好壞,可以通過計算統計量R**2來評估。該統計資料以Pearson相關係數(r)的平方計算,通常以百分比表示(d正確)。因此,對於本例而言,R2等於(0.74)**2×100%=54.8%,表示觀察到的肺動脈收縮壓變化可以用其與右心室收縮末期面積的關係來解釋的比例。沒有正式的統計檢定用來評估R**2,其為主觀判斷,用於評估迴歸線與資料之吻合程度。從圖中可見,擬合百分比並不高,54.8%的肺動脈收縮壓變化與右心室收縮末期面積有關。複線性迴歸分析涉及到方程中包含多個解釋變數,可以提高擬合度。
   
  
Reference:
[1] Sedgwick P. Simple linear regression. BMJ 2013;346:f2340.
[2] López-Candales A, Dohi K, Rajagopalan N, Edelman K, Gulyasy B, Bazaz R. Defining normal variables of right ventricular size and function in pulmonary hypertension: an echocardiographic study. Postgrad Med J 2008;84:40-5.
[3] Sedgwick P. Pearson’s correlation coefficient. BMJ 2012;345:e4483.
[4] Sedgwick P. Correlation. BMJ 2012;345:e5407.
Cite this as: BMJ 2013;346:f2686

 數據串接與清洗

數據是礦藏,數據清洗是挖出鑽石的第一步,尤其是巨量知識。數據清洗或串接執行過程需要細心與專注,且有可能會消耗許多時間和精力,就由我們來替各位處理掉這個大麻煩。

全民健保研究資料庫、國外大型資料庫資料非常齊全,種類多,需要串接與清洗,進行正規化後才能更進一步進行資料探勘與統計分析。




Fig1.同一個Project資料散落在不同tables,無法使用




Fig2.整併與清理為可分析的table




Fig.3整理和分析後形成有意義的知識


概念與流程示意圖

 教育培訓

課程規劃核心為以「學習者」為中心進行「傳承」

以學習者為中心,結合陳秀敏博士十多年來的統計實務以及教學經驗,設計適合學員學習方式,開設課程,達到有效學習。

 

開設線上統計學院

https://medata.teaches.cc/

SPSS基礎統計實戰班:第一次分析SCI研究就上手(上、下)

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=MPz2wqN0v2M

課程介紹2:https://www.youtube.com/watch?v=nd5A5duxO5E

 

臨床研究思維-Open your mind

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=yTHdBnCdSnY
課程介紹2 : https://www.youtube.com/watch?v=kE9tXraICqk

臨床研究基本原則 : https://www.youtube.com/watch?v=1tTApx1hjn0

 計畫撰寫與統計諮詢





為了讓匯東華的顧客與學員有更好的合作和消費體驗,故匯東華特別依據營業項目開發周邊產品,提供使用、購買。目前已有針對公共衛生師的題庫以及模擬試題,未來將針對醫學研究領域發展產品。