"匯東華-認真作好每件事"
~統計,不再是阻力,而是助力~

 BMJ小小統計問題(35)                                                    前言:

本期介紹簡單線性迴歸,內容十分豐富。包括該迴歸線是如何找出來的?如何解釋截距與迴歸係數?使用迴歸分析的假設為何?如何判定是否符合假設?不符合時如何處理?還有,很重要的觀念是,與前面所介紹的相關(correlation)差異為何?Hope u enjoy it.
  
  
題目:
  研究人員調查右心室大小和功能與不同程度肺動脈高壓的關係。採用橫斷面研究設計。參與者包括190名被轉介到肺動脈高壓診所的患者[1]。
  右心室大小的測量包括右心室收縮末期面積(RVESA)的心臟超音波圖記錄。肺動脈收縮壓(PASP)表示肺動脈高壓的程度。肺動脈收縮壓相對於右心室收縮期末區域的散布圖如下圖。採用線性迴歸分析方法檢定右心室大小與肺動脈高壓程度的關係。得到的擬合線性迴歸線如下:
PASP=2.7133(RVESA)+15.717.
  
下列對線性迴歸的敘述何者為是?
a)根據右心室收縮期末面積的大小,可以預測肺動脈收縮壓
b)根據肺動脈收縮壓值可以預測右心室收縮期結束面積
c)假設右心室收縮期末所有值的肺動脈收縮壓變異數相等
d)該線可外推至右心室收縮期末觀測值範圍外
  
答案:
a和c正確,b和d錯誤。
  
詳細說明:
  研究人員調查右心室收縮末期面積與肺動脈高壓嚴重程度間的關係。散布圖顯示存在線性關係——隨著右心室收縮期末面積的增加,肺動脈收縮壓也增加。這種關聯是以簡單線性迴歸來探討的,通常被稱為線性迴歸,量化兩個變數之間任何線性關係之性質,可用一條數學方程來說明。
  
  肺動脈收縮壓被認為依賴於或至少與右心室收縮期末面積有關。右心室大小的變化與肺動脈收縮壓的變化有關。PASP=2.7133(RVESA)+15.717為最能描述兩變數間關聯的直線;其描述肺動脈收縮壓(PASP)隨著右心室收縮末期面積(RVESA)的變化而平均變化的程度。PASP為因變數,RVESA為獨立的、預測的或解釋變數。迴歸線的截距,即當直線與Y軸相交時,RVESA為0所計算得到的PASP值,為15.717。迴歸線的斜率或梯度為2.7133——方程式中RVESA的係數;表示RVESA每增加一個單位(1 cm2)的PASP的平均變化量。因此,RVESA的每一個值,都可計算出PASP的預測值。
  
  線性迴歸線使用普通最小平方法(ordinary least square method, OLS)計算,通常稱為最小平方法。此方法考慮通過散布圖上的點之所有可能直線。推導出每一條可能的直線的殘差(散布圖上每一點與直線間的垂直差距)。殘差即為患者肺動脈收縮壓的觀察值與右心室收縮期末面積測量值所算出的預測值間的差值。殘差的測量單位與肺動脈收縮壓相同。擬合所得的迴歸線為最佳擬合之一——亦即,在所有可能的直線上,有最小的殘差平方和。
  
  在本例中,線性迴歸線為右心室收縮期末預測肺動脈收縮壓的迴歸。當右心室收縮期結束面積給定值時,可用於預測肺動脈收縮壓(a正確)。然而,在給定的動脈收縮壓下預測右心室收縮期末區域是不可能的(b錯誤)。這是因為最小平方迴歸線是基於肺動脈收縮壓的殘差。為了根據給定的肺動脈收縮壓預測右心室收縮期末面積,就需要對右心室收縮期末面積進行肺動脈收縮壓的迴歸,將涉及到右心室收縮期末面積的殘差。
  
  使用線性迴歸分析須有一系列的假設。第一個假設是肺動脈收縮壓與右心室收縮期末面積間存在明顯的線性關係。從散布圖的檢查來看,是符合的。第二個假設是散布圖上的觀察結果是相互獨立的,即每個病人只有一次肺動脈收縮壓和右心室收縮期結束面積的觀察。第三,假設殘差為常態分布;此可通過觀察直方圖來驗證。此外,還假設右心室收縮期結束面積的所有值之肺動脈收縮壓分布的變異分布是相同的(c正確)。對散布圖的檢查顯示,此一假設已被違反,因為隨著右心室收縮期末面積的增加,所觀察到的肺動脈收縮壓測量值在擬合線性迴歸線附近的變異增加。可以考慮對肺動脈收縮壓進行轉換(transformation)。對數轉換[2]可使右心室收縮期末所有值的肺動脈收縮壓分布保固定的變異分布。
  
  線性迴歸線僅可預測樣本右心室收縮期末面積的觀察範圍內之肺動脈收縮壓(d錯誤)。如,當右心室收縮期末面積等於50 cm2時,不能預測肺動脈收縮壓;因該值超出獨立變數的觀測值範圍。肺動脈收縮壓與右心室收縮期末面積間的關係,若無觀察到的右心室收縮期末面積的值,是不能預測的。
  
  線性迴歸和相關的目的經常被混淆。在前面已經說明相關性[3-4]。在之後的統計問題中將進行兩者的對比。
  
  在本例中,應用簡單線性迴歸預測肺動脈收縮壓僅來自一個解釋變數——右心室收縮期末區域。複線性迴歸分析為簡單線性迴歸的自然延伸,包含多個解釋變數,將在以後的統計問題討論。
   
  
Reference:
[1] López-Candales A, Dohi K, Rajagopalan N, Edelman K, Gulyasy B, Bazaz R. Defining normal variables of right ventricular size and function in pulmonary hypertension: an echocardiographic study. Postgrad Med J 2008;84:40-5.
[2] Sedgwick P. Log transformation of data. BMJ 2012;345:e6727.
[3] Sedgwick P. Pearson’s correlation coefficient. BMJ 2012;345:e4483.
[4] Sedgwick P. Correlation. BMJ 2012;345:e5407.
Cite this as: BMJ 2013;346:f2340

 數據串接與清洗

數據是礦藏,數據清洗是挖出鑽石的第一步,尤其是巨量知識。數據清洗或串接執行過程需要細心與專注,且有可能會消耗許多時間和精力,就由我們來替各位處理掉這個大麻煩。

全民健保研究資料庫、國外大型資料庫資料非常齊全,種類多,需要串接與清洗,進行正規化後才能更進一步進行資料探勘與統計分析。




Fig1.同一個Project資料散落在不同tables,無法使用




Fig2.整併與清理為可分析的table




Fig.3整理和分析後形成有意義的知識


概念與流程示意圖

 教育培訓

課程規劃核心為以「學習者」為中心進行「傳承」

以學習者為中心,結合陳秀敏博士十多年來的統計實務以及教學經驗,設計適合學員學習方式,開設課程,達到有效學習。

 

開設線上統計學院

https://medata.teaches.cc/

SPSS基礎統計實戰班:第一次分析SCI研究就上手(上、下)

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=MPz2wqN0v2M

課程介紹2:https://www.youtube.com/watch?v=nd5A5duxO5E

 

臨床研究思維-Open your mind

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=yTHdBnCdSnY
課程介紹2 : https://www.youtube.com/watch?v=kE9tXraICqk

臨床研究基本原則 : https://www.youtube.com/watch?v=1tTApx1hjn0

 計畫撰寫與統計諮詢





為了讓匯東華的顧客與學員有更好的合作和消費體驗,故匯東華特別依據營業項目開發周邊產品,提供使用、購買。目前已有針對公共衛生師的題庫以及模擬試題,未來將針對醫學研究領域發展產品。