"匯東華-認真作好每件事"
~統計,不再是阻力,而是助力~

 BMJ小小統計問題(38)                                                    前言:

本期繼續提到線性迴歸,是前面簡單線性迴歸的延伸。自變數在2個以上。同樣須注意資料是否符合迴歸分析的假設。完整作法在創建迴歸模型前,需檢查資料是否符合假設,創建模型後,還需進行模型診斷,如共線性與unusual and influential data。一般而言,線性迴歸的自變數須為連續型變數,不過類別變數可以透過轉為虛擬變數的方式來處理,分析結果的解釋可以看本文對性別(男、女,女性為參考組)迴歸係數的說明。複迴歸分析所得迴歸係數的解釋與簡單線性迴歸有何不同?也是需要了解的。本文另有一個小重點,這種多個自變數產生的迴歸模型,正確用法是多變量(multivariate)分析或是多變項(multivariable)分析呢?二詞常被混用。嚴格來說,這二種的定義是不同的,正確用法一樣在內文中。Hope u enjoy it.
  
  
題目:
  研究人員調查睡眠呼吸中止和高血壓間的關係。共有2677名20-85歲的成年人被招募到多倫多的一家睡眠診所,他們被懷疑患有睡眠呼吸中止綜合症。睡眠呼吸中止的嚴重程度採用呼吸中止低通氣指數來衡量,該指數的定義是呼吸中止事件的總數加上低通氣事件的總數除以總睡眠時間。在標準條件,患者醒著和仰臥的情況下,每天早上起床前測量幾個讀數的平均值[1]。
  採用多元迴歸分析血壓與呼吸中止指數、年齡、性別和頸圍間的關係。對收縮壓和舒張壓分別進行迴歸分析(下表)。分析僅限於1865名未服用抗高血壓藥物的患者。
  
下列敘述何者正確?
a)假設收縮壓和舒張壓與呼吸中止-低通氣指數、年齡和頸圍均呈線性關係
b)可以得出,在未服用抗高血壓藥物的呼吸中止病人中,呼吸中止-低呼吸指數的影響與收縮壓和舒張壓獨立相關
c)分析的結果可以外推(extrapolated)到呼吸中止指數、年齡和頸圍的觀察範圍之外
d)分析的結果可以外推到所有因疑似睡眠呼吸中止而轉到睡眠診所的病人
  
答案:
a,b是正確的,c,d是錯誤的。
  
詳細說明:
  複迴歸分析的目的是利用呼吸暫停指數、年齡、性別和頸圍來預測血壓。病人是那些因疑似睡眠呼吸中止而轉介到睡眠診所的人。分析僅限於1865名沒服用高血壓藥物的患者。分別分析收縮壓和舒張壓。收縮壓和舒張壓是因變數,而呼吸中止指數、年齡、性別和頸圍是獨立的、預測變數或稱為解釋變數。
  
  複迴歸是簡單線性迴歸[2]的延伸。簡單線性迴歸研究一個連續型自變數和連續型因變數的線性關係。複迴歸,有時被稱為多變數分析(multivariable analysis),為同時調查兩個或多個解釋變數,如上例所示,解釋變數可以是連續變數和類別變數。對於上面的每一迴歸分析,血壓與解釋變數-呼吸中止低通氣指數、年齡和頸圍之間被假設為線性關係(a正確)。對於以性別作為解釋變數,分析是提供男性和女性血壓平均值的差異。
  
  以收縮壓和舒張壓為因變數進行複迴歸分析時,各解釋變數的斜率或梯度用大寫的β表示,即迴歸係數。係數的95%信賴區間(CI)為母群體斜率參數提供區間估計。P值用於檢定統計虛無假設(抽樣的母群體中,因變數和解釋變數間的線性關係之斜率為零)相對於對立假設(斜率不等於零)。研究人員沒有提供複迴歸分析的截距估計值,即當所有解釋變數都為零時收縮壓和舒張壓的值。因此,不可能根據解釋變數的值來預測血壓的測量值,只能描述關係的性質。
  
  迴歸係數有時被稱為偏迴歸係數。當解釋變數增加一個單位,而所有其他解釋變數通過控制或調整保持不變時,血壓平均會變化的量。因此,呼吸中止低通氣指數每增加一個單位,舒張壓平均增加0.07 mmHg,年齡每增加一歲,舒張壓增加0.21 mmHg,頸圍每增加1 cm,舒張壓增加0.47 mmHg。對舒張壓進行迴歸分析,性別係數(男性)為2.05。因此,男性的平均舒張壓比女性高2.05 mmHg。
  
  對於舒張壓,所有解釋變數的迴歸係數均與0有顯著差異,P值小於0.05(5%),95%信賴區間不包含0。所以,在迴歸分析中,每個解釋變數的影響被認為是獨立於所有其他變數的。對於收縮壓,呼吸暫停-低呼吸指數、年齡和頸圍的影響是獨立的,而性別則不是。因此,在未服用降壓藥物的呼吸中止患者中,呼吸中止-低呼吸指數對收縮壓和舒張壓有獨立相關的影響力(b正確)。
  
  複迴歸線的計算使用普通最小平方方法(LOS),通常稱為最小平方法,該分析有一系列假設[2],這些假設和簡單線性迴歸的假設相同。包括,收縮壓和舒張壓與每一個連續的解釋變數,即呼吸中止-低呼吸指數,年齡和頸圍呈線性關係(a正確)。其次,觀察結果資料是相互獨立的,即每個病人在每個複迴歸分析中的因變數和解釋變數只有一個觀察值。第三,假設各迴歸分析的殘差均為常態分佈。殘差為病人觀察血壓值和使用迴歸方程計算的預測值間的差值。另一個假設,對於因變數和解釋變數間的每一線性關係,在所有解釋變數的所有因變數值之變異具有一致性。若有任何假設有疑慮,除了假設觀察值間的獨立性外,為了滿足這些假設,可以考慮因變數的轉換,如對數轉換[3]。應使用轉換後的資料重新分析,包括檢查假設是否成立。
  
  複迴歸分析僅可用於預測呼吸中止指數、年齡和頸圍的觀察範圍內之血壓(c錯誤)。在解釋變數的觀察範圍外,不可能預測跟因變數關係的性質。此外,該結果不能外推到所有睡眠診所就診的患者,特別是有服用抗高血壓藥物的患者(d錯誤)。在這些患者中,不可能預測血壓和解釋變數間的關係——它沒有被調查過,可能與未服用抗高血壓藥物患者的情況有很大差異。研究結果的概化和外推可參考前面問題[4]。
  
Reference:
[1] Lavie P, Herer P, Hoffstein V. Obstructive sleep apnoea syndrome as a risk factor for hypertension: population study. BMJ 2000;320:479-82.
[2] Sedgwick P. Simple linear regression. BMJ 2013;346:f2340.
[3] Sedgwick P. Log transformation of data. BMJ 2012;345:e6727.
[4] Sedgwick P. Generalisation and extrapolation of study results. BMJ 2013;346:f3022.
Cite this as: BMJ 2013;347:f4373

 數據串接與清洗

數據是礦藏,數據清洗是挖出鑽石的第一步,尤其是巨量知識。數據清洗或串接執行過程需要細心與專注,且有可能會消耗許多時間和精力,就由我們來替各位處理掉這個大麻煩。

全民健保研究資料庫、國外大型資料庫資料非常齊全,種類多,需要串接與清洗,進行正規化後才能更進一步進行資料探勘與統計分析。




Fig1.同一個Project資料散落在不同tables,無法使用




Fig2.整併與清理為可分析的table




Fig.3整理和分析後形成有意義的知識


概念與流程示意圖

 教育培訓

課程規劃核心為以「學習者」為中心進行「傳承」

以學習者為中心,結合陳秀敏博士十多年來的統計實務以及教學經驗,設計適合學員學習方式,開設課程,達到有效學習。

 

開設線上統計學院

https://medata.teaches.cc/

SPSS基礎統計實戰班:第一次分析SCI研究就上手(上、下)

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=MPz2wqN0v2M

課程介紹2:https://www.youtube.com/watch?v=nd5A5duxO5E

 

臨床研究思維-Open your mind

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=yTHdBnCdSnY
課程介紹2 : https://www.youtube.com/watch?v=kE9tXraICqk

臨床研究基本原則 : https://www.youtube.com/watch?v=1tTApx1hjn0

 計畫撰寫與統計諮詢





為了讓匯東華的顧客與學員有更好的合作和消費體驗,故匯東華特別依據營業項目開發周邊產品,提供使用、購買。目前已有針對公共衛生師的題庫以及模擬試題,未來將針對醫學研究領域發展產品。