"匯東華-認真作好每件事"
~統計,不再是阻力,而是助力~

 BMJ小小統計問題(31)                                                    前言:

本篇是談變異數分析。講到幾個重要概念:(1)變異數分析的適用情形、(2)為何變異數分析稱為analysis of variance、(3)變異數分析的對立假設為何、(4)當虛無假設被拒絕而接受對立假設時,需要進一步做甚麼?還有(5)為何不使用多次t test進行兩兩組別的比較?很豐富的小品文,適合睡前或休憩時品嘗。若對其中原理有興趣,可至匯東華統計學院購買”生物統計學總複習”一課。
  
題目:
  研究人員調查英國目前使用減肥手術的趨勢,並且針對手術技術和影響術後結果的因素進行研究。設計一項世代研究,挑選自2000年4月到2008年3月間,所有NHS中所有初步診斷為肥胖,並接受了初級選擇性減肥手術(胃繞道術、胃束帶或袖狀胃切除術)的成年病人為對象。主要結局指標包括術後30天和1年的死亡率、28天內意外再住院和住院天數[1]。
  共實施胃束帶手術3649例,胃繞道手術3191例,袖狀胃切除術113例。比較手術時病人的特徵,以確定可能影響術後結果的差異。比較的特徵包括年齡。平均年齡(胃繞道術42.25歲(標準差9.50),胃束帶術42.44歲(9.79),袖狀胃切除術44.18歲(8.96);單因子變異數分析P=0.364)。
  研究人員報告,近年來英國減肥手術的數量有所增加。胃束帶術和胃繞道術是最普及的手術,袖狀胃切除術最早記錄於2006年。選擇胃束帶術的病人與選擇胃繞道術的病人相比,術後死亡率和再入院率較低,住院天數較短。
  
下列對單因子變異數分析的敘述何者正確?
a)是無母數統計檢驗
b)假設三個手術組的樣本均來自有共同年齡變異數的母群體
c)虛無假設涉及手術組間平均年齡的兩兩比較
  
答案:
b正確,a、c錯誤。
  
詳細說明:
  單因子變異數分析(one-way ANOVA或有時縮寫為ANOVA),是一種用於比較三組(含)以上獨立組別在連續性測量變數的平均值檢定法。胃繞道術、胃束帶術和袖狀胃切除術等減肥手術各為獨立一組,也就是說,一個病人只能接受其中一種手術。比較三組間的平均年齡,以確定各組是否相等;否則,年齡可能會影響減肥手術術後結果的比較。
  
  變異數分析是一個母數統計檢定法(a錯誤)。兩種類型的統計檢定——母數和無母數法已於前面問題提過[2]。
  
  母數分析法假設在組與組之間進行比較的變數在每個組被抽樣的母群體中有一個特定的分佈,通常是常態分佈。常態分佈[3],是一個理論分佈可由它的平均值和標準差來描述。無母數分析法對變數在母群體中的分佈沒有這樣的假設。當使用變異數分析比較三種外科手術的平均年齡時,假設年齡分佈在每組的抽樣母群體中是常態的。每個母群體均為所有NHS的被診斷為肥胖且接受過其中一種外科手術的成年病人所組成。在進行變異數分析時,還需進一步的前提假設——樣本來自年齡有共同變異數的母群體(b正確)。組間年齡變異數同質性可通過統計檢定來驗證,如統計軟體經常提供的Levene檢驗。
  
  變異數分析中的虛無假設是組間的整體性比較。在本例中,虛無假設是手術組(胃繞道術、胃束帶術和袖狀胃切除術)的平均年齡在獲得樣本的母群體中是相等的。虛無假設不涉及組間平均年齡的兩兩比較(c錯誤)。對立種假設是三組手術病人的平均年齡在各自的母群體中不相等。與其他兩組相比,是否某一特定手術組的平均年齡更年輕尚未明確——對立假設為雙尾。該統計檢定之P值為0.364。因此,沒有證據拒絕虛無假設而支持對立假設;亦即,三組人在抽取樣本的母群中具有共同的平均年齡。
  
  變異數分析之所以如此稱呼,是因為被分析變數的樣本成員之間的總變異可以分為兩個來源——組間變異和組內變異。在本例中,組間變異是指不同手術組病人間存在的年齡變異。組內變異是指各手術組內病人年齡之間存在的變異。組內變異有時被稱為殘差或無法解釋的變異。這兩個變異數的比值構成了單因子變異數分析的統計檢驗基礎。在三手術組的平均年齡沒有差異的虛無假設下,組間和組內變異應該相等。如果三組的平均年齡不同,則組間變異將大於組內變異,虛無假設將被拒絕,轉而支持對立假設。
  
  當僅用單因子變異數分析比較兩組時,統計檢定等於兩獨立組的t檢定,會得到相同的P值及結論。兩獨立組的t檢定已於之前說明 [4]。雖然兩獨立組的t檢定可用來進行手術組間兩兩比較,但這是不合理的,因為多重顯著性檢定會增加第一類誤差的機率。如果母群體中手術組間的年齡平均並無差異,但檢定結果卻拒絕虛無假設,而接受對立假設就會發生第一類誤差 [5]。由於本原因,變異數分析被用來進行組間的整體性的比較,因為這種方法不影響第一類誤差的機率。若變異數分析顯示組間的平均年齡有顯著差異,如此就可在組間進行兩兩比較,以確定哪些組的平均年齡有差異。許多方法可用於進行這些事後比較(在資料收集之前沒有指定分析),包括Scheffe’s test、Dunnett’s test 和Newman Keuls method。這些檢定法的應用將取決於各種情況,包括各組病人數量是否相等。這些檢定通常可由統計軟體提供,其設計都是為了確保將第一類誤差的機率保持在最低化。
  
Reference:
[1] Burns EM, Naseem H, Bottle A, Lazzarino AI, Aylin P, Darzi A, et al. Introduction of laparoscopic bariatric surgery in England: observational population cohort study. BMJ 2010;341:c4296.
[2] Sedgwick P. Parametric v non-parametric statistical tests. BMJ 2012;344:e1753.
[3] Sedgwick P. The Normal distribution. BMJ 2010;341:c6085.
[4] Sedgwick P. Independent samples t test. BMJ 2010;340:c2673.
[5] Sedgwick P. Multiple significance tests. BMJ 2010;340:c2963.
Cite this as: BMJ 2012;344:e2427

 數據串接與清洗

數據是礦藏,數據清洗是挖出鑽石的第一步,尤其是巨量知識。數據清洗或串接執行過程需要細心與專注,且有可能會消耗許多時間和精力,就由我們來替各位處理掉這個大麻煩。

全民健保研究資料庫、國外大型資料庫資料非常齊全,種類多,需要串接與清洗,進行正規化後才能更進一步進行資料探勘與統計分析。




Fig1.同一個Project資料散落在不同tables,無法使用




Fig2.整併與清理為可分析的table




Fig.3整理和分析後形成有意義的知識


概念與流程示意圖

 教育培訓

課程規劃核心為以「學習者」為中心進行「傳承」

以學習者為中心,結合陳秀敏博士十多年來的統計實務以及教學經驗,設計適合學員學習方式,開設課程,達到有效學習。

 

開設線上統計學院

https://medata.teaches.cc/

SPSS基礎統計實戰班:第一次分析SCI研究就上手(上、下)

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=MPz2wqN0v2M

課程介紹2:https://www.youtube.com/watch?v=nd5A5duxO5E

 

臨床研究思維-Open your mind

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=yTHdBnCdSnY
課程介紹2 : https://www.youtube.com/watch?v=kE9tXraICqk

臨床研究基本原則 : https://www.youtube.com/watch?v=1tTApx1hjn0

 計畫撰寫與統計諮詢





為了讓匯東華的顧客與學員有更好的合作和消費體驗,故匯東華特別依據營業項目開發周邊產品,提供使用、購買。目前已有針對公共衛生師的題庫以及模擬試題,未來將針對醫學研究領域發展產品。