"匯東華-認真作好每件事"
~統計,不再是阻力,而是助力~

 BMJ小小統計問題(53)                                                      題目:

  研究人員比較懷孕早期停止吸菸女性和懷孕期間無吸菸或繼續吸菸女性的懷孕結果。進行一項前瞻性世代研究。研究個案為2504名健康的單胎未生育婦女。主要結果為自發性早產的嬰兒(出生體重<10訂製百分位)[1]。
  參與者在懷孕15周時根據吸菸狀況分組。在被招募的女性中,80% (n=1992)不吸菸,10% (n=261)已經戒菸,10% (n=251)正在吸菸。研究人員比較了三組吸菸婦女懷孕15周時的特徵,以確定可能影響主要結果的差異。吸菸組在懷孕15周時的平均年齡(不吸菸29.7歲(標準差為5.1),戒菸25.2歲(標準差為5.9),目前吸菸23.1歲(標準差為5.5);單因子變異數分析(one-way ANOVA,P<0.001)。Tukey對兩兩比較事後檢定顯示,每一對組別間存在顯著差異(P<0.05),即不吸菸者和現在吸菸者間,不吸菸和戒菸者,以及目前吸菸者和已戒菸者間。
  結果顯示,在懷孕15周前戒菸的女性,自然早產率與不吸菸女性沒有顯著差異。吸菸組的自然早產率明顯高於戒菸組。結論為,如果在懷孕早期停止吸菸,吸菸的嚴重不良影響可能是可逆的。
  
下列敘述何者正確?
a)單因子變異數分析的對立假設涉及不同吸菸狀態組別間平均年齡的兩兩比較
b) 15周平均胎齡單因子變異數分析I型誤差為0.05 (5%)
c) Tukey的事後成對兩兩比較目的是保持I型誤差率不超過0.05 (5%)
  
答案:
b,c正確,a錯誤。
  
  
詳細說明:
  採用one-way ANOVA對三組不同吸菸狀態族群平均年齡進行比較為。此為一母數分析,用於檢定多組(組別>2)平均數是否有顯著差異。在上述研究中,三個吸菸組別(不吸菸、戒菸和先在吸菸)是獨立的,亦即,一個女性只能屬於一個別。當只使用ANOVA比較兩組時,檢定等同於兩個獨立組別的t test [3];兩種統計檢定的P值相同,得出的結論相同。
  
  ANOVA採用傳統統計假設檢定[4],採用虛無假設和對立假設,比較三組不同抽菸狀態的平均年齡。虛無假設納入整體性比較:三組的平均年齡在獲得樣本的母群體是相等的。對立假設指出,三組的平均年齡在各自的母群體中不相等。對立假設納入整體比較,不包括任何關於三組平均年齡兩兩比較的陳述(a錯誤)。例如,不吸菸組是否比戒菸組或現在吸菸組更年輕或更年長,並無明確說明。儘管對立假設納入關於三個吸菸狀態組在各自母群體中的平均年齡的整體陳述,它仍然被視為是一雙尾之對立假設。檢定的P值小於0.001 (0.1%)。因此,有證據拒絕虛無假設而支持對立假設;亦即,由三組樣本的母群體中之平均年齡有顯著差異。
  
  兩組獨立樣本t檢定可於三組平均年齡間進行兩兩比較。然而,這是不明智的,因為有三種潛在的兩兩比較。因為多重顯著性檢定會導致型I誤差增加[5]。型I誤差可通過調整顯著水準(0.05)來控制,例如Bonferroni校正[6]。然而,當進行大量檢定時,Bonferroni校正傾保守,即調整後的顯著水準小於0.05(5%)。因此,儘管在母群體中存在差異,但虛無假設可能不會被拒絕。在上述研究中,ANOVA優於一系列兩兩比較和Bonferroni校正。ANOVA為對三組的平均年齡進行總體比較;因為僅有檢定一次,I型誤差發生的機率為0.05 (5%)(b正確)。
  
  ANOVA顯示三個吸菸狀態組的平均年齡有顯著差異。因此,有必要確定為什麼會出現統計學上的顯著性——特別是哪對吸菸狀態組的平均年齡顯著不同。兩獨立樣本t檢定可用於三個吸菸狀態組間的兩兩比較。然而,如上所述,這將增加型I誤差發生的機率大於0.05(5%)。也可以採用Bonferroni校正,但正如前面提到的,它往往過於保守。Tukey’s post – hoc test用於提供三組平均年齡間的一系列兩兩比較,同時保持型I誤差不超過0.05(5%)。Tukey test本質上是兩獨立樣本t test,只是它控制型I誤差和比Bonferroni校正更少的保守性。Tukey 's test顯示,在所有可能的兩兩比較中,吸菸狀態組間存在顯著差異(P<0.05),即不吸菸者和現在吸菸者間、不吸菸者和已戒菸者間、已戒菸者和現在吸菸者間均有顯著差異。
  
  Tukey’s test的使用在研究開始前並無明確的計畫,而是在研究結束後,即在對資料的初步分析後,顯示三個吸菸狀態組在整體達到顯著差異後。這種方法可以防止“資料挖掘”(data dredging)過程,也稱為“釣魚探測”(fishing expedition),即在研究開始前在未指定的資料集中進行比較,並因型I誤差而產生虛假的顯著結果。
  
  若ANOVA分析顯示組間有顯著差異,即會提出許多統計方法進行事後比較。包括Scheffe’s test、Gabriel’s test和Dunnett’s C test。這些test的選擇將視情況而定,包括各組的參與者人數是否相等。這些檢定和程式是由統計軟體例行提供的,其目的為儘量降低在事後檢定時發生型I誤差的機率。
  
Reference:
[1] McCowan LME, Dekker GA, Chan E, Stewart A, Chappell LC, Hunter M, et al; on behalf of the SCOPE consortium. Spontaneous preterm birth and small for gestational age infants in women who stop smoking early in pregnancy: prospective cohort study. BMJ 2009;338:b108.
[2] Sedgwick P. One way analysis of variance. BMJ 2012;344:e2427.
[3] Sedgwick P. Independent samples t test. BMJ 2010;340:c2673.
[4] Sedgwick P. Understanding statistical hypothesis testing. BMJ 2014;348:g3557.
[5] Sedgwick P. Pitfalls of statistical hypothesis testing: multiple testing. BMJ 2014;349:g5310.
[6] Sedgwick P. Multiple hypothesis testing and Bonferroni’s correction. BMJ 2014;349:g6284.
Cite this as: BMJ 2014;349:g7067

 數據串接與清洗

數據是礦藏,數據清洗是挖出鑽石的第一步,尤其是巨量知識。數據清洗或串接執行過程需要細心與專注,且有可能會消耗許多時間和精力,就由我們來替各位處理掉這個大麻煩。

全民健保研究資料庫、國外大型資料庫資料非常齊全,種類多,需要串接與清洗,進行正規化後才能更進一步進行資料探勘與統計分析。




Fig1.同一個Project資料散落在不同tables,無法使用




Fig2.整併與清理為可分析的table




Fig.3整理和分析後形成有意義的知識


概念與流程示意圖

 教育培訓

課程規劃核心為以「學習者」為中心進行「傳承」

以學習者為中心,結合陳秀敏博士十多年來的統計實務以及教學經驗,設計適合學員學習方式,開設課程,達到有效學習。

 

開設線上統計學院

https://medata.teaches.cc/

SPSS基礎統計實戰班:第一次分析SCI研究就上手(上、下)

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=MPz2wqN0v2M

課程介紹2:https://www.youtube.com/watch?v=nd5A5duxO5E

 

臨床研究思維-Open your mind

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=yTHdBnCdSnY
課程介紹2 : https://www.youtube.com/watch?v=kE9tXraICqk

臨床研究基本原則 : https://www.youtube.com/watch?v=1tTApx1hjn0

 計畫撰寫與統計諮詢





為了讓匯東華的顧客與學員有更好的合作和消費體驗,故匯東華特別依據營業項目開發周邊產品,提供使用、購買。目前已有針對公共衛生師的題庫以及模擬試題,未來將針對醫學研究領域發展產品。