匯東華統計顧問有限公司

"匯東華-認真作好每件事"
~統計，不再是阻力，而是助力~

BMJ小小統計問題(27) 前言：

1/30接到預約系統通知於2/2(三)，初二。統計諮詢。有點意外，也太認真！原來很多人是趁著年假在充電，在衝刺研究。一問之下，要趕在2/10研討會截稿日前投出。案例是同一個癌症病人的結局指標測量5個時間點的縱貫性研究。第1次住院治療前、第2~第4次住院進行化療時再測結局指標。這類型的研究比較耳熟能詳的稱為重複量數(repeated measures or serial data)研究設計，常見的是介入前後測，分析方法如配對樣本t test。當然還有多個時間點測量之設計，像本案。該案例建議使用GEE (generalized estimating equations, GEE)進行分析，主要考慮資料間非獨立性(non-independence of data)問題、測量間距不同和存在遺漏值。以及能夠進行干擾因子的控制。本篇為BMJ統計問題的Analysis of longitudinal studies，同一個案測量4時間點，使用獨立樣本t檢定進行分析。是否能得到介入是有效的結論？另外，何謂”資料的非獨立性”與在此情況下採用傳統的t test會出現什麼問題，於本文也有進行說明，就讓我們繼續看下去。

題目：

　　一項隨機對照試驗調查妊娠期低升糖指數飲食是否能降低巨嬰(比胎齡大)的發生率。研究對象是高危險群——在第二次懷孕期間沒有糖尿病的女性，且之前生過一個體重超過4000克的嬰兒。介入措施包括從懷孕早期開始的低升糖指數飲食；對照組沒有進行飲食介入。主要結局指標為出生體重，次要結局指標為妊娠期體重對比基線增加的情形(在24、28、34和40周測量)。採用獨立樣本t檢定[1]對各胎齡之不同治療組間進行比較。

　　研究人員報告指出，妊娠期低升糖指數飲食並不能降低巨嬰發生率風險。然而，它確實對妊娠期體重增加有顯著影響。在每一個測量時間點，除24周外，介入組的體重增加明顯少於對照組。

下列敘述何者正確？ (複選)

a)每個婦女妊娠期體重增加的測量是相互獨立的

b)在測試所有四個時間點的治療組間妊娠體重增加的差異時，第一類誤差(type I error) 發生機率為5%

c)可以得出結論，在整個懷孕期間，不同治療組間的妊娠期體重增加情況有顯著差異

答案：

以上皆非。

詳細說明：

　　該試驗主要目的是研究妊娠期低升糖指數飲食與對照組相比對生產巨嬰發生率的影響。參與者是具有生產巨嬰高風險的女性。次要結果是24、28、34和40周妊娠體重增加的差異。因為女性在懷孕期間被追蹤，試驗為縱貫性設計，體重增加的測量被稱為重複測量(repeated measures)或時序資料(serial data)。使用獨立樣本t檢定在每個時間點比較不同組結果，此方法的介紹與存在的問題已於之前說明 [2]。

　　妊娠期體重增加的系列觀察結果並非相互獨立，而是相互關聯的(a錯誤)。如果兩個測量是相互獨立的，知道其中一個的值並不能提供關於另一個的資訊。對於妊娠期的體重增加來說是不正確的。女性的體重增加——比如，24周——與她28周時的體重增加有關；也就是說，她24周時的體重增加可以預測她28周時的體重增加情形。

　　採用獨立樣本t檢定比較各組24、28、34和40周的妊娠體重增加情況。每次測試的目的是根據樣本對母群體進行推斷。然而，如果樣本不能代表母群體，則在假設檢驗時就會出現錯誤。兩種類型(type I and type II)的誤差是可能出現的[3]。如果虛無假設被錯誤地拒絕而支持對立假設，即在試驗中，試驗組之間妊娠期體重增加有差異，但在母群體中沒有差異，就會出現第一類誤差。如果在本應拒絕虛無假設的情況下，虛無假設卻沒被拒絕，就會出現第二類誤差——換句話說，在母群體中，不同治療方法在妊娠期體重增加存在差異，但在試驗中卻沒看到。第一類和第二類誤差的發生導因於抽樣誤差——因為只研究了母群體的一部分。

　　單個假設檢定發生第一類誤差的機率是0.05；然而，當進行多個假設檢定時，機率就會增加[3](b錯誤)。當研究進行大量統計檢定時，必須格外小心——其中一些結果可能是由於第一類誤差所致。然而，我們不知道哪些重要發現是因為第一類誤差造成的。而本例中的研究人員報告了許多不同組間的測試結果，不僅是在24、28、34和40周時的妊娠體重增加。也由於妊娠期體重增加的測量並不是相互獨立的，因此在每個胎齡進行的顯著性檢驗也不是相互獨立的。如果其中一個檢定結果是顯著的，那麼在其他時間點的結果也可能會顯著，因為妊娠體重增加的測量是相關的，而這將進一步導致第一類誤差機率的增加。

　　妊娠期體重增加的測量值是相關的，這一事實可能導致治療組之間在每個胎齡的虛假顯著差異。進行四項個別的統計檢定並無法針對整個懷孕期間的不同治療組間進行比較。因此，不能斷定在整個懷孕期間，介入方法在妊娠期體重增加方面存在顯著差異(c錯誤)。本案例需要更複雜的統計方法，如包含多層次模型(multilevel model)或廣義估計方程式(generalised estimating equations)的縱貫性分析，以比較不同懷孕期，治療組間的妊娠體重增加情形。這些分析將調查懷孕期間婦女妊娠期體重增加的變化，同時考慮資料的非獨立性。儘管本例中的研究人員構建一個統計線性模型來檢驗總體重增加並控制基線體重，但他們給出了每個胎齡的統計檢驗結果，這可能引起誤解，因為它忽略了上述重要的統計議題。

Reference:

[1] Walsh JM, McGowan CA, Mahony R, Foley ME, McAuliffe FM. Low glycaemic index diet in pregnancy to prevent macrosomia (ROLO study): randomised control trial. BMJ 2012;345:e5605.

[2] Sedgwick P. Independent samples t test. BMJ 2012;340:c2673.

[3] Sedgwick P. Multiple significance tests: the Bonferroni correction. BMJ 2012;344:e509.