匯東華統計顧問有限公司

"匯東華-認真作好每件事"
~統計，不再是阻力，而是助力~

BMJ小小統計問題(29) 前言：

本期介紹獨立樣本t檢定，用於檢定2組獨立樣本的平均值是否有顯著差異。文中提到t檢定的抽樣分布、假設檢定概念，以及P值的推導，不是很好懂。Showme在文中有作概念補充。若想進一步了解，歡迎提問，或可購買匯東華統計學院的線上課程”生物統計學總複習”在”假設檢定”跟”兩組平均數差異檢定”二節中有詳細說明。下次主題會討論，當我們想檢定的結局變數(依變數)有數個時，執行多次的統計檢定會產生什麼問題？是實務上常遇到，卻常被忽略的概念。

題目：

　　一項針對退化性膝關節炎病人設計的以目標為導向之初級照護新專案，通過隨機對照試驗來評估，以確定在體重管理和身體活動方面是否有好處[1]。對照組為常規治療。共有154名病人被隨機分配到新專案(三個目標導向的標準化會診)，182名病人被隨機分配到常規治療。

　　4個月後，接受標準化會診的病人的平均體重減輕比接受常規照護的病人的平均體重減輕更明顯(平均=1.11 (SD=2.49) kg v 0.37 (SD=2.39) kg (P=0.007)。採用雙尾獨立樣本t檢定對兩組進行統計學比較，顯著水準設為0.05 (5%)(t=2.77，自由度=334)。

下列哪個陳述何者正確？(複選)

a)對立假設：在退化性膝關節炎病人的母群體中，標準化會診比常規治療能帶來更明顯的減肥效果

b) t值取決於樣本平均值差異的程度

c)自由度與樣本數有關

d) P值由t值和自由度得出

答案：

b, c, d正確;a錯誤。

詳細說明：

　　獨立樣本t檢驗，也被稱為Student’s t檢驗，用來確定標準化會診和常規照護是否會導致母群體一致的平均體重變化。虛無假設為兩組體重變化是相同的。對立假設為雙尾的，亦即介入組平均體重變化可能大於或是小於常規照護組(a錯誤)。統計假設檢驗已在之前問題說明[2-3]。

(Showme補充說明：Student’s t test的Student 是英國統計學家William Sealy Gosset的筆名。當初以他的筆名Student發表，所以就稱為Student’s t test)

　　P值表示虛無假設被支持的強度，是使用t檢定統計量(t)加上自由度(df)推導而得(d正確)。一般而言，當兩組平均差異變大時，t檢定統計量絕對值(忽略正負號)也會增加，亦即抵抗虛無假設的強度會增加(b正確)。自由度在兩組獨立樣本t檢定中為兩組樣本數減2(c正確)。如本例是(154+182)-2=334。

(Showme補充說明：此自由度是傳統假設兩組變異數同質性成立下所計算，若是兩組變異數不同質，需要對自由度進行校正)。

　　為了理解P值的推導，考慮重複抽樣。上述研究將在相同條件下被重複無數次，每次都從整個母群體中選擇一個相同大小的樣本。每樣本的各治療組別都有不同的樣本平均值和標準差，因此，每次計算出來的t值檢定統計量都會不同。T分布是以0為原點的左右對稱分布。統計假設考驗允許我們拒絕虛無假設而支持對例假設是這些樣本的5%。對雙尾的t檢定來說，這些導致虛無假設被拒絕的樣本是位於檢定統計量所形成的t分布最極端的2.5%之區域面積。以本例自由度334來看，此時的t檢定統計量絕對值會大於1.97。換句話說，有2.5%的t值檢定統計量會小於-1.97，和2.5%會大於1.97。

　　每一個自由度都有一個唯一的t分布。隨著自由度增加，t分布的尾部變平，駝峰變得”更胖”，因為它包含更多的分布區域。

　　上述例子中的對立假設是雙尾，因此兩組平均值差異的可能性檢定就無特定方向性(亦即，正或負均可)，其t的檢定統計量絕對值為t=2.77。以-2.77和2.77左右為界的曲線下面積總和等於上述假設檢驗的P值(0.007)。因此，每個尾巴包含P值的一半(0.007)。

(Showme補充：P=0.007<0.05，因此拒絕虛無假設，接受對立假設)

Reference：

[1] Ravaud P, Flipo RM, Boutron I, Roy C, Mahmoudi A, Giraudeau B, et al. ARTIST (osteoarthritis intervention standardized) study of standardized consultation versus usual care for patients with osteoarthritis of·the knee in primary care in France: pragmatic randomised controlled trial. BMJ 2009;318:b421.

[2] Sedgwick P. Statistical hypothesis testing. BMJ 2010;340:c2059.

[3] Sedgwick P. One sided and two sided hypothesis tests. BMJ 2010;340:c2458.

[4] Sedgwick P. P values. BMJ 2010;340:c2203.