Pitfalls of statistical hypothesis testing: type I and type II errors

(統計假設檢定的陷阱：型I與型II誤差)

前言：

與上周主題相關的是在談論型I與型II誤差。此為統計學基本概念。主要發生於統計假設檢定結果與母群體實際狀況不同所造成的誤判。我們有辦法知道本次檢定的結果是否為誤判？為型I或型II誤差所造成？答案是~~~沒有辦法。但我們可以限制兩類誤差出現的機率。

Cite this as: BMJ 2014;349:g4287

https://www.bmj.com/content/349/bmj.g4287

題目

研究人員調查多維度生活方式介入對以移民為主的學齡前兒童有氧健身和肥胖的影響。採用隨機對照試驗研究設計。介入措施包括體育活動計畫，加上營養、媒體使用(電視和電腦的使用)、睡眠和適應學前班的建築環境課程。該研究從2008年8月持續到2009年6月。對照組沒有接受任何介入，繼續他們的常規學校課程，其中包括每週在健身房上45分鐘的體育課[1]。

在瑞士德語和法語區移民人口較多的地區，共招募40個學前班。將語言區域分層後，將班級隨機分為介入組和對照組。主要結果是通過20分鐘穿梭跑測試和身體質量指數(BMI)測量的有氧健康。次要結果包括運動敏捷性、體脂肪百分比和腰圍。

統計測試的臨界顯著性水準定為0.05（5%）。與對照組相比，介入措施導致有氧健身能力顯著提高（介入組減去對照組）（平均差異：0.32階；95%信賴區間為0.07-0.57；P=0.01），但BMI沒有差異（-0.07公斤/平方米，-0.19至0.06；P=0.31）。作者總結，多維度介入措施增加有氧健身，減少體脂，但沒有減少學齡前兒童的BMI。

下列敘述何者正確？(複選)

a) 若在母群體中，介入組和控制在平均有氧健身方面沒有差異，則有氧健身的統計檢定就會出現型I誤差。

b) 若在母群體中，介入組和對照組的BMI有差異，那麼BMI的統計檢定就發生型II誤差。

c) 通過增加樣本數，型I或型II誤差發生的機率會降低。

答案

a、b、c均正確。

詳細說明

該試驗目的在建立多維度生活方式介入對主要移民學齡前兒童的有氧健身和肥胖之影響。介入組與非沒進行介入的對照組進行比較。使用之前提過的傳統統計假設檢定[2]，對治療組間之主要結局進行比較。

統計假設檢定所收集的資料為量化支持母群體特定假設的證據。傳統的統計假設檢定從虛無假設所指定的”相等”位置開始。對於本例試驗，有氧健身主要結果的虛無假設為，在獲得樣本的主要移民學齡前兒童母群體中，通過20分鐘穿梭跑測試測量的平均有氧健身的介入與對照間不存在差異。目的是確定樣本資料是否支援此一說法，或是提供了差異的證據，如同對立假設所指定的。對立假設認為存在差異，在抽樣的母群體中，接受介入的族群之平均有氧健身能力與對照組不同。沒有指定的方向——對立假設是雙邊的——介入組可能在平均有氧健身方面低於或優於對照組(由20分鐘穿梭跑測試測量)。統計學上的虛無假設和對立假設在試驗開始前就已經說明。BMI主要結果的統計假設也將以類似的方式構建。

統計假設檢定產生的P值用於確定樣本資料是否支援虛無假設，或提供由對立假設指定的差異之證據。P值是一個機率，由樣本資料計算而得。表示支持虛無假設證據的強度。大的P值表明樣本資料支持虛無假設，而小的P值表明它們不支持虛無假設。通常，顯著性的臨界水準設置為0.05(5%)。

有氧體能統計檢定之P值為P=0.01，小於0.05。因此，幾乎沒有證據支持虛無假設，因此它被拒絕，取而代之的是對立假設。在0.05顯著水準上，有氧體適能有統計學意義上的差異——對樣本資料的觀察表明，與對照組相比，介入組提高了有氧體適能。BMI統計檢定的P值為P=0.31，大於0.05。因此，沒有證據可以拒虛無零假設而支持對立假設。因此，介入組與對照組BMI在0.05水準上之差異無統計學意義。由此推斷，介入並沒有降低BMI。

統計假設檢定在單一樣本的基礎上進行推論。上述試驗中的樣本只是可以從以移民人口為主的學齡前兒童中抽取的無限個樣本中之一個。對不同樣本的進一步研究可能會得出不同的結果。顯然，希望上述試驗中的推論能夠代表在母群體中觀察到的情況——亦即，樣本估計值在數值上與母群體參數相似。母群體參數是概念性的，為介入和控制間的差異，例如，若對整個母群體進行介入和控制，將觀察到的BMI。樣本估計和母群體參數間的任何差異都是由於抽樣誤差造成的[3]。

統計假設檢定中有兩種類型的誤差——型I誤差和型II誤差。在本例試驗中，若試驗提供了顯著差異的證據，虛無假設被拒絕而支持對例假設，但實際上在母群體中結果沒有差異，則會發生型I誤差。介入組與對照組在有氧體適能方面差異有統計學意義(P=0.01)。有足夠的證據來拒絕虛無假設，支持對立假設，並推斷介入會導致有氧健身的增加。然而，若在母群體中，介入組和對照組的平均有氧體適能沒有差異，則根據統計檢定結果就會做出錯誤的推斷，就會發生型I誤差(a正確)。

若研究沒有提供證據來拒絕虛無假設，支持對立假設，而實際上在母群體中存在結果差異，則會發生型II誤差。雖然介入組的平均BMI低於對照組，但差異無統計學意義(平均差異：−0.07 kg/m2, 95% CI:−0.19-0.06;P = 0.31)。因此，沒有足夠的證據來拒絕虛無假設，支持對立假設，推斷介入不會導致BMI下降。然而，若在母群體中，介入組和對照組的平均BMI存在差異，則根據統計檢定的結果就會做出不正確的推斷，即出現型II誤差(b正確)。

型I誤差和型II誤差是概念性的，不可能確定它們是否在統計檢驗後發生。但是，可以限制兩類誤差發生的機率。出現此種誤差的機率主要受到樣本數的影響[4]。隨著樣本數的增加並接近母群體的個數，樣本估計值將與母群體參數相似，使得發生型I誤差或型II誤差的可能性更小(c正確)。

Reference

[1] Puder JJ, Marques-Vidal P, Schindler C, Zahner L, Niederer I, Bürgi F, et al. Effect of multidimensional lifestyle intervention on fitness and adiposity in predominantly migrant preschool children (Ballabeina): cluster randomised controlled trial. BMJ 2011;343:d6195.

[2] Sedgwick P. Understanding statistical hypothesis testing. BMJ 2014;348:g3557.

[3] Sedgwick P. What is sampling error? BMJ 2012;344:e4285.

[4] Sedgwick P. Sample size: how many participants are needed in a trial? BMJ

2013;346:f1041.

#BMJ

#醫學統計

#Sample size

#Superiority trial

#Type I error

#Type II error