匯東華統計顧問有限公司 - BMJ專題142-瞭解為什麼沒有證據不等於證明不存在

"匯東華-認真作好每件事"
~統計，不再是阻力，而是助力~

BMJ小小統計問題（142）：Understanding why “absence of evidence is not evidence of absence” (瞭解為什麼「沒有證據不等於證明不存在」)

Cite this as: BMJ 2014;349:g4751

https://www.bmj.com/content/349/bmj.g4751

前言

本期說的主題是很重要的概念，針對假設檢定的邏輯與結果詮釋進行很清楚的說明。為何”沒有證據不等於證據不存在？”因為抽樣誤差，會有第一型與第二型錯誤存在。值得好好品讀。近期公司上市【eB02-小白的醫學統計必修課(上)】，講解醫學統計學核心概念進行系統性理解，專治統計不全症；以及，最實用的醫學實戰統計課程【eB02-小白的醫學統計必修課(下)】。另已於4/22將公告下半年度公司課程和工作坊的時間表，歡迎大家至官網”課程報名”檢視，或是訂閱公司Google行事曆與最新消息。若對課程有興趣，可至本公司官方line@medatatw洽詢。感謝眾多朋友兩年多來的一路陪伴，隨著匯東華三周年慶腳步漸近，越發感謝。Hope u enjoy it

路徑：匯東華官網/學習專區/BMJ小小統計問題列表

✨線上課程提供【流行病學】與【生物統計學】系列https://medata.teaches.cc/

✨匯東華會員制詳情：https://reurl.cc/NyjNMx

課程介紹與報名資訊：https://reurl.cc/EoRxpg

線上課程學院：https://medata.teaches.cc/

-----

問題：

研究人員調查低升糖指數飲食在孕期對於有巨大嬰兒（孕齡巨大嬰兒）風險的婦女母體和新生兒疾病的影響。進行一項隨機對照優勢試驗。介入措施為從早期孕期開始實施低升糖指數飲食。對照治療則是不進行飲食介入。參與者為無糖尿病、第二次懷孕之婦女，之前有生過重量超過4000克的嬰兒。總共招募800名婦女，隨機分配到介入治療（394名）和對照治療（406名）。【1】

主要結局是出生體重，次要結局是孕期體重增加。介入組的平均出生體重雖然高於對照組，但差異並不顯著（4034克（標準差510）對4006克（497）；平均差異28.6克，95%（信賴區間從-45.6 － 102.8；P=0.449）。介入組的平均孕期體重增加顯著較少（12.2對13.7公斤；平均差異-1.3公斤，從-2.4－-0.2；P=0.01）。研究人員得出結論，孕期低升糖指數飲食對於巨大嬰兒的出生體重沒有顯著減少效果，但對於有巨大嬰兒風險的婦女來說，確實顯著減少孕期體重增加。

下列敘述何者正確?

a) 在此此群體中，可以推論低升糖指數飲食與對照治療在平均出生體重上沒有差異
b) 在出生體重方面，治療組之間缺乏顯著性可能是由於第二型錯誤所導致
c) 孕期體重增加的統計假設檢定之對立假設成立

答案

b正確，a及c錯誤

詳細說明：

該試驗研究低升糖指數飲食在有巨大胎兒風險（孕齡大嬰兒）的母群體中孕期之影響。進行一項隨機對照優勢試驗。優勢試驗在之前的問題中已有介紹。【2】目的是確定介入措施是否優於對照治療的效果，或者沒有飲食介入是否比介入更有效。結果包括出生體重和孕期體重增加。使用傳統的統計假設檢定，【3】來確定治療組間在結果上是否存在優勢。

傳統的統計假設檢定從虛無假設為無效開始。對於上述試驗中的主要結局出生體重，虛無假設為在高風險生產巨大胎兒的婦女母群體中，從該母群體取得的樣本中介入和對照治療在平均出生體重上沒有差異。對立假設則為存在差異—即在被抽樣的母群體中，治療組間在平均出生體重上存在差異。沒有指定方向—對立假設是雙尾的—低升糖指數飲食組的平均出生體重可能高於或低於對照組。

對於平均出生體重的假設進行統計檢定得出的 P 值為 P=0.449。因此，由於 P 值大於 0.05，治療組間不存在顯著差異。雖然未拒絕虛無假設以支持對立假設，但不能推論虛無假設為真的，且在母群體中的介入平均出生體重上沒有差異（a 錯誤）。基於假設檢定所作的推論是樣本數據支持虛無假設或支持對立假設。因此，這項試驗未提供任何證據表明在有生產巨大胎兒風險的婦女母群體中，治療對主要結果出生體重有差異。

常見的誤解為，可以根據假設檢定的結果判斷虛無假設或對立假設為真或假。【3】理論上，證明一個假設是真或假是困難的。虛無或對立假設可能對於整個母群體來說是真實的。然而，證明統計假設的唯一方法是對整個母群體進行抽樣，這在理論上不可行。樣本估計值與的母群體參數間的差異大小，稱為抽樣誤差【4】。試驗參與者是來自母群體的單一樣本，另一個樣本可能會給出不同的樣本估計值，可能就會導致顯著的結果。此一概念引出這樣一句話，“沒有證據不等於證明不存在”【5】換句話說，僅僅因為統計假設檢定未能發現治療組間的差異，並非意指在母群體中不存在差異。

在進行試驗前，研究人員進行樣本數計算。關於試驗的樣本數計算已在之前的問題中描述。【6】基於一個0.05（5%）的顯著性水準和90%的檢力，每個治療組需要360名病人來檢定兩組間102克的出生體重差異。102克的出生體重差異被稱為臨床感興趣的最小效果量。總共招募800名婦女，隨機分配到介入（394名）和對照（406名）組。因此，試驗有足夠的檢力來檢測母群體中存在的臨床感興趣的最小效果量。然而，並不意味若在治療組間的母群體中存在102克或更大的出生體重差異，試驗一定能夠檢測出來。上述結果可能是第二型錯誤（b 正確）。第二型錯誤會發生在母群體中確實存在出生體重的差異，而研究未能提供拒絕虛無假設以支持對立假設的證據時。【7】第二型錯誤可能由抽樣誤差造成。增加樣本數可以減少第二型錯誤發生的機率。

對於上述試驗中的次要結局孕期體重增加，統計檢定中得出 P=0.01。因此，治療組間的平均孕期體重增加存在顯著差異，虛無假設被拒絕，支持對立假設。試驗提供證據表示，對於有生產巨大胎兒風險的婦女母群體，治療在次要結局孕期體重增加上有差異。然而，不能推論對立假設是真的（c 錯誤）。如上所述，試驗參與者是來自母群體的單一樣本，另一個樣本可能給出一個不具統計顯著性的樣本估計值。上述結果可能是第一型錯誤。第一型錯誤【7】發生在研究提供拒絕虛無假設支持對立假設的證據時，但實際上，母群體中孕期體重增加並無差異。第一型錯誤可能由抽樣誤差導致。

Reference:

[1] Walsh JM, McGowan CA, Mahony R, Foley ME, McAuliffe FM. Low glycaemic index diet in pregnancy to prevent macrosomia (ROLO study): randomised control trial. BMJ2012;345:e5605.

[2] Sedgwick P. What is a superiority trial? BMJ 2013;347:f5420

[3] Sedgwick P. Understanding statistical hypothesis testing. BMJ 2014;348:g3557.

[4] Sedgwick P. What is sampling error? BMJ 2012;344:e4285.

[5] Altman DG, Bland JM. Absence of evidence is not evidence of absence. BMJ 1995;311:485.

[6] Sedgwick P. Sample size: how many participants are needed in a trial? BMJ 2013;346:f1041.

[7] Sedgwick P. Pitfalls of statistical hypothesis testing: type I and type II errors. BMJ 2014;349:g4287.

#匯東華 #BMJ統計問題 #醫學統計 #抽樣誤差 #假設檢定 #Type I error #Type II error