匯東華統計顧問有限公司

"匯東華-認真作好每件事"
~統計，不再是阻力，而是助力~

BMJ小小統計問題(36) 前言：

C友人要進行使用AI提高診斷的研究，被IRB委員問到研究所需樣本數計算的問題。本期介紹significance (顯著性、重要性)，內容可提供一個參考：在試驗中，樣本數的計算需要考慮那些參數呢？此外，內容也提到p<0.05，是否就是有顯著性？不見得。本篇提到三種顯著性：statistical significance ,clinical significance, patient significance，解釋說明地很清楚。也提到sample size過大導致的overpowered問題，是篇好文章。可以和BMJ統計問題(9)臨床意義與統計意義一起閱讀。相信更能了解顯著性的本質。Hope u enjoy it.

題目：

　　採用隨機對照試驗研究骨盆底肌肉訓練對骨盆底症狀的影響。介入措施包括骨盆底肌肉訓練和家庭鍛煉。控制組介入包括“監察式等待”(watchful waiting)。追蹤時間3個月。參與者是從初級照護人群中招募的55歲以上有輕度盆腔器官脫垂症狀的女性[1]。

　　主要終點是追蹤時膀胱、腸道和骨盆底症狀的變化，由骨盆底功能障礙問卷-20 (PFDI-20)測量。量表得分愈高表示症狀愈嚴重。為了計算所需的樣本量，假設控制組的PDFI-20基線得分為60分，三個月後症狀沒有變化。樣本量是基於有80%的檢定力(power)能偵測治療組間PDFI-20有15分(減少25%)的差異在三個月追蹤時的標準差為36分下。使用0.05的顯著性臨界水準和雙尾對立假設實現此一差異。此時，每個治療組別需要92名女性。考慮到約有15%的退出率，所需的樣本量調整為216名。

　　全部共有287名女性被招募並隨機接受骨盆底肌肉訓練(n=145)或監察式等待(n=142)，有250名(87%)女性完成追蹤。介入組與監察式等待組相比，症狀明顯改善，PFDI-20平均減少9.1分(95%信賴區間 2.8 - 15.4;P=0.005)。

下列敘述何者正確？

a)使用PFDI-20計算樣本量時，建議治療組間15分的差異是臨床感興趣的最低效果量

b)介入組PFDI-20平均得分較對照組提高15分以上，則認為介入具有臨床療效

c)由於治療組間的主要結局差異有統計學意義，可以推斷骨盆底肌訓練在臨床上是有效的

d)這項試驗的兩個治療組間主要結果差異的統計檢定中是過度敏感(overpowered)

答案：

a,b,d 正確, c錯誤。

詳細說明：

　　與監察式等待組相比，介入組膀胱、腸道和骨盆底症狀有所改善，PFDI-20平均降低9.1分。此研究被設計成一種優越性的試驗（superiority trials）[2]。在獲得樣本的人群中，虛無假設為治療組別間與基線相比的症狀變化沒有差異。對立假設是雙尾的，說明治療組間存在差異。統計學檢定的臨界顯著性水準設為0.05(5%)。報告之P值(0.005)為支持虛無假設的證據強度之測量。因為P值小於顯著臨界水準，幾乎沒有證據支持虛無假設，換句話說，它被拒絕，而支持對立假設。結論為，與對照組相比，介入組的症狀在統計學上有顯著減少。根據治療組間平均PFDI-20評分差異的95%信賴區間(2.8 - 15.4)，可以推斷具有統計學意義，這允許在5%水準上對統計假設進行檢定[3]。由於95%信賴區間不包含0，可以推斷統計假設檢驗的P值小於顯著臨界水準(0.05)。

　　在規劃試驗時，必須考慮樣本數。所需的婦女人數主要是基於臨床意義。假設對照組的PDFI-20基線平均得分為60分，在3個月的追蹤後症狀不會出現任何變化。為了使介入被認為是有臨床效果的，骨盆底肌肉訓練組在追蹤時必須顯示比對照組至少降低25%(15分)的平均PFDI-20。平均分數下降25%(15分)的差異稱為臨床感興趣的最低效果量(a正確)。如果差異大於最小的臨床效果量，即PFDI-20評分在15分以上，則被認為具有臨床意義，介入措施具有臨床效果(b正確)，而較小的差異則不然。臨床感興趣的最小效果量可能不存在於母群體中。亦即，如果應用於整個母群體，治療組間的平均症狀得分差異可能小於15分。然而，如果臨床感興趣的最低效果量確實存在於母群體中，在試驗中看到到它的機率需要最大化，即為檢定力(power)概念的基礎[4]。儘管希望檢定力愈大愈好，但是愈大的檢定力就需要愈多的樣本數。

　　因此，在檢定力和樣本數之間需進行妥協。在上述試驗中，將檢定力設為80%，此為臨床試驗中計算樣本數一般推薦的最小值。所得樣本數為證明臨床感興趣的最小效果量(或較大差異)在試驗中達到統計學意義時(如果該效應存在於母群體中)所需要招募的最小女性數量。

　　追蹤結束時，介入組與對照組相比症狀有所改善，PFDI-20評分平均下降9.1分。差異有統計學意義(P=0.005)。然而，儘管症狀的減輕有統計學意義，但研究人員得出結論，它可能沒有臨床意義或相關性(c錯誤)。因為症狀減輕的效果低於臨床感興趣的最低效果量(15分)。然而，作者指出，由於PFDI-20問卷在輕度脫垂女性中的最小的臨床顯著差異的資料有限，所以提出的最小的臨床效果量可能被設置過大。

　　儘管PFDI-20評分的差異小於臨床感興趣的最低效果量，但其統計學意義上的差異最有可能的解釋是該試驗是過度敏感(overpowered) (d正確)。特別是，試驗的實際檢定力超過80%，正如最初規定的那樣，因為招募超過需要的女性個數。為了觀察臨床感興趣的最低效果量與80%的檢定力，估計需要招募184名婦女。所需的樣本數根據估計的15%退出率進行調整，所需總樣本為216名。實際招募287名女性，其中250名(87%)完成追蹤。如上所述，樣本數的增加會導致檢定力提高。因此，上述試驗基於指定的最低臨床感興趣效果量的檢定力大於80%，使本試驗處於過度敏感(overpowered)狀態。樣本量大於所需的一個缺點是，統計檢定力可以維持接近80%，若治療組間的差異小於臨床意義上的最低效果量還是可能達到統計學意義。

　　顯著性(significance)概念在臨床研究和臨床醫學中具有重要意義。若治療組間的試驗結果差異達到統計學意義，意味著觀察到的差異也存在於人群中。臨床意義意味著治療效果間的差異在臨床上是重要的，若在試驗中看到這種差異，可能會改變臨床實務。如果存在統計學顯著性，那麼它可以用來告知臨床顯著性。尤其在臨床試驗中，臨床顯著性被用來計算所需樣本的大小，若在母群體中存在臨床感興趣的最低效果量，則在試驗中有最大機率被觀察到統計顯著。不幸的是，臨床顯著性和統計顯著性經常被混淆。兩個術語經常被互換使用，儘管其中一個並不意味著另一個。研究人員有時推斷一種治療的有效性在臨床上是顯著的，因為不同治療組間的差異在統計學上是顯著的。但不能從統計顯著推斷臨床顯著，反之亦然。如同上述試驗，治療組間的主要結果在統計學上存在顯著差異，但研究人員得出的結論是，它不太可能具有臨床顯著性。

　　臨床顯著和統計顯著間的混淆大概是因為在討論統計顯著時很難撇開臨床顯著的日常意義。在統計學中，significant一詞的使用並非意味著某件事是重要的。在試驗中，統計顯著和臨床顯著間的聯繫可能被直接進行聯繫，特別是在樣本數計算是基於主要結果的測量。然而，在觀察性研究中，統計顯著結果的重要性可能不那麼容易辨別。對於由成千上萬個病例組成的資料集來說尤其如此，此為目前世代研究的典型狀況，許多效應的比較或估計都具有統計學顯著。觀察性研究中統計學顯著的解釋將在後面的問題討論。

　　除了臨床顯著性和統計顯著性，“病人顯著”(patient significant)的概念已被提出。在上述試驗中，在臨床經驗和以往研究的基礎上，選擇使用PFDI-20測量症狀的臨床感興趣最低效果量。目前尚不清楚臨床感興趣的最低效果量對參與者是否重要。儘管症狀的任何改善可能對婦女有益，但這種改變的意義可能取決於為她們所需要付出的時間和努力，這也是為何有愈來愈多的病人群體參與臨床試驗的設計。

Reference:

[1] Wiegersma M, Panman CMCR, Kollen BJ, et al. Effect of pelvic floor muscle training compared with watchful waiting in older women with symptomatic mild pelvic organ prolapse: randomised controlled trial in primary care. BMJ 2014;349:g7378.

[2] Sedgwick P. What is a superiority trial? BMJ 2013;347:f5420.

[3] Sedgwick P. Randomised controlled trials: inferring significance of treatment effects based on confidence intervals. BMJ 2014;349:g5196.

[4] Sedgwick P. Randomised controlled trials: understanding power. BMJ 2015;350:h3229.