匯東華統計顧問有限公司

"匯東華-認真作好每件事"
~統計，不再是阻力，而是助力~

BMJ小小統計問題(8)

前言：

上周的BMJ統計(7)談的是P值，其為統計推論的基礎。而統計學假設檢定，就是推論性統計的根本。再來一起學習假設檢定吧！

題目：

研究人員評估了varenicline (一種經許可的戒菸輔助藥物)在幫助無菸煙草(smokeless tobacco)使用者戒菸方面的效能。採用雙盲、安慰劑對照、平行組、隨機對照試驗的研究設計。干預措施為varenicline 1 mg，每日2次。治療12周，追蹤14周。所有參與者的年齡都在18歲以上。他們在加入前已經使用無菸煙草至少一年，戒菸時間少於三個月，但希望戒除。共招募了431名參與者隨機分配到varenicline組(n=213)或安慰劑組(n=218)。根據調查人員的決定，所有參與者都獲得簡短的行為支持或諮詢。

主要終點是治療結束時連續4周的戒菸(9-12周)，由體內cotinine濃度證實。統計假設檢定是雙尾，臨界顯著性水準設為0.05(5%)。Varenicline組的戒菸率明顯高於安慰劑組(59% vs 39%;相對危險性是1.6, 95%信賴區間是1.32 - 1.87; P < 0.001)。

Q：下列哪個敘述(如果有的話)是正確的？ (複選)

a)對立假設認為，在抽樣的人群中，就主要終點而言，Varenicline治療劣於或優於安慰劑

b)研究假設表明，在抽樣人群中，就主要終點而言，varenicline治療優於安慰劑

c)可以推論虛無假設不為真

Answer:

正確答案為 a) 和 b)，c)為錯誤

說明:

本試驗目的為評估varenicline在幫助無菸煙草者的戒菸效能。無菸煙草 (Smokeless tobacco) 經常被吸菸者用來戒菸，因為它常被認為比菸草的傷害性更低。收集持續戒菸百分比的樣本估計值來評估varenicline與安慰劑治療在母群體中的有效性。在統計學上，母群體是研究目標想探討的整個族群。在上述試驗中，即為符合招募條件的全部無菸煙草(smokeless tobacco)使用者。使用傳統的假設檢定針對二組的主要終點結局進行比較，可量化在此母群體中，我們所收集的數支持特定假設信念。

統計假設檢定包括虛無假設 (null hypothesis)與對立假設 (alternative hypothesis)，研究人員在試驗開始前就已經設立好。傳統的統計假設檢定始於指向假設相等的虛無假設。以上述試驗而言，虛無假設為：無菸煙草使用者群體使用varenicline與安慰劑治療的戒斷率沒有存在差異。研究目的是建立在是否樣本數據支持無差異假設(虛無假設)或是提供兩組間有差異的證據(對立假設)。

對立假設的陳述是有差異存在。換句話說，它表明在抽樣代表的母群體中，接受varenicline治療者與服用安慰劑者的持續戒斷率是不同的。沒有指明明確的方向，也就是對立假設是雙尾，即接受varenicline治療組的戒斷率可以劣於或是優於安慰劑組。因此 (a)的陳述是正確的。

區分研究假設 (research hypothesis)和統計假設 (statistical hypotheses)是重要的。研究者在啟動試驗前，應該事先預測研究結果來陳述研究假設。以本試驗而言，研究假設為使用varenicline治療者的結果會更好 (b是正確的)。研究假設可能基於軼事證據 (anecdotal evidence)或者初步的或探索性的研究，提供使用varenicline治療相較於服用安慰劑會增加參與者持續戒菸的比例試驗之預期基礎。這項試驗必須去獲得干預有效的證據。儘管研究假設預測varenicline治療結果優於安慰劑，但有時結果會意想不到。所以統計假設檢驗允許安慰劑結果有較佳的可能是重要的。正因如此，因此使用雙尾的對立假設來比較兩組的結果。

上述試驗中的P值 (P<0.001)是通過統計假設檢定得出的，用於確認樣本數據是否支持虛無假設還是提供一個差異性證據來指向對立假設。P值是一個機率，表示事件發生的可能性有多大。它是用樣本數據推導而得，代表支持虛無假設的證據強度。P值愈大，代表樣本數據支持虛無假設，反之，P值愈小，則代表愈不支持虛無假設。大P值和小P值之間的界線通常設為0.05 (5%)，被稱為顯著水準。持續戒斷率檢定之P<0.001，小於0.05。因此幾乎沒有證據支持虛無假設，而被接受去支持對立假設。在0.05顯著水準下，持續戒斷有統計學上顯著差異。也就是說，樣本數據顯示，與安慰劑治療相比，varenicline治療導致的戒斷比例更大。

不可能從持續戒斷的統計檢定之P值推斷虛無或對立假設是真或假 (c 錯誤)。樣本數據只提供支持虛無假設或對立假設的證據，從而允許對母群體進行推論。這是因為一個針對無菸煙草使用者不同樣本的進一步研究可能得到不同的結果。

在以P值為基礎詮釋顯著性時需要注意。重要的是考量組間結果的差異大小以及相關的信賴區間。除其他因素外，P值大小將取決於樣本數。一般而言，樣本數愈大，P值愈小，愈傾向得到統計學顯著差異。但增加樣本數的缺點是，有可能組間結果有統計意義，但卻沒有臨床意義。同樣地，小樣本可能導致舉間結果沒有統計意義，但在臨床上卻是有意義的。確保有足夠大的樣本量得到適合的統計檢力 (power)，使臨床顯著差異可以顯示為具有統計的意義。以上述試驗而言，研究者將考慮治療組別間的臨床顯著差異如果存在母群體中如何才能顯示具有統計上意義所需要的最佳樣本數。

原文：

Researchers assessed the efficacy of varenicline (a licensed cigarette smoking cessation aid) in helping users of smokeless tobacco to quit. A double blind, placebo controlled, parallel group, randomised controlled trial study design was used. The intervention was varenicline 1 mg twice daily. Treatment lasted for 12 weeks, with 14 weeks’ follow-up. All participants were aged 18 years or more. They had been using smokeless tobacco for at least one year before recruitment, with no abstinence from smoking of longer than three months, but wished to quit. A total of 431 participants were recruited and randomised to varenicline (n=213) or placebo (n=218). All participants were offered brief behavioural support or counselling at the discretion of the investigators.

The primary endpoint was continuous abstinence from smoking for four weeks at the end of treatment (weeks 9-12), confirmed by cotinine concentration. Statistical hypothesis testing was two sided, with a critical level of significance of 0.05 (5%). The rate of abstinence in the varenicline group was significantly higher than in the placebo group (59% v 39%; relative risk 1.6, 95% confidence interval 1.32 to 1.87; P<0.001).

Which of the following statements, if any, are true?

a) The alternative hypothesis states that, in the population sampled, treatment with varenicline is inferior or superior to placebo with regard to the primary endpoint

b) The research hypothesis states that, in the population sampled, treatment with varenicline is superior to placebo with regard to the primary endpoint

c) It can be inferred that the null hypothesis was not true