匯東華統計顧問有限公司

"匯東華-認真作好每件事"
~統計，不再是阻力，而是助力~

BMJ小小統計問題(71)：

Meta-analyses: tests of heterogeneity

(統合分析：異質性檢定)

前言：

本篇為探討統合分析異質性的文章，非常建議有興趣在統合分析研究的朋友閱讀。內容對異質性的概念以及檢定方法說明得十分詳細。統合分析本質上就是進行效果量合併的統計學方法，但是，來自不同研究的效果量是否能進行合併？合併結果是否準確？如何檢定異質性？如何解讀異質性指標與檢定結果？在統合分析研究是非常重要的議題，直接導致結果可以相信否。可與上期的#BMJ小小統計問題：「Meta-analyses: tests of heterogeneity (統合分析：檢定異質性)」一起閱讀，更有綜效。

統合分析研究位在實證醫學金字塔頂端，研究證據力度屬於最高等級，一篇品質良好的統合分析研究對臨床決策的助益不言而喻。本期主題無論是對醫療領域、商管、行銷或教育領域的研究人員，都值得花時間靜下心來閱讀。Hope u enjoy it.

Goodbye 2022 & Hello 2023

題目： 　　　

研究人員進行了一項統合分析，評估多面向因素評估與介入方案在預防老年人跌倒和受傷的效果。隨機或准隨機試驗評估預防跌倒和傷害的介入預防措施。介入措施必須針對病人個人，而非在社區或族群層面。還必須是基於急診室、基層照護或社區的服務。對照組可以接受常規照護或不進行跌倒預防措施。結果為跌倒人數及與跌倒有關的傷害[1]。

共識別19個試驗。其中，8個報告因跌倒受傷事件。與對照組相比，介入後跌倒相關傷害的風險下降，但不顯著(RR 0.90,95% CI 0.68~1.20)。跌倒相關傷害統合分析之統計異質性檢定結果如下：χ2=15.77，df=7, P=0.03 (Cochran's Q test)，I²=55.6% (Higgins's I²檢定統計量)。隨後使用基於Cochran's Q test的交互作用檢定進行子群體分析。所得P值為：地點P=0.75(醫院vs社區)；團隊中是否有醫師P=0.75(是vs否)；試驗參與者被選入是否因為他們有較高的跌倒風險(是vs否)，P=0.52。

該研究的結論為，有限的證據表明，基層照護、社區或緊急照護環境中的多面向因素之跌倒預防規劃有效地減少跌倒或與跌倒相關傷害的風險。

對於與跌倒相關傷害的統合分析，下列敘述何者正確？

a)統計異質性的存在表明試驗間在跌倒相關傷害的RR樣本估計的大小或方向上存在差異。

b) Cochran's Q test結果表明樣本估計值間存在異質性。

c) Higgins的I²檢定統計量表明樣本估計值間存在同質性。

d)子群體分析無法解釋跌倒相關傷害整體統合分析的統計學異質性。

答案：

a、b、d正確，c錯誤。

詳細說明：

　　共有8項試驗報告與跌倒相關的傷害。在每項試驗中，經過多面向因素評估和介入方案與對照組比較後，獲得跌倒相關傷害RR母群體參數的樣本估計值。統合分析的目的是合併8個試驗的樣本估計值，並提供母群體參數之單一估計值。通過合併樣本估計值，統合分析將證據縮減至可管理的數量。下圖為統合分析結果的森林圖[2]。

　　Figure Forest plot of the sample estimates of the relative risk of fall related injuries after multifactorial assessment and intervention programmes compared with the control

　　介入組與對照組相比，跌倒相關損傷RR總效果量為0.90(95% CI：0.68 - 1.20)。因此，雖然介入後跌倒相關傷害風險降低，但差異不顯著。統合分析必須納入異質性的統計檢定。該檢定目的是評估樣本估計值間的變異程度。如果對母群群RR的樣本估計值具有不同的大小或具有相反的影響方向，則存在異質性(a正確)。反之，若存在同質性，估計值將具有相似的大小和方向。若存在異質性，它將影響如何計算總體效果量估計值，如下文所述。此外，探索異質性的潛在來源是明智的。例如，若介入的效果在提供介入的地點(醫院vs社區)不同，就會出現異質性。則有必要對介入子群體的每個研究中心分別估計介入效果。否則，統合分析的結果可能在介入的有效性方面產生誤導，並可能不利於未來的病人治療。

　　統計學異質性最常用的檢定法為Cochran's Q test及Higgins's I²檢定統計量。Cochran's Q是異質性的傳統檢定法，基於χ2 test [3]。採用與傳統統計假設檢定相似的方法，使用Cochran's Q test進行異質性的統計檢定，包括一個虛無假設和一個對立假設。虛無假設為，各試驗母群體參數的樣本估計值間存在同質性，它們間的任何差異都不會超過從同一母群體中抽取樣本時的期望值——亦即，它們間的任何差異都是抽樣誤差的結果。對立假說認為樣本估計值間存在異質性。跌倒致傷統合分析的異質性檢定結果顯示在森林圖的底部，即"異質性檢定:χ2=15.77, df=7, P=0.03, I²=55.6% "。前三個統計量是上述統計假設的χ2檢定統計量、自由度(df)和Cochran's Q test得出之P值。I²統計量指的是Higgins's I²檢定統計量。Cochran's Q test的P值為0.03，小於0.05(5%)的傳統臨界顯著性水準，因此虛無假設被拒絕，而採用對立假設，結論為樣本估計值間存在異質性(b正確)。Cochran Q test的準確性不高；它傾向保守結果，經常不能檢測到樣本估計值的異質性。因此，通常選擇0.10(10%)的臨界顯著性水準，而非傳統的0.05(5%)。由於Cochran's Q test缺乏準確性，Higgins's I²檢定統計量常被用作異質性的額外檢定。Higgins’s I2檢定統計量表示由於異質性而非抽樣誤差導致的樣本估計值間的變異比例。數值範圍為0% ~ 100%，0%表示統計同質性存在，100%表示統計異質性存在。文獻建議將低、中、高(異質性)切點設為25%、50%和75%的I²值。一般而言，如果I²≥50%，則認為存在顯著異質性。在上述統合分析中，I2為55.6%，表示存在顯著異質性(c錯誤)，證實Cochran's Q test結果。

　　統計異質性檢定影響如何獲得介入後與對照相比跌倒相關傷害RR的總效果量估計值。樣本估計值間存在異質性，應採用“隨機效果”法推導治療效果的合併總效果量估計值。若同質性存在，則採用“固定效果”法。與採用固定效果法的統合分析相比，採用隨機效果法的統合分析產生的總效果量之信賴區間較寬，導致對介入效果的估計不太準確。介入總效果量的準確性降低反映了樣本估計值間的異質性。研究人員進行子群體分析，調查樣本估計值間的異質性。本研究目的是確定8項試驗間關於跌倒相關傷害RR的樣本估計值之異質性是否可以用試驗間的差異來解釋，例如，介入的實施方式或參與者的招募方式。若介入效果可能會因實施介入的方式或病人子群體的不同而有差異，這將對未來的治療產生影響。研究人員選擇了幾項被認為對解釋樣本估計值間觀察到的異質性很重要的因素。這些子群體是基於三個因素：地點(醫院vs社區)，團隊中是否包括一名醫師(是vs否)，及試驗參與者被選擇是否是因為他們跌倒的風險高(是vs否)。

　　對於每因素子群體，我們對與跌倒相關的傷害進行單獨的統合分析，並通過合併子群體內各試驗的樣本量估計值得出介入效果的次總效果量。我們在每個子群體內對統合分析進行異質性檢定，但未給出結果。我們可以就某一因素在子群體間比較介入效果的次總效果量和異質性檢定，雖然僅能通過非正式的目測法進行。每個子群體內異質性檢定沒有統計學顯著，並不代表該因數內的子群體解釋整體觀察到的統計學異質性。比較各因素子群體間統計異質性檢定的結果可能會產生誤導，因為子群體在試驗數和參與者個數可能沒有足夠的統計簡力來檢測異質性。

　　為了正式研究某一因素子群體間之異質性，我們通過交互作用檢定比較各子群體中介入效果的次總效果量估計值。例如，對實施介入的因素場所(醫院vs社區)的交互作用進行的檢定研究介入對跌倒相關傷害風險的影響是否在子群體間有差異。相互作用有時被稱為效應修正(effect modification)。在一項統合分析中，我們使用Cochran's Q test或Higgins's I²或兩者來研究交互作用。這些檢定包括比較子群體間的次總效果量估計值。Cochran 's Q test提供對虛無假設的檢定，即在母群體參數的次總估計值中，子群體間存在同質性，即子群體組間之任何變異不超過由於抽樣誤差而導致的期望值。Higgins's I²檢定統計量測量子群體間總變異在次總估計值中所占的比例，這些次總估計值是由異質性而非抽樣誤差造成的。交互作用檢定與合併所有試驗的統合分析中的異質性檢定形成對比，在統合分析中，Cochran's Q和Higgins's I²用於比較所有試驗之間處置效果的樣本估計值。本研究對每個因素進行交互作用檢定，包括地點、團隊中是否包括一名醫師，以及參與者被選入是否因為是跌倒的高風險族群。對於每個因素，研究人員進行Cochran's Q test，以檢定子群體間的交互作用。交互作用檢定結果：地點(醫院vs社區)：χ2=0.1, P=0.75；是否有醫生加入團隊(yes v no)：χ2=0.1, P=0.75；是否因為跌倒風險高(是v 否)而選入試驗：χ2=0.42, P=0.52。在這些交互作用檢定中，P值均未小於0.05(5%)的傳統臨界顯著性水準。因此，在跌倒相關傷害的整體統和分析中，統計學異質性無法通過子群體分析來解釋(d正確)。研究人員評論說，由於這些研究是在多個國家進行的，母群體或醫療系統間的差異可能導致了異質性。試驗間的方法學差異也可能導致統計學異質性。特別是，上述統合分析納入了隨機或準隨機試驗，因此方法學品質不同。准隨機試驗並非真的採用隨機分配的方式將參與者進行分配，例如替代分配(alternate allocation)。在解讀採用交互作用檢定的子群體分析結果時需要謹慎。這些結果可能具有誤導性，因為這些分析是觀察性的，而不是基於隨機病人組之間的比較，因此容易產生干擾。

Reference:

[1] Gates S, Fisher JD, Cooke MW, et al. Multifactorial assessment and targeted intervention for preventing falls and injuries among older people in community and emergency care settings: systematic review and meta-analysis. BMJ 2008;336:130.

[2] Sedgwick P. How to read a forest plot. BMJ 2012;345:e8335.

[3] Sedgwick P. Statistical tests for independent groups: categorical data. BMJ 2012;344:e344.

Cite this as: BMJ 2015;350:h1435

https://www.bmj.com/content/350/bmj.h1435