"匯東華-認真作好每件事"
~統計,不再是阻力,而是助力~

 BMJ小小統計問題(57)   

前言:

恍然中,還在設計2021年中秋賀卡,回過神,已是2022年。高雄的中秋,還是豔陽高照,伴著陣雨,空氣中尚未明顯流動著秋意。這是個收穫滿載,充滿感恩的季節。匯東華渡過了像陀螺一樣團團轉的八月,九月,會撥更多時間進行盤點、精進與休生養息。這周的主題在談統計檢力(power),檢力是偵測差異的敏感度,與樣本數有關,過高,過於敏感,一點小差異即會被顯示出來;反之,不足,則無法偵測出實際上有顯著的差異。本篇對檢力的概念說的透徹,並與之前所述的統計顯著與臨床顯著(重要性)概念相互呼應。老有朋友拿統計結果詢問我如何解讀及下結論,我會反問,這個結果是否有臨床/實務合理性及重要性?實務上如何說明此現象?不要迷失或迷戀數據分析的結果,記得回歸實務面進行詮釋。
敬祝各位朋友,中秋安康,平安喜樂 
   

題目:

  以家庭為基礎的幼兒介入對兒童2歲時的身體質量指數(BMI)效果進行調查。採用隨機對照優勢(superiority trial)試驗。介入包括在出生24個月內由經過專門培訓的社區護士進行8次家訪。該介入措施為在社區衛生服務常規照護外進行的。對照組單獨接受常規幼兒照護服務。參與者是新手母親的和她們的嬰兒[1]。

  主要結局是兒童2歲時的BMI。樣本量計算採用在雙尾檢定下,以80%檢力檢測兩組個案在2歲時BMI平均值差異為0.38單位,臨界顯著水準設為0.05。假設各組資料的標準差相同,均為1.5單位。總共需要504名參與者(每個治療組252名)。考慮到25%的退出率,樣本量增加到630名參與者。總共招募了667名首次參與試驗的母親和她們的嬰兒,其中337人被分配到介入組,330人被分配到對照組。

  在2歲時,介入組的平均BMI明顯低於對照組(16.53 v 16.82;差異-0.29,95%信賴區間−0.55 ~−0.02;P = 0.04)。

 

下列哪陳述何者正確?

a)治療組間平均BMI為0.38的差異被稱為臨床興趣的最小效果量

b)提高統計檢力需要更小的樣本數

c)本試驗對主要結局進行統計檢驗

d)可以推斷,由於結果顯著,治療組間在主要結局方面存在重要的臨床差異(P=0.04)

 

 答案:

a、c正確,b、d錯誤。

 

詳細說明:

  上述試驗目的為調查以家庭為基礎的早期介入對2歲兒童BMI的效果。對照組採用常規兒童照護服務,該試驗設計為隨機對照優勢試驗[2]。

  

  該治療在臨床上被認為優於另一種治療的有效性,為在2歲時的平均BMI有0.38單位之顯著差異。這種差異被稱為臨床感興趣的最小效果量(a正確),是由研究人員根據臨床經驗或以前的研究提出的。顯然,治療組間的差異愈大,臨床優勢就愈大,而差異愈小則無。

 

  臨床感興趣的最小效果量(0.38單位)可能在母群體中不存在。亦即,若應用於所有初次生育的母親和她們的嬰兒,治療組間2歲時的BMI差異可能小於0.38個單位。然而,如果臨床感興趣之最小效果量確實存在於母群體中,就要將能在試驗中被看到的機率最大化。要做到這一點,需要一個最佳樣本數。這是統計檢力概念的基礎。統計檢力是基於在相同條件下無限次重複上述試驗的假設情況。每次試驗都需要進行統計假設檢定,並得到P值。上述試驗中計算樣本數的統計檢力是這些重複樣本中顯示臨床感興趣最小效果量(若有存於母群體中)的顯著差異之百分比(P<0.05)。為了計算所需樣本數,除了臨床感興趣的最小效果量和最低檢力外,還需要臨界顯著性水準,並對2歲時BMI的預期標準差提供一些指示。假設各組BMI標準差相同以及根據既往的研究。

 

  顯然,在上述試驗中,統計檢力需要盡可能提高。然而,統計檢力的增加與更大的樣本數相關(b錯誤)。因為隨著樣本數的增加會愈接近母群體個數,在試驗中觀察到的BMI差異將與母群體中觀察到的差異相似。因此,隨著樣本數的增加,統計檢力也會增加,因為若差異存在母群體中,臨床感興趣的最小效果量更有可能在試驗中被看到。要獲得100%的統計檢力,就需要對整個人口進行取樣,但這是不可行的。因此,上述試驗在檢力和樣本數之間進行折衷。檢力設置為80%,為在臨床試驗中計算樣本數常推薦的最小值。

 

  在開始試驗前確定最佳樣本數是一個重要的倫理考量。如果樣本數太小,檢力會不夠,可能無法檢測到最小的臨床感興趣效果量,即使它存在於母群體中。這將被認為是不道德的,因為時間、精力和資源可能被浪費在運行一個幾乎沒有潛力顯示臨床意義的試驗上。同樣地,過大的樣本數會招募比實際需要更多的參與者,以顯示最小的臨床感興趣的效果量。會造成過度敏感。這也是不道德的,因為招募太多的參與者會浪費時間、精力和資源。

 

  在根據研究結果得出結論時,重要的是要認識到樣本數和統計顯著性間的關係。如上所述,統計檢力的增加與更大的樣本數有關。然而,隨著樣本數和檢力的增加,治療組間在主要結局方面逐漸縮小的差異將被判定為具有統計學意義。換句話說,有可能小於指定的最小臨床感興趣的效果量會被判定為具有統計學意義。因此,被認為具有統計學意義的組間差異可能並不具有臨床意義。在上述試驗中,臨床感興趣的最小效果量是治療組間在2歲時的BMI差0.38個單位。然而,實際的差異是0.29單位。雖然這一差異小於臨床感興趣的最小效果量,但仍在5%的顯著水準上具有顯著性。這是因為試驗過度敏感(c正確)。亦即,檢力大於樣本數計算中指定的80%。有幾個原因可以解釋這一點。樣本數計算提供了參與者數目之粗略估計,尤其是因為所需的一些資訊很難預測。包括兩治療組共同的主要結果之標準差,研究人員預測為1.5個單位。然而,主要結果的實際觀察標準差較小。此意味著試驗的檢力大於80%。此外,研究人員招募比需要更多的研究對象。所需樣本數為504人,但由於預期退出率為25%,研究人員預計招募630名參與者,約為26.5%的退出率。然而,最後總共招募667名參與者,因此研究的檢力進一步加大。

 

  儘管有倫理方面的考慮,但在上述試驗中增加檢力可能是有益的,因為若臨床感興趣的效果量若存在母群體中,則它更有可能被證明。然而,檢力增加的缺點為觀察到的治療組間的差異是顯著的,儘管它小於臨床感興趣的最小差異。在解釋過度敏感研究結果時需要謹慎,因為統計意義可能與臨床意義相混淆。以上述試驗為例,基於假設檢驗的統計學顯著性(P=0.04),研究人員得出結論,訓練有素的社區護士提供的家庭早期介入對降低2歲兒童的平均BMI是有效的。然而,事實並非如此,因為臨床感興趣的最小效果量在試驗開始前被指定為0.38 (d錯誤)。

 

Cite this as: BMJ 2013;347:f6282

https://www.bmj.com/content/347/bmj.f6282 

Reference:

[1] Wen LM, Baur LA, Simpson JM, Rissel C, Wardle K, Flood VM. Effectiveness of home based early intervention on children’s BMI at age 2: randomised controlled trial. BMJ 2012;344:e3732 [correction BMJ 2013;346:f1650].

[2] Sedgwick P. What is a superiority trial? BMJ 2013;347:f5420.

 數據串接與清洗

數據是礦藏,數據清洗是挖出鑽石的第一步,尤其是巨量知識。數據清洗或串接執行過程需要細心與專注,且有可能會消耗許多時間和精力,就由我們來替各位處理掉這個大麻煩。

全民健保研究資料庫、國外大型資料庫資料非常齊全,種類多,需要串接與清洗,進行正規化後才能更進一步進行資料探勘與統計分析。




Fig1.同一個Project資料散落在不同tables,無法使用




Fig2.整併與清理為可分析的table




Fig.3整理和分析後形成有意義的知識


概念與流程示意圖

 教育培訓

課程規劃核心為以「學習者」為中心進行「傳承」

以學習者為中心,結合陳秀敏博士十多年來的統計實務以及教學經驗,設計適合學員學習方式,開設課程,達到有效學習。

 

開設線上統計學院

https://medata.teaches.cc/

SPSS基礎統計實戰班:第一次分析SCI研究就上手(上、下)

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=MPz2wqN0v2M

課程介紹2:https://www.youtube.com/watch?v=nd5A5duxO5E

 

臨床研究思維-Open your mind

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=yTHdBnCdSnY
課程介紹2 : https://www.youtube.com/watch?v=kE9tXraICqk

臨床研究基本原則 : https://www.youtube.com/watch?v=1tTApx1hjn0

 計畫撰寫與統計諮詢





為了讓匯東華的顧客與學員有更好的合作和消費體驗,故匯東華特別依據營業項目開發周邊產品,提供使用、購買。目前已有針對公共衛生師的題庫以及模擬試題,未來將針對醫學研究領域發展產品。