"匯東華-認真作好每件事"
~統計,不再是阻力,而是助力~

 BMJ小小統計問題(66):

Log transformation of data (資料的對數轉換)

                

前言:

承接這幾期母數 v 無母數檢定法的討論。提到若資料不符合母數分析之常態分佈假設,可以透過本期介紹的對數轉換達成。Hope u enjoy it.

               

最近本公司官網也推出多種代執行統計分析的產品及說明,持續補充。有興趣的朋友歡迎至官網/營業項目/統計分析或最新消息了解。

                 

之後幾周會對統計的效果量(effect size)進行介紹。

                 

題目:

研究人員評估早期腹腔電腦斷層掃描對不明原因的急性腹痛病人之成效。採用隨機對照試驗研究設計。介入措施為早期電腦斷層掃描(入院後24小時內)。對照組治療是標準做法(影像學檢查)。使用隨機分配將各55名病人分配到早期電腦斷層掃描組和控制組[1]。

                 

主要結局指標包括住院時間。住院時間分佈呈正偏態。使用對數函數轉換觀察結果,然後用Student 's t test進行治療組間的比較。標準做法組的住院時間比早期電腦斷層掃描組平均長1.1天(幾何平均6.4天(範圍1到60)和5.3天(1到31)。幾何平均值(標準治療與早期電腦斷層掃描)之比為1.21(95% CI 0.92 ~ 1.56)。

                

該研究的結論為,急性腹痛的早期腹腔電腦斷層掃描可縮短住院時間和死亡率。此外,還可以識別預期之外的情況和可能之嚴重併發症。

                 

下列敘述何者正確?(複選)

a)住院時間的對數轉換目的是實現常態分佈。

b)兩治療組住院時間的幾何平均值均大於算術平均值。

c)標準做法組的住院時間比早期電腦斷層掃描組平均長21%。

d)在5%顯著水準上,住院天數在治療間具有顯著差異。

     

答案:

a、c正確,b、d錯誤。

        

詳細說明: 

  Student's  t 檢定比較的是兩獨立組間在連續尺度上測量之變數平均值 [2]。Student's  t 檢定有時被稱為獨立樣本t檢定、雙樣本t檢定,或簡稱為t檢定。Student's  t檢定為一種母數分析法,對將要應用的檢定資料做了假設。母數檢定假設被比較變數在兩組中近似常態分佈,且兩組的變異數相等[3]。

               

  在本例中,目的是確定治療組間在住院時間上是否有顯著差異。住院時間為偏態分佈,故不能使用Student's t test。有兩種選擇。首先,可以執行無母數檢定,不對資料分佈進行假設。可以使用Wilcoxon rank sum test或Mann-Whitney U test [4]。或者,可以對住院時間的觀察結果進行轉換,希望轉換後的資料能夠滿足Student's t檢定的假設。結果變數,住院時間,使用對數函數轉換(簡稱“對數轉換”),沒有說明是得到自然對數(以e為底,一個數學常數≈2.718)還是公對數(以10為底),但兩者都是合適的。轉換後的資料近似常態分佈(a正確),允許使用Student's t 檢定。雖然沒有說明Student's t 檢定所需的變異數相等在轉換後是否滿足,但對數轉換後,通常兩組間能實現變異數相等。

             

  住院時間分佈為右偏態,因此算術平均值會因在分佈右尾的少數極大值而不成比例地提高。住院時間中位數比算術平均數更能衡量中心位置。然而,住院時間經過對數變換後呈常態分佈,在此情況下,幾何平均值是一個適合度量中心位置的方法。各治療組的幾何平均值通過反對數(anti-logging,即反轉換)得到,即各治療組的對數轉換為住院時間之算術平均值。幾何平均值的刻度與單位和原始結果測量相同。住院時間分佈為右偏態,因此幾何平均值將大於中位數,但小於算術平均值(b錯誤)。據研究結果顯示,兩組的中位住院時間為5天,而早期電腦斷層掃描組的原始(未轉換)平均值為6.6 (SD=5.8)天,標準做法組為9.2 (9.8)天。幾何平均在早期電腦斷層掃描組為5.3天,在標準做法組為6.4天。

            

  針對進行數轉換資料的組間平均差進行反對數(anti-log)相當於幾何平均值的比值。反對數轉換資料的平均差之95%信賴區間上下限,給出幾何均值比值的95%信賴區間。標準做法組的幾何平均值為6.4天,早期電腦斷層掃描組為5.3天。兩個均值的比值(6.4÷5.3)為1.21,對應的95%信賴區間為0.92 ~ 1.56。此一比值的解釋與相對危險性類似,因此,標準做法組之住院時間比早期電腦斷層掃描組平均長21% (c正確)。95%信賴區間是對幾何平均值比值的母數參數之區間估計,表示樣本在估計母數參數時由於抽樣誤差而產生的不確定性。因此,以0.95的機率估計,在母群體中,與早期電腦斷層掃描組相比,標準做法組可能縮短8%或延長56%的住院時間。幾何平均值比率的95%信賴區間跨過1,因此,治療組間住院時間的差異在5%的顯著性水準上不顯著[5] (d錯誤)。此結論也反映在該比值檢定的P值為0.17上。

             

  在醫學上,許多變數的分佈都呈右偏態,對數變換通常用於在資料中實現常態分佈。此種資料轉換在統計分析中很重要。若一個變數在轉換後呈常態分佈,即具有優勢,因為能允許使用母數統計檢定,而不是無母數統計檢定。除了假設檢定外,母數統計檢定允許使用信賴區間對治療效果進行估計,而無母數檢定一般僅限於單獨的假設檢定。有時,在進行無母數檢定時,可以獲得對治療效果的估計,但通常無法直接獲得。

              

  對數轉換是可以應用於統計分析的幾種轉換方式之一。通常,將應用資料轉換,以使資料滿足將要應用的統計檢定或過程的假設。轉換的選擇通常取決於變數的類型、測量的尺度或變數分佈的形狀。

          

Reference:

[1] Ng CS, Watson CJE, Palmer CR, See TC, Beharry NA, Housden BA, Bradley JA, Dixon AK. Evaluation of early abdominopelvic computed tomography in patients with acute abdominal pain of unknown cause: prospective randomised study. BMJ 2002;325:1387.

[2] Sedgwick P. Independent samples t test. BMJ 2010;340:c2673.

[3] Sedgwick P. Parametric v non-parametric statistical tests. BMJ 2012;344:e1753.

[4] Sedgwick P. Non-parametric statistical tests for independent groups: numerical data. BMJ 2012;344:e3354.

[5] Sedgwick P. Confidence intervals and statistical significance: rules of thumb. BMJ

2012;345:e4960.

                  

Cite this as: BMJ 2012;345:e6727

https://www.bmj.com/content/345/bmj.e6727 

 數據串接與清洗

數據是礦藏,數據清洗是挖出鑽石的第一步,尤其是巨量知識。數據清洗或串接執行過程需要細心與專注,且有可能會消耗許多時間和精力,就由我們來替各位處理掉這個大麻煩。

全民健保研究資料庫、國外大型資料庫資料非常齊全,種類多,需要串接與清洗,進行正規化後才能更進一步進行資料探勘與統計分析。




Fig1.同一個Project資料散落在不同tables,無法使用




Fig2.整併與清理為可分析的table




Fig.3整理和分析後形成有意義的知識


概念與流程示意圖

 教育培訓

課程規劃核心為以「學習者」為中心進行「傳承」

以學習者為中心,結合陳秀敏博士十多年來的統計實務以及教學經驗,設計適合學員學習方式,開設課程,達到有效學習。

 

開設線上統計學院

https://medata.teaches.cc/

SPSS基礎統計實戰班:第一次分析SCI研究就上手(上、下)

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=MPz2wqN0v2M

課程介紹2:https://www.youtube.com/watch?v=nd5A5duxO5E

 

臨床研究思維-Open your mind

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=yTHdBnCdSnY
課程介紹2 : https://www.youtube.com/watch?v=kE9tXraICqk

臨床研究基本原則 : https://www.youtube.com/watch?v=1tTApx1hjn0

 計畫撰寫與統計諮詢





為了讓匯東華的顧客與學員有更好的合作和消費體驗,故匯東華特別依據營業項目開發周邊產品,提供使用、購買。目前已有針對公共衛生師的題庫以及模擬試題,未來將針對醫學研究領域發展產品。