"匯東華-認真作好每件事"
~統計,不再是阻力,而是助力~

BMJ小小統計問題(119):Skewed distributions II (偏態分布 II)

Cite this as: BMJ 2010;341:c6448

                                                   

前言

近日公司業務持續繁忙,睜眼閉眼時光剎那,也很期待2024年的到來。希望明年度公司能呈現新面貌。陸續收到很多顧客和學員的正面的回饋,感謝大家的支持與愛護。讓我們知道,公司產品的正面效益,除了能讓學員有所得外,還能提升在校學生的學習動機。這些回饋都是我們不斷努力與前進的動力。沒什麼是一蹴可幾的。使用正確的方式,逐步累積,並且不斷實踐才是正途。

本期小小統計問題談的一樣是偏態分布,主要重點在於"即使在正偏態分佈的情況下,68-95-99.7規則(經驗法則)仍然在一定程度上適用。這個規則指出,大約68%的數據點會落在距離平均值一個標準差範圍內,95%會落在兩個標準差範圍內,而99.7%會落在三個標準差範圍內"。過去的統計問題已經有不少偏態分布與對應之統計檢定相關主題,建議一併觀看,學習效果更佳!Hope u enjoy it 


-----

路徑:匯東華官網/學習專區/BMJ小小統計問題

匯東華[課程招生中]

✅「12/9(六):A01-SPSS零基礎入門統計班」09:00-17:00招生中!

✅「12/10(日):A02-03:SPSS實戰訓練班:Logistic regression和存活分析」09:00-17:00招生中!

流行病學與生物統計慶新年:新版教材上市優惠開跑 [至2024年1月31日]


-----

✨本公司提供【流行病學】與【生物統計學】線上課程,請至匯東華統計學院

匯東華會員制

更多課程介紹與報名資訊


-----

問題

    研究人員調查長期服用metformin對接受胰島素治療的 2 型糖尿病患者維生素 B12 缺乏風險的影響[1]。共有 390 名患者被隨機分配接受 850 毫克metformin或 850 毫克安慰劑,每天三次。

主要結局指標包括 4、17、30、43 和 52 個月追蹤時血清同型半胱氨(homocysteine)酸濃度與基線相比的百分比變化。基線時,metformin組(196 人)之homocysteine平均濃度為 14.4 μmol/l(標準差為 9.7 μmol/l),而安慰劑組(194 人)的homocysteine平均濃度為 14.6 μmol/l(標準差為 10.3 μmol/l)。

 

在基線時的metformin組個案,下列敘述何者正確?

a) 約 68% 或更多的homocysteine測量值與樣本平均值相差不超過一個標準差

b) 約 95%或更多的homocysteine測量值與樣本平均值相差不超過兩個標準差

c) homocysteine分佈呈正偏態

d) homocysteine濃度的樣本平均值小於樣本中位數

 

答案

a、b 和 c 正確,d 錯誤。

 


詳細說明

    之前問題解釋如何用樣本平均數和標準差來描述連續變數的樣本測量值的分布[2-3]。大約 68% 或更多的觀察值與樣本平均數的距離不會超過一個標準差(a 正確),大約 95% 或更多的觀察值與樣本平均數的距離不會超過兩個標準差(b 正確),大約 99% 或更多的觀察值與樣本平均數的距離不會超過三個標準差。無論樣本測量值的分布是常態分布或是偏態分佈,都能夠做出這些推論。

    Metformin組homocysteine基線平均濃度為 14.4 μmol/l,標準差為 9.7 μmol/l。因此,約 68% 或更多的患者的homocysteine測量值介於(14.4-9.7)和(14.4+9.7)之間,即介於 4.7 μmol/l 和 24.1 μmol/l 之間。metformin組中約 95% 或更多的人的homocysteine測量值介於(14.4-(2×9.7))和(14.4+(2×9.7))之間,即介於-5.0 μmol/l 和 33.8 μmol/l 之間。此外,約 99% 或更多患者的homocysteine測量值介於(14.4-(3×9.7))和(14.4+(3×9.7))之間,即介於-14.7 μmol/l 和 43.5 μmol/l 之間。

    Metformin組約 95% 或更多的homocysteine樣本測量值介於 -5.0 μmol/l 和 33.8 μmol/l 之間。由於homocysteine不可能為負值,因此,大約 95% 或更多的樣本測量值會介於 0 至 33.8 μmol/l 之間。樣本平均值小於範圍的中點;因此,homocysteine的分佈呈正偏態(c 正確)。該樣本的homocysteine濃度長條圖預期右側會有一個長尾,包含一些極大值,而大部分觀察值集中在左側,但高於零值。由於樣本平均數(14.4 μmol/l)小於樣本標準差的兩倍(9.7×2=19.4 μmol/l),且homocysteine酸濃度不可能為負值,因此可以從上述所列的統計量中發現分布為正偏態。因此,樣本平均值應大於中位數(d 錯誤)[4]。

    樣本平均數和標準差是描述樣本測量值分布的有用量值。無論分布的形狀為何,我們都能推斷出樣本測量值的近似比例將包含在樣本平均數兩側標準差的給定倍數內。不過,這些推斷的價值取決於樣本測量值之分布是合理對稱的這一假設,否則得出的範圍可能包含不合理的數值。平均值和標準差通常是樣本的唯一描述性統計。雖然無法從這些簡要統計資料中推斷樣本測量值的分布是否近似於常態分布,但有時可以推斷出樣本測量值的分佈不近似於常態分佈。在選擇適當的統計檢驗以確定各組個體的樣本測量值是否存在差異時,確定樣本測量值的分布形狀非常重要。

 

Reference:

[1]de Jager J, Kooy A, Lehert P, Wulffele MG, van der Kolk J, Bets D, et al. Long term treatment with metformin in patients with type 2 diabetes and risk of vitamin B-12 deficiency: randomised placebo controlled trial. BMJ2010;340:c2181.

[2]Sedgwick P. Describing the spread of data I. BMJ2010;340:c1116.

[3]Sedgwick P. Describing the spread of data II. BMJ2010;340:c1282.

[4]Sedgwick P. Skewed distributions. BMJ2010;341:c6276.

#匯東華 #BMJ統計問題 #Skewed distributions 


以下為ChatGPT根據本題條件下模擬2000次的結果:

條件:個案數196人,平均值是14.4,標準差為9.7homocysteine數值不可能為負數之條件下,模擬2000次的結果,使用這些結果平均值來製圖。


經過2000次模擬後,其結果為:

    68.4% 的數據點落在距離平均值一個標準差範圍內。

    97.7% 的數據點落在距離平均值兩個標準差範圍內。

    99.9% 的數據點落在距離平均值三個標準差範圍內。

 

這些結果進一步證實即使在數據呈現正偏態的情況下,68-95-99.7規則仍然大致適用。

 

這些模擬結果的平均分布平均值(紅色虛線)和標準差範圍(綠色和藍色虛線)。

 

根據進行的模擬和分析發現,即使在數據呈現正偏態的情況下,大約68%的數據點落在距離平均值一個標準差範圍內,約95%的數據點落在兩個標準差範圍內,這與經驗法則(68-95-99.7規則)一致。這表明即使在一些特殊情況下,這些規則仍然可以作為描述數據集分布的有用工具。

 數據串接與清洗

數據是礦藏,數據清洗是挖出鑽石的第一步,尤其是巨量知識。數據清洗或串接執行過程需要細心與專注,且有可能會消耗許多時間和精力,就由我們來替各位處理掉這個大麻煩。

全民健保研究資料庫、國外大型資料庫資料非常齊全,種類多,需要串接與清洗,進行正規化後才能更進一步進行資料探勘與統計分析。




Fig1.同一個Project資料散落在不同tables,無法使用




Fig2.整併與清理為可分析的table




Fig.3整理和分析後形成有意義的知識


概念與流程示意圖

 教育培訓

課程規劃核心為以「學習者」為中心進行「傳承」

以學習者為中心,結合陳秀敏博士十多年來的統計實務以及教學經驗,設計適合學員學習方式,開設課程,達到有效學習。

 

開設線上統計學院

https://medata.teaches.cc/

SPSS基礎統計實戰班:第一次分析SCI研究就上手(上、下)

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=MPz2wqN0v2M

課程介紹2:https://www.youtube.com/watch?v=nd5A5duxO5E

 

臨床研究思維-Open your mind

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=yTHdBnCdSnY
課程介紹2 : https://www.youtube.com/watch?v=kE9tXraICqk

臨床研究基本原則 : https://www.youtube.com/watch?v=1tTApx1hjn0

 計畫撰寫與統計諮詢





為了讓匯東華的顧客與學員有更好的合作和消費體驗,故匯東華特別依據營業項目開發周邊產品,提供使用、購買。目前已有針對公共衛生師的題庫以及模擬試題,未來將針對醫學研究領域發展產品。