"匯東華-認真作好每件事"
~統計,不再是阻力,而是助力~

 BMJ小小統計問題(11)                                                         

前言:
這幾周的BMJ統計(7)-(10)談完,相信大家對推論性統計已經有一定概念。未什麼需要進行推論?因為有抽樣誤差。本周就來初涉抽樣誤差。文中談到到樣本分布的標準差(standard deviation, SD)以及樣本平均值分布的標準誤(standard error, SE),我們很常使用,但卻不一定能解其意。就來看看吧
題目:
研究人員評估一種新開發的行為干預措施之有效性,該措施旨在防止有年幼子女的婦女預防體重增加以及改善健康相關行為。採用一隨機對照試驗。干預組接受了四次互動小組會議,包括簡單的健康資訊、改變行為的策略和小組討論,此外還每月使用12個月的行動電話短信提供支持。對照組接受一個非互動式的基於一般民眾的飲食和身體活動指引訊息。[1]
共招募250名孩子就就讀於12所小學其中一所的25-51歲的婦女,並隨機分為干預組(n=127)和對照組(n=123)。主要結果是12個月後體重相較基線的變化。一年後,干預組的女性平均體重減輕了0.20公斤(標準差3.66公斤,標準誤差0.35公斤),而對照組的女性平均體重增加了0.83公斤(3.69公斤,0.36公斤)。
研究人員報告指出治療組別間在12個月後的平均體重變化有顯著差異(干預組減對照組; 平均差異-1.13公斤,95% 信賴區間-2.03~-0.24)。組別間的平均差異已經根據集群和基線體重進行調整。作為母群體參數估計的樣本平均值的準確性可能會受到抽樣誤差的影響。
下列哪些敘述是正確的?(複選)
a)由於樣本是從母群體中抽取的,因此會有抽樣誤差
b)抽樣誤差用12個月時體重變化的標準差 (standard deviation, SD) 來量化
c)抽樣誤差採用12個月時體重變化的標準誤 (standard error, SE) 進行量化
答案:
a) 與 c) 正確,b)錯誤
說明:
在上面的例子中,研究人員評估一種新開發行為干預的有效性,以防止有年幼孩子的女性體重增加。將干預組與控制組進行比較。對每個組別個案而言,12個月後的平均體重變化是該治療方式(干預或對照)的母群體參數的估計值。也就是說,如果接受了該種治療,所有有年幼子女婦女的體重變化將在母群體中被觀察到。12個月時不同組間體重變化的樣本平均值差異是各處理間平均體重變化差異的母群體參數估計值。
雖然我們希望樣本估計值的大小與母群體參數相似,但它們不太可能完全相同。抽樣誤差是指樣本估計值和母群體參數之間的大小差異。樣本估計值的任何不準確之處都來自它是基於母群體中的個體樣本(a 正確)。一般來說,抽樣誤差會隨著樣本量的增加而變小,因為樣本量更能準確地代表母群體。此外,如果在增加樣本量的同時自母群體中隨機抽取樣本,則抽樣誤差將得到控制。在上面的例子中,婦女是通過便利抽樣招募的,她們子女就讀於12所小學中其中一所。很難量化這些母親族群在母群體中的代表性。在整個母群體中隨機抽樣將會產生一個更有代表性的樣本。
對於每個組別,12個月樣本平均體重減輕作為母群體參數估計的準確性可由平均值的標準誤來量化 (c正確)。平均值的標準誤(the standard error of the mean, SEM),有時簡稱為標準誤(SE),由樣本資料得出。由於母群體參數是未知的,抽樣誤差是一個理論概念。一般來說,標準誤愈大,樣本估計值的準確性愈低。標準誤是用12個月體重變化平均值的樣本標準差除以樣本量的平方根得到。因此,隨著樣本量的增加,標準誤一般會減小。這很直觀,因為當樣本量接近母群體時,樣本平均值會變得更接近母群體平均值。該方法用於計算12個月組別間平均體重變化差異的母群體參數之95%信賴區間。在前面的問題中已說明的95%信賴區間[2]量化了組別樣本之間平均數差異作為母群體參數估計的不確定性。
標準差和標準誤經常混淆。標準差不提供抽樣誤差的測量標準(b錯誤)。所呈現的標準差描述了每組母親12個月時體重變化的變異程度。12個月體重的樣本標準差可以用來計算包含參與者一系列體重範圍的特定比例。[3]
原文:
Researchers evaluated the effectiveness of a newly developed behavioural intervention designed to prevent weight gain and improve health related behaviours in women with young children. A cluster randomised controlled trial was used. The intervention group received four interactive group sessions that involved simple health messages, strategies to change behaviour, and group discussion, in addition to monthly support using mobile telephone text messages for 12 months. The control group received one non-interactive information session based on population guidelines on diet and physical activity.[1]
In total, 250 women aged 25-51 years with a child attending one of 12 primary schools were recruited and randomised as school clusters to the intervention group (n=127) or control group (n=123). The main outcome was weight change from baseline at 12 months. After one year, women in the intervention group had lost on average 0.20 kg (standard deviation 3.66 kg, standard error 0.35 kg), compared to an average weight gain of 0.83 kg (3.69 kg, 0.36 kg) for women in the control group. The researchers reported a significant difference between treatment groups in mean weight change at 12 months (intervention minus control; mean difference −1.13 kg, 95% confidence interval −2.03 to −0.24). The mean difference between treatment groups had been adjusted for cluster and weight at baseline. The accuracy of the sample means as estimates of the population parameters may have been influenced by sampling error.
Which of the following statements, if any, are true?
a) Sampling error would have occurred because a sample was taken from the population
b) Sampling error was quantified by the standard deviation of weight change at 12 months
c) Sampling error was quantified by the standard error of weight change at 12 months
Answers
Answers a and c are true, whereas b is false.
Reference:
[1] Lombard C, Deeks A, Jolley D, Ball K, Teede H. A low intensity, community based lifestyle
programme to prevent weight gain in women with young children: cluster randomised
controlled trial. BMJ 2010;341:c3215.
[2] Sedgwick P. Confidence intervals: predicting uncertainty. BMJ2012;344:e3147.
[3] Sedgwick P. Standard deviation versus standard error. BMJ2011;343:d8010.
Cite this as: BMJ2012;344:e4285

 數據串接與清洗

數據是礦藏,數據清洗是挖出鑽石的第一步,尤其是巨量知識。數據清洗或串接執行過程需要細心與專注,且有可能會消耗許多時間和精力,就由我們來替各位處理掉這個大麻煩。

全民健保研究資料庫、國外大型資料庫資料非常齊全,種類多,需要串接與清洗,進行正規化後才能更進一步進行資料探勘與統計分析。




Fig1.同一個Project資料散落在不同tables,無法使用




Fig2.整併與清理為可分析的table




Fig.3整理和分析後形成有意義的知識


概念與流程示意圖

 教育培訓

課程規劃核心為以「學習者」為中心進行「傳承」

以學習者為中心,結合陳秀敏博士十多年來的統計實務以及教學經驗,設計適合學員學習方式,開設課程,達到有效學習。

 

開設線上統計學院

https://medata.teaches.cc/

SPSS基礎統計實戰班:第一次分析SCI研究就上手(上、下)

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=MPz2wqN0v2M

課程介紹2:https://www.youtube.com/watch?v=nd5A5duxO5E

 

臨床研究思維-Open your mind

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=yTHdBnCdSnY
課程介紹2 : https://www.youtube.com/watch?v=kE9tXraICqk

臨床研究基本原則 : https://www.youtube.com/watch?v=1tTApx1hjn0

 計畫撰寫與統計諮詢





為了讓匯東華的顧客與學員有更好的合作和消費體驗,故匯東華特別依據營業項目開發周邊產品,提供使用、購買。目前已有針對公共衛生師的題庫以及模擬試題,未來將針對醫學研究領域發展產品。