"匯東華-認真作好每件事"
~統計,不再是阻力,而是助力~

 BMJ小小統計問題(34)                                                 

前言:

W學員對幾種相關分析法有疑問,不清楚這幾種方法適用於何種情況。剛好BMJ統計問題有相關主題的說明,就加餐囉
常見的統計分析軟體,如SPSS都能執行本節內容提到的相關分析,可看附圖。
  
  
題目:
  研究人員調查飲茶習慣和食道鱗狀細胞癌風險之間的關係。在伊朗北部的格列斯坦省進行了一項以人口為基礎的病例對照研究。研究發現,喝熱茶與增加患食道癌的風險密切相關[1]。
  研究人員還調查了飲茶自報溫度和實際飲茶溫度間的一致性。研究人員選取了48,582名健康成年人作為樣本。自我報告的茶溫度被分為微溫、熱和非常熱。實際溫度分為<65°C、65-69°C和≥70°C。自報溫度與實際飲茶溫度的相關係數為0.46 (P<0.001)。
  
下列哪種相關係數可能被用來檢定喝茶時的自報溫度和實際溫度間之關係?
a) Kendall’s rank correlation coefficient
b) Pearson’s correlation coefficient
c) Spearman’s rank correlation coefficient
  
答案:
Kendall’s (答案a)和Spearman’s (答案c)的等級相關係數可以被用來檢定飲茶自報溫度和實際溫度間的關係。
  
詳細說明:
  相關係數為衡量兩個變數間的關聯強度[2]。實際和自報的茶溫度都是序位(ordinal)變數——亦即,是有程度順序之分的類別變數。Kendall’s (答案a)或Spearman’s (答案c)的等級相關係數可能被用來研究此兩變數間的關聯。然而,這兩個等級相關係數並不相同。在上面的例子中,研究人員推導出了Spearman’s等級相關係數。樣本中的Spearman’s相關係數用rs表示,而母群體中則用ρs表示。Kendall’s等級相關係數通常被稱為Kendall’sτ。然而,一些作者區分了樣本和母群體中的Kendall’s等級相關係數,稱樣本值為T,母群體參數為τ。
  
  Kendall 's和Spearman 's rank相關係數是無母數分析,對應於母數分析的Pearson’s相關係數(答案b)。Pearson’s相關係數已於之前說過[2],若兩個變數都是數值,且至少其中一個是常態分佈,則可使用。若兩變數均非常態分佈,或至少有一個變數是序位測量,則應使用Spearman 's或Kendall 's等級相關係數。
  
  Kendall’s和Spearman’s等級相關係數與Pearson的相關係數具有相似的性質。相關係數是在一個沒有單位的數值,其值可以從−1到0到+1。在本例中,如果相關係數為正,則存在正相關,表明樣本成員準確地自我報告了茶葉溫度。如果相關係數為負,則存在負相關,表明樣本成員自我報告的高茶葉溫度(≥70°C)為熱或微溫,低溫度(<65°C)為非常熱。兩個變數間的完全相關關係可以用+1或−1表示。相關係數為0表示此兩變數間沒有關聯——也就是說,它們是不相關的。
  
  在本例中,採用傳統方法相似的統計假設檢定[3],進行顯著性檢定得出Spearman’s等級相關係數的P值。虛無假設是指樣本所在的母群體相關係數等於0。對立假設表示樣本所在的母群體相關係數不等於0;對立假設是雙尾的,所以相關係數可以是<0或>0。Spearman相關係數(r=0.46)顯著性檢定P值<0.001;因此,樣本成員更傾向於準確地自我報告實際茶水溫度。
   
  
  
Reference:
[1] Islami F, Pourshams A, Nasrollahzadeh D, Kamangar F, Fahimi S, Shakeri R, et al. Tea drinking habits and oesophageal cancer in a high risk area in northern Iran: population based case-control study. BMJ 2009;338:b929.
[2] Sedgwick P. Pearson’s correlation coefficient. BMJ 2012;345:e4483.
[3] Sedgwick P. Statistical hypothesis testing. BMJ 2010;340:c2059.
Cite this as: BMJ 2012;345:e5407

 數據串接與清洗

數據是礦藏,數據清洗是挖出鑽石的第一步,尤其是巨量知識。數據清洗或串接執行過程需要細心與專注,且有可能會消耗許多時間和精力,就由我們來替各位處理掉這個大麻煩。

全民健保研究資料庫、國外大型資料庫資料非常齊全,種類多,需要串接與清洗,進行正規化後才能更進一步進行資料探勘與統計分析。




Fig1.同一個Project資料散落在不同tables,無法使用




Fig2.整併與清理為可分析的table




Fig.3整理和分析後形成有意義的知識


概念與流程示意圖

 教育培訓

課程規劃核心為以「學習者」為中心進行「傳承」

以學習者為中心,結合陳秀敏博士十多年來的統計實務以及教學經驗,設計適合學員學習方式,開設課程,達到有效學習。

 

開設線上統計學院

https://medata.teaches.cc/

SPSS基礎統計實戰班:第一次分析SCI研究就上手(上、下)

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=MPz2wqN0v2M

課程介紹2:https://www.youtube.com/watch?v=nd5A5duxO5E

 

臨床研究思維-Open your mind

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=yTHdBnCdSnY
課程介紹2 : https://www.youtube.com/watch?v=kE9tXraICqk

臨床研究基本原則 : https://www.youtube.com/watch?v=1tTApx1hjn0

 計畫撰寫與統計諮詢





為了讓匯東華的顧客與學員有更好的合作和消費體驗,故匯東華特別依據營業項目開發周邊產品,提供使用、購買。目前已有針對公共衛生師的題庫以及模擬試題,未來將針對醫學研究領域發展產品。