"匯東華-認真作好每件事"
~統計,不再是阻力,而是助力~

 BMJ小小統計問題(14)                                                         

前言:
這幾周是存活分析周,針對存活分析相關概念進行介紹與說明。前四周講到HR, Kaplan-Meier survival curves及Cox regression。上周針對基本概念 time to event (存活資料)第一部份進行介紹,若是之前已經持續追蹤閱讀,這二周的內容就能當作階段性的複習了。通常我們可能只會檢視K-M survival curve的檢定結果,今天說的是基本概念-存活時間的中位數及解釋,以及怎麼用於實務情境上的說明。很重要。再一起來看看吧
題目:
研究人員測量常規初段照護中次級藥物預防對中風病人一年死亡率的影響。他們採用世代研究設計,其中包括來自健康改善網路初段照護資料庫的病人資料。參與者是來自113個一般診所的12830名年齡在50歲或以上的病人。他們都在1995年至2005年間中風,並在中風後的30天內存活下來。次級藥物預防被定義為使用降血壓藥物+降血脂藥物+抗血栓藥物或使用降血壓藥物+降血脂藥物[1]。
Cox比例風險迴歸用於探討一年內的死亡率,定義為中風後31天到一年內任何原因導致的死亡。進行了一年死亡率和二級藥物預防、性別、社會經濟剝奪和年齡組的單變數和多變數分析(下表)。社會經濟剝奪通過Townsend score來衡量,該評分評估家庭的社會經濟剝奪狀況,包括就業狀況、過度擁擠、汽車擁有率和車主職業狀況。
接受次級藥物預防的病人第一年的平均死亡率為5.7%,而未接受治療的病人第一年的死亡率為11.1%。次級藥物預防與死亡率降低50%有關(調整風險比0.50, 95%信賴區間0.42 - 0.59)。
下列哪個陳述(如果有的話)是正確的? (複選)
a) Cox比例風險迴歸的結局變數是連續性的
b)風險比 (hazard ratio) 預測追蹤結束時各變數類別中死亡病人的相對比例 (relative proportions)
c)假設每一類解釋變數的死亡危險在追蹤期間是恆定的
d)可以得出結論,次級藥物預防與一年死亡率具有獨立相關
答案:a、d正確;b、c錯誤
說明:
該研究的目的是調查在常規初級照護中對腦中風病人進行次級藥物預防是否影響一年死亡率,即腦中風後31天到第一年的所有原因死亡率。使用了Cox比例風險迴歸模型,其與之前所描述的迴歸分析方法相似[2-4]。該方法同時調查一個依變數和一個或多個預測變數之間的關聯。結局變數是“時間到事件資料” (time to event) 或“存活資料” (survival data)。存活資料已在前面描述,包括每個病人到達終點所需的時間。在上面的例子中,結果是從中風後31天到因任何原因死亡的時間長度。追蹤時間為一年。結局是連續性的 (a正確),在這方面Cox比例風險迴歸與簡單線性迴歸和多元迴歸分析相似。然而,存活資料的顯著特徵是,通常一些參與者在追蹤結束前沒有經歷終點。在上面的例子中,並不是所有的參與者都會在中風後一年內死亡。這些病人的存活時間必定是右設限資料(right censored)[5]。如果病人在中風一年內死亡,他或她的存活時間將被準確地描述。
Cox比例風險迴歸模型中的預測變數,有時被稱為解釋變數,可以是連續性變數、二分類變數或分類變數的任意混合。在上述例子中,解釋變數均為分類變數或二分類變數,其包括次級藥物預防、性別、社會經濟剝奪指數和年齡組。前提假設為所有觀察資料是相互獨立的,亦即,每個參與者在依變數和解釋變數都只有一筆觀察資料。
Cox比例風險迴歸的結果以風險比(hazard ratio, HR)的形式呈現。風險比,有時稱為相對風險,已在前面的問題中說明[6]。當Cox比例風險迴歸探討一個依變數和一個預測變數之間的關聯時,它被稱為單變數(univariable)。當有兩個或多個預測變數時,稱為多變數(multivariable)。在“單變數模型”一欄中顯示的風險比是未經調整的,亦即沒有對其他解釋變數進行調整。它們是一系列迴歸模型的結果,探討個別危險因素對一年死亡率的風險。在“多變數模型”一欄中顯示的風險比是由單一Cox比例風險迴歸模型產生的,其中每個危險因素均視其他因素為干擾進行調整——也就是說,當所有其他解釋變數保持不變時,特定因素的實際影響。
對於每個解釋變數,無論是在單變數分析還是多變數分析中,風險比都有一個參考類別,如風險比列中的數字1所示。有時參考類別用(1)代替。將變數的其他類別與參考類別進行比較,得出風險比。某一特定類別的風險比是該類別在追蹤期間的死亡風險除以參考類別中的死亡風險。死亡風險是在一個時間間隔內死亡的機率除以時間間隔的長度,因此它代表死亡率。研究期間被劃分為非常短的時間間隔,因此死亡風險代表追蹤時任何時間點的瞬時死亡率。因此,風險比代表追蹤期間死亡的相對瞬時危險性(risk)。例如,次級藥物預防相對於不預防的調整風險比為0.50。因此,在追蹤期間的任何時候,接受次級藥物預防病人的死亡危險性是未接受藥物預防病人的一半。風險比(HR)0.5不能預測追蹤結束時次級藥物預防類別中死亡病人的相對比例 (relative proportions)(b錯誤),但可以預測追蹤期間死亡的相對瞬時危險性。
在研究期間,任何類別的風險或死亡率都可能不是恆定的(c錯誤)。然而,在推導風險比時,我們假設兩類病人的死亡率之比是恆定的,也就是說,它們在追蹤過程中是成比例的(proportional)。比例風險的假設是在Cox比例風險迴歸模型中包含任何變數的基礎。
對於每個風險比給出了母群體風險比的95%信賴區間,為母群體參數提供了一個區間估計。如同之前所言,若母群體風險比的95%信賴區間排除1,那麼解釋變數的類別之間風險無差異的虛無假設將被拒絕,而在5%的水準下支持對立假設 [7]。假如一個解釋變數和結果之間的關係在調整干擾因素後是顯著的,那麼解釋變數被稱為與結果具有獨立相關。在調整其他解釋變數後,次級藥物預防與一年死亡率呈現統計上顯著相關,也就是說,母群體的風險比之95%信賴區間不包括1(HR 0.50, 0.42 - 0.59)。因此,次級藥物預防被認為與一年死亡率具有獨立相關(d正確)。
將調整前後的風險比並列呈現是很好的做法,因為它允許讀者確定干擾的影響。在上面的例子中,受到干擾影響最大的似乎是性別,調整逆轉了與一年死亡率相關性的方向。在調整前,與男性相比,女性在追蹤期間的風險較大(HR=1.22),而調整後她們的風險降低(HR=0.86)。在5%的水準下,兩種風險比均具有統計學意義。此外,在進行干擾校正後,社會經濟剝奪第2組的風險比由顯著變得不顯著,而對社會經濟剝奪第五組則相反。因此,在解釋變數的這些類別和一年死亡率的關係中有干擾作用存在。然而,調整前後的風險比差異很小,表明干擾程度很小。
作者還檢驗次級藥物預防和其他解釋變數之間是否存在交互作用(interaction),以探討不同危險因素類別間的潛在差異治療與一年死亡率間的關係。他們發現,沒有證據表明次級藥物預防與死亡率之間的關係在性別或年齡組別之間存在差異。有些證據表明Townsend score的第五組有修飾效果。然而,社會經濟剝奪指數之間並無呈現任何趨勢。
原文:
Researchers measured the effect on one year mortality of secondary drug prevention for patients with stroke in routine primary care. They used a cohort study design, which incorporated patient data from the health improvement network primary care database. Participants were 12 830 patients aged 50 years or more from 113 general practices. They had all had a stroke between 1995 and 2005 and survived the first 30 days after the stroke. Secondary drug prevention was defined as being prescribed either antihypertensives plus lipid lowering drugs plus ntithrombotics or antihypertensives plus lipid lowering drugs.1
Cox proportional hazards regression was used to investigate one year mortality, defined as death from any cause from 31 days after the stroke and within the first year. Univariable and multivariable analyses between one year mortality and secondary drug prevention, sex, socioeconomic deprivation, and age group were performed (table⇓). Socioeconomic deprivation was measured by the Townsend score, which assesses socioeconomic deprivation in families and includes measurement of employment status, overcrowding, car ownership, and owner occupation status.
On average, mortality within the first year was 5.7% for patients receiving secondary drug prevention compared with 11.1% for patients not receiving treatment. Secondary drug prevention
was associated with a 50% reduction in mortality risk (adjusted hazard ratio 0.50, 95% confidence interval 0.42 to 0.59).
Which of the following statements, if any, are true?
a) The outcome variable for the Cox proportional hazards regression was continuous
b) The hazard ratio predicts the relative proportions of patients who will have died in the categories of each variable at the end of follow-up
c) It was assumed that for each category of the explanatory variables the hazard of death was constant during follow-up
d) It can be concluded that secondary drug prevention was independently associated with one year mortality
Answers
Statements a and d are true, whereas b and c are false.
Reference:
[1] Raine R, Wong W, Ambler G, Hardoon S, Petersen I, Morris R, et al. Sociodemographic variations in the contribution of secondary drug prevention to stroke survival at middle and older ages: cohort study. BMJ 2009;338:b1279.
[2] Sedgwick P. Simple linear regression. BMJ 2013;346:f2340.
[3] Sedgwick P. Multiple regression. BMJ 2013;347:f4373.
[4] Sedgwick P. Logistic regression. BMJ 2013;347:f4488.
[5] Sedgwick P. Kaplan-Meier survival analysis: types of censored observations. BMJ
2013;347:f4663
[6] Sedgwick P. Hazards and hazard ratios. BMJ 2012;345:e5980.
[7] Sedgwick P. Confidence intervals and statistical significance: rules of thumb. BMJ
2012;345:e4960.
Cite this as: BMJ 2013;347:f4919

 數據串接與清洗

數據是礦藏,數據清洗是挖出鑽石的第一步,尤其是巨量知識。數據清洗或串接執行過程需要細心與專注,且有可能會消耗許多時間和精力,就由我們來替各位處理掉這個大麻煩。

全民健保研究資料庫、國外大型資料庫資料非常齊全,種類多,需要串接與清洗,進行正規化後才能更進一步進行資料探勘與統計分析。




Fig1.同一個Project資料散落在不同tables,無法使用




Fig2.整併與清理為可分析的table




Fig.3整理和分析後形成有意義的知識


概念與流程示意圖

 教育培訓

課程規劃核心為以「學習者」為中心進行「傳承」

以學習者為中心,結合陳秀敏博士十多年來的統計實務以及教學經驗,設計適合學員學習方式,開設課程,達到有效學習。

 

開設線上統計學院

https://medata.teaches.cc/

SPSS基礎統計實戰班:第一次分析SCI研究就上手(上、下)

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=MPz2wqN0v2M

課程介紹2:https://www.youtube.com/watch?v=nd5A5duxO5E

 

臨床研究思維-Open your mind

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=yTHdBnCdSnY
課程介紹2 : https://www.youtube.com/watch?v=kE9tXraICqk

臨床研究基本原則 : https://www.youtube.com/watch?v=1tTApx1hjn0

 計畫撰寫與統計諮詢





為了讓匯東華的顧客與學員有更好的合作和消費體驗,故匯東華特別依據營業項目開發周邊產品,提供使用、購買。目前已有針對公共衛生師的題庫以及模擬試題,未來將針對醫學研究領域發展產品。