匯東華統計顧問有限公司
"匯東華-認真作好每件事"
~統計,不再是阻力,而是助力~
第173題:Stratified cluster sampling (分層集群抽樣)
本期文章聚焦於 #分層集群抽樣(Stratified Cluster Sampling)之應用與理論背景。分層集群抽樣作為一種結合分層與集群抽樣特性的設計策略,特別適用於需要兼顧資源限制與抽樣代表性的研究情境。
在研究中,母群體的地理分散性和資源的有限性,使得樣本難以覆蓋所有地區,此為常見的挑戰。本期將以 #尼日爾饑荒調查 的經典案例,剖析如何透過分層二階集群抽樣,同時保證樣本的地區代表性並高效使用有限資源。文章詳細說明該方法如何分層尼日爾的八個區域,並隨機選取村莊和家庭進行調查,從而避免傳統隨機抽樣的高昂成本與操作困難。此外,本文還比較了 #分層抽樣 與 #集群抽樣 之優勢與局限,並解釋何謂 #多階段抽樣(Multistage Sampling),幫助讀者清晰理解抽樣結構中的嵌套層次關係,值得一讀!
本人拙作”ChatGPT於系統性文獻回顧和統合分析之應用”於#台灣護理學會 發行之護理雜誌 2024年10月71卷 5期刊登,歡迎大家批評指教。往後會陸續發表本系列內容,也請大家持續關注。Hope u enjoy it!
【線上課程】ePMD02:用別人的數據,做自己的研究:全科醫學公開資料庫介紹與實例應用,原價6,000元,優惠價2,880元。找不到研究數據來源嗎?請看本課程!
概念 + 實作 + 無須任何程式碼 = 專業 + 品質 + 效率
【現場+直播】12/28(六)~12/29(日),WS5- & 6:R語言:臨床預測模型:基礎班、實戰班
更多學習資源:
聯繫我們的官方LINE:@medatatw,感謝您一路相伴,讓我們在AI時代一起進化! ✨
研究者研究一種新開發的饑荒量表是否適合作為國際饑荒的定義,用以指導人道主義響應、資金分配及問責【1】。該量表由Howe與Devereux提出,基於強度與規模來定義饑荒【2】。研究回顧性地將此量表應用於2005年西非尼日爾的人道危機,以確定是否發生饑荒。
此研究設計為橫斷面研究,家庭的招募採用分層的二階集群抽樣方法。尼日爾被分為八個區域。在每個區域中,隨機選取26個村莊,其選取機率與村莊規模成正比。在每個村莊內,系統性隨機選取20戶家庭。對每戶家庭進行普查,透過請戶主填寫問卷完成數據收集。
研究者得出結論,根據Howe與Devereux所開發的饑荒量表,2005年尼日爾的大多數地區經歷糧食危機,有些地區接近饑荒。此外,該量表比以往方法提供更為客觀的標準,並能夠作為早期預警系統,幫助指導未來反映的層級。
下列敘述何者正確?
a) 集群抽樣使得資源能集中於國內有限數量的地區。
b) 分層的二階集群抽樣方法為一種具有三階的多階抽樣方法。
c) 系統隨機抽樣每個村莊內的家庭需要構建一個抽樣框架。
a為正確,b、c錯誤。
該研究目的為評估由Howe與Devereux提出的饑荒量表,是否能為未來的人道救援提供適用之定義。2005年尼日爾的人道危機在不同地區的規模和嚴重程度可能有所差異,因此,研究需要確保樣本能夠充分代表全國各地的人口。簡單隨機抽樣可以用於全國範圍內的家庭招募。然而,只有在樣本數足夠大的情況下,簡單隨機抽樣才能產生具代表性的樣本。由於尼日爾人口的地理分佈非常分散,簡單隨機抽樣不僅不切實際,且成本高昂。因此,研究者採用分層的二階集群抽樣法,以確保樣本具有全國代表性,同時優化資源分配,專注於選定的地區進行數據收集(a正確)。
分層集群抽樣法結合分層抽樣與集群抽樣的特點。首先,尼日爾按照其區域被分為八個分層。該國包括七個農村地區和首都尼亞美(Niamey)。在每個區域內,採用簡單隨機抽樣,以確保每個地區都能充分代表。然而,由於每個地區內的人口分佈非常多樣,僅在每個分層內進行簡單隨機抽樣同樣是不切實際且昂貴的。因此,研究者在每個分層內進行了二階集群抽樣。
在研究中,集群被定義為一種自然群體,例如城鎮、村莊、學校、街道或家庭。在上述研究中,集群抽樣為一個二階過程。第一階段是在每個分層內隨機選取26個村莊,選取的機率與村莊的人口規模成正比,亦即,人口較多的村莊被選中的機率較高。在每個被選中的村莊內,使用系統隨機抽樣方法選取固定數量的20戶家庭。家庭作為分析的單位,通過問卷進行普查收集數據。
上述的二階群集抽樣過程被稱為多階群集抽樣法,或簡稱為多階抽樣法。在多階抽樣中,樣本是通過兩階或更多階段的過程獲得的,這些階段考慮人口內部成員的嵌套或層次結構。人口成員被組織為集群,此種方法基於在每個階段對集群的隨機抽樣,而這些集群又嵌套於上一階段的集群中。在本例中,使用二階多階抽樣方法。第一階段涉及在每個區域內隨機抽取26個村莊。第二階段則是從每個選中的村莊中,系統隨機抽取20戶家庭。將國家劃分為區域被視為分層過程,而非多階抽樣過程的第一階段(b錯誤)。因為該國所有區域都被納入研究,並未對區域進行隨機抽樣。
在每個分層中,對村莊進行群集抽樣需要構建抽樣框架——即列出每個區域內所有村莊的名單。然而,推測在每個選中村莊內,無法列出所有家庭的完整名單。因此,村莊內的家庭是使用系統隨機抽樣方法選出的,無須依賴抽樣框架(c錯誤)。系統抽樣過程中,先隨機選取村莊中的一戶家庭後按照固定的間隔(例如,每隔第五戶)選擇後續家庭。系統隨機抽樣的起始點為隨機選擇,並且選取間隔在抽樣前已確定。
抽樣方法分為兩大類——機率抽樣(亦稱隨機抽樣)和非機率抽樣(亦稱非隨機抽樣)。機率抽樣方法的定義是對母群體成員進行某種形式的隨機選取,並且每位人口成員被選中的機率是已知且相等的。而非機率抽樣方法中,無法確定每位人口成員之選取機率。儘管可能有爭議,但上述研究中使用的分層集群抽樣方法,或許最好被描述為非機率抽樣方法。在每個區域中,村莊和村莊內的家庭是隨機選中的。雖然可以計算出每個被選中村莊中家庭的數量,但未被選中的集群(如村莊)內的家庭數量是未知的。因此,無法確定整個人口中某一戶家庭被選中的機率。通常,非機率抽樣方法的樣本被認為不具有代表性。然而,在上述研究中,沒有理由認為所選樣本不具代表性,因為抽樣方法確保樣本能代表每個區域。
若某種抽樣方法僅涉及對集群進行單階段抽樣,則稱為集群抽樣。從母群體中獲取集群的隨機樣本後,將所選集群內之所有成員納入最終樣本。完成集群的選取後,不再進行進一步的抽樣。集群抽樣常用於選取參與試驗的對象,這類試驗被稱為集群試驗。集群試驗已在問題中進行描述【3】。然而,這類試驗中,集群通常不是從母群體中隨機選取,而是通過便利抽樣選取——即選取地理位置方便的集群。便利抽樣已在之前的問題中說明【4】。
Reference:
[1] Reza A, Tomczyk B, Aguayo VM, Zagré NM, Goumbi K, Blanton C, et al. Retrospective determination of whether famine existed in Niger, 2005: two stage cluster survey. BMJ 2008;337:a1622.
[2] Howe P, Devereux S. Famine intensity and magnitude scales: a proposal for an
instrumental definition of famine. Disasters 2004;28:353-72.
[3] Sedgwick P. Cluster randomised controlled trials. BMJ 2012;345:e4654.
[4] Sedgwick P. Convenience sampling. BMJ 2013;347:f6304.
#分層集群抽樣 #抽樣策略 #醫學統計 #尼日爾饑荒調查 #多階抽樣 #集群抽樣 #醫學研究 #匯東華
數據是礦藏,數據清洗是挖出鑽石的第一步,尤其是巨量知識。數據清洗或串接執行過程需要細心與專注,且有可能會消耗許多時間和精力,就由我們來替各位處理掉這個大麻煩。
全民健保研究資料庫、國外大型資料庫資料非常齊全,種類多,需要串接與清洗,進行正規化後才能更進一步進行資料探勘與統計分析。
Fig1.同一個Project資料散落在不同tables,無法使用
Fig2.整併與清理為可分析的table
Fig.3整理和分析後形成有意義的知識
概念與流程示意圖
課程規劃核心為以「學習者」為中心進行「傳承」
以學習者為中心,結合陳秀敏博士十多年來的統計實務以及教學經驗,設計適合學員學習方式,開設課程,達到有效學習。
開設線上統計學院
SPSS基礎統計實戰班:第一次分析SCI研究就上手(上、下)
課程網址:https://medata.teaches.cc/
課程介紹1:https://www.youtube.com/watch?v=MPz2wqN0v2M
課程介紹2:https://www.youtube.com/watch?v=nd5A5duxO5E
臨床研究思維-Open your mind
課程網址:https://medata.teaches.cc/
課程介紹1:https://www.youtube.com/watch?v=yTHdBnCdSnY
課程介紹2 : https://www.youtube.com/watch?v=kE9tXraICqk
為了讓匯東華的顧客與學員有更好的合作和消費體驗,故匯東華特別依據營業項目開發周邊產品,提供使用、購買。目前已有針對公共衛生師的題庫以及模擬試題,未來將針對醫學研究領域發展產品。