"匯東華-認真作好每件事"
~統計,不再是阻力,而是助力~

 BMJ小小統計問題(54)                                                    前言:

一直以來,民眾健康資料,包括全民健保資料、癌症登記資料用於研究上的爭議不斷,最近一次釋憲案,將定於中華民國111年8月12日下午3時於憲法法庭宣示判決。也許政府可以參考英國政府的作法,傾聽民眾的聲音。
此外,主題所提到的抽樣、觀察與分析單位概念在研究、分析與結果推論上很重要。Unit od level是需要具備的基本概念。研究設計上最廣為人知的為生態謬誤(Ecological fallacy),又稱為層次謬誤,為”以全概偏”的錯誤。主要為收集單位是位於總體層次,所得結果卻推論到個體層次所犯的錯誤。在研究設計與資料分析時需要特別注意,尤其是大型資料庫會包含多個層次的變數,使用變數所位於層次要能清楚定義出來,以及資料非獨立性的問題都需要一併考量。
  
  
題目:
  研究人員針對在未經個人同意的情況下為公共衛生研究和監測目的使用個人醫療資料的可接受性徵求英國公眾的意見。國家統計局為此進行一項癌症登記資料使用意見之橫斷面研究。這些人招募於2015年3月至4月在英國採用多階段抽樣之成年人。多階段抽樣分為三個階段。在第一階段,隨機選取英國的郵政區樣本,選擇的機率與大小成正比。在每個地區,隨機抽取了一些私人住戶。在有一個以上成年人的家庭中,隨機選擇一個人,針對2872名成人進行了面對面訪談[1]。
  在2872名受訪者中,72%(95%信賴區間為70% - 74%)不認為國家癌症登記處侵犯了他們的隱私:包括郵編,包括姓名和地址,或收到一封邀請他們參加註冊的研究的信件。結論是,大多數英國公眾不認為國家癌症登記處為公共衛生研究和監測的目的而機密地使用個人可識別患者資訊是一種侵犯隱私。
  
下列敘述何者正確?
a)抽樣方法涉及三個抽樣單位
b)郵政地區為主要抽樣單位
c)觀察單位為家庭
d)分析單位為成人
  
  
答案:a), b), d)正確,c)錯誤。
 
  
詳細說明:
  詢問英國公眾對在未經個人同意的情況下為公共衛生研究和監測目的使用個人醫療資訊的看法。採用橫斷面研究設計,目的是通過人口的橫斷面來獲得一個代表性樣本[2]。樣本是通過多階段抽樣獲得。該抽樣方法是根據母群體中自然集群的層次結構進行兩個或多個階段的隨機抽樣。集群是人們的自然組合——例如,診所、學校或家庭。在每階段隨機抽取不同類型的集群,這些集群在連續的階段彼此嵌套。抽樣的最後階段是在倒數第二個階段選出的族群中隨機抽取一個樣本。本例使用三階段多階段抽樣:在英國的郵政地區隨機抽樣,在每個地區隨機抽取私人家庭,每個家庭隨機選擇一個成年人。
  
  抽樣單位(the unit of sampling 或 the sampling unit),在統計學上被定義為被抽樣的“人(who)”或“什麼(what)”。在本例中,郵政地區、家庭和成年人都是抽樣單位(a正確)。多階段抽樣的性質是每一階段都涉及一個抽樣單位,在連續的階段中各單位互相嵌套。郵政地區被稱為主要抽樣單位(b正確),家庭是次要抽樣單位,成年人是最終抽樣單位。並非所有抽樣方法都像多階段抽樣這麼複雜,有的只包含一個抽樣單位。例如,如果採用便利抽樣,成年人的樣本可能是從當地醫院診所招募的。此時,只有一個樣本單位參與,即成年患者。
  
  觀察單位,有時被稱為測量單位,在統計學上定義為測量或收集資料的“人”或“什麼”。在本例中,從第二階段選擇的每個家庭隨機選擇一名成年人,並要求該成年人在未經個人同意的情況下,就為公共衛生研究和監測目的使用個人醫療資料提供他或她的意見。因此,觀察的單位是成人(c錯誤)。
  
  分析單位在統計學上被定義為“誰”或“什麼”,為其分析資訊和得出結論。在本例中,分析的單位是成人(d正確)。由於每個成年人對每個調查問題只提供一個值,這些資料被認為彼此獨立,可用標準的統計考驗進行分析。此外,還得由該成人(個體)得到結論。
  
  重要的是要清楚地確定抽樣單位、觀察和分析單位。需要定義抽樣單位,以便在多階段抽樣過程的每個連續階段構建抽樣框架——前一階段選擇的集群中所有單位(郵政區、家庭或成年人)的清單——並獲得隨機樣本。定義觀察和分析的單位很重要,以便於對研究結果進行正確的分析和隨後的推斷。如,在集群隨機對照試驗等研究設計中,將一群人隨機分組進行介入,觀察單位可能是試驗參與者[4]。但是,由於測量值在一個集群中可能並非獨立,為了進行分析和推斷,可以在整個集群中取平均值。因此,分析的單位將是該集群。如果分析單位是試驗參與者,則在進行統計分析時,有必要說明試驗參與者與其結果測量之間可能缺乏獨立性。
  
  除了抽樣單位、觀察單位和分析單位,也存在隨機化單位和介入單位。單位常常混淆。抽樣單位、觀察單位和分析單位與所有研究相關,包括觀察和實驗研究,而隨機分組和介入單位只與實驗性研究相關,如臨床試驗。隨機化的單位在統計學上被定義為“誰”或“什麼”被隨機分配到治療組。介入的單位在統計學上被定義為為“誰”或“什麼”提供介入。在往後會提供所有類型的單位之概覽。
  
Reference:
[1] Barrett G, Cassell JA, Peacock JL, Coleman MP. National survey of British public’s views on use of identifiable medical data by the National Cancer Registry. BMJ 2006;332:1068.
[2] Sedgwick P. Cross sectional studies: advantages and disadvantages. BMJ
2014;348:g2276.
[3] Sedgwick P. Multistage sampling. BMJ 2015;351:h4155.
[4] Sedgwick P. Cluster randomised controlled trials. BMJ 2012;345:e4654.
Cite this as: BMJ 2015;351:h5396

 數據串接與清洗

數據是礦藏,數據清洗是挖出鑽石的第一步,尤其是巨量知識。數據清洗或串接執行過程需要細心與專注,且有可能會消耗許多時間和精力,就由我們來替各位處理掉這個大麻煩。

全民健保研究資料庫、國外大型資料庫資料非常齊全,種類多,需要串接與清洗,進行正規化後才能更進一步進行資料探勘與統計分析。




Fig1.同一個Project資料散落在不同tables,無法使用




Fig2.整併與清理為可分析的table




Fig.3整理和分析後形成有意義的知識


概念與流程示意圖

 教育培訓

課程規劃核心為以「學習者」為中心進行「傳承」

以學習者為中心,結合陳秀敏博士十多年來的統計實務以及教學經驗,設計適合學員學習方式,開設課程,達到有效學習。

 

開設線上統計學院

https://medata.teaches.cc/

SPSS基礎統計實戰班:第一次分析SCI研究就上手(上、下)

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=MPz2wqN0v2M

課程介紹2:https://www.youtube.com/watch?v=nd5A5duxO5E

 

臨床研究思維-Open your mind

課程網址:https://medata.teaches.cc/

課程介紹1:https://www.youtube.com/watch?v=yTHdBnCdSnY
課程介紹2 : https://www.youtube.com/watch?v=kE9tXraICqk

臨床研究基本原則 : https://www.youtube.com/watch?v=1tTApx1hjn0

 計畫撰寫與統計諮詢





為了讓匯東華的顧客與學員有更好的合作和消費體驗,故匯東華特別依據營業項目開發周邊產品,提供使用、購買。目前已有針對公共衛生師的題庫以及模擬試題,未來將針對醫學研究領域發展產品。