"匯東華-認真作好每件事"
~統計，不再是阻力，而是助力~

❓Q & A：多重共線性 Multicollinearity

多重共線性Multicollinearity

有幾位同學詢問到關於多重共線性問題，透過本篇文章進行說明。構建多重線性迴歸模型時，要求各個預測變數間互相獨立，不存在多重共線性。所謂多重共線性，發生在預測變數彼此間高度相關時，其中某個預測變數能被其他預測變數組成的線性組合來解釋。

醫學研究中常見的生理資料，如年齡、BMI、收縮壓、舒張壓、血脂、總膽固醇和三酸甘油脂等等，這些變數間本身由於生理機制之故，彼此間原本就存在一定關聯。若在建構迴歸模型時，把這些具有多重共線性之變數同時置於模型中，可能出現方程式所估計出來的偏迴歸係數明顯背離常識，甚至出現方向相反，導致迴歸模型不穩定與精確度降低。

舉一例說明：假設某位研究者正在研究患者的心血管疾病風險（outcome variable）與年齡、血壓、體重、總膽固醇（predictor variables）的關係。

步驟1 偵測多重共線性：

首先確認這些預測變數間之相關性。結果發現這些變數間存在高度的相關。例如，年齡可能與血壓高度相關，因為年齡越高，血壓可能越高。計算變異膨脹因子（(Variance Inflation Factor，VIF）> 5，存在多重共線性。

步驟2 處理多重共線性：

2.1 變數選擇：可選擇保留與結果變數最相關的預測變數，並移除其它相關的預測變數。如，若年齡與結果變數的相關最強，則保留年齡，並移除其它預測變數。可以透過向前選擇（first add the variable that has the greatest correlation with the outcome）、向後選擇（first remove the variable that has the least correlation with the outcome），或逐步選擇（a combination of forward and backward）完成。

(1)向前選擇（Forward Selection）：開始時不包含任何變數，為空模型，之後逐步加入對目標變數影響最大的變數。在每一步中，考慮加入的是在所有剩餘預測變數中能最大提升模型配適度的變數。(空à逐步選入與預測變數最相關之變數，直到所餘變數皆無顯著提升模型配適度à停止)

(2)向後選擇（Backward Selection）：開始時包含所有變數，即全模型，之後逐步排除對目標變數影響最小的變數。在每一步中，考慮刪除的是在當前模型中能最小降低模型適合度的變數。(全滿à刪除對目標變數影響最小的變數，直到所餘變數皆無法刪除為止à停止)

(3)逐步選擇（Stepwise Selection）：逐步選擇法是向前選擇和向後選擇之結合。首先從空模型開始，選擇能最大提升模型適合度的變數加入模型，然後考慮刪除在當前模型中能最小降低模型配適度的變數，反覆進行，直到模型配適度無法進一步提升。(向前à向後)

[備註：建構預測模型，另一種變數選擇策略為Akaike Information Criterion (AIC) 和 Bayesian Information Criterion (BIC)，在特定情況下是一種更好的變數選擇策略。AIC和BIC的計算方法考慮模型的 goodness-of-fit（數據與模型的匹配度）和模型的複雜度（通常與模型中的預測變量數量有關）。在選擇模型時，通常選擇 AIC 或 BIC 值最小的模型。]

2.2.降維：可以通過主成分分析（Principal Component Analysis，PCA）將多個高度相關的變數轉化為一組新的、彼此無關的變數。這些新的變數（即主成分）可以保留原來變數的大部分訊息，同時消除多重共線性。

2.3.增加樣本數：可以嘗試收集更多的樣本。有時候，多重共線性的問題可能源於樣本數不足。