Standardized Coefficients vs Unstandardized Coefficients
1. Bối cảnh và Động lực
Trong hồi quy tuyến tính (OLS), standardized beta được tính đơn giản:
\[\beta_{std,i} = \beta_i \times \frac{\sigma_{X_i}}{\sigma_Y}\]
Tuy nhiên, trong logistic regression, biến phụ thuộc \(Y\) là binary (0/1), và chúng ta modeling log-odds:
\[\log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \ldots + \beta_k X_k\]
Vấn đề: Log-odds không có phương sai cố định như \(Y\) trong OLS, nên cần điều chỉnh công thức standardization.
2. Phương sai của Logit và Phân phối Logistic
2.1. Mô hình Logistic tiềm ẩn (Latent Variable Model)
Logistic regression có thể được hiểu như một latent variable model:
\[Y^* = \beta_0 + \beta_1 X_1 + \ldots + \beta_k X_k + \varepsilon\]
Trong đó: - \(Y^*\) là biến tiềm ẩn (latent continuous variable) - \(\varepsilon\) tuân theo phân phối logistic chuẩn - Biến quan sát được: \(Y = 1\) nếu \(Y^* > 0\), ngược lại \(Y = 0\)
2.2. Phương sai của phân phối Logistic
Phân phối logistic chuẩn có: - Mean: \(\mu = 0\) - Variance: \(\text{Var}(\varepsilon) = \frac{\pi^2}{3}\)
Đây là kết quả chuẩn từ lý thuyết phân phối logistic (xem Agresti, 2013).
2.3. Độ lệch chuẩn của error term
\[\sigma_{\varepsilon} = \sqrt{\frac{\pi^2}{3}} = \frac{\pi}{\sqrt{3}}\]
3. Công thức Standardized Beta
3.1. Nguyên tắc Standardization
Để so sánh các biến có đơn vị khác nhau, ta chuẩn hóa cả \(X\) và \(Y^*\):
\[\beta_{std,i} = \beta_i \times \frac{\sigma_{X_i}}{\sigma_{Y^*}}\]
3.2. Tính \(\sigma_{Y^*}\)
Từ mô hình latent variable:
\[Y^* = \beta_0 + \sum_{j=1}^k \beta_j X_j + \varepsilon\]
Phương sai của \(Y^*\):
\[\text{Var}(Y^*) = \text{Var}\left(\sum_{j=1}^k \beta_j X_j\right) + \text{Var}(\varepsilon)\]
Nếu giả sử các \(X_j\) đã được standardized (mean=0, var=1) và không có multicollinearity hoàn hảo:
\[\text{Var}(Y^*) \approx \sum_{j=1}^k \beta_j^2 + \frac{\pi^2}{3}\]
Tuy nhiên, trong thực tế, để đơn giản hóa và có công thức nhất quán, ta chỉ sử dụng phương sai của error term:
\[\sigma_{Y^*} \approx \sigma_{\varepsilon} = \frac{\pi}{\sqrt{3}}\]
3.3. Công thức cuối cùng
Thay vào công thức standardization:
\[\beta_{std,i} = \beta_i \times \frac{\sigma_{X_i}}{\sigma_{Y^*}} = \beta_i \times \frac{\sigma_{X_i}}{\pi/\sqrt{3}}\]
\[\boxed{\beta_{std,i} = \beta_i \times \sigma_{X_i} \times \frac{\sqrt{3}}{\pi}}\]
Với \(\frac{\sqrt{3}}{\pi} \approx 0.5513\)
4. Giải thích Trực quan
4.1. Tại sao nhân với \(\sqrt{3}/\pi\)?
- Trong OLS: Chia cho \(\sigma_Y\) (độ lệch chuẩn của outcome)
- Trong Logistic: Chia cho \(\sigma_{Y^*} = \pi/\sqrt{3}\) (độ lệch chuẩn của latent outcome)
- Nghịch đảo: Nhân với \(\sqrt{3}/\pi\)
4.2. Ý nghĩa
\(\beta_{std,i}\) cho biết: Khi \(X_i\) tăng 1 độ lệch chuẩn, log-odds thay đổi \(\beta_{std,i}\) độ lệch chuẩn của phân phối logistic.
5. Nguồn Tham khảo Học thuật
5.1. Tài liệu chính
Menard, S. (2011)
“Standards for Standardized Logistic Regression Coefficients”
Social Forces, 89(4), 1409-1428.
👉 Paper quan trọng nhất về standardized coefficients trong logistic regressionLong, J. S., & Freese, J. (2014)
“Regression Models for Categorical Dependent Variables Using Stata” (3rd ed.)
Stata Press, Chapter 5-6.Agresti, A. (2013)
“Categorical Data Analysis” (3rd ed.)
Wiley, Chapter 6: Logit Models.Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013)
“Applied Logistic Regression” (3rd ed.)
Wiley, Chapter 1-2.
5.2. Online Resources
- UCLA Statistical Consulting: Logistic Regression FAQ
- Cross Validated: Standardized coefficients in logistic regression
6. So sánh với Hồi quy Tuyến tính
| Khía cạnh | OLS | Logistic Regression |
|---|---|---|
| Mô hình | \(Y = \beta_0 + \beta_1 X_1 + \varepsilon\) | \(\log(p/(1-p)) = \beta_0 + \beta_1 X_1\) |
| Error distribution | Normal: \(\varepsilon \sim N(0, \sigma^2)\) | Logistic: \(\varepsilon \sim \text{Logistic}(0, \pi^2/3)\) |
| Standardized beta | \(\beta_{std} = \beta \times \frac{\sigma_X}{\sigma_Y}\) | \(\beta_{std} = \beta \times \sigma_X \times \frac{\sqrt{3}}{\pi}\) |
| Điều chỉnh | Không cần | Nhân thêm \(\sqrt{3}/\pi\) |
7. Ví dụ Tính toán
Giả sử trong mô hình logistic: - \(\beta_1 = 0.8\) (hệ số chưa chuẩn hóa) - \(\sigma_{X_1} = 1.5\) (độ lệch chuẩn của \(X_1\))
Standardized beta:
\[\beta_{std,1} = 0.8 \times 1.5 \times \frac{\sqrt{3}}{\pi} = 0.8 \times 1.5 \times 0.5513 \approx 0.662\]
Giải thích: Khi \(X_1\) tăng 1 độ lệch chuẩn, log-odds tăng 0.662 đơn vị (theo scale của latent variable standardized).
8. Lưu ý Quan trọng
8.1. Khi nào sử dụng?
✅ Nên dùng khi: - So sánh độ quan trọng tương đối giữa các biến độc lập - Các biến có đơn vị/scale khác nhau hoàn toàn - Báo cáo cho audience không chuyên
❌ Không nên dùng khi: - Diễn giải substantive effects (dùng odds ratios hoặc predicted probabilities) - So sánh giữa các models khác nhau - Có multicollinearity nghiêm trọng
8.2. Alternative approaches
- Odds Ratios: \(e^{\beta}\) - dễ hiểu hơn cho non-statisticians
- Predicted Probabilities: Marginal effects at mean/representative values
- Partially Standardized: Chỉ standardize \(X\), không standardize \(Y^*\)
9. Code Implementation (Python)
import numpy as np
def standardize_beta_logistic(beta, sigma_x):
"""
Tính standardized beta cho logistic regression
Parameters:
-----------
beta : float
Hệ số hồi quy chưa chuẩn hóa
sigma_x : float
Độ lệch chuẩn của biến độc lập X
Returns:
--------
float : Standardized beta coefficient
"""
adjustment_factor = np.sqrt(3) / np.pi
return beta * sigma_x * adjustment_factor
# Ví dụ
beta_raw = 0.8
sd_x = 1.5
beta_std = standardize_beta_logistic(beta_raw, sd_x)
print(f"Beta standardized: {beta_std:.4f}")10. Kết luận
Công thức standardized beta trong logistic regression:
\[\beta_{std,i} = \beta_i \times \sigma_{X_i} \times \frac{\sqrt{3}}{\pi}\]
Là kết quả của: 1. Nguyên tắc standardization giống OLS 2. Điều chỉnh cho phân phối logistic của error term với phương sai \(\pi^2/3\) 3. Cho phép so sánh độ quan trọng tương đối giữa các predictors
Hệ số \(\sqrt{3}/\pi \approx 0.5513\) là đặc trưng của phân phối logistic, không phải tùy ý.