Standardized Coefficients vs Unstandardized Coefficients

Author

Nguyễn Ngọc Bình

1. Bối cảnh và Động lực

Trong hồi quy tuyến tính (OLS), standardized beta được tính đơn giản:

\[\beta_{std,i} = \beta_i \times \frac{\sigma_{X_i}}{\sigma_Y}\]

Tuy nhiên, trong logistic regression, biến phụ thuộc \(Y\) là binary (0/1), và chúng ta modeling log-odds:

\[\log\left(\frac{p}{1-p}\right) = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \ldots + \beta_k X_k\]

Vấn đề: Log-odds không có phương sai cố định như \(Y\) trong OLS, nên cần điều chỉnh công thức standardization.


2. Phương sai của Logit và Phân phối Logistic

2.1. Mô hình Logistic tiềm ẩn (Latent Variable Model)

Logistic regression có thể được hiểu như một latent variable model:

\[Y^* = \beta_0 + \beta_1 X_1 + \ldots + \beta_k X_k + \varepsilon\]

Trong đó: - \(Y^*\) là biến tiềm ẩn (latent continuous variable) - \(\varepsilon\) tuân theo phân phối logistic chuẩn - Biến quan sát được: \(Y = 1\) nếu \(Y^* > 0\), ngược lại \(Y = 0\)

2.2. Phương sai của phân phối Logistic

Phân phối logistic chuẩn có: - Mean: \(\mu = 0\) - Variance: \(\text{Var}(\varepsilon) = \frac{\pi^2}{3}\)

Đây là kết quả chuẩn từ lý thuyết phân phối logistic (xem Agresti, 2013).

2.3. Độ lệch chuẩn của error term

\[\sigma_{\varepsilon} = \sqrt{\frac{\pi^2}{3}} = \frac{\pi}{\sqrt{3}}\]


3. Công thức Standardized Beta

3.1. Nguyên tắc Standardization

Để so sánh các biến có đơn vị khác nhau, ta chuẩn hóa cả \(X\)\(Y^*\):

\[\beta_{std,i} = \beta_i \times \frac{\sigma_{X_i}}{\sigma_{Y^*}}\]

3.2. Tính \(\sigma_{Y^*}\)

Từ mô hình latent variable:

\[Y^* = \beta_0 + \sum_{j=1}^k \beta_j X_j + \varepsilon\]

Phương sai của \(Y^*\):

\[\text{Var}(Y^*) = \text{Var}\left(\sum_{j=1}^k \beta_j X_j\right) + \text{Var}(\varepsilon)\]

Nếu giả sử các \(X_j\) đã được standardized (mean=0, var=1) và không có multicollinearity hoàn hảo:

\[\text{Var}(Y^*) \approx \sum_{j=1}^k \beta_j^2 + \frac{\pi^2}{3}\]

Tuy nhiên, trong thực tế, để đơn giản hóa và có công thức nhất quán, ta chỉ sử dụng phương sai của error term:

\[\sigma_{Y^*} \approx \sigma_{\varepsilon} = \frac{\pi}{\sqrt{3}}\]

3.3. Công thức cuối cùng

Thay vào công thức standardization:

\[\beta_{std,i} = \beta_i \times \frac{\sigma_{X_i}}{\sigma_{Y^*}} = \beta_i \times \frac{\sigma_{X_i}}{\pi/\sqrt{3}}\]

\[\boxed{\beta_{std,i} = \beta_i \times \sigma_{X_i} \times \frac{\sqrt{3}}{\pi}}\]

Với \(\frac{\sqrt{3}}{\pi} \approx 0.5513\)


4. Giải thích Trực quan

4.1. Tại sao nhân với \(\sqrt{3}/\pi\)?

  • Trong OLS: Chia cho \(\sigma_Y\) (độ lệch chuẩn của outcome)
  • Trong Logistic: Chia cho \(\sigma_{Y^*} = \pi/\sqrt{3}\) (độ lệch chuẩn của latent outcome)
  • Nghịch đảo: Nhân với \(\sqrt{3}/\pi\)

4.2. Ý nghĩa

\(\beta_{std,i}\) cho biết: Khi \(X_i\) tăng 1 độ lệch chuẩn, log-odds thay đổi \(\beta_{std,i}\) độ lệch chuẩn của phân phối logistic.


5. Nguồn Tham khảo Học thuật

5.1. Tài liệu chính

  1. Menard, S. (2011)
    “Standards for Standardized Logistic Regression Coefficients”
    Social Forces, 89(4), 1409-1428.
    👉 Paper quan trọng nhất về standardized coefficients trong logistic regression

  2. Long, J. S., & Freese, J. (2014)
    “Regression Models for Categorical Dependent Variables Using Stata” (3rd ed.)
    Stata Press, Chapter 5-6.

  3. Agresti, A. (2013)
    “Categorical Data Analysis” (3rd ed.)
    Wiley, Chapter 6: Logit Models.

  4. Hosmer, D. W., Lemeshow, S., & Sturdivant, R. X. (2013)
    “Applied Logistic Regression” (3rd ed.)
    Wiley, Chapter 1-2.

5.2. Online Resources


6. So sánh với Hồi quy Tuyến tính

Khía cạnh OLS Logistic Regression
Mô hình \(Y = \beta_0 + \beta_1 X_1 + \varepsilon\) \(\log(p/(1-p)) = \beta_0 + \beta_1 X_1\)
Error distribution Normal: \(\varepsilon \sim N(0, \sigma^2)\) Logistic: \(\varepsilon \sim \text{Logistic}(0, \pi^2/3)\)
Standardized beta \(\beta_{std} = \beta \times \frac{\sigma_X}{\sigma_Y}\) \(\beta_{std} = \beta \times \sigma_X \times \frac{\sqrt{3}}{\pi}\)
Điều chỉnh Không cần Nhân thêm \(\sqrt{3}/\pi\)

7. Ví dụ Tính toán

Giả sử trong mô hình logistic: - \(\beta_1 = 0.8\) (hệ số chưa chuẩn hóa) - \(\sigma_{X_1} = 1.5\) (độ lệch chuẩn của \(X_1\))

Standardized beta:

\[\beta_{std,1} = 0.8 \times 1.5 \times \frac{\sqrt{3}}{\pi} = 0.8 \times 1.5 \times 0.5513 \approx 0.662\]

Giải thích: Khi \(X_1\) tăng 1 độ lệch chuẩn, log-odds tăng 0.662 đơn vị (theo scale của latent variable standardized).


8. Lưu ý Quan trọng

8.1. Khi nào sử dụng?

Nên dùng khi: - So sánh độ quan trọng tương đối giữa các biến độc lập - Các biến có đơn vị/scale khác nhau hoàn toàn - Báo cáo cho audience không chuyên

Không nên dùng khi: - Diễn giải substantive effects (dùng odds ratios hoặc predicted probabilities) - So sánh giữa các models khác nhau - Có multicollinearity nghiêm trọng

8.2. Alternative approaches

  1. Odds Ratios: \(e^{\beta}\) - dễ hiểu hơn cho non-statisticians
  2. Predicted Probabilities: Marginal effects at mean/representative values
  3. Partially Standardized: Chỉ standardize \(X\), không standardize \(Y^*\)

9. Code Implementation (Python)

import numpy as np

def standardize_beta_logistic(beta, sigma_x):
    """
    Tính standardized beta cho logistic regression
    
    Parameters:
    -----------
    beta : float
        Hệ số hồi quy chưa chuẩn hóa
    sigma_x : float
        Độ lệch chuẩn của biến độc lập X
        
    Returns:
    --------
    float : Standardized beta coefficient
    """
    adjustment_factor = np.sqrt(3) / np.pi
    return beta * sigma_x * adjustment_factor

# Ví dụ
beta_raw = 0.8
sd_x = 1.5
beta_std = standardize_beta_logistic(beta_raw, sd_x)
print(f"Beta standardized: {beta_std:.4f}")

10. Kết luận

Công thức standardized beta trong logistic regression:

\[\beta_{std,i} = \beta_i \times \sigma_{X_i} \times \frac{\sqrt{3}}{\pi}\]

Là kết quả của: 1. Nguyên tắc standardization giống OLS 2. Điều chỉnh cho phân phối logistic của error term với phương sai \(\pi^2/3\) 3. Cho phép so sánh độ quan trọng tương đối giữa các predictors

Hệ số \(\sqrt{3}/\pi \approx 0.5513\) là đặc trưng của phân phối logistic, không phải tùy ý.