Đa cộng tuyến
Các biến giải thích được xác định trong một mô hình kinh tế lượng thường xuất phát từ lý
thuyết hoặc hiểu biết căn bản về hành vi chúng ta đang cố gắng thiết kế mô hình, cũng như
từ kinh nghiệm quá khứ. Dữ liệu về các biến này đặc biệt xuất phát từ những thực nghiệm
không kiểm soát và thường tương quan với nhau. Điều này đặc biệt đúng đối với các biến
chuỗi thời gian thường có những xu hướng tiềm ẩn thông thường. Ví dụ, dân số và tổng sản
phẩm quốc nội là hai chuỗi dữ liệu tương quan chặt lẫn nhau. Trong chương trước, chúng ta
phát biểu là hệ số hồi qui đối với một biến cụ thể là số đo tác động riêng phần của biến này,
nghĩa là tác động của nó khi tất cả các biến khác trong mô hình được giữ ở những mức cố
định và chỉ có giá trị của biến này thay đổi. Tuy nhiên, khi hai biến giải thích cùng tương
quan chặt; chúng ta không thể chỉ đơn giản giữ một biến không đổi và thay đổi biến còn lại
vì khi biến sau thay đổi thì biến đầu thay đổi. Trong trường hợp này, thật khó tách biệt ảnh
hưởng riêng phần của một biến đơn. Cũng vậy, thay đổi mô hình bằng cách loại bỏ hoặc
thêm vào một biến có thể làm thay đổi kết quả một cách nghiêm trọng, khiến cho việc diễn
dịch các ước lượng sẽ khó khăn hơn. Đây chính là vấn đề đa cộng tuyến, vấn đề xuất hiện
khi các biến giải thích có các quan hệ gần như tuyến tính. Chương này khảo sát các hệ quả
của đa cộng tuyến trong phạm vi ước lượng các thông số, khảo sát các tính chất của chúng
và kiểm định giả thuyết về những hệ quả này. Trước hết chúng tôi trình bày các ví dụ về vấn
đề đa cộng tuyến phát sinh như thế nào trong thực tế và sau đó khảo sát vấn đề này một cách
chi tiết hơn.
18 trang |
Chia sẻ: hongha80 | Lượt xem: 637 | Lượt tải: 0
Nội dung tài liệu Kinh tế lượng với các ứng dụng - Chương 5: Đa cộng tuyến, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Yếu Tố Quyết Định
Bảng Dữ liệu 4-6 có dữ liệu về các tỷ lệ nghèo khó và một con số của các yếu tố có thể tác
động đến những tỷ lệ này ở 58 địa hạt của California. Biến phụ thuộc lấy tên là povrate
được xác định bằng phần trăm các gia đình có thu nhập dưới mức nghèo khó. Các biến độc
lập thì được xác định như sau (xem thêm chi tiết ở Phụ lục D và Phần Thực hành trên máy
tính 5.5):
urb = Phần trăm của tổng dân số thành thị
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
Ramu Ramanathan Thuc Doan/Hao Thi 12
famsize = Số người trong một hộ gia đình
unemp = Tỷ lệ phần trăm thất nghiệp
highschl = Phần trăm dân số (25 tuổi trở lên) có trình độ học vấn bậc trung học
college = Phần trăm dân số (25 tuổi trở lên) đã hoàn tất chương trình cao đẳng
hoặc đại học trở lên
medinc = Giá trị trung vị của thu nhập gia đình tính theo đơn vị ngàn đô-la
Bảng 5.3 có phần in ra từ máy tính có kèm chú thích để nghiên cứu.
} Bảng 5.3 Phần in ra từ máy tính có chú thích cho Ứng dụng ở Phần 5.4
[Ma trận của các hệ số tương quan theo từng cặp được trình bày ở đây. Cột cuối cùng chỉ số
biến. Vì vậy, sự tương quan giữa biến #5 (highschl) và biến #4 (unemp) là - 0,109. Các giá
trị trên đường chéo đều bằng 1,000 bởi vì sự tương quan giữa một biến và chính nó là 1.
Xin lưu ý rằng các hệ số tương quan cho thấy một vài giá trị cao. Như chúng ta đã kỳ vọng,
tỷ lệ trình độ bậc cao đẳng đại học có tương quan dương với trung vị thu nhập và tương
quan âm với tỷ lệ thất nghiệp. Chúng ta có thể kỳ vọng rằng những tương quan này cho
thấy sự xuất hiện của tính đa cộng tuyến giữa các biến này và có tác động đến các kết quả
hồi qui.]
Các hệ số tương quan, sử dụng số quan sát 1 – 58
2) urb 3) famsize 4) unemp 5) highschl 6) college
1.000 0.350 0.110 0.211 - 0.358 (2
1.000 0.485 - 0.508 - 0.300 (3
1.000 - 0.109 - 0.757 (4
1.000 - 0.358 (5
1.000 (6
7) medinc
- 0.084 (2
- 0.035 (3
- 0.714 (4
- 0.280 (5
0.848 (6
1.000 (7
[Ước lượng mô hình tổng quát với tất cả các biến giải thích.]
MODEL 1: OLS estimates using the 58 observations 1-58
Dependent variable: povrate
VARIABLE COEFFICIENT STDERROR T STAT 2Prob(t > |T|)
0) const 16.8176 8.5026 1.978 0.053350 *
2) urb -0.0187 0.0148 -1.270 0.210010
3) famsize 6.0918 1.8811 3.238 0.002116 ***
4) unemp -0.0118 0.1195 -0.099 0.921724
5) highschl -0.1186 0.0681 -1.741 0.087742 *
6) college 0.1711 0.0982 1.743 0.087355 *
7) medinc -0.5360 0.0704 -7.619 0.000000 ***
Mean of dep. var. 9.903 S.D. of dep. variable 3.955
Error Sum of Sq (ESS) 146.0911 Std Err of Resid. (sgmahat) 1.6925
Unadjusted R-squared 0.836 Adjusted R-squared 0.817
F-statistic (6. 51) 43.3875 p-value for F() 0.000000
Durbin-Watson stat. 1.904 First-order autocorr. coeff 0.040
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
Ramu Ramanathan Thuc Doan/Hao Thi 13
MODEL SELECTION STATISTICS
SGMASQ 2.86453 AIC 3.20646 FPE 3.21025
HQ 3.53259 SCHWARZ 4.11172 SHIBATA 3.1268
GCV 3.2577 RICE 3.32025
Excluding the constant. p-value was highest for variable 4 (uemp).
} Bảng 5.3 (tiếp theo)
[Ta lưu ý rằng biến urb và unemp có giá trị p cao hơn bất cứ mức chấp nhận hợp lý nào và
do đó sẽ là những biến bị loại ra khỏi mô hình. đặc biệt bởi vì về lý thuyết không có lý do
nào để giữ chúng lại. Nghiêm trọng hơn, ta lưu ý biến college có dấu dương không đúng
như kỳ vọng, dấu dương. Mọi yếu tố khác như nhau, nếu một quốc gia có phần trăm dân số
có trình độ đại học cao hơn, ta kỳ vọng tỷ lệ nghèo của quốc gia đó thấp hơn. Như vậy ta
kỳ vọng dấu âm cho biến college, điều này trái với ước lượng thực tế. Sự đa cộng tuyến có
thể gây nên dấu “sai”? Bởi vì biến unemp cực kỳ không ý nghĩa, với giá trị p trên 90%, ta
có thể loại bỏ nó một cách an toàn mà không sợ ảnh hưởng kết quả.]
MODEL 2: OLS estimates using the 58 observations 1-58
Dependent variable: povrate
VARIABLE COEFFICIENT STDERROR T STAT 2Prob(t > |T|)
0) const 16.5654 8.0325 2.062 0.044192 **
2) urb -0.0184 0.0142 -1.296 0.200710
3) famsize 6.0496 1.8145 3.334 0.001583 ***
5) highschl -0.1166 0.0646 -1.805 0.076822 *
6) college 0.1746 0.0905 1.929 0.059138 *
7) medinc -0.5343 0.0677 -7.894 0.000000 ***
Mean of dep. var. 9.903 S.D. of dep. variable 3.955
Error Sum of Sq (ESS) 146.1190 Std Err of Resid. (sgmahat) 1.6763
Unadjusted R-squared 0.836 Adjusted R-squared 0.820
F-statistic (5. 52) 53.0737 p-value for F() 0.000000
Durbin-Watson stat. 1.901 First-order autocorr. coeff 0.041
MODEL SELECTION STATISTICS
SGMASQ 2.80998 AIC 3.09837 FPE 3.10067
HQ 3.36659 SCHWARZ 3.83444 SHIBATA 3.04053
GCV 3.13421 RICE 3.1765
Excluding the constant. p-value was highest for variable 2 (urb).
Of the 8 model selection statistics. 8 have improved.
[Không có sự thay đổi trong các hệ số ước lượng và độ lệch chuẩn. Urb vẫn không có ý
nghĩa và sẽ được loại bỏ tiếp theo.]
MODEL 3: OLS estimates using the 58 observations 1-58
Dependent variable: povrate
VARIABLE COEFFICIENT STDERROR T STAT 2Prob(t > |T|)
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
Ramu Ramanathan Thuc Doan/Hao Thi 14
0) const 19.1721 7.8263 2.450 0.017634 **
3) famsize 5.4140 1.7581 3.079 0.003283 ***
5) highschl -0.1388 0.0627 -2.214 0.031161 **
6) college 0.1953 0.0897 2.178 0.033882 **
7) medinc -0.5523 0.0667 -8.274 0.000000 ***
} Bảng 5.3 (tiếp theo)
Mean of dep. var. 9.903 S.D. of dep. variable 3.955
Error Sum of Sq (ESS) 150.8385 Std Err of Resid. (sgmahat) 1.6870
Unadjusted R-squared 0.831 Adjusted R-squared 0.818
F-statistic (4. 53) 65.0877 p-value for F() 0.000000
Durbin-Watson stat. 2.025 First-order autocorr. coeff -0.025
MODEL SELECTION STATISTICS
SGMASQ 2.84601 AIC 3.09003 FPE 3.09135
HQ 3.31139 SCHWARZ 3.69066 SHIBATA 3.04905
GCV 3.1145 RICE 3.14247
Of the 8 model selection statistics. 8 have improved.
[Bây giờ tất cả hệ số đều có ý nghĩa ở mức dưới 5%, nhưng hệ số của biến college vẫn có
dấu sai. Những hệ số khác đã thay đổi một cách đáng kể hơn. Bởi vì trung vị của thu nhập
được xác định bởi phần trăm tốt nghiệp trung học và đại học, loại bỏ biến này ra khỏi mô
hình là có ý nghĩa ngay cả khi nó có hệ số rất có ý nghĩa. Hiệu ứng của biến này được thể
hiện một cách gián tiếp bởi biến highscl và college. Tham khảo phần thảo luận trong phần
4.7, diễn giải các hệ số hồi qui.]
MODEL 4: OLS estimates using the 58 observations 1-58
Dependent variable: povrate
VARIABLE COEFFICIENT STDERROR T STAT 2Prob(t > |T|)
0) const 53.2862 9.9879 5.335 0.000002 ***
3) famsize -3.9594 2.0194 -1.961 0.055081 *
5) highschl -0.4137 0.0798 -5.182 0.000003 ***
6) college -0.4744 0.0582 -8.151 0.000000 ***
Error Sum of Sq (ESS) 346.1406 Std Err of Resid. (sgmahat) 2.5318
Unadjusted R-squared 0.612 Adjusted R-squared 0.590
F-statistic (3. 54) 28.3753 p-value for F() 0.000000
MODEL SELECTION STATISTICS
SGMASQ 6.41001 AIC 6.85058 FPE 6.85208
HQ 7.24045 SCHWARZ 7.8966 SHIBATA 6.79111
GCV 6.88483 RICE 6.92281
[Một điều đáng quan tâm là giờ đây biến college có dấu âm như kỳ vọng và có ý nghĩa. Sự
thay đổi xảy ra có thể do sự đa cộng tuyến tồn tại giữa biến medinc và vài hoặc tất cả các
biến giải thích khác. Tuy nhiên, có sự giảm đáng kể trong giá trị 2R từ 0,818 xuống 0,590.
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
Ramu Ramanathan Thuc Doan/Hao Thi 15
Ngoài ra, tất cả các trị thống kê lựa chọn mô hình đều trở nên xấu đi. Bởi vì dấu dương của
biến college không có nghĩa về mặt lý thuyết, ta không nên đặt biến medinc vào lại mô
hình chỉ nhằm để tăng độ phù hợp có hiệu chỉnh hoặc để cải thiện chỉ tiêu lựa chọn. Từ đây
rõ rằng thấy rằng cần phải có sự xét đoán tốt và kinh nghiệm khi đánh giá các kết quả. Dựa
mù quáng trên những đo lường cứng nhắc có thể dẫn ta lạc lối.
Để chứng thực sự đa cộng tuyến đáng ngờ, ta liên kết biến medinc với các yếu tố
quyết định của nó.]
} Bảng 5.3 (tiếp theo)
MODEL 5: OLS estimates using the 58 observations 1-58
Dependent variable: medinc
VARIABLE COEFFICIENT STDERROR T STAT 2Prob(t > |T|)
0) const -44.9132 15.3482 -2.926 0.005042 ***
3) famsize 16.8193 2.6613 6.320 0.000000 ***
4) unemp -0.4677 0.2193 -2.133 0.037586 **
5) highschl 0.3649 0.1222 2.986 0.004277 ***
6) college 0.9921 0.1287 7.707 0.000000 ***
Mean of dep. var. 35.338 S.D. of dep. variable 8.264
Error Sum of Sq (ESS) 589.6206 Std Err of Resid. (sgmahat) 3.3354
Unadjusted R-squared 0.849 Adjusted R-squared 0.837
F-statistic (4. 53) 74.2331 p-value for F() 0.000000
MODEL SELECTION STATISTICS
SGMASQ 11.1249 AIC 12.0788 FPE 12.084
HQ 12.9441 SCHWARZ 14.4266 SHIBATA 11.9186
GCV 12.1744 RICE 12.2838
[Tất cả các hệ số đều rất ý nghĩa và có dấu như kỳ vọng. Ngoài ra, bình phương R có hiệu
chỉnh có giá trị cao, như vậy khẳng định rằng đa cộng tuyến hẳn phải là lý do về dấu dương
không như kỳ vọng của biến college trong mô hình tỷ lệ nghèo.]
Tóm tắt
Nếu một mối quan hệ tuyến tính đúng đắn tồn tại giữa hai hay nhiều biến giải thích, các
biến đó được gọi là đa cộng tuyến một cách chính xác. Trong tình huống như vậy, các hệ số
hồi qui tương ứng với các biến độc lập này không thể ước lượng một cách duy nhất.
Nếu vài biến giải thích là gần đa cộng tuyến, các ước lượng OLS vẫn không thiên lệch,
nhất quán, và là ước lượng không thiên lệch tuyến tính tốt nhất (BLUE). Do đó, các dự báo
cũng không thiên lệch và là nhất quán. Hơn nữa, tất cả các kiểm định của các giả thuyết
đều hiệu lực.
Hiệu ứng của gần đa cộng tuyến là tăng độ lệch chuẩn của các hệ số hồi qui và giảm
các trị thống kê t của chúng. Điều này có khuynh hướng làm cho các hệ số kém ý nghĩa hơn
nếu không có sự đa cộng tuyến. Do đó, nên chú ý khi rút ra suy luận và không đưa ra kết
luận rằng mọi biến không có ý nghĩa nên bị loại bỏ.
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
Ramu Ramanathan Thuc Doan/Hao Thi 16
Nếu hai biến là gần đa cộng tuyến, đồng phương sai giữa cặp hệ số hồi qui là cao, chỉ
ra rằng mỗi hệ số được thể hiện một phần qua hiệu ứng của biến khác. Có thể có dấu ngược
khi thêm vào hay bỏ đi một biến mới. Điều này làm cho việc diễn giải một hệ số hồi qui
riêng lẻ khó khăn hơn. Do vậy, hiệu ứng riêng phần của một biến đơn khó đo lường được.
Nếu một cặp biến độc lập không tương quan, thì hệ số hồi qui của mỗi biến là không
thay đổi cho dù biến kia được đưa vào mô hình hay không.
Đa cộng tuyến có thể được nhận dạng bằng cách khảo sát dạng tương quan giữa các
biến giải thích. Vì các biến chuỗi thời gian có chiều hướng phát triển cùng nhau, các mô
hình dựa trên chúng sẽ thiên về các bài toán đa cộng tuyến hơn là các mô hình chéo. Nếu
bỏ một hay nhiều biến độc lập làm biến đổi mạnh kết quả, thì chắc chắn sự đa cộng tuyến
là nguyên nhân.
Không có giải pháp duy nhất để loại bỏ sự đa cộng tuyến. Nếu trọng tâm là dự báo, đa
cộng tuyến có thể thường được làm ngơ vì khả năng dự báo thường không bị tác đôïng
nhiều. Nếu các biến tương tự có mặt trong mô hình, thì khuyên nên loại bỏ các biến thừa.
Các biến có thể loại bỏ là những biến có giá trị t rất thấp. Đơn giản hóa mô hình dựa trên
dữ liệu là cách tiếp cận có thể dùng được ở đây. Tuy nhiên, ta nên nhớ việc loại bỏ các biến
quan trọng sẽ gây ra sự thiên lệch. Nên dùng các kiến thức lý thuyết để quyết định nên hay
không giữ một biến lại mặc dù các vấn đề của đa cộng tuyến có thể có.
Tăng kích thước mẫu cũng là lời khuyên, với điều kiện dữ liệu mới có cùng hoặc ít
cộng tuyến hơn dữ liệu gốc. Các phương pháp khác như hồi qui ngọn sóng và phân tích
thành phần chính có thể được dùng, nhưng đây là các thủ tục không theo thể thức và không
có sự nhất trí về sự hữu dụng của chúng giữa các nhà kinh tế lượng.
Thuật ngữ
Absence of multicollinearity Sự vắng mặt của đa cộng tuyến
Exact multicollinearity Đa cộng tuyến chính xác
First differences Sai phân bậc nhất
Multicollinearity Đa cộng tuyến
Near multicollinearity Gần đa cộng tuyến
Perfect multicollinearity Đa cộng tuyến hoàn hảo
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
Ramu Ramanathan Thuc Doan/Hao Thi 17
5.A PHỤ LỤC
Chứng Minh các Phương Trình (5.4) đến (5.6)
Dùng các ký hiệu của Phần 4.A.1. các Phương trình chuẩn (5.2) và (5.3) có thể được
giải cho các hệ số β như sau (xem Phương trình 4.A.6 đến 4.A.15).
∆β
233y332y
2
SS-SS
=ˆ (5.A.1)
∆β
232y223y
3
SS-SS
=ˆ (5.A.2)
Trong đó
∆ = S22S33 – S223 (5.A.3)
Dễ dàng thấy rằng
E(Sy2) = β2S22 + β3S23 (5.A.4)
E(Sy3) = β2S23 + β3S33 (5.A.5)
Ta có
Sy2 = ∑yx2 = ∑x2(β2x2 + β3x3 + v) (5.A.6)
= β2S22 + β3S23 + Sv2
Sử dụng phương trình (5.1). Bởi vì E(v) = 0 và các x là không ngẫu nhiên. E(Sv2) =
E(∑vx2) = ∑x2E(v) = 0. Do đó. E(Sy2) = β2S22 + β3S23, vậy phương trình (5.A.4) được
chứng minh. Chứng minh phương trình (5.A.5) tương tự. Tiếp theo ta chứng minh
rằng
∆
σβ 33
2
2
S
=Var )ˆ( (5.A.7)
∆
σβ 22
2
3
S
=Var )ˆ( (5.A.8)
∆
σββ 23
2
32
S-
=Cov( )ˆ,ˆ (5.A.9)
Từ (5.A.6) và Tính chất 2.8c. Var(Sy2) = Var(Sv2). Từ Tính chất 2.9e.
Var (Sy2) = ∑x22Var(v) = σ2∑x22 = σ2S22
Chương trình Giảng dạy Kinh tế Fulbright
Niên khóa 2003-2004
Phương pháp phân tích
Bài đọc
Nhập môn kinh tế lượng với các ứng dụng
Chương 5: Đa cộng tuyến
Ramu Ramanathan Thuc Doan/Hao Thi 18
Var (Sy3) = ∑x32Var(v) = σ2∑x32 = σ2S33
Cov(Sy2, Sy3) = ∑x2x3Var(v) = σ2S23
Ngoài ra, từ Tính chất 2.4a
)],()()([)ˆ 3y2y23333y2232y23322 SSCovS2S-SVarS+SVarS
1=Var( ∆β
][ 23233333223222332
2
SS2S-SS+SS= ∆
σ
∆=∆=∆=
33
2
2233332
2
22
2
332
2 SSSSSS σσσ ]S-[]SS-[ 22333223
Vậy phương trình (5.A.7) chứng minh xong. Thủ tục chứng minh (5.A.8) và (5.A.9)
tương tự.
Gọi r là hệ số tương quan giữa X2 và X3 (xem Phương trình 2.11). Theo định
nghĩa, )/( 33222232 SSS=r . Do đó.
∆ = S22S33(1 – r2)
Dùng kết quả này vào Phương trình (5.A.7). (5.A.8), và (5.A.9), ta được Phương
trình (5.4). (5.5), và (5.6).
Các file đính kèm theo tài liệu này:
- ramach5_9475.pdf