Kinh tế lượng với các ứng dụng - Chương 5: Đa cộng tuyến

Đa cộng tuyến

Các biến giải thích được xác định trong một mô hình kinh tế lượng thường xuất phát từ lý

thuyết hoặc hiểu biết căn bản về hành vi chúng ta đang cố gắng thiết kế mô hình, cũng như

từ kinh nghiệm quá khứ. Dữ liệu về các biến này đặc biệt xuất phát từ những thực nghiệm

không kiểm soát và thường tương quan với nhau. Điều này đặc biệt đúng đối với các biến

chuỗi thời gian thường có những xu hướng tiềm ẩn thông thường. Ví dụ, dân số và tổng sản

phẩm quốc nội là hai chuỗi dữ liệu tương quan chặt lẫn nhau. Trong chương trước, chúng ta

phát biểu là hệ số hồi qui đối với một biến cụ thể là số đo tác động riêng phần của biến này,

nghĩa là tác động của nó khi tất cả các biến khác trong mô hình được giữ ở những mức cố

định và chỉ có giá trị của biến này thay đổi. Tuy nhiên, khi hai biến giải thích cùng tương

quan chặt; chúng ta không thể chỉ đơn giản giữ một biến không đổi và thay đổi biến còn lại

vì khi biến sau thay đổi thì biến đầu thay đổi. Trong trường hợp này, thật khó tách biệt ảnh

hưởng riêng phần của một biến đơn. Cũng vậy, thay đổi mô hình bằng cách loại bỏ hoặc

thêm vào một biến có thể làm thay đổi kết quả một cách nghiêm trọng, khiến cho việc diễn

dịch các ước lượng sẽ khó khăn hơn. Đây chính là vấn đề đa cộng tuyến, vấn đề xuất hiện

khi các biến giải thích có các quan hệ gần như tuyến tính. Chương này khảo sát các hệ quả

của đa cộng tuyến trong phạm vi ước lượng các thông số, khảo sát các tính chất của chúng

và kiểm định giả thuyết về những hệ quả này. Trước hết chúng tôi trình bày các ví dụ về vấn

đề đa cộng tuyến phát sinh như thế nào trong thực tế và sau đó khảo sát vấn đề này một cách

chi tiết hơn.

 

pdf18 trang | Chia sẻ: hongha80 | Lượt xem: 627 | Lượt tải: 0download
Nội dung tài liệu Kinh tế lượng với các ứng dụng - Chương 5: Đa cộng tuyến, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Yếu Tố Quyết Định Bảng Dữ liệu 4-6 có dữ liệu về các tỷ lệ nghèo khó và một con số của các yếu tố có thể tác động đến những tỷ lệ này ở 58 địa hạt của California. Biến phụ thuộc lấy tên là povrate được xác định bằng phần trăm các gia đình có thu nhập dưới mức nghèo khó. Các biến độc lập thì được xác định như sau (xem thêm chi tiết ở Phụ lục D và Phần Thực hành trên máy tính 5.5): urb = Phần trăm của tổng dân số thành thị Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 Phương pháp phân tích Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng tuyến Ramu Ramanathan Thuc Doan/Hao Thi 12 famsize = Số người trong một hộ gia đình unemp = Tỷ lệ phần trăm thất nghiệp highschl = Phần trăm dân số (25 tuổi trở lên) có trình độ học vấn bậc trung học college = Phần trăm dân số (25 tuổi trở lên) đã hoàn tất chương trình cao đẳng hoặc đại học trở lên medinc = Giá trị trung vị của thu nhập gia đình tính theo đơn vị ngàn đô-la Bảng 5.3 có phần in ra từ máy tính có kèm chú thích để nghiên cứu. } Bảng 5.3 Phần in ra từ máy tính có chú thích cho Ứng dụng ở Phần 5.4 [Ma trận của các hệ số tương quan theo từng cặp được trình bày ở đây. Cột cuối cùng chỉ số biến. Vì vậy, sự tương quan giữa biến #5 (highschl) và biến #4 (unemp) là - 0,109. Các giá trị trên đường chéo đều bằng 1,000 bởi vì sự tương quan giữa một biến và chính nó là 1. Xin lưu ý rằng các hệ số tương quan cho thấy một vài giá trị cao. Như chúng ta đã kỳ vọng, tỷ lệ trình độ bậc cao đẳng đại học có tương quan dương với trung vị thu nhập và tương quan âm với tỷ lệ thất nghiệp. Chúng ta có thể kỳ vọng rằng những tương quan này cho thấy sự xuất hiện của tính đa cộng tuyến giữa các biến này và có tác động đến các kết quả hồi qui.] Các hệ số tương quan, sử dụng số quan sát 1 – 58 2) urb 3) famsize 4) unemp 5) highschl 6) college 1.000 0.350 0.110 0.211 - 0.358 (2 1.000 0.485 - 0.508 - 0.300 (3 1.000 - 0.109 - 0.757 (4 1.000 - 0.358 (5 1.000 (6 7) medinc - 0.084 (2 - 0.035 (3 - 0.714 (4 - 0.280 (5 0.848 (6 1.000 (7 [Ước lượng mô hình tổng quát với tất cả các biến giải thích.] MODEL 1: OLS estimates using the 58 observations 1-58 Dependent variable: povrate VARIABLE COEFFICIENT STDERROR T STAT 2Prob(t > |T|) 0) const 16.8176 8.5026 1.978 0.053350 * 2) urb -0.0187 0.0148 -1.270 0.210010 3) famsize 6.0918 1.8811 3.238 0.002116 *** 4) unemp -0.0118 0.1195 -0.099 0.921724 5) highschl -0.1186 0.0681 -1.741 0.087742 * 6) college 0.1711 0.0982 1.743 0.087355 * 7) medinc -0.5360 0.0704 -7.619 0.000000 *** Mean of dep. var. 9.903 S.D. of dep. variable 3.955 Error Sum of Sq (ESS) 146.0911 Std Err of Resid. (sgmahat) 1.6925 Unadjusted R-squared 0.836 Adjusted R-squared 0.817 F-statistic (6. 51) 43.3875 p-value for F() 0.000000 Durbin-Watson stat. 1.904 First-order autocorr. coeff 0.040 Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 Phương pháp phân tích Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng tuyến Ramu Ramanathan Thuc Doan/Hao Thi 13 MODEL SELECTION STATISTICS SGMASQ 2.86453 AIC 3.20646 FPE 3.21025 HQ 3.53259 SCHWARZ 4.11172 SHIBATA 3.1268 GCV 3.2577 RICE 3.32025 Excluding the constant. p-value was highest for variable 4 (uemp). } Bảng 5.3 (tiếp theo) [Ta lưu ý rằng biến urb và unemp có giá trị p cao hơn bất cứ mức chấp nhận hợp lý nào và do đó sẽ là những biến bị loại ra khỏi mô hình. đặc biệt bởi vì về lý thuyết không có lý do nào để giữ chúng lại. Nghiêm trọng hơn, ta lưu ý biến college có dấu dương không đúng như kỳ vọng, dấu dương. Mọi yếu tố khác như nhau, nếu một quốc gia có phần trăm dân số có trình độ đại học cao hơn, ta kỳ vọng tỷ lệ nghèo của quốc gia đó thấp hơn. Như vậy ta kỳ vọng dấu âm cho biến college, điều này trái với ước lượng thực tế. Sự đa cộng tuyến có thể gây nên dấu “sai”? Bởi vì biến unemp cực kỳ không ý nghĩa, với giá trị p trên 90%, ta có thể loại bỏ nó một cách an toàn mà không sợ ảnh hưởng kết quả.] MODEL 2: OLS estimates using the 58 observations 1-58 Dependent variable: povrate VARIABLE COEFFICIENT STDERROR T STAT 2Prob(t > |T|) 0) const 16.5654 8.0325 2.062 0.044192 ** 2) urb -0.0184 0.0142 -1.296 0.200710 3) famsize 6.0496 1.8145 3.334 0.001583 *** 5) highschl -0.1166 0.0646 -1.805 0.076822 * 6) college 0.1746 0.0905 1.929 0.059138 * 7) medinc -0.5343 0.0677 -7.894 0.000000 *** Mean of dep. var. 9.903 S.D. of dep. variable 3.955 Error Sum of Sq (ESS) 146.1190 Std Err of Resid. (sgmahat) 1.6763 Unadjusted R-squared 0.836 Adjusted R-squared 0.820 F-statistic (5. 52) 53.0737 p-value for F() 0.000000 Durbin-Watson stat. 1.901 First-order autocorr. coeff 0.041 MODEL SELECTION STATISTICS SGMASQ 2.80998 AIC 3.09837 FPE 3.10067 HQ 3.36659 SCHWARZ 3.83444 SHIBATA 3.04053 GCV 3.13421 RICE 3.1765 Excluding the constant. p-value was highest for variable 2 (urb). Of the 8 model selection statistics. 8 have improved. [Không có sự thay đổi trong các hệ số ước lượng và độ lệch chuẩn. Urb vẫn không có ý nghĩa và sẽ được loại bỏ tiếp theo.] MODEL 3: OLS estimates using the 58 observations 1-58 Dependent variable: povrate VARIABLE COEFFICIENT STDERROR T STAT 2Prob(t > |T|) Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 Phương pháp phân tích Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng tuyến Ramu Ramanathan Thuc Doan/Hao Thi 14 0) const 19.1721 7.8263 2.450 0.017634 ** 3) famsize 5.4140 1.7581 3.079 0.003283 *** 5) highschl -0.1388 0.0627 -2.214 0.031161 ** 6) college 0.1953 0.0897 2.178 0.033882 ** 7) medinc -0.5523 0.0667 -8.274 0.000000 *** } Bảng 5.3 (tiếp theo) Mean of dep. var. 9.903 S.D. of dep. variable 3.955 Error Sum of Sq (ESS) 150.8385 Std Err of Resid. (sgmahat) 1.6870 Unadjusted R-squared 0.831 Adjusted R-squared 0.818 F-statistic (4. 53) 65.0877 p-value for F() 0.000000 Durbin-Watson stat. 2.025 First-order autocorr. coeff -0.025 MODEL SELECTION STATISTICS SGMASQ 2.84601 AIC 3.09003 FPE 3.09135 HQ 3.31139 SCHWARZ 3.69066 SHIBATA 3.04905 GCV 3.1145 RICE 3.14247 Of the 8 model selection statistics. 8 have improved. [Bây giờ tất cả hệ số đều có ý nghĩa ở mức dưới 5%, nhưng hệ số của biến college vẫn có dấu sai. Những hệ số khác đã thay đổi một cách đáng kể hơn. Bởi vì trung vị của thu nhập được xác định bởi phần trăm tốt nghiệp trung học và đại học, loại bỏ biến này ra khỏi mô hình là có ý nghĩa ngay cả khi nó có hệ số rất có ý nghĩa. Hiệu ứng của biến này được thể hiện một cách gián tiếp bởi biến highscl và college. Tham khảo phần thảo luận trong phần 4.7, diễn giải các hệ số hồi qui.] MODEL 4: OLS estimates using the 58 observations 1-58 Dependent variable: povrate VARIABLE COEFFICIENT STDERROR T STAT 2Prob(t > |T|) 0) const 53.2862 9.9879 5.335 0.000002 *** 3) famsize -3.9594 2.0194 -1.961 0.055081 * 5) highschl -0.4137 0.0798 -5.182 0.000003 *** 6) college -0.4744 0.0582 -8.151 0.000000 *** Error Sum of Sq (ESS) 346.1406 Std Err of Resid. (sgmahat) 2.5318 Unadjusted R-squared 0.612 Adjusted R-squared 0.590 F-statistic (3. 54) 28.3753 p-value for F() 0.000000 MODEL SELECTION STATISTICS SGMASQ 6.41001 AIC 6.85058 FPE 6.85208 HQ 7.24045 SCHWARZ 7.8966 SHIBATA 6.79111 GCV 6.88483 RICE 6.92281 [Một điều đáng quan tâm là giờ đây biến college có dấu âm như kỳ vọng và có ý nghĩa. Sự thay đổi xảy ra có thể do sự đa cộng tuyến tồn tại giữa biến medinc và vài hoặc tất cả các biến giải thích khác. Tuy nhiên, có sự giảm đáng kể trong giá trị 2R từ 0,818 xuống 0,590. Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 Phương pháp phân tích Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng tuyến Ramu Ramanathan Thuc Doan/Hao Thi 15 Ngoài ra, tất cả các trị thống kê lựa chọn mô hình đều trở nên xấu đi. Bởi vì dấu dương của biến college không có nghĩa về mặt lý thuyết, ta không nên đặt biến medinc vào lại mô hình chỉ nhằm để tăng độ phù hợp có hiệu chỉnh hoặc để cải thiện chỉ tiêu lựa chọn. Từ đây rõ rằng thấy rằng cần phải có sự xét đoán tốt và kinh nghiệm khi đánh giá các kết quả. Dựa mù quáng trên những đo lường cứng nhắc có thể dẫn ta lạc lối. Để chứng thực sự đa cộng tuyến đáng ngờ, ta liên kết biến medinc với các yếu tố quyết định của nó.] } Bảng 5.3 (tiếp theo) MODEL 5: OLS estimates using the 58 observations 1-58 Dependent variable: medinc VARIABLE COEFFICIENT STDERROR T STAT 2Prob(t > |T|) 0) const -44.9132 15.3482 -2.926 0.005042 *** 3) famsize 16.8193 2.6613 6.320 0.000000 *** 4) unemp -0.4677 0.2193 -2.133 0.037586 ** 5) highschl 0.3649 0.1222 2.986 0.004277 *** 6) college 0.9921 0.1287 7.707 0.000000 *** Mean of dep. var. 35.338 S.D. of dep. variable 8.264 Error Sum of Sq (ESS) 589.6206 Std Err of Resid. (sgmahat) 3.3354 Unadjusted R-squared 0.849 Adjusted R-squared 0.837 F-statistic (4. 53) 74.2331 p-value for F() 0.000000 MODEL SELECTION STATISTICS SGMASQ 11.1249 AIC 12.0788 FPE 12.084 HQ 12.9441 SCHWARZ 14.4266 SHIBATA 11.9186 GCV 12.1744 RICE 12.2838 [Tất cả các hệ số đều rất ý nghĩa và có dấu như kỳ vọng. Ngoài ra, bình phương R có hiệu chỉnh có giá trị cao, như vậy khẳng định rằng đa cộng tuyến hẳn phải là lý do về dấu dương không như kỳ vọng của biến college trong mô hình tỷ lệ nghèo.] Tóm tắt Nếu một mối quan hệ tuyến tính đúng đắn tồn tại giữa hai hay nhiều biến giải thích, các biến đó được gọi là đa cộng tuyến một cách chính xác. Trong tình huống như vậy, các hệ số hồi qui tương ứng với các biến độc lập này không thể ước lượng một cách duy nhất. Nếu vài biến giải thích là gần đa cộng tuyến, các ước lượng OLS vẫn không thiên lệch, nhất quán, và là ước lượng không thiên lệch tuyến tính tốt nhất (BLUE). Do đó, các dự báo cũng không thiên lệch và là nhất quán. Hơn nữa, tất cả các kiểm định của các giả thuyết đều hiệu lực. Hiệu ứng của gần đa cộng tuyến là tăng độ lệch chuẩn của các hệ số hồi qui và giảm các trị thống kê t của chúng. Điều này có khuynh hướng làm cho các hệ số kém ý nghĩa hơn nếu không có sự đa cộng tuyến. Do đó, nên chú ý khi rút ra suy luận và không đưa ra kết luận rằng mọi biến không có ý nghĩa nên bị loại bỏ. Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 Phương pháp phân tích Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng tuyến Ramu Ramanathan Thuc Doan/Hao Thi 16 Nếu hai biến là gần đa cộng tuyến, đồng phương sai giữa cặp hệ số hồi qui là cao, chỉ ra rằng mỗi hệ số được thể hiện một phần qua hiệu ứng của biến khác. Có thể có dấu ngược khi thêm vào hay bỏ đi một biến mới. Điều này làm cho việc diễn giải một hệ số hồi qui riêng lẻ khó khăn hơn. Do vậy, hiệu ứng riêng phần của một biến đơn khó đo lường được. Nếu một cặp biến độc lập không tương quan, thì hệ số hồi qui của mỗi biến là không thay đổi cho dù biến kia được đưa vào mô hình hay không. Đa cộng tuyến có thể được nhận dạng bằng cách khảo sát dạng tương quan giữa các biến giải thích. Vì các biến chuỗi thời gian có chiều hướng phát triển cùng nhau, các mô hình dựa trên chúng sẽ thiên về các bài toán đa cộng tuyến hơn là các mô hình chéo. Nếu bỏ một hay nhiều biến độc lập làm biến đổi mạnh kết quả, thì chắc chắn sự đa cộng tuyến là nguyên nhân. Không có giải pháp duy nhất để loại bỏ sự đa cộng tuyến. Nếu trọng tâm là dự báo, đa cộng tuyến có thể thường được làm ngơ vì khả năng dự báo thường không bị tác đôïng nhiều. Nếu các biến tương tự có mặt trong mô hình, thì khuyên nên loại bỏ các biến thừa. Các biến có thể loại bỏ là những biến có giá trị t rất thấp. Đơn giản hóa mô hình dựa trên dữ liệu là cách tiếp cận có thể dùng được ở đây. Tuy nhiên, ta nên nhớ việc loại bỏ các biến quan trọng sẽ gây ra sự thiên lệch. Nên dùng các kiến thức lý thuyết để quyết định nên hay không giữ một biến lại mặc dù các vấn đề của đa cộng tuyến có thể có. Tăng kích thước mẫu cũng là lời khuyên, với điều kiện dữ liệu mới có cùng hoặc ít cộng tuyến hơn dữ liệu gốc. Các phương pháp khác như hồi qui ngọn sóng và phân tích thành phần chính có thể được dùng, nhưng đây là các thủ tục không theo thể thức và không có sự nhất trí về sự hữu dụng của chúng giữa các nhà kinh tế lượng. Thuật ngữ Absence of multicollinearity Sự vắng mặt của đa cộng tuyến Exact multicollinearity Đa cộng tuyến chính xác First differences Sai phân bậc nhất Multicollinearity Đa cộng tuyến Near multicollinearity Gần đa cộng tuyến Perfect multicollinearity Đa cộng tuyến hoàn hảo Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 Phương pháp phân tích Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng tuyến Ramu Ramanathan Thuc Doan/Hao Thi 17 5.A PHỤ LỤC Chứng Minh các Phương Trình (5.4) đến (5.6) Dùng các ký hiệu của Phần 4.A.1. các Phương trình chuẩn (5.2) và (5.3) có thể được giải cho các hệ số β như sau (xem Phương trình 4.A.6 đến 4.A.15). ∆β 233y332y 2 SS-SS =ˆ (5.A.1) ∆β 232y223y 3 SS-SS =ˆ (5.A.2) Trong đó ∆ = S22S33 – S223 (5.A.3) Dễ dàng thấy rằng E(Sy2) = β2S22 + β3S23 (5.A.4) E(Sy3) = β2S23 + β3S33 (5.A.5) Ta có Sy2 = ∑yx2 = ∑x2(β2x2 + β3x3 + v) (5.A.6) = β2S22 + β3S23 + Sv2 Sử dụng phương trình (5.1). Bởi vì E(v) = 0 và các x là không ngẫu nhiên. E(Sv2) = E(∑vx2) = ∑x2E(v) = 0. Do đó. E(Sy2) = β2S22 + β3S23, vậy phương trình (5.A.4) được chứng minh. Chứng minh phương trình (5.A.5) tương tự. Tiếp theo ta chứng minh rằng ∆ σβ 33 2 2 S =Var )ˆ( (5.A.7) ∆ σβ 22 2 3 S =Var )ˆ( (5.A.8) ∆ σββ 23 2 32 S- =Cov( )ˆ,ˆ (5.A.9) Từ (5.A.6) và Tính chất 2.8c. Var(Sy2) = Var(Sv2). Từ Tính chất 2.9e. Var (Sy2) = ∑x22Var(v) = σ2∑x22 = σ2S22 Chương trình Giảng dạy Kinh tế Fulbright Niên khóa 2003-2004 Phương pháp phân tích Bài đọc Nhập môn kinh tế lượng với các ứng dụng Chương 5: Đa cộng tuyến Ramu Ramanathan Thuc Doan/Hao Thi 18 Var (Sy3) = ∑x32Var(v) = σ2∑x32 = σ2S33 Cov(Sy2, Sy3) = ∑x2x3Var(v) = σ2S23 Ngoài ra, từ Tính chất 2.4a )],()()([)ˆ 3y2y23333y2232y23322 SSCovS2S-SVarS+SVarS 1=Var( ∆β ][ 23233333223222332 2 SS2S-SS+SS= ∆ σ ∆=∆=∆= 33 2 2233332 2 22 2 332 2 SSSSSS σσσ ]S-[]SS-[ 22333223 Vậy phương trình (5.A.7) chứng minh xong. Thủ tục chứng minh (5.A.8) và (5.A.9) tương tự. Gọi r là hệ số tương quan giữa X2 và X3 (xem Phương trình 2.11). Theo định nghĩa, )/( 33222232 SSS=r . Do đó. ∆ = S22S33(1 – r2) Dùng kết quả này vào Phương trình (5.A.7). (5.A.8), và (5.A.9), ta được Phương trình (5.4). (5.5), và (5.6).

Các file đính kèm theo tài liệu này:

  • pdframach5_9475.pdf