Lý thuyết tổ hợp - Mô hình hồi qui đa bội

Chúng ta biếtrằng, vớicácgiảthuyết(tương tự

nhưcủamôhìnhhồiqui giảnđơn) phương pháp

OLS là phương pháp cho taướclượng BLUE,

Đểcó thểtiếnhànhkiểmđịnh thống kê, chúng ta

cầncóthêmgiảthiếtvều

Giảthiếtlàuđộclậpvới cácx

 

pdf29 trang | Chia sẻ: Mr Hưng | Lượt xem: 883 | Lượt tải: 0download
Bạn đang xem trước 20 trang nội dung tài liệu Lý thuyết tổ hợp - Mô hình hồi qui đa bội, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Economics 20 - Prof. Anderson 1 Mô hình hồi qui đa bội y = β0 + β1x1 + β2x2 + . . . βkxk + u 2. Suy diễn thống kê (Statistical Inference) Economics 20 - Prof. Anderson 2 Các giả thiết của mô hình hồi qui Chúng ta biết rằng, với các giả thuyết (tương tự như của mô hình hồi qui giản đơn) phương pháp OLS là phương pháp cho ta ước lượng BLUE, Để có thể tiến hành kiểm định thống kê, chúng ta cần có thêm giả thiết về u Giả thiết là u độc lập với các x1, x2,, xk và u có phân phối chuẩn, với trung trung binh là 0 và phương sai là σ2: u ~ Normal(0,σ2) Economics 20 - Prof. Anderson 3 Các giả thiết của mô hình hồi qui Chúng ta có thể tóm tắt các giả thiết về mô hình hồi qui như sau: y|x ~ Normal(β0 + β1x1 ++ βkxk, σ2) Hiện tại chúng ta sẽ giả thiết là hàm phân phối của chúng ta là hàm phân phối chuẩn. Tuy nhiên trong nhiều trường hợp, hàm phân phối này không phải là phân phối chuẩn. Nếu chúng ta có mẫu lớn, thì chúng ta không cần phải giả thiết về phân phối chuẩn. Economics 20 - Prof. Anderson 4 . . x1 x2 Mô hình hồi qui 1 biến có phương sai đồng nhất và Có phân phối chuẩn E(y|x) = β0 + β1x y f(y|x) Phân phối chuẩn Economics 20 - Prof. Anderson 5 Hàm phân phối mẫu là hàm phân phối chuẩn ( )[ ] ( ) ( ) ( )0,1Normal ~ ˆˆ nên ,ˆ,Normal ~ˆ j jj jjj sd Var β ββ βββ − Do mỗi ước lượng đều là một hàm tuyến tính của các biến phân phối chuẩn, nên từng bi (i = 0,1, ..., k) cũng có phân phối chuẩn. Công thức tính phương sai của β phức tạp nên không trình bày ở đâyÆ Tham khảo sách!!! STATA Economics 20 - Prof. Anderson 6 Kiểm định t ( ) ( ) 1 : là do tu Đô cho luong uoc đê ˆ dùng phai tachúng vìboi chuân phôiphân phai khôngchu t,phôiphân hàm làĐây ~ ˆ ˆ OLS cua thiêt gia các Voi 22 1 j −− − −− kn t se knj j σσ β ββ Economics 20 - Prof. Anderson 7 Kiểm định t Khi biết được phân phối mẫu (sampling distribution) của ước lượng (đã chuẩn hóa) thì chúng ta có thể tiến hành kiểm định Xây dựng một giả thuyết như: H0: βj=0 Nếu chấp nhận giả thuyết trống, tức là chấp nhận rằng xj không có quan hệ/tác động gì với y, sau khi đã tính toán tới tác động của các biến x khác (controlling for other x’s) Economics 20 - Prof. Anderson 8 Tóm tắt cho giả thuyết H0: βj = 0 Thường là kiểm định hai phía Nếu bác bỏ giả thuyết trống, thì thường ta phát biểu rằng “biến xj có ý nghĩa về mặt thống kê ở mức ý nghĩa là α % – thường là 5%” Nếu chúng ta không thể bác bỏ giả thuyết trống, chúng ta thường phát biểu là “biến xj không có ý nghĩa về mặt thống kê ở mức ý nghĩa α % ” Economics 20 - Prof. Anderson 9 Kiểm định các giả thuyết khác Ta có thể kiểm định xem b có bằng một giá trị khác hay không, ví dụ như H0: βj = aj Khi đó, công thức sử dụng sẽ là ( ) ( ) trên o xem-- 0 ,ˆ ˆ >= −= j j jj anêu se at β β Economics 20 - Prof. Anderson 10 Kiểm định kết hợp tuyến tính Ngoài việc kiểm định xem β1 có bằng một giá trị cụ thể nào hay không, ta có thể kiểm định xem β1 có bằng một tham số nào khác hay không, ví dụ H0 : β1 = β2 Ta xây dựng một kiểm định thống kê t như ( )21 21 ˆˆ ˆˆ ββ ββ − −= se t Economics 20 - Prof. Anderson 11 Kiểm định kết hợp tuyến tính Với STATA, việc kiểm định như vậy rất dễ In Stata, sau khi chạy mô hình reg y x1 x2 xk Mà ta muốn kiểm định β1 = β2 , ta chỉ việc gõ câu lệnh test x1 = x2 và sau đó sẽ thu được giá trị p- value đối với kiểm định này Economics 20 - Prof. Anderson 12 Kiểm định F Các kiểm định từ trước đến giờ, chúng ta chỉ xem xét môt điều kiện hạn chế (linear restriction) như β1 = 0 hoặc β1 = β2 ) Tuy nhiê, nhiều khi chúng ta muốn kiểm định kết hợp nhiều giả thuyết về các tham số của mô hình một cách đồng thời Một ví dụ điển hình là ta muốn kiểm định xem một nhóm các tham số có đồng thời cùng bằng 0 hay không ( “exclusion restrictions” ) Economics 20 - Prof. Anderson 13 Kiểm định F Khi đó giả thuyết trống có dạng „ H0: βk-q+1 = 0, ... , βk = 0 Giả thuyết thay thế là H1: Giả thuyết H0 không đúng Chúng ta không thể sử dụng kiểm định t với từng tham số, bởi vì chúng ta muốn biết q tham số cùng có ý nghĩa về mặt thống kê ở một mức ý nghĩa nhất định. Bởi vì hoàn toàn có thể là ở mức ý nghĩa đó, không có tham số nào có ý nghĩa một cách riêng lẻ cả. Economics 20 - Prof. Anderson 14 Kiểm định F Để kiểm định được ta phải ước lượng 2 mô hình. Một mô hình gọi là mô hình hạn chế (restricted model) trong đó không có các biến xk-q+1,, , xk , và môt hình nữa, gọi là mô hình không hạn chế (unrestricted model) trong đó có đầy đủ các biến x Về mặt trực giác, ta muốn xem phần SSR có thay đổi đủ lớn, để đưa các biến xk-q+1,, , xk vào mô hình hay không ( ) ( ) ed"unrestrict" -ur "restricted" -r where, 1−− −≡ knSSR qSSRSSRF ur urr Economics 20 - Prof. Anderson 15 ( ) ( ) ( )1kNSSE kSSR1kNR1 kRf 2 2 −−=−−−= Economics 20 - Prof. Anderson 16 Kiểm định F Số kiểm định F luôn là số vì SSR của mô hình hạn chế luôn nhỏ hơn mô hình không hạn chế Về cơ bản, F cho biết SSR tăng lên một cách tương đối khi chuyển từ mô hình hạn chế sang mô hình không hạn chế. q = số lượng hạn chế, hoặc dfr – dfur n – k – 1 = dfur Economics 20 - Prof. Anderson 17 Kiểm định F Để quyết định xem việc SSR tăng lên có đủ lớn khi chuyển từ mô hình không hạn chế sang mô hình hạn chế, ta cần biết được phân phối mẫu của F Phân phối mẫu của F là , F ~ Fq,n-k-1, trong đó q cho biết độ tự do của tử số, và n – k – 1 cho biết độ tự do của mẫu số Economics 20 - Prof. Anderson 18 0 c α(1 − α) f(F) F Bác bỏ Không bác bỏ Kiểm định F Bác bỏ H0 với mức ý nghĩa α nếu F > c Economics 20 - Prof. Anderson 19 Ví dụ kiểm định F, qui mô lớp – điểm số reg testscr str expn_stu pctel, r; Regression with robust standard errors Number of obs = 420 F( 3, 416) = 147.20 Prob > F = 0.0000 R-squared = 0.4366 Root MSE = 14.353 ------------------------------------------------------------------------------ | Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval] -------------+---------------------------------------------------------------- str | -.2863992 .4820728 -0.59 0.553 -1.234001 .661203 expn_stu | .0038679 .0015807 2.45 0.015 .0007607 .0069751 pctel | -.6560227 .0317844 -20.64 0.000 -.7185008 -.5935446 _cons | 649.5779 15.45834 42.02 0.000 619.1917 679.9641 ------------------------------------------------------------------------------ NOTE test str expn_stu; The test command follows the regression ( 1) str = 0.0 There are q=2 restrictions being tested ( 2) expn_stu = 0.0 F( 2, 416) = 5.43 The 5% critical value for q=2 is 3.00 Prob > F = 0.0047 Stata computes the p-value for you Economics 20 - Prof. Anderson 20 F dưới dạng R2 Nhiều khi SSR có thể là quá lớn, ta sử dụng một công thức khác Ta biết với mọi mô hình hồi qui ta có SSR = SST(1 – R2), thay thế vào công thức trên cho SSRu và SSRur ( )( ) ( )11 2 22 −−− −≡ knR qRRF ur rur Economics 20 - Prof. Anderson 21 Kiểm định chung (Overall Significance) Một dạng đặc biệt của kiểm định hạn chế là H0: β1 = β2 == βk = 0 Vì R2 của mô hình chỉ có intercept (không có biến giải thích), sẽ bằng không, nên kiểm định F sẽ là ( ) ( )11 2 2 −−−= knR kRF Economics 20 - Prof. Anderson 22 Kiểm định chung Ta có thể sử dụng kiểm định F cho bất kỳ hạn chế tuyến tính nào Đầu tiên, ước lượng mô hình không hạn chế, sau đó ước lượng mô hình hạn chế Ghi lại số SSR Xây dựng F và tiến hành kiểm định Economics 20 - Prof. Anderson 23 Tóm tắt kiểm định F Giống như kiểm định t, p-values có thể được tính bằng cách tra bảng với các độ tự do thích hợp của hàm phân phối F Trong Stata ta có thể tra cứu bằng lệnh „ display fprob(q, n – k – 1, F) „ Với q và n – k – 1 thích hợp Nếu chỉ có một hạn chế, thì F = t2, và giá trị p-values sẽ là như nhau Economics 20 - Prof. Anderson 24 Đa cộng tuyến hoàn hảo xẩy ra khi một trong số các biến độc lập x có thể được biểu diễn thành một hàm tuyến tính của các biến độc lập khác Ví dụ: Giả sử ta đưa STR vào mô hình 02 lần : regress testscr str str, robust Regression with robust standard errors Number of obs = 420 F( 1, 418) = 19.26 Prob > F = 0.0000 R-squared = 0.0512 Root MSE = 18.581 ------------------------------------------------------------------------- | Robust testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval] --------+---------------------------------------------------------------- str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671 str | (dropped) _cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057 ------------------------------------------------------------------------- Đa cộng tuyến (multicolinearity) Economics 20 - Prof. Anderson 25 Biến giả (dummy variable) Biến nhị phân (0-1) Nam – Nữ Mùa đông, mùa Hạ, Mùa thu, Mùa hè Economics 20 - Prof. Anderson 26 Biến giả - Đa cộng tuyến Giả sử ta có một tập hợp các biến giả nhị phân (0-1), (mutually exclusive and exhaustive), ví dụ như mùa vụ, ta có 4 quý, mỗi quí được thể hiện bằng một biến nhị phân. Nếu chúng ta đưa cả 4 biến giả nhị phân này vào mô hình, ta sẽ găp phải vấn đề đa cộng tuyến hoàn hảo - Bẫy biến giả (the dummy variable trap) • Tại sai lại có đa cộng tuyến ở đây? • Giải pháp? 1. Bỏ bớt một nhóm or 2. Bỏ intercept • Ý nghĩa của (1) và (2) khi giải thích mô hình ? Economics 20 - Prof. Anderson 27 Đa cộng tuyến không hoàn hảo Đa cộng tuyến không hoàn hảo và đa cộng tuyến hoàn hảo là rất khác nhau, mặc dù có tên gọi khá gần nhau Đa cộng tuyến không hoàn hảo: Khi 2 hoặc nhiều biến độc lập có tương quan với nhau rất cao • Khi 2 biến độc lập có tương quan rất cao với nhau, thì biểu đồ sẽ cho thấy hai biến này gần như nằm trên một đường thẳng, (cộng tuyến), nhưng trừ khi tương quan của hai biến là tương quan tuyệt đối ±1, thì cộng tuyến này chưa hoàn hảo Economics 20 - Prof. Anderson 28 Đa cộng tuyến không hoàn hảo Đa cộng tuyến không hoàn hảo sẽ làm cho một hoặc nhiều hệ số hồi qui sẽ không được ước lượng chính xác. • Lý giải: Hệ số của X1 cho biết tác động của X1 lên Y khi giữ nguyên X2; nhưng nếu X1 và X2 có tương quan cao, thì X1 sẽ rất ít biến động khi X2 bị giữ nguyên – Như vậy, số liệu sẽ không có nhiều thông tin về điều gì sẽ xảy ra khi X1 mà X2 giữ nguyên, như thế, phương sai của ước lượng OLS của X1 sẽ lơn. • Đa cộng tuyến không hoàn hảo sẽ làm cho sai số chuẩn của một hoặc nhiều hệ số rất lơn Æ gây khó khăn cho việc kiểm định • Giải pháp???? Economics 20 - Prof. Anderson 29 Những gì chưa nói Phương sai đồng nhất Phương sai không đồng nhất Tự tương quan của sai số của mô hình Kiểm định residual của mô hình „ Kiểm định normality „ Kiểm định phương sai đồng nhất „ Kiểm định tự tương quan „ Vẽ đồ thị của residuals

Các file đính kèm theo tài liệu này:

  • pdfday_3_review_of_multiple_regression_2_8396.pdf