Chúng ta biếtrằng, vớicácgiảthuyết(tương tự
nhưcủamôhìnhhồiqui giảnđơn) phương pháp
OLS là phương pháp cho taướclượng BLUE,
Đểcó thểtiếnhànhkiểmđịnh thống kê, chúng ta
cầncóthêmgiảthiếtvều
Giảthiếtlàuđộclậpvới cácx
29 trang |
Chia sẻ: Mr Hưng | Lượt xem: 883 | Lượt tải: 0
Bạn đang xem trước 20 trang nội dung tài liệu Lý thuyết tổ hợp - Mô hình hồi qui đa bội, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Economics 20 - Prof. Anderson 1
Mô hình hồi qui đa bội
y = β0 + β1x1 + β2x2 + . . . βkxk + u
2. Suy diễn thống kê (Statistical
Inference)
Economics 20 - Prof. Anderson 2
Các giả thiết của mô hình hồi qui
Chúng ta biết rằng, với các giả thuyết (tương tự
như của mô hình hồi qui giản đơn) phương pháp
OLS là phương pháp cho ta ước lượng BLUE,
Để có thể tiến hành kiểm định thống kê, chúng ta
cần có thêm giả thiết về u
Giả thiết là u độc lập với các x1, x2,, xk và u có
phân phối chuẩn, với trung trung binh là 0 và
phương sai là σ2: u ~ Normal(0,σ2)
Economics 20 - Prof. Anderson 3
Các giả thiết của mô hình hồi qui
Chúng ta có thể tóm tắt các giả thiết về mô hình
hồi qui như sau:
y|x ~ Normal(β0 + β1x1 ++ βkxk, σ2)
Hiện tại chúng ta sẽ giả thiết là hàm phân phối
của chúng ta là hàm phân phối chuẩn. Tuy nhiên
trong nhiều trường hợp, hàm phân phối này không
phải là phân phối chuẩn.
Nếu chúng ta có mẫu lớn, thì chúng ta không cần
phải giả thiết về phân phối chuẩn.
Economics 20 - Prof. Anderson 4
.
.
x1 x2
Mô hình hồi qui 1 biến có phương sai đồng nhất và
Có phân phối chuẩn
E(y|x) = β0 + β1x
y
f(y|x)
Phân phối
chuẩn
Economics 20 - Prof. Anderson 5
Hàm phân phối mẫu là hàm phân phối
chuẩn
( )[ ]
( ) ( ) ( )0,1Normal ~ ˆˆ
nên ,ˆ,Normal ~ˆ
j
jj
jjj
sd
Var
β
ββ
βββ
−
Do mỗi ước lượng đều là một hàm tuyến tính của các biến phân
phối chuẩn, nên từng bi (i = 0,1, ..., k) cũng có phân phối chuẩn.
Công thức tính phương sai của β phức tạp nên không trình bày ở
đâyÆ Tham khảo sách!!! STATA
Economics 20 - Prof. Anderson 6
Kiểm định t
( ) ( )
1 : là do tu Đô
cho luong uoc đê ˆ dùng phai tachúng vìboi
chuân phôiphân phai khôngchu t,phôiphân hàm làĐây
~ ˆ
ˆ
OLS cua thiêt gia các Voi
22
1
j
−−
−
−−
kn
t
se knj
j
σσ
β
ββ
Economics 20 - Prof. Anderson 7
Kiểm định t
Khi biết được phân phối mẫu (sampling
distribution) của ước lượng (đã chuẩn hóa)
thì chúng ta có thể tiến hành kiểm định
Xây dựng một giả thuyết như: H0: βj=0
Nếu chấp nhận giả thuyết trống, tức là chấp
nhận rằng xj không có quan hệ/tác động gì
với y, sau khi đã tính toán tới tác động của
các biến x khác (controlling for other x’s)
Economics 20 - Prof. Anderson 8
Tóm tắt cho giả thuyết H0: βj = 0
Thường là kiểm định hai phía
Nếu bác bỏ giả thuyết trống, thì thường ta phát
biểu rằng “biến xj có ý nghĩa về mặt thống kê ở
mức ý nghĩa là α % – thường là 5%”
Nếu chúng ta không thể bác bỏ giả thuyết trống,
chúng ta thường phát biểu là “biến xj không có ý
nghĩa về mặt thống kê ở mức ý nghĩa α % ”
Economics 20 - Prof. Anderson 9
Kiểm định các giả thuyết khác
Ta có thể kiểm định xem b có bằng một giá
trị khác hay không, ví dụ như H0: βj = aj
Khi đó, công thức sử dụng sẽ là
( ) ( )
trên o xem-- 0
,ˆ
ˆ
>=
−=
j
j
jj
anêu
se
at β
β
Economics 20 - Prof. Anderson 10
Kiểm định kết hợp tuyến tính
Ngoài việc kiểm định xem β1 có bằng một giá trị cụ thể
nào hay không, ta có thể kiểm định xem β1 có bằng một
tham số nào khác hay không, ví dụ H0 : β1 = β2
Ta xây dựng một kiểm định thống kê t như
( )21 21 ˆˆ
ˆˆ
ββ
ββ
−
−=
se
t
Economics 20 - Prof. Anderson 11
Kiểm định kết hợp tuyến tính
Với STATA, việc kiểm định như vậy rất dễ
In Stata, sau khi chạy mô hình
reg y x1 x2 xk
Mà ta muốn kiểm định β1 = β2 , ta chỉ việc gõ
câu lệnh
test x1 = x2 và sau đó sẽ thu được giá trị p-
value đối với kiểm định này
Economics 20 - Prof. Anderson 12
Kiểm định F
Các kiểm định từ trước đến giờ, chúng ta chỉ xem
xét môt điều kiện hạn chế (linear restriction) như
β1 = 0 hoặc β1 = β2 )
Tuy nhiê, nhiều khi chúng ta muốn kiểm định kết
hợp nhiều giả thuyết về các tham số của mô hình
một cách đồng thời
Một ví dụ điển hình là ta muốn kiểm định xem
một nhóm các tham số có đồng thời cùng bằng 0
hay không ( “exclusion restrictions” )
Economics 20 - Prof. Anderson 13
Kiểm định F
Khi đó giả thuyết trống có dạng
H0: βk-q+1 = 0, ... , βk = 0
Giả thuyết thay thế là H1: Giả thuyết H0 không
đúng
Chúng ta không thể sử dụng kiểm định t với từng
tham số, bởi vì chúng ta muốn biết q tham số cùng
có ý nghĩa về mặt thống kê ở một mức ý nghĩa
nhất định. Bởi vì hoàn toàn có thể là ở mức ý
nghĩa đó, không có tham số nào có ý nghĩa một
cách riêng lẻ cả.
Economics 20 - Prof. Anderson 14
Kiểm định F
Để kiểm định được ta phải ước lượng 2 mô hình. Một mô
hình gọi là mô hình hạn chế (restricted model) trong đó
không có các biến xk-q+1,, , xk , và môt hình nữa, gọi là
mô hình không hạn chế (unrestricted model) trong đó có
đầy đủ các biến x
Về mặt trực giác, ta muốn xem phần SSR có thay đổi đủ
lớn, để đưa các biến xk-q+1,, , xk vào mô hình hay không
( )
( )
ed"unrestrict" -ur
"restricted" -r
where,
1−−
−≡
knSSR
qSSRSSRF
ur
urr
Economics 20 - Prof. Anderson 15
( ) ( ) ( )1kNSSE kSSR1kNR1 kRf 2
2
−−=−−−=
Economics 20 - Prof. Anderson 16
Kiểm định F
Số kiểm định F luôn là số vì SSR của mô
hình hạn chế luôn nhỏ hơn mô hình không
hạn chế
Về cơ bản, F cho biết SSR tăng lên một
cách tương đối khi chuyển từ mô hình hạn
chế sang mô hình không hạn chế.
q = số lượng hạn chế, hoặc dfr – dfur
n – k – 1 = dfur
Economics 20 - Prof. Anderson 17
Kiểm định F
Để quyết định xem việc SSR tăng lên có
đủ lớn khi chuyển từ mô hình không hạn
chế sang mô hình hạn chế, ta cần biết được
phân phối mẫu của F
Phân phối mẫu của F là , F ~ Fq,n-k-1, trong
đó q cho biết độ tự do của tử số, và n – k –
1 cho biết độ tự do của mẫu số
Economics 20 - Prof. Anderson 18
0 c
α(1 − α)
f(F)
F
Bác bỏ
Không bác bỏ
Kiểm định F
Bác bỏ H0 với
mức ý nghĩa α
nếu F > c
Economics 20 - Prof. Anderson 19
Ví dụ kiểm định F, qui mô lớp – điểm số
reg testscr str expn_stu pctel, r;
Regression with robust standard errors Number of obs = 420
F( 3, 416) = 147.20
Prob > F = 0.0000
R-squared = 0.4366
Root MSE = 14.353
------------------------------------------------------------------------------
| Robust
testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
str | -.2863992 .4820728 -0.59 0.553 -1.234001 .661203
expn_stu | .0038679 .0015807 2.45 0.015 .0007607 .0069751
pctel | -.6560227 .0317844 -20.64 0.000 -.7185008 -.5935446
_cons | 649.5779 15.45834 42.02 0.000 619.1917 679.9641
------------------------------------------------------------------------------
NOTE
test str expn_stu; The test command follows the regression
( 1) str = 0.0 There are q=2 restrictions being tested
( 2) expn_stu = 0.0
F( 2, 416) = 5.43 The 5% critical value for q=2 is 3.00
Prob > F = 0.0047 Stata computes the p-value for you
Economics 20 - Prof. Anderson 20
F dưới dạng R2
Nhiều khi SSR có thể là quá lớn, ta sử dụng một công
thức khác
Ta biết với mọi mô hình hồi qui ta có SSR = SST(1 – R2),
thay thế vào công thức trên cho SSRu và SSRur
( )( ) ( )11 2
22
−−−
−≡
knR
qRRF
ur
rur
Economics 20 - Prof. Anderson 21
Kiểm định chung (Overall
Significance)
Một dạng đặc biệt của kiểm định hạn chế là
H0: β1 = β2 == βk = 0
Vì R2 của mô hình chỉ có intercept (không có biến giải
thích), sẽ bằng không, nên kiểm định F sẽ là
( ) ( )11 2
2
−−−= knR
kRF
Economics 20 - Prof. Anderson 22
Kiểm định chung
Ta có thể sử dụng kiểm định F cho bất kỳ
hạn chế tuyến tính nào
Đầu tiên, ước lượng mô hình không hạn
chế, sau đó ước lượng mô hình hạn chế
Ghi lại số SSR
Xây dựng F và tiến hành kiểm định
Economics 20 - Prof. Anderson 23
Tóm tắt kiểm định F
Giống như kiểm định t, p-values có thể
được tính bằng cách tra bảng với các độ tự
do thích hợp của hàm phân phối F
Trong Stata ta có thể tra cứu bằng lệnh
display fprob(q, n – k – 1, F)
Với q và n – k – 1 thích hợp
Nếu chỉ có một hạn chế, thì F = t2, và giá
trị p-values sẽ là như nhau
Economics 20 - Prof. Anderson 24
Đa cộng tuyến hoàn hảo xẩy ra khi một trong số các biến độc
lập x có thể được biểu diễn thành một hàm tuyến tính của các
biến độc lập khác
Ví dụ: Giả sử ta đưa STR vào mô hình 02 lần :
regress testscr str str, robust
Regression with robust standard errors Number of obs = 420
F( 1, 418) = 19.26
Prob > F = 0.0000
R-squared = 0.0512
Root MSE = 18.581
-------------------------------------------------------------------------
| Robust
testscr | Coef. Std. Err. t P>|t| [95% Conf. Interval]
--------+----------------------------------------------------------------
str | -2.279808 .5194892 -4.39 0.000 -3.300945 -1.258671
str | (dropped)
_cons | 698.933 10.36436 67.44 0.000 678.5602 719.3057
-------------------------------------------------------------------------
Đa cộng tuyến (multicolinearity)
Economics 20 - Prof. Anderson 25
Biến giả (dummy variable)
Biến nhị phân (0-1)
Nam – Nữ
Mùa đông, mùa Hạ, Mùa thu, Mùa hè
Economics 20 - Prof. Anderson 26
Biến giả - Đa cộng tuyến
Giả sử ta có một tập hợp các biến giả nhị phân (0-1),
(mutually exclusive and exhaustive), ví dụ như mùa vụ, ta có 4
quý, mỗi quí được thể hiện bằng một biến nhị phân. Nếu chúng
ta đưa cả 4 biến giả nhị phân này vào mô hình, ta sẽ găp phải vấn
đề đa cộng tuyến hoàn hảo - Bẫy biến giả (the dummy variable
trap)
• Tại sai lại có đa cộng tuyến ở đây?
• Giải pháp?
1. Bỏ bớt một nhóm or
2. Bỏ intercept
• Ý nghĩa của (1) và (2) khi giải thích mô hình ?
Economics 20 - Prof. Anderson 27
Đa cộng tuyến không hoàn hảo
Đa cộng tuyến không hoàn hảo và đa cộng tuyến hoàn hảo là rất
khác nhau, mặc dù có tên gọi khá gần nhau
Đa cộng tuyến không hoàn hảo: Khi 2 hoặc nhiều biến độc lập
có tương quan với nhau rất cao
• Khi 2 biến độc lập có tương quan rất cao với nhau, thì biểu
đồ sẽ cho thấy hai biến này gần như nằm trên một đường
thẳng, (cộng tuyến), nhưng trừ khi tương quan của hai biến
là tương quan tuyệt đối ±1, thì cộng tuyến này chưa hoàn
hảo
Economics 20 - Prof. Anderson 28
Đa cộng tuyến không hoàn hảo
Đa cộng tuyến không hoàn hảo sẽ làm cho một hoặc nhiều hệ số
hồi qui sẽ không được ước lượng chính xác.
• Lý giải: Hệ số của X1 cho biết tác động của X1 lên Y khi giữ
nguyên X2; nhưng nếu X1 và X2 có tương quan cao, thì X1 sẽ
rất ít biến động khi X2 bị giữ nguyên – Như vậy, số liệu sẽ
không có nhiều thông tin về điều gì sẽ xảy ra khi X1 mà X2
giữ nguyên, như thế, phương sai của ước lượng OLS của X1
sẽ lơn.
• Đa cộng tuyến không hoàn hảo sẽ làm cho sai số chuẩn của
một hoặc nhiều hệ số rất lơn Æ gây khó khăn cho việc kiểm
định
• Giải pháp????
Economics 20 - Prof. Anderson 29
Những gì chưa nói
Phương sai đồng nhất
Phương sai không đồng nhất
Tự tương quan của sai số của mô hình
Kiểm định residual của mô hình
Kiểm định normality
Kiểm định phương sai đồng nhất
Kiểm định tự tương quan
Vẽ đồ thị của residuals
Các file đính kèm theo tài liệu này:
- day_3_review_of_multiple_regression_2_8396.pdf