Đẳng thức này có ý nghĩa rất quan trọng. Đại lượng SST (total sum of squares) thể
hiện toàn bộ biến thiên của Y. Nó được chia thành hai hai phần:
• Phần thứ nhất: SSR (sum of squares for regression) thể hiện phần biến thiên của
Y được giải thích bởi biến X.
• Phần thứ hai: SSE (sum of squares for error) thể hiện phần biến thiên do các
yếu tố khác không nghiên cứu.
21 trang |
Chia sẻ: thienmai908 | Lượt xem: 3114 | Lượt tải: 0
Bạn đang xem trước 20 trang nội dung tài liệu Mô hình hồi quy hai biến, ước lượng và kiểm định giả thuyết, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1
CHƯƠNG 3
MÔ HÌNH HỒI QUY HAI BIẾN, ƯỚC
LƯỢNG VÀ KIỂM ĐỊNH GIẢ THUYẾT
Trong chương này sẽ trình bày vấn đề ước lượng hàm hồi quy tổng thể PRF một
cách chính xác có thể được trên cơ sở hàm hồi quy mẫu. Có một số phương pháp ước
lượng hàm hồi quy mẫu, phương pháp thường dùng là phương pháp bình phương
nhỏ nhất OLS (Ordinary Least Square). Chúng ta sẽ trình bày phương pháp này cho
mô hình hai biến ở chương này, chương sau sẽ trình bày phương pháp OLS cho mô
hình hồi quy bội.
3.1 Phương pháp ước lượng bình phương bé nhất
Phương pháp bình phương nhỏ nhất do nhà toán học Đức Carl Friedrich Gauss
đưa ra. Sử dụng phương pháp này kèm theo một vài giả thuyết, các ước lượng thu được
có tính chất đặc biệt, nhờ đó mà phương pháp này là phương pháp mạnh nhất và được
nhiều người sử dụng.
3.1.1 Nội dung phương pháp bình phương nhỏ nhất
Giả sử ta có hàm hồi quy tổng thể và hàm hồi quy mẫu như sau:
Yi = β1 + β2 Xi (PRF) (3.1)
Ýi = α1 + α2Xi (3.2)
2
Giả sử rằng chúng ta có n cặp quan sát của Y và X, cặp quan sát thứ I có giá trị
tương ứng (Yi,Xi): i = 1,n. Ta phải tìm Ýi sao cho nó càng gần với trị thực của Yi có
thể được, tức là phần dư.
ei = Yi - Ýi = Yi - α1 + α2Xi (3.3)
(3.3) càng nhỏ càng tốt. Ta xem đồ thị sau:
Chi têu
1 tuần (Y) SRF
* ei
Yi ei
*
*
*
ei *
*
Xi TN 1 tuần (X)
Hình 2.6: đường hồi quy mẫu và sai số
Do ei có thể dương, có thể âm do vậy cần phải tìm Ýi sao cho tổng bình phương của
các phần dư đạt cực tiểu. Tức là:
∑ ei2 = ∑(Yi - Ýi )2
= ∑(Yi - α1 - α2Xi )2 ⇒ min
3
Do Xi , Yi : i = 1,n đã biết, nên ∑ ei2 là hàm của α1 và α2:
f(α1,α2) = ∑ ei2 = ∑(Yi - α1 - α2Xi )2 ⇒ min
α1,α2 là nghiệm của phương trình sau:
∂f(α1,α2)
-------------- = ∑2(Yi - α1 - α2Xi )(-1) = 0 (i = 1,n)
∂α1
hay nα1 + α2∑Xi = ∑Yi
∂f(α1,α2)
-------------- = ∑2(Yi - α1 - α2Xi )(-Xi) = 0 (i = 1,n)
∂α2
hay α1∑Xi + α2∑Xi2 = ∑Yi Xi
α1, α2 được tìm từ hệ phương trình:
nα1 + α2∑Xi = ∑Yi (3.4)
α1∑Xi + α2∑Xi2 = ∑Yi Xi (3.5)
Giải hệ phương trình trên ta tìm được α1, α2.
4
n∑Yi Xi - ∑Xi ∑Yi
α2 = ----------------------------
n∑Xi2 - (∑Xi )2
hoặc
∑Yi Xi - Y∑Xi
α2 = ---------------------------
∑Xi2 - n(X)2
α1 = Y - α2X
Ta có: Y = ∑Yi / n và X = ∑Xi / n
Giả sử ta có số liệu về về lãi suất (Y) và tỷ lệ lạm phát (X) trong năm 1998 ở 9 nước.
Giả sử rằng lãi suất phụ thuộc vào tỷ lệ lạm phát có dạn
g tuyến tính. Hãy ước lượng hàm hồi quy và tính các đặc trưng của nó.
Y 11,9 9,4 7,5 4,0 11,3 66,3 2,2 10,3 7,6
X 7,2 4 3,1 1,6 4,8 51,0 2,0 6,6 4,4
Dựa vào số liệu trên ta lập bảng tính như sau:
Stt Y X XY X2
1 11.9 7.2
85.68 51.84
2 9.4 4
37.6 16
3 7.5 3.1
23.25 9.61
5
4 4 1.6
6.4 2.56
5 11.3 4.8
54.24 23.04
6 66.3 51
3381.3 2601
7 2.2 2
4.4 4
8 10.3 6.6
67.98 43.56
9 7.6 4.4
33.44 19.36
∑
130.5 84.7 3694.29 2770.97
∑Yi Xi - Y∑Xi
α2 = ---------------------------
∑Xi2 - n(X)2
11053 - 14,5 * 84,7
α2 = ------------------------------ = 1,2494
3694,3 - 9 * (9,41)2
α1 = Y - α2X
α1 = 14,5 - 1,2494 * 9,41 = 2,7418
Vậy, thế vào phương trình Ýi = α1 + α2Xi ta được:
Ýi = 2,7418 + 1,2494Xi (SRF)
ới số liệu trên ta xử lý bằng phần mềm Excel được kết quả sau:
SUMMARY OUTPUT
Regression Statistics
Multiple R 0,9966
6
R Square 0,9933
Adjusted R
Square
0,9923
Standard Error 1,7250
Observations 9,0000
ANOVA
df SS MS F Sig. F
Regression 1 3081,2118 3081,2118 1035,5426 0,0000
Residual 7 20,8282 2,9755
Total 8 3102,0400
Co. St. Error t Stat P-value Lower 95%
Intercept 2,7417 0,6813 4,0244 0,0050 1,1308
X Variable 1 1,2494 0,0388 32,1798 0,0000 1,1576
3.1.2 Các tính chất ước lượng bình phương bé nhất
a. α1, α2 được xác định một cách duy nhất ứng vớ n cặp quan sát (Xi, Yi) .
b. α1, α2 là các ước lượng điểm của β1, β2 và là các đại lượng ngẫu nhiên, với các
mẫu khác nhau chúng các giá trị khác nhau.
Ýi = α1 + α2Xi (SRF) có các tính chất sau đây:
- SRF đi qua trung bình mẫu (X, Y), nghĩa là:
α1 = Y - α2X
- Giá trị trung bình của Ýi bằng giá tị trung bình của các quan sát:
Ýi = Y
7
- Giá trị trung bình của các phần dư phần 0. Tức là ∑ei = 0
- Các phần dư ei không tương quan với Ýi tức là, ∑Ýiei = 0
- Các phần dư ei không tương quan với Xi tức là, ∑Xiei = 0
3.2 Các giả thuyết cơ bản của phương pháp ước lượng bình phương bé nhất
Trong phân tích hồi quy, mục đích của chúng ta là ước lượng, dự báo về tổng
thể, tức là ước lượng Yi hay trong mô hình hồi quy tuyến tính đơn là ước lượng
Yi = β1 + β2 Xi ; α1và α2 tìm được bằng phương pháp bình phương bé nhất là ước
lượng điểm của β1, β2. Chúng ta không biết được chất lượng của ước lượng nà như thế
nào. Chất lượng của các ước lượng phụ thuộc vào :
- Dạng hàm của mô hình được chọn
- Phụ thuộc vào các Xi và Ui
- Phụ thuộc vào kích thước mẫu.
Về dạng của mô hình chúng ta sẽ không đề cặp trong chương này. Ơû đây chúng ta
sẽ nói về các giả thuyết đới với Xi và Ui . Với các gỉa thuyết này thì ước lượng tìm
được bằng phương pháp bình phương bé nhất là ước lượng tuyến tính, không chệch và
có phương sai nhỏ nhất.
Giả thuyết 1: mối quan hệ giữa Y và X là tuyến tính, biến (các biến) giải thích là phi
ngẫu nhiên, tức là các giá trị của chúng là các số đã được xác định.
Giả thuyết này không có gì mới, vì phân tích hồi quy được đề cặp là phân tích
hồi quy có điều kiện, phụ thuộc vào các giá trị X đã cho.
Giả thuyết 2: kỳ vọng của các yếu tố ngẫu nhiên Ui bằng không, tức là:
E(Ui / Xi) = 0
8
Giả thuyết này có nghĩa là các yếu tố không có trong mô hình, Ui đại diện cho
chúng, không ảnh hưởng hệ thống đến giá trị trung bình của Y. Về mặt hình học ta cỏ
thể mô tả bằng đồ thị sau đây:
Y
Giá trị trung bình PRF
+ Ui
Hình 2.7
- Ui
X1 X2 X3 X
Đồ thị chỉ ra rằng với mỗi giá trị của X, các giá trị có thể có của Y xoay quanh
giá giá trị trung bình. Phân bố của phần lớn hơn và nhỏ hơn giá trị trung bình chính là
các Ui, theo giả này trung bình có chênh lệch băng 0.
Giả thuyết 3: phương sai bằng nhau (phương sai thuần nhất) hay là một hằng số cho
tất cả quan sát, tức là Var(Ui/ XI) = δ2
Giả thuyết 4: Không có sự tương quan giữa các Ui hay các biến số ngẫu nhiên Ui là
độc lập về mặt thống kê.
Cov(Ui, Uj) = 0 Vi ≠ j
Giả thuyết này có nghĩa là Ui là ngẫu nhiên. Về mặt hình học có nghĩa là nếu
như có một giá trị U nào đó lớn hơn (nhỏ hơn) giá trị trung bình thì không có nghĩa giá
trị khác cũng lớn hơn (nhỏ hơn) giá trị trung bình.
Giả thuyết 5: số hạng sai số có phân phối chuẩn
9
3.3 Độ chính xác của ước lượng bình phương bé nhất
3.3.1 Không thiên lệch
Một tính chất mong đợi nhất gắn liền với một thông số hồi quy ước lượng là sao
cho phân phối của hàm ước lượng có thông số như giá trị trung bình của nó. Khi đó,
nếu như chúng ta có thể phân tích dữ liệu mới, chúng ta sẽ chắc chắn đúng về trung
bình. Chúng ta sẽ nói rằng α là một hàm ước lượng không thiên lệch nếu trung bình
hoặc giá trị kỳ vọng của α bằng với giá trị thực ; tức là E(α) = β. Sự khác biệt giữa một
hàm ước lượng thiên lệch và không thiên lệch có thể thấy trong hình 2.8 sau. Để trình
bày rõ, chúng ta định nghĩa độ thiên lệch gắn liền với một thông số ước lượng như sau:
độ thiên lệch = E(α) - β.
Xác suất Xác suất α
α
β α β α
Hình 2.8: hàm ước lượng thiên lệch Hàm ước lượng không thiên lệch
Trong khi tính không thiên lệch của một hàm ước lượng là một tính chất mong
đợi, tính không thiên lệch không ám chỉ điều gì về độ phân tán của hàm ước lượng
xung quanh thông số thực. Nói chung, người ta muốn rằng hàm ước lượng là không
thiên lệch và cũng có mật độ phân tán thật nhỏ xung quanh giá trị trung bình. Điều này
cho thấy rằng chúng ta nên định nghĩa một chỉ tiêu thứ nhì nhằm cho phép chọn lực
giữa các hàm ước lượng không thiên lệch khác nhau.
3.3.2 Tính hiệu quả
10
Chúng ta nói rằng α là một ước lượng không thiên lệch hiệu quả nếu đối với
một cỡ mẫu đã cho, phương sai của α nhỏ hơn phương sai của bất kỳ một hàm ước
lượng nào khác. Đôi khi việc xác định xem một hàm ước lượng có hiệu quả hay không
là khó khăn, cho nên cũng thật là tự nhiên khi người ta mô tả các hàm ước lượng theo
tính hiệu quả tương đối của chúng. Một hàm ước lượng hiệu quả hơn một hàm ước
lượng khác nếu như có phương sai nhỏ hơn. Hình 2.9 mô tả một hàm ước lượng có
hiệu quả tương đối và một hàm ước lượng không có hiệu quả tương đối. Tính hiệu quả
là một tính chất đáng mong đợi bởi vì tính hiệu quả ước lượng càng cao, thì các báo
cáo thống kê mà người ta thực hiện càng chặt chẽ hơn về các thông số ước lượng. Như
vậy, trong trường hợp cực đoan của một hàm ước lượng (không thiên lệch) với
phương sai bằng 0, chúng ta có thể nói một cách chắc chắn về giá trị bằng số của thông
số hồi quy thực.
Xác suất Xác suất α
α
β α β α
Hình 2.9: hàm ước lượng không hiệu quả Hàm ước lượng hiệu quả
3.3.3 Sai số bình phương trung bình cực tiểu
Có nhiều tình huống mà khi đó người ta buộc phải đánh đổi giữa độ thiên lệch
và phương sai của các hàm ước lượng. Thí dụ, khi mục tiêu của mô hình là cực đại hoá
độ chính xác của dự đoán, thì một hàm ước lượng có phương sai rất thấp và hơi bị
thiên lệch có thể sẽ đáng mong đợi hơn là một hàm ước lượng không thiên lệch nhưng
có phương sai cao. Một chỉ tiêu hữu ích trong lĩng vực này, đó là mục tiêu cực tiểu hóa
sai số bình phương trung bình, được định nghĩa là:
11
Sai số bình phương trung bình (α) = E(α - β)2
3.3.4 Độ nhất quán
Để hoàn tất việc thảo luận, chúng ta xem xét những tính chất của các hàm ước
lượng khi cỡ mẫu là rất lớn, tức là những tính chất tiệm cận, hoặc của mẫu lớn. Chúng
ta muốn hàm ước lượng α đến gần giá trị thực β khi cơ nẫu gia tăng. Một cách cụ thể,
chúng ta hy vọng rằng khi cỡ mẫu trở nên rất lớn, xác suất sao cho β khác α sẽ trở nên
rất nhỏ. Điều này được mô tả bằng hình 2.10 như sau:
Xác suất α
N rất lớn
N lớn
N nhỏ
β α
Hình 2.10: độ nhất quán
3.4 Tương quan và hồi quy tuyến tính đơn
3.4 .1 Phân tích tương quan tuyến tính
Phân tích tương quan tuyến tính là đo lường cường độ của mối quan hệ tuyến tính
giữa hai biến ngẫu nhiên X và Y.
Ví dụ: Ta xét mối quan hệ tuyến tính giữa lượng phân đạm với năng suất lúa,
giữa chi phí quảng cáo với doanh số bán hàng …
a. Tích sai (Covariance)
12
Giả sử có hai biến ngẫu nhiên X và Y không độc lập thống kê. Ta muốn có một số đo
nào đó về bản chất và sức mạnh của mối liên hệ giữa chúng. Điều này hơi khó vì chúng
có thể liên hệ theo nhiều cách khác nhau. Để đơn giản vấn đề, ta chỉ tập trung vào khả
năng liên hệ tuyến tính, chẳng hạn như : một giá trị cao của X (về mặt trung bình) có đi
đôi với giá trị cao của Y. Thế thì một giá trị thấp của X có đi đôi với một giá trị thấp
của Y hay không?
Để đánh giá điều này, ta xem tích: (X-x)(Y-y) và tìm kỳ vọng E[(X-x)(Y-y)].
Nếu X lớn đi đôi với Y lớn và X nhỏ đi đôi với Y nhỏ thì ta hy vọng E[(X-x)(Y-y)]
là dương (và ngược lại) và mối liên hệ càng mạnh thì giá trị kỳ vọng càng lớn. Khi
E[(X-x)(Y-y)] = 0 tức là không có mối liên hệ tuyến tính giữa X và Y. Ta được
công thức:
Cov(X,Y) = E[(X-x)(Y-y)]
Tuy nhiên, giá trị của Cov(X,Y) phụ thuộc vào các đơn vị của X và Y. Ta cần một số
đo độc lập với các đơn vị đó là hệ số tương quan (correlation coefficient)
b. Hệ số tương quan tuyến tính
Giả sử ta có hai biến ngẫu nhiên X và Y có trung bình và phương sai là: x , y
và 2x , 2y. Hệ số tương quan tổng thể p là khái niệm dùng để thể hiện cường độ và
chiều hướng của mối liên hệ tuyến tính giửa X và Y.
])[(])[(
))([(
.
),(),(
22 yYExXE
yYxXE
yx
YXCovYXCorr μμ
μμ
σσρ −−
−−===
Ta có : -1 < p < 1
+ p < 0 : X và Y nghịch biến.
+ p > 0 : X và Y đồng biến.
+ p = 0 : X và Y không có mối liên hệ tuyến tính.
13
+ p càng lớn, mối liên hệ tuyến tính giữa X và Y càng chặt chẽ.
Trong thực tế ta thường không biết p mà phải ước lượng nó từ mẫu điều tra.
Một cách tổng quát, gọi (x1,y1), (x2,y2) ,…,(xn,yn) là giá trị các quan sát của n cặp
yx
n
i
n
i
n
i yxyx
yyixxi
yyixxi
r σσ .
..
)()(
))((
1
2
1
2
1 −=
−−
−−
=
∑ ∑
∑
= =
=
Gọi r là hệ số tương quan mẫu thì r là ước lượng của p, được xác định bằng công thức:
Ví dụ: có số liệu về thời gian quảng cáo trên truyền hình và lượng sản phẩm tiêu
thụ ở một công ty sản xuất đồ chơi trẻ em như sau:
Thời gian quảng cáo
trong tuần (phút)
28 37 44 36 47 35 26 29 33 32 31 28
Lượng sản phẩm tiêu thụ
trong tuần (1000sp)
41 32 49 42 38 33 27 24 35 30 34 25
Gọi x là thời gian quảng cáo và y là lượng sản phẩm tiêu thụ trong tuần, ta tính được
63882,0
.
.. =−=
yx
yxyxr σσ
Hệ số tương quan mẫu r = 0,63882 cho thấy mối liên hệ tương quan thuận ở mức
trung bình giửa thời gian quảng cáo và số lượng sản phẩm tiêu thụ được.
Stt X Y (X - x) (X - x)2 (Y - y) (Y - y)2 (X - x)(Y - y)
1 28 41 -5,83 34,03 6,58 43,34 -38,40
2 37 32 3,17 10,03 -2,42 5,84 -7,65
3 44 49 10,17 103,36 14,58 212,67 148,26
14
4 36 42 2,17 4,69 7,58 57,51 16,43
5 47 38 13,17 173,36 3,58 12,84 47,18
6 35 33 1,17 1,36 -1,42 2,01 -1,65
7 26 27 -7,83 61,36 -7,42 55,01 58,10
8 29 24 -4,83 23,36 -10,42 108,51 50,35
9 33 35 -0,83 0,69 0,58 0,34 -0,49
10 32 33 -1,83 3,36 -1,42 2,01 2,60
11 31 34 -2,83 8,03 -0,42 0,17 1,18
12 28 25 -5,83 34,03 -9,42 88,67 54,93
Tổng 406 413 0,00 457,67 0,00 588,92 330,83
x (TB) = 33,83
Y (TB) = 34,42 r = 0,637
3. 4. 2 Kiểm định giảõ thuyết về mối liên hệ tương quan
Bên cạnh việc thể hiện mức độ chặt chẽ của mối liên hệ, ta cần phải xét xem thực sự
có mối liên hệ tương quan giữa X và Y hay không. Ta dùng phương pháp kiểm định
giả thuyết để kiểm chứng mối liên hệ tương quan này.
+ Giả thuyết: Ho : p = 0 (không có mối liên hệ giửa X và Y )
H1 : p 0
2
)1( 2
−
−
=
n
r
r
t
+ Giá trị kiểm định:
+ Quy tắc quyết định: với mức ý nghiã , ta bác bỏ giả thuyết Ho nếu:
t > t n-2 , /2 (t n-2 có phân phối student với n -2 bậc tự do)
Trở lại ví dụ trên, SPSS cho ta kết quả sau:
15
Correlations
1 .639*
. .025
12 12
.639* 1
.025 .
12 12
Pearson Correlation
Sig. (2-tailed)
N
Pearson Correlation
Sig. (2-tailed)
N
LTT
CPQC
LTT CPQC
Correlation is significant at the 0.05 level (2-tailed).*.
Correlation is significant at the 0.05 level (2-tailed). Từ bảng trên ta dễ dàng
xác định hệ số tương quan r và giá trị của kiểm định là 0,025 tức là bác bỏ giả thuyết
Ho với mọi mức ý nghiã > 2,5%.
3.4 .3 Hồi quy tuyến tính
Trong phần tương quan tuyến tính, ta chỉ đo lường mối liên hệ giữa hai biến ngẫu
nhiên X và Y và giữa X và Y có mối quan hệ ngang cấp nhau. Trong phần hồi quy
cũng xét mối quan hệ tuyến tính giữa hai biến. Tuy nhiên, trong hai biến này có một
biến được xem là ảnh hưởng đến biến còn lại. Biến gây ảnh hưởng gọi là biến độc lập,
biến chịu sự ảnh hưởng của biến khác gọi là biến phụ thuộc.
Ví dụ: Khi xét mối quan hệ giữa năng suất lúa với lượng phân đạm, thì năng suất
lúa là biến phụ thuộc và lượng phân đạm là biến độc lập.
Mục tiêu của phân tích hồi quy là dựa vào các thông tin thu thập được từ mẫu điều
tra, kết hợp với các phương pháp toán học, ta xây dựng một mô hình tuyến tính nhằm
thể hiện mối liên hệ giữa hai biến X và Y.
Mô hình hồi quy tuyến tính của tổng thể và của mẫu
Giả sử ta có hai biến X và Y, trong đó Y là biến phụ thuộc tuyến tính vào X. Tức là
với một giá trị cụ thể xi nào đó của biến X thì biến Y có một giá trị cụ thể tương ứng là
yi = + .xi + .
Trong đó:
16
: thể hiện giá trị ước lượng của biến Y khi giá trị của biến X bằng 0.
: là độ dốc của đường hồi quy (hệ số gốc) thể hiện mức tăng lên của biến Y
khi biến X tăng một đơn vị.
: là sai số ngẫu nhiên thể hiện sự ảnh hưởng của các yếu tố khác (không
nghiên cứu) đến Y.
Tuy nhiên, trong thực tế ta không xác định được các tham số , mà chỉ có thể
ước lượng chúng từ các giá trị quan sát thu thập được từ mẫu điều tra.
∑ ∑∑
= ==
=−−=−=
n
i
n
i
n
i
xibayiiyyiei
1 1
22
1
2 min).()~(
Giả sử ta có (x1, y1) , (x2, y2) , … , (xn, yn) là n cặp giá trị quan sát từ mẫu
điều tra. Gọi a, b là các giá trị ước lượng của , . Nói cách khác , ta mong muốn
tìm một đường thẳng “thích hợp” cho các giá trị (xi,yi). Đường thẳng ỹ = a + b.x
được xem là “thích hợp” nhất khi tổng bình phương các chênh lệch giữa giá trị thực
tế yi với giá trị ỹi là nhỏ nhấ, tức là:
Trở lại ví dụ trên, Phần mềm SPSS cho ta kết suất về hồi quy như sau:
Coefficientsa
9.303 9.626 .966 .357
.735 .280 .639 2.626 .025
(Constant)
CPQC
Model
1
B Std. Error
Unstandardized
Coefficients
Beta
Standardized
Coefficients
t Sig.
Dependent Variable: LTTa.
17
Dependent Variable: luong tieu thu
Kết xuất của Excel:
SUMMARY OUTPUT
Multiple R 0,6372
R Square 0,4061
Adjusted R Square 0,3467
Standard Error 5,9141
Observations 12
ANOVA
df SS MS F Sign F
Regression 1 239,149 239,149 6,837 0,026
Residual 10 349,767 34,977
Total 11 588,917
Coefficients Standard Error t Stat P-value
Intercept 9,960 9,508 1,048 0,320
X Variable 1 0,723 0,276 2,615 0,026
Từ bảng kết quả trên, ta được phương trình hồi quy: ỹ = 9,303 + 0,735.x
Hệ số b = 0,735 cho ta biết khi thời gian quảng cáo tăng lên 1 phút thì lượng tiêu thụ
tăng trung bình 735 sản phẩm.
3.5 Hệ số xác định và kiểm định F trong phân tích hồi quy đơn
3.5.1 Hệ số xác định
Phần trên ta đã dùng biến độc lập X để giải thích sự biến thiên của biến phụ thuộc Y
thông qua việc xây dựng phương trình hồi quy tuyến tính. Những câu hỏi có thể đặt ra
là: mô hình hồi quy tuyến tính được xây dựng đã thể hiện một cách tốt nhất mối liên hệ
giữa X và Y chư? Bao nhiêu % sự biến thiên của Y.
Có thể giải thích bởi X? Hệ số xác định R2 sẽ giúp ta trả lời những câu hỏi đó.
18
Ta có:
yi = a + b.xi +ei
ỹi = a + b.xi
Suy ra: yi = ỹi + ei (*)
Nghĩa là: ei là sự khác biệt giữa giá trị thực tế và giá trị dự đoán theo phương trình hồi
quy tuyến tín. Như vậy, ei thể hiện phần biến thiên của Y không thể giải thích từ mối
liên hệ tuyến tính giữa Y và .
Từ (*) , bằng các biến đổi toán học ta có:
ieyiyyyi
n
i
n
i
n
i
∑∑∑
===
+−=−
1
2
1
2
1
2 )~()(
Hay:
SST = SSR + SSE
Đẳng thức này có ý nghĩa rất quan trọng. Đại lượng SST (total sum of squares) thể
hiện toàn bộ biến thiên của Y. Nó được chia thành hai hai phần:
• Phần thứ nhất: SSR (sum of squares for regression) thể hiện phần biến thiên của
Y được giải thích bởi biến X.
• Phần thứ hai: SSE (sum of squares for error) thể hiện phần biến thiên do các
yếu tố khác không nghiên cứu.
Ta có đồ thị minh họa sau như trên.
Như vậy, hệ số xác định R2 thể hiện phần tỷ lệ biến thiên của Y được giải thích bởi X
và được xác định bằng công thức:
SST
SSE
SST
SSRR −== 12
Ta có: 0 R2 1, R2 thể hiện sự thích hợp của mô hình hồi quy đối với dữ liệu
R2 càng lớn thì mô hình hồi quy tuyến tính đã xây dựng được xem là càng thích hợp,
và tất nhiên là càng có ý nghĩa trong việc giải thích sự biến thiên của Y.
19
3.5.2 Kiểm định F: nhằm xem xét giả thuyết về sự tồn tại của mối liên hệ tuyến tính
giữa X và Y.
Bảng ANOVA trong phân tích hồi quy tuyến tính đơn:
Biến thiên Tổng các chênh
lệch bình
phương
Bậc
tự do
Trung bình các
chênh lệch bình
phương
Giá trị kiểm
định F
Hồi quy SSR 1 MSR=SSR/1 F1,n-2 =MSR/MSE
Sai số SSE n-2 MSE=SSE/n-2
Tổng cộng TSS n-1
Trở lại ví dụ về thời gian quảng cáo và lượng sản phẩm tiêu thụ. Từ Excel cho ta các
kết xuất sau:
Regression Statistics
Multiple R 0.63882
R Square 0.408091
Adjusted R Square 0.3489
Standard Error 5.987484
Observations 12
ANOVA
df SS MS F Significance F
Regression 1 247.167 247.167 6.894485 0.025347007
Residual 10 358.4996 35.84996
Total 11 605.6667
R2 = 0,408091 40,8%, ta có thể nói rằng 40,8% biến thiên về sự thay đổi của
lượng sản phẩm bán ra có thể được giải thích bởi mối liên hệ tuyến tính giữa thay đổi
của lượng sản phẩm bán ra và thời gian quảng cáo.
Giá trị Sig. F = 0,025 cho ta kết luận rằng có mối liên hệ tuyến tính giữa sự thay đổi
của lượng sản phẩm bán ra với sự thay đổi của thời gian quảng cáo.
20
3.5.3 Kiểm định giả thuyết về mối liên hệ tuyến tính
Ta thấy rằng khi không có mối liên hệ tuyến tính giữa X và Y, hệ số B trong phương
trình hồi quy tuyến tính của tổng thể sẽ bằng không.
Ta đặt giả thuyết: Ho: B = 0
H1: B 0
22 .xnxì
MSE
b
S
b
t
b
−
==
∑
Giá trị kiểm định:
Quy luật quyết định: bác bỏ giả thuyết Ho với mức ý nghĩa nếu: t > t n-2, /2
Trở lại ví dụ về lượng sản phẩm tiêu thụ và thời gian quảng cáo. Kết xuất của SPSS
cho ta nhận xét sau:
B = 0,735; Sb = 0,28 t = 2,626
Với mức ý nghĩa = 5% ta có t n-2, /2 = t 10 , 0,025 = 2,228
t > t 10 , 0,025 => bác bỏ giả thuyết Ho cho rằng giữa X và Y không có mối liên hệ tuyến
tính.
* Chú ý: trong bảng kết xuất ta thấy có dấu hiệu Sig. = 0,025 có nghĩa là với mọi
mức ý nghĩa lớn hơn 2,5% ta có thể bác bỏ giả thuyết Ho trên.
Bài tập chương 3 :
Bài 3.1 : Giả sử ta cĩ số liệu về doanh số và chi phí quảng cáo như sau :
ĐVT : triệu đồng
Tháng 4 5 6 7 8/2009
Doanh số 115 170 325 455 655
Cpqc 35 55 65 68 79
Yêu cầu :
1. Xác định hệ số tương quan
2. Xây dựng mơ hình hồi quy hai biến.
21
3. Ước lượng và kiểm định các thơng số với α = 5%.
4. Anh/ chị nhận xét gì về kết quả trên.
Bài 3.2 : Giả sử ta cĩ số liệu về thu nhập và chi tiêu như sau :
ĐVT : usd/tuần
Thu nhập 55 75 85 95 115
Chi tiêu 45 55 60 65 75
Yêu cầu :
1. Xác định hệ số tương quan
2. Xây dựng mơ hình hồi quy hai biến.
3. Ước lượng và kiểm định các thơng số với α = 5%.
4. Anh/ chị nhận xét gì về kết quả trên.
Bài 3.3: Giả sử ta cĩ số liệu về giá cả và lượng cầu như sau :
Giá (1000 đ/kg) 157 128 90 60 50
Lượng cầu (tấn) 32 44 50 65 78
Yêu cầu :
1. Xác định hệ số tương quan
2. Xây dựng mơ hình hồi quy hai biến.
3. Ước lượng và kiểm định các thơng số với α = 5%.
4. Anh/ chị nhận xét gì về kết quả trên.
TÀI LIỆU THAM KHẢO:
1. Vũ Thiếu, Nguyễn Quang Dong, Nguyễn Khắc Minh, “Kinh tế lượng”, Nhà
xuất bản Khoa học và kỹ thuật, 2001.
2. Nguyễn Quang Dong, “Bài tập kinh tế lượng với trợ giúp của phần mềm
EVIEWS”, Nhà xuất bản Khoa học và kỹ thuật, 2002.
3. Hồng Ngọc Nhậm, “Kinh tế lượng”, Trường Đại học kinh tế TP. HCM, 2005.
Các file đính kèm theo tài liệu này:
- hjgfalo;ldkgajhdgfpoasgdadsjgag; (3).pdf