Mô hình hồi quy hai biến, ước lượng và kiểm định giả thuyết

Đẳng thức này có ý nghĩa rất quan trọng. Đại lượng SST (total sum of squares) thể

hiện toàn bộ biến thiên của Y. Nó được chia thành hai hai phần:

• Phần thứ nhất: SSR (sum of squares for regression) thể hiện phần biến thiên của

Y được giải thích bởi biến X.

• Phần thứ hai: SSE (sum of squares for error) thể hiện phần biến thiên do các

yếu tố khác không nghiên cứu.

21 trang | Chia sẻ: thienmai908 | Lượt xem: 3653 | Lượt tải: 0

Bạn đang xem trước 20 trang nội dung tài liệu Mô hình hồi quy hai biến, ước lượng và kiểm định giả thuyết, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

1 CHƯƠNG 3 MÔ HÌNH HỒI QUY HAI BIẾN, ƯỚC LƯỢNG VÀ KIỂM ĐỊNH GIẢ THUYẾT Trong chương này sẽ trình bày vấn đề ước lượng hàm hồi quy tổng thể PRF một cách chính xác có thể được trên cơ sở hàm hồi quy mẫu. Có một số phương pháp ước lượng hàm hồi quy mẫu, phương pháp thường dùng là phương pháp bình phương nhỏ nhất OLS (Ordinary Least Square). Chúng ta sẽ trình bày phương pháp này cho mô hình hai biến ở chương này, chương sau sẽ trình bày phương pháp OLS cho mô hình hồi quy bội. 3.1 Phương pháp ước lượng bình phương bé nhất Phương pháp bình phương nhỏ nhất do nhà toán học Đức Carl Friedrich Gauss đưa ra. Sử dụng phương pháp này kèm theo một vài giả thuyết, các ước lượng thu được có tính chất đặc biệt, nhờ đó mà phương pháp này là phương pháp mạnh nhất và được nhiều người sử dụng. 3.1.1 Nội dung phương pháp bình phương nhỏ nhất Giả sử ta có hàm hồi quy tổng thể và hàm hồi quy mẫu như sau: Yi = β1 + β2 Xi (PRF) (3.1) Ýi = α1 + α2Xi (3.2) 2 Giả sử rằng chúng ta có n cặp quan sát của Y và X, cặp quan sát thứ I có giá trị tương ứng (Yi,Xi): i = 1,n. Ta phải tìm Ýi sao cho nó càng gần với trị thực của Yi có thể được, tức là phần dư. ei = Yi - Ýi = Yi - α1 + α2Xi (3.3) (3.3) càng nhỏ càng tốt. Ta xem đồ thị sau: Chi têu 1 tuần (Y) SRF * ei Yi ei * * * ei * * Xi TN 1 tuần (X) Hình 2.6: đường hồi quy mẫu và sai số Do ei có thể dương, có thể âm do vậy cần phải tìm Ýi sao cho tổng bình phương của các phần dư đạt cực tiểu. Tức là: ∑ ei2 = ∑(Yi - Ýi )2 = ∑(Yi - α1 - α2Xi )2 ⇒ min 3 Do Xi , Yi : i = 1,n đã biết, nên ∑ ei2 là hàm của α1 và α2: f(α1,α2) = ∑ ei2 = ∑(Yi - α1 - α2Xi )2 ⇒ min α1,α2 là nghiệm của phương trình sau: ∂f(α1,α2) -------------- = ∑2(Yi - α1 - α2Xi )(-1) = 0 (i = 1,n) ∂α1 hay nα1 + α2∑Xi = ∑Yi ∂f(α1,α2) -------------- = ∑2(Yi - α1 - α2Xi )(-Xi) = 0 (i = 1,n) ∂α2 hay α1∑Xi + α2∑Xi2 = ∑Yi Xi α1, α2 được tìm từ hệ phương trình: nα1 + α2∑Xi = ∑Yi (3.4) α1∑Xi + α2∑Xi2 = ∑Yi Xi (3.5) Giải hệ phương trình trên ta tìm được α1, α2. 4 n∑Yi Xi - ∑Xi ∑Yi α2 = ---------------------------- n∑Xi2 - (∑Xi )2 hoặc ∑Yi Xi - Y∑Xi α2 = --------------------------- ∑Xi2 - n(X)2 α1 = Y - α2X Ta có: Y = ∑Yi / n và X = ∑Xi / n Giả sử ta có số liệu về về lãi suất (Y) và tỷ lệ lạm phát (X) trong năm 1998 ở 9 nước. Giả sử rằng lãi suất phụ thuộc vào tỷ lệ lạm phát có dạn g tuyến tính. Hãy ước lượng hàm hồi quy và tính các đặc trưng của nó. Y 11,9 9,4 7,5 4,0 11,3 66,3 2,2 10,3 7,6 X 7,2 4 3,1 1,6 4,8 51,0 2,0 6,6 4,4 Dựa vào số liệu trên ta lập bảng tính như sau: Stt Y X XY X2 1 11.9 7.2 85.68 51.84 2 9.4 4 37.6 16 3 7.5 3.1 23.25 9.61 5 4 4 1.6 6.4 2.56 5 11.3 4.8 54.24 23.04 6 66.3 51 3381.3 2601 7 2.2 2 4.4 4 8 10.3 6.6 67.98 43.56 9 7.6 4.4 33.44 19.36 ∑ 130.5 84.7 3694.29 2770.97 ∑Yi Xi - Y∑Xi α2 = --------------------------- ∑Xi2 - n(X)2 11053 - 14,5 * 84,7 α2 = ------------------------------ = 1,2494 3694,3 - 9 * (9,41)2 α1 = Y - α2X α1 = 14,5 - 1,2494 * 9,41 = 2,7418 Vậy, thế vào phương trình Ýi = α1 + α2Xi ta được: Ýi = 2,7418 + 1,2494Xi (SRF) ới số liệu trên ta xử lý bằng phần mềm Excel được kết quả sau: SUMMARY OUTPUT Regression Statistics Multiple R 0,9966 6 R Square 0,9933 Adjusted R Square 0,9923 Standard Error 1,7250 Observations 9,0000 ANOVA df SS MS F Sig. F Regression 1 3081,2118 3081,2118 1035,5426 0,0000 Residual 7 20,8282 2,9755 Total 8 3102,0400 Co. St. Error t Stat P-value Lower 95% Intercept 2,7417 0,6813 4,0244 0,0050 1,1308 X Variable 1 1,2494 0,0388 32,1798 0,0000 1,1576 3.1.2 Các tính chất ước lượng bình phương bé nhất a. α1, α2 được xác định một cách duy nhất ứng vớ n cặp quan sát (Xi, Yi) . b. α1, α2 là các ước lượng điểm của β1, β2 và là các đại lượng ngẫu nhiên, với các mẫu khác nhau chúng các giá trị khác nhau. Ýi = α1 + α2Xi (SRF) có các tính chất sau đây: - SRF đi qua trung bình mẫu (X, Y), nghĩa là: α1 = Y - α2X - Giá trị trung bình của Ýi bằng giá tị trung bình của các quan sát: Ýi = Y 7 - Giá trị trung bình của các phần dư phần 0. Tức là ∑ei = 0 - Các phần dư ei không tương quan với Ýi tức là, ∑Ýiei = 0 - Các phần dư ei không tương quan với Xi tức là, ∑Xiei = 0 3.2 Các giả thuyết cơ bản của phương pháp ước lượng bình phương bé nhất Trong phân tích hồi quy, mục đích của chúng ta là ước lượng, dự báo về tổng thể, tức là ước lượng Yi hay trong mô hình hồi quy tuyến tính đơn là ước lượng Yi = β1 + β2 Xi ; α1và α2 tìm được bằng phương pháp bình phương bé nhất là ước lượng điểm của β1, β2. Chúng ta không biết được chất lượng của ước lượng nà như thế nào. Chất lượng của các ước lượng phụ thuộc vào : - Dạng hàm của mô hình được chọn - Phụ thuộc vào các Xi và Ui - Phụ thuộc vào kích thước mẫu. Về dạng của mô hình chúng ta sẽ không đề cặp trong chương này. Ơû đây chúng ta sẽ nói về các giả thuyết đới với Xi và Ui . Với các gỉa thuyết này thì ước lượng tìm được bằng phương pháp bình phương bé nhất là ước lượng tuyến tính, không chệch và có phương sai nhỏ nhất. Giả thuyết 1: mối quan hệ giữa Y và X là tuyến tính, biến (các biến) giải thích là phi ngẫu nhiên, tức là các giá trị của chúng là các số đã được xác định. Giả thuyết này không có gì mới, vì phân tích hồi quy được đề cặp là phân tích hồi quy có điều kiện, phụ thuộc vào các giá trị X đã cho. Giả thuyết 2: kỳ vọng của các yếu tố ngẫu nhiên Ui bằng không, tức là: E(Ui / Xi) = 0 8 Giả thuyết này có nghĩa là các yếu tố không có trong mô hình, Ui đại diện cho chúng, không ảnh hưởng hệ thống đến giá trị trung bình của Y. Về mặt hình học ta cỏ thể mô tả bằng đồ thị sau đây: Y Giá trị trung bình PRF + Ui Hình 2.7 - Ui X1 X2 X3 X Đồ thị chỉ ra rằng với mỗi giá trị của X, các giá trị có thể có của Y xoay quanh giá giá trị trung bình. Phân bố của phần lớn hơn và nhỏ hơn giá trị trung bình chính là các Ui, theo giả này trung bình có chênh lệch băng 0. Giả thuyết 3: phương sai bằng nhau (phương sai thuần nhất) hay là một hằng số cho tất cả quan sát, tức là Var(Ui/ XI) = δ2 Giả thuyết 4: Không có sự tương quan giữa các Ui hay các biến số ngẫu nhiên Ui là độc lập về mặt thống kê. Cov(Ui, Uj) = 0 Vi ≠ j Giả thuyết này có nghĩa là Ui là ngẫu nhiên. Về mặt hình học có nghĩa là nếu như có một giá trị U nào đó lớn hơn (nhỏ hơn) giá trị trung bình thì không có nghĩa giá trị khác cũng lớn hơn (nhỏ hơn) giá trị trung bình. Giả thuyết 5: số hạng sai số có phân phối chuẩn 9 3.3 Độ chính xác của ước lượng bình phương bé nhất 3.3.1 Không thiên lệch Một tính chất mong đợi nhất gắn liền với một thông số hồi quy ước lượng là sao cho phân phối của hàm ước lượng có thông số như giá trị trung bình của nó. Khi đó, nếu như chúng ta có thể phân tích dữ liệu mới, chúng ta sẽ chắc chắn đúng về trung bình. Chúng ta sẽ nói rằng α là một hàm ước lượng không thiên lệch nếu trung bình hoặc giá trị kỳ vọng của α bằng với giá trị thực ; tức là E(α) = β. Sự khác biệt giữa một hàm ước lượng thiên lệch và không thiên lệch có thể thấy trong hình 2.8 sau. Để trình bày rõ, chúng ta định nghĩa độ thiên lệch gắn liền với một thông số ước lượng như sau: độ thiên lệch = E(α) - β. Xác suất Xác suất α α β α β α Hình 2.8: hàm ước lượng thiên lệch Hàm ước lượng không thiên lệch Trong khi tính không thiên lệch của một hàm ước lượng là một tính chất mong đợi, tính không thiên lệch không ám chỉ điều gì về độ phân tán của hàm ước lượng xung quanh thông số thực. Nói chung, người ta muốn rằng hàm ước lượng là không thiên lệch và cũng có mật độ phân tán thật nhỏ xung quanh giá trị trung bình. Điều này cho thấy rằng chúng ta nên định nghĩa một chỉ tiêu thứ nhì nhằm cho phép chọn lực giữa các hàm ước lượng không thiên lệch khác nhau. 3.3.2 Tính hiệu quả 10 Chúng ta nói rằng α là một ước lượng không thiên lệch hiệu quả nếu đối với một cỡ mẫu đã cho, phương sai của α nhỏ hơn phương sai của bất kỳ một hàm ước lượng nào khác. Đôi khi việc xác định xem một hàm ước lượng có hiệu quả hay không là khó khăn, cho nên cũng thật là tự nhiên khi người ta mô tả các hàm ước lượng theo tính hiệu quả tương đối của chúng. Một hàm ước lượng hiệu quả hơn một hàm ước lượng khác nếu như có phương sai nhỏ hơn. Hình 2.9 mô tả một hàm ước lượng có hiệu quả tương đối và một hàm ước lượng không có hiệu quả tương đối. Tính hiệu quả là một tính chất đáng mong đợi bởi vì tính hiệu quả ước lượng càng cao, thì các báo cáo thống kê mà người ta thực hiện càng chặt chẽ hơn về các thông số ước lượng. Như vậy, trong trường hợp cực đoan của một hàm ước lượng (không thiên lệch) với phương sai bằng 0, chúng ta có thể nói một cách chắc chắn về giá trị bằng số của thông số hồi quy thực. Xác suất Xác suất α α β α β α Hình 2.9: hàm ước lượng không hiệu quả Hàm ước lượng hiệu quả 3.3.3 Sai số bình phương trung bình cực tiểu Có nhiều tình huống mà khi đó người ta buộc phải đánh đổi giữa độ thiên lệch và phương sai của các hàm ước lượng. Thí dụ, khi mục tiêu của mô hình là cực đại hoá độ chính xác của dự đoán, thì một hàm ước lượng có phương sai rất thấp và hơi bị thiên lệch có thể sẽ đáng mong đợi hơn là một hàm ước lượng không thiên lệch nhưng có phương sai cao. Một chỉ tiêu hữu ích trong lĩng vực này, đó là mục tiêu cực tiểu hóa sai số bình phương trung bình, được định nghĩa là: 11 Sai số bình phương trung bình (α) = E(α - β)2 3.3.4 Độ nhất quán Để hoàn tất việc thảo luận, chúng ta xem xét những tính chất của các hàm ước lượng khi cỡ mẫu là rất lớn, tức là những tính chất tiệm cận, hoặc của mẫu lớn. Chúng ta muốn hàm ước lượng α đến gần giá trị thực β khi cơ nẫu gia tăng. Một cách cụ thể, chúng ta hy vọng rằng khi cỡ mẫu trở nên rất lớn, xác suất sao cho β khác α sẽ trở nên rất nhỏ. Điều này được mô tả bằng hình 2.10 như sau: Xác suất α N rất lớn N lớn N nhỏ β α Hình 2.10: độ nhất quán 3.4 Tương quan và hồi quy tuyến tính đơn 3.4 .1 Phân tích tương quan tuyến tính Phân tích tương quan tuyến tính là đo lường cường độ của mối quan hệ tuyến tính giữa hai biến ngẫu nhiên X và Y. Ví dụ: Ta xét mối quan hệ tuyến tính giữa lượng phân đạm với năng suất lúa, giữa chi phí quảng cáo với doanh số bán hàng … a. Tích sai (Covariance) 12 Giả sử có hai biến ngẫu nhiên X và Y không độc lập thống kê. Ta muốn có một số đo nào đó về bản chất và sức mạnh của mối liên hệ giữa chúng. Điều này hơi khó vì chúng có thể liên hệ theo nhiều cách khác nhau. Để đơn giản vấn đề, ta chỉ tập trung vào khả năng liên hệ tuyến tính, chẳng hạn như : một giá trị cao của X (về mặt trung bình) có đi đôi với giá trị cao của Y. Thế thì một giá trị thấp của X có đi đôi với một giá trị thấp của Y hay không? Để đánh giá điều này, ta xem tích: (X-x)(Y-y) và tìm kỳ vọng E[(X-x)(Y-y)]. Nếu X lớn đi đôi với Y lớn và X nhỏ đi đôi với Y nhỏ thì ta hy vọng E[(X-x)(Y-y)] là dương (và ngược lại) và mối liên hệ càng mạnh thì giá trị kỳ vọng càng lớn. Khi E[(X-x)(Y-y)] = 0 tức là không có mối liên hệ tuyến tính giữa X và Y. Ta được công thức: Cov(X,Y) = E[(X-x)(Y-y)] Tuy nhiên, giá trị của Cov(X,Y) phụ thuộc vào các đơn vị của X và Y. Ta cần một số đo độc lập với các đơn vị đó là hệ số tương quan (correlation coefficient) b. Hệ số tương quan tuyến tính Giả sử ta có hai biến ngẫu nhiên X và Y có trung bình và phương sai là: x , y và 2x , 2y. Hệ số tương quan tổng thể p là khái niệm dùng để thể hiện cường độ và chiều hướng của mối liên hệ tuyến tính giửa X và Y. ])[(])[( ))([( . ),(),( 22 yYExXE yYxXE yx YXCovYXCorr μμ μμ σσρ −− −−=== Ta có : -1 < p < 1 + p < 0 : X và Y nghịch biến. + p > 0 : X và Y đồng biến. + p = 0 : X và Y không có mối liên hệ tuyến tính. 13 + p càng lớn, mối liên hệ tuyến tính giữa X và Y càng chặt chẽ. Trong thực tế ta thường không biết p mà phải ước lượng nó từ mẫu điều tra. Một cách tổng quát, gọi (x1,y1), (x2,y2) ,…,(xn,yn) là giá trị các quan sát của n cặp yx n i n i n i yxyx yyixxi yyixxi r σσ . .. )()( ))(( 1 2 1 2 1 −= −− −− = ∑ ∑ ∑ = = = Gọi r là hệ số tương quan mẫu thì r là ước lượng của p, được xác định bằng công thức: Ví dụ: có số liệu về thời gian quảng cáo trên truyền hình và lượng sản phẩm tiêu thụ ở một công ty sản xuất đồ chơi trẻ em như sau: Thời gian quảng cáo trong tuần (phút) 28 37 44 36 47 35 26 29 33 32 31 28 Lượng sản phẩm tiêu thụ trong tuần (1000sp) 41 32 49 42 38 33 27 24 35 30 34 25 Gọi x là thời gian quảng cáo và y là lượng sản phẩm tiêu thụ trong tuần, ta tính được 63882,0 . .. =−= yx yxyxr σσ Hệ số tương quan mẫu r = 0,63882 cho thấy mối liên hệ tương quan thuận ở mức trung bình giửa thời gian quảng cáo và số lượng sản phẩm tiêu thụ được. Stt X Y (X - x) (X - x)2 (Y - y) (Y - y)2 (X - x)(Y - y) 1 28 41 -5,83 34,03 6,58 43,34 -38,40 2 37 32 3,17 10,03 -2,42 5,84 -7,65 3 44 49 10,17 103,36 14,58 212,67 148,26 14 4 36 42 2,17 4,69 7,58 57,51 16,43 5 47 38 13,17 173,36 3,58 12,84 47,18 6 35 33 1,17 1,36 -1,42 2,01 -1,65 7 26 27 -7,83 61,36 -7,42 55,01 58,10 8 29 24 -4,83 23,36 -10,42 108,51 50,35 9 33 35 -0,83 0,69 0,58 0,34 -0,49 10 32 33 -1,83 3,36 -1,42 2,01 2,60 11 31 34 -2,83 8,03 -0,42 0,17 1,18 12 28 25 -5,83 34,03 -9,42 88,67 54,93 Tổng 406 413 0,00 457,67 0,00 588,92 330,83 x (TB) = 33,83 Y (TB) = 34,42 r = 0,637 3. 4. 2 Kiểm định giảõ thuyết về mối liên hệ tương quan Bên cạnh việc thể hiện mức độ chặt chẽ của mối liên hệ, ta cần phải xét xem thực sự có mối liên hệ tương quan giữa X và Y hay không. Ta dùng phương pháp kiểm định giả thuyết để kiểm chứng mối liên hệ tương quan này. + Giả thuyết: Ho : p = 0 (không có mối liên hệ giửa X và Y ) H1 : p 0 2 )1( 2 − − = n r r t + Giá trị kiểm định: + Quy tắc quyết định: với mức ý nghiã , ta bác bỏ giả thuyết Ho nếu: t > t n-2 , /2 (t n-2 có phân phối student với n -2 bậc tự do) Trở lại ví dụ trên, SPSS cho ta kết quả sau: 15 Correlations 1 .639* . .025 12 12 .639* 1 .025 . 12 12 Pearson Correlation Sig. (2-tailed) N Pearson Correlation Sig. (2-tailed) N LTT CPQC LTT CPQC Correlation is significant at the 0.05 level (2-tailed).*. Correlation is significant at the 0.05 level (2-tailed). Từ bảng trên ta dễ dàng xác định hệ số tương quan r và giá trị của kiểm định là 0,025 tức là bác bỏ giả thuyết Ho với mọi mức ý nghiã > 2,5%. 3.4 .3 Hồi quy tuyến tính Trong phần tương quan tuyến tính, ta chỉ đo lường mối liên hệ giữa hai biến ngẫu nhiên X và Y và giữa X và Y có mối quan hệ ngang cấp nhau. Trong phần hồi quy cũng xét mối quan hệ tuyến tính giữa hai biến. Tuy nhiên, trong hai biến này có một biến được xem là ảnh hưởng đến biến còn lại. Biến gây ảnh hưởng gọi là biến độc lập, biến chịu sự ảnh hưởng của biến khác gọi là biến phụ thuộc. Ví dụ: Khi xét mối quan hệ giữa năng suất lúa với lượng phân đạm, thì năng suất lúa là biến phụ thuộc và lượng phân đạm là biến độc lập. Mục tiêu của phân tích hồi quy là dựa vào các thông tin thu thập được từ mẫu điều tra, kết hợp với các phương pháp toán học, ta xây dựng một mô hình tuyến tính nhằm thể hiện mối liên hệ giữa hai biến X và Y. Mô hình hồi quy tuyến tính của tổng thể và của mẫu Giả sử ta có hai biến X và Y, trong đó Y là biến phụ thuộc tuyến tính vào X. Tức là với một giá trị cụ thể xi nào đó của biến X thì biến Y có một giá trị cụ thể tương ứng là yi = + .xi + . Trong đó: 16 : thể hiện giá trị ước lượng của biến Y khi giá trị của biến X bằng 0. : là độ dốc của đường hồi quy (hệ số gốc) thể hiện mức tăng lên của biến Y khi biến X tăng một đơn vị. : là sai số ngẫu nhiên thể hiện sự ảnh hưởng của các yếu tố khác (không nghiên cứu) đến Y. Tuy nhiên, trong thực tế ta không xác định được các tham số , mà chỉ có thể ước lượng chúng từ các giá trị quan sát thu thập được từ mẫu điều tra. ∑ ∑∑ = == =−−=−= n i n i n i xibayiiyyiei 1 1 22 1 2 min).()~( Giả sử ta có (x1, y1) , (x2, y2) , … , (xn, yn) là n cặp giá trị quan sát từ mẫu điều tra. Gọi a, b là các giá trị ước lượng của , . Nói cách khác , ta mong muốn tìm một đường thẳng “thích hợp” cho các giá trị (xi,yi). Đường thẳng ỹ = a + b.x được xem là “thích hợp” nhất khi tổng bình phương các chênh lệch giữa giá trị thực tế yi với giá trị ỹi là nhỏ nhấ, tức là: Trở lại ví dụ trên, Phần mềm SPSS cho ta kết suất về hồi quy như sau: Coefficientsa 9.303 9.626 .966 .357 .735 .280 .639 2.626 .025 (Constant) CPQC Model 1 B Std. Error Unstandardized Coefficients Beta Standardized Coefficients t Sig. Dependent Variable: LTTa. 17 Dependent Variable: luong tieu thu Kết xuất của Excel: SUMMARY OUTPUT Multiple R 0,6372 R Square 0,4061 Adjusted R Square 0,3467 Standard Error 5,9141 Observations 12 ANOVA df SS MS F Sign F Regression 1 239,149 239,149 6,837 0,026 Residual 10 349,767 34,977 Total 11 588,917 Coefficients Standard Error t Stat P-value Intercept 9,960 9,508 1,048 0,320 X Variable 1 0,723 0,276 2,615 0,026 Từ bảng kết quả trên, ta được phương trình hồi quy: ỹ = 9,303 + 0,735.x Hệ số b = 0,735 cho ta biết khi thời gian quảng cáo tăng lên 1 phút thì lượng tiêu thụ tăng trung bình 735 sản phẩm. 3.5 Hệ số xác định và kiểm định F trong phân tích hồi quy đơn 3.5.1 Hệ số xác định Phần trên ta đã dùng biến độc lập X để giải thích sự biến thiên của biến phụ thuộc Y thông qua việc xây dựng phương trình hồi quy tuyến tính. Những câu hỏi có thể đặt ra là: mô hình hồi quy tuyến tính được xây dựng đã thể hiện một cách tốt nhất mối liên hệ giữa X và Y chư? Bao nhiêu % sự biến thiên của Y. Có thể giải thích bởi X? Hệ số xác định R2 sẽ giúp ta trả lời những câu hỏi đó. 18 Ta có: yi = a + b.xi +ei ỹi = a + b.xi Suy ra: yi = ỹi + ei (*) Nghĩa là: ei là sự khác biệt giữa giá trị thực tế và giá trị dự đoán theo phương trình hồi quy tuyến tín. Như vậy, ei thể hiện phần biến thiên của Y không thể giải thích từ mối liên hệ tuyến tính giữa Y và . Từ (*) , bằng các biến đổi toán học ta có: ieyiyyyi n i n i n i ∑∑∑ === +−=− 1 2 1 2 1 2 )~()( Hay: SST = SSR + SSE Đẳng thức này có ý nghĩa rất quan trọng. Đại lượng SST (total sum of squares) thể hiện toàn bộ biến thiên của Y. Nó được chia thành hai hai phần: • Phần thứ nhất: SSR (sum of squares for regression) thể hiện phần biến thiên của Y được giải thích bởi biến X. • Phần thứ hai: SSE (sum of squares for error) thể hiện phần biến thiên do các yếu tố khác không nghiên cứu. Ta có đồ thị minh họa sau như trên. Như vậy, hệ số xác định R2 thể hiện phần tỷ lệ biến thiên của Y được giải thích bởi X và được xác định bằng công thức: SST SSE SST SSRR −== 12 Ta có: 0 R2 1, R2 thể hiện sự thích hợp của mô hình hồi quy đối với dữ liệu R2 càng lớn thì mô hình hồi quy tuyến tính đã xây dựng được xem là càng thích hợp, và tất nhiên là càng có ý nghĩa trong việc giải thích sự biến thiên của Y. 19 3.5.2 Kiểm định F: nhằm xem xét giả thuyết về sự tồn tại của mối liên hệ tuyến tính giữa X và Y. Bảng ANOVA trong phân tích hồi quy tuyến tính đơn: Biến thiên Tổng các chênh lệch bình phương Bậc tự do Trung bình các chênh lệch bình phương Giá trị kiểm định F Hồi quy SSR 1 MSR=SSR/1 F1,n-2 =MSR/MSE Sai số SSE n-2 MSE=SSE/n-2 Tổng cộng TSS n-1 Trở lại ví dụ về thời gian quảng cáo và lượng sản phẩm tiêu thụ. Từ Excel cho ta các kết xuất sau: Regression Statistics Multiple R 0.63882 R Square 0.408091 Adjusted R Square 0.3489 Standard Error 5.987484 Observations 12 ANOVA df SS MS F Significance F Regression 1 247.167 247.167 6.894485 0.025347007 Residual 10 358.4996 35.84996 Total 11 605.6667 R2 = 0,408091 40,8%, ta có thể nói rằng 40,8% biến thiên về sự thay đổi của lượng sản phẩm bán ra có thể được giải thích bởi mối liên hệ tuyến tính giữa thay đổi của lượng sản phẩm bán ra và thời gian quảng cáo. Giá trị Sig. F = 0,025 cho ta kết luận rằng có mối liên hệ tuyến tính giữa sự thay đổi của lượng sản phẩm bán ra với sự thay đổi của thời gian quảng cáo. 20 3.5.3 Kiểm định giả thuyết về mối liên hệ tuyến tính Ta thấy rằng khi không có mối liên hệ tuyến tính giữa X và Y, hệ số B trong phương trình hồi quy tuyến tính của tổng thể sẽ bằng không. Ta đặt giả thuyết: Ho: B = 0 H1: B 0 22 .xnxì MSE b S b t b − == ∑ Giá trị kiểm định: Quy luật quyết định: bác bỏ giả thuyết Ho với mức ý nghĩa nếu: t > t n-2, /2 Trở lại ví dụ về lượng sản phẩm tiêu thụ và thời gian quảng cáo. Kết xuất của SPSS cho ta nhận xét sau: B = 0,735; Sb = 0,28 t = 2,626 Với mức ý nghĩa = 5% ta có t n-2, /2 = t 10 , 0,025 = 2,228 t > t 10 , 0,025 => bác bỏ giả thuyết Ho cho rằng giữa X và Y không có mối liên hệ tuyến tính. * Chú ý: trong bảng kết xuất ta thấy có dấu hiệu Sig. = 0,025 có nghĩa là với mọi mức ý nghĩa lớn hơn 2,5% ta có thể bác bỏ giả thuyết Ho trên. Bài tập chương 3 : Bài 3.1 : Giả sử ta cĩ số liệu về doanh số và chi phí quảng cáo như sau : ĐVT : triệu đồng Tháng 4 5 6 7 8/2009 Doanh số 115 170 325 455 655 Cpqc 35 55 65 68 79 Yêu cầu : 1. Xác định hệ số tương quan 2. Xây dựng mơ hình hồi quy hai biến. 21 3. Ước lượng và kiểm định các thơng số với α = 5%. 4. Anh/ chị nhận xét gì về kết quả trên. Bài 3.2 : Giả sử ta cĩ số liệu về thu nhập và chi tiêu như sau : ĐVT : usd/tuần Thu nhập 55 75 85 95 115 Chi tiêu 45 55 60 65 75 Yêu cầu : 1. Xác định hệ số tương quan 2. Xây dựng mơ hình hồi quy hai biến. 3. Ước lượng và kiểm định các thơng số với α = 5%. 4. Anh/ chị nhận xét gì về kết quả trên. Bài 3.3: Giả sử ta cĩ số liệu về giá cả và lượng cầu như sau : Giá (1000 đ/kg) 157 128 90 60 50 Lượng cầu (tấn) 32 44 50 65 78 Yêu cầu : 1. Xác định hệ số tương quan 2. Xây dựng mơ hình hồi quy hai biến. 3. Ước lượng và kiểm định các thơng số với α = 5%. 4. Anh/ chị nhận xét gì về kết quả trên. TÀI LIỆU THAM KHẢO: 1. Vũ Thiếu, Nguyễn Quang Dong, Nguyễn Khắc Minh, “Kinh tế lượng”, Nhà xuất bản Khoa học và kỹ thuật, 2001. 2. Nguyễn Quang Dong, “Bài tập kinh tế lượng với trợ giúp của phần mềm EVIEWS”, Nhà xuất bản Khoa học và kỹ thuật, 2002. 3. Hồng Ngọc Nhậm, “Kinh tế lượng”, Trường Đại học kinh tế TP. HCM, 2005.

Các file đính kèm theo tài liệu này:

hjgfalo;ldkgajhdgfpoasgdadsjgag; (3).pdf