Bài giảng Hồi quy và tương quan

MỤC TIÊU

• Đánh giá sự liên quan giữa hai biến định

lượng thông qua biểu đồ

• Xây dựng và phiên giải đường hồi quy

• Tính và phiên giải được hệ số tương quan

• Kiểm định đường hồi quy

pdf8 trang | Chia sẻ: phuongt97 | Lượt xem: 815 | Lượt tải: 0download
Nội dung tài liệu Bài giảng Hồi quy và tương quan, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
1Hồi quy và tương quan 2.00 3.00 4.00 5.00 6.00 150.0 155.0 160.0 165.0 170.0 175.0 Chiều cao (cm) FE V ( lít) MỤC TIÊU • Đánh giá sự liên quan giữa hai biến định lượng thông qua biểu đồ • Xây dựng và phiên giải đường hồi quy • Tính và phiên giải được hệ số tương quan • Kiểm định đường hồi quy TẠI SAO CẦN? – Dự đoán các giá trị của các biến phụ thuộc (y) dựa trên các giá trị của các độc lập (x1, x2,xk.). • ví dụ: dự đoán huyết áp dựa trên tuổi, cân nặng, .... – Phân tích mối quan hệ giữa các biến độc lập và biến phụ thuộc: • ví dụ: mối quan hệ giữa mức độ mỡ trong máu và tuổi MÔ HÌNH HỒI QUI • Biểu đồ chấm điểm thể hiện quan hệ giữa chiều cao và dung tích thở gắng sức (FEV) 2.00 3.00 4.00 5.00 6.00 150.0 155.0 160.0 165.0 170.0 175.0 Chiều cao (cm) FE V (lí t) MÔ HÌNH HỒI QUI (tiếp) • Nhận xét gì? 2.00 3.00 4.00 5.00 6.00 150.0 155.0 160.0 165.0 170.0 175.0 Chiều cao (cm) FE V (lí t) • FEV tăng cùng với Chiều cao • Vậy FEV tăng như thế nào? • Tăng bao nhiêu khi chiều cao tăng thêm x cm? MÔ HÌNH HỒI QUI (tiếp) • Mô hình tuyến tính y= a + bx + e • Trong đó y = biến phụ thuộc x = biến độc lập a = giao điểm b = độ dốc e = giá trị sai số x y a b y= a+ bx + e 2CÁC BƯỚC TIẾN HÀNH XÂY DỰNG ĐƯỜNG HỒI QUI 1. Đánh giá các giả thuyết 2. Xác định các hệ số 3. Đánh giá các hệ số hồi quy 4. Sử dụng để ước lượng/dự đóan ĐÁNH GIÁ CÁC GIẢ THUYẾT • Biến x, y là biến ngẫu nhiên • Giá trị của biến y có phân bố chuẩn • Tập hợp các giá trị của y có phương sai như nhau XÁC ĐỊNH CÁC HỆ SỐ • Các hệ số được ước lượng: – trên một mẫu rút ra từ quần thể – tính tóan các giá trị thống kê mẫu – xây dựng phương trình đường thẳng tốt nhất mô tả được mối quan hệ giữa hai biến? Vậy đường thẳng tốt nhất là đường nào? w w w w w w w w w w w w w w w x y ĐƯỜNG (HỒI QUI) TRUNG BÌNH TỐI THIỂU Là một đường thẳng mà từ đó tổng bình phương trung tới đường thẳng trung bình là nhỏ nhất (tối thiểu) ĐƯỜNG (HỒI QUI) TRUNG BÌNH TỐI THIỂU 3 3 w w w w 41 1 4 (1,2) 2 2 (2,4) (3,1.5) Tổng bình phương = (2 - 1)2 + (4 - 2)2 +(1.5 - 3)2 + (4,3.2) (3.2 - 4)2 = 6.89 Tổng bình phương = (2 -2.5)2 + (4 - 2.5)2 + (1.5 - 2.5)2 + (3.2 - 2.5)2 = 3.99 2.5 Hãy so sánh hai đường thẳng Tổng bình phương càng nhỏ thì đường thẳng phù hợp với bộ số liệu tốt hơn. TÍNH HỆ SỐ HỒI QUI Tính các hệ số hồi quy từ mẫu å å å å å å å = = = = = = = - - = - -- = n i n i i i n i n i n i ii ii n i i n i ii n x x n yx yx xx yyxx b 1 1 2 2 1 1 1 1 2 1 )( ))(( )( ))(( xbya -= Đường hồi quy xbbyˆ 10 += Đường hồi quy quần thể exy ++= ba 3• Chiều cao và FEV của 20 sinh viên VÍ DỤ 3.60162.0 3.20161.3 3.42161.2 2.85161.2 3.19160.4 3.54157.0 3.54154.0 FEVheight Biến phụ thuộc, YBiến độc lập, X TÍNH TAY Sy2Sx2SxySxSx ........................... 38.028.42209577635724776 0.713.42916722545905485 10.05.42500624139505079 (y-y)2(x-x)2y2x2xyyx Lập bảng số liệu ĐƯỜNG HỒI QUI ;86,3 38,165 = = y x n = 20. xbxay 0744,045,8ˆ +-=+= å = 6,3307x å = 1,77y å = 2,5475872x å = 0,12797xyå = 8,3062y 20 )6,3307(2,547587 20 )1,77)(6,3307(0,12797 2 - - =b = 0,0744. 38,165*0744,086,3 -=a = -8,45 • Đường hồi quy mô tả mối quan hệ giữa FEV và chiều cao sẽ là: FEV=-8,45 + 0,0744*chiều cao Tính đường hồi qui bằng MS EXCEL Tools > Data Analysis > Regression > [bôi đen khỏang y và khỏang x] > OK ĐƯỜNG HỒI QUI KẾT QUẢ TỪ EXCEL 0.12600.02280.00723.03090.02450.0744X Variable 1 0.0856-16.97860.0521-2.07984.0611-8.4465Intercept Upper 95%Lower 95%P-valuet StatSECoef. 9.438719Total 0.34726.249318Residual 0.00729.18653.18943.18941Regression Sig. FFMSSSdf ANOVA 20Observations 0.5892Standard Error 0.3011Adjusted R Square 0.3379R Square 0.5813Multiple R Regression Statistics SUMMARY OUTPUT xy 0744,045,8ˆ +-= PHIÊN GIẢI ĐƯỜNG HỒI QUI 2.00 3.00 4.00 5.00 6.00 150.0 155.0 160.0 165.0 170.0 175.0 Chiều cao (cm) FE V (lí t) heightFEV 0744,045,8 +-= Đây là giá trị độ dốc, với mỗi một cm cao lên thì FEV sẽ tăng 0,0744 lít giá trị điểm cắt 4ĐÁNH GIÁ ĐƯỜNG HỒI QUI • Phương pháp bình phương tối thiểu sẽ cho chúng ta đường hồi qui kể cả khi không có mối quan hệ tuyến tính giữa x và • Chúng ta cần phải đánh giá xem đường hồi qui có phải là tốt nhất hay không? • Chúng ta đánh giá độ dốc (slope) của đường hồi qui (ít khi đánh giá điểm cắt – Intercept) ĐÁNH GIÁ ĐỘ DỐC – Khi không có mối quan hệ tuyến tính giữa hai biến, đường hồi qui sẽ nằm ngang q q q q q q q q q q q q q các giá trị (x) khác nhau cho kết quả khác nhau ở (y) độ dốc khác không (0) q q q q q q qq q q q Kh. Có mối quan hệ tuyến tính các giá trị (x) khác nhau cho kết quả không khác nhau ở (y) độ dốc bằng không (0) Có mối quan hệ tuyến tính • Chúng ta có thể suy luận b từ b bằng cách kiểm định: H0: b = 0 H1: b ≠ 0 (or 0) – The test statistic is – Nếu sai số có phân bố chuẩn thì thống kê này sẽ có phân bố t-student với df=n-2 bs bt b-= sai số chuẩn của b. å - = 2 2 )( xx ss i b trong đó KIỂM ĐỊNH ĐỘ DỐC ( )åå ----= 2222 )()( 2 1 xxbyy n s ii • Kiểm định giả thuyết thống kê về mối quan hệ tuyết tính giữa chiều cao và dung tích thở gắng sức của các sinh viên trường y, sử dụng a = 5%. VÍ DỤ • để tính t, chúng ta cần: • b=0,0744 • sb=0,025 • vùng bác bỏ t > t.025 or t < -t.025 with n = n-2 = 18; khỏang, t.025 = 2,1 • kết luận: độ dốc đường hồi qui khác 0 có ý nghĩa TK, đường hồi qui là mô tả tốt nhất. 031,3025 00744,0 =-=-= .s bt b b VÍ DỤ Kiểm định độ dốc: kếtquả từ EXCEL 0.12600.02280.00723.03090.02450.0744X Variable 1 0.0856-16.97860.0521-2.07984.0611-8.4465Intercept Upper 95%Lower 95%P-valuet StatSECoef. 9.438719Total 0.34726.249318Residual 0.00729.18653.18943.18941Regression Sig. FFMSSSdf ANOVA 20Observations 0.5892Standard Error 0.3011Adjusted R Square 0.3379R Square 0.5813Multiple R Regression Statistics SUMMARY OUTPUT có đủ bằng chứng để kết luận chiều cao có khả năng dự đoán FEV 5Phần 2 – Để đo lường độ mạnh của mối quan hệ tuyến tính chúng ta dùng hệ số xác định SST SSR yy yy R = - - = å å 2 2 2 )( )ˆ( Hệ số xác định Hệ số xác định • Sự biến thiên của các giá trị quan sát và giá trị trung bình: Tổng biến thiên của y (SST) Mô hình hồi qui (SSR) còn lại, chưa lý giải Sai số (SSE) lý giải một ph ần Hệ số xác định x1 x2 y1 y2 y Hai điểm số liệu (x1,y1) và (x2,y2) =-+- 22 2 1 )yy()yy( 2 2 2 1 )yyˆ()yyˆ( -+- 2 22 2 11 )yˆy()yˆy( -+-+ Tổng biến thiên y = Biến thiên lý giải bằng đường hồi qui + Phần chưa lý giải (sai số) biến thiên của y = SSR + SSE Hệ số xác định • R2 đo lường tỷ lệ biến thiên của y được lý giải bằng sự biến thiên của x å å å å å - - = - = n y y n x xb yy SSRR i i i i i 2 2 2 22 2 2 )( )( ( )( • R2 có giá trị từ 0 đến 1 R2 = 1: lý tưởng, đường hồi qui trùng với các điểm số liệu. R2 = 0: không có mối liên hệ giữa x và y. Ví dụ: 3379,0 )( )( ( 2 2 2 22 2 = - - = å å å å n y y n x xb R i i i i 6Ví dụ 0.12600.02280.00723.03090.02450.0744X Variable 1 0.0856-16.97860.0521-2.07984.0611-8.4465Intercept Upper 95%Lower 95%P-valuet StatSECoef. 9.438719Total 0.34726.249318Residual 0.00729.18653.18943.18941Regression Sig. FFMSSSdf ANOVA 20Observations 0.5892Standard Error 0.3011Adjusted R Square 0.3379R Square 0.5813Multiple R Regression Statistics SUMMARY OUTPUT Hệ số xác định=0,3379, nghĩa là chỉ có 33,8% biến thiên của FEV được lý giải bằng sự biến thiên của chiều cao (mô hình chưa phải là mô hình tốt) Sử dụng đường hồi qui • Nếu mô hình hồi quy là mô tả tốt cho mối quan hệ giữa hai biến chúng ta có thể dùng mô hình đó để dự đóan giá trị của y: – Ước lượng điểm – Ước lượng khỏang Ước lượng điểm • Ví dụ: – Ước lượng FEV của một sinh viên cao 187cm: y=-8,45+0,0744*187=5,46 lít – Một sinh viên cao 187cm sẽ có dung tích thở gắng sức là 5,46 lít – Kết quả này chính xác như thế nào? Ước lượng khoảng • Hai giá trị khỏang: – Ước lượng khỏang giá trị của y với một giá trị của x – Khỏang tin cậy – ước lượng trung bình của y với mỗi giá trị của x. å - - ++± - 2 2 |)2/1( )( )(1 1ˆ xx xx n sty i p xya å - - +± - 2 2 |)2/1( )( )(1ˆ xx xx n sty i p xya Kiểm định F cho mô hình hồi quy ) )( ( 2 22 n x xb ii åå - n y y ii 2 2 )(åå - - n-1Total SSRes/ dfSST-SSRegn-2 Residual (SSRes) MSR/MSESSReg/df1 Regression (SSReg) Sig. FFMSSSdf ANOVA Giả thuyết thống kê H0: b = 0 và H1: b ≠ 0 (or 0) Bác bỏ H0 nếu F>F1,n-2, 1-a Không bác bỏ H0 nếu F< F1,n-2, 1-a Hệ số tương quan 7Hệ số tương quan • Hệ số tương quan (Coefficient of correlation) được sử dụng để đo lường độ lớn của mối quan hệ giữa hai biến số. Y X Y X Y X Y X Y X Ví dụ một số giá trị hệ số tương quan r = -1 r = -.6 r = 0 r = .6 r = 1 Cách tính • Công thức • Giá trị hệ số tương quan nằm trong khỏang -1 đến 1 – nếu r = -1 (mối tương quan nghịch) hoặc r = +1 (mối tương quan thuận) tất cả các điểm số liệu nằm trên đường hồi quy – nếu r = 0 không có mối tương quan ( )[ ] ( )å å å å - - = nyy nxxb r i ii / / 22 222 Kiểm định giả thuyết cho r • Giả thuyết H0: r = 0 (không liên quan) H1: r ¹ 0 (có mối quan hệ tuyến tính) • Kiểm định 2 2 rt r n r- = 1- - với df = n - 2 Ví dụ • Hệ số tương quan giữa FEV và chiều cao • Kiểm định H0: r = 0 (không liên quan) H1: r ¹ 0 (có mối quan hệ tuyến tính) t>t tra bảng=2,1 à bác bỏ H0, có mối quan hệ tuyến tính giữa FEV và chiều cao, [ ] 58,0 20/)1,77(6,306 20/)6,3307(2,547587)0744,0( 2 22 = - - =r 02,3 220 58,01 058,0 2 = - - - =t Một số dạng hồi quy khác 8Mô hình tuyến tính – không tuyến tính Không tuyến tính, hồi quy bội Tuyến tínhü X e e X Y X Y X Hồi quy đa biến • Có nhiều biến độc lập – y = b0+b1x1 + b2x2+ ....+bnxn+ e • Hồi quy logistics: – y = b0+b1x1 + b2x2+ ....+bnxn+ e – Trong đó y là biến phụ thuộc chỉ có hai giá trị có/không

Các file đính kèm theo tài liệu này:

  • pdfbai_giang_hoi_quy_va_tuong_quan.pdf