Hiểu và áp dụng được các phương pháp phân tích
dữ liệu phù hợp với yêu cầu nghiên cứu.
• Tổ chức và làm việc nhóm phân tích dữ liệu
nghiên cứu; làm báo cáo và trình bày kết quả
nghiên cứu
91 trang |
Chia sẻ: phuongt97 | Lượt xem: 480 | Lượt tải: 0
Bạn đang xem trước 20 trang nội dung tài liệu Bài giảng Tin học ứng dụng - Bài 6: Phân tích dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
của mô hình
= − = − ( + ∗ )
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
HỒI QUY TUYẾN TÍNH ĐƠN
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
HỒI QUY TUYẾN TÍNH ĐƠN
Đo lường mức độ phù hợp của mô
hình đối với mẫu
Kiểm định mức độ phù hợp của
mô hình đối với tổng thể (F lớn,
Sig < 0.05)
Kiểm định ý nghĩa của các hệ số
hồi quy (Sig < 0.05)
Hệ số hồi quy
KẾT LUẬN: = . + . ∗
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
LƯU Ý
• Tham số R bình phương hiệu chỉnh (Adjusted R
Square)
– Cho biết mức độ (%) sự biến thiên của biến phụ thuộc
được giải thích bởi biến độc lập
• Bảng ANOVA
– Giá trị của Sig( P-value) của bảng ANOVA dùng để
đánh giá sự phù hợp (tồn tại) của mô hình. Giá trị Sig
nhỏ (thường <5%) thì mô hình tồn tại.
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
ĐO LƯỜNG MỨC ĐỘ PHÙ HỢP CỦA MÔ HÌNH
• Để có thể biết mô hình giải thích được như thế nào
hay % biến động của biến phụ thuộc, người ta sử
dụng R2 (0 ≤ R2 ≤ 1)
• Trong đó
– R2 cao nghĩa là mô hình ước lượng được giải thích
được một mức độ cao biến động của biến phụ thuộc
– Nếu R2 bằng 0. Nghĩa là mô hình không đưa ra thông
tin nào về biến phụ thuộc và dự đoán tốt nhất về giá trị
của biến phụ thuộc là giá trị trung bình của nó
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
HỒI QUY TUYẾN TÍNH ĐƠN
• Kiểm tra các giả định
– Giả định liên hệ tuyến tính
– Giả định Các sai số ngẫu nhiên trong hàm hồi qui tổng
thể có phương sai của sai số không đổi
– Giả định về phân phối chuẩn của phần dư
– Giả định về tính độc lập của sai số
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
GIẢ ĐỊNH LIÊN HỆ TUYẾN TÍNH
Các điểm ảnh phân bố ngẫu nhiên => giả định
liên hệ tuyến tính không bị vi phạm
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
PHƯƠNG SAI CỦA SAI SỐ KHÔNG ĐỔI
GIẢ THUYẾT H0: Phương sai của sai số không đổi
GIẢ THUYẾT H0: Hệ số tương quan hạng Spearman cho hai biến
Input_Score và ABSres bằng 0
Sig Bác bỏ giả thuyết H0
=> Phương sai của sai số thay đổi
KẾT LUẬN: Mô hình hồi quy tuyến tính không có giá trị
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
PHÂN PHỐI CHUẨN CỦA PHẦN DƯ (HISTOGRAM)
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
TÍNH ĐỘC LẬP CỦA SAI SỐ
Dò tìm những phần dư bất thường
(quá nhỏ hoặc quá lớn)
Giả thuyết: Hệ số tương quan tổng thể của sai số bằng 0
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
TÍNH ĐỘC LẬP CỦA SAI SỐ
• Quy tắc Durbin-Watson
• Tra bảng Durbin-Watson với 01 biến và 300 quan sát
(dL=1.75; dU=1.779)
• Đại lượng thống kê d=2.31(dU,4-dU) => chấp nhận giả
thuyết không có tự tương quan chuỗi bậc nhất
Có tự
tương
quan
thuận
(dương)
Không có
kết luận
Chấp nhận giả thuyết
không có tự tương
quan chuỗi bậc nhất
Không có
kết luận
Có tự tương
quan nghịch
(âm)
0 dL dU 2 4-dU 4-dL 4
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
HỒI QUY TUYẾN TÍNH BỘI
• Mô hình tổng quát
Trong đó
– Xkilà giá trị quan sát thứ i của biến độc lập thứ k
– là giá trị dự đoán thứ i của biến phụ thuộc
– i là các hệ số hồi quy riêng phần
– Phần dư ei là biến độc lập ngẫu nhiên N(0,
2)
= + ∗ + ∗ +⋯+ ∗ +
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
HỒI QUY TUYẾN TÍNH BỘI
• Một số giả định
– Biến phụ thuộc có phân phối chuẩn đối với các biến độc
lập (biến giải thích)
– Không có biến giải thích nào là tổ hợp tuyến tính của
các biến giải thích còn lại
• Ví dụ
– Sự tác động của độ tuổi, trình độ học vấn, số thẻ ngân
hàng đối với mức độ thanh toán bằng thẻ
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
HỒI QUY TUYẾN TÍNH BỘI
• Quy trình thực hiện
– Xem xét ma trận hệ số tương quan
– Xây dựng mô hình
– Đánh giá độ phù hợp của mô hình
– Kiểm định độ phù hợp của mô hình
– Giải thích các hệ số hồi quy riêng trong mô hình
– Xác định tầm quan trọng của các biến trong mô hình
– Lựa chọn biến cho mô hình
– Dò tìm các vi phạm giả định cần thiết
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
XEM XÉT MA TRẬN HỆ SỐ TƯƠNG QUAN
Hệ số tương quan giữa
hai biến độc lập thấp
Hệ số tương quan giữa
biến phụ thuộc với các
biến độc lập tương đối cao
KẾT LUẬN: Có thể sử dụng các biến độc lập trong mô hình
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
XÂY DỰNG MÔ HÌNH HỒI QUY
Giúp xác định tầm quan trọng
của mỗi biến trong mô hình
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
KIỂM ĐỊNH CÁC GIẢ THUYẾT
Mô hình giải thích được 71% các
trường hợp được ghi nhận => độ
phù hợp CAO
Sig < 0.01 chứng tỏ các hệ số hồi
quy không đồng nhất 0, mô hình
có thể sử dụng được
Các biến độc lập đều có
ý nghĩa trong mô hình
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
TẦM QUAN TRỌNG CỦA CÁC BIẾN
Hai biến này có ảnh hưởng
đối với mô hình lớn hơn các
biến còn lại
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
LỰA CHỌN CÁC BIẾN ĐỘC LẬP
• Mục đích
– Lựa chọn hiệu quả các biến đưa vào mô hình
• Thực hiện
– Tăng dần số lượng các biến và kiểm giá mức độ phù
hợp của mô hình
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
LỰA CHỌN CÁC BIẾN ĐỘC LẬP
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
LỰA CHỌN CÁC BIẾN ĐỘC LẬP
KẾT LUẬN: Mô hình hai biến tốt hơn hẳn so với mô hình một biến
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
DÒ TÌM CÁC VI PHẠM GIẢ ĐỊNH
• Mục đích
– Kiểm tra tính hợp lệ của mô hình
• Nội dung
– Giả định liên hệ tuyến tính
– Giả định phương sai của sai số không đổi
– Giả định về phân phối chuẩn của phần dư
– Giả định về tính độc lập của sai số
– Giả định về hiện tượng đa cộng tuyến
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
GIẢ ĐỊNH LIÊN HỆ TUYẾN TÍNH
Các điểm ảnh phân bố ngẫu nhiên => giả định
liên hệ tuyến tính không bị vi phạm
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
PHƯƠNG SAI CỦA SAI SỐ KHÔNG ĐỔI
KẾT LUẬN: Phương sai của sai số không đổi
Chấp nhận giả thuyết H0
GIẢ THUYẾT H0: Phương sai của sai số không đổi
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
PHÂN PHỐI CHUẨN CỦA PHẦN DƯ (HISTOGRAM)
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
TÍNH ĐỘC LẬP CỦA SAI SỐ
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
TÍNH ĐỘC LẬP CỦA SAI SỐ
• Quy tắc Durbin-Watson
• Tra bảng Durbin-Watson với 01 biến và 300 quan sát
(dL=1.75; dU=1.779)
• Đại lượng thống kê d=2.21(dU,4-dU) => chấp nhận giả
thuyết không có tự tương quan chuỗi bậc nhất
Có tự
tương
quan
thuận
(dương)
Không có
kết luận
Chấp nhận giả thuyết
không có tự tương
quan chuỗi bậc nhất
Không có
kết luận
Có tự tương
quan nghịch
(âm)
0 dL dU 2 4-dU 4-dL 4
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
HIỆN TƯỢNG ĐA CỘNG TUYẾN
KẾT LUẬN: Không xảy ra hiện tượng đa cộng tuyến
T
in
h
ọ
c
ứ
n
g
d
ụ
n
g
:
P
h
â
n
t
í
c
h
d
ữ
l
iệ
u
n
g
h
iê
n
c
ứ
u
ÔN TẬP
• Kiểm định mối liên hệ giữa hai biến định tính
• Kiểm định trung bình tổng thể
• Phân tích phương sai
• Tương quan tuyến tính
• Hồi quy tuyến tính
Các file đính kèm theo tài liệu này:
- bai_giang_tin_hoc_ung_dung_bai_6_phan_tich_du_lieu.pdf