MỤC TIÊU CỦA CHƯƠNG
● Sau khi học xong chương này, người học sẽ
● Nói được phạm vi ứng dụng của phương pháp phân
tích hồi quy và tương quan đơn biến
● Biết cách thực hiện một phân tích hồi quy dựa trên
dữ liệu mẫu
● Nói được những điều kiện và giả định cần thiết khi
phân tích hồi quy
● Biết được cách tính và ý nghĩa của hệ số tương quan
Pearson và hệ số tương quan hạng Spearman
35 trang |
Chia sẻ: hongha80 | Lượt xem: 814 | Lượt tải: 1
Bạn đang xem trước 20 trang nội dung tài liệu Bài giảng môn Thống kê kinh doanh - Chương 11: Hồi quy và tương quan đơn biến, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1-1
Chương 11
HỒI QUY VÀ TƯƠNG QUAN
ĐƠN BIẾN
1-2
MỤC TIÊU CỦA CHƯƠNG
● Sau khi học xong chương này, người học sẽ
● Nói được phạm vi ứng dụng của phương pháp phân
tích hồi quy và tương quan đơn biến
● Biết cách thực hiện một phân tích hồi quy dựa trên
dữ liệu mẫu
● Nói được những điều kiện và giả định cần thiết khi
phân tích hồi quy
● Biết được cách tính và ý nghĩa của hệ số tương quan
Pearson và hệ số tương quan hạng Spearman
1-3
CÁC NỘI DUNG CHÍNH
● 11.1 LÀM QUEN VỚI HỒI QUY
● 11.2 MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN
● 11.3 TƯƠNG QUAN TUYẾN TÍNH
● 11.4 TƯƠNG QUAN GIỮA CÁC BIẾN ĐỊNH TÍNH
1-4
11.1 Làm quen với hồi quy
● 11.1.1 Khái niệm hồi quy
● Regression, Regression to mediocrity: quy các điểm DL đã biết về một
đường lý thuyết
● Đ/nghĩa của TK:
● NC mối liên hệ phụ thuộc giữa một biến phụ thuộc (biến đầu ra) và một
hay nhiều biến độc lập (biến đầu vào),
● nhằm ước tính hoặc dự báo giá trị trung bình tổng thể của biến phụ thuộc
dựa trên các giá trị biết trước của biến độc lập
● Hồi quy đơn biến (simple regression): 1 biến PT và 1 biến ĐL, DL định
lượng
● VD:
● KQ học tập = f(thời gian tự học)
● KQ học tập = f(thời gian tự học, yêu thích chuyên ngành)
● Lượng tiêu thụ = f(P1, P2, P3, P4)
● Chất lượng sản phẩm = f(NVL, thiết bị, công nghệ, con người, quản lý)
1-5
11.1.2 Phân biệt liên hệ TK và liên hệ hàm số khi
phân tích hồi quy
● Liên hệ hàm số: Y = b0 + b1X
● Với 1 giá trị của X, có 1 giá trị xác định và duy nhất
của Y
● Liên hệ TK: Y = b0 + b1.X
● X = thời gian tự học; Y = điểm GPA
● DL về X: dữ liệu mẫu
● Một X, có thể có nhiều Y
● DL mẫu →xác định đường HQ mẫu → dự đoán
đường HQ tổng thể
1-6
1-7
11.1.3 Quy ước về ký hiệu và tên gọi
● Biến số: Y = b0 + b1.X1 + b2X2
● Biến độc lập, biến đầu vào, biến giải thích: X1, X2
● Biến phụ thuộc, biến đầu ra, biến được giải thích: Y
● Xki: giá trị của quan sát thứ i của biến Xk.
● b0, b1, b2: các hệ số của phương trình hồi quy
● Hồi quy đơn biến và hồi quy đa biến (HQ bội)
● HQ đơn biến (simple regression): 1 biến ĐL
● HQ đa biến (multiple regression): nhiều biến ĐL
1-8
11.1.4 Các dạng liên hệ giữa biến độc lập và biến
phụ thuộc
1-9
11.2 Mô hình hồi quy tuyến tính đơn
● 11.2.1 Mở đầu
● NC mối liên hệ giữa thu nhập
(X) và chi tiêu (Y)
● Lấy mẫu n hộ gia đình
● Đường hồi quy lý thuyết
● E(Y|Xi) = b0 + b1.Xi
● Yi = b0 + b1Xi + ei
● b0: hệ số tung độ gốc (hệ số
chặn)
● b1: hệ số dốc (hệ số góc)
● ei: sai số, thể hiện yếu tố nhiễu
1-10
11.2.2 Các giả định liên quan đến yếu tố nhiễu
● Các ei tại mỗi Xi có phân
phối bình thường
● Không có sự tương quan
giữa các nhiễu, hay các ei
độc lập với nhau
1-11
11.2.3 Ý nghĩa và cách xác định các hệ số hồi quy
● b1: hệ số độ dốc, đo lường lượng thay đổi TB trong
biến phụ thuộc Y khi X thay đổi 1 đơn vị.
● b0: hệ số tung độ gốc cho biết giá trị của Y khi X =
0, có thể coi là ảnh hưởng TB của các yếu tố khác
mà không có mặt trong mô hình
1-12
Dữ liệu mẫu Bảng 11.1
Stt Số năm Doanh số
1 3 487
2 5 445
3 2 272
4 8 641
5 2 187
6 6 440
7 7 346
8 1 238
9 4 312
10 2 269
11 9 655
12 6 563
1-13
Xác định các hệ số hồi quy
● Phương pháp Cực tiểu hoá
tổng bình phương của các
phần dư
1-14
11.2.4 Tính toán các kết quả hồi quy bằng Excel
● Vẽ đồ thị Scatter Chart
y = 49,91x + 175,83
R² = 0,6931
0
100
200
300
400
500
600
700
0 2 4 6 8 10
1-15
● Sử dụng Data Analysis
1-16
11.2.6 Đo lường biến thiên bằng Hệ số xác định
● Hệ số xác định (Coefficient of Determination)
1-17
1-18
11.2.5 Vấn đề cần chú ý khi dự đoán với mô hình
hồi quy
● Chỉ nên dự đoán với những giá trị Xi nằm giữa
Xmin và Xmax, hoặc không quá xa Xmin và Xmax
● Lý do: với những giá trị Xi nằm càng xa Xtb, thì sai
số khi ước lượng Yi càng lớn.
1-19
11.2.8 Suy diễn TK về hệ số độ dốc
● 11.2.8.1 Định lý Gauss-Markov
● Giả định: PP của Y là bình thường thì PP của b0
và b1 cũng là PP bình thường
● Đ/lý Gauss-Markov
● Trong các ƯL tuyến tính không chệch cho hệ số hồi
quy tổng thể, ƯL tìm được bằng PP bình phương bé
nhất có PS cực tiểu.
1-20
11.2.8.2 Khoảng tin cậy cho hệ số độ dốc
1-21
11.2.8.3 KĐ ý nghĩa của hệ số độ dốc
● Cặp giả thuyết KĐ
● Chỉ tiêu KĐ tính: t = b1/sb1
● Quy tắc bác bỏ H0:
● TD:
● b1 = 49,91
● sb1 = 10,5021
● t = 4,7524
● t tra bảng: tn-2;α/2 = t10; 0,025=2,228
● Bác bỏ H0.
1-22
1-23
11.2.9 Phân tích phần dư
● 11.2.9.1 Kiểm tra tính đúng đắn của mô hình HQTT
● KT mối liên hệ tuyến tính:
● Vẽ đồ thị phần dư theo biến độc lập X: e = f(X)
● Nếu các điểm không tạo thành một hình mẫu cụ thể
nào thì quan hệ HQTT là đúng đắn
1-24
11.2.9.2 KT sự vi phạm giả định PS bằng nhau
● Phương pháp đồ thị phần dư (e) theo X
● Nếu phần dư tăng dần khi X tăng lên thì có nghĩa là
phương sai của phần dư đã thay đổi→vi phạm
● Phương pháp Kiểm định Park
1-25
11.2.9.3 KT giả định PP bình thường của phần dư
● Vẽ đồ thị xác suất bình thường (Normal Probability Plot): e
= e(z)
● Sử dụng Excel
1-26
1-27
11.2.9.4 KT tính độc lập của phần dư
● P.pháp đồ thị: vẽ đồ thị phần dư
theo trật tự các giá trị thu được theo
thời gian. Nếu không xuất hiện một
hình mẫu xác định nào → có thể KL
là các phần dư độc lập với nhau.
● KĐ Durbin-Watson: Chỉ tiêu KĐ D
1-28
1-29Durbin-Watson Table
1-30
11.2.10 Sử dụng PT hồi quy để dự đoán giá trị TB
và giá trị cá biệt của Y
● Giá trị TB
● Giá trị cá biệt
1-31
11.3 Tương quan tuyến tính
● 11.3.1 Hệ số tương quan tổng thể rho
● 11.3.2 Hệ số tương quan mẫu rXY
1-32
Giá trị và ý nghĩa của hệ số tương quan:
● r < 0: có mối liên hệ tỷ lệ nghịch
● r > 0: có mối liên hệ tỷ lệ thuận
● |r| > 0,8 : TQTT rất mạnh
● |r| = 0,6 – 0,8: TQTT mạnh
● |r| = 0,4 – 0,6: TQTT vừa phải
● |r| = 0,2 – 0,4: TQTT yếu
● |r| < 0,2 : TQTT rất yếu
1-33
KĐ ý nghĩa của hệ số tương quan tuyến
tính
● Cặp giả thuyết KĐ
● Chỉ tiêu KĐ
● Quy tắc bác bỏ H0
● Bác bỏ H0 nếu |t| > tn-2;α/2
● VD: Trang 345
1-34
11.4 Tương quan giữa các biến định tính
● 11.4.1 Hệ số TQ hạng Spearman
● 11.4.2 Hệ số Kendall Tau
● 11.4.3 Hệ số tq đối với DL thứ bậc trong DL đã phân nhóm
(tau c, gamma, dyx và dxy)
1-35
KĐ theo hệ số tương quan hạng Spearman rS
● Biến X1 và X2 có dữ liệu thứ bậc (hoặc DL khoảng,
nhưng đã biến thành DL thứ bậc bằng cách xếp
hạng trong từng mẫu), mẫu n cặp quan sát
● Tính chênh lệch hạng di = x1i – x2i (i = 1, 2, n)
● Tính hệ số tương quan hạng rS
● H0: Không có liên hệ giữa 2 biến (Hệ số tương
quan hạng của tổng thể = 0)
● Nếu số trường hợp có di = 0 nhiều, thì cần thêm
một hệ số hiệu chỉnh
● Nếu n > 10, PP của hệ số TQ hạng trên mẫu xấp xỉ
PP bình thường với độ lệch chuẩn là
Chỉ tiêu KĐ sẽ là z
Các file đính kèm theo tài liệu này:
- thong_ke_ung_dung_chuong_11_7135.pdf