Bài giảng Phân tích và xử lý dữ liệu với R - Chương 3: Ước lượng & kiểm định giả thuyết

Chương 3: Ước lượng & kiểm định giả thuyết

NỘI DUNG

1. Ước lượng

2. Kiểm định giả thuyết

3. So sánh hai tổng thể

 

pptx32 trang | Chia sẻ: phuongt97 | Lượt xem: 427 | Lượt tải: 0download
Bạn đang xem trước 20 trang nội dung tài liệu Bài giảng Phân tích và xử lý dữ liệu với R - Chương 3: Ước lượng & kiểm định giả thuyết, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Phân tích và xử lý dữ liệu với RChương 3ƯỚC LƯỢNG & KIỂM ĐỊNH GIẢ THUYẾTNỘI DUNG1. Ước lượng2. Kiểm định giả thuyết 3. So sánh hai tổng thểQuy trình ước lượngƯớc lượng các tham số của tổng thể chungƯớc lượng các tham số của tổng thể chungTừ thống kê của tổng thể mẫuTrung bìnhTỷ lệPhương saiKhác biệt1.2 Ước lượng trung bình của tổng thể chungKhoảng tin cậyTỷ lệTrung bìnhTổng thể bộc lộChưa biết Đã biết 1.2.1 Trường hợp đã biết phương saiGiả thiếtĐã biết độ lệch chuẩn của tổng thể chungTổng thể chung phân bố chuẩnNếu bất thường sử dụng mẫu lớnƯớc lượng khoảng tin cậy1.2.2 Trường hợp chưa biết phương sai (chưa biết Giả thiếtChưa biết độ lệch chuẩn của tổng thể chungTổng thể chung phải phân bố chuẩnSử dụng phân bố Students’sƯớc lượng khoảng tin cậy Đọc dữ liệu vào R>setwd(“D:/testR”)>data = read.csv(“salary.csv”, header =T)>attach(data)>head(data) id salbeg sex time age salnow edlevel work jobcat minority sexrace1 7 6900 0 79 28.00 16080 15 3.17 1 0 12 8 5400 0 67 28.75 14100 15 0.50 1 0 13 9 5040 0 96 27.42 12420 15 1.17 1 0 14 11 6300 0 84 33.50 15720 15 6.00 1 0 15 12 6000 0 88 54.33 8880 12 27.00 1 0 16 18 6900 0 72 32.67 10380 15 6.92 1 0 1Ước lượng lương trung bình hiện tại của nhân viênsumary (salnow)n = length(salnow)alpha = 0.05salnow.bar = mean (salnow)s = sd (salnow)z = qnorm(1-alpha/2)erro = z *s / sqrt(n)// khoảng ước lượng:sal.now + c(-erro, erro)Tính khoảng ước lượng trung bình thâm niên làm việc của nhân viên trong công ty với mức ý nghĩa alpha = 10%1.3 Ước lượng về tỷ lệ của tổng thể chungGiả thiếtChỉ có hai biểu hiện định tínhTổng thể chung phân bố theo quy luật nhị thứcPhân bố chuẩn được sử dụngƯớc lượng khoảng tin cậyƯớc lượng tỉ lệ nhân viên của công ty có mức lương nhỏ hơn 10,000 usd với alpha = 0.05>count =0> alpha =0.05> for(i in 1:n){if (data[i,"salnow"]f = count /n>z = qnorm(1-alpha/2)>erro = z*sqrt(f*(1-f)/n)> f + c(-erro, erro)Hãy ước lượng tỉ lệ nhân viên có trình độ đại học có mức lương thấp hơn 20,000 USD1.4 Xác định cỡ mẫuKhi chọn cỡ mẫuYêu cầu: sai số nhỏ; chí phí thấpKhi muốn ước lượng trung bình:Khi muốn ước lượng tỉ lệ :Giả sử rằng chiều cao của học sinh lớp 2 có độ lệch chuẩn là 9.48 cm, hãy tính cỡ mẫu cần thiết để ước lượng được giá trị trung bình có sai số quanh điểm ước lượng là 1.2 cm với khoảng tin cậy 95%>sigma = 9.48>e = 1.2> z = qnorm(0.975)> n = z^2*sigma^2/(e^2)NỘI DUNG1. Ước lượng2. Kiểm định giả thuyết 3. So sánh trung bình, tỉ lệ hai mẫua) Kiểm định Z một phíaGiả định chung phân bố chuẩnTổng thể chung: Phân bố chuẩnNếu không chuẩn, sử dụng mẫu lớnGiả thiết “không” chỉ có dấu hoặc Kiểm định Z:Miền bác bỏKiểm định trái khi đã biết phương saiGiả sử các nhà sản xuất tuyên bố rằng cuộc đời trung bình của một bóng đèn là hơn 10.000 giờ. Trong một mẫu của 30 bóng đèn, người ta thấy rằng tuổi thọ trung bình của chúng chỉ là 9,900 giờ. Giả sử độ lệch chuẩn của tổng thể là 120 giờ. Với mức ý nghĩa 5% có thể bác bỏ tuyên bố của nhà sản xuất hay khôngHo: μ >=10000> xbar = 9900         # sample mean  > mu0 = 10000       # hypothesized value  > sigma = 120        # population standard deviation > n = 30                 # sample size  > z = (xbar−mu0)/(sigma/sqrt(n))  > z                      # test statistic  [1] −4.5644> alpha = .05  > z.alpha = qnorm(1−alpha)  > −z.alpha               # critical value  [1] −1.6449Kết luận: Giá trị thống kê z xbar = 2.1          # sample mean  > mu0 = 2             # hypothesized value  > sigma = 0.25      # population standard deviation  > n = 35                 # sample size  > z = (xbar−mu0)/(sigma/sqrt(n))  > z                      # test statistic  [1] 2.3664> alpha = .05  > z.alpha = qnorm(1−alpha)  > z.alpha                # critical value  [1] 1.6449Kết luận: Giá trị thống kê z > z.alpha nên không đủ cơ sở để chấp nhận giả thuyết Ho nên có thể yêu cầu nhà sản xuất đính chính lại thông tin trên bao bì.2.4 Kiểm định tỷ lệLà một phân số hoặc % của tổng thể chng theo tiêu thức định tính nào đóNếu tiêu thức định có hai biểu hiện và phân bố theo quy luật nhị thứcBao gồm cả biểu hiện có và không có theo tiêu thức nghiên cứuTỷ lệ của tổng thể mẫu ()Sử dụng khi n đủ lớn () hoặc NỘI DUNG1. Ước lượng2. Kiểm định giả thuyết 3. So sánh hai tổng thể3. So sánh hai tổng thể3.1 Kiểm định giá trị trung bình của hai tổng thểHai mẫu độc lậpHai mẫu phụ thuộc3.2 Kiểm định tỷ lệ của hai tổng thểSo sánh hai mẫu độc lậpSo sánh thu nhập của cán bộ nam và cán bộ nữ trong công ty>head(data)>ibrary(psych)>describe.by(salnow, sex)>t=t.test(salnow~ sex)>print(t)data: salnow by sext = 11.688, df = 344.26, p-value library(beeswarm) // nếu ko có gõ lệnh install.packages (“beeswarm”)>beeswarm(salnow~sex, data=data, pch=16)>boxplot(salnow~sex, add=T, col = c("green", "red"))So sánh hai mẫu phụ thuộcSo sánh giữa lương khởi điểm và lương hiện tại của nhân viên trong công ty> t=t.test(salnow, salbeg, paired=TRUE)>print(t) Paired t-testdata: salnow and salbegt = 35.036, df = 473, p-value < 2.2e-16alternative hypothesis: true difference in means is not equal to 095 percent confidence interval: 6570.963 7351.822sample estimates:mean of the differences 6961.392

Các file đính kèm theo tài liệu này:

  • pptxbai_giang_phan_tich_va_xu_ly_du_lieu_voi_r_chuong_3_uoc_luon.pptx
Tài liệu liên quan