Giới thiệu Học máy – Mô hình Naïve Bayes

Những tiến bộ gần đây trong thuật toán và lý thuyết

“Dòng lũ” đang lên của dữ liệu trực tuyến

Sức mạnh tính toán đã sẵn sàng

Ngành công nghiệp đang nở rộ

Ba lĩnh vực thích hợp cho học máy

Khai thác dữ liệu: sử dụng dữ liệu cũ để cải thiện quyết định

Các ứng dụng phần mềm chúng ta không thể làm bằng tay

Các chương trình tự tối ưu hoá

 

ppt30 trang | Chia sẻ: Mr Hưng | Lượt xem: 1063 | Lượt tải: 0download
Bạn đang xem trước 20 trang nội dung tài liệu Giới thiệu Học máy – Mô hình Naïve Bayes, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Giới thiệu Học máy – Mô hình Naïve BayesTô Hoài ViệtKhoa Công nghệ Thông tinĐại học Khoa học Tự nhiên TPHCMthviet@fit.hcmuns.edu.vn1Nội dungGiới thiệu Học máyHọc là gì? Các vấn đề và ví dụ của họcMô hình Naïve Bayes2Tại sao Học Máy?Những tiến bộ gần đây trong thuật toán và lý thuyết“Dòng lũ” đang lên của dữ liệu trực tuyếnSức mạnh tính toán đã sẵn sàngNgành công nghiệp đang nở rộBa lĩnh vực thích hợp cho học máyKhai thác dữ liệu: sử dụng dữ liệu cũ để cải thiện quyết địnhCác ứng dụng phần mềm chúng ta không thể làm bằng tayCác chương trình tự tối ưu hoá3Học là gì?ghi nhớ điều gì đóhọc các sự kiện qua quan sát và thăm dòcải thiện các kỹ năng vận động và/hay nhận thức qua việc luyện tậptổ chức tri thức mới thành các biểu diễn tổng quát, hiệu quả4Các loại họcHọc có giám sát: cho trước một tập mẫucác cặp input/output, tìm một luật thực hiện việc dự đoán các kết xuất gắn với các input mớiGom cụm: cho trước một tập mẫu, nhưng chưa gán nhãn, gom nhóm các mẫu thành các cụm “tự nhiên”Học tăng cường: một agent tương tác với thế giới thực hiện các quan sát, hành động, và được thưởng hay phạt; nó sẽ học để chọn các hành động theo cách để nhận được nhiều phần thưởng5Học một HàmCho trước một tập mẫu các cặp input/output, tìm một hàm làm tốt được công việc biểu diễn mối quan hệPhát âm: hàm ánh xạ từ ký tự sang âm thanhNém một quả bóng: hàm ánh xạ từ vị trí đích thành quỹ đạo cánh tayĐọc các chữ viết tay: hàm ánh xạ từ tập các điểm ảnh thành các ký tựChẩn đoán bệnh: hàm ánh xạ từ các kết quả xét nghiệm thành các loại bệnh tật6Các vấn đề để học một hàmghi nhớlấy trung bìnhtổng quát hoá7Bài toán ví dụKhi nào thì lái xe (drive or walk) ? Phụ thuộc vào:nhiệt độ (temperature)mưa tuyết dự kiến (expected precipitation)ngày trong tuần (day of the week)cô ấy có cần đi mua sắm trên đường về hay không (whether she needs to shop on the way home)cô ấy đang mặc gì (what’s she wearing)8Ghi nhớtempprecipdayshopclothes80nonesatnocasualwalk19snowmonyescasualdrive65nonetuesnocasualwalk19snowmonyescasual9Ghi nhớtempprecipdayshopclothes80nonesatnocasualwalk19snowmonyescasualdrive65nonetuesnocasualwalk19snowmonyescasualdrive10Lấy trung bìnhtempprecipdayshopclothes80nonesatnocasualwalk80nonesatnocasualdrive80nonesatnocasualdrive80nonesatnocasualwalk80nonesatnocasualwalk80nonesatnocasualwalk80nonesatnocasualwalk80nonesatnocasualXử lý nhiễu trong dữ liệu11Lấy trung bìnhtempprecipdayshopclothes80nonesatnocasualwalk80nonesatnocasualdrive80nonesatnocasualdrive80nonesatnocasualwalk80nonesatnocasualwalk80nonesatnocasualwalk80nonesatnocasualwalk80nonesatnocasualwalkXử lý nhiễu trong dữ liệu12Nhiễu cảm biếntempprecipdayshopclothes81nonesatnocasualwalk82nonesatnocasualwalk78nonesatnocasualdrive21nonesatnocasualdrive18nonesatnocasualdrive19nonesatnocasualdrive17nonesatnocasualdrive20nonesatnocasualXử lý nhiễu trong dữ liệu13Nhiễu cảm biếntempprecipdayshopclothes81nonesatnocasualwalk82nonesatnocasualwalk78nonesatnocasualdrive21nonesatnocasualdrive18nonesatnocasualdrive19nonesatnocasualdrive17nonesatnocasualdrive20nonesatnocasualdriveXử lý nhiễu trong dữ liệu14Tổng quát hoátempprecipdayshopclothes71nonefriyesformaldrive38nonesunyescasualwalk62rainwedsnocasualwalk93nonemonnocasualdrive55nonesatnoformaldrive80nonesatnocasualwalk19snowmonyescasualdrive65nonetuesnocasualwalkXử lý dữ liệu chưa từng gặp trước đây15Tổng quát hoátempprecipdayshopclothes71nonefriyesformaldrive38nonesunyescasualwalk62rainwedsnocasualwalk93nonemonnocasualdrive55nonesatnoformaldrive80nonesatnocasualwalk19snowmonyescasualdrive65nonetuesnocasualwalk58rainmonnocasualXử lý dữ liệu chưa từng gặp trước đây16Một ví dụ khác = 1 = 0f1f2f3f4y01011010111101101011010111101011010110100101011010 = 1 = 0f1f2f3f4y0101100011010110001101011000100001000010010100101017Một ví dụ khác (tt) = ? = ?f1F2f3f4y0101100011110110001101011100101001010010010101101018Naïve BayesDựa trên luật suy diễn xác suất của BayesCập nhật xác suất của giả thiết (hàm phân lớp) dựa trên chứng cứChọn giả thiết có xác suất lớn nhất sau khi tích hợp các chứng cứThuật toán đặc biệt hữu ích cho các lĩnh vực có nhiều đặc trưng19 Ví dụR1(1,1) = 1/5: tỷ lệ tất cả các mẫu dương (y=1) có đặc trưng 1 = 1R1(0,1) = 4/5: tỷ lệ tất cả các mẫu dương có đặc trưng 1 = 0f1f2f3f4y0110100111101010011100001100101101010000110101011020 Ví dụR1(1,1) = 1/5: tỷ lệ tất cả các mẫu dương (y=1) có đặc trưng 1 = 1R1(0,1) = 4/5: tỷ lệ tất cả các mẫu dương có đặc trưng 1 = 0R1(1,0) = 5/5: tỷ lệ tất cả các mẫu âm (y=0) có đặc trưng 1 = 1R1(0,0) = 0/5: tỷ lệ tất cả các mẫu âm có đặc trưng 1 = 0f1f2f3f4y0110100111101010011100001100101101010000110101011021 Ví dụR1(1,1) = 1/5 R1(0,1) = 4/5R1(1,0) = 5/5 R1(0,0) = 0/5R2(1,1) = 1/5 R2(0,1) = 4/5R2(1,0) = 2/5 R2(0,0) = 3/5R3(1,1) = 4/5 R3(0,1) = 1/5R3(1,0) = 1/5 R3(0,0) = 4/5R4(1,1) = 2/5 R4(0,1) = 3/5R4(1,0) = 4/5 R4(0,0) = 1/5f1f2f3f4y0110100111101010011100001100101101010000110101011022Dự đoánR1(1,1) = 1/5 R1(0,1) = 4/5R1(1,0) = 5/5 R1(0,0) = 0/5R2(1,1) = 1/5 R2(0,1) = 4/5R2(1,0) = 2/5 R2(0,0) = 3/5R3(1,1) = 4/5 R3(0,1) = 1/5R3(1,0) = 1/5 R3(0,0) = 4/5R4(1,1) = 2/5 R4(0,1) = 3/5R4(1,0) = 4/5 R4(0,0) = 1/5Mẫu mới x = S(1) = R1(0,1) * R2(0,1) * R3(1,1) * R4(1,1) = .205S(0) = R1(0,0) * R2(0,0) * R3(1,0) * R4(1,0) = 0Ta có S(1) > S(0), do đó dự đoán lớp 123Thuật toán HọcƯớc lượng từ dữ liệu, với mọi thuộc tính j, có miền giá trị Dj = {v1j, v2j,vnj}, tính 24Thuật toán Dự đoánCho một mẫu x mới, x = (x1, x2, xn), tínhXuất ra 1 nếu S(1) > S(0) 25Thuật toán Dự đoánCho một mẫu x mới, x = (x1, x2, xn), tínhXuất ra 1 nếu logS(1) > logS(0) Cộng log sẽ dễ dàng hơn nhiều so với nhân các số nhỏ26Tránh sự xuất hiện của 1 hoặc 0 trong xác suất Phép sửa lỗi Laplace27 Ví dụ với Sửa lỗiR1(1,1) = 2/7 R1(0,1) = 5/7R1(1,0) = 6/7 R1(0,0) = 1/7R2(1,1) = 2/7 R2(0,1) = 5/7R2(1,0) = 3/7 R2(0,0) = 4/7R3(1,1) = 5/7 R3(0,1) = 2/7R3(1,0) = 2/7 R3(0,0) = 5/7R4(1,1) = 3/7 R4(0,1) = 4/7R4(1,0) = 5/7 R4(0,0) = 2/7f1f2f3f4y0110100111101010011100001100101101010000110101011028Dự đoánR1(1,1) = 2/7 R1(0,1) = 5/7R1(1,0) = 6/7 R1(0,0) = 1/7R2(1,1) = 2/7 R2(0,1) = 5/7R2(1,0) = 3/7 R2(0,0) = 4/7R3(1,1) = 5/7 R3(0,1) = 2/7R3(1,0) = 2/7 R3(0,0) = 5/7R4(1,1) = 3/7 R4(0,1) = 4/7R4(1,0) = 5/7 R4(0,0) = 2/7Mẫu mới x = S(1) = R1(0,1) * R2(0,1) * R3(1,1) * R4(1,1) = .156S(0) = R1(0,0) * R2(0,0) * R3(1,0) * R4(1,0) = .017Ta có S(1) > S(0), do đó dự đoán lớp 129Điều cần nắmCác vấn đề của học máyHiểu và sử dụng được mô hình Naïve BayesNắm được các vấn đề của Naïve Bayes30

Các file đính kèm theo tài liệu này:

  • pptbaigianggioithieuhocmay_1291.ppt