Xây dựng hệ khai mỏ dữ liệu - Tài liệu, ebook, giáo trình

Khai mỏ dữ liệu (DataMining - DM) là một

phương pháp rút trích, truy dữ liệu để lấy

được thông tin mới (tiềm ẩn) hữu ích.

 DM là phần quan trọng trong hệ thống

khám phá tri thức (Knowledge discovery -KD).  Đóng góp cho DSS.

 Đóng góp lớn trong hệ thống quản lý tri

thức (Knowledge management system-KMS)

13 trang | Chia sẻ: Mr Hưng | Lượt xem: 1111 | Lượt tải: 0

Nội dung tài liệu Xây dựng hệ khai mỏ dữ liệu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

KHAI MỎ DỮ LIỆU Phan Hiền XÂY DỰNG HỆ KHÁI QUÁT  Khai mỏ dữ liệu (DataMining - DM) là một phương pháp rút trích, truy dữ liệu để lấy được thông tin mới (tiềm ẩn) hữu ích.  DM là phần quan trọng trong hệ thống khám phá tri thức (Knowledge discovery - KD).  Đóng góp cho DSS.  Đóng góp lớn trong hệ thống quản lý tri thức (Knowledge management system- KMS) KHÁI QUÁT  DM thường được chia theo 3 loại ◦ Khai mỏ dựa trên phương pháp thống kê (Statistical Methods) Hàm hồi quy, mô hình dự báo, mạng bayes, suy diễn mờ, ◦ Khai mỏ dựa trên phương pháp máy học (Machine Learning Technologies) Phân lớp, cụm, học, cây quyết định, mạng trí tuệ, ◦ Khai mỏ dựa trên phương pháp dữ liệu (Database Technologies) Luật kết hợp KHAI MỎ  Mục đích tìm ra tri thức mới.  Tri thức được mô tả đơn giản như luật “nếu thì ..”  Để có thể nhận định và rút ra các luật như vậy  Tập trung nhiều vào việc ◦ Phân lớp (classifying) : Cây quyết định,Rought Set (thêm độ đo tương tự nghĩa) ◦ Tiên đoán : Hồi quy, khử nhiễu,mô hình mờ, ◦ Xác định luật : Luật kết hợp trong dữ liệu, PHÂN LỚP & PHÂN CỤM  Phân lớp thường được hiểu như cơ chế học có giám sát. Ta cho một tập các dữ liệu huấn luyện mà ở đó đã có sự hỗ trợ phân nhóm, vấn đề là xác định nếu dữ liệu mới vào sẽ thuộc nhóm nào ?  Phân cụm thường được hiểu là cơ chế học không có giám sát. ◦ Không có sự hỗ trợ phân nhóm qua dữ liệu huấn luyện đoán số nhóm, tự xác định nhóm. QUÁ TRÌNH KHAI MỎ  Tiền xử lý dữ liệu ◦ Thu thập dữ liệu ◦ Làm sạch dữ liệu ◦ Chuyển thể ◦ Tinh giảm dữ liệu  Khai mỏ dữ liệu  Thể hiện lưu trử tri thức Làm sạch  Thay đổi các giá trị rổng  Bổ sung các giá trị thiếu  Xử lý dữ liệu cùng ý nghĩa nhưng khác tên (hay sai biệt chút về kiểu dữ liệu)  Gắn kết các dữ liệu gần với nhau Phân chia nhóm theo giá trị, theo viền 2,3,4,7,12,14,23,25 -> {2,3,4,7} {12,14} {23,25} -> {2,4,12,14} {3,7,23,25} Làm sạch Tất cả để giúp cho dữ liệu có thể sẳn sàng phục vụ cho việc khai mỏ dữ liệu được nhanh chóng, giúp cho việc cập nhập lại kho dữ liệu nhanh hơn. Chuyển thể  Làm gọn giá trị, chuyển dạng dữ liệu Ví dụ ◦ Tập {Gao, Duong, Muoi} có thể  {G,D,M} ◦ Tập {4,5,10,15} và miền giá trị phần tử thuộc [0,20], có thể chuyển thành {0.2, 0.25,0.1,0.75} ◦ Hay dùng ◦ . Tùy theo phương pháp khai mỏ dữ liệu  lựa chọn moimoimoi cucu cucu moi MinMinMax MinMax MinV V           )(* Tinh giảm dữ liệu  Lựa chọn thuộc tính (giảm chiều) ◦ Cần thiết cho khai mỏ theo 1 mục đích  Phân nhóm ◦ Dùng phân đoạn giá trị liên tục ◦ Dùng số mờ để phân đoạn ngữ nghĩa  Giảm số thể hiện dữ liệu, trợ giúp cho tính toán nhanh (Sampling) ◦ Cho tập các hóa đơn sản phẩm {1,A} {2,A} {3,B} {4,B} {5,B} {6,B} {7,B} {8,B} {9,C} {10,C} {11,C} {12,C}  {1,A} {4,B} {6,B} {7,B} {10,C} {12,C} PHƯƠNG PHÁP KHAI MỎ  Phương pháp dựa trên các mẫu dữ liệu xuất hiện thường xuyên và tạo luật ◦ Luật kết hợp dựa trên sự lặp lại ◦ Khai thác các sự kết hợp từ luật ràng buộc ◦ ..  Phương pháp dựa trên sự phân lớp và tạo luật ◦ Cây quyết định, Mạng Bayes ◦ Support vector machine (svm) ◦ .. LƯU TRỬ TRI THỨC  Tri thức thường được lưu dưới dạng các luật.  Được lưu kèm với mức độ tin tưởng.  Lượng hóa (số hóa) tri thức để giúp ích cho việc suy diễn trong mô hình hỗ trợ ra quyết định.  Có tồn tại sự mâu thuẩn giữa các luật với nhau không ????  Có tồn tại các quy luật hiếm hay không ??? VẤN ĐỀ QUAN TÂM  Ý nghĩa trong việc lựa chọn dữ liệu và thuộc tính cho khai mỏ.  Sau khi tiến hành khai mỏ dữ liệu ◦ Dữ liệu thêm vào có ý nghĩa gì ??? ◦ Sự cập nhập mới tiến hành thế nào ???  Quan tâm đến tốc độ khai mỏ dữ liệu ◦ Dữ liệu thì lớn ◦ Khả năng xử lý của 1 máy có hạn ◦ Giải pháp xử lý phân tán, song song.

Các file đính kèm theo tài liệu này:

3_khai_mo_du_lieu_3645.pdf