Khai mỏ dữ liệu (DataMining - DM) là một
phương pháp rút trích, truy dữ liệu để lấy
được thông tin mới (tiềm ẩn) hữu ích.
DM là phần quan trọng trong hệ thống
khám phá tri thức (Knowledge discovery -KD). Đóng góp cho DSS.
Đóng góp lớn trong hệ thống quản lý tri
thức (Knowledge management system-KMS)
13 trang |
Chia sẻ: Mr Hưng | Lượt xem: 941 | Lượt tải: 0
Nội dung tài liệu Xây dựng hệ khai mỏ dữ liệu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
KHAI MỎ DỮ LIỆU
Phan Hiền
XÂY DỰNG HỆ
KHÁI QUÁT
Khai mỏ dữ liệu (DataMining - DM) là một
phương pháp rút trích, truy dữ liệu để lấy
được thông tin mới (tiềm ẩn) hữu ích.
DM là phần quan trọng trong hệ thống
khám phá tri thức (Knowledge discovery -
KD). Đóng góp cho DSS.
Đóng góp lớn trong hệ thống quản lý tri
thức (Knowledge management system-
KMS)
KHÁI QUÁT
DM thường được chia theo 3 loại
◦ Khai mỏ dựa trên phương pháp thống kê
(Statistical Methods)
Hàm hồi quy, mô hình dự báo, mạng bayes, suy diễn mờ,
◦ Khai mỏ dựa trên phương pháp máy học
(Machine Learning Technologies)
Phân lớp, cụm, học, cây quyết định, mạng trí tuệ,
◦ Khai mỏ dựa trên phương pháp dữ liệu
(Database Technologies)
Luật kết hợp
KHAI MỎ
Mục đích tìm ra tri thức mới.
Tri thức được mô tả đơn giản như luật
“nếu thì ..”
Để có thể nhận định và rút ra các luật như
vậy Tập trung nhiều vào việc
◦ Phân lớp (classifying) : Cây quyết định,Rought Set
(thêm độ đo tương tự nghĩa)
◦ Tiên đoán : Hồi quy, khử nhiễu,mô hình mờ,
◦ Xác định luật : Luật kết hợp trong dữ liệu,
PHÂN LỚP & PHÂN CỤM
Phân lớp thường được hiểu như cơ chế
học có giám sát. Ta cho một tập các dữ
liệu huấn luyện mà ở đó đã có sự hỗ trợ
phân nhóm, vấn đề là xác định nếu dữ
liệu mới vào sẽ thuộc nhóm nào ?
Phân cụm thường được hiểu là cơ chế
học không có giám sát.
◦ Không có sự hỗ trợ phân nhóm qua dữ
liệu huấn luyện đoán số nhóm, tự xác
định nhóm.
QUÁ TRÌNH KHAI MỎ
Tiền xử lý dữ liệu
◦ Thu thập dữ liệu
◦ Làm sạch dữ liệu
◦ Chuyển thể
◦ Tinh giảm dữ liệu
Khai mỏ dữ liệu
Thể hiện lưu trử tri thức
Làm sạch
Thay đổi các giá trị rổng
Bổ sung các giá trị thiếu
Xử lý dữ liệu cùng ý nghĩa nhưng khác
tên (hay sai biệt chút về kiểu dữ liệu)
Gắn kết các dữ liệu gần với nhau
Phân chia nhóm theo giá trị, theo viền
2,3,4,7,12,14,23,25
-> {2,3,4,7} {12,14} {23,25}
-> {2,4,12,14} {3,7,23,25}
Làm sạch
Tất cả để giúp cho dữ liệu có thể sẳn
sàng phục vụ cho việc khai mỏ dữ liệu
được nhanh chóng, giúp cho việc cập
nhập lại kho dữ liệu nhanh hơn.
Chuyển thể
Làm gọn giá trị, chuyển dạng dữ liệu
Ví dụ
◦ Tập {Gao, Duong, Muoi} có thể {G,D,M}
◦ Tập {4,5,10,15} và miền giá trị phần tử thuộc
[0,20], có thể chuyển thành {0.2,
0.25,0.1,0.75}
◦ Hay dùng
◦ .
Tùy theo phương pháp khai mỏ dữ liệu lựa
chọn
moimoimoi
cucu
cucu
moi MinMinMax
MinMax
MinV
V
)(*
Tinh giảm dữ liệu
Lựa chọn thuộc tính (giảm chiều)
◦ Cần thiết cho khai mỏ theo 1 mục đích
Phân nhóm
◦ Dùng phân đoạn giá trị liên tục
◦ Dùng số mờ để phân đoạn ngữ nghĩa
Giảm số thể hiện dữ liệu, trợ giúp cho tính
toán nhanh (Sampling)
◦ Cho tập các hóa đơn sản phẩm
{1,A} {2,A} {3,B} {4,B} {5,B} {6,B} {7,B} {8,B} {9,C} {10,C} {11,C} {12,C}
{1,A} {4,B} {6,B} {7,B} {10,C} {12,C}
PHƯƠNG PHÁP KHAI MỎ
Phương pháp dựa trên các mẫu dữ liệu
xuất hiện thường xuyên và tạo luật
◦ Luật kết hợp dựa trên sự lặp lại
◦ Khai thác các sự kết hợp từ luật ràng buộc
◦ ..
Phương pháp dựa trên sự phân lớp và
tạo luật
◦ Cây quyết định, Mạng Bayes
◦ Support vector machine (svm)
◦ ..
LƯU TRỬ TRI THỨC
Tri thức thường được lưu dưới dạng các
luật.
Được lưu kèm với mức độ tin tưởng.
Lượng hóa (số hóa) tri thức để giúp ích
cho việc suy diễn trong mô hình hỗ trợ ra
quyết định.
Có tồn tại sự mâu thuẩn giữa các luật
với nhau không ????
Có tồn tại các quy luật hiếm hay không
???
VẤN ĐỀ QUAN TÂM
Ý nghĩa trong việc lựa chọn dữ liệu và
thuộc tính cho khai mỏ.
Sau khi tiến hành khai mỏ dữ liệu
◦ Dữ liệu thêm vào có ý nghĩa gì ???
◦ Sự cập nhập mới tiến hành thế nào ???
Quan tâm đến tốc độ khai mỏ dữ liệu
◦ Dữ liệu thì lớn
◦ Khả năng xử lý của 1 máy có hạn
◦ Giải pháp xử lý phân tán, song song.
Các file đính kèm theo tài liệu này:
- 3_khai_mo_du_lieu_3645.pdf