Nội dung
1. Công nghệ tri thức
2. Quản lý tri thức
3. Chuyển đổi meta-knowledge
4. Bài toán phát hiện tri thức từ dữ liệu
5. Một số nội dung liên quan
52 trang |
Chia sẻ: Thục Anh | Ngày: 12/05/2022 | Lượt xem: 708 | Lượt tải: 0
Bạn đang xem trước 20 trang nội dung tài liệu Bài giảng Khai phá dữ liệu - Chương 2: Phát hiện tri thức từ dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
cuối cùng cho công chúng
nói chung - các công ty phải sử dụng chiến lược khác nhau để nhận
ra giá trị lớn nhất của nó.
DM
DW
106
CKC - Codified Knowledge Claim: Yêu cầu tri thức hệ thống hóa
UKC - Unvalidated Knowledge Claim: Yêu cầu tri thức không hợp lệ
VKC - Validated Knowledge Claim: Yêu cầu tri thức hợp lệ
IK - Invalidated Knowledge: Tri thức hết hiệu lực
IKC - Invalidated Knowledge Claim: Yêu cầu tri thức hết hiệu lực
OK - Organizational Knowledge: Tri thức của tổ chức
2. Quản lý tri thức trong tổ chức
DM
DW
107
3. Chuyển đổi meta-knowledge
Hầu hết kỹ thuật khai phá dữ liệu chuyển hóa DKYK YKYK.
Cựu giám đốc điều hành HP, Lew Platt đã từng nói, "Nếu HP biết
được những gì HP biết, chúng tôi sẽ có ba lần lợi nhuận"
DM
DW
108
Tiếp cận truyền thống và tiếp cận KPDL
Tiếp cận truyền thống
Từ lý thuyết (hệ toán mệnh đề) phát triển các giả thuyết
kiểm định (chứng minh) giả thuyết. Ngô Bảo Châu: Bổ đề cơ bản
Tiếp cận khai phá dữ liệu
Từ dữ liệu phát hiện quan hệ phát triển giả thuyết Xây
dựng mô hình và kiểm định giả thuyết Đánh giá mô hình Sử
dụng mô hình.
DM
DW
109
4. Bài toán phát hiện tri thức
Nội dung cơ bản của KDD và DM
Khai phá dữ liệu và phát hiện tri thức trong CSDL là bài toán
“kinh doanh”, bài toán “chiến lược” mà không phải là bài
toán công nghệ.
Khi nào nên khai phá dữ liệu
Ví dụ: Chương 3 sách Data Mining: Methods and Tools, 1998.
DM
DW
110
Mô hình vòng khai phá dữ liệu DN’98
Mô hình năm 1998
DM
DW
111
Mô hình vòng khai phá dữ liệu DN’98
• Xác định mục tiêu kinh doanh. Bắt đầu với nhiều nhất ba mục
tiêu kinh doanh để nghiên cứu có tính tập trung,
• Định danh dữ liệu doanh nghiệp chứa thông tin liên quan tới
các mục tiêu kinh doanh đã được xác định,
• Khởi tạo tập dữ liệu mẫu chứa mọi thông tin liên quan,
• Định danh các chuyên gia miền lĩnh vực làm việc với nhóm thực
nghiệm trong hệ thống phát hiện tri thức,
• Khởi tạo dữ liệu sao cho năng lực tính toán làm chủ được dữ
liệu được khảo sát và thích hợp với công cụ phát hiện tri thức
phù hợp mục tiêu kinh doanh,
• Chuyên gia miền ứng dụng làm việc với chuyên gia khai phá dữ
liệu xác nhận bộ công cụ là thích hợp nhất với mục tiêu kinh
doanh,
• Trích chọn quan hệ và mẫu từ tập dữ liệu kinh doanh,
• Chuyên gia miền ứng dụng làm việc với chuyên gia khai phá dữ
liệu để xác định các quan hệ và mẫu thực sự liên quan tới mục
tiêu kinh doanh.
DM
DW
112
Các pha trong mô hình quy trình CRISP-DM (Cross-Industry
Standard Process for Data Mining). “Hiểu kinh doanh”: hiểu bài
toán và đánh giá
Thi hành chỉ sau khi tham chiếu kết quả với “hiểu kinh doanh”
CRISP-DM 2.0 SIG WORKSHOP, LONDON, 18/01/2007
Nguồn: (13/02/2011)
Chuẩn công nghiệp khai phá dữ liệu CRISP-DM
DM
DW
113
Chuẩn công nghiệp khai phá dữ liệu CRISP-DM
• Hiểu kinh doanh (Business understanding)
tập trung vào hiểu biết mục tiêu/yêu cầu từ góc độ kinh
doanh
chuyển đổi tri thức này thành
một định nghĩa bài toán khai thác dữ liệu
một kế hoạch sơ bộ được thiết kế để đạt được các mục
tiêu.
• Hiểu dữ liệu (Data understanding)
Với một tập dữ liệu ban đầu: tiến hành hoạt động “làm
quen” dữ liệu, xác định các vấn đề chất lượng dữ liệu,
khám phá hiểu biết ban đầu tới tập dữ liệu /phát hiện các
tập con dữ liệu thú vị nhằm hình thành giả thuyết cho
thông tin ẩn.
Tri thức kinh doanh từ giai đoạn hiểu kinh doanh định
hướng hiểu dữ liệu phân tích dữ liệu để hiểu dữ liệu có
thể phản hồi, phối hợp với nội dung hiểu kinh doanh làm
rõ bài toán khai phá dữ liệu, mục tiêu và kế hoạch thực
hiện.
DM
DW
114
Chuẩn công nghiệp khai phá dữ liệu CRISP-DM
• Chuẩn bị dữ liệu (Data preparation)
gồm mọi các hoạt động nhằm xây dựng các tập dữ
liệu cuối làm đầu vào cho công cụ mô hình hóa.
gồm các hoạt động lập bảng, ghi lại và lựa chọn
thuộc tính cũng như chuyển đổi, và làm sạch dữ
liệu cho các công cụ mô hình hóa.
thực hiện nhiều lần và không theo một thứ tự quy
định.
DM
DW
115
Chuẩn công nghiệp khai phá dữ liệu CRISP-DM
• Mô hình hóa (Modeling)
Các kỹ thuật mô hình khác nhau được lựa chọn và áp
dụng.
Xác định tham số mô hình nhằm đạt tới giá trị tối ưu.
Một số kỹ thuật được sử dụng
thực hiện lặp một số lần mô hình hóa và chuẩn bị dữ
liệu nhằm đạt được mô hình có kết quả tối ưu.
• Đánh giá (Evaluation)
Tìm ra (một số) mô hình kết quả với mục tiêu chất lượng
cao theo góc độ phân tích dữ liệu.
Đánh giá mô hình kết quả kỹ lưỡng và xem xét các bước
đã được thực hiện để xây dựng mô hình niềm tin
chắc chắn rằng mô hình kết quả đạt được các mục tiêu
kinh doanh theo đúng cách thức.
DM
DW
116
Một mô hình khai phá dữ liệu DN’00
Một mô hình KDD năm 2000 [Nac00]
DM
DW
117
Mô hình KPDL và mô hình kinh doanh’08
Wang, H. and S. Wang (2008). A knowledge management approach
to data mining process for business intelligence, Industrial
Management & Data Systems, 2008. 108(5): 622-634. [Oha09]
DM
DW
118
Một mô hình KPDL hướng BI
Mô hình phát triển tri thức hướng thông minh doanh nghiệp, 2009
[HF09]
DM
DW
119
Tương tác người-máy trong KPDL’10
Mô hình quá trình C-KDD [Pan10]
DM
DW
120
Mô hình KPDL hướng ứng dụng
Mô hình quá trình khai phá dữ liệu hướng miền ứng dụng [CYZ10]
DM
DW
121
Mô hình KPDL hướng ứng dụng
P1. Hiểu vấn đề (định danh và xác định các vấn đề, bao gồm cả phạm vi
của nó và những thách thức ...);
P2. Phân tích ràng buộc (định danh ràng buộc xung quanh các vấn đề ở
trên, từ dữ liệu, miền ứng dụng, tính thú vị và cách phân bố);
P3. Định nghĩa các mục tiêu phân tích, và xây dựng đặc trưng (định
nghĩa mục tiêu khai phá dữ liệu, và các đặc trưng được lựa chọn phù
hợp hoặc xây dựng để đạt được các mục tiêu);
P4. Tiền xử lý dữ liệu (trích chọn, chuyển đổi và tải dữ liệu, nói riêng,
chuẩn bị dữ liệu chẳng hạn như xử lý dữ liệu mất tích và riêng tư);
hoặc
P5. Lựa chọn phương pháp và mô hình hóa (lựa chọn được các mô hình
và phương pháp thích hợp để đạt được các mục tiêu trên);
P05. Mô hình hóa chuyên sâu (áp dụng mô hình hóa chuyên sâu bằng
cách sử dụng nhiều mô hình hiệu quả tiết lộ cốt lõi của vấn đề, hoặc
dụng khai phá đa bước, khai phá kết hợp);
DM
DW
122
Mô hình KPDL hướng ứng dụng
P6. Phân tích và đánh giá kết quả chung ban đầu (phân tích /đánh giá
các phát hiện ban đầu);
P7. Là hoàn toàn hợp lý khi mỗi giai đoạn từ P1 có thể được lặp đi lặp lại
thông qua phân tích ràng buộc và tương tác với các chuyên gia miền
ứng dụng theo phương thức quay lui và xem xét;
P07. Khai phá chuyên sâu về kết quả chung ban đầu khi áp dụng;
P8. Đo lường và nâng cao khả năng hành động (đánh giá tính thú vị
theo quan điểm cả về kỹ thuật và kinh doanh, và tăng cường hiệu
suất bằng cách áp dụng phương pháp hiệu quả hơn).
P9. Thực hiện qua lại giữa P7 và P8;
P10. Hậu xử lý kết quả (hậu phân tích hoặc hậu khai phá dữ liệu các kết
quả ban đầu);
P11. Xem xét lại các giai đoạn từ P1 có thể được đòi hỏi;
P12. Triển khai (triển khai các kết quả vào các ngành kinh doanh);
P13. Cung cấp tri thức và báo cáo tổng hợp để ra quyết định thông minh
(tổng hợp phát hiện cuối cùng thành báo cáo ra quyết định sẽ được
chuyển giao cho người kinh doanh).
DM
DW
123
5. Một số vấn đề liên quan
Đô đo “tri thức”
Tri thức “mẫu có giá trị”
Mỗi bài toán KPDL thường đi kèm độ đo: phân lớp có độ đo đánh
giá (chính xác + hồi tưởng, chính xác + lỗi), phân cụm: đo theo
từng phương pháp, luật kết hợp (độ hỗ trợ + độ tin cậy)
Độ đo là nội dung nghiên cứu trong KPDL
Lựa chọn thuật toán
Không có thuật toán “tốt nhất” cho mọi bài toán khai phá dữ liệu.
Kết hợp giải pháp
Vai trò dữ liệu mẫu
Dữ liệu học, dữ liệu kiểm tra.
Vai trò của người sử dụng.
Các file đính kèm theo tài liệu này:
- bai_giang_khai_pha_du_lieu_chuong_2_phat_hien_tri_thuc_tu_du.pdf