Bài giảng Khai phá dữ liệu - Chương 2: Phát hiện tri thức từ dữ liệu

Nội dung

1. Công nghệ tri thức

2. Quản lý tri thức

3. Chuyển đổi meta-knowledge

4. Bài toán phát hiện tri thức từ dữ liệu

5. Một số nội dung liên quan

pdf52 trang | Chia sẻ: Thục Anh | Ngày: 12/05/2022 | Lượt xem: 680 | Lượt tải: 0download
Bạn đang xem trước 20 trang nội dung tài liệu Bài giảng Khai phá dữ liệu - Chương 2: Phát hiện tri thức từ dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
cuối cùng cho công chúng nói chung - các công ty phải sử dụng chiến lược khác nhau để nhận ra giá trị lớn nhất của nó. DM DW 106  CKC - Codified Knowledge Claim: Yêu cầu tri thức hệ thống hóa  UKC - Unvalidated Knowledge Claim: Yêu cầu tri thức không hợp lệ  VKC - Validated Knowledge Claim: Yêu cầu tri thức hợp lệ  IK - Invalidated Knowledge: Tri thức hết hiệu lực  IKC - Invalidated Knowledge Claim: Yêu cầu tri thức hết hiệu lực  OK - Organizational Knowledge: Tri thức của tổ chức 2. Quản lý tri thức trong tổ chức DM DW 107 3. Chuyển đổi meta-knowledge  Hầu hết kỹ thuật khai phá dữ liệu chuyển hóa DKYK  YKYK.  Cựu giám đốc điều hành HP, Lew Platt đã từng nói, "Nếu HP biết được những gì HP biết, chúng tôi sẽ có ba lần lợi nhuận" DM DW 108 Tiếp cận truyền thống và tiếp cận KPDL  Tiếp cận truyền thống  Từ lý thuyết (hệ toán mệnh đề)  phát triển các giả thuyết  kiểm định (chứng minh) giả thuyết. Ngô Bảo Châu: Bổ đề cơ bản  Tiếp cận khai phá dữ liệu  Từ dữ liệu  phát hiện quan hệ  phát triển giả thuyết  Xây dựng mô hình và kiểm định giả thuyết  Đánh giá mô hình  Sử dụng mô hình. DM DW 109 4. Bài toán phát hiện tri thức  Nội dung cơ bản của KDD và DM  Khai phá dữ liệu và phát hiện tri thức trong CSDL là bài toán “kinh doanh”, bài toán “chiến lược” mà không phải là bài toán công nghệ.  Khi nào nên khai phá dữ liệu  Ví dụ: Chương 3 sách Data Mining: Methods and Tools, 1998. DM DW 110 Mô hình vòng khai phá dữ liệu DN’98 Mô hình năm 1998 DM DW 111 Mô hình vòng khai phá dữ liệu DN’98 • Xác định mục tiêu kinh doanh. Bắt đầu với nhiều nhất ba mục tiêu kinh doanh để nghiên cứu có tính tập trung, • Định danh dữ liệu doanh nghiệp chứa thông tin liên quan tới các mục tiêu kinh doanh đã được xác định, • Khởi tạo tập dữ liệu mẫu chứa mọi thông tin liên quan, • Định danh các chuyên gia miền lĩnh vực làm việc với nhóm thực nghiệm trong hệ thống phát hiện tri thức, • Khởi tạo dữ liệu sao cho năng lực tính toán làm chủ được dữ liệu được khảo sát và thích hợp với công cụ phát hiện tri thức phù hợp mục tiêu kinh doanh, • Chuyên gia miền ứng dụng làm việc với chuyên gia khai phá dữ liệu xác nhận bộ công cụ là thích hợp nhất với mục tiêu kinh doanh, • Trích chọn quan hệ và mẫu từ tập dữ liệu kinh doanh, • Chuyên gia miền ứng dụng làm việc với chuyên gia khai phá dữ liệu để xác định các quan hệ và mẫu thực sự liên quan tới mục tiêu kinh doanh. DM DW 112  Các pha trong mô hình quy trình CRISP-DM (Cross-Industry Standard Process for Data Mining). “Hiểu kinh doanh”: hiểu bài toán và đánh giá  Thi hành chỉ sau khi tham chiếu kết quả với “hiểu kinh doanh”  CRISP-DM 2.0 SIG WORKSHOP, LONDON, 18/01/2007  Nguồn: (13/02/2011) Chuẩn công nghiệp khai phá dữ liệu CRISP-DM DM DW 113 Chuẩn công nghiệp khai phá dữ liệu CRISP-DM • Hiểu kinh doanh (Business understanding)  tập trung vào hiểu biết mục tiêu/yêu cầu từ góc độ kinh doanh  chuyển đổi tri thức này thành  một định nghĩa bài toán khai thác dữ liệu  một kế hoạch sơ bộ được thiết kế để đạt được các mục tiêu. • Hiểu dữ liệu (Data understanding)  Với một tập dữ liệu ban đầu: tiến hành hoạt động “làm quen” dữ liệu, xác định các vấn đề chất lượng dữ liệu,  khám phá hiểu biết ban đầu tới tập dữ liệu /phát hiện các tập con dữ liệu thú vị nhằm hình thành giả thuyết cho thông tin ẩn.  Tri thức kinh doanh từ giai đoạn hiểu kinh doanh định hướng hiểu dữ liệu  phân tích dữ liệu để hiểu dữ liệu có thể phản hồi, phối hợp với nội dung hiểu kinh doanh  làm rõ bài toán khai phá dữ liệu, mục tiêu và kế hoạch thực hiện. DM DW 114 Chuẩn công nghiệp khai phá dữ liệu CRISP-DM • Chuẩn bị dữ liệu (Data preparation)  gồm mọi các hoạt động nhằm xây dựng các tập dữ liệu cuối làm đầu vào cho công cụ mô hình hóa.  gồm các hoạt động lập bảng, ghi lại và lựa chọn thuộc tính cũng như chuyển đổi, và làm sạch dữ liệu cho các công cụ mô hình hóa.  thực hiện nhiều lần và không theo một thứ tự quy định. DM DW 115 Chuẩn công nghiệp khai phá dữ liệu CRISP-DM • Mô hình hóa (Modeling)  Các kỹ thuật mô hình khác nhau được lựa chọn và áp dụng.  Xác định tham số mô hình nhằm đạt tới giá trị tối ưu.  Một số kỹ thuật được sử dụng  thực hiện lặp một số lần mô hình hóa và chuẩn bị dữ liệu nhằm đạt được mô hình có kết quả tối ưu. • Đánh giá (Evaluation)  Tìm ra (một số) mô hình kết quả với mục tiêu chất lượng cao theo góc độ phân tích dữ liệu.  Đánh giá mô hình kết quả kỹ lưỡng và xem xét các bước đã được thực hiện để xây dựng mô hình  niềm tin chắc chắn rằng mô hình kết quả đạt được các mục tiêu kinh doanh theo đúng cách thức. DM DW 116 Một mô hình khai phá dữ liệu DN’00  Một mô hình KDD năm 2000 [Nac00] DM DW 117 Mô hình KPDL và mô hình kinh doanh’08  Wang, H. and S. Wang (2008). A knowledge management approach to data mining process for business intelligence, Industrial Management & Data Systems, 2008. 108(5): 622-634. [Oha09] DM DW 118 Một mô hình KPDL hướng BI  Mô hình phát triển tri thức hướng thông minh doanh nghiệp, 2009 [HF09] DM DW 119 Tương tác người-máy trong KPDL’10 Mô hình quá trình C-KDD [Pan10] DM DW 120 Mô hình KPDL hướng ứng dụng  Mô hình quá trình khai phá dữ liệu hướng miền ứng dụng [CYZ10] DM DW 121 Mô hình KPDL hướng ứng dụng P1. Hiểu vấn đề (định danh và xác định các vấn đề, bao gồm cả phạm vi của nó và những thách thức ...); P2. Phân tích ràng buộc (định danh ràng buộc xung quanh các vấn đề ở trên, từ dữ liệu, miền ứng dụng, tính thú vị và cách phân bố); P3. Định nghĩa các mục tiêu phân tích, và xây dựng đặc trưng (định nghĩa mục tiêu khai phá dữ liệu, và các đặc trưng được lựa chọn phù hợp hoặc xây dựng để đạt được các mục tiêu); P4. Tiền xử lý dữ liệu (trích chọn, chuyển đổi và tải dữ liệu, nói riêng, chuẩn bị dữ liệu chẳng hạn như xử lý dữ liệu mất tích và riêng tư); hoặc P5. Lựa chọn phương pháp và mô hình hóa (lựa chọn được các mô hình và phương pháp thích hợp để đạt được các mục tiêu trên); P05. Mô hình hóa chuyên sâu (áp dụng mô hình hóa chuyên sâu bằng cách sử dụng nhiều mô hình hiệu quả tiết lộ cốt lõi của vấn đề, hoặc dụng khai phá đa bước, khai phá kết hợp); DM DW 122 Mô hình KPDL hướng ứng dụng P6. Phân tích và đánh giá kết quả chung ban đầu (phân tích /đánh giá các phát hiện ban đầu); P7. Là hoàn toàn hợp lý khi mỗi giai đoạn từ P1 có thể được lặp đi lặp lại thông qua phân tích ràng buộc và tương tác với các chuyên gia miền ứng dụng theo phương thức quay lui và xem xét; P07. Khai phá chuyên sâu về kết quả chung ban đầu khi áp dụng; P8. Đo lường và nâng cao khả năng hành động (đánh giá tính thú vị theo quan điểm cả về kỹ thuật và kinh doanh, và tăng cường hiệu suất bằng cách áp dụng phương pháp hiệu quả hơn). P9. Thực hiện qua lại giữa P7 và P8; P10. Hậu xử lý kết quả (hậu phân tích hoặc hậu khai phá dữ liệu các kết quả ban đầu); P11. Xem xét lại các giai đoạn từ P1 có thể được đòi hỏi; P12. Triển khai (triển khai các kết quả vào các ngành kinh doanh); P13. Cung cấp tri thức và báo cáo tổng hợp để ra quyết định thông minh (tổng hợp phát hiện cuối cùng thành báo cáo ra quyết định sẽ được chuyển giao cho người kinh doanh). DM DW 123 5. Một số vấn đề liên quan  Đô đo “tri thức”  Tri thức  “mẫu có giá trị”  Mỗi bài toán KPDL thường đi kèm độ đo: phân lớp có độ đo đánh giá (chính xác + hồi tưởng, chính xác + lỗi), phân cụm: đo theo từng phương pháp, luật kết hợp (độ hỗ trợ + độ tin cậy)  Độ đo là nội dung nghiên cứu trong KPDL  Lựa chọn thuật toán  Không có thuật toán “tốt nhất” cho mọi bài toán khai phá dữ liệu.  Kết hợp giải pháp  Vai trò dữ liệu mẫu  Dữ liệu học, dữ liệu kiểm tra.  Vai trò của người sử dụng.

Các file đính kèm theo tài liệu này:

  • pdfbai_giang_khai_pha_du_lieu_chuong_2_phat_hien_tri_thuc_tu_du.pdf