Kinh doanh
- Phân tích dữ liệu bán
hàng và tiếp thị
- Phân tích đầu tư
- Chứng khoán
- Xác định gian lận
Sản xuất
- Điều khiển và lập lịch
- Quản trị mạng lưới
- Phân tích kết quả thử nghiệm
Khoa học
- Không gian
- Sinh học
- Địa lý
- etc.
Y học
- Bệnh lý
- Sinh học
5 trang |
Chia sẻ: thienmai908 | Lượt xem: 1380 | Lượt tải: 0
Nội dung tài liệu Khai phá dữ liệu (Datamining), để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
LOGO
11/03/2010
Khai phá dữ liệu
(Datamining)
Phan Mạnh Thường
3/11/2010 www.lhu.edu.vn
Thông tin về môn học
• Số tiết lý thuyết : 45
• Số tiết thực hành : 30
Thời lượng
• Nắm vững kiến thức cơ sở dữ liệu
• SQL Server và ngôn ngữ T-SQL
• Lập trình Visual.NET
Điều kiện
Cung cấp các kiến thức về
• Các phương pháp khai phá dữ liệu
• Nhà kho dữ liệu
Mục tiêu
3/11/2010 www.lhu.edu.vn
Thông tin về môn học
1. Đỗ Phúc, Giáo trình Khai thác dữ liệu, ĐHQG TPHCM, 2005
2. Hồ Tú Bảo, Introduction to knowledge discovery and data mining, IOIT, 2001.
3. Morgan Kaufman, Data Mining: Concepts and Techniques, Morgan
Kaufmann Publishers, 2002
4. Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques,
University of Illinois, Morgan Kaufmann Publishers, 2002
5. John Wang, Data mining: opportunities and challenges, Idea Group, 2003
6. ZhaoHui Tang & Jamie MacLennan, Data Mining with SQL Server 2005,
Wiley Publishing, 2005
Tài liệu tham khảo
3/11/2010 www.lhu.edu.vn
Nội dung môn học
Chương 1: Tổng quan về khai phá dữ liệu
Chương 2: Luật kết hợp2
Chương 3: Phân lớp dữ liệu3
Chương 4: Chuỗi phổ biến4
Chương 5: Gom cụm dữ liệu5
Chương 6: Nhà kho dữ liệu5
3/11/2010 www.lhu.edu.vn
Thông tin về môn học
Gồm 3 cột điểm:
• Điểm chuyên cần (10%): điểm danh buổi học
(Lưu ý: nghỉ quá 30% số tiết bị cấm thi)
• Điểm kiểm tra (30%): bài tập, seminar
• Điểm thi (60%): làm bài thi trên máy
Đánh giá Tổng quan
Chương 1
Các kỹ thuật khai phá4
Các khái niệm cơ bản1
Các giai đoạn khai phá tri thức2
Ứng dụng của khai phá dữ liệu3
Nội dung
3/11/2010 www.lhu.edu.vn
Chương 1 Tổng quan
Dữ liệu (Data): có thể xem là chuỗi các bit,
là số, ký tự…mà chúng ta tập hợp hàng
ngày trong công việc
Thông tin (Information): là tập hợp của
những mảnh dữ liệu đã được chắt lọc dùng
mô tả, giải thích đặc tính của một đối tượng
nào đó
Tri thức (Knowledge): là tập hợp những
thông tin có liên hệ với nhau, có thể xem tri
thức là sự kết tinh từ dữ liệu. Tri thức thể
hiện tư duy của con người về một vấn đề
Các khái niệm cơ bản
3/11/2010 www.lhu.edu.vn
Chương 1 Tổng quan
Khám phá tri thức từ cơ sở dữ liệu:
(Knowledge Discovery in Databases – KDD)
“KDD is the automatic extraction of non-obvious,
hidden knowledge from large volumes of data.”
Fayyad, Platetsky-Shapiro, Smyth (1996)
“Khám phá tri thức từ cơ sở dữ liệu là quy trình bao
gồm nhiều công đoạn như: xác định vấn đề, tập hợp
và chọn lọc dữ liệu, khai thác dữ liệu, đánh giá kết
quả, giải thích dữ liệu, áp dụng tri thức vào thực tế
Các khái niệm cơ bản
3/11/2010 www.lhu.edu.vn
Chương 1 Tổng quan
Nhà bác học nổi tiếng Karan Sing đã từng nói rằng
“Chúng ta đang ngập chìm trong biển thông tin nhưng lại
đang khát tri thức”.
Dữ liệu được thu thập hàng
ngày là rất lớn
Các CSDL khổng lồ
Dữ liệu từ Internet
Theo các báo cáo của IBM,
chỉ có 80% dữ liệu được
khai thác, 20% còn lại ẩn
trong các Database là những
tri thức quý giá
Tại sao phải khai phá dữ liệu ?
3/11/2010 www.lhu.edu.vn
Chương 1 Tổng quan
Khai phá dữ liệu là gì?
Khai phá dữ liệu (Datamining) là một bước trong
quy trình khám phá tri thức, nhằm:
Rút trích thông tin hữu ích, chưa biết, tiềm ẩn trong
khối dữ liệu lớn
Phân tích dữ liệu bán tự động
Giải thích dữ liệu trên các tập dữ liệu lớn .
3/11/2010 www.lhu.edu.vn
Chương 1 Tổng quan
Lợi ích của khai phá dữ liệu
EDP: Electronic Data ProcessingMIS: Management Information SystemsDSS: Decision Support Systems
Số lượng
Giá trị
MIS
DSS
EDP
3/11/2010 www.lhu.edu.vn
Chương 1 Tổng quan
Quy trình khai phá dữ liệu
Nghiên cứu lĩnh vựcNghiên cứu lĩnh vực
Rút gọn / chiềuRút gọn / chiều
Tạo tập dữ liệu đầu vàoTạo tập dữ liệu đầu vào
Tiền xử lý/ làm sạch, mã hóaTiền xử lý/ làm sạch, mã hóa
Chọn tác vụ Khai thác dữ liệuChọn tác vụ Khai thác dữ liệu
, ,
t / it / ic
i lĩ
li
3/11/2010 www.lhu.edu.vn
Chương 1 Tổng quan
Quy trình khai phá dữ liệu
Chọn các thuật giải KTDLChọn các thuật giải TDL
Biểu diễn tri thứcBiểu diễn tri thức
KTDL: Tìmkiếm tri thứcTDL: Tìmkiếm tri thức
Đánh giá mẫu tìm đượcĐánh giá mẫu tìm được
Sử dụng các tri thức vừa khám pháSử dụng các tri thức vừa khám phá
3/11/2010 www.lhu.edu.vn
Chương 1 Tổng quan
Quy trình khai phá dữ liệu
Increasing potential
to support
business decisions End User
Business
Analyst
Data
Analyst
DBA
Making
Decisions
Data Presentation
Visualization Techniques
Data Mining
Information Discovery
Data Exploration
OLAP, MDA
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
3/11/2010 www.lhu.edu.vn
Chương 1 Tổng quan
Từ dữ liệu đến quyết định
Dữ liệu
• Customer data
• Store data
• Demographical Data
• Geographical data
Thông tin
• X lives in Z
• S is Y years old
• X and S moved
• W has money in Z
Tri thức
• A quantity Y of product A is used in
region Z
• Customers of class Y use x% of C
during period D
Quyết định
• Promote product A in region Z.
• Mail ads to families of profile P
• Cross-sell service B to clients C
3/11/2010 www.lhu.edu.vn
Chương 1 Tổng quan
Các ứng dụng
Kinh doanh
- Phân tích dữ liệu bán
hàng và tiếp thị
- Phân tích đầu tư
- Chứng khoán
- Xác định gian lận
Sản xuất
- Điều khiển và lập lịch
- Quản trị mạng lưới
- Phân tích kết quả thử nghiệm
Khoa học - Không gian
- Sinh học
- Địa lý
- etc.
Y học
- Bệnh lý
- Sinh học
3/11/2010 www.lhu.edu.vn
Chương 1 Tổng quan
Các kỹ thuật sử dụng
Phân lớp
Mẫu tuần tự
?
Nhà kho- OLAP
Gom cụm
Luật kết hợpDự đoán
Tìm các đặc trưng của lớp
các đối tượng và sử dụng
để phân lớp dữ liệu mới.
Dữ đoán dữ liệu tương
lai dựa trên dữ liệu
quá khứ.
Xác định các cụm
tiềm ẩn trong các
tập đối tượng chưa
được xếp lớp.
Xác định trật tự dữ
liệu, cấu trúc lưu
trữ phù hợp với tác
vụ khai phá
Tìm các mẫu phổ biến
từ dữ liệu và mối
quan hệ của các đối
tượng dữ liệu.
Khám phá các
mẫu tín hiệu phổ
biến nhất từ dữ
liệu các sự kiện
3/11/2010 www.lhu.edu.vn
Chương 1 Tổng quan
Kết luận
KPDL: tiến trình khám phá bán tự động các thông
tin, mẫu có ích từ CSDL lớn
Các bước của KDD
Tiền xử lý
KTDL( data mining tasks)
Hậu xử lý
Các quan niệm, khía cạnh …
CSDL (quan hệ, hướng đối tượng, không gian, WWW, …)
Tri thức (đặc trưng, gom cụm, kết hợp, …)
Kỹ thuật (máy học, thống kê, trực quan hóa, …)
Ứng dụng (bán lẻ, điện thoại, khai thác Web …)
Các file đính kèm theo tài liệu này:
- udafyuawkhoahockithuatmaytinh (30).pdf