Nội dung
1 Các khái niệm cơ bản
2 Các giai đoạn khai phá tri thức
3 Ứng dụng của khai phá dữ liệu
4 Các kỹ thuật khai phá
18 trang |
Chia sẻ: phuongt97 | Lượt xem: 408 | Lượt tải: 0
Nội dung tài liệu Bài giảng Khai phá dữ liệu (Datamining) - Chương 1: Tổng quan - Phan Mạnh Thường, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Khai phá dữ liệu
(Datamining)
Phan Mạnh Thường
LOGO
12/07/2014
Thông tin về môn học
Thời lượng • Số tiết lý thuyết : 45
• Số tiết thực hành : 30
Điều kiện • Nắm vững kiến thức cơ sở dữ liệu
• SQL Server và ngôn ngữ T-SQL
• Lập trình Visual.NET
Mục tiêu Cung cấp các kiến thức về
• Các phương pháp khai phá dữ liệu
• Nhà kho dữ liệu
7/12/2014 www.lhu.edu.vn
Thông tin về môn học
Tài liệu tham khảo
1. Đỗ Phúc, Giáo trình Khai thác dữ liệu, ĐHQG TPHCM, 2005
2. Hồ Tú Bảo, Introduction to knowledge discovery and data mining, IOIT, 2001.
3. Morgan Kaufman, Data Mining: Concepts and Techniques, Morgan
Kaufmann Publishers, 2002
4. Jiawei Han and Micheline Kamber, Data Mining Concepts and Techniques,
University of Illinois, Morgan Kaufmann Publishers, 2002
5. John Wang, Data mining: opportunities and challenges, Idea Group, 2003
6. ZhaoHui Tang & Jamie MacLennan, Data Mining with SQL Server 2005,
Wiley Publishing, 2005
7/12/2014 www.lhu.edu.vn
Nội dung môn học
Chương 1: Tổng quan về khai phá dữ liệu
2 Chương 2: Luật kết hợp
3 Chương 3: Phân lớp dữ liệu
4 Chương 4: Chuỗi phổ biến
5 Chương 5: Gom cụm dữ liệu
5 Chương 6: Nhà kho dữ liệu
7/12/2014 www.lhu.edu.vn
Thông tin về môn học
Đánh giá
Gồm 3 cột điểm:
• Điểm chuyên cần (10%): điểm danh buổi học
(Lưu ý: nghỉ quá 30% số tiết bị cấm thi)
• Điểm kiểm tra (30%): bài tập, seminar
• Điểm thi (60%): làm bài thi trên máy
7/12/2014 www.lhu.edu.vn
Chương 1
Tổng quan
Nội dung
1 Các khái niệm cơ bản
2 Các giai đoạn khai phá tri thức
3 Ứng dụng của khai phá dữ liệu
4 Các kỹ thuật khai phá
Chương 1 Tổng quan
Các khái niệm cơ bản
. Dữ liệu (Data): có thể xem là chuỗi các bit,
là số, ký tựmà chúng ta tập hợp hàng
ngày trong công việc
. Thông tin (Information): là tập hợp của
những mảnh dữ liệu đã được chắt lọc dùng
mô tả, giải thích đặc tính của một đối tượng
nào đó
. Tri thức (Knowledge): là tập hợp những
thông tin có liên hệ với nhau, có thể xem tri
thức là sự kết tinh từ dữ liệu. Tri thức thể
hiện tư duy của con người về một vấn đề
7/12/2014 www.lhu.edu.vn
Chương 1 Tổng quan
Các khái niệm cơ bản
. Khám phá tri thức từ cơ sở dữ liệu:
(Knowledge Discovery in Databases – KDD)
. “KDD is the automatic extraction of non-obvious,
hidden knowledge from large volumes of data.”
Fayyad, Platetsky-Shapiro, Smyth (1996)
. “Khám phá tri thức từ cơ sở dữ liệu là quy trình bao
gồm nhiều công đoạn như: xác định vấn đề, tập hợp
và chọn lọc dữ liệu, khai thác dữ liệu, đánh giá kết
quả, giải thích dữ liệu, áp dụng tri thức vào thực tế
.
7/12/2014 www.lhu.edu.vn
Chương 1 Tổng quan
Tại sao phải khai phá dữ liệu ?
. Nhà bác học nổi tiếng Karan Sing đã từng nói rằng
“Chúng ta đang ngập chìm trong biển thông tin nhưng lại
đang khát tri thức”.
. Dữ liệu được thu thập hàng
ngày là rất lớn
. Các CSDL khổng lồ
. Dữ liệu từ Internet
. Theo các báo cáo của IBM,
chỉ có 80% dữ liệu được
khai thác, 20% còn lại ẩn
trong các Database là những
tri thức quý giá
7/12/2014 www.lhu.edu.vn
Chương 1 Tổng quan
Khai phá dữ liệu là gì?
. Khai phá dữ liệu (Datamining) là một bước trong
quy trình khám phá tri thức, nhằm:
. Rút trích thông tin hữu ích, chưa biết, tiềm ẩn trong
khối dữ liệu lớn
. Phân tích dữ liệu bán tự động
. Giải thích dữ liệu trên các tập dữ liệu lớn .
7/12/2014 www.lhu.edu.vn
Chương 1 Tổng quan
Lợi ích của khai phá dữ liệu
Giá trị
EDP
MIS
Số lượng DSS
EDP: Electronic Data Processing
MIS: Management Information Systems
7/12/2014 DSS: Decision Support Systems www.lhu.edu.vn
Chương 1 Tổng quan
Quy trình khai phá dữ liệu
NghiNghiNghiênênên cứucứu lĩnhlĩnh vựcvực
TTạoạo tậptập dữdữ liệuliệu đầuđầu vàovào
TiTiềnền xửxử lý/lý/ làmlàm sạch,sạch, mãmã hóahóa
RRút gọn / chiều
Chọn tác vụ Khai thác dữ liệu
7/12/2014 www.lhu.edu.vn
Chương 1 Tổng quan
Quy trình khai phá dữ liệu
Chọn các thuật giải KTDL
KTDL: Tìm kiếm tri thức
Đánh giá mẫu tìm được
Biểu diễn tri thức
Sử dụng các tri thức vừa khám phá
7/12/2014 www.lhu.edu.vn
Chương 1 Tổng quan
Quy trình khai phá dữ liệu
Increasing potential
to support
End User
business decisions Making
Decisions
Data Presentation Business
Visualization Techniques Analyst
Data Mining Data
Information Discovery Analyst
Data Exploration
Statistical Analysis, Querying and Reporting
Data Warehouses / Data Marts
OLAP, MDA
DBA
Data Sources
Paper, Files, Information Providers, Database Systems, OLTP
7/12/2014 www.lhu.edu.vn
Chương 1 Tổng quan
Từ dữ liệu đến quyết định
Quyết định
• Promote product A in region Z.
• Mail ads to families of profile P
Tri thức • Cross-sell service B to clients C
• A quantity Y of product A is used in
region Z
• Customers of class Y use x% of C
during period D
Thông tin
• X lives in Z
• S is Y years old
Dữ liệu • X and S moved
• Customer data • W has money in Z
• Store data
• Demographical Data
• Geographical data
7/12/2014 www.lhu.edu.vn
Chương 1 Tổng quan
Các ứng dụng
Kinh doanh Sản xuất
- Phân tích dữ liệu bán
hàng và tiếp thị
- Phân tích đầu tư
- Chứng khoán
- Điều khiển và lập lịch
- Xác định gian lận
- Quản trị mạng lưới
- Phân tích kết quả thử nghiệm
Khoa học
- Không gian Y học
- Sinh học
- Địa lý - Bệnh lý
- etc. - Sinh học
7/12/2014 www.lhu.edu.vn
Chương 1 Tổng quan
Các kỹ thuật sử dụng
Tìm các đặc trưng của lớp
Xác định các cụm
các đối tượng và sử dụng
ề ẩ
để phân lớp dữ liệu mới. ti m n trong các
tập đối tượng chưa
được xếp lớp.
Gom cụm
Phân lớp
Tìm các mẫu phổ biến
Dữ đoán dữ liệu tương từ dữ liệu và mối quan
?
lai dựa trên dữ liệu quá hệ của các đối tượng
khứ. dữ liệu.
Dự đoán Luật kết hợp
Khám phá các
mẫu tín hiệu phổ Xác định trật tự dữ
biến nhất từ dữ liệu, cấu trúc lưu trữ
liệu các sự kiện phù hợp với tác vụ
Mẫu tuần tự khai phá
Nhà kho- OLAP
7/12/2014 www.lhu.edu.vn
Chương 1 Tổng quan
Kết luận
. KPDL: tiến trình khám phá bán tự động các thông
tin, mẫu có ích từ CSDL lớn
. Các bước của KDD
. Tiền xử lý
. KTDL( data mining tasks)
. Hậu xử lý
. Các quan niệm, khía cạnh
. CSDL (quan hệ, hướng đối tượng, không gian, WWW, )
. Tri thức (đặc trưng, gom cụm, kết hợp, )
. Kỹ thuật (máy học, thống kê, trực quan hóa, )
. Ứng dụng (bán lẻ, điện thoại, khai thác Web )
7/12/2014 www.lhu.edu.vn
Các file đính kèm theo tài liệu này:
- bai_giang_khai_pha_du_lieu_datamining_chuong_1_tong_quan_pha.pdf