CHƯƠNG 2: LÀM SẠCH DỮ LIỆU
1. Sự cần thiết
Chất lượng cuộc phỏng vấn: Phỏng vấn viên hiểu sai câu
hỏi và thu thập dữ liệu sai, phỏng vấn viên chọn sai đối
tượng phỏng vấn hoặc ghi chép nhầm,
Nhập dữ liệu: Sai, sót, thừa
14 trang |
Chia sẻ: phuongt97 | Lượt xem: 590 | Lượt tải: 0
Nội dung tài liệu Bài giảng Khai phá dữ liệu (Data mining) - Chương 2: Làm sạch dữ liệu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
6/11/2015 12:34 PM 1
CHƯƠNG 2: LÀM SẠCH DỮ LIỆU
1. Sự cần thiết
Chất lượng cuộc phỏng vấn: Phỏng vấn viên hiểu sai câu
hỏi và thu thập dữ liệu sai, phỏng vấn viên chọn sai đối
tượng phỏng vấn hoặc ghi chép nhầm,
Nhập dữ liệu: Sai, sót, thừa
6/11/2015 12:34 PM 2
2. Các biện pháp ngăn ngừa
Thiết kế bản câu hỏi rõ ràng, dễ hỏi, dễ trả lời
Chọn lọc và huấn luyện phỏng vấn viên kỹ lưỡng, điều tra
phỏng vấn thử trước khi phỏng vấn thật dễ hiểu,
Các bản câu hỏi sau khi phỏng vấn xong phải được kiểm
tra lại
Việc mã hóa phải được tiến hành tập trung với một số ít cá
nhân phụ trách việc nhập liệu chứ không nên phân tán để
tránh việc rối loạn do thiếu thống nhất
6/11/2015 12:34 PM 3
3. Các phương pháp làm sạch dữ liệu
3.1. Dùng bảng tần số
Tìm các giá trị lạ như thay vì giới tính nam thì mã
hóa là 1 như trong quá trình đánh máy thì đánh là
11
6/11/2015 12:34 PM 4
6/11/2015 12:34 PM 5
6/11/2015 12:34 PM 6
3.2. Dùng bảng phối hợp hai biến hay ba biến
Lập bảng nhiều biến (Chương 3) rồi dựa vào các
quan hệ hợp lý để phát hiện ra lỗi. Ví dụ, kết hợp
biến tuổi và nghề nghiệp, ta phát hiện tuổi 13,
nghề giáo viên Biến tuổi hoặc nghề nghiệp đã
bị nhập sai
6/11/2015 12:34 PM 7
6/11/2015 12:34 PM 8
6/11/2015 12:34 PM 9
6/11/2015 12:34 PM 10
6/11/2015 12:34 PM 11
6/11/2015 12:34 PM 12
3.3. Cách tìm lỗi đơn giãn ngay trên cửa sổ
dữ liệu
Sử dụng lệnh Sort Case để tìm những lỗi đơn giản
ngay trên cửa sổ dữ liệu
Ví dụ với tình huống giới tính
6/11/2015 12:34 PM 13
6/11/2015 12:34 PM 14
Các file đính kèm theo tài liệu này:
- bai_giang_khai_pha_du_lieu_data_mining_chuong_2_lam_sach_du.pdf