Trong phân lớp, văn bản thường được biểu diễn
trong không gian đa chiều;
chiều ~ trục;
từ ~ đặc trưng.
Các từ hiếm có thể gây lỗi phân lớp;
Từ gây lỗi phân lợp được gọi là đặc trưng nhiễu.
Loại các đặc trưng nhiễu làm tăng hiệu quả và
hiệu năng phân lớp;
20 trang |
Chia sẻ: Mr Hưng | Lượt xem: 743 | Lượt tải: 0
Nội dung tài liệu Tìm kiếm và trình diễn thông tin - Phân lớp và ứng dụng trong tìm kiếm, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
(IT4853) Tìm kiếm và trình diễn thông tin
Phân lớp và ứng dụng trong tìm kiếm
Giảng viên
TS. Nguyễn Bá Ngọc
Địa chỉ: Viện CNTT & TT/BM HTTT/B1-603
Email: ngocnb@soict.hust.edu.vn
Website:
2
Nội dung chính
Các giải thuật Naïve Bayes;
Trích chọn đặc trưng.
3
Multinomial Naïve Bayes: Huấn luyện
4
Multinomial Naïve Bayes: Phân lớp
5
Bernoulli Naïve Bayes: Huấn luyện
6
Bernoulli Naïve Bayes: Phân lớp
7
Nội dung chính
Các giải thuật Naïve Bayes;
Trích chọn đặc trưng.
8
Trích chọn đặc trưng
Trong phân lớp, văn bản thường được biểu diễn
trong không gian đa chiều;
chiều ~ trục;
từ ~ đặc trưng.
Các từ hiếm có thể gây lỗi phân lớp;
Từ gây lỗi phân lợp được gọi là đặc trưng nhiễu.
Loại các đặc trưng nhiễu làm tăng hiệu quả và
hiệu năng phân lớp;
Quá trình loại bỏ các đặc trưng nhiễu gọi là trích
chọn đặc trưng; 9
Đặc trưng nhiễu
Giả sử một từ hiếm t không chứa thông tin liên
quan đến lớp c nhưng chỉ xuất hiện trong các văn
bản của lớp c.
Vì t là từ hiếm nên bộ phân lớp sau huấn luyện có
thể coi t như một tín hiệu mạnh thuộc lớp c.
Hiện tượng này được gọi là overfitting
Trích chọn đặc trưng làm giảm overfitting và cải
thiện tính chính xác của bộ phân lớp.
10
Giải thuật trích chọn đặc trưng
11
Các phương pháp cơ bản
Phương pháp trích chọn đặc trưng được xác định
chủ yếu bởi cách đo độ hữu ích của đặc trưng
Độ hữu ích của đặc trưng:
Tần suất – lựa chọn những từ xuất hiện thường xuyên
nhất.
Mutual information – lựa chọn từ với mutual
information cao nhất;
Còn được gọi là Information Gain
Chi-square
12
Các phương pháp cơ bản
Phương pháp trích chọn đặc trưng được xác định
chủ yếu bởi cách đo độ hữu ích của đặc trưng
Độ hữu ích của đặc trưng:
Tần suất – lựa chọn những từ xuất hiện thường xuyên
nhất.
Hàm lượng thông tin – lựa chọn từ với Hàm lượng
thông tin cao nhất;
Chi-square
13
Hàm lượng thông tin
Mutual information hoặc Information Gain.
14
N11 số văn bản thuộc lớp c chứa t; N10 số văn bản thuộc lớp c
không chứa t; N01 không thuộc lớp c, chứa t; N00 không thuộc lớp
c không chứa t.
N = N11 + N10 + N01 + N00 là tổng số văn bản.
Ví dụ tính MI, poultry/EXPORT
15
Kết quả trích chọn đặc trưng trên
Reuters
16
17
(multinomial = multinomial Naive Bayes, binomial
= Bernoulli Naive Bayes)
Naïve Bayes
Trong trường hợp tổng quát, trích chọn đặc trưng
là cần thiết để đạt kết quả cao
18
Cần trích chọn đặc trưng để đạt hiệu quả tối đa!
Bài tập
Tính ma trận nhầm lẫn tương tự poultry/EXPORT cho cặp
“Kyoto/JAPAN”.
Hãy thiết lập ma trận nhầm lẫn mà MI = 0
19
20
Các file đính kèm theo tài liệu này:
- bai_16_phan_lop_va_ung_dung_trong_tim_kiem_phan_2_7542.pdf