Khóa luận Tìm hiểu các hướng tiếp cận bài toán phân loại văn bản và xây dựng phần mềm phân loại tin tức báo điện tử
Trong những năm gần đây, sựphát triển vượt bậc của công nghệthông tin đã
làm tăng sốlượng giao dịch thông tin trên mạng Internet một cách đáng kể đặc biệt
là thưviện điện tử, tin tức điện tử. Do đó mà sốlượng văn bản xuất hiện trên
mạng Internet cũng tăng theo với một tốc độchóng mặt. Theo sốlượng thống kê từ
Broder et al (2003), lượng thông tin đó lại tăng gấp đôi sau từ9 đến 12 tháng, và tốc
độthay đổi thông tin là cực kỳnhanh chóng.
Với lượng thông tin đồsộnhưvậy, một yêu cầu lớn đặt ra đối với chúng ta là
làm sao tổchức và tìm kiếm thông tin có hiệu quảnhất. Phân loại thông tin là một
trong những giải pháp hợp lý cho yêu cầu trên. Nhưng một thực tếlà khối lượng
thông tin quá lớn, việc phân loại dữliệu thủcông là điều không tưởng. Hướng giải
quyết là một chương trình máy tính tự động phân loại các thông tin trên.
Chúng em đã tập trung thực hiện đềtài “Tìm hiểu các hướng tiếp cận cho bài
toán phân loại văn bản và xây dựng ứng dụng phân loại tin tức báo điện tử”
nhằm tìm hiểu và thửnghiệm các phương pháp phân loại văn bản áp dụng trên tiếng
Việt. Đểthực hiện việc phân loại, điều bắt buộc đối với tiếng Việt đó là việc tách từ.
Trong luận văn này, chúng em cũng tìm hiểu một sốcách tách từtiếng Việt và thử
nghiệm một phương pháp tách từmới thích hợp cho việc phân loại mà không dùng
bất kỳtừ điển hoặc tập ngữliệu nào. Cuối cùng, chúng em xây dựng phần mềm
phân loại văn bản tích hợp vào trang web “Toà soạn báo điện tử” (Luận văn khoá
2000 - Hoàng Minh Ngọc Hải (0012545), Nguyễn Duy Hiệp (0012038)) nhằm phục
vụcho việc phân loại tin tức báo điện tử.
Các file đính kèm theo tài liệu này:
- 01123050112243.pdf