Khóa luận Tìm hiểu các hướng tiếp cận bài toán phân loại văn bản XD phần mềm phân loại tin tức điện tử
Nội dung của luận văn được trình bày bao gồm 8 chương; trong đó, 3 chương
đầu trình bày các hướng tiếp cận cho phân loại văn bản và tách từ tiếng Việt hiện
nay; 2 chương tiếp theo trình bày hướng tiếp cận của luận văn đối với phân loại văn
bản và tách từ tiếng Việt; 3 chương cuối trình bày hệ thống thử nghiệm văn bản,
ứng dụng vào phân loại tin tức bán tự động, và cuối cùng là đánh giá, kết luận quá
trình nghiên cứu của luận văn.
- Chương 1. Tổng quan: giới thiệu sơ lược về các phương pháp phân loại văn
bản và các hướng tiếp cận cho việc tách từ tiếng Việt; đồng thời xác định
mục tiêu của đề tài.
- Chương 2. Một số phương pháp phân loại văn bản: giới thiệu tóm tắt một
số phương pháp phân loại văn bản dành cho tiếng Anh.
- Chương 3. Phương pháp tách từ tiếng Việt hiện nay: trình bày tóm tắt
một số phương pháp tách từ tiếng Việt hiện nay, ưu điểm và hạn chế của các
phương pháp đó.
- Chương 4. Phương Tách từ Tiếng Việt không dựa trên tập ngữ liệu
đánh dấu (annotated corpus) hay từ điển (lexicon) – Một thách thức:
trình bày phương pháp tách từ tiếng Việt mới chỉ dựa vào việc thống kê từ
Internet thông qua Google mà không cần bất kỳ từ điển hay tập ngữ liệu nào.
- Chương 5. Bài toán phân loại tin tức báo điện tử: trình bày hướng tiếp cận
cho bài toán phân loại tin tức báo điện tử.
- Chương 6. Hệ thống thử nghiệm phân loại văn bản: giới thiệu về hệ thống
thử nghiệm các phương pháp tách từ và phân loại văn bản.
- Chương 7. Ứng dụng phân loại tin tức báo điện tử bán tự động: giới
thiệu ứng dụng phân loại tin tức báo điện tử.
- Chương 8. Tổng kết: Tóm lại các vấn đề đã giải quyết và nêu một số hướng phát triển tương lai.
Các file đính kèm theo tài liệu này:
- [LVIT022] - Tìm hiểu các hướng tiếp cận bt phân loại văn bản XD phần mềm phân loại tin tức điện tử .pdf