Tóm tắt văn bản là một bài toán rất được quan tâm trong lĩnh vực xử lý ngôn ngữ tự nhiên. Sản phẩm của quá trình tóm tắt văn bản thường ngắn hơn văn bản ban đầu, súc tích, nhưng vẫn giữ nguyên ý chính. Bài báo này trình bày thực nghiệm các phương pháp tóm tắt rút trích trên các văn bản tiếng Việt. Chúng tôi xây dựng tập dữ liệu gồm 150.000 bài báo được rút trích từ các trang báo mạng phổ biến ở Việt Nam. Tập dữ liệu này được dùng để đào tạo bộ từ vựng cho tiếng Việt và là tập dữ liệu mẫu dùng trong bài toán tóm tắt văn bản. Phương pháp centroid-Based và mô hình GRU-RNN 2 chiều được áp dụng để xây dựng tóm tắt rút trích
8 trang |
Chia sẻ: Thục Anh | Ngày: 11/05/2022 | Lượt xem: 413 | Lượt tải: 0
Nội dung tài liệu Thực nghiệm tóm tắt rút trích văn bản tiếng Việt, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
liệu tiếng Việt đang dùng. Đặc biệt là Word2vec - Skipgram cho kết quả rất đáng mong đợi. Do đó, mô hình
Word2Vec-Skipgram đươc sử dụng để đào tạo word embedding với số chiều là 100 và số lần xuất hiện của từ ít nhất
là 4. Kết quả thu được là bộ dữ liệu gồm 200.000 từ vựng.
C. Phương pháp đánh giá
Để đánh giá các phương pháp tóm tắt văn bản, chúng ta có thể đánh giá thủ công hoặc đánh giá tự động.
Đánh giá thủ công do chuyên gia thực hiện, đánh giá trên kết quả với những tiêu chí nhất định để đưa ra kết quả cụ
thể. Đánh giá tự động, dùng những thuật toán để đánh giá kết quả một cách tự động, bằng việc so sánh kết quả tạo ra
với các kết quả tóm tắt sẵn có của dữ liệu, phương pháp tự động được sử dụng phổ biến hiện nay là ROUGE và
BLEU [16]. So với việc đánh giá thủ công, đánh giá tự động còn nhiều hạn chế do tính phức tạp của ngôn ngữ tự
nhiên, rất khó để có thể đánh giá chính xác bằng thuật toán. Tuy nhiên, việc đánh giá tự động vẫn được lựa chọn
nhiều hơn bởi đánh giá thủ công cần tiêu tốn rất nhiều chi phí. Trong phạm vi bài báo này, các phương pháp đánh
giá ROUGE-1, ROUGE-2 và ROUGE-L lần lượt được sử dụng để đánh giá kết quả thực nghiệm trên 2 tập dữ liệu:
Tập dữ liệu data1 là 10% data xây dựng được như đã mô tả phía trên.
Tập dữ liệu data2 gồm 200 bài viết được thu thập và tóm tắt thủ công trong đề tài của Phòng thí nghiệm Công
nghệ tri thức, Đại học Công nghệ, ĐHQG Hà Nội5.
D. Kết quả thực nghiệm
Các tác giả [7] và [10] thực nghiệm trên tập dữ liệu tiếng Anh DUC-200467. Phương pháp centroid-based
giúp xây dựng tóm tắt đạt độ chính xác ROUGE-1 và ROUGE-2 trung bình lần lượt khoảng 0,388 và 0,099 với
trọng số TF-IDF là 0,3. Phương pháp sử dụng GRU-RNN 2 chiều đạt độ chính xác ROUGE-1 và ROUGE-2 và
ROUGE-L lần lượt là 0,466, 0,231 và 0,430. Kết quả của các phương pháp khi thực nghiệm trên tập dữ liệu tiếng
Việt được trình bày ở Bảng 3 và 4.
Bảng 3. Đánh giá độ chính xác của phương pháp centroid-based
Kết quả đánh giá ROUGE-1 ROUGE-2 ROUGE-L
Tập data 1
Precision 0,416 0,146 0,261
Recall 0,687 0,251 0,441
F-score 0,505 0,179 0,320
Tập data 2
Precision 0,743 0,461 0,636
Recall 0,739 0,447 0,634
F-score 0,741 0,454 0,635
Bảng 4. Đánh giá độ chính xác của phương pháp sử dụng mô hình GRU-RNN 2 chiều
Kết quả đánh giá ROUGE-1 ROUGE-2 ROUGE-L
Tập data 1
Precision 0,815 0,374 0,612
Recall 0,323 0,138 0,239
F-score 0,440 0,192 0,326
5
https://github.com/lupanh/VietnameseMDS
6
474 THỰC NGHIỆM TÓM TẮT RÚT TRÍCH VĂN BẢN TIẾNG VIỆT
Kết quả đánh giá ROUGE-1 ROUGE-2 ROUGE-L
Tập data 2
Precision 0,520 0,344 0,376
Recall 0,873 0,587 0,645
F-score 0,629 0,418 0,458
Trong phương pháp GRU-RNN 2 chiều, chúng tôi sử dụng 80% dữ liệu cho huấn luyện, 10% dữ liệu cho
kiểm tra và 10% dữ liệu cho xác thực. Thư viện Pytorch8 được dùng để áp dụng mô hình GRU-RNN 2 chiều cho
việc tóm tắt rút trích. Dữ liệu được đưa vào mô hình huấn luyện và được tinh chỉnh tham số nhằm tăng tốc độ tính
toán như sau:
Giới hạn số câu trong mỗi tài liệu là 100 câu, mỗi câu tối đa là 50 từ.
Sử dụng kích cở trạng thái ẩn (hidden state) là 200 cho mô hình huấn luyện và tham số batch_size là 64 trong
quá trình huấn luyện.
Sau khi huấn luyện, tập dữ liệu kiểm tra được sử dụng để kiểm tra mô hình.
Một ví dụ xây dựng tóm tắt khác sử dụng phương pháp GRU-RNN 2 chiều trên văn bản cần tóm tắt có nội
dung:
“Quang Liêm cùng bạn gái và bố mẹ chụp hình lưu niệm tại lễ tổng kết. Giải cờ vua quốc tế Quang Liêm
xếp sau người vô địch là Trường Sơn khi có cùng bảy điểm nhưng thua đối đầu. Quang Liêm bắt tay chúc mừng
chức vô địch của Trường Sơn. Kỳ thủ Thảo Nguyên bạn gái của Trường Sơn luôn sát cánh bên anh mỗi giải đấu.
Cả hai luôn gắn bó với nhau như hình với bóng. Trường Sơn cho biết chính Thảo Nguyên là động lực giúp anh có
được chức vô địch này. Kỳ thủ người Uzbekistan Muminova Nafisa vô địch nữ với 55 điểm. Các vận động viên
đoạt giải cao trong khoảnh khắc nhận giải thưởng”.
Mô hình GRU-RNN 2 chiều tạo ra bản tóm tắt rút trích có nội dung như sau:
“Quang Liêm cùng bạn gái và bố mẹ chụp hình lưu niệm tại lễ tổng kết. Giải cờ vua quốc tế Quang Liêm
xếp sau người vô địch là Trường Sơn khi có cùng bảy điểm nhưng thua đối đầu. Quang Liêm bắt tay chúc mừng
chức vô địch của Trường Sơn”.
VI. KẾT LUẬN
Xây dựng tóm tắt rút trích cho văn bản bằng phương pháp centroid-based và mô hình GRU-RNN 2 chiều
đem lại kết quả khả quan trên tiếng Việt. Tuy nhiên, kết quả vẫn chưa đạt như kỳ vọng do sự ảnh hưởng của bộ từ
vựng vẫn còn hạn chế và dữ liệu xây dựng được chưa được gán nhãn nên phải gán nhãn tự động. Để cải thiện kết
quả tóm tắt, cần xây dựng một tập đầu vào word embedding với số lượng từ càng nhiều càng tốt và đảm bảo độ
chính xác trong mối liên hệ giữa các từ, lựa chọn một phương pháp gán nhãn phù hơn phương pháp ROUGE hiện
đang được sử dụng. Có thể thấy, việc chuẩn hóa dữ liệu ở giai đoạn chuẩn bị dữ liệu cũng cần thực hiện hoàn chỉnh
hơn. Các câu ở nội dung văn bản cần tóm tắt trong phần Ví dụ 1 chưa được xử lý tốt, dẫn đến kết quả xây dựng tóm
tắt cũng bị ảnh hưởng theo.
TÀI LIỆU THAM KHẢO
[1] Steinberger, Josef, and Karel Ježek, "Evaluation measures for text summarization," Computing and Informatics,
vol. 28, no. 2, pp. 251-275, 2012.
[2] Allahyari, M., Pouriyeh, S., Assefi, M., Safaei, S., Trippe, E. D., Gutierrez, J. B., & Kochut, K., "Text
summarization techniques: a brief survey," arXiv preprint arXiv:1707.02268., 2017.
[3] Erkan, Günes, and Dragomir R. Radev., "Lexrank: Graph-based lexical centrality as salience in text
summarization.," Journal of artificial intelligence research, pp. 457-479, 22 (2004).
[4] Trương Quốc Định và Nguyễn Quang Dũng, "Một giải pháp tóm tắt văn bản tiếng Việt tự động," in Hội thảo quốc
gia lần thứ XV: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Hà Nội, 2012.
[5] Nenkova, Ani, and Lucy Vanderwende, "The impact of frequency on summarization," Microsoft Research,
Redmond, Washington, Tech. Rep. MSR-TR-2005 101, 2005.
[6] Tạ Nguyễn, Vũ Đức Lung, "Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học tiếng việt dựa
trên cấu trúc," Tạp chí Khoa học và Công nghệ 52 (3) (2014) , pp. 269-280, 2014.
[7] Gaetano Rossiello, Pierpaolo Basile, Giovanni Semeraro, "Centroid-based Text Summarization through
8
https://pytorch.org/
Lâm Nhựt Khang, Phan Chí Khang, Trần Bảo Ngọc 475
Compositionality of Word Embeddings," 3 4 2017.
[8] Cao, Z., Li, W., Li, S., Wei, F., & Li, Y., "Attsum: Joint learning of focusing and summarization with neural
attention," arXiv preprint arXiv:1604.00125, 2016.
[9] Yin, Wenpeng, and Yulong Pei, "Optimizing Sentence Modeling and Selection for Document Summarization," in
IJCAI , 2015.
[10] Nallapati, Ramesh, Feifei Zhai, and Bowen Zhou, "SummaRuNNer: A Recurrent Neural Network Based
Sequence Model for Extractive Summarization of Documents," 2017.
[11] Bengio, Y., Ducharme, R., Vincent, P. and Jauvin, C., "A neural probabilistic language model," Journal of
machine learning research, pp. 1137-1155, 2003.
[12] Mikolov, Tomas, et al., Efficient estimation of word representations in vector space, 2013.
[13] Radev, Dragomir R., Hongyan Jing, Małgorzata Styś, and Daniel Tam, "Centroid-based summarization of
multiple documents," Information Processing & Management, 40(6), pp. 919-938, 2004.
[14] Ramos, Juan., "Using tf-idf to determine word relevance in document queries," Proceedings of the first
instructional conference on machine learning. Vol. 242, 2003.
[15] C. Y. Lin, "Rouge: A package for automatic evaluation of summaries," 2004.
[16] Papineni, Kishore, Salim Roukos, Todd Ward, and Wei-Jing Zhu, "BLEU: a method for automatic evaluation of
machine translation," in Proceedings of the 40th annual meeting on association for computational linguistics,
2002.
EXPERIMENTS ON GENERATING TEXT SUMMARIZATION USING EXTRACTIVE
METHODS
Lam Nhut Khang, Phan Chi Khang, Tran Bao Ngoc
ABSTRACT: Text summarization is a growing topic in the field of natural language processing. The production of text summaries
is a shortened or greatly condensed version of input text that highlights its central ideas. This paper presents experiments on
generating text summarization using extractive methods on Vietnamese articles. We construct a corpus containing 150.000
Vietnamese articles extracted from online magazines. This corpus is used to create word embeddings and to train models. The
centroid-based and bidirectional GRU-RNN models are used to generate summaries.
Các file đính kèm theo tài liệu này:
- thuc_nghiem_tom_tat_rut_trich_van_ban_tieng_viet.pdf