Thực nghiệm tóm tắt rút trích văn bản tiếng Việt

Tóm tắt văn bản là một bài toán rất được quan tâm trong lĩnh vực xử lý ngôn ngữ tự nhiên. Sản phẩm của quá trình tóm tắt văn bản thường ngắn hơn văn bản ban đầu, súc tích, nhưng vẫn giữ nguyên ý chính. Bài báo này trình bày thực nghiệm các phương pháp tóm tắt rút trích trên các văn bản tiếng Việt. Chúng tôi xây dựng tập dữ liệu gồm 150.000 bài báo được rút trích từ các trang báo mạng phổ biến ở Việt Nam. Tập dữ liệu này được dùng để đào tạo bộ từ vựng cho tiếng Việt và là tập dữ liệu mẫu dùng trong bài toán tóm tắt văn bản. Phương pháp centroid-Based và mô hình GRU-RNN 2 chiều được áp dụng để xây dựng tóm tắt rút trích

pdf8 trang | Chia sẻ: Thục Anh | Ngày: 11/05/2022 | Lượt xem: 431 | Lượt tải: 0download
Nội dung tài liệu Thực nghiệm tóm tắt rút trích văn bản tiếng Việt, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
liệu tiếng Việt đang dùng. Đặc biệt là Word2vec - Skipgram cho kết quả rất đáng mong đợi. Do đó, mô hình Word2Vec-Skipgram đươc sử dụng để đào tạo word embedding với số chiều là 100 và số lần xuất hiện của từ ít nhất là 4. Kết quả thu được là bộ dữ liệu gồm 200.000 từ vựng. C. Phương pháp đánh giá Để đánh giá các phương pháp tóm tắt văn bản, chúng ta có thể đánh giá thủ công hoặc đánh giá tự động. Đánh giá thủ công do chuyên gia thực hiện, đánh giá trên kết quả với những tiêu chí nhất định để đưa ra kết quả cụ thể. Đánh giá tự động, dùng những thuật toán để đánh giá kết quả một cách tự động, bằng việc so sánh kết quả tạo ra với các kết quả tóm tắt sẵn có của dữ liệu, phương pháp tự động được sử dụng phổ biến hiện nay là ROUGE và BLEU [16]. So với việc đánh giá thủ công, đánh giá tự động còn nhiều hạn chế do tính phức tạp của ngôn ngữ tự nhiên, rất khó để có thể đánh giá chính xác bằng thuật toán. Tuy nhiên, việc đánh giá tự động vẫn được lựa chọn nhiều hơn bởi đánh giá thủ công cần tiêu tốn rất nhiều chi phí. Trong phạm vi bài báo này, các phương pháp đánh giá ROUGE-1, ROUGE-2 và ROUGE-L lần lượt được sử dụng để đánh giá kết quả thực nghiệm trên 2 tập dữ liệu: Tập dữ liệu data1 là 10% data xây dựng được như đã mô tả phía trên. Tập dữ liệu data2 gồm 200 bài viết được thu thập và tóm tắt thủ công trong đề tài của Phòng thí nghiệm Công nghệ tri thức, Đại học Công nghệ, ĐHQG Hà Nội5. D. Kết quả thực nghiệm Các tác giả [7] và [10] thực nghiệm trên tập dữ liệu tiếng Anh DUC-200467. Phương pháp centroid-based giúp xây dựng tóm tắt đạt độ chính xác ROUGE-1 và ROUGE-2 trung bình lần lượt khoảng 0,388 và 0,099 với trọng số TF-IDF là 0,3. Phương pháp sử dụng GRU-RNN 2 chiều đạt độ chính xác ROUGE-1 và ROUGE-2 và ROUGE-L lần lượt là 0,466, 0,231 và 0,430. Kết quả của các phương pháp khi thực nghiệm trên tập dữ liệu tiếng Việt được trình bày ở Bảng 3 và 4. Bảng 3. Đánh giá độ chính xác của phương pháp centroid-based Kết quả đánh giá ROUGE-1 ROUGE-2 ROUGE-L Tập data 1 Precision 0,416 0,146 0,261 Recall 0,687 0,251 0,441 F-score 0,505 0,179 0,320 Tập data 2 Precision 0,743 0,461 0,636 Recall 0,739 0,447 0,634 F-score 0,741 0,454 0,635 Bảng 4. Đánh giá độ chính xác của phương pháp sử dụng mô hình GRU-RNN 2 chiều Kết quả đánh giá ROUGE-1 ROUGE-2 ROUGE-L Tập data 1 Precision 0,815 0,374 0,612 Recall 0,323 0,138 0,239 F-score 0,440 0,192 0,326 5 https://github.com/lupanh/VietnameseMDS 6 474 THỰC NGHIỆM TÓM TẮT RÚT TRÍCH VĂN BẢN TIẾNG VIỆT Kết quả đánh giá ROUGE-1 ROUGE-2 ROUGE-L Tập data 2 Precision 0,520 0,344 0,376 Recall 0,873 0,587 0,645 F-score 0,629 0,418 0,458 Trong phương pháp GRU-RNN 2 chiều, chúng tôi sử dụng 80% dữ liệu cho huấn luyện, 10% dữ liệu cho kiểm tra và 10% dữ liệu cho xác thực. Thư viện Pytorch8 được dùng để áp dụng mô hình GRU-RNN 2 chiều cho việc tóm tắt rút trích. Dữ liệu được đưa vào mô hình huấn luyện và được tinh chỉnh tham số nhằm tăng tốc độ tính toán như sau: Giới hạn số câu trong mỗi tài liệu là 100 câu, mỗi câu tối đa là 50 từ. Sử dụng kích cở trạng thái ẩn (hidden state) là 200 cho mô hình huấn luyện và tham số batch_size là 64 trong quá trình huấn luyện. Sau khi huấn luyện, tập dữ liệu kiểm tra được sử dụng để kiểm tra mô hình. Một ví dụ xây dựng tóm tắt khác sử dụng phương pháp GRU-RNN 2 chiều trên văn bản cần tóm tắt có nội dung: “Quang Liêm cùng bạn gái và bố mẹ chụp hình lưu niệm tại lễ tổng kết. Giải cờ vua quốc tế Quang Liêm xếp sau người vô địch là Trường Sơn khi có cùng bảy điểm nhưng thua đối đầu. Quang Liêm bắt tay chúc mừng chức vô địch của Trường Sơn. Kỳ thủ Thảo Nguyên bạn gái của Trường Sơn luôn sát cánh bên anh mỗi giải đấu. Cả hai luôn gắn bó với nhau như hình với bóng. Trường Sơn cho biết chính Thảo Nguyên là động lực giúp anh có được chức vô địch này. Kỳ thủ người Uzbekistan Muminova Nafisa vô địch nữ với 55 điểm. Các vận động viên đoạt giải cao trong khoảnh khắc nhận giải thưởng”. Mô hình GRU-RNN 2 chiều tạo ra bản tóm tắt rút trích có nội dung như sau: “Quang Liêm cùng bạn gái và bố mẹ chụp hình lưu niệm tại lễ tổng kết. Giải cờ vua quốc tế Quang Liêm xếp sau người vô địch là Trường Sơn khi có cùng bảy điểm nhưng thua đối đầu. Quang Liêm bắt tay chúc mừng chức vô địch của Trường Sơn”. VI. KẾT LUẬN Xây dựng tóm tắt rút trích cho văn bản bằng phương pháp centroid-based và mô hình GRU-RNN 2 chiều đem lại kết quả khả quan trên tiếng Việt. Tuy nhiên, kết quả vẫn chưa đạt như kỳ vọng do sự ảnh hưởng của bộ từ vựng vẫn còn hạn chế và dữ liệu xây dựng được chưa được gán nhãn nên phải gán nhãn tự động. Để cải thiện kết quả tóm tắt, cần xây dựng một tập đầu vào word embedding với số lượng từ càng nhiều càng tốt và đảm bảo độ chính xác trong mối liên hệ giữa các từ, lựa chọn một phương pháp gán nhãn phù hơn phương pháp ROUGE hiện đang được sử dụng. Có thể thấy, việc chuẩn hóa dữ liệu ở giai đoạn chuẩn bị dữ liệu cũng cần thực hiện hoàn chỉnh hơn. Các câu ở nội dung văn bản cần tóm tắt trong phần Ví dụ 1 chưa được xử lý tốt, dẫn đến kết quả xây dựng tóm tắt cũng bị ảnh hưởng theo. TÀI LIỆU THAM KHẢO [1] Steinberger, Josef, and Karel Ježek, "Evaluation measures for text summarization," Computing and Informatics, vol. 28, no. 2, pp. 251-275, 2012. [2] Allahyari, M., Pouriyeh, S., Assefi, M., Safaei, S., Trippe, E. D., Gutierrez, J. B., & Kochut, K., "Text summarization techniques: a brief survey," arXiv preprint arXiv:1707.02268., 2017. [3] Erkan, Günes, and Dragomir R. Radev., "Lexrank: Graph-based lexical centrality as salience in text summarization.," Journal of artificial intelligence research, pp. 457-479, 22 (2004). [4] Trương Quốc Định và Nguyễn Quang Dũng, "Một giải pháp tóm tắt văn bản tiếng Việt tự động," in Hội thảo quốc gia lần thứ XV: Một số vấn đề chọn lọc của Công nghệ thông tin và truyền thông, Hà Nội, 2012. [5] Nenkova, Ani, and Lucy Vanderwende, "The impact of frequency on summarization," Microsoft Research, Redmond, Washington, Tech. Rep. MSR-TR-2005 101, 2005. [6] Tạ Nguyễn, Vũ Đức Lung, "Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học tiếng việt dựa trên cấu trúc," Tạp chí Khoa học và Công nghệ 52 (3) (2014) , pp. 269-280, 2014. [7] Gaetano Rossiello, Pierpaolo Basile, Giovanni Semeraro, "Centroid-based Text Summarization through 8 https://pytorch.org/ Lâm Nhựt Khang, Phan Chí Khang, Trần Bảo Ngọc 475 Compositionality of Word Embeddings," 3 4 2017. [8] Cao, Z., Li, W., Li, S., Wei, F., & Li, Y., "Attsum: Joint learning of focusing and summarization with neural attention," arXiv preprint arXiv:1604.00125, 2016. [9] Yin, Wenpeng, and Yulong Pei, "Optimizing Sentence Modeling and Selection for Document Summarization," in IJCAI , 2015. [10] Nallapati, Ramesh, Feifei Zhai, and Bowen Zhou, "SummaRuNNer: A Recurrent Neural Network Based Sequence Model for Extractive Summarization of Documents," 2017. [11] Bengio, Y., Ducharme, R., Vincent, P. and Jauvin, C., "A neural probabilistic language model," Journal of machine learning research, pp. 1137-1155, 2003. [12] Mikolov, Tomas, et al., Efficient estimation of word representations in vector space, 2013. [13] Radev, Dragomir R., Hongyan Jing, Małgorzata Styś, and Daniel Tam, "Centroid-based summarization of multiple documents," Information Processing & Management, 40(6), pp. 919-938, 2004. [14] Ramos, Juan., "Using tf-idf to determine word relevance in document queries," Proceedings of the first instructional conference on machine learning. Vol. 242, 2003. [15] C. Y. Lin, "Rouge: A package for automatic evaluation of summaries," 2004. [16] Papineni, Kishore, Salim Roukos, Todd Ward, and Wei-Jing Zhu, "BLEU: a method for automatic evaluation of machine translation," in Proceedings of the 40th annual meeting on association for computational linguistics, 2002. EXPERIMENTS ON GENERATING TEXT SUMMARIZATION USING EXTRACTIVE METHODS Lam Nhut Khang, Phan Chi Khang, Tran Bao Ngoc ABSTRACT: Text summarization is a growing topic in the field of natural language processing. The production of text summaries is a shortened or greatly condensed version of input text that highlights its central ideas. This paper presents experiments on generating text summarization using extractive methods on Vietnamese articles. We construct a corpus containing 150.000 Vietnamese articles extracted from online magazines. This corpus is used to create word embeddings and to train models. The centroid-based and bidirectional GRU-RNN models are used to generate summaries.

Các file đính kèm theo tài liệu này:

  • pdfthuc_nghiem_tom_tat_rut_trich_van_ban_tieng_viet.pdf