Tóm tắt đa văn bản được mở rộng từ tóm tắt đơn văn bản với mục đích tổng hợp thông tin cô đọng nhất từ
nhiều nguồn văn bản khác nhau. Trong bài báo này, chúng tôi trình bày một phương pháp tóm tắt đa văn bản dựa trên cách tiếp
cận mô hình đồ thị. Trọng số của mỗi câu được thể hiện tại các nút của đồ thị và độ tương tự giữa các câu là trọng số các nhánh
của đồ thị. Đánh giá tóm tắt sử dụng độ đo ROUGE với 200 cụm văn bản tiếng Việt, kết quả cho thấy rằng, phương pháp chúng tôi
đề xuất thực sự có hiệu quả và có thể dễ dàng triển khai thành những ứng dụng thực tế
9 trang |
Chia sẻ: phuongt97 | Lượt xem: 792 | Lượt tải: 0
Nội dung tài liệu Ứng dụng mô hình đồ thị trong tóm tắt đa văn bản Tiếng Việt, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
ược phân
với N=4). K
.3 đến 0.6.
ẬN
tắt đơn văn b
, chúng tôi đ
t hợp giảm ch
ập văn bản tiế
kết quả chấp
ương lai.
M ƠN
h Hương, Hà
gữ liệu và cô
tự nhiên thuộ
ột cách hiệu q
G TÓM TẮT Đ
ROUGE-N
0.4268
0.247
0.26860
theo các chủ
ết quả được
ản bởi nguồn
ã đề xuất phư
iều đặc trưng
ng Việt cho
nhận được v
Quang Thụy
ng cụ đánh gi
c Đại học Cô
uả nhất.
A VĂN BẢN T
đề, các tập d
thể hiện tươn
văn bản đầu
ơng pháp tóm
bằng cách sử
thấy rằng, ph
à thực sự có
, Vũ Đức Thi
á dựa trên ph
ng nghệ - Đại
IẾNG VIỆT
ữ liệu này
g ứng với
vào không
tắt đa văn
dụng mô
ương pháp
ý nghĩa để
đề tài cấp
ương pháp
học Quốc
Nguyễn Thị Ngọc Tú, Nguyễn Thị Thu Hà, Lê Thanh Hương, Hồ Ngọc Vinh, Đào Thanh Tĩnh, Nguyễn Ngọc Cương 753
VII. TÀI LIỆU THAM KHẢO
[1] Trương Quốc Định, Nguyễn Quang Dũng “Một giải pháp tóm tắt văn bản tiếng Việt tự động” Hội thảo quốc gia lần
thứ XV: một số vấn đề chọn lọc của Công nghệ thông tin và Truyền thông Hà Nội 03-04/12/2012.
[2] Đỗ Phúc, Mai Xuân Hùng, Nguyễn Thị Kim Phụng, “Gom cụm đồ thị và ứng dụng vào việc rút trích nội dung
chính của khối thông điệp trên diễn đàn thảo luận”, Tạp chí Phát triển Khoa học Công nghệ, Tập 11, Số 05 - 2008,
pp. 21-32, 2008.
[3] Lê Thanh Hương, Nghiên cứu một số phương pháp tóm tắt văn bản tự động trên máy tính áp dụng cho tiếng Việt,
Đề tài Bộ Giáo dục, 2012-2014.
[4] Nguyễn Trọng Phúc, Lê Thanh Hương, Tóm tắt văn bản sử dụng cấu trúc diễn ngôn, Proc of ICTrda08, 2008.
[5] Mark Andrews, Gabriella Vigliocco, The Hidden Markov Topic Model: A Probabilistic Model of Semantic
Representation, Topics in Cognitive Science 2 101–113, 2010.
[6] David Blei, Andrew Ng and Micheal Jordan. Latent dirichlet allocation. In The Journal of Machine Learning
Research, 2003.
[7] Dipanjan Das, Andre F. T. Martins, A Survey on Automatic Text Summarization, November 21, 2007.
[8] Ha. N. T. T, Quynh. N. H, Tao. N. Q, A new method for calculating weight of sentence based on amount of
information and linguistic score, International Journal of Advanced Computer Engineering, Vol.4 No.2, pp. 91-95,
2011.
[9] Ha. N. T. T, Quynh. N. H, Khanh N. T. H, Hung L. M, Optimization for Vietnamese Text classification problem by
reducing feature set, Proc of 6th International Conference on New Trends in Information Science, Service Science
and Data Mining, pp. 209-212, 2012.
[10] Ha. N. T. T, Quynh. N. H, Tu. N. N, A Supervised Learning Method Combine with Dimensionality Reduction in
Vietnamese Text Summarization, Proc IEEE of Computer, communication and application 2013, pp. 69-73, 2013.
[11] Ha Nguyen Thi Thu, Tinh Dao Thanh, Thanh Nguyen Hai, Vinh Ho Ngoc, “'Building Vietnamese Topic
Modeling Based on Core Terms and Applying in Text Classification”, Proc. of Fifth IEEE International
Conference on Communication Systems and Network Technologies, pp. 1284-1288, DOI 10.1109/CSNT.2015.22,
2015.
[12] Makoto Hirohata, Yousuke Shinnaka, Koji Iwano and Sadaoki Furui, Sentence extraction – based presentation
summarization techniques and evaluation metrics, ICASSP 2005, pp. I – 1065- I – 1068, 2005.
[13] Karel Jezek, Josef Steinberger, Automatic Text Summarization (The state of the art 2007 and new challenges),
Znalosti ,2008, ISBN 978-80-227-2827-0.
[14] Daniel Jurafsky & James, Speech and Language Processing: An introduction to natural language processing,
computational linguistics, and speech recognition, Prentice Hall, 2008.
[15] Yanran Li and Sujian Li, Query-focused Multi-Document Summarization: Combining a Topic Model with Graph-
based Semi-supervised Learning. Proceedings of COLING 2014, the 25th International Conference on
Computational Linguistics: Technical Papers, pages 1197–1207, Dublin, Ireland, August 23-29 2014.
[16] C. Lopez, V. Prince, and M. Roche, Text titling applica-tion (demonstration session, to appear), in Proceedings of
EKAW’10, 2010.
[17] Mihalcea, R., “Graph-based ranking algorithms for sentence extraction, applied to text summarization”, ACL 2004
on Interactive poster and demonstration sessions, Association for Computational Linguistics, Morristown, NJ,
USA, pp. 181–184, 2004
[18] Nenkova, A. Automatic text summarization of newswire: Lessons learned from the document understanding
conference. In Proceedings of AAAI 2005, Pittsburgh, USA.
[19] A. Nenkova and K. McKeown, Automatic Summarization, Foundations and Trends® in Information Retrieval
Vol. 5, Nos. 2–3 (2011) 103–233.
[20] M. L. Nguyen, Shimazu, Akira, Xuan, Hieu Phan, Tu, Bao Ho, Horiguchi, Susumu, Sentence Extraction with
Support Vector Machine Ensemble, Proceedings of the First World Congress of the International Federation for
Systems Research : The New Roles of Systems Sciences For a Knowledge-based Society 2005-11.
[21] Seonggi Ryang, Takeshi Abekawa, Framework of Automatic Text Summarization Using Reinforcement Learning,
Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and
Computational Natural Language Learning, pages 256–265, Jeju Island, Korea, 12–14 July 2012.
[22] Horacio Saggion (2013) Proceedings of NAACL-HLT 2013, Atlanta, Georgia, 9–14 June 2013, pages 270–279;
754 ỨNG DỤNG MÔ HÌNH ĐỒ THỊ TRONG TÓM TẮT ĐA VĂN BẢN TIẾNG VIỆT
[23] MARIA SOLEDAD PERA, YIU-KAI NG, A Naïve Bayes Classify for web document summaries created by using
word similariy and significant factor, International Journal on Artificial Intelligence Tools, Vol. 19, No. 4 pp. 465–
486, 2010.
[24] Svore, K., Vanderwende, L., and Burges, C. Enhancing single-document summarization by combining RankNet
and third-party sources. In Proceedings of the EMNLP-CoNLL, pages 448-457, 2007.
[25] Thanh, Le Ha; Quyet, Thang Huynh; Chi, Mai Luong, A Primary Study on Summarization of Documents in
Vietnamese, Proceedings of the First World Congress of the International Federation for Systems Research : The
New Roles of Systems Sciences For a Knowledge-based Society 2005-11.
[26] Tu-Anh Nguyen-Hoang, Hoang Khai Nguyen, and Quang Vinh Tran (2010), “An efficient Vietnamese text
summarization approach base on graph model”. . RIVF, page 1-6. IEEE, (2010).
[27] Dingding Wang, Shenghuo Zhu, Tao Li, Yihong GongMulti-Document Summarization using Sentence-based
Topic Models, Proceedings of the ACL-IJCNLP 2009 Conference Short Papers, pages 297–300, Suntec,
Singapore, 4 August 2009. 2009.
[28] Xiaojun Wan, Jianwu Yang and Jianguo Xiao. Manifold-ranking based topic-focused multi-document sum-
marization. In Proceedings of International Joint Conference on Artificial Intelligence, 2007.
[29] Furu Wei, Wenjie Li, Qin Lu, and Yanxiang He A Cluster-Sensitive Graph Model for Query-Oriented Multi-
document Summarization, 2008.
[30] Kam-Fai Wong, Mingli Wu and Wenjie Li (2008), “Extractive Summarization Using Supervised and Semi-
supervised Learning”, Proceedings of the 22nd International Conference on Computational Linguistics,
Manchester, August 2008,pp. 985–992
[31] Jean-Yves Delort and Enrique Alfonseca. DualSum: a topic-model based approach for update summarization. In
Proceedings of the 13th Conference of the European Chapter of the Association for Computational Linguistics.,
2012).
[32] Dengzhong Zhou, Jason Weston, Arthur Gretton, Olivier Bousquet and Bernhard Schlkopf. Ranking on Data
Manifolds. In Proceedings of the Conference on Advances in Neural Information Processing Systems., 2003.
[33] Dengyou Zhou, Olivier Bousquet, Thomas Navin and JasonWeston. Learning with Local and Global Con-
sistency. In Proceedings of Advances in neural information processing systems, 2004.
[34] Chin-Yew Lin and Eduard Hovy (2003), “Automatic Evaluation of Summaries Using N-gram Co-Occurrence
Statistics”, Proceedings of the Human Technology Conference 2003 (HLT-NAACL-2003), May 27 - June 1, 2003,
Edmonton, Canada.
[35]
APPLY GRAPHICAL MODEL FOR VIETNAMESE MULTI-DOCUMENT
SUMMARIZATION
Nguyen Thi Ngoc Tu, Nguyen Thi Thu Ha, Le Thanh Huong, Ho Ngoc Vinh,
Dao Thanh Tinh, Nguyen Ngoc Cuong
ABSTRACT - Multi-document summarization is expanded from single-document summarization in order to compile the most
important information from different sources of document. In this paper, we present a Vietnamese multi-document summarization
method based on graphical model. Weighting of each sentence is represented as a node of the graph and the similarity score among
sentences is on the edges of the graph. For evaluation, we used ROUGE method with 200 Vietnamese text clusters and the results
shown that the method proposed is really effective and can be developed into practical applications.
Các file đính kèm theo tài liệu này:
- ung_dung_mo_hinh_do_thi_trong_tom_tat_da_van_ban_tieng_viet.pdf