Trong lĩnh vực xử lý ngôn ngữ tự nhiên, việc sử dụng các mô hình máy học để phụ vụ giải quyết các bài toán càng chiếm ưu thế. Tuy nhiên, để có được kết quả tốt, cần có ngữ liệu huấn luyện đạt yêu cầu, mang được tính đại diện cho ngôn ngữ. Vì thế kho ngữ liệu cần đảm bảo được tính đại diện, tính cân bằng, cụ thể là lấy mẫu ngôn ngữ có kích thước phù hợp theo các tiêu chí khi xây dựng kho ngữ liệu. Trong phạm vi bài báo, chúng tôi trình bày các tiêu chí lấy mẫu ngôn ngữ trong việc xây dựng kho ngữ liệu cân bằng bao gồm: lựa chọn văn bản, tính đại diện, tính cân bằng, chủ đề, kích thước và tính đồng nhất. Chúng tôi áp dụng các tiêu chí này vào việc xây dựng kho ngữ liệu tiếng Việt (Vietnamese Corpus 1.0 – VnC 1.0) với kích thước 100 triệu từ bao gồm 10 % văn bản nói và 90 % văn bản viết được thu thập chủ yếu từ năm 2000 đến nay
7 trang |
Chia sẻ: Thục Anh | Lượt xem: 517 | Lượt tải: 0
Nội dung tài liệu Các tiêu chí ngôn ngữ trong việc xây dựng kho ngữ liệu tiếng Việt, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
t và chia thành 31
nhóm chính theo thể loại và lĩnh vực. Kết quả thu thập được thống kê trong bảng 3, ngữ liệu này đã được tiền xử lý và
gán nhãn ranh giới từ tự động bằng công cụ gán nhãn ranh giới từ tiếng Việt do Trung tâm Ngôn ngữ học Tính toán
xây dựng (CLC Toolkit) [6]. Trong điều kiện thực tế, việc thu thập các ngữ liệu văn bản viết khác vẫn còn hạn chế như
lấy mẫu văn bản từ: báo địa phương, tạp chí, bài luận của học sinh phổ thông, thư từ cá nhân/công việc.
Bảng 3. Kết quả thu thập ngữ liệu văn bản viết
STT Thể loại văn bản viết theo các lĩnh vực Số văn bản Số từ Số câu Tỉ lệ từ (%)
1 Tài liệu chuyên ngành: nhân văn 24 85.985 4.013 0,10
2 Tài liệu chuyên ngành: y học 8 228.752 13.176 0,25
3 Tài liệu chuyên ngành: khoa học tự nhiên 17 316.649 13.308 0,35
4 Tài liệu chuyên ngành: giáo dục pháp luật chính trị 20 780.687 41.821 0,87
5 Tài liệu chuyên ngành: khoa học xã hội 8 279.886 14.701 0,31
6 Tài liệu chuyên ngành: kỹ thuật, tin học, công nghệ 9 94.859 4.702 0,11
7 Quy định 109 187.963 9.665 0,21
8 Quảng cáo 520 127.895 9.928 0,14
9 Tiểu sử/tự truyện 165 3.501.712 191.172 3,90
10 Kinh tế, tài chính 42 3.784.372 175.754 4,21
Võ Diệp Như, Đinh Điền 31
STT Thể loại văn bản viết theo các lĩnh vực Số văn bản Số từ Số câu Tỉ lệ từ (%)
11 Khoá luận đại học 6 53.755 2.514 0,06
12 Kịch bản kịch 17 11.186 1.328 0,01
13 Tập thơ của 1/nhiều tác giả 397 156.256 27.297 0,17
14 Tiểu thuyết và truyện ngắn 618 20.349.859 1.530.977 22,66
15 Văn kiện quốc hội 247 1.245.251 45.151 1,39
16 Báo cáo thường niên 59 265.242 17.065 0,30
17 Văn bản hướng dẫn/DIY 857 479.771 24.973 0,53
18 Văn bản khác 91.236 34.878.628 1.952.804 38,84
19 Báo quốc gia: tài liệu văn hoá/nghệ thuật 4.536 2.092.885 110.985 2,33
20 Báo quốc gia: thương mại và tài chính 8.136 2.436.608 210.252 2,71
21 Báo quốc gia: cá nhân/biên tập thể chế/thư ngỏ 1.238 645.685 33.563 0,72
22 Báo quốc gia: tài liệu khác 8.883 5.712.911 462.701 6,36
23 Báo quốc gia: phóng sự tin tức trong & ngoài nước 7.422 3.942.901 200.052 4,39
24 Báo quốc gia: tài liệu khoa học 939 400.075 20.722 0,45
25 Báo quốc gia: tài liệu về suy nghĩ, lối sống và niềm tin 1.058 518.349 29.102 0,58
26 Báo quốc gia: tài liệu thể thao 4.666 1.715.152 100.711 1,91
27 Thường thức, phổ thông: vấn đề y tế, sức khoẻ 8.232 3.111.866 165.463 3,47
28 Thường thức, phổ thông: giáo dục pháp luật chính trị 780 297.435 14.749 0,33
29 Thường thức, phổ thông: khoa học xã hội 1.872 763.994 46.431 0,85
30 Thường thức, phổ thông: kỹ thuật, tin học, công nghệ 1.013 387.814 23.741 0,43
31 Văn bản tôn giáo 10 936.569 58.509 1,04
2. Văn bản nói
Đối với ngữ liệu văn bản nói, chúng tôi tiến hành thu thập mẫu ngữ liệu từ các video/audio giao tiếp trong thực
tế theo các thể loại. Kết quả thu thập ngữ liệu văn bản nói sau chúng tôi khi tiến hành phiên âm, tiền xử lý và gán nhãn
ranh giới từ được thể hiện như bảng 4. Khi phiên âm văn bản nói theo vùng miền, chúng tôi phân công người phiên âm
là người địa phương theo miền để tăng tính chính xác khi phiên âm, cũng như không bị mất mát thông tin về phương
ngữ khi phiên âm. Đó cũng là một trong những khó khăn của chúng tôi khi số lượng và kích thước mẫu văn bản nói tại
miền Trung được phiên âm hiện tại vẫn còn hạn chế (chiếm 0,001 % trên tổng thể kích thước văn bản nói).
Bảng 4. Kết quả thu thập ngữ liệu văn bản nói
STT Thể loại văn bản nói Số văn bản Số từ Số câu Tỉ lệ từ (%)
1 Đối thoại - Độc thoại Bắc 582 1,458,930 231,576 0.14
2 Đối thoại - Độc thoại Trung 13 6,930 1,005 0.00
3 Đối thoại - Độc thoại Nam 694 2,542,896 358,154 0.25
4 Đối thoại (không phân biệt Bắc - Trung - Nam) 1,495 5,427,581 935,790 0.54
5 Chương trình truyền hình 118 59,5734 71,775 0.06
6 Phát biểu trong phiên họp Quốc hội 6 98,235 3,882 0.01
V. KẾT LUẬN
Chúng tôi đã trình bày các tiêu chí lấy mẫu ngôn ngữ trong quá trình xây dựng kho ngữ liệu sao cho kho ngữ
liệu có thể đại điện được cho cộng đồng sử dụng ngôn ngữ này, và các mẫu ngôn ngữ được cân bằng. Dựa trên các tiêu
chí lấy mẫu, kho ngữ liệu mới thật sự có giá trị cao về mặt ngôn ngữ, có thể đại diện cho ngôn ngữ, là nguồn ngữ liệu
phục vụ cho các nghiên cứu và khai thác giải quyết các bài toán trong thực tế, tăng độ chính xác cho các mô hình huấn
luyện, Kết quả thực nghiệm khi áp dụng các tiêu chí này vào xây dựng kho ngữ liệu thực tế của phiên bản đầu tiên
(VnC 1.0), kho ngữ liệu bao gồm văn bản nói và văn bản viết. Mỗi dạng thức văn bản đều thu thập theo các tiêu chí
ngoài, và bao gồm nhiều thể loại, lĩnh vực, ngữ cảnh trong cộng đồng người Việt Nam sử dụng tiếng Việt trong nước
chủ yếu từ năm 2000 đến nay.
VI. HƯỚNG PHÁT TRIỂN
Chúng tôi đã áp dụng và lựa chọn các tiêu chí ngôn ngữ trong việc xây dựng kho ngữ liệu tiếng Việt cân bằng,
có thể mang tính đại diện. Trong tương lai, chúng tôi sẽ tiếp tục cập nhật các mẫu văn bản theo thể loại đã có và đồng
thời thu thập thêm các lại văn bản nói (các chương trình thảo luận, tư vấn, phim tài liệu, tin tức, bài giảng, các tranh
luận, các cuộc họp), cũng như văn bản viết (báo địa phương, tạp chí, bài luận của học sinh phổ thông, thư từ cá
nhân/công việc) để tiếp tục tăng tính cân bằng, kích thước của kho ngữ liệu và tính đại diện.
32 CÁC TIÊU CHÍ NGÔN NGỮ TRONG VIỆC XÂY DỰNG KHO NGỮ LIỆU TIẾNG VIỆT
TÀI LIỆU THAM KHẢO
[1] Adam Przepiórkowski, Rafał L. Górski, Barbara Lewandowska-Tomaszczyk, Marek Łazi´nski, “Towards the
National Corpus of Polish”, In Proceedings of the 6th International Conference on Language Resources and
Evaluation, 2018.
[2] Dieu-Thu Le, Uwe Quasthoff, “Construction and Analysis of a Large Vietnamese Text Corpus”, In Proceedings
of the Tenth International Conference on Language Resources and Evaluation (LREC'16), pp 412–416, 2016.
[3] Đinh Điền, Ngôn ngữ học ngữ liệu, Nxb ĐHQG Tp. HCM, Tp. HCM, 2018.
[4] Douglas Biber, “Representativeness in: Corpus Design”, In: Zampolli A., Calzolari N., Palmer M. (eds) Current
Issues in Computational Linguistics: In Honour of Don Walker. Linguistica Computazionale, Vol 9. Springer,
Dordrecht, 1994.
[5] (truy cập ngày 25/04/2020)
[6] (truy cập ngày 23/1/2020)
[7] (truy cập ngày 17/06/2020)
[8] https://www.korpus.cz/ (truy cập ngày 18/05/2020)
[9] https://www.lancaster.ac.uk/fass/projects/corpus/cbls/corpora.asp#_Toc92298862 (truy cập ngày 18/05/2020)
[10] John Sinclair, Corpus Concordance Collocation, Oxford University Press, 1991.
[11] Keh-Jiann Chen, Chu-Ren Huang, Li-Ping Chang, Hui-Li Hsu, “SINICA CORPUS: Design Methodology for
Balanced Corpora”, In Proceedings of the 11th Pacific Asia Conference on Language, Information and
Computation, pp. 167-176, 1996.
[12] Lou Burnard, Reference Guide for the British National Corpus (XML Edition),
2007.
[13] Luke Gessler, Siyao Peng, Yang Liu, Yilun Zhu, Shabnam Behzad, Amir Zeldes, “AMALGUM - A Free,
Balanced, Multilayer English Web Corpus”, In Proceedings of The 12th Language Resources and Evaluation
Conference, pp. 5267-5275, 2020.
[14] Martin Wynne, Developing Linguistic Corpora : a Guide to Good Practice, Oxbow Books, 2005.
[15] Nguyen Phuong-Thai, Vu Xuan-Luong, Nguyen Thi-Minh-Huyen and Nguyen Van-Hiep and Le Hong-Phuong,
“Building a Large Syntactically-Annotated Corpus of Vietnamese”. In Proceedings of the Third Linguistic
Annotation Workshop, Association for Computational Linguistics, pp. 182-185, 2009.
[16] Sue Atkins, Jeremy Clear and Nicholas Ostler, “Corpus Design Criteria”, Literary and Linguistic Computing, Vol
7, No. 1, pp. 1-16, 1992.
LANGUAGE SAMPLING CRITERIA FOR VIETNAMESE CORPUS CONSTRUCTION
Vo Diep Nhu, Dinh Dien
ABSTRACT: In the field of Natural Language Processing (NLP), the use of machine learning models to help solve problems is
more dominant. However, to get good results, satisfactory corpus (training data) that is representative of the language is required.
Therefore, the corpus must be ensured to be representative and balanced, specifically, to sample a language of appropriate size
according to the criteria when building the corpus. In this paper, we present linguistic sampling criteria in building a balanced
corpus including text selection, representativeness, balance, topic, size, and homogeneity. We apply these criteria to building a
Vietnamese corpus (Vietnamese Corpus 1.0 - VnC 1.0) with the size of 100 million words, including 10 % of spoken text and 90 % of
written documents are collected mainly from the year 2000 to present.
Các file đính kèm theo tài liệu này:
- cac_tieu_chi_ngon_ngu_trong_viec_xay_dung_kho_ngu_lieu_tieng.pdf