Gán nhãn đồng tham chiếu là một trong những bài toán nhiều thách thức và nhận được sự quan tâm của hầu hết các nhà nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên. Ứng dụng của bài toán quan hệ đồng tham chiếu trong tiếng Việt ở lĩnh vực xử lý ngôn ngữ tự nhiên có nhiều ứng dụng khác nhau như: Trích xuất thông tin (Information extraction), hỏi đáp tự động (Question answering), tóm tắt văn bản (Summarization),
7 trang |
Chia sẻ: Thục Anh | Ngày: 11/05/2022 | Lượt xem: 615 | Lượt tải: 0
Nội dung tài liệu Xây dựng bộ ngữ liệu đồng tham chiếu cho tiếng Việt, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020
DOI: 10.15625/vap.2020.00232
XÂY DỰNG BỘ NGỮ LIỆU ĐỒNG THAM CHIẾU CHO TIẾNG VIỆT
Lê Công Cảnh1, Tiêu Vĩnh Phong1, Lƣơng An Vinh2, Huỳnh Quang Đức3
1Trường Đại học Khoa học Tự nhiên, ĐHQG-TP.HCM
2Trường Đại học Công nghệ Sài Gòn
3Khoa Công nghệ thông tin, Robot và Trí tuệ nhân tạo, Trường Đại học Bình Dương
TÓM TẮT: n nh n ng tha chiếu là ột v n ề uan t ng t ng ngành l ngôn ng t nhiên N c ứng dụng
ộng i t ng việc y d ng hệ thống t ả l i t ộng t ch u t thông tin uy nhiên t ng tiếng iệt bài t a n này g hải
nhiều th ch thức d t nh hức t c a ngôn ng tiếng iệt và hông c ầy bộ ng liệu hả t ng h vi bài b này
ch ng tôi t nh bày u t nh y d ng bộ ng liệu hu n luyện về ng tha chiếu tiếng iệt d a t ên bộ ng liệu hu n luyện tiếng
Anh P eC thông ua h ơng h chiếu nh n t ên ng ng Kết uả cuối c ng ch ng tôi y d ng bộ ng liệu tiếng iệt g
hơn 9800 c u t ch từ 502 n hội th i cuộc ống hằng ngày c g n nh n ng tha chiếu Bộ ng liệu này c th dùng làm
ng liệu ầu và ch c c nghiên cứu liên quan nh n ng tha chiếu t ng tiếng iệt.
Từ khóa: G n nh n ng tha chiếu t ng tiếng iệt, l ngôn ng t nhiên, chiếu nhãn trên song ng tiếng Anh.
I. GIỚI THIỆU
Gán nhãn đồng tham chiếu là một trong những bài toán nhiều thách thức và nhận được sự quan tâm của hầu hết
các nhà nghiên cứu trong lĩnh vực xử lý ngôn ngữ tự nhiên. Ứng dụng của bài toán quan hệ đồng tham chiếu trong
tiếng Việt ở lĩnh vực xử lý ngôn ngữ tự nhiên có nhiều ứng dụng khác nhau như: Trích xuất thông tin (Information
extraction), hỏi đáp tự động (Question answering), tóm tắt văn bản (Summarization),
Ví dụ về đồng tham chiếu trong tiếng Việt:
Ví dụ 1: Hoàng là inh viên c a T ng Đ i h c Kh a h c nhiên Ng ài gi h c cậu còn là thê t i c a
hàng tiện l i gần nhà. Xét ví dụ này, đại từ cậu và danh từ riêng Hoàng có quan hệ đồng tham chiếu với nhau vì cùng
chỉ một thực thể người có tên là Hoàng.
Ví dụ 2: Trong nhóm, Khiêm là ột ng i c tài anh ấy c e nh là cánh tay phải c a hịnh. Xét ví dụ
này, chủ từ Khiêm có quan hệ tham chiếu với đại từ anh y và cụm danh từ c nh tay hải.
Việc tìm kiếm và phát hiện cụm đồng tham chiếu có thể được thực hiện bằng cách thủ công, tuy nhiên bằng
cách này tốn rất nhiều thời gian và công sức, đặc biệt là việc phát hiện cho một văn bản tiếng Việt phức tạp. Do đó,
việc áp dụng máy học là một cách thức phù hợp giúp giải quyết bài toán gán nhãn đồng tham chiếu trong tiếng Việt.
Mặc dù có một số nghiên cứu, đề xuất giải pháp cho bài toán gán nhãn đồng tham chiếu tiếng Việt. Tuy nhiên
để có bộ ngữ liệu huấn luyện tiếng Việt đủ lớn đã được gán nhãn đồng tham chiếu cụ thể là điều không dễ dàng.
Mục tiêu chính của nghiên cứu là cho ra đời mô hình chiếu nhãn đồng tham chiếu từ tiếng Anh sang tiếng Việt,
góp phần giảm bớt việc gán nhãn thủ công, giảm thiểu thời gian một cách ngắn nhất có thể.
Phần còn lại trong bài báo này được trình bày như sau. Phần II sẽ giới thiệu các nghiên cứu liên quan đối với bài
toán gán nhãn đồng tham chiếu trong tiếng Việt. Chúng tôi sẽ giới thiệu phương pháp đề xuất của chúng tôi ở Phần III,
cũng như trình bày về kết quả đánh giá ở Phần IV. Và cuối cùng, trong Phần V, chúng tôi sẽ trình bày phần kết luận và
hướng phát triển trong tương lai.
II. CÁC NGHIÊN CỨU LIÊN QUAN
Ở Việt Nam, vấn đề gán nhãn đồng tham chiếu cũng đã và đang nhận được sự chú ý của các nhà nghiên cứu về
lĩnh vực xử lý ngôn ngữ tự nhiên trong những năm gần đây.
Tại một số trường Đại học ở Việt Nam, các giảng viên và sinh viên cũng đang có những hướng nghiên cứu cụ
thể, đề xuất một số phương pháp tiếp cận khác nhau để giải quyết thực trạng của bài toán đồng tham chiếu trong tiếng
Việt. Hầu hết các nghiên cứu đều sử dụng các phương pháp máy học:
- Lê Đức Trọng thuộc Trường Đại học Công Nghệ (2011) giải quyết bài toán đồng tham chiếu trong văn bản
tiếng Việt bằng phương pháp máy vector hỗ trợ SVM [1]. Tác giả đề xuất hai mô hình PModel và BModel với độ
chính xác lần lượt là 77,83 % và 71,12 % khi đánh giá cho 10 văn bản tiếng Việt khác nhau.
- Hung D. Nguyen và Tru H. Cao thuộc Trường Đại học Bách khoa Thành phố Hồ Chí Minh (2018) giải quyết
bài toán đồng tham chiếu trong hồ sơ bệnh án điện tử Việt Nam theo phương pháp máy học vector hỗ trợ SVM kết hợp
Best-first clustering [2].
704 XÂY DỰNG BỘ NGỮ LIỆU ĐỒNG THAM CHIẾU CHO TIẾNG VIỆT
Mỗi công trình nghiên cứu nêu trên đều có những ưu khuyết điểm khác nhau cho ra các kết quả, độ tin cậy cũng
như hiệu suất khác nhau. Tuy nhiên, việc ứng dụng máy học giải quyết bài toán gán nhãn đồng tham chiếu đòi hỏi khá
nhiều nguồn tri thức và chiến lược suy luận khéo léo trong xử lý ngôn ngữ tự nhiên.
Hiểu được những khó khăn đó, vấn đề tạo ra bộ ngữ liệu tiếng Việt gán nhãn đồng tham chiếu là vô cùng khó
khăn và phức tạp. Việc xây dựng mô hình chiếu nhãn đồng tham chiếu từ tiếng Anh sang tiếng Việt là một nghiên cứu
quan trọng và rất cần thiết trong việc hình thành ngữ liệu đồng tham chiếu tiếng Việt.
III. PHƢƠNG PHÁP ĐỀ XUẤT
A. Chiếu nhãn tham chiếu dựa trên thuật toán DPA
Dựa trên thuật toán chiếu trực tiếp DPA (Direct Projection Algorithm) của tác giả Hwa và các đồng tác giả [3],
[4], ý tưởng chính của bài báo này sẽ xây dựng mô hình chiếu nhãn từ tiếng Anh sang tiếng Việt dựa trên bộ ngữ liệu
song ngữ Anh - Việt.
Để tăng được độ tin cậy cho bộ ngữ liệu, nhóm sẽ tiến hành tạo bộ ngữ liệu đồng tham chiếu chuẩn cho tiếng
Việt dựa trên bộ ngữ liệu đã gán nhãn tham chiếu PreCo [5] nhằm mục đích tạo ra bộ ngữ liệu đồng tham chiếu trong
tiếng Việt có độ chính xác cao.
Hình 1. Mô hình tạo ngữ liệu đồng tham chiếu chuẩn trong tiếng Việt bằng phương pháp chiếu
Hình 1 mô tả quy trình tạo bộ ngữ liệu đồng tham chiếu chuẩn bao gồm 4 bước chính được thực hiện với hơn
502 đoạn văn được chọn lọc từ bộ ngữ liệu PreCo trong tiếng Anh.
Cụ thể các bước thực hiện của mô hình trên như sau:
1. Tiền xử lý văn bản
a) Bước 1: Dịch ngôn ngữ
Quá trình dịch bộ ngữ liệu PreCo từ tiếng Anh sang Tiếng Việt được thực hiện như sau:
Hình 2. Quy trình dịch văn bản tự động
Từ bộ ngữ liệu Tiếng Anh, nhóm tiến hành ghép các từ trong từng đoạn văn thành những câu văn hoàn chỉnh, ở
công đoạn này các dấu câu ( , ! ) được chú ý ghép đúng vị trí để đảm bảo cho bản dịch chính xác. Sau đó các đoạn
văn được dịch sang tiếng Việt nhờ công cụ Google Dịch và được hiệu chỉnh, chuẩn hóa thủ công nhằm mục đích tang
độ chính xác cho ngữ liệu đồng tham chiếu về sau cũng như giảm thiểu những rủi ro, sai sót cho các bước tiếp theo.
b) Bước 2: Tách từ
Sử dụng công cụ tách từ CLC_VN_WS được phát triển bởi Trung tâm Ngôn ngữ học Tính toán thuộc Trường
Đại học Khoa học Tự nhiên - Đại học Quốc gia TP. HCM.
Lê Công Cảnh, Tiêu Vĩnh Phong, Lương An Vinh, Huỳnh Quang Đức 705
Ví dụ hai câu tiếng Việt sau đây:
- Chưa tách từ: Lần đầu tiên tôi ra nước ngoài là khi tôi đến London. Máy bay và tàu hỏa khá đắt tiền, vì vậy
chúng tôi quyết định đi bằng xe khách.
- Đã tách từ: Lần đầu_tiên tôi ra nước_ngoài là khi tôi đến London . Máy_bay và tàu hỏa khá đắt tiền, vì vậy
chúng_tôi quyết_định đi bằng xe_khách.
2. Gióng hàng ở mức độ từ
Sau khi đã có bộ ngữ liệu song ngữ Anh – Việt, sử dụng công cụ GIZA++ để gióng hàng cho bộ ngữ liệu. Sau
đó thực hiện hiệu chỉnh các mối nối gióng hàng chưa chính xác.
Các câu tiếng Anh và tiếng Việt được gióng hàng mức từ tương ứng với nhau bằng công cụ GIZA++ sẽ được
tổ chức trong một tập tin như Hình 3.
Hình 3. Tổ chức tệp gióng hàng song ngữ Anh - Việt
3. Chiếu nhãn đồng tham chiếu
Đây là một trong những bước quan trọng nhất trong toàn bộ quá trình tạo ra bộ ngữ liệu đồng tham chiếu. Như
đã trình bày trước đó, chúng tôi thực hiện phép chiếu nhãn cơ bản dựa vào thuật toán DPA.
FOR coref_en IN danh_sach_cum_dong_tham_chieu_en:
FOR NP_en IN coref_en:
# L y vị t bắt ầu c a từ/cụ từ tiếng Anh ang ét
head_en = Lấy_head_EN(NP_en)
# L y vị t ết th c c a từ/cụ từ tiếng Anh ang xét
tail_en = Lấy_tail_EN(NP_en)
arr_vi_tri_vn = []
FOR vi_tri_word IN range (head_en, tail_en):
# X c ịnh vị t từ tiếng iệt c gi ng hàng với từ tiếng Anh
vi_tri_vn = Xác_định_gióng_hàng(vi_tri_word)
# hê vị t tiếng iệt c gi ng hàng và danh ch vị t cụ ng tha chiếu tiếng iệt
PUSH vi_tri_vn TO arr_vi_tri_vn
# L y vị t bắt ầu c a từ/cụ từ tiếng iệt ang ét
head_vi = Lấy_head_VN(arr_vi_tri_vn)
706 XÂY DỰNG BỘ NGỮ LIỆU ĐỒNG THAM CHIẾU CHO TIẾNG VIỆT
# L y vị t ết th c c a từ/cụ từ tiếng iệt ang ét
tail_vi = Lấy_tail_VN(arr_vi_tri_vn)
# n vị t c u HEAD và AIL ch từ/cụ từ tiếng iệt
NP_vn = Tạo_cụm_từ_tiếng_Việt(vi_tri_cau, head_coref_vi, tail_coref_vi)
# cụ ng tha chiếu tiếng iệt t ơng ứng
Chiếu_nhãn_đồng_tham_chiếu(NP_en, NP_vn)
Cụ thể các bước thực hiện từ đoạn mã giả trên như sau:
Bước 1: Xác định vị trí bắt đầu và kết thúc của từ/cụm từ tiếng Anh đang xét.
Bước 2: Xác định các vị trí từ tiếng Việt được gióng hàng với từ tiếng Anh dựa trên vị trí đầu cuối đang xét và
thêm các vị trí này vào danh sách vị trí cụm đồng tham chiếu tiếng Việt.
Bước 3: Dựa vào danh sách vị trí cụm đồng tham chiếu, ta lấy được vị trí bắt đầu và kết thúc tương ứng trong
tiếng Việt.
Bước 4: Tạo và chiếu thông tin nhãn đồng tham chiếu bên tiếng Anh qua tiếng Việt, cụ thể là chỉ số câu trong
đoạn văn, vị trí đầu, vị trí cuối của từ/cụm từ đồng tham chiếu trong tiếng Việt.
Cuối cùng, kết quả của nhóm sẽ được lưu trữ dưới dạng JSON như Hình 4.
Hình 4. Ví dụ tập tin lưu trữ một đoạn tiếng Việt được gán nhãn đồng tham chiếu
B. Phương pháp cải tiến
1. Điều chỉnh th công
Bộ ngữ liệu tiếng Việt sau khi được chiếu nhãn tham chiếu cơ bản bằng thuật toán DPA sẽ được loại bỏ thủ
công các nhãn tham chiếu sai và bổ sung nhãn tham chiếu bị thiếu do sự khác nhau về mặt ngôn ngữ.
a) Trường hợp 1: Loại bỏ nhãn tham chiếu
- Câu tiếng Anh: Recently, the British newspaper The Daily Telegraph ran a humorous piece on unconvincing
tech moments from some top movies .
- Câu tiếng Việt: Mới_đây, tờ_báo The Daily Telegraph của_Anh đã_đăng_tải một đoạn hài_hước về
những_khoảnh_khắc công_nghệ không_thuyết_phục từ một_số bộ_phim hàng_đầu.
Xét ví dụ trên cụm tham chiếu British newspaper (“ b c a Anh”) khi được dịch theo ngữ cảnh của đoạn
văn thành “t b he Daily eleg a h c a Anh”, có thể thấy cụm từ đã không được giữ nguyên vị trí như mong
muốn. Trong trường hợp này nhãn đồng tham chiếu sẽ được xem xét loại bỏ, không chiếu sang tiếng Việt do sai vị trí
trật tự từ.
b) Trường hợp 2: Bổ sung nhãn tham chiếu
- Câu tiếng Anh: Still, the old people in any of the three classes generally reported less difficulty in performing
daily activities than the control group.
- Câu tiếng Việt: Tuy_nhiên, người_già trong bất kỳ nhóm nào trong ba nhóm thường báo_cáo ít khó_khăn hơn
trong việc thực hiện các hoạt_động hàng_ngày so với nhóm kiểm soát.
Ví dụ trên là đại diện cho trường hợp xuất hiện từ mới khi dịch từ tiếng Anh sang tiếng Việt. Cụ thể cụm từ any
of the three classes (“b t ỳ nh nà t ng ba nh ”) xuất hiện cụm từ mới nhóm nào khi được dịch sang tiếng Việt,
và rõ ràng theo định nghĩa cụm từ nhóm nào sẽ là tham chiếu với cụm từ ba nhóm cùng câu. Vì thế, trong trường hợp
này nhãn đồng tham chiếu sẽ được bổ sung trong bộ ngữ liệu tiếng Việt.
Lê Công Cảnh, Tiêu Vĩnh Phong, Lương An Vinh, Huỳnh Quang Đức 707
2. Cải tiến thuật t n DPA
Thực tế trong quá trình xử lý các cặp văn bản Anh – Việt cho thấy rằng các nhãn cần được loại bỏ sẽ do hai
nguyên nhân chính là thay đổi vị trí từ trong câu và biến đổi loại từ khi dịch từ tiếng Anh sang tiếng Việt. Đối với mỗi
nguyên nhân, chúng tôi đề xuất cách xử lý như sau:
a) Trường hợp thay đổi vị trí
Phương pháp giải quyết cho trường hợp này mà chúng tôi đề xuất là bổ sung bước kiểm tra tính liên tục các vị
trí từ của cụm từ được chiếu trước khi xác định gióng hàng cho tiếng Việt.
b) Trường hợp biến đổi từ loại
Đối với trường hợp này, phổ biến là nhãn tham chiếu là cụm danh động từ (V_ing/Gerund) trong tiếng Anh và
khi chiếu sang tiếng Việt là cụm động từ. Để giải quyết trường hợp này, chúng tôi bổ sung các bước sau:
Bước 1: Tìm hình thái gốc của từ đầu tiên trong cụm đồng tham chiếu.
Bước 2: Tra từ điển để kiểm tra loại từ có phải và động từ hay không.
Bước 3: Nếu là động từ và là động từ có dạng V_ing sẽ bỏ qua nhãn này và không chiếu sang bộ ngữ liệu tiếng
Việt. Ngược lại, thực hiện chiếu nhãn tham chiếu từ tiếng Anh sang tiếng Việt.
Cụ thể thuật toán cải tiến chiếu nhãn đồng tham chiếu từ tiếng Anh sang tiếng Việt có mã giả như sau:
FOR coref_en IN danh_sach_cum_dong_tham_chieu_en:
FOR NP_en IN coref_en:
head_en = Lấy_head_EN(NP_en) # L y vị t bắt ầu c a từ/cụ từ tiếng Anh ang ét
tail_en = Lấy_tail_EN(NP_en) # L y vị t ết th c c a từ/cụ từ tiếng Anh ang ét
# X c ịnh danh ch vị t c t thành cụ ộng danh từ hay hông?
vp_check = Kiểm_tra_có_là_cụm_danh_động_từ(head_en, tail_en)
IF vp_check = FALSE: # Chiếu nh n ang tiếng iệt nếu cụ từ hông là cụ danh ộng từ
arr_vi_tri_vn = []
FOR vi_tri_word IN range(head_en, tail_en):
# X c ịnh vị t từ tiếng iệt c gi ng hàng với từ tiếng Anh
vi_tri_vn = Xác_định_gióng_hàng(vi_tri_word)
# hê vị t tiếng iệt c gi ng hàng và danh ch vị t cụ ng tha chiếu tiếng iệt
PUSH vi_tri_vn TO arr_vi_tri_vn
# Xác định danh sách vị trí có phù hợp tạo cặp từ hoàn chỉnh trong câu tiếng Việt hay không
pos_check = Kiểm_tra_vị_trí_hợp_lệ(arr_vi_tri_vn)
IF pos_check = TRUE: : # Chiếu nh n ang tiếng iệt nếu cụ từ hông bị thay ổi vị t
# L y vị t bắt ầu c a từ/cụ từ tiếng iệt ang ét
head_vi = Lấy_head_VN(arr_vi_tri_vn)
# L y vị t ết th c c a từ/cụ từ tiếng iệt ang ét
tail_vi = Lấy_tail_VN(arr_vi_tri_vn)
# n vị t c u HEAD và AIL ch từ/cụ từ tiếng iệt
NP_vn = Tạo_cụm_từ_tiếng_Việt(vi_tri_cau, head_coref_vi, tail_coref_vi)
# cụ ng tha chiếu tiếng iệt t ơng ứng
Chiếu_nhãn_đồng_tham_chiếu(NP_en, NP_vn)
IV. ĐÁNH GIÁ KẾT QUẢ
A. Dữ liệu đánh giá
Ngữ liệu đánh giá gồm 502 đoạn văn bản tương ứng với khoảng 9700 câu tiếng Việt được nhân bản thành ba bộ
ngữ liệu:
- Bộ thứ nhất được gán nhãn đồng tham chiếu tự động bằng thuật toán DPA chưa cải tiến.
708 XÂY DỰNG BỘ NGỮ LIỆU ĐỒNG THAM CHIẾU CHO TIẾNG VIỆT
- Bộ thứ hai được gán nhãn đồng tham chiếu tự động bằng thuật toán DPA cải tiến.
- Bộ thứ ba được gán nhãn đồng tham chiếu thủ công và được hiệu chỉnh bởi chuyên gia ngôn ngữ học.
B. Đánh giá kết quả
Áp dụng độ đo chính xác F-score để đánh giá chất lượng của mô hình chiếu nhãn đồng tham chiếu từ tiếng Anh
sang tiếng Việt. Hệ thống đánh giá chất lượng thông qua ba độ đo: độ chính xác (precision), độ hồi tưởng (recall) và độ
đo F (F-measure).
Bảng 1. Kết quả độ chính xác các phương pháp
Phƣơng pháp Precision Recall F-Score Độ chính xác
Thuật toán chiếu trực tiếp DPA chưa cải tiến. 94,59 % 99,96 % 97,2 % 94,56 %
Thuật toán chiếu trực tiếp DPA cải tiến 96,2 % 99,94 % 98,04 % 96,17 %
Từ số bảng thống kê số liệu ta có thể thấy kết quả của việc chiếu nhãn tham chiếu từ tiếng Anh sang tiếng Việt
bằng thuật toán DPA đem lại độ chính xác tương đối cao là 94,56 %. Sau khi áp dụng thuật toán cải tiến như loại bỏ
cụm từ sai vị trí, bỏ cụm danh động từ khi chiếu, độ chính xác đã tăng lên 96,17 %.
Từ những số liệu trên, ta có thể kết luận rằng thuật toán DPA cải tiến đã giải quyết được các vấn đề mà DPA
không thực hiện được. Tuy nhiên, trong trường hợp loại bỏ các cụm danh động từ thuật toán DPA cải tiến vẫn còn bỏ
sót một vài trường hợp chưa xử lý, ví dụ như danh động từ “opening” và có hình thái gốc là “open” nhưng khi tra từ
trong từ điển, máy tính lại không nhận diện được “open” là một động từ do “open” tồn tại ở nhiều loại từ khác nhau
(danh từ, tính từ, trạng từ,). Điều này dẫn đến một số nhãn tham chiếu khi ánh xạ sang tiếng Việt sẽ không đúng.
Và hiện tại chúng tôi vẫn chưa giải quyết trường hợp xuất hiện nhãn tham chiếu mới do ngữ nghĩa khi dịch từ
tiếng Anh sang tiếng Việt bằng phương pháp tự động cũng là một phần làm giảm độ chính xác của thuật toán cải tiến.
V. KẾT LUẬN
Bài toán gán nhãn đồng tham chiếu là một trong những bài toán quan trọng trong ngành xử lý ngôn ngữ tự nhiên.
Nó được ứng dụng rộng rãi trong việc xây dựng hệ thống trả lời tự động, trích xuất thông tin,... Tuy nhiên, trong tiếng
Việt, bài toán này gặp phải nhiều thách thức do tính phức tạp của ngôn ngữ tiếng Việt và không có đâ y đủ bộ ngữ liệu
để đánh giá. Trong phạm vi bài báo này, chúng tôi trình bày quá trình xây dựng bộ ngữ liệu huấn luyện về đồng tham
chiếu tiếng Việt dựa trên bộ ngữ liệu huấn luyện tiếng Anh PreCo thông qua phương pháp chiếu nhãn trực tiếp, đồng
thời áp dụng phương pháp cải tiến như loại bỏ cụm nhãn sai vị trí hay nhãn cụm danh động từ. Kết quả đánh giá cuối
cùng cho thấy rằng việc áp dụng các phương pháp cải tiến đã giúp nâng cao độ chính xác của phương pháp từ 94,56 %
lên 96,17 %. Việc nghiên cứu các phương pháp chiếu nhãn đồng tham chiếu song ngữ có nhiều tiềm năng để phát triển,
có thể kết hợp với các mô hình máy học để nâng cao bài toán phát hiện cụm đồng tham chiếu trong văn bản tiếng Việt.
VI. LỜI CẢM ƠN
Nghiên cứu này được hỗ trợ bởi nguồn kinh phí nghiên cứu của Chương trình Đào tạo theo Đề án, Trường Đại
học Khoa học Tự nhiên, Đại học Quốc gia Thành phố Hồ Chí Minh.
TÀI LIỆU THAM KHẢO
[1] Duc-Trong Le, Mai-Vu Tran, Tri-Thanh Nguyen, and Quang-Thuy Ha. Co-reference Resolution in Vietnamese
Documents Based on Support Vector Machines, 2011.
[2] Hung D. Nguyen, Tru H. Cao, Coreference Resolution in Vietnamese Electronic Medical Records, 2018.
[3] Rebecca Hwa, Philip Resnik, Amy Weinberg, Okan Kolak. “Evaluating translational correspondence using
Annotation Projection”. In: Proceeding ACL '02 Proceedings of the 40th Annual Meeting on Association for
Computational Linguistics, pp. 392-399, 2002.
[4] Rebecca Hwa, Philip Resnik, Amy Weinberg, Okan Kolak. “Bootstrapping Parsers via Syntactic Projection across
Parallel Texts”. Natural language engineering 11.3: pp. 311-325, 2005.
[5] Chen, H., Fan, Z., Lu, H., Yuille, A. L., & Rong, S. “PreCo: A large-scale dataset in preschool vocabulary for
coreference resolution”. arXiv preprint arXiv:1810.09807, 2018.
[6] Tuoi, P. T., & Tho, Q. T. “Coreference resolution Ontology-based in sentiment analysis”. Science and Technology
Development Journal, 20(K9), pp. 23-30, 2017.
[7] V'ronique Hoste: Manual for the Annotation of Coreferences in Dutch Newspaper Texts, 2005.
[8] Shekhar, S., & Kumar, U. Review on the techniques of anaphora resolution.
Lê Công Cảnh, Tiêu Vĩnh Phong, Lương An Vinh, Huỳnh Quang Đức 709
[9] Bouma, G., Daelemans, W., Hendrickx, I., Hoste, V., & Mineur, A., “The COREA-project, manual for the
annotation of coreference in Dutch texts”. University Groningen, 2007.
[10] Sukthanker, R., Poria, S., Cambria, E., & Thirunavukarasu, R., “Anaphora and coreference resolution: A review”.
Information Fusion, 59, pp. 139-162, 2020.
[11] McCarthy, J. F., & Lehnert, W. G., “A trainable approach to coreference resolution for information extraction”
Doctoral dissertation, University of Massachusetts at Amherst, 1996.
[13] Đinh Điền. “Xây dựng và khai thác ngữ liệu song ngữ Anh-Việt”. Luận án tiến sĩ ngôn ngữ học, ĐH Khoa học Xã
hội và Nhân văn, Đại học Quốc gia TP. Hồ Chí Minh, 3/2005.
[14] Mahmud, T., Hasan, K. A., Ahmed, M., & Chak, T. H. C., “A rule based approach for NLP based query
processing”. In 2015 2nd International Conference on Electrical Information and Communication Technologies
(EICT) (pp. 78-82). IEEE, December 2015.
[15] Dale, R., Wong, K. F., Su, J., & Kwong, O. Y. (Eds.). “Natural Language Processing–IJCNLP”, 2005: Second
International Joint Conference, Jeju Island, Korea, October 11-13, 2005, Proceedings (Vol. 3651). Springer, 2005.
Các file đính kèm theo tài liệu này:
- xay_dung_bo_ngu_lieu_dong_tham_chieu_cho_tieng_viet.pdf