Mỗi từtrong một ngôn ngữnói chung đôi khi có thểgắn với nhiều từloại và việc
giải thích đúng nghĩa một từphụthuộc vào việc nó được xác định đúng từloại hay
không. Công việc gán nhãn từloại cho một văn bản là xác định từloại của mỗi từ
trong phạm vi văn bản đó, tức là phân loại các từthành các lớp từloại dựa trên
thực tiễn hoạt động ngôn ngữ[abc].Việc gán nhãn từloại thường được thểhiện
bằng cách đánh dấu cho mỗi từmột “nhãn” có sẵn theo tập nhãn cho trước, “nhãn” có
thể được nhận biết bằng cách viết hoa và đi liền với từmà nó xác định, hoặc phân cách
với từmà nó xác định bằng dấu “/”.
• Input: Một chuỗi các từvà tập nhãn từloại (Ví dụnhưchuỗi các từ“Book that
flight.” và tập nhãn từloại Penn Treebank của tiếng Anh.)
• Output: Một nhãn tốt nhất cho từng từtrong chuỗi từ đã được đưa ra (Ví dụ:,
đối với chuỗi từ“Book that flight.”thì nhãn thích hợp tương ứng cho từng từsẽ
là Book/VB that/DT flight/NN ./.)
Gán nhãn từloại là một công việc quan trọng và bắt buộc phải có đối với hầu hết
các ứng dụng xửlý ngôn ngữtựnhiên. Nếu coi quá trình xửlý ngôn ngữtựnhiên gồm
các bước: tiền xửlý văn bản, phân tích hình thái, phân tích cú pháp và phân tích ngữ
nghĩa thì gán nhãn từloại thuộc vào bước phân tích hình thái. Bước này có nhiệm vụ
phân tích câu thành một bảng các từ(hay cụm từ) riêng biệt, đồng thời kèm theo tất cả
các thông tin vềtừ đó, nhưlà: từloại (part-of-speech), phạm trù ngữpháp (category),
các biến cách của từ, tiền tố, hậu tốcủa từ(nếu có). [abc]
57 trang |
Chia sẻ: luyenbuizn | Lượt xem: 1055 | Lượt tải: 0
Bạn đang xem trước 20 trang nội dung tài liệu Khóa luận So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Hoàng Quỳnh
SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO
BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
HÀ NỘI - 2009
2
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Lê Hoàng Quỳnh
SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO
BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT
KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY
Ngành: Công nghệ thông tin
Cán bộ hướng dẫn: PGS. TS. Hà Quang Thụy
Cán bộ đồng hướng dẫn: ThS. Trần Thị Oanh
H NI - 2009
3
Chương 1. KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI
1.1. Khái niệm và vị trí của bài toán gán nhãn từ loại trong xử lý ngôn ngữ
tự nhiên
Mỗi từ trong một ngôn ngữ nói chung đôi khi có thể gắn với nhiều từ loại và việc
giải thích đúng nghĩa một từ phụ thuộc vào việc nó được xác định đúng từ loại hay
không. Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ
trong phạm vi văn bản đó, tức là phân loại các từ thành các lớp từ loại dựa trên
thực tiễn hoạt động ngôn ngữ [abc]. Việc gán nhãn từ loại thường được thể hiện
bằng cách đánh dấu cho mỗi từ một “nhãn” có sẵn theo tập nhãn cho trước, “nhãn” có
thể được nhận biết bằng cách viết hoa và đi liền với từ mà nó xác định, hoặc phân cách
với từ mà nó xác định bằng dấu “/”.
• Input: Một chuỗi các từ và tập nhãn từ loại (Ví dụ như chuỗi các từ “Book that
flight.” và tập nhãn từ loại Penn Treebank của tiếng Anh.)
• Output: Một nhãn tốt nhất cho từng từ trong chuỗi từ đã được đưa ra (Ví dụ:,
đối với chuỗi từ “Book that flight.” thì nhãn thích hợp tương ứng cho từng từ sẽ
là Book/VB that/DT flight/NN ./.)
Gán nhãn từ loại là một công việc quan trọng và bắt buộc phải có đối với hầu hết
các ứng dụng xử lý ngôn ngữ tự nhiên. Nếu coi quá trình xử lý ngôn ngữ tự nhiên gồm
các bước: tiền xử lý văn bản, phân tích hình thái, phân tích cú pháp và phân tích ngữ
nghĩa thì gán nhãn từ loại thuộc vào bước phân tích hình thái. Bước này có nhiệm vụ
phân tích câu thành một bảng các từ (hay cụm từ) riêng biệt, đồng thời kèm theo tất cả
các thông tin về từ đó, như là: từ loại (part-of-speech), phạm trù ngữ pháp (category),
các biến cách của từ, tiền tố, hậu tố của từ (nếu có). [abc]
1.2. Các vấn đề cơ bản của bài toán gán nhãn từ loại
Nếu một từ chỉ có một nhãn và ta có thể xây dựng được một từ điển hữu hạn các
từ và nhãn tương ứng của nó thì chắc chắn có thể giải quyết được bài toán gán nhãn từ
loại một cách tối ưu. Tuy nhiên, trong thực tế một từ đôi khi có thể có nhiều hơn một
từ loại thích hợp, và ta cũng không thể kiểm soát được toàn bộ các từ có thể xuất hiện
trong văn bản, điều này dẫn đến hai vấn đề mà bài toán gán nhãn từ loại phải đối mặt:
Nhập nhằng từ loại và từ mới.
4
Vấn đề chủ yếu của bài toán gán nhãn từ loại thực chất là việc loại bỏ nhập
nhằng về từ loại, tức là khi một từ có nhiều từ loại, nhưng trong một ngữ cảnh cụ thể,
nó chỉ có thể có một từ loại đúng mà thôi. [abc]
Ví dụ:
• Trong câu “I can can a can”, bộ gán nhãn từ loại sẽ phải đánh dấu từ loại
như sau:
I/PRO can/AUX can/V a/DET can/N”.
• Trong hai câu sau đây, từ “race” được gán nhãn khác nhau:
- Secretariat/NNP is/VBZ expected/VBN to/TO race/VB tomorrow/NN
- People/NNS continue/VBP to/TO inquire/VB the/DT reason/NN for/IN the/DT
race/NN for/IN outer/JJ space/NN
Đây là một vấn đề rất phức tạp và tồn tại trong hầu như tất cả mọi ngôn ngữ mà
ta không thể tránh được, lấy ví dụ như trong tập từ vựng Brown và tập thẻ Brown của
nó trong tiếng Anh thì có 35340 từ không có nhập nhằng (tức là một từ chỉ có đúng
duy nhất một nhãn trong mọi trường hợp), và 4100 từ chứa nhập nhằng (tức là một từ
có thể có từ 2 đến 7 nhãn trong các ngữ cảnh khác nhau) – Kết quả này do Derose tổng
kết năm 1988 [abc], chi tiết cho ở bảng 1 dưới đây:
Bảng 1. Tổng kết số nhãn có thể có của một từ trong tập từ vựng Brown
Số nhãn 1 2 3 4 5 6 7
Số từ 35340 3760 264 61 12 2 1
Nhìn chung, các nhập nhằng từ loại thường được giải quyết bằng cách xét đến
ngữ cảnh mà từ đó xuất hiện, tuy nhiên trong một số trường hợp, ngay cả khi có thông
tin về ngữ cảnh mà một số từ vẫn còn tiềm tàng nhập nhằng về từ loại.
Một vấn đề khác mà bài toán gán nhãn từ loại cần phải xử lý là khi gặp những từ
“lạ” mà bộ gán nhãn không thể giải quyết được bằng những cách thông thường. Trong
trường hợp này, thường thì hệ thống sẽ để nguyên và đánh dấu một từ loại đặc biệt để
chuyển sang phần xử lý tên riêng (proper name) hay từ mới (unknown word) [abc].
5
1.3. Tập nhãn từ loại
Từ loại là những lớp từ có cùng bản chất ngữ pháp, được phân chia theo ý nghĩa
khái quát, theo khả năng kết hợp với các từ ngữ khác trong ngữ lưu và thực hiện
những chức năng ngữ pháp nhất định ở trong câu (Đinh Văn Đức. Ngữ pháp tiếng Việt
– Từ loại [abc]). Trong thực tế, các tập nhãn sử dụng cho việc gán nhãn từ loại thường
được xây dựng và phát triển từ các lớp cơ bản là các lớp từ đóng (Closed word class,
function word class, còn được gọi là các từ chức năng , là một tập cố định và không
thể mở rộng, các lớp này thường chỉ chứa một số lượng ít các từ có liên quan. Ví dụ:
giới từ, mạo từ, đại từ, số đếm, ...) và các lớp từ mở (Open class, là các lớp từ có khả
năng mở rộng bằng cách tạo thêm từ mới hoặc “mượn” từ các ngôn ngữ khác. Có 4
lớp tử mở chính là danh từ - nouns, động từ - verb, tính từ - adjective và một phần của
phó từ - [adverb]). Thường thì một lớp từ sẽ được chia thành nhiều từ loại theo các đặc
tính riêng nào đó.
Chỉ xét riêng đối với Tiếng Anh, cho đến hiện nay đã có rất nhiều tập nhãn từ
loại khác nhau được xây dựng và sử dụng [abc].
Hình 1. Một số tập nhãn từ loại cho Tiếng Anh
Có thể kể đến một số tập nhãn từ loại điển hình như:
+ Brown corpus (Francis, 1979; Francis and Kucera, 1982): 87 nhãn
+ Penn Treebank (Marcus et al., 1993): 45 nhãn
6
Bảng 2. Tập nhãn từ loại Penn Treebank
+ Lancaster UCREL C5 (Dùng để gán nhãn BNC – British National Corpus;
Garside et al., 1997): 61 nhãn
+ Lancaster C7: 145 nhãn
Việc chọn tập nhãn ảnh hướng rất lớn đến độ khó của bài toán gán nhãn từ loại.
Chọn tập nhãn lớn sẽ làm tăng độ khó nhưng tập nhãn nhỏ hơn có thể không đủ
đáp ứng cho một mục đích nhất định nào đó. Việc chọn tập nhãn nào sẽ tùy thuộc vào
từng ứng dụng cụ thể, nói cách khác là tùy thuộc vào số lượng thông tin mà ứng dụng
đó đòi hỏi. Như vậy, cần phải có sự cân đối giữa:
• Có được lượng thông tin rõ ràng hơn (Tức là phạm vi phân lớp từ loại nhỏ hơn,
chia thành nhiều từ loại hơn dựa trên nhiều yếu tố thể hiện sự khác biệt).
• Có khả năng tiến hành thực hiện việc gán nhãn (Tức là số lượng các từ loại
càng ít càng dễ tiến hành).
7
Tức là cần phải có một sự thoả hiệp để xây dựng được một bộ nhãn (bộ chú
thích, bộ thẻ) từ loại không quá lớn và có chất lượng.
Đối với tiếng Việt, việc thiết kế một tập nhãn từ loại còn vấp phải một vấn đề
lớn, đó là ngay trong tiếng Việt thì vấn đề từ loại vẫn còn gây nhiều tranh cãi. Theo
Diệp Quang Ban [abc], việc phân định từ loại phải dựa trên các tiêu chí sau đây:
• Tiêu chuẩn 1 - Ý nghĩa khái quát của từ. Các từ loại là những nhóm từ rất to lớn
về khối lượng mà mỗi nhóm có một đặc trưng phân loại: tính vật thể, phẩm
chất, hành động hoặc trạng thái … Ví dụ, những từ như: nhà, bàn, học sinh,
con, quyển, sự … được phân vào lớp danh từ, vì ý nghĩa từ vựng của chúng
đượi khái quát hóa và trừu tượng hóa thành ý nghĩa thực thể - ý nghĩa phạm trù
ngữ pháp của danh từ.
• Tiêu chuẩn 2 - Khả năng kết hợp với các từ ngữ khác trong ngữ lưu. Với ý
nghĩa khái quát, các từ có thể có khả năng tham gia vào một kết hợp có nghĩa.
Ở mỗi vị trí của kết hợp có thể xuất hiện những từ có khả năng lần lượt thay thế
nhau, trong khi đó, ở các vị trí khác nhau trong kết hợp, các từ còn lại tạo ra bối
cảnh cho sự xuất hiện khả năng thay thế của những từ nói trên. Những từ cùng
xuất hiện trong cùng một bối cảnh, có khả năng thay thế nhau ở cùng một vị trí,
có tình chất thường xuyên, được tập hơn vào một lớp từ. Vận dụng vào tiếng
Việt, những từ; nhà, bàn, cát, đá … có thể xuất hiện và thay thế nhau trong kết
hợp kiểu: nhàn ày, bàn này, cát này, đá này … và được xếp vào lớp danh từ.
Chúng không thể xuất hiện và thay thế cho nhau trong kết hợp kiểu: hãy ăn, hãy
mua, ăn xong, mua xong … vốn là kiểu kết hợp của động từ.
• Tiêu chuẩn 3 - Chức năng ngữ pháp. Tham gia vào cấu tạo câu, các từ có thể
đứng ở một hay một số vị trí nhất định trong câu, hoặc có thể thay thế nhau ở vị
trí đó, và cùng biểu thị một mối quan hệ về chức năng cú pháp với các thành
phần khác trong cấu tạo câu, có thể phân vào một từ loại. Ví dụ, các từ; nhà,
bàn, cát, đá … có thể đứng ở nhiều vị trí trong câu. Chúng có thể thay thế nhau
ở những vị trí đó, và có quan hệ về chức năng giống nhau với các thành phần
khác trong câu ở mỗi vị trí, nhưng thường ở vị trí chủ ngữ trong quan hệ với vị
ngữ. Chủ ngữ và vị ngữlà hai chức năng cú pháp cơ bản, chức năng chủ ngữ là
chức năng cú pháp chủ yếu để phân loại các từ nói trên vào lớp danh từ; còn
chức năng vị ngữ lại là chức năng cú pháp chủ yếu của các động từ và tính từ
…
8
Có hai dạng tập nhãn từ loại thường được sử dụng cho các công cụ gán nhãn từ
loại tiếng Việt [abc]:
• Loại thứ nhất, xuất phát từ tập gồm 8 nhãn từ loại tiếng Việt thông dụng được
các nhà nghiên cứu ngôn ngữ học công nhận nhiều nhất (bao gồm: danh từ,
động từ, tính từ, đại từ, phụ từ, kết từ, trợ từ, cảm từ) để xây dựng tập nhãn
“mịn” hơn bằng cách phân nhỏ mỗi từ loại trên thành các tiểu từ loại. Việc phân
nhỏ này dựa trên nền tảng là các tiểu loại từ được nêu ra trong cuốn Ngữ pháp
tiếng Việt của Ủy ban khoa học xã hội Việt Nam, xuất bản năm 1993, có bổ
sung thêm một số nhãn từ loại để tránh trường hợp một từ mang cùng một lúc
nhiều nhãn từ loại (chẳng hạn động từ ngoại động chỉ cảm nghĩ hay động từ nội
động chỉ cảm nghĩ). Tùy thuộc vào từng loại ứng dụng xem cần thông tin cú
pháp và từ vựng ở mức nào mà việc xây dựng, xác định tập nhãn từ loại sẽ
dừng ở mức thô hay mịn khác nhau. Hiện nay, ở Việt Nam đã có một số tập
nhãn từ loại được xây dựng, chủ yếu ở mức thô, tiêu biểu có thể kể đến bộ nhãn
VnPOStag của tác giả Trần Thị Oanh gồm 14 nhãn, 01 nhãn không xác định và
các nhãn ký hiệu đặc biệt khác; bộ VietTreeBank gồm 16 nhãn và 01 nhãn cho
từ không phân loại được, … Bộ nhãn gồm nhiều nhãn nhất hiện nay được xây
dựng bởi nhóm tác giả Nguyễn Thị Minh Huyền sử dụng cho công cụ VnQtag
gồm 48 nhãn và 01 nhãn không xác định.
• Loại thứ hai, tập nhãn tiếng Việt được xây dựng thông qua việc xây dựng kho
ngữ liệu song ngữ Anh-Việt mà trong đó các câu tiếng Việt đã được gán nhãn
từ loại chính xác nhờ kết quả liên kết từ Anh-Việt và phép chiếu từ loại từ Anh
sang Việt. Tiêu biểu là trong nghiên cứu “Gán nhãn từ loại tự động cho Tiếng
Việt” của nhóm tác giả Đinh Điền xây dựng tập nhãn quy chiếu từ tập nhãn
tiếng Anh Brown Corpus.
1.4. Quá trình gán nhãn từ loại
Quá trình gán nhãn từ loại có thể chia làm 3 bước [abc]:
• Giai đoạn tiền xử lý: phân tách xâu ký tự thành chuỗi các từ. Giai đoạn này có
thể đơn giản hay phức tạp tuỳ theo ngôn ngữ và quan niệm về đơn vị từ vựng.
Chẳng hạn đối với tiếng Anh hay tiếng Pháp, việc phân tách từ phần lớn là dựa
vào các ký hiệu trắng. Tuy nhiên vẫn có những từ ghép hay những cụm từ gây
tranh cãi về cách xử lý. Trong khi đó với tiếng Việt thì dấu trắng càng không
9
phải là dấu hiệu để xác định ranh giới các đơn vị từ vựng do tần số xuất hiện từ
ghép rất cao.
• Khởi tạo gán nhãn, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có
thể có. Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho ngữ liệu
đã gán nhãn bằng tay. Đối với một từ mới chưa xuất hiện trong cơ sở ngữ liệu
thì có thể dùng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn. Trong
các ngôn ngữ biến đổi hình thái người ta cũng dựa vào hình thái từ để đoán
nhận lớp từ loại tương ứng của từ đang xét.
• Quyết định kết quả gán nhãn, đó là giai đoạn loại bỏ nhập nhằng, tức là lựa
chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn khởi tạo
nói trên. Có nhiều phương pháp để thực hiện việc này, trong đó người ta phân
biệt chủ yếu các phương pháp dựa vào quy tắc ngữ pháp mà đại diện nổi bật là
phương pháp Brill và các phương pháp xác suất. Ngoài ra còn có các hệ thống
sử dụng mạng nơ-ron, các hệ thống lai sử dụng kết hợp tính toán xác suất và
ràng buộc ngữ pháp, gán nhãn nhiều tầng.
Hình dưới đây cho ta mô hình tổng quát cho bài toán gán nhãn từ loại [abc]:
Hình 2. Mô hình tổng quát của bài toán gán nhãn từ loại
Hiện nay, bài toán gán nhãn từ loại cho tiếng Anh đã được giải quyết khá tốt, đạt
độ chính xác cao (Khoảng hơn 97%), bên cạnh việc hoàn thiện hơn nữa các bộ gán
nhãn đã có, ngày càng nhiều bộ gán nhãn mới ra đời, đem lại kết quả tiến gần tới mức
tối ưu. Tuy nhiên, đối với các ngôn ngữ khác, đặc biệt là các ngôn ngữ tượng hình
(như tiếng Trung Quốc, Nhật, Hàn Quốc …), các ngôn ngữ của Nga, Ấn Độ, A Rập,
Thái Lan … cũng như đối với tiếng Việt thì bài toán gán nhãn từ loại vẫn là một thách
10
thức lớn, các phương pháp và công cụ đã được xây dựng gần như hoàn thiện cho
Tiếng Anh khi đem áp dụng cho các ngôn ngữ khác loại trên thường đưa lại kết quả
thấp hoặc chưa đáp ứng được nhu cầu ứng dụng. Như vậy, yêu cầu đặt ra với từng
ngôn ngữ là phải kế thừa, tận dụng được các phương pháp sẵn có, tiến hành hiệu chỉnh
hoặc đề xuất ra các hướng tiếp cận mới sao cho phù hợp với đặc điểm riêng của từng
ngôn ngữ.
1.5. Ứng dụng của bài toán gán nhãn từ loại
• Như đã nói ở phần 1.1, gán nhãn từ loại thuộc vào bước phân tích hình thái
trong xử lý ngôn ngữ tự nhiên. Đây là bước tiền xử lý cho các phần tiếp theo
trong quá trình xử lý ngôn ngữ tự nhiên như phân tích cú pháp, phân tích ngữ
nghĩa, …
Hình 3. Các bước xử lý ngôn ngữ tự nhiên
• Khi hệ thống văn bản đã được gán nhãn, hay nói cách khác là đã được chú thích
từ loại thì nó sẽ được ứng dụng rộng rãi trong các hệ thống tìm kiếm thông tin,
trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng
như trong các hệ thống dịch máy.
• Một trong những ứng dụng thường được nhắc đến nhiều nhất của gán nhãn từ
loại là trong hệ thống dịch máy. Cho đến nay, sau hơn 50 năm phát triển, dịch
11
máy chứng tỏ là một ứng dụng vô cùng thiết thực, đồng thời cũng là một bài
toán khá hóc búa đặt ra cho các nhà khoa học trên toàn thế giới. Từ đầu thập
niên 1960, các nhà khoa học đã đúc kết lại ba chiến lược dịch máy cơ bản, đó là
dịch trực tiếp, dịch thông qua ngôn ngữ trung gian và dịch dựa trên chuyển đổi.
Và qua thực tế, chiến lược dịch dựa trên chuyển đổi đã khẳng định được tính
hiệu quả và tiềm năng của nó. Trong hệ dịch dựa trên sự chuyển đổi, khối
chuyển đổi cây cú pháp (cấu trúc) giữ một vai trò quan trọng, quyết định chất
lượng hệ dịch. Khối này phụ thuộc rất lớn vào sự chính xác của quá trình phân
tích ở bước trước, trong đó có bộ phận gán nhãn từ loại, giả sử như các từ trong
cây cú pháp bị gán nhãn từ loại sai dẫn đến cây cú pháp của câu cũng bị sai.
• Gán nhãn từ loại cũng là một bước quan trọng để xây dựng hệ thống hệ thống
text-to-speech.
• Thành công của việc gán nhãn từ loại tiếng Việt sẽ là cơ sở cho những bước đi
tiếp theo trong việc xử lý tiếng Việt, như: xác định ranh giới ngữ (danh ngữ,
động ngữ, …), phân tích cú pháp, phân tích ngữ nghĩa, …
• …
12
Chương 2. CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI
Như đã nói ở chương I, bài toán gán nhãn từ loại là một trong những bài toán cơ
bản của xử lý ngôn ngữ tự nhiên và được quan tâm từ rất sớm, cùng với đó là sự xuất
hiện của rất nhiều phương pháp giải quyết bài toán này, cho đến ngày nay, việc hoàn
thiện các phương pháp đã có và xây dựng các phương pháp mới nhằm đạt được kết
quả tốt hơn vẫn là mục đích của nhiều nghiên cứu.
Sơ đồ dưới đây điểm qua một vài phương pháp cơ bản nổi bật theo thời gian:
Hình 4. Một số phương pháp giải quyết bài toán gán nhãn từ loại
Theo [abc], hầu hết các thuật toán được sử dụng để giải quyết bài toán gán nhãn
từ loại thuộcvào một trong hai loại: gán nhãn dựa trên luật và gán nhãn xác suất.
2.1. Phương pháp gán nhãn thủ công
Đây là phương pháp gán nhãn từ loại ra đời sớm nhất, các bộ gán nhãn “sơ khai”
đều thực hiện theo phương pháp này. Nội dung chính của phương pháp gán nhãn thủ
công (hand-coded) là xây dựng một cơ sở dữ liệu lớn các “luật” được viết bằng tay, vì
vậy phương pháp này còn được gọi là phương pháp gán nhãn dựa trên hệ luật. Các luật
được xây dựng dựa vào ngữ cảnh chứa từ đang xét nhằm loại bỏ nhập nhằng nếu từ đó
có thể có nhiều nhãn từ loại thích hợp, ví dụ, nếu một từ nhập nhằng đang xét đi sau
một từ chỉ định thì nó có xu hướng là một danh từ hơn là một động từ.
Đại diện tiêu biểu cho nhóm các phương pháp thủ công dựa trên hệ luật này là
ENGTWOL (Voutilainen, 1995) [abc].
Về thực chất, phương pháp này dựa trên kỹ thuật hai bước dưới đây:
• Bước 1: Xác định cho mỗi từ một danh sách các từ loại có khả năng của nó.
13
Đối với ENGTWOL, việc này được thực hiện mởi một bộ phân tích hình thái hai
mức độ (Máy chuyển hữu hạn trạng thái).
Ví dụ: Để gán nhãn từ loại cho câu “Pavlov had shown that salivation”, ở bước
này, bộ gán nhãn tạo một danh sách tất cả các nhãn có thể cho từng từ như sau:
Pavlov: PAVLOV N NOM SG PROPER
had : HAVE V PAST VFIN SVO
HAVE PCP2 SVOO
shown : SHOW PCP2 SVOO SVO SG
that : ADV
PRON DEM SG
DET CENTRAL DEM SG
CS
salivation: N NOM SG
• Bước 2: Sử dụng một danh sách các ràng buộc không có nhập nhằng (các luật
nếu-thì), và sử dụng các thông tin về ngữ cảnh để chọn ra một nhãn thích hợp
nhất trong số các nhãn có thể. Như vậy, ở bước này, các ràng buộc đóng vai trò
như một bộ lọc (Filters). Với ENGTWOL, danh sách các ràng buộc gồm
khoảng 1100 ràng buộc.
Trên thực tế, mỗi luật trên đều chứa một số lượng lớn các ngoại lệ. Thậm chí
ngay cả khi người thiết kế tìm cách giải quyết hết các ngoại lệ mà họ nghĩ đến thì vẫn
tồn tại những trường hợp chỉ xuất hiện khi hệ thống được đưa vào thực nghiệm. Hơn
nữa, một hệ thống luật dù rất đồ sộ cũng khó có thể bao quát được hết tất cả các trường
hợp ngôn ngữ, vì vậy, hiện nay các phương pháp dựa trên luật thường chỉ được sử
dụng bằng cách kết hợp bổ sung với các phương pháp khác.
Đối với tiếng Việt, nhóm nghiên cứu của Nguyễn Quang Châu [abc] đề xuất một
phương pháp gán nhãn từ loại cho TiếngViệt dựa trên văn phong và tính toán xác suất.
Nhóm tác giả xây dựng bộ gán nhãn là một hệ thống kết hợp bộ gán nhãn tri-gram và
bộ gán nhãn dựa trên văn phong. Văn phong là đặc trưng, cách viết văn riêng của mỗi
người, mỗi thể loại văn bản. Phương pháp gán nhãn từ loại dựa trên văn phong thực
chất là căn cứ vào cách thể hiện của văn bản trong một ngữ cảnh cụ thể để xác định từ
loại cho các từ, điều này bao hàm việc xác định phải đảm bảo các luật văn phạm của
14
các từ trong câu. Mô hình của phương pháp gán nhãn từ loại dựa trên văn phong được
mô phỏng như sau:
Hình 5. Mô hình của phương pháp gán nhãn từ loại dựa trên văn phong
Trong đó, về phương pháp xây dựng hệ thống luật, nhóm tác giả dựa vào JAPE
(Java Annotation Patterns Engine) để xây dựng được hệ thống trên 270 luật để xác
định cho 48 từ loại (danh từ riêng, đại từ xưng hô, danh từ loại thể, .vv..)
Kết quả thử nghiệm tốt nhất với các tập mẫu đã xây dựng đạt tới độ chính xác
~80% nếu chỉ dùng phương pháp gán nhãn bằng xác suất và đạt ~90% nếu dùng
phương pháp gán nhãn dựa trên văn phong kết hợp với phương pháp xác suất.
2.2. Các phương pháp học máy
Như đã nói ở trên, phương pháp dựa trên luật là một phương pháp thủ công còn
tiềm tàng rất nhiều nhập nhằng. Cùng với đó, việc xây dựng một hệ thống trích chọn
dựa trên các luật là rất tốn công sức, thông thường để xây dựng một hệ thống như vậy
đòi hỏi công sức vài tháng từ một lập trình viên với nhiều kinh nghiệm về ngôn ngữ
học. Giải pháp cho các giới hạn này là phải xây dựng một hệ thống bằng cách nào đó
có thể “tự học”, điều này sẽ giúp giảm bớt sự tham gia của các chuyên gia ngôn ngữ và
làm tăng tính khả chuyển cho hệ thống, các phương pháp như vậy được gọi là các
phương pháp học máy.
Phần này sẽ xem xét một đại diện tiêu biểu của phương pháp học máy giải quyết
nhập nhằng bằng cách sử dụng một bộ dữ liệu huấn luyện để tính toán xác suất của
một từ cho sẵn sẽ được gán với một nhãn nào đó trong ngữ cảnh cho trước, vì bản chất
đó, họ các phương pháp này còn được gọi là các phương pháp xác suất.
15
Xác suất cho một từ, tức là xác suất mà một nhãn cho trước t là thích hợp với
một từ cho trước w được tính bằng công thức:
(2.0)
Để minh họa cho phương pháp xác suất, phần này sẽ giới thiệu một bộ gán nhãn
điển hình sử dụng mô hình Markov ẩn (HMM). Mô hình Markov ẩn [abc] được giới
thiệu và nghiên cứu vào cuối những năm 1960 và đầu những năm 1970, cho đến nay
nó được ứng dụng nhiều trong nhận dạng tiếng nói, tin sinh học và xử lý ngôn ngữ tự
nhiên. HMM lựa chọn một chuỗi nhãn tốt nhất cho toàn bộ câu, thông thường người ta
sử dụng thuật toán Viterbi để tìm chuỗi nhãn tốt nhất đó.
Mô hình HMM có thể được xây dựng bởi automat hữu hạn trạng thái
(probabilistic finite state automata) với các tham số biểu diễn xác suất chuyển trạng
thái và xác suất sinh dữ liệu quan sát tại mỗi trạng thái. Các trạng thái trong mô hình
HMM được xem là bị ẩn đi bên dưới dữ liệu quan sát sinh ra do mô hình. Quá trình
sinh ra chuỗi dữ liệu quan sát trong HMM thông qua một loạt các bước chuyển trạng
thái xuất phát từ một trong các trạng thái bắt đầu và dừng lại ở một trạng thái kết thúc.
Tại mỗi trạng thái, một thành phần của chuỗi quan sát được sinh ra trước khi chuyển
sang trạng thái tiếp theo. Trong bài toán gán nhãn từ loại dữ liệu, ta có thể xem tương
ứng mỗi trạng thái với một trong nhãn từ loại: NN, NP, VB ...và dữ liệu quan sát là các
từ trong câu. Mặc dù các lớp này không sinh ra các từ, nhưng mỗi lớp được gán cho
một từ bất kì có thể xem như là sinh ra từ này theo một cách thức nào đó.
Giả sử, với câu đầu vào W (w1, w2,…, wn), ta cần tìm một chuỗi các thẻ tốt nhất
cho toàn bộ câu, trong đó mỗi thẻ tương ứng với một từ của câu đầu vào T (t1, t2,…,
tn). Bộ gán nhãn sử dụng mô hình HMM sẽ tìm chuỗi các nhãn sao cho giá trị của tích
P(Từ |nhãn) * P (nhãn | n nhãn trước đó) là cực đại, tức là thỏa mãn công thức (2.1)
(2.1)
Sử dụng luật Bayes, P(T|W) được viết theo công thức (2.2)
(2.2)
Ta đang quan tâm tới việc tìm chuỗi nhãn phù hợp nhất làm cực đại công thức
(2.2) nên mẫu số trong tất cả các trường hợp là giống nhau, vì vậy ta có thể loại bỏ nó.
Do đó, bài toán trở thành tìm chuỗi các nhãn thỏa mãn công thức (2.3)
( , )( | )
( )
f t wP t w
f w
=
ˆ ( | )TT argmax P T Wτ∈=
( ) ( | )( | )
( )
P T P W TP T W
P W
=
16
(2.3)
Áp dụng luật chuỗi xác suất, ta có công thức (2.4)
(2.4)
Vẫn không có phương pháp hiệu quả để tính xác suất của chuỗi này một cách
chính xác, vì nó yêu cầu quá nhiều dữ liệu. Tuy nhiên, xác suất có thể được xấp xỉ bởi
một xác suất đơn giản hơn bằng các áp dụng các giả thiết độc lập điều kiện (giả thiết
rằng mỗi từ đều là độc lập với các từ khác và đặc tính của một từ chỉ phụ thuộc vào
nhãn của nó). Mặc dù các giả thiết này không đúng trong thực tế, nhưng trong thực
hành thì việc đánh giá đó có thể được chấp nhận. Ở đây, ta sử dụng giả thiết N-gram
để mô hình hóa xác suất chuỗi từ
(2.5a)
Cụ thể ta dùng mô hình phổ biến nhất là mô hình tri-gram.
(2.5b)
Đầu tiên, ta làm đơn giản hóa rằng xác suất của một từ thì chỉ phụ thuộc vào
nhãn của nó:
(2.6)
Tiếp theo, ta giả thiết rằng các nhãn phía trước có thể được xấp xỉ bởi 2 nhãn
trước và gần nó nhất:
(2.7)
Vì vậy, công thức (2.1) được biến đổi tương đương với công thức (2.8) dưới đây,
ta phải lựa chọn chuỗi nhãn làm cực đại công thức (2.8) này
(2.8)
Các thành phần thừa số trong công thức (2.8) có thể được tính toán từ tập dữ liệu
huấn luyện của mô hình. Chú ý rằng để có thể tránh xác suất bằng 0 ta cần sửa dụng
các kỹ thuật làm trơn.
ˆ ( ) ( | )TT argmax P T P W Tτ∈=
( ) ( | ) ( | ... ) ( | ... )n i 1 1 i 1 i 1 i i 1 1 i 1 i 1i 1P T P W T P w w t w t t P t w t w t− − − −==∏
( | ... ) ( | )i 1 1 i 1 i 1 i i iP w w t w t t P w t− − =
( | ... ) ( | )i 1 1 i 1 i 1 i i-2 i-1P t w t w t P t t t− − =
( ) ( | ) ( | )[ ( | )]
n n
1 2 1 i i-2 i-1 i i
i 3 i 1
P t P t t P t t t P w t
= =
∏ ∏
n
1 n i i-1
i=1
P(t ,...,t )= P(t | t )∏
( ) ( ) ( )1 2 3 2 1 3 2P t ,t ,t = P t | t P t | t
17
Ta có thể mô hình hóa HMM dưới dạng một đồ thị có hướng như sau:
Hình 6: Đồ thị có hướng mô tả mô hình HMM
Ví dụ, mô hình HMM tiến hành gán nhãn từ loại cho câu “Fed raises interest
rates”:
Hình 7. Một ví dụ gán nhãn bởi mô hình HMM
Như đã nói ở trên, thông thường trong mô hình HMM thuật
Các file đính kèm theo tài liệu này:
- K50_Le_Hoang_Quynh_Thesis.pdf