Khóa luận So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại Tiếng Việt

Mỗi từtrong một ngôn ngữnói chung đôi khi có thểgắn với nhiều từloại và việc

giải thích đúng nghĩa một từphụthuộc vào việc nó được xác định đúng từloại hay

không. Công việc gán nhãn từloại cho một văn bản là xác định từloại của mỗi từ

trong phạm vi văn bản đó, tức là phân loại các từthành các lớp từloại dựa trên

thực tiễn hoạt động ngôn ngữ[abc].Việc gán nhãn từloại thường được thểhiện

bằng cách đánh dấu cho mỗi từmột “nhãn” có sẵn theo tập nhãn cho trước, “nhãn” có

thể được nhận biết bằng cách viết hoa và đi liền với từmà nó xác định, hoặc phân cách

với từmà nó xác định bằng dấu “/”.

• Input: Một chuỗi các từvà tập nhãn từloại (Ví dụnhưchuỗi các từ“Book that

flight.” và tập nhãn từloại Penn Treebank của tiếng Anh.)

• Output: Một nhãn tốt nhất cho từng từtrong chuỗi từ đã được đưa ra (Ví dụ:,

đối với chuỗi từ“Book that flight.”thì nhãn thích hợp tương ứng cho từng từsẽ

là Book/VB that/DT flight/NN ./.)

Gán nhãn từloại là một công việc quan trọng và bắt buộc phải có đối với hầu hết

các ứng dụng xửlý ngôn ngữtựnhiên. Nếu coi quá trình xửlý ngôn ngữtựnhiên gồm

các bước: tiền xửlý văn bản, phân tích hình thái, phân tích cú pháp và phân tích ngữ

nghĩa thì gán nhãn từloại thuộc vào bước phân tích hình thái. Bước này có nhiệm vụ

phân tích câu thành một bảng các từ(hay cụm từ) riêng biệt, đồng thời kèm theo tất cả

các thông tin vềtừ đó, nhưlà: từloại (part-of-speech), phạm trù ngữpháp (category),

các biến cách của từ, tiền tố, hậu tốcủa từ(nếu có). [abc]

57 trang | Chia sẻ: luyenbuizn | Lượt xem: 1100 | Lượt tải: 0

Bạn đang xem trước 20 trang nội dung tài liệu Khóa luận So sánh một số phương pháp học máy cho bài toán gán nhãn từ loại Tiếng Việt, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

1 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin HÀ NỘI - 2009 2 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Lê Hoàng Quỳnh SO SÁNH MỘT SỐ PHƯƠNG PHÁP HỌC MÁY CHO BÀI TOÁN GÁN NHÃN TỪ LOẠI TIẾNG VIỆT KHOÁ LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUY Ngành: Công nghệ thông tin Cán bộ hướng dẫn: PGS. TS. Hà Quang Thụy Cán bộ đồng hướng dẫn: ThS. Trần Thị Oanh H NI - 2009 3 Chương 1. KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI 1.1. Khái niệm và vị trí của bài toán gán nhãn từ loại trong xử lý ngôn ngữ tự nhiên Mỗi từ trong một ngôn ngữ nói chung đôi khi có thể gắn với nhiều từ loại và việc giải thích đúng nghĩa một từ phụ thuộc vào việc nó được xác định đúng từ loại hay không. Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó, tức là phân loại các từ thành các lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ [abc]. Việc gán nhãn từ loại thường được thể hiện bằng cách đánh dấu cho mỗi từ một “nhãn” có sẵn theo tập nhãn cho trước, “nhãn” có thể được nhận biết bằng cách viết hoa và đi liền với từ mà nó xác định, hoặc phân cách với từ mà nó xác định bằng dấu “/”. • Input: Một chuỗi các từ và tập nhãn từ loại (Ví dụ như chuỗi các từ “Book that flight.” và tập nhãn từ loại Penn Treebank của tiếng Anh.) • Output: Một nhãn tốt nhất cho từng từ trong chuỗi từ đã được đưa ra (Ví dụ:, đối với chuỗi từ “Book that flight.” thì nhãn thích hợp tương ứng cho từng từ sẽ là Book/VB that/DT flight/NN ./.) Gán nhãn từ loại là một công việc quan trọng và bắt buộc phải có đối với hầu hết các ứng dụng xử lý ngôn ngữ tự nhiên. Nếu coi quá trình xử lý ngôn ngữ tự nhiên gồm các bước: tiền xử lý văn bản, phân tích hình thái, phân tích cú pháp và phân tích ngữ nghĩa thì gán nhãn từ loại thuộc vào bước phân tích hình thái. Bước này có nhiệm vụ phân tích câu thành một bảng các từ (hay cụm từ) riêng biệt, đồng thời kèm theo tất cả các thông tin về từ đó, như là: từ loại (part-of-speech), phạm trù ngữ pháp (category), các biến cách của từ, tiền tố, hậu tố của từ (nếu có). [abc] 1.2. Các vấn đề cơ bản của bài toán gán nhãn từ loại Nếu một từ chỉ có một nhãn và ta có thể xây dựng được một từ điển hữu hạn các từ và nhãn tương ứng của nó thì chắc chắn có thể giải quyết được bài toán gán nhãn từ loại một cách tối ưu. Tuy nhiên, trong thực tế một từ đôi khi có thể có nhiều hơn một từ loại thích hợp, và ta cũng không thể kiểm soát được toàn bộ các từ có thể xuất hiện trong văn bản, điều này dẫn đến hai vấn đề mà bài toán gán nhãn từ loại phải đối mặt: Nhập nhằng từ loại và từ mới. 4 Vấn đề chủ yếu của bài toán gán nhãn từ loại thực chất là việc loại bỏ nhập nhằng về từ loại, tức là khi một từ có nhiều từ loại, nhưng trong một ngữ cảnh cụ thể, nó chỉ có thể có một từ loại đúng mà thôi. [abc] Ví dụ: • Trong câu “I can can a can”, bộ gán nhãn từ loại sẽ phải đánh dấu từ loại như sau: I/PRO can/AUX can/V a/DET can/N”. • Trong hai câu sau đây, từ “race” được gán nhãn khác nhau: - Secretariat/NNP is/VBZ expected/VBN to/TO race/VB tomorrow/NN - People/NNS continue/VBP to/TO inquire/VB the/DT reason/NN for/IN the/DT race/NN for/IN outer/JJ space/NN Đây là một vấn đề rất phức tạp và tồn tại trong hầu như tất cả mọi ngôn ngữ mà ta không thể tránh được, lấy ví dụ như trong tập từ vựng Brown và tập thẻ Brown của nó trong tiếng Anh thì có 35340 từ không có nhập nhằng (tức là một từ chỉ có đúng duy nhất một nhãn trong mọi trường hợp), và 4100 từ chứa nhập nhằng (tức là một từ có thể có từ 2 đến 7 nhãn trong các ngữ cảnh khác nhau) – Kết quả này do Derose tổng kết năm 1988 [abc], chi tiết cho ở bảng 1 dưới đây: Bảng 1. Tổng kết số nhãn có thể có của một từ trong tập từ vựng Brown Số nhãn 1 2 3 4 5 6 7 Số từ 35340 3760 264 61 12 2 1 Nhìn chung, các nhập nhằng từ loại thường được giải quyết bằng cách xét đến ngữ cảnh mà từ đó xuất hiện, tuy nhiên trong một số trường hợp, ngay cả khi có thông tin về ngữ cảnh mà một số từ vẫn còn tiềm tàng nhập nhằng về từ loại. Một vấn đề khác mà bài toán gán nhãn từ loại cần phải xử lý là khi gặp những từ “lạ” mà bộ gán nhãn không thể giải quyết được bằng những cách thông thường. Trong trường hợp này, thường thì hệ thống sẽ để nguyên và đánh dấu một từ loại đặc biệt để chuyển sang phần xử lý tên riêng (proper name) hay từ mới (unknown word) [abc]. 5 1.3. Tập nhãn từ loại Từ loại là những lớp từ có cùng bản chất ngữ pháp, được phân chia theo ý nghĩa khái quát, theo khả năng kết hợp với các từ ngữ khác trong ngữ lưu và thực hiện những chức năng ngữ pháp nhất định ở trong câu (Đinh Văn Đức. Ngữ pháp tiếng Việt – Từ loại [abc]). Trong thực tế, các tập nhãn sử dụng cho việc gán nhãn từ loại thường được xây dựng và phát triển từ các lớp cơ bản là các lớp từ đóng (Closed word class, function word class, còn được gọi là các từ chức năng , là một tập cố định và không thể mở rộng, các lớp này thường chỉ chứa một số lượng ít các từ có liên quan. Ví dụ: giới từ, mạo từ, đại từ, số đếm, ...) và các lớp từ mở (Open class, là các lớp từ có khả năng mở rộng bằng cách tạo thêm từ mới hoặc “mượn” từ các ngôn ngữ khác. Có 4 lớp tử mở chính là danh từ - nouns, động từ - verb, tính từ - adjective và một phần của phó từ - [adverb]). Thường thì một lớp từ sẽ được chia thành nhiều từ loại theo các đặc tính riêng nào đó. Chỉ xét riêng đối với Tiếng Anh, cho đến hiện nay đã có rất nhiều tập nhãn từ loại khác nhau được xây dựng và sử dụng [abc]. Hình 1. Một số tập nhãn từ loại cho Tiếng Anh Có thể kể đến một số tập nhãn từ loại điển hình như: + Brown corpus (Francis, 1979; Francis and Kucera, 1982): 87 nhãn + Penn Treebank (Marcus et al., 1993): 45 nhãn 6 Bảng 2. Tập nhãn từ loại Penn Treebank + Lancaster UCREL C5 (Dùng để gán nhãn BNC – British National Corpus; Garside et al., 1997): 61 nhãn + Lancaster C7: 145 nhãn Việc chọn tập nhãn ảnh hướng rất lớn đến độ khó của bài toán gán nhãn từ loại. Chọn tập nhãn lớn sẽ làm tăng độ khó nhưng tập nhãn nhỏ hơn có thể không đủ đáp ứng cho một mục đích nhất định nào đó. Việc chọn tập nhãn nào sẽ tùy thuộc vào từng ứng dụng cụ thể, nói cách khác là tùy thuộc vào số lượng thông tin mà ứng dụng đó đòi hỏi. Như vậy, cần phải có sự cân đối giữa: • Có được lượng thông tin rõ ràng hơn (Tức là phạm vi phân lớp từ loại nhỏ hơn, chia thành nhiều từ loại hơn dựa trên nhiều yếu tố thể hiện sự khác biệt). • Có khả năng tiến hành thực hiện việc gán nhãn (Tức là số lượng các từ loại càng ít càng dễ tiến hành). 7 Tức là cần phải có một sự thoả hiệp để xây dựng được một bộ nhãn (bộ chú thích, bộ thẻ) từ loại không quá lớn và có chất lượng. Đối với tiếng Việt, việc thiết kế một tập nhãn từ loại còn vấp phải một vấn đề lớn, đó là ngay trong tiếng Việt thì vấn đề từ loại vẫn còn gây nhiều tranh cãi. Theo Diệp Quang Ban [abc], việc phân định từ loại phải dựa trên các tiêu chí sau đây: • Tiêu chuẩn 1 - Ý nghĩa khái quát của từ. Các từ loại là những nhóm từ rất to lớn về khối lượng mà mỗi nhóm có một đặc trưng phân loại: tính vật thể, phẩm chất, hành động hoặc trạng thái … Ví dụ, những từ như: nhà, bàn, học sinh, con, quyển, sự … được phân vào lớp danh từ, vì ý nghĩa từ vựng của chúng đượi khái quát hóa và trừu tượng hóa thành ý nghĩa thực thể - ý nghĩa phạm trù ngữ pháp của danh từ. • Tiêu chuẩn 2 - Khả năng kết hợp với các từ ngữ khác trong ngữ lưu. Với ý nghĩa khái quát, các từ có thể có khả năng tham gia vào một kết hợp có nghĩa. Ở mỗi vị trí của kết hợp có thể xuất hiện những từ có khả năng lần lượt thay thế nhau, trong khi đó, ở các vị trí khác nhau trong kết hợp, các từ còn lại tạo ra bối cảnh cho sự xuất hiện khả năng thay thế của những từ nói trên. Những từ cùng xuất hiện trong cùng một bối cảnh, có khả năng thay thế nhau ở cùng một vị trí, có tình chất thường xuyên, được tập hơn vào một lớp từ. Vận dụng vào tiếng Việt, những từ; nhà, bàn, cát, đá … có thể xuất hiện và thay thế nhau trong kết hợp kiểu: nhàn ày, bàn này, cát này, đá này … và được xếp vào lớp danh từ. Chúng không thể xuất hiện và thay thế cho nhau trong kết hợp kiểu: hãy ăn, hãy mua, ăn xong, mua xong … vốn là kiểu kết hợp của động từ. • Tiêu chuẩn 3 - Chức năng ngữ pháp. Tham gia vào cấu tạo câu, các từ có thể đứng ở một hay một số vị trí nhất định trong câu, hoặc có thể thay thế nhau ở vị trí đó, và cùng biểu thị một mối quan hệ về chức năng cú pháp với các thành phần khác trong cấu tạo câu, có thể phân vào một từ loại. Ví dụ, các từ; nhà, bàn, cát, đá … có thể đứng ở nhiều vị trí trong câu. Chúng có thể thay thế nhau ở những vị trí đó, và có quan hệ về chức năng giống nhau với các thành phần khác trong câu ở mỗi vị trí, nhưng thường ở vị trí chủ ngữ trong quan hệ với vị ngữ. Chủ ngữ và vị ngữlà hai chức năng cú pháp cơ bản, chức năng chủ ngữ là chức năng cú pháp chủ yếu để phân loại các từ nói trên vào lớp danh từ; còn chức năng vị ngữ lại là chức năng cú pháp chủ yếu của các động từ và tính từ … 8 Có hai dạng tập nhãn từ loại thường được sử dụng cho các công cụ gán nhãn từ loại tiếng Việt [abc]: • Loại thứ nhất, xuất phát từ tập gồm 8 nhãn từ loại tiếng Việt thông dụng được các nhà nghiên cứu ngôn ngữ học công nhận nhiều nhất (bao gồm: danh từ, động từ, tính từ, đại từ, phụ từ, kết từ, trợ từ, cảm từ) để xây dựng tập nhãn “mịn” hơn bằng cách phân nhỏ mỗi từ loại trên thành các tiểu từ loại. Việc phân nhỏ này dựa trên nền tảng là các tiểu loại từ được nêu ra trong cuốn Ngữ pháp tiếng Việt của Ủy ban khoa học xã hội Việt Nam, xuất bản năm 1993, có bổ sung thêm một số nhãn từ loại để tránh trường hợp một từ mang cùng một lúc nhiều nhãn từ loại (chẳng hạn động từ ngoại động chỉ cảm nghĩ hay động từ nội động chỉ cảm nghĩ). Tùy thuộc vào từng loại ứng dụng xem cần thông tin cú pháp và từ vựng ở mức nào mà việc xây dựng, xác định tập nhãn từ loại sẽ dừng ở mức thô hay mịn khác nhau. Hiện nay, ở Việt Nam đã có một số tập nhãn từ loại được xây dựng, chủ yếu ở mức thô, tiêu biểu có thể kể đến bộ nhãn VnPOStag của tác giả Trần Thị Oanh gồm 14 nhãn, 01 nhãn không xác định và các nhãn ký hiệu đặc biệt khác; bộ VietTreeBank gồm 16 nhãn và 01 nhãn cho từ không phân loại được, … Bộ nhãn gồm nhiều nhãn nhất hiện nay được xây dựng bởi nhóm tác giả Nguyễn Thị Minh Huyền sử dụng cho công cụ VnQtag gồm 48 nhãn và 01 nhãn không xác định. • Loại thứ hai, tập nhãn tiếng Việt được xây dựng thông qua việc xây dựng kho ngữ liệu song ngữ Anh-Việt mà trong đó các câu tiếng Việt đã được gán nhãn từ loại chính xác nhờ kết quả liên kết từ Anh-Việt và phép chiếu từ loại từ Anh sang Việt. Tiêu biểu là trong nghiên cứu “Gán nhãn từ loại tự động cho Tiếng Việt” của nhóm tác giả Đinh Điền xây dựng tập nhãn quy chiếu từ tập nhãn tiếng Anh Brown Corpus. 1.4. Quá trình gán nhãn từ loại Quá trình gán nhãn từ loại có thể chia làm 3 bước [abc]: • Giai đoạn tiền xử lý: phân tách xâu ký tự thành chuỗi các từ. Giai đoạn này có thể đơn giản hay phức tạp tuỳ theo ngôn ngữ và quan niệm về đơn vị từ vựng. Chẳng hạn đối với tiếng Anh hay tiếng Pháp, việc phân tách từ phần lớn là dựa vào các ký hiệu trắng. Tuy nhiên vẫn có những từ ghép hay những cụm từ gây tranh cãi về cách xử lý. Trong khi đó với tiếng Việt thì dấu trắng càng không 9 phải là dấu hiệu để xác định ranh giới các đơn vị từ vựng do tần số xuất hiện từ ghép rất cao. • Khởi tạo gán nhãn, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó có thể có. Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho ngữ liệu đã gán nhãn bằng tay. Đối với một từ mới chưa xuất hiện trong cơ sở ngữ liệu thì có thể dùng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn. Trong các ngôn ngữ biến đổi hình thái người ta cũng dựa vào hình thái từ để đoán nhận lớp từ loại tương ứng của từ đang xét. • Quyết định kết quả gán nhãn, đó là giai đoạn loại bỏ nhập nhằng, tức là lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn khởi tạo nói trên. Có nhiều phương pháp để thực hiện việc này, trong đó người ta phân biệt chủ yếu các phương pháp dựa vào quy tắc ngữ pháp mà đại diện nổi bật là phương pháp Brill và các phương pháp xác suất. Ngoài ra còn có các hệ thống sử dụng mạng nơ-ron, các hệ thống lai sử dụng kết hợp tính toán xác suất và ràng buộc ngữ pháp, gán nhãn nhiều tầng. Hình dưới đây cho ta mô hình tổng quát cho bài toán gán nhãn từ loại [abc]: Hình 2. Mô hình tổng quát của bài toán gán nhãn từ loại Hiện nay, bài toán gán nhãn từ loại cho tiếng Anh đã được giải quyết khá tốt, đạt độ chính xác cao (Khoảng hơn 97%), bên cạnh việc hoàn thiện hơn nữa các bộ gán nhãn đã có, ngày càng nhiều bộ gán nhãn mới ra đời, đem lại kết quả tiến gần tới mức tối ưu. Tuy nhiên, đối với các ngôn ngữ khác, đặc biệt là các ngôn ngữ tượng hình (như tiếng Trung Quốc, Nhật, Hàn Quốc …), các ngôn ngữ của Nga, Ấn Độ, A Rập, Thái Lan … cũng như đối với tiếng Việt thì bài toán gán nhãn từ loại vẫn là một thách 10 thức lớn, các phương pháp và công cụ đã được xây dựng gần như hoàn thiện cho Tiếng Anh khi đem áp dụng cho các ngôn ngữ khác loại trên thường đưa lại kết quả thấp hoặc chưa đáp ứng được nhu cầu ứng dụng. Như vậy, yêu cầu đặt ra với từng ngôn ngữ là phải kế thừa, tận dụng được các phương pháp sẵn có, tiến hành hiệu chỉnh hoặc đề xuất ra các hướng tiếp cận mới sao cho phù hợp với đặc điểm riêng của từng ngôn ngữ. 1.5. Ứng dụng của bài toán gán nhãn từ loại • Như đã nói ở phần 1.1, gán nhãn từ loại thuộc vào bước phân tích hình thái trong xử lý ngôn ngữ tự nhiên. Đây là bước tiền xử lý cho các phần tiếp theo trong quá trình xử lý ngôn ngữ tự nhiên như phân tích cú pháp, phân tích ngữ nghĩa, … Hình 3. Các bước xử lý ngôn ngữ tự nhiên • Khi hệ thống văn bản đã được gán nhãn, hay nói cách khác là đã được chú thích từ loại thì nó sẽ được ứng dụng rộng rãi trong các hệ thống tìm kiếm thông tin, trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng như trong các hệ thống dịch máy. • Một trong những ứng dụng thường được nhắc đến nhiều nhất của gán nhãn từ loại là trong hệ thống dịch máy. Cho đến nay, sau hơn 50 năm phát triển, dịch 11 máy chứng tỏ là một ứng dụng vô cùng thiết thực, đồng thời cũng là một bài toán khá hóc búa đặt ra cho các nhà khoa học trên toàn thế giới. Từ đầu thập niên 1960, các nhà khoa học đã đúc kết lại ba chiến lược dịch máy cơ bản, đó là dịch trực tiếp, dịch thông qua ngôn ngữ trung gian và dịch dựa trên chuyển đổi. Và qua thực tế, chiến lược dịch dựa trên chuyển đổi đã khẳng định được tính hiệu quả và tiềm năng của nó. Trong hệ dịch dựa trên sự chuyển đổi, khối chuyển đổi cây cú pháp (cấu trúc) giữ một vai trò quan trọng, quyết định chất lượng hệ dịch. Khối này phụ thuộc rất lớn vào sự chính xác của quá trình phân tích ở bước trước, trong đó có bộ phận gán nhãn từ loại, giả sử như các từ trong cây cú pháp bị gán nhãn từ loại sai dẫn đến cây cú pháp của câu cũng bị sai. • Gán nhãn từ loại cũng là một bước quan trọng để xây dựng hệ thống hệ thống text-to-speech. • Thành công của việc gán nhãn từ loại tiếng Việt sẽ là cơ sở cho những bước đi tiếp theo trong việc xử lý tiếng Việt, như: xác định ranh giới ngữ (danh ngữ, động ngữ, …), phân tích cú pháp, phân tích ngữ nghĩa, … • … 12 Chương 2. CÁC HƯỚNG TIẾP CẬN BÀI TOÁN GÁN NHÃN TỪ LOẠI Như đã nói ở chương I, bài toán gán nhãn từ loại là một trong những bài toán cơ bản của xử lý ngôn ngữ tự nhiên và được quan tâm từ rất sớm, cùng với đó là sự xuất hiện của rất nhiều phương pháp giải quyết bài toán này, cho đến ngày nay, việc hoàn thiện các phương pháp đã có và xây dựng các phương pháp mới nhằm đạt được kết quả tốt hơn vẫn là mục đích của nhiều nghiên cứu. Sơ đồ dưới đây điểm qua một vài phương pháp cơ bản nổi bật theo thời gian: Hình 4. Một số phương pháp giải quyết bài toán gán nhãn từ loại Theo [abc], hầu hết các thuật toán được sử dụng để giải quyết bài toán gán nhãn từ loại thuộcvào một trong hai loại: gán nhãn dựa trên luật và gán nhãn xác suất. 2.1. Phương pháp gán nhãn thủ công Đây là phương pháp gán nhãn từ loại ra đời sớm nhất, các bộ gán nhãn “sơ khai” đều thực hiện theo phương pháp này. Nội dung chính của phương pháp gán nhãn thủ công (hand-coded) là xây dựng một cơ sở dữ liệu lớn các “luật” được viết bằng tay, vì vậy phương pháp này còn được gọi là phương pháp gán nhãn dựa trên hệ luật. Các luật được xây dựng dựa vào ngữ cảnh chứa từ đang xét nhằm loại bỏ nhập nhằng nếu từ đó có thể có nhiều nhãn từ loại thích hợp, ví dụ, nếu một từ nhập nhằng đang xét đi sau một từ chỉ định thì nó có xu hướng là một danh từ hơn là một động từ. Đại diện tiêu biểu cho nhóm các phương pháp thủ công dựa trên hệ luật này là ENGTWOL (Voutilainen, 1995) [abc]. Về thực chất, phương pháp này dựa trên kỹ thuật hai bước dưới đây: • Bước 1: Xác định cho mỗi từ một danh sách các từ loại có khả năng của nó. 13 Đối với ENGTWOL, việc này được thực hiện mởi một bộ phân tích hình thái hai mức độ (Máy chuyển hữu hạn trạng thái). Ví dụ: Để gán nhãn từ loại cho câu “Pavlov had shown that salivation”, ở bước này, bộ gán nhãn tạo một danh sách tất cả các nhãn có thể cho từng từ như sau: Pavlov: PAVLOV N NOM SG PROPER had : HAVE V PAST VFIN SVO HAVE PCP2 SVOO shown : SHOW PCP2 SVOO SVO SG that : ADV PRON DEM SG DET CENTRAL DEM SG CS salivation: N NOM SG • Bước 2: Sử dụng một danh sách các ràng buộc không có nhập nhằng (các luật nếu-thì), và sử dụng các thông tin về ngữ cảnh để chọn ra một nhãn thích hợp nhất trong số các nhãn có thể. Như vậy, ở bước này, các ràng buộc đóng vai trò như một bộ lọc (Filters). Với ENGTWOL, danh sách các ràng buộc gồm khoảng 1100 ràng buộc. Trên thực tế, mỗi luật trên đều chứa một số lượng lớn các ngoại lệ. Thậm chí ngay cả khi người thiết kế tìm cách giải quyết hết các ngoại lệ mà họ nghĩ đến thì vẫn tồn tại những trường hợp chỉ xuất hiện khi hệ thống được đưa vào thực nghiệm. Hơn nữa, một hệ thống luật dù rất đồ sộ cũng khó có thể bao quát được hết tất cả các trường hợp ngôn ngữ, vì vậy, hiện nay các phương pháp dựa trên luật thường chỉ được sử dụng bằng cách kết hợp bổ sung với các phương pháp khác. Đối với tiếng Việt, nhóm nghiên cứu của Nguyễn Quang Châu [abc] đề xuất một phương pháp gán nhãn từ loại cho TiếngViệt dựa trên văn phong và tính toán xác suất. Nhóm tác giả xây dựng bộ gán nhãn là một hệ thống kết hợp bộ gán nhãn tri-gram và bộ gán nhãn dựa trên văn phong. Văn phong là đặc trưng, cách viết văn riêng của mỗi người, mỗi thể loại văn bản. Phương pháp gán nhãn từ loại dựa trên văn phong thực chất là căn cứ vào cách thể hiện của văn bản trong một ngữ cảnh cụ thể để xác định từ loại cho các từ, điều này bao hàm việc xác định phải đảm bảo các luật văn phạm của 14 các từ trong câu. Mô hình của phương pháp gán nhãn từ loại dựa trên văn phong được mô phỏng như sau: Hình 5. Mô hình của phương pháp gán nhãn từ loại dựa trên văn phong Trong đó, về phương pháp xây dựng hệ thống luật, nhóm tác giả dựa vào JAPE (Java Annotation Patterns Engine) để xây dựng được hệ thống trên 270 luật để xác định cho 48 từ loại (danh từ riêng, đại từ xưng hô, danh từ loại thể, .vv..) Kết quả thử nghiệm tốt nhất với các tập mẫu đã xây dựng đạt tới độ chính xác ~80% nếu chỉ dùng phương pháp gán nhãn bằng xác suất và đạt ~90% nếu dùng phương pháp gán nhãn dựa trên văn phong kết hợp với phương pháp xác suất. 2.2. Các phương pháp học máy Như đã nói ở trên, phương pháp dựa trên luật là một phương pháp thủ công còn tiềm tàng rất nhiều nhập nhằng. Cùng với đó, việc xây dựng một hệ thống trích chọn dựa trên các luật là rất tốn công sức, thông thường để xây dựng một hệ thống như vậy đòi hỏi công sức vài tháng từ một lập trình viên với nhiều kinh nghiệm về ngôn ngữ học. Giải pháp cho các giới hạn này là phải xây dựng một hệ thống bằng cách nào đó có thể “tự học”, điều này sẽ giúp giảm bớt sự tham gia của các chuyên gia ngôn ngữ và làm tăng tính khả chuyển cho hệ thống, các phương pháp như vậy được gọi là các phương pháp học máy. Phần này sẽ xem xét một đại diện tiêu biểu của phương pháp học máy giải quyết nhập nhằng bằng cách sử dụng một bộ dữ liệu huấn luyện để tính toán xác suất của một từ cho sẵn sẽ được gán với một nhãn nào đó trong ngữ cảnh cho trước, vì bản chất đó, họ các phương pháp này còn được gọi là các phương pháp xác suất. 15 Xác suất cho một từ, tức là xác suất mà một nhãn cho trước t là thích hợp với một từ cho trước w được tính bằng công thức: (2.0) Để minh họa cho phương pháp xác suất, phần này sẽ giới thiệu một bộ gán nhãn điển hình sử dụng mô hình Markov ẩn (HMM). Mô hình Markov ẩn [abc] được giới thiệu và nghiên cứu vào cuối những năm 1960 và đầu những năm 1970, cho đến nay nó được ứng dụng nhiều trong nhận dạng tiếng nói, tin sinh học và xử lý ngôn ngữ tự nhiên. HMM lựa chọn một chuỗi nhãn tốt nhất cho toàn bộ câu, thông thường người ta sử dụng thuật toán Viterbi để tìm chuỗi nhãn tốt nhất đó. Mô hình HMM có thể được xây dựng bởi automat hữu hạn trạng thái (probabilistic finite state automata) với các tham số biểu diễn xác suất chuyển trạng thái và xác suất sinh dữ liệu quan sát tại mỗi trạng thái. Các trạng thái trong mô hình HMM được xem là bị ẩn đi bên dưới dữ liệu quan sát sinh ra do mô hình. Quá trình sinh ra chuỗi dữ liệu quan sát trong HMM thông qua một loạt các bước chuyển trạng thái xuất phát từ một trong các trạng thái bắt đầu và dừng lại ở một trạng thái kết thúc. Tại mỗi trạng thái, một thành phần của chuỗi quan sát được sinh ra trước khi chuyển sang trạng thái tiếp theo. Trong bài toán gán nhãn từ loại dữ liệu, ta có thể xem tương ứng mỗi trạng thái với một trong nhãn từ loại: NN, NP, VB ...và dữ liệu quan sát là các từ trong câu. Mặc dù các lớp này không sinh ra các từ, nhưng mỗi lớp được gán cho một từ bất kì có thể xem như là sinh ra từ này theo một cách thức nào đó. Giả sử, với câu đầu vào W (w1, w2,…, wn), ta cần tìm một chuỗi các thẻ tốt nhất cho toàn bộ câu, trong đó mỗi thẻ tương ứng với một từ của câu đầu vào T (t1, t2,…, tn). Bộ gán nhãn sử dụng mô hình HMM sẽ tìm chuỗi các nhãn sao cho giá trị của tích P(Từ |nhãn) * P (nhãn | n nhãn trước đó) là cực đại, tức là thỏa mãn công thức (2.1) (2.1) Sử dụng luật Bayes, P(T|W) được viết theo công thức (2.2) (2.2) Ta đang quan tâm tới việc tìm chuỗi nhãn phù hợp nhất làm cực đại công thức (2.2) nên mẫu số trong tất cả các trường hợp là giống nhau, vì vậy ta có thể loại bỏ nó. Do đó, bài toán trở thành tìm chuỗi các nhãn thỏa mãn công thức (2.3) ( , )( | ) ( ) f t wP t w f w = ˆ ( | )TT argmax P T Wτ∈= ( ) ( | )( | ) ( ) P T P W TP T W P W = 16 (2.3) Áp dụng luật chuỗi xác suất, ta có công thức (2.4) (2.4) Vẫn không có phương pháp hiệu quả để tính xác suất của chuỗi này một cách chính xác, vì nó yêu cầu quá nhiều dữ liệu. Tuy nhiên, xác suất có thể được xấp xỉ bởi một xác suất đơn giản hơn bằng các áp dụng các giả thiết độc lập điều kiện (giả thiết rằng mỗi từ đều là độc lập với các từ khác và đặc tính của một từ chỉ phụ thuộc vào nhãn của nó). Mặc dù các giả thiết này không đúng trong thực tế, nhưng trong thực hành thì việc đánh giá đó có thể được chấp nhận. Ở đây, ta sử dụng giả thiết N-gram để mô hình hóa xác suất chuỗi từ (2.5a) Cụ thể ta dùng mô hình phổ biến nhất là mô hình tri-gram. (2.5b) Đầu tiên, ta làm đơn giản hóa rằng xác suất của một từ thì chỉ phụ thuộc vào nhãn của nó: (2.6) Tiếp theo, ta giả thiết rằng các nhãn phía trước có thể được xấp xỉ bởi 2 nhãn trước và gần nó nhất: (2.7) Vì vậy, công thức (2.1) được biến đổi tương đương với công thức (2.8) dưới đây, ta phải lựa chọn chuỗi nhãn làm cực đại công thức (2.8) này (2.8) Các thành phần thừa số trong công thức (2.8) có thể được tính toán từ tập dữ liệu huấn luyện của mô hình. Chú ý rằng để có thể tránh xác suất bằng 0 ta cần sửa dụng các kỹ thuật làm trơn. ˆ ( ) ( | )TT argmax P T P W Tτ∈= ( ) ( | ) ( | ... ) ( | ... )n i 1 1 i 1 i 1 i i 1 1 i 1 i 1i 1P T P W T P w w t w t t P t w t w t− − − −==∏ ( | ... ) ( | )i 1 1 i 1 i 1 i i iP w w t w t t P w t− − = ( | ... ) ( | )i 1 1 i 1 i 1 i i-2 i-1P t w t w t P t t t− − = ( ) ( | ) ( | )[ ( | )] n n 1 2 1 i i-2 i-1 i i i 3 i 1 P t P t t P t t t P w t = = ∏ ∏ n 1 n i i-1 i=1 P(t ,...,t )= P(t | t )∏ ( ) ( ) ( )1 2 3 2 1 3 2P t ,t ,t = P t | t P t | t 17 Ta có thể mô hình hóa HMM dưới dạng một đồ thị có hướng như sau: Hình 6: Đồ thị có hướng mô tả mô hình HMM Ví dụ, mô hình HMM tiến hành gán nhãn từ loại cho câu “Fed raises interest rates”: Hình 7. Một ví dụ gán nhãn bởi mô hình HMM Như đã nói ở trên, thông thường trong mô hình HMM thuật

Các file đính kèm theo tài liệu này:

K50_Le_Hoang_Quynh_Thesis.pdf