Khóa luận được tổ chức thành 5 chương với nội dung như sau:
- Chương 1: Giới thiệu tổng quan về bài toán thêm dấu tiếng Việt vào văn bản không dấu, và các công trình đã có liên quan đến đề tài.
- Chương 2: Giới thiệu các cơ sở lý thuyết tin học cần sử dụng.
- Chương 3: Nhận xét các mô hình đã có trước đây, và đưa ra mô hình cài đặt chính.
- Chương 4: Cụ thể hóa mô hình cài đặt.
- Chương 5: Tổng kết và đề ra hướng phát triển.
70 trang |
Chia sẻ: zimbreakhd07 | Lượt xem: 1783 | Lượt tải: 1
Bạn đang xem trước 20 trang nội dung tài liệu Khóa luận Phương pháp thêm dấu tiếng Việt vào văn bản tiếng Việt không dấu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
SV
ne
t.vn
TRɈ͜NG ĈɝI H͌C KHOA H͌C TͰ NHIÊN
KHOA CÔNG NGHʃ THÔNG TIN
%͘ MÔN CÔNG NGHʃ TRI THͨC
PHAN QUӔC LÂN
PHѬѪNG PHÁP THÊM DҨU TIӂNG VIӊT
VÀO VĂN BҦN TIӂNG VIӊT KHÔNG DҨU
KHOÁ LUҰN CӰ NHÂN TIN HӐC
TP. HCM, NĂM 2005
SV
ne
t.vn
1
TRɈ͜NG ĈɝI H͌C KHOA H͌C TͰ NHIÊN
KHOA CÔNG NGHʃ THÔNG TIN
%͘ MÔN CÔNG NGHʃ TRI THͨC
PHAN QUӔC LÂN – 0112267
PHѬѪNG PHÁP THÊM DҨU TIӂNG VIӊT
VÀO VĂN BҦN TIӂNG VIӊT KHÔNG DҨU
KHOÁ LUҰN CӰ NHÂN TIN HӐC
GIÁO VIÊN HѬӞNG DҮN
Th.S PHҤM PHҤM TUYӂT TRINH
NIÊN KHÓA 2001 – 2005
SV
ne
t.vn
2
/ӡi cҧm ѫn
/ӡi ÿҫu tiên, em xin chân thành cҧm ѫn cô Phҥm Phҥm TuyӃt Trinh, cô ÿã trӵc
tiӃp hѭӟng dүn và tҥo ÿLӅu kiӋn cho em nghiên cӭu và hoàn thành luұn văn này.
Em cNJng xin chân thành cҧm ѫn thҫy Ĉinh ĈLӅn, thҫy ÿã hӛ trӧ, giúp ÿӥ em rҩt
nhiӅu trong quá trình thӵc hiӋn. Và em cNJng xin cҧm ѫn tҩt cҧ các thҫy cô trong khoa
Công nghӋ thông tin ÿã tұn tình chӍ bҧo và giúp ÿӥ em trong suӕt quá trình hӑc tұp
trong trѭӡng.
Con xin chân thành cҧm ѫn ba mҽ, ông bà, anh em và ngѭӡi thân trong gia ÿình
ÿã tҥo mӑi ÿLӅu kiӋn tӕt nhҩt cho con hӑc tұp và ÿӝng viên, khích lӋ con trong quá trình
thӵc hiӋn luұn văn.
Và cuӕi cùng, tôi xin gӱi lӡi cҧm ѫn ÿӃn tҩt cҧ bҥn bè, ÿһc biӋt là anh Toàn, bҥn
Sinh, bҥn Khѭѫng …, nhӳng ngѭӡi ÿã hӛ trӧ và giúp tôi hoàn thiӋn luұn văn này.
0һc dù em ÿã cӕ gҳng hoàn thành luұn văn trong phҥm vi và khҧ năng cho phép
nhѭng chҳc chҳn sӁ không tránh khӓi nhӳng thiӃu sót. Em kính mong nhұn ÿѭӧc sӵ
Fҧm thông và tұn tình chӍ bҧo cӫa quý Thҫy Cô và các bҥn.
TP. Hӗ Chí Minh, tháng 7 năm 2005
Phan Quӕc Lân – 0112267
SV
ne
t.vn
3
NHҰN XÉT CӪA GIÁO VIÊN HѬӞNG DҮN
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
Thành phӕ Hӗ Chí Minh, tháng 07 năm 2005
Giáo viên hѭӟng dүn
Th.S Phҥm Phҥm TuyӃt Trinh
SV
ne
t.vn
4
NHҰN XÉT CӪA GIÁO VIÊN PHҦN BIӊN
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
_ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
Thành phӕ Hӗ Chí Minh, tháng 07 năm 2005
Giáo viên phҧn biӋn
TS. Ĉinh ĈLӅn
SV
ne
t.vn
/ӠI NÓI ĈҪU
Chӳ viӃt tiӃng ViӋt cӫa chúng ta có 1 ÿһc ÿLӇm rҩt hay là có sӵ xuҩt hiӋn cӫa các
Gҩu thanh cNJng nhѭ dҩu cӫa các ký tӵ. ĈLӅu này giúp cho tiӃng ViӋt “thêm thanh, thêm
ÿLӋu”. Tuy nhiên, cNJng chính viӋc “thêm thanh, thêm ÿLӋu” ÿó làm cho viӋc gõ tiӃng
ViӋt trӣ nên tӕn nhiӅu thӡi gian hѫn. 1 vҩn ÿӅ khác, khi viӋc sӱ dөng Internet trӣ nên
thông dөng, 1 tiӋn ích ÿѭӧc mӑi ngѭӡi ѭa chuӝng là dӏch vө Email. Nhѭng, cho ÿӃn
hiӋn nay, hҫu hӃt các mail server vүn chѭa hӛ trӧ tӕt tiӃng ViӋt, do ÿó, tình trҥng các lá
mail trên mҥng hҫu nhѭ không có dҩu. ViӋc phát triӇn 1 công cө giúp thêm dҩu tiӃng
ViӋt vào văn bҧn không dҩu là viӋc rҩt cҫn thiӃt và thú vӏ.
ĈӅ tài này hѭӟng ÿӃn viӋc giҧi quyӃt bài toán thêm dҩu tiӃng ViӋt theo mӝt
Kѭӟng mӟi, do ÿó, chѭѫng trình không chú trӑng chuyên sâu vào lƭnh vӵc nào. ViӋc
thêm chӭc năng hӛ trӧ các lƭnh vӵc chuyên sâu khác không ҧnh hѭӣng nhiӅu ÿӃn cҩu
trúc cӫa mô hình mà chѭѫng trình áp dөng.
Luұn văn ÿѭӧc tә chӭc thành 5 chѭѫng vӟi nӝi dung nhѭ sau :
§ Chѭѫng 1 giӟi thiӋu tәng quan vӅ bài toán Thêm dҩu tiӃng ViӋt vào văn bҧn
không dҩu, và các công trình ÿã có liên quan ÿӃn ÿӅ tài.
§ Chѭѫng 2 giӟi thiӋu các cѫ sӣ lý thuyӃt _ tin hӑc cҫn sӱ dөng.
§ Chѭѫng 3 nhұn xét các mô hình ÿã có trѭӟc ÿây, và ÿѭa ra mô hình cài ÿһt
chính.
§ Chѭѫng 4 cө thӇ hóa mô hình cài ÿһt.
§ Chѭѫng 5 tәng kӃt và ÿӅ ra hѭӟng phát triӇn .
SV
ne
t.vn
6
0ӨC LӨC
Chѭѫng 1.7ӘNG QUAN....................................................................9
1.1. Giӟi thiӋu vӅ bài toán Thêm dҩu tiӃng ViӋt vào văn bҧn không dҩu.......10
1.1.1. Phát biӇu bài toán.........................................................................................10
1.1.2. Ĉһc ÿLӇm .......................................................................................................10
1.1.3. +ѭӟng giҧi quyӃt ..........................................................................................11
1.2. Giӟi thiӋu các công trình ÿã có ..................................................................11
1.2.1. AMPad..........................................................................................................11
1.2.2. VietPad .........................................................................................................12
1.2.3. www.EasyVn.com.........................................................................................13
1.2.4. VnMark ........................................................................................................14
Chѭѫng 2.&Ѫ SӢ LÝ THUYӂT TIN HӐC....................................15
2.1. Lý thuyӃt vӅ ngôn ngӳ hӑc.........................................................................16
2.1.1. Âm tiӃt (còn gӑi là “tiӃng”) ..........................................................................16
2.1.1.1. Ĉӏnh nghƭa và ÿһc ÿLӇm âm tiӃt tiӃng ViӋt ..............................................16
2.1.1.2. Thanh là thành phҫn cӫa âm tiӃt tiӃng ViӋt .............................................16
2.1.1.3. Tҥi sao lҥi phҧi dùng dҩu thanh ? ............................................................17
2.1.2. 7ӯ ..................................................................................................................18
2.1.2.1. Các quan niӋm vӅ tӯ ...............................................................................18
2.1.2.2. Tiêu chí nhұn diӋn “tӯ” tiӃng ViӋt...........................................................18
2.1.2.2.1. Các tiêu chuҭn vӅ hình thӭc .................................................................19
2.1.2.2.2. Các tiêu chuҭn vӅ nӝi dung ..................................................................19
2.2. Tách tӯ ........................................................................................................20
2.2.1. Khӟp tӕi ÿa (LRMM – Left Right Max Matching).....................................21
2.2.2. Mô hình mҥng WFST và mҥng nѫ-ron .......................................................22
2.3. Tách câu......................................................................................................22
2.3.1. Tách câu bҵng Heristics. ..............................................................................23
2.3.1.1. Xӱ lý dҩu chҩm. .....................................................................................23
2.3.1.2. Xӱ lý dҩu chҩm trong ngoһc. ..................................................................24
Chѭѫng 3.MÔ HÌNH CÀI ĈҺT......................................................25
3.1. Các mô hình thêm dҩu ÿã ÿѭӧc sӱ dөng...................................................26
3.1.1. VietPad .........................................................................................................26
3.1.1.1. Mô hình thêm dҩu tiӃng ViӋt ..................................................................26
3.1.1.1.1. TiӅn xӱ lý ............................................................................................26
3.1.1.1.2. Tách token...........................................................................................27
3.1.1.1.3. Lҩy ra các tӯ không dҩu, chuyӇn thành tӯ có dҩu .................................27
3.1.2. VnMark ........................................................................................................28
SV
ne
t.vn
7
3.1.2.1. Mô hình thêm dҩu tiӃng ViӋt ..................................................................28
3.1.2.1.1. TiӅn xӱ lý ............................................................................................30
3.1.2.1.2. Tách câu ..............................................................................................30
3.1.2.1.3. Tìm các khҧ năng ÿánh dҩu cӫa tӯ, câu ................................................30
3.1.2.2. Mô hình huҩn luyӋn................................................................................31
3.2. Mô hình ÿӅ xuҩt..........................................................................................32
3.2.1. Mô hình.........................................................................................................32
3.2.1.1. Tách câu .................................................................................................33
3.2.1.2. Tách tӯ bҵng phѭѫng pháp LRMM.........................................................34
3.2.1.3. Chӑn tӯ thích hӧp ...................................................................................34
3.2.2. Mô hình huҩn luyӋn .....................................................................................36
3.2.2.1. Thӕng kê tҫn suҩt xuҩt hiӋn cӫa tӯ ..........................................................36
3.2.2.1.1. Xây dӵng kho ngӳ liӋu.........................................................................36
3.2.2.1.2. Thӕng kê tҫn suҩt xuҩt hiӋn cӫa tӯ .......................................................37
3.2.2.1.3. Tҥo tӯÿLӇn chuyӇn ÿәi ........................................................................38
3.2.2.2. Trích xuҩt các cөm tӯ thѭӡng sӱ dөng ....................................................39
3.2.3. So sánh mô hình này vӟi 2 mô hình trên .....................................................41
Chѭѫng 4.CÀI ĈҺT THӰ NGHIӊM.............................................43
4.1. Thӕng kê tҫn sӕ xuҩt hiӋn cӫa tӯ...............................................................44
4.1.1. Xây dӵng kho ngӳ liӋu text tӯ báo ÿLӋn tӱ ..................................................44
4.1.2. Tách câu........................................................................................................48
4.1.3. Tách tӯ và thӕng kê......................................................................................50
4.2. 7ҥo tұp tin tӯÿLӇn chính............................................................................52
4.3. 7ҥo tұp tin tӯÿLӇn cөm tӯ .........................................................................55
4.3.1. 7ҥo kho dӳ liӋu tinh giҧn mӟi......................................................................55
4.3.2. 7ҥo tұp tin tӯÿLӇn cөm tӯ ...........................................................................58
4.4. Chѭѫng trình chính....................................................................................58
4.4.1. Chѭѫng trình VietEditor..............................................................................59
4.4.2. Chѭѫng trình thêm dҩu qua Clipboard.......................................................60
4.5. Thӱ nghiӋm ................................................................................................62
Chѭѫng 5. ӂT QUҦ, HѬӞNG PHÁT TRIӆN .............................63
5.1. +ҥn chӃ và hѭӟng phát triӇn .....................................................................64
5.2. .Ӄt luұn ......................................................................................................64
Phө lөc : Cҩu trúc kho ngӳ liӋu ......................................................67
SV
ne
t.vn
8
DANH MӨC HÌNH
Hình 1.2.1-1 : Thêm ḓu ti͇ng Vi͏t tÿ͡ng b̹ng AMPad......................................................12
Hình 1.2.2-2 : Gõ ti͇ng Vi͏t không ḓu trên VietPad .............................................................12
Hình 1.2.2-3 : Văn b̫n sau khi thc hi͏n chͱc năng thêm ḓu ti͇ng Vi͏t cͯa VietPad ...........13
Hình 1.2.3-4 : Gõ ti͇ng Vi͏t không ḓu trên EasyVn..............................................................14
Hình 1.2.3-5 : Văn b̫n sau khi tÿ͡ng thêm ḓu trên EasyVn ..............................................14
Hình 1.2.4-6 : S˯ÿ͛ k͇t c̭u âm ti͇ng Vi͏t.............................................................................17
Hình 3.1.1-7 : L˱u ÿ͛ thc hi͏n cͯa mô hình ͱng dͭng trong VietPad...................................26
Hình 3.1.2-8 : L˱u ÿ͛ thc hi͏n cͯa mô hình n-gram ............................................................29
Hình 3.2-9: L˱u ÿ͛ thc hi͏n cͯa mô hình ÿ͉ xṷt ................................................................33
Hình 3.2-10 : T̵p tin m̳u sau khi th͙ng kê t̯n sṷt tͳ ..........................................................38
Hình 3.2-11 : Trích t̵p tin TuDienChinh.txt ..........................................................................39
Hình 3.2-12 : Trích t̵p tin CumTu.txt....................................................................................41
Hình 4.1.1-13: Giao di͏n ch˱˯ng trình HTML2TXT ..............................................................44
Hình 4.1.1-14: C̭u hình cͯa ch˱˯ng trình HTML2TXT.........................................................45
Hình 4.1.1-15 : M͡t trang báo thanh niên..............................................................................47
Hình 4.1.1-16 : 'ͷ li͏u ÿ˱ͫc tách tͳ trang báo Thanh niên...................................................48
Hình 4.1.2-17: Giao di͏n ch˱˯ng trình Tách Câu..................................................................49
Hình 4.1.2-18: Tͳ vi͇t t̷t cung c̭p cho ch˱˯ng trình Tách Câu............................................49
Hình 4.1.2-19: N͡i dung file k͇t xṷt cͯa ch˱˯ng trình Tách Câu .........................................50
Hình 4.1.3-20: Giao di͏n module tách tͳ...............................................................................51
Hình4.1.3-21: N͡i dung t̵p tin th˱ mͭc ngu͛n ......................................................................51
Hình 4.1.3-22: N͡i dung t̵p tin tͳÿL͋n .................................................................................52
Hình 4.1.3-23: N͡i dung t̵p tin k͇t qu̫.................................................................................52
Hình 4.1.3-24: Giao di͏n ch˱˯ng trình t̩o tͳÿL͋n chính.......................................................53
Hình 4.1.3-25 : Trích 1 ph̯n TuDienChinh.txt.......................................................................54
Hình 4.1.3-26 : Trích 1 ph̯n TuDienPhanLop.txt.................................................................54
Hình 4.1.3-27: Trích 1 ph̯n KhoCau.txt................................................................................55
Hình 4.3.1-28: Giao di͏n ch˱˯ng trình t̩o kho dͷ li͏u tinh gi̫n ...........................................56
Hình 4.3.1-29 : Trích 1 ph̯n th˱ mͭc k͇t xṷt .......................................................................57
Hình 4.3.1-30 : Th˱ mͭc con _a trong th˱ mͭc k͇t xṷt.........................................................57
Hình 4.3.2-31: Giao di͏n ch˱˯ng trình t̩o t̵p tin cͭm tͳ .....................................................58
Hình 4.4.1-32: Giao di͏n ch˱˯ng trình chính VietEditor .......................................................59
Hình 4.4.2-33: Giao di͏n ch˱˯ng trình chính thêm ḓu Clipboard ........................................60
Hình 4.4.2-34: Test ch˱˯ng trình thêm ḓu Clipboard...........................................................61
Hình 5.2-35 : T̵p tin kho ngͷ li͏u m̳u .................................................................................69
SV
ne
t.vn
Chѭѫng 1. 7ӘNG QUAN
SV
ne
t.vn
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
10
1.1. Giӟi thiӋu vӅ bài toán Thêm dҩu tiӃng ViӋt vào
Yăn bҧn không dҩu
1.1.1. Phát biӇu bài toán
Bài toán có thӇÿѭӧc phát biӇu nhѭ sau : Cho mӝt văn bҧn tiӃng ViӋt không
Gҩu. ChuyӇn văn bҧn không dҩu này thành có dҩu vӟi ÿӝ chính xác cao.
ChӍ sӱ dөng tӯÿLӇn tӯ và kho ngӳ liӋu thô làm ÿҫu vào.
Khái niӋm tӯӣÿây là “tӯ tӯÿLӇn” – tӭc là các tӯÿѫn, tӯ ghép và cөm tӯ
ÿѭӧc lѭu trong tӯÿLӇn.
ChӍ xӱ lý các văn bҧn tiӃng ViӋt có mã Unicode.
1.1.2. Ĉһc ÿLӇm
Chӳ viӃt tiӃng ViӋt có 1 ÿһc ÿLӇm rҩt hay là sӵ xuҩt hiӋn cӫa các dҩu thanh
FNJng nhѭ dҩu cӫa các ký tӵ. ViӋc có dҩu thanh và dҩu cӫa ký tӵ này làm phong
phú thêm cho ngôn tӯ tiӃng ViӋt, và cNJng góp phҫn tăng ÿӝ biӇu cҧm cӫa tiӃng
ViӋt.
'ҩu thanh là 1 thành phҫn “bҩt khҧ phân” trong âm tiӃt tiӃng ViӋt [8]. Khi
loҥi bӓ dҩu thanh, viӋc hiӇu nghƭa cӫa tӯ, gӗm 1 hay nhiӅu âm tiӃt kӃt hӧp vӟi
nhau, trӣ nên khó khăn và dӉ gây hiӇu lҫm.
ĈӇ thêm dҩu, trѭӟc tiên, ta cҫn phҧi xác ÿӏnh ranh giӟi tӯ. Bài toán xác
ÿӏnh ranh giӟi tӯÿӕi vӟi văn bҧn tiӃng ViӋt có dҩu ÿã là 1 viӋc thӱ thách, thì khi
không có dҩu, viӋc nhұn diӋn ranh giӟi tӯ càng trӣ nên khó khăn hѫn. Vҩn ÿӅ
này lҥi càng khó khăn, khi ranh giӟi tӯ trong tiӃng ViӋt cNJng nhѭ 1 sӕ ngôn ngӳ
Châu Á khác, mӝt tӯ chính tҧ có thӇ không tѭѫng ӭng vӟi mӝt “tӯ” trên văn
Eҧn. Ĉӕi vӟi các thӭ tiӃng Châu Âu, ta có thӇ dӉ dàng nhұn ra mӝt tӯ, do các tӯ
ÿѭӧc phân cách bӣi khoҧng trҳng. ĈLӅu này lҥi không ÿúng vӟi tiӃng ViӋt.
Trong tiӃng ViӋt, các tiӃng _ hay còn gӑi là âm tiӃt _ ÿѭӧc phân cách bӣi
khoҧng trҳng, chӭ không phҧi tӯ.
SV
ne
t.vn
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
11
Sau khi ÿã nhұn diӋn ÿѭӧc ranh giӟi tӯ, ta cҫn phҧi xác ÿӏnh cho ÿúng tӯ có
Gҩu nào có dҥng thӇ hiӋn không dҩu nhѭ vұy. ViӋc xác ÿӏnh này cNJng gây nhiӅu
khó khăn, khi 1 tӯ không dҩu có thӇ có nhiӅu tӯ có dҩu tѭѫng ӭng vӟi nó.
Ví dͭ 1-1 : Tӯ không dҩu “toi” có 3 tӯ có dҩu tѭѫng ӭng là “tôi”, “tӟi” và
“tӕi”.
Do ÿó, sau khi ÿã giҧi quyӃt xong bài toán tách tӯ tiӃng ViӋt không dҩu, ta
Fҫn phҧi giҧi quyӃt thêm bài toán xác ÿӏnh tӯ có dҩu thích hӧp vӟi tӯ không dҩu
ÿó. Ĉây chính là 2 bài toán cҫn giҧi quyӃt chính cӫa mô hình.
1.1.3. +ѭӟng giҧi quyӃt
Ĉӕi vӟi tách tӯ có dҩu, có nhiӅu mô hình ÿѭӧc sӱ dөng và ÿҥt kӃt quҧ cao
nhѭ MM (Maximum Matching : forward / backward hay còn gӑi là LRMM:
Left Right); giҧi thuұt hӑc cҧi biӃn TBL; mҥng chuyӇn dӏch trҥng thái hӳu hҥn
có trӑng sӕ WFST (Weighted finite-state Transducer); giҧi thuұt dӵa trên nén
(compression) [1] …. Hѭӟng giҧi quyӃt ÿѭӧc ÿӅ xuҩt là sӱ dөng phѭѫng pháp
tách tӯ LRMM [1][7] kӃt hӧp vӟi mô hình Bigram ÿã giҧi quyӃt khá hiӋu quҧ 2
Yҩn ÿӅ cӫa bài toán này. Phѭѫng pháp chӍ mӟi ÿѭӧc áp dөng cho mô hình thêm
Gҩu offine, nhѭng có thӇÿѭӧc cài ÿһt ÿӇ gán dҩu online.
1.2. Giӟi thiӋu các công trình ÿã có
1.2.1. AMPad
AMPad [12] (tên version cNJ và thông dөng vӟi mӑi ngѭӡi là AutoMark)
Fӫa tác giҧ Trҫn TriӃt Tâm là sҧn phҭm ÿҫu tiên nghiên cӭu vӅ lƭnh vӵc này.
Chѭѫng trình ÿã ÿѭӧc nhiӅu ngѭӡi biӃt ÿӃn và ÿѭӧc sӱ dөng rӝng rãi. ĈLӅu này
cho thҩy viӋc phát triӇn ӭng dөng hoàn thiӋn hѫn nӳa vӅ thêm dҩu tiӃng ViӋt là
có nhu cҫu, và nhu cҫu này sӁ ngày càng tăng cao. Chѭѫng trình AMPad có
SV
ne
t.vn
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
12
ÿLӇm hay là viӋc áp dөng mô hình xӱ lý thêm dҩu ӣ chӃÿӝ online, tҥo sӵ trӵc
quan, thân thiӋn cho ngѭӡi sӱ dөng.
Hình 1.2.1-1 : Thêm ḓu ti͇ng Vi͏t tÿ͡ng b̹ng AMPad
1.2.2. VietPad
Vietpad [11] là trình soҥn thҧo hӛ trӧ tiӃng ViӋt Unicode, ÿѭӧc phát triӇn
Eӣi Quân NguyӉn và nhóm phát triӇn trên Ngoài
chӭc năng thêm dҩu tӵÿӝng offline mà luұn văn ÿang nghiên cӭu, VietPad còn
là 1 trình soҥn thҧo tiӃng ViӋt hӛ trӧ rҩt tӕt Unicode và là mã nguӗn mӣ.
Hình 1.2.2-2 : Gõ ti͇ng Vi͏t không ḓu trên VietPad
SV
ne
t.vn
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
13
Hình 1.2.2-3 : Văn b̫n sau khi thc hi͏n chͱc năng thêm ḓu ti͇ng Vi͏t cͯa VietPad
1.2.3. www.EasyVn.com
Trang web www.easyvn.com [10] cung cҩp dӏch vө email ÿLӋn tӱ miӉn phí
trên mҥng, vӟi sӵ hӛ trӧ ngѭӡi dùng rҩt tӕt vӅ ngôn ngӳ ViӋt. 1 chӭc năng nәi
Eұt cӫa www.easyvn.com là : sau khi soҥn thҧo xong bӭc mail, ngѭӡi dùng có
thӇ chӑn chӭc năng Thêm dҩu tiӃng ViӋt ÿӇ biӃn văn bҧn không dҩu thành có
Gҩu. Do ÿây là dӏch vөÿѭӧc cung cҩp và thu phí trên NET (cho sӱ dөng thӱ
trong 2 tháng), mô hình thêm dҩu tӵÿӝng cӫa www.easyvn.comÿѭӧc giӳ kín.
SV
ne
t.vn
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
14
Hình 1.2.3-4 : Gõ ti͇ng Vi͏t không ḓu trên EasyVn
Hình 1.2.3-5 : Văn b̫n sau khi tÿ͡ng thêm ḓu trên EasyVn
1.2.4. VnMark
VnMark [2] ÿѭӧc tác giҧ NguyӉn Văn Toàn phát triӇn. Do tác giҧÿã làm
thҩt lҥc chѭѫng trình, do ÿó, không có hình ҧnh minh hoҥ chѭѫng trình.
SV
ne
t.vn
Chѭѫng 2. &Ѫ SӢ LÝ THUYӂT
TIN HӐC
SV
ne
t.vn
Luұn văn tӕt nghiӋp : Phѭѫng pháp thêm dҩu vào văn bҧn tiӃng ViӋt không dҩu
16
2.1. Lý thuyӃt vӅ ngôn ngӳ hӑc
2.1.1. Âm tiӃt (còn gӑi là “tiӃng”)
2.1.1.1. Ĉӏnh nghƭa và ÿһc ÿLӇm âm tiӃt tiӃng ViӋt
“TiӃng” là “ÿѫn vӏ cѫ bҧn” trong tiӃng ViӋt [1]. Mӝt “tiӃng” trong tiӃng
ViӋt ÿѭӧc nói lên là mӝt ÿѫn vӏ ngӳ âm, và cNJng là mӝt ÿѫn vӏ ngӳ pháp.
0ӝt “tiӃng” là mӝt ÿѫn vӏ phát ngôn, và là mӝt ÿѫn vӏ cӫa lӡi nói ÿӇ tҥo ra
nhӳng kӃt cҩu lӡi nói trong hoҥt ÿӝng nói năng giao tiӃp. Ĉһc tính này cӫa
tiӃng chính là mӝt tính cách loҥi hình cӫa tiӃng ViӋt, trong ÿó mӛi ÿѫn vӏ
phát âm trùng khít vӟi ÿѫn vӏ ngӳ pháp (hình vӏ, và tӯ). Khi xét trên bình
diӋn ngӳ âm, tiӃng là mӝt ÿѫn vӏ cӫa ngӳ âm, tӭc là mӝt âm tiӃt [9].
ViӋc nhұn diӋn “tiӃng” ÿӕi vӟi ngѭӡi ViӋt là ÿLӅu quá dӉ dàng, tӵ nhiên
ÿӕi vӟi mӑi ngѭӡi mà không cҫn mӝt trình ÿӝ ngôn ngӳ gì cao, v
Các file đính kèm theo tài liệu này:
- [LVIT020] - PP thêm dấu tiếng Việt vào văn bản tiếng Việt không dấu.pdf