Truy vấn thông tin trên văn bản pháp luật - Tài liệu, ebook, giáo trình

Với sự phát triển không ngừng của công nghệ thông tin, số lượng tài liệu điện tử do con

người tạo ra ngày càng lớn phong phú và đa dạng. Nhu cầu khai thác dữ liệu này trong kho

tài liệu là rất lớn, đây là trong những nhu cầu thường ngày, thiết thực của người sử dụng.

Tuy nhiên, một trong những khó khăn mà con người gặp phải trong việc khai thác thông tin

là: Khả năng tìm kiếm chính xác thông tin cần tìm trong kho tài liệu, khả năng tìm kiếm

nhanh với lượng dữ liệu lớn. Nếu dùng các hệ quản trị cơ sở dữ liệu quan hệ để tìm kiếm dữ

liệu thì sẽ gặp phải các hạn chế như: Bị giới hạn cú pháp của ngôn ngữ SQL, tốc độ tìm

kiếm chậm khi tìm kiếm gần đúng (dùng LIKE) trong cơ sở dữ liệu. Qua tìm hiểu thì chúng

tôi thấy trang truy vấn thông tin pháp luật như thuvienphapluat.vn là trang website có thể

khai thác được với lượng dữ liệu lớn và mỗi một tài liệu thường rất dài và có sự trùng lắp về

mặt ngôn ngữ là rất lớn.Việc đó, gây ảnh hướng đến việc tìm kiếm của người sử dụng. Vì lí

do trên, chúng tôi mong muốn phát triển và cải thiện khả năng tìm kiếm thông tin trên văn

bản pháp luật.

7 trang | Chia sẻ: Thục Anh | Lượt xem: 469 | Lượt tải: 0

Nội dung tài liệu Truy vấn thông tin trên văn bản pháp luật, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

102 TRUY VẤN THÔNG TIN TRÊN VĂN BẢN PHÁP LUẬT Phan Hải Đăng, Dương Thanh Toàn Viện Công nghệ Việt – Nhật (VJIT), Trường Đại học Công nghệ TP. Hồ Chí Minh GVHD: TS. Lê Thị Ngọc Thơ TÓM TẮT Với sự phát triển không ngừng của công nghệ thông tin, số lượng tài liệu điện tử do con người tạo ra ngày càng lớn phong phú và đa dạng. Nhu cầu khai thác dữ liệu này trong kho tài liệu là rất lớn, đây là trong những nhu cầu thường ngày, thiết thực của người sử dụng. Tuy nhiên, một trong những khó khăn mà con người gặp phải trong việc khai thác thông tin là: Khả năng tìm kiếm chính xác thông tin cần tìm trong kho tài liệu, khả năng tìm kiếm nhanh với lượng dữ liệu lớn. Nếu dùng các hệ quản trị cơ sở dữ liệu quan hệ để tìm kiếm dữ liệu thì sẽ gặp phải các hạn chế như: Bị giới hạn cú pháp của ngôn ngữ SQL, tốc độ tìm kiếm chậm khi tìm kiếm gần đúng (dùng LIKE) trong cơ sở dữ liệu. Qua tìm hiểu thì chúng tôi thấy trang truy vấn thông tin pháp luật như thuvienphapluat.vn là trang website có thể khai thác được với lượng dữ liệu lớn và mỗi một tài liệu thường rất dài và có sự trùng lắp về mặt ngôn ngữ là rất lớn.Việc đó, gây ảnh hướng đến việc tìm kiếm của người sử dụng. Vì lí do trên, chúng tôi mong muốn phát triển và cải thiện khả năng tìm kiếm thông tin trên văn bản pháp luật. Từ khóa: Apache Lucene, Elasticsearch, indexing, thu thập dữ liệu, vnTokenizer. ABSTRACT With the continuous development of information technology, the number of electronic documents created by human is increasingly rich and diverse. The demand for this data exploitation in the document warehouse is huge, this is in the daily necessities, practical users. However, one of the difficulties that we encounter in the exploitation of information is: the ability to search for accurate information to look for in document repositories, search capabilities with large amounts of data quickly. If you use relational database management systems to search data, you will encounter limitations such as: Limited SQL language syntax, slow search speed when searching approximate (using LIKE) in the database. While studying, we find that information retrieval websites, such as thuvienphapluat.vn, are those that can be exploited with a large amount of data and each document is usually very long and has a great linguistic overlap. These facts affect the performance of user's search. For the above reasons, we are going to develop and improve the ability to search for information on legal documents. Keyword: Apache Lucene, crawling data, Elasticsearch, indexing, vnTokenizer. 103 1 GIỚI THIỆU CHUNG Truy vấn thông tin là hoạt động thu thập các nguồn thông tin liên quan đến một thông tin cần tìm kiếm, có thể dựa trên siêu dữ liệu (metadata) và trên việc đánh chỉ mục toàn văn bản (hoặc dựa vào nội dung khác). Những hệ thống truy vấn thông tin tự động được sử dụng để giảm thiểu việc quá tải thông tin. Nhiều các trường đại học và thư viện công cộng sử dụng hệ thống truy hồi thông tin để cung cấp truy cập đến sách báo và các tài liệu khác. Các máy tìm kiếm trên website được coi là những ứng dụng truy vấn thông tin dễ nhận thấy nhất. Các công cụ tìm kiếm được tích hợp vào website thì có rất nhiều, trong đó công cụ được biết đến khá mạnh về lĩnh vực truy vấn thông tin thì không thể nói đến Elasticsearch để giải quyết việc tìm kiếm bằng thời gian thực và độ chính xác các văn bản trả về có độ tương quan cao. Để giải quyết vấn đề nêu trên, chúng tôi đã đưa ra một trang website giả lập xử lý truy vấn thông tin trên trang Thư viện Pháp luật. Mục tiêu cung cấp ứng dụng là cải thiện phần tìm kiếm cho các trang website giúp người dùng có thể dễ dàng lấy đưa các văn bản trả về mà mình mong muốn, đồng thời đảm bảo về mặt thời gian và ý nghĩa của việc tìm kiếm. 2 TRIỂN KHAI PHẦN MỀM Phần này trình bày chi tiết môi trường đề xuất, công cụ và phương pháp thực hiện phần nghiên cứu tích hợp Elasticsearch để truy vấn thông tin trên Thư viện Pháp luật. Trong thời đại bùng nổ thông tin, việc tìm kiếm “thông tin” trở nên rất cần thiết và yêu cầu cao hơn. Ngày nay, có rất nhiều cách để tìm kiếm phổ biến được sử dụng trong trang website là câu lệnh truy vấn LIKE trong cơ sở dữ liệu quan hệ SQL. Tuy nhiên, việc sử dụng câu truy vấn như vậy gặp một số vấn đề làm sai kết quả hiển thị và thời gian truy xuất thông tin. Ví dụ: Nếu tìm kiếm bằng truy vấn LIKE “%one%” thì kết quả sẽ chỉ cần chứa “one” là ra. Ví dụ: các từ trong tiếng Anh như “phone”, “zone”, “money”, “alone”, nói chung sẽ là một danh sách kết quả không mong muốn. Còn đối với tiếng Việt, các từ khoá có dấu là “có”, nếu truy vấn LIKE chỉ gõ “co” thì sẽ không trả về được chính xác kết quả về hiệu suất truy vấn LIKE sẽ tìm kiếm đơn thuần toàn văn bản không sử dụng index, nghĩa là tập dữ liệu càng lớn thì tìm kiếm càng lâu. Hình 1. Sơ đồ thực hiện của đề tài 104 Để có thể giải quyết vấn đề trên trước hết chúng tôi thực hiện lấy dữ liệu về từ trang Thư viện Pháp luật qua sự phân tích và cào dữ liệu (crawl data) từ các thẻ HTML để lấy các văn bản về cơ sở dữ liệu MySQL điều này tạo ra lượng dữ liệu dùng cho việc tìm kiếm sau này, kế tiếp để tạo tài liệu cho index với số lượng nhiều chúng tôi xuất cơ sở dữ liệu vừa cào ra tập tin kiểu json và đưa vào Elasticsearch bằng lệnh chèn. Sau cùng chúng sẽ xử lý các câu truy vấn tích hợp vào website. Bây giờ, nếu người dùng tìm kiếm từ khóa thì đầu ra mong muốn với độ tương quan và thời gian trả kết quả là rất cao, như sơ đồ thực hiện trong Hình 1. 2.1 Công cụ tìm kiếm theo chỉ mục Elasticsearch [4] Elasticsearch là một hệ thống hỗ trợ tạo chỉ mục và tìm kiếm riêng biệt, mạnh mẽ, thời gian đáp ứng và kết quả tìm kiếm phù hợp với yêu cầu. Tiền thân của Elasticsearch được phát hành phiên bản đầu tiên vào tháng 2/2010 bởi Shay Banon [4]. Nó cung cấp một bộ máy tìm kiếm dạng phân tán có đầy đủ công cụ với một giao diện web HTTP có hỗ trợ dữ liệu JSON. Elasticsearch là một máy chủ tìm kiếm dựa trên nền tảng kế thừa và phát triển từ Lucene Apache. Elasticsearch được phát triển bằng Java và được phát hành dưới dạng mã nguồn mở theo các điều khoản của Giấy phép Apache. ElasticSearch có một số ưu điểm như sau: - Có thể tìm kiếm tất cả các loại dữ liệu, đáp ứng gần như thời gian thực, dễ sử dụng cũng như dễ cài đặt; hỗ trợ thêm, sửa, xoá hay thay đổi các độ đo, thông số thông qua HTTP và JSON. - Hỗ trợ lập chỉ mục với nhiều ngôn ngữ khác nhau và có hỗ trợ lập chỉ mục cho cả tiếng Việt. Chia dữ liệu hệ thống (sharding) phục vụ cho các ngôn ngữ khác nhau, chẳng hạn Tiếng Anh và Tiếng Pháp. - Chúng ta có thể chia thông tin trên 2 máy chủ khác nhau, sau đó người dùng tìm kiếm tiếng Anh sẽ lấy kết quả từ nút (node) Tiếng Anh và tìm kiếm bằng tiếng Pháp sẽ lấy từ nút (node) Tiếng Pháp. - Khả năng tăng sức chịu đựng các truy xuất cùng lúc và giảm các rủi ro khi các nút khác bị sự cố thông qua khả năng nhân bản (replication). - Thời gian lập chỉ mục nhanh nên rất hợp với các loại dữ liệu lớn và có tần suất cập nhật cao. 2.2 Khái niệm chỉ mục ngược (Inverted Index) [4] Chỉ mục ngược (Inverted Index) được thiết kế để cho phép tìm kiếm toàn văn. Cách thức của nó khá đơn giản, các văn bản được phân tách ra thành từng từ có nghĩa sau đó sẽ được map xem thuộc văn bản nào. Khi tìm kiếm tùy thuộc vào loại tìm kiếm sẽ đưa ra kết quả cụ thể. Ví dụ, ta có hai văn bản cụ thể như sau: 1. The quick brown fox jumped over the lazy dog. 2. Quick brown foxes leap over lazy dogs in summer. 105 Để tạo ra một Inverted Index, trước hết chúng ta sẽ phân chia nội dung của từng tài liệu thành các từ riêng biệt (chúng tôi gọi là terms), tạo một danh sách được sắp xếp của tất cả terms duy nhất, sau đó liệt kê tài liệu nào mà mỗi thuật ngữ xuất hiện. Kết quả như trong Bảng 1a. Bây giờ, nếu chúng ta muốn tìm kiếm từ khóa “quick brown,” chúng ta chỉ cần tìm trong các tài liệu trong đó mỗi thuật ngữ có xuất xuất hiện hay không, như kết quả minh họa trong Bảng 1b. Bảng 1a. Chia nội dung thành các từ riêng biệt Term Doc_ 1 Doc_ 2 Term Doc_1 Doc_2 Quick X jumped X The X lazy X X brown X X leap X dog X over X X dogs X quick X fox X summer X foxes X the X in X Bảng 1b. Kết quả tìm kiếm “quick bro wn” Term Doc_1 Doc2 brown X X quick X Total 2 1 2.3 Khái niệm Web crawling [1] Web crawling là quá trình tự động trích xuất các thông tin từ các trang web và lưu trữ nó dưới một định dạng phù hợp. Chương trình mà thực hiện công việc này gọi là web crawler. Thông thường, khi muốn lấy một số thông tin từ các trang web, chúng ta sẽ dùng các API mà các trang đó cung cấp. Đây là cách đơn giản, tuy nhiên không phải trang web nào cũng cung cấp sẵn API cho chúng ta sử dụng. Do đó chúng ta cần một kĩ thuật để lấy các thông tin từ các trang web đó mà không thông qua API. 2.4 Phương thức hoạt động của Elasticsearch [2] Hình 2. Sơ đồ hoạt động của Elasticsearch 106 Elasticsearch được xây dựng để hoạt động như một server riêng biệt theo cơ chế của RESTful phục vụ việc tìm kiếm dữ liệu. Đầu tiên, dữ liệu thô (raw data) vào Elasticsearch từ nhiều nguồn như log, system indicators và webapp sẽ được phân tích, xử lý, bình thường hóa (normalizes) và làm phong phú thêm (enriches) trong quá trình nhập liệu (Data ingestion) trước khi được lập chỉ mục (index) và đẩy lên Server Elasticsearch. Cuối cùng, sau khi dữ liệu được lập chỉ mục, người dùng có thể tạo các truy vấn phức tạp từ dữ liệu này và sử dụng các tập hợp (aggregations) để truy xuất các bản tóm tắt phức tạp của dữ liệu hay nói ngắn gọn là lấy data trả về từ Server Elasticsearch. 2.5 Công cụ tách từ VnTokenizer [3] Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các từ trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác định các từ đơn, từ ghép có trong câu. Đối với xử lý ngôn ngữ, để có thể xác định cấu trúc ngữ pháp của câu, xác định từ loại của một từ trong câu, yêu cầu nhất thiết đặt ra là phải xác định được đâu là từ trong câu. Vấn đề này tưởng chừng đơn giản với con người nhưng đối với máy tính, đây là bài toán rất khó giải quyết. Chính vì lý do đó tách từ được xem là bước xử lý quan trọng đối với các hệ thống Xử Lý Ngôn Ngữ Tự Nhiên, đặc biệt là đối với các ngôn ngữ thuộc vùng Đông Á theo loại hình ngôn ngữ đơn lập, ví dụ: tiếng Trung Quốc, tiếng Nhật, tiếng Thái, và tiếng Việt. Với các ngôn ngữ thuộc loại hình này, ranh giới từ không chỉ đơn giản là những khoảng trắng như trong các ngôn ngữ thuộc loại hình hòa kết như tiếng Anh, mà có sự liên hệ chặt chẽ giữa các tiếng với nhau, một từ có thể cấu tạo bởi một hoặc nhiều tiếng. Vì vậy đối với các ngôn ngữ thuộc vùng Đông Á, vấn đề của bài toán tách từ là khử được sự nhập nhằng trong ranh giới từ. Ví dụ, ta có câu văn bản cụ thể như sau: “Dự thảo Thông tư hướng dẫn thực hiện Nghị định 135/2020/NĐ - CP quy định về tuổi nghỉ hưu đối với quân nhân và người làm công tác cơ yếu hưởng lương như đối với quân nhân do Bộ Quốc phòng ban hành”. Sau khi thực hiện công cụ tách từ VnTokenizer ta được kết quả như sau: “Dự_thảo Thông_tư hướng_dẫn thực_hiện Nghị_định 135/2020/NĐ - CP quy_định về tuổi nghỉ hưu đối_với quân_nhân và người làm công_tác cơ_yếu hưởng lương như đối_với quân_nhân do Bộ Quốc_phòng_ban_hành”. 3 KẾT QUẢ ĐẠT ĐƯỢC 3.1 Thu thập dữ liệu cho tệp JSON xuất MySQL Dữ liệu về từ trang Thư viện Pháp luật qua sự phân tích và cào dữ liệu (crawl data) bằng thư viện Beautiful Soup từ các thẻ HTML để lấy thông tin văn bản như: tiêu đề, nội dung, về cơ sở dữ liệu MySQL đã được tạo sẵn, kế tiếp để tạo tài liệu cho index với số lượng nhiều 107 chúng tôi xuất cơ sở dữ liệu vừa cào ra tập tin kiểu json và đưa vào Elasticsearch bằng lệnh bên dưới để nạp nó vào index. curl -H "Content-Type: application/json" -XPOST "localhost:9200/index/_bulk?pretty&refresh" --data-binary "@tentaptin.json" Việc cào dữ liệu và chuyển tài liệu vào Elasticsearch nhằm phục vụ cho chức năng tìm kiếm trong Elasticsearch. Kết quả sau khi qua sự phân tích và cào dữ liệu (crawl data) bằng thư viện Beautiful Soup ta được cơ sở dữ liệu ta được 1,460 văn bản pháp luật. 3.2 Tích hợp Elasticsearch Để bạn biết đã kết nối thành công với Elasticsearch server lắng nghe ở cổng 9200. Để biết kết nối với kibana lắng nghe ở cổng 5601 dùng để test Resuft API từ Elasticsearch và có thể tạo được HTTP Request với các phương thức như PUT, GET ... kèm dữ liệu JSON (REST API) gửi đến Server Elasticsearch. Kiểm tra kết nối thành công với Elasticsearch với câu lệnh bên dưới. curl -X GET Index là một tập hợp những dữ liệu có chung một số tên thuộc tính, tính chất - nó giống như một bảng trong SQL. Giờ ta sẽ tiến hành tạo một index có tên là “tvpl”, thật đơn giản chỉ việc PUT đến địa chỉ /tvpl?pretty, vậy là tạo thành công index “tvpl” và thêm các văn bản cho Elasticsearch. 3.3 Search Client Tạo thành công một giao diện hoàn chỉnh dựa vào trang Thư viện Pháp luật. Đồng thời, thành công trong việc sử dụng các câu truy vấn Request API của Elasticsearch vào trong website. Bảng 2. Từ khóa tìm kiếm và kết quả khi sử dụng Elasticsearch Nội dung truy vấn: Chế độ tài chính đối với các tổ chức tín dụng Kết quả truy vấn dưới dạng tiêu đề các văn bản có liên quan 1. Dự thảo Nghị định về nội dung đặc th về chế độ tài chính đối với tổ chức tín dụng yếu kém. 2. Dự thảo Thông tư sửa đổi Thông tư 320/2016/TT - BTC quy định chế độ bồi dưỡng đối với người làm nhiệm vụ tiếp công dân, ử lý đơn khiếu nại, tố cáo, kiến nghị, phản ánh do Bộ trưởng Bộ Tài chính ban hành. 3. Dự thảo Thông tư hướng dẫn thuế và quản lý thuế đối với hộ kinh doanh, cá nhân kinh doanh do Bộ Tài chính. 4. Dự thảo Thông tư sửa đổi Thông tư quy định về hồ sơ, thủ tục hành chính trong lĩnh vực quản lý ngoại hối do Thống đốc Ngân hàng Nhà nước Việt Nam ban hành. 108 4 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Vấn đề truy vấn thông tin trang Thư viện Pháp luật còn đang là bài toán khó với rất nhiều khía cạnh. Trong bài nghiên cứu này chúng tôi bắt đầu bằng việc tích hợp Elasticsearch vào để kiểm tra và cải thiện một số câu truy vấn Request API có trong Elasticsearch. Nói đến cỗ máy tìm kiếm (search engines) thương mại mã nguồn mở, có hai sự lựa chọn lớn: Elasticsearch hoặc Solr. Về mặt hiệu năng, cả hai lựa chọn đều hoạt động ổn định. Vậy dù là ứng dụng tìm kiếm nội bộ hay bên ngoài, thì vấn đề hiệu suất/ công năng cũng không quá quan trọng nếu lập trình viên thiết kế và cấu hình một cách phù hợp. Việc áp dụng Elasticsearch cho đề tài này đem lại đầu ra mong muốn với độ tương quan và thời gian trả kết quả là rất cao so với trang website thuvienphapluat.vn hiện có. Qua đó, chúng ta cũng thấy được tiềm năng của hướng nghiên cứu này trong tương lai với bài toán truy vấn thông tin này vì nó đem lại sự hài lòng và độ chính xác của tài liệu truy vấn. Trong nghiên cứu tiếp theo, chúng tôi sẽ tiến hành ứng dụng cho các bài toán khác trong xử lý ngôn ngữ tự nhiên mà cụ thể là bài toán phân tách từ ngữ trong tiếng Việt. TÀI LIỆU THAM KHẢO [1] Scraping Data on the Web with BeautifulSoup. Hackers Slackers. https://www.crummy.com/software/BeautifulSoup/. Tháng 10/2019. [2] Elastic Stack and Product Documentation. Elastic. https://www.elastic.co/guide/index.html [3] Chương trình tách từ vnTokenizer. Lê Hồng Phương - Nguyễn Thị Minh Huyền. Tháng 12/2016.

Các file đính kèm theo tài liệu này:

truy_van_thong_tin_tren_van_ban_phap_luat.pdf