Đề xuất mô hình khai thác luật hiếm trên cơ sở dữ liệu phân tán dọc bảo toàn tính riêng tư

Khai phá tri thức tiềm ẩn trong cơ sở dữ liệu hiện nay là một mục tiêu quan trọng của ngành khoa học khai

thác dữ liệu và được rất nhiều nhà nghiên cứu quan tâm. Luật hiếm là luật không thường xuyên xảy ra

nhưng lại có giá trị và tính ứng dụng cao trong một số điều kiện, môi trường cụ thể. Khai thác luật hiếm

trong thực tế cũng là một bài toán đã nhận được nhiều quan tâm từ các nhà khoa học. Tuy nhiên trong dữ

liệu thường có chứa những dữ liệu nhạy cảm, việc bảo toàn tính riêng tư trong khai thác dữ liệu để tránh

tiết lộ những dữ liệu nhạy cảm cũng là một hướng nghiên cứu cấp thiết hiện nay. Khai thác luật hiếm trên

cơ sở dữ liệu (CSDL) phân tán bảo toàn tính riêng tư tập trung vào việc khai thác được các luật hiếm có

trong dữ liệu được chia sẻ từ nhiều bên nhưng không làm tiết lộ dữ liệu của các bên tham gia. Trong phạm

vi bài báo này, chúng tôi đề xuất một mô hình khai thác tập hiếm trên môi trường cơ sở dữ liệu phân tán

dọc và bảo toàn tính riêng tư cho dữ liệu của các bên cung cấp dữ liệu trong qua trình khai thác.

7 trang | Chia sẻ: Thục Anh | Lượt xem: 581 | Lượt tải: 0

Nội dung tài liệu Đề xuất mô hình khai thác luật hiếm trên cơ sở dữ liệu phân tán dọc bảo toàn tính riêng tư, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

192 ĐỀ XUẤT MÔ HÌNH KHAI THÁC LUẬT HIẾM TRÊN CSDL PHÂN TÁN DỌC BẢO TOÀN TÍNH RIÊNG TƢ Cao Tùng Anh, Võ Hoàng Khang, Văn Nhƣ Bích B Trường Đại học Công nghệ TP. Hồ Chí Minh TÓM TẮT Khai phá tri thức tiềm ẩn trong cơ sở dữ liệu hiện nay là một mục tiêu quan trọng của ngành khoa học khai thác dữ liệu và được rất nhiều nhà nghiên cứu quan tâm. Luật hiếm là luật không thường xuyên xảy ra nhưng lại có giá trị và tính ứng dụng cao trong một số điều kiện, môi trường cụ thể. Khai thác luật hiếm trong thực tế cũng là một bài toán đã nhận được nhiều quan tâm từ các nhà khoa học. Tuy nhiên trong dữ liệu thường có chứa những dữ liệu nhạy cảm, việc bảo toàn tính riêng tư trong khai thác dữ liệu để tránh tiết lộ những dữ liệu nhạy cảm cũng là một hướng nghiên cứu cấp thiết hiện nay. Khai thác luật hiếm trên cơ sở dữ liệu (CSDL) phân tán bảo toàn tính riêng tư tập trung vào việc khai thác được các luật hiếm có trong dữ liệu được chia sẻ từ nhiều bên nhưng không làm tiết lộ dữ liệu của các bên tham gia. Trong phạm vi bài báo này, chúng tôi đề xuất một mô hình khai thác tập hiếm trên môi trường cơ sở dữ liệu phân tán dọc và bảo toàn tính riêng tư cho dữ liệu của các bên cung cấp dữ liệu trong qua trình khai thác. Từ khóa: Bảo toàn tính riêng tư, cơ sở dữ liệu phân tán dọc, khai thác dữ liệu, luật hiếm. 1. GIỚI THIỆU Mục đích của bài toán phát hiện luật kết hợp là tìm ra mối quan hệ giữa các tập mục dữ liệu trong các CSDL lớn và các mối quan hệ này là có ích trong việc hỗ trợ ra quyết định. Ví dụ: trong CSDL siêu thị, việc phát hiện được quan hệ "76% số khách hàng mua kem đánh răng và bàn chải cũng mua khăn mặt" sẽ rất có ích cho quyết định kinh doanh. Chẳng hạn, quyết định về số lượng nhập các mặt hàng này hoặc bố trí chúng tại các ngăn hàng liền kề nhau. Phát hiện luật kết hợp hiếm là một phần của bài toán phát hiện luật kết hợp và hiện đã nhận được nhiều sự quan tâm của các nhà nghiên cứu. Luật kết hợp hiếm được ứng dụng ở nhiều lĩnh vực khác nhau. Các luật hiếm sẽ giúp xác định ảnh hưởng của các hoạt động trong việc học trực tuyến đến kết quả đánh giá cuối cùng của sinh viên, xác định được các bệnh hiếm gặp trong y khoa, dự báo việc hỏng thiết bị truyền thông, hay giúp xác định được các mặt hàng tuy ít xảy ra trong các giao dịch mua bán nhưng lại có giá trị lớn hoặc mang lại lợi nhuận cao trong kinh tế. Ví dụ: luật kết hợp hiếm “máy pha cà phê” → “máy xay cà phê” có độ hỗ trợ rất thấp dưới 10% song có độ tin cậy khá cao tới 80% và giá trị bán hai mặt hàng này cùng nhau là rất đáng kể. Trong [1], các tác giả đã định nghĩa luật hiếm tuyệt đối: luật XY được gọi là luật hiếm tuyệt đối khi: conf(X Y) ≥ minconf, minsup ≤ sup((X Y)) < maxsup, x  (X Y), sup(x) < maxsup. Trong đó, minsup, maxsup, minconf là các giá trị do người sử dụng đưa vào. Với minsup nhằm hạn chế các tập có độ hỗ trợ quá nhỏ không mong đợi. Như vậy chúng ta chỉ tìm các tập hiếm tuyệt đối mà trong đó các phần tử của tập hiếm có độ hỗ trợ không nhỏ hơn minsup sẽ mang lại nhiều lợi ích và giảm được khối lượng dữ liệu quá lớn khi khai thác. maxsup để tìm các tập hiếm không phổ biến (không lớn hơn ngưỡng maxsup) và minconf để phát hiện các luật hiếm từ các tập hiếm đã tìm được. Trong sự phát triển 193 nhanh chóng của dữ liệu và công nghệ thông tin, nhiều doanh nghiệp, đơn vị hành chính, tổ chức y tế mong muốn cùng chia sẻ thông tin với các bên khác nhau để cùng tận dụng những lợi ích chung từ dữ liệu của họ. Tuy nhiên, trong dữ liệu thường chứa thông tin nhạy cảm nên đây là mặt hạn chế khi các bên muốn chia sẻ dữ liệu để cùng khai thác. Để khắc phục vấn đề trên, một lĩnh vực nghiên cứu bảo toàn tính riêng tư trong quá trình khai thác dữ liệu phân tán ra đời. Mục đích chính của các nghiên cứu là khai thác những thông tin hữu ích từ các tập dữ liệu của các bên tham gia, nhưng chắc chắn được rằng dữ liệu của các bên phải được bảo mật, không bị lộ và không bị đánh cắp từ các bên còn lại. Mục đích của bài báo này là hướng tới cung cấp một mô hình khai thác luật hiếm trên CSDL phân tán dọc và bảo toàn tính riêng tư cho dữ liệu của các bên tham gia chia sẻ dữ liệu để khai thác. Ở phần 2 sẽ giới thiệu một số nghiên cứu liên quan. Phần 3 trình bày phương pháp mà chúng tôi đã nghiên cứu và đề xuất trong bài báo này. Trong phần 4 sẽ thực hiện mô hình đề xuất với 4 bên tham gia khai thác và trình bày các số liệu đã được kiểm chứng thực tế. Phần 5 là phần kết luận, đánh giá những ưu điểm và nêu ra một số nhược điểm cần cải tiến. 2. CÁC NGHIÊN CỨU LIÊN QUAN Trong thời gian qua, đã có nhiều tác giả nghiên cứu các mô hình nhằm tăng độ bảo toàn tính riêng tư trong quá trình khai thác trên CSDL phân tán dọc và đã có những đóng góp quan trọng. Trong [4], Muthu Lakshmi và cộng sự đã nghiên cứu và thực hiện mô hình bảo toàn tính riêng tư trên CSDL phân tán dọc với n bên (site) bằng cách tìm tập phổ biến ở từng site, sau đó chuẩn bị một ma trận Mk ( ) thể hiện thông tin của các tập phổ biến và một vector enVk bao gồm các thuộc tính đã được mã hóa. Sitek sẽ gửi Mk và enVk sang site tiếp theo. Site này sử dụng ma trận Mk+1 và enVk+1 của mình kết hợp với Mk và enVk để tìm tập phổ biến mới Mk+1' và enVk+1' (bản chất là tập phổ biến của tập CSDL kết hợp từ sitek và sitek+1). Sau đó, sitek+1 tiếp tục gửi Mk+1' và enVk+1' đến site tiếp theo, điều này được lặp lại cho đến siten và kết quả được gởi đến DM để giải mã và gửi kết quả đến từng site. Từ nghiên cứu của Muthu Lakshmi và các công sự, trong [4] các tác giả đã đề xuất một mô hình cải tiến để giảm thời gian thực hiện việc khai thác bằng cách chia n site thành 2 nhóm và thực hiện việc khai thác cùng lúc trên 2 nhóm, từ đó tránh được việc dồn dữ liệu của n-1 bên vào bên n. Mô hình này giảm thời gian khai thác đáng kể khi các có nhiều bên tham gia. Trong [1] các tác giả đã đề xuất thuật toán khai thác luật hiếm không tuyệt đối hai ngưỡng và trong [2] các tác giả cũng đã đề xuất mô hình khai thác luật hiếm bảo toàn tính riêng tư trên CSDL phân tán ngang. Qua tìm hiểu từ các nghiên cứu liên quan, trong bài báo này chúng tôi đề xuất mô hình khai thác luật hiếm trên CSDL phân tán dọc bảo toàn tính riêng tư. 3. MÔ HÌNH KHAI THÁC Trong [4], các tác giả đã đề xuất mô hình khai thác luật kết hợp có bảo toàn tính riêng tư trên CSDL phân tán dọc với n bên tham gia. Trong bài báo này, chúng tôi sẽ đề xuất một số thay đổi để có thể khai thác được tập hiếm trên CSDL phân tán dọc và bảo toàn tính riêng tư. Trong [3], các tác giả đã chứng minh được rằng: với mô hình khai thác này, việc bảo toàn tính riêng tư vẫn được đảm bảo khi có n-1 bên (trong số n bên tham gia) thông đồng. Trong bài báo này, chúng tôi vẫn sử dụng mô hình của [4] để chia n site thành 2 nhóm (group) với số lượng site tại mỗi nhóm như sau: group1 gồm các sitei với {1,,n/2} và group2 là các site còn lại. Việc chia n bên thành 2 nhóm theo [4] đã giảm được đáng kể thời gian khai thác. Quá trình khai thác diễn ra song song ở Group1 và Group2. Kết quả tại site cuối cùng của mỗi group được gửi đến DM để khai thác luật hiếm toàn cục và gửi kết quả cho tất cả các bên. Các bước trao đổi dữ liệu và tiến hành tại các bên được thực hiện như sau: 194 Bƣớc 1: DM đánh số các site tham gia từ 1 đến n (với mô hình 2 nhóm, số bên tham gia n>=4) và gom các site thành 2 nhóm: Group1 gồm các sitei với i {1,,n/2}, và Group2 là các site còn lại. Sau đó DM gửi ngưỡng minsup, maxsup, và mã khóa công khai (public key) cho tất cả các bên. Hình 1. Mô hình trao đổi dữ liệu giữa các bên Bƣớc 2: Mỗi bên tiến hành khai thác các tập hiếm của mình từ tập các giao dịch trong dữ liệu hiện có dựa trên ngưỡng minsup, maxsup đã nhận được từ DM. Bƣớc 3: Đối với mỗi sitek, tạo ra một ma trận Mk và một vector Vk. Với Mk mỗi hàng thể hiện giao dịch của một tập hiếm được tìm thấy trong các giao dịch tại CSDL cục bộ. Trong ma trận này, nếu Mk (i, j) = 1, nghĩa là trong giao dịch ở cột thứ j xuất hiện tập hiếm tại hàng i này. Tập các vector Vk chứa các tập hiếm đã được tìm thấy tại sitek. Giữa Vk và Mk duy trì một mối quan hệ là: tập hiếm thứ i trong vector Vk tương ứng với các giao dịch cho dòng thứ i của ma trận Mk. Bƣớc 4: Mỗi bên sẽ mã hóa tất cả các tập hiếm trong vector Vk thành enVk bằng cách sử dụng khóa công khai đã nhận được từ DM. Từ Bước 5 đến Bước 8 được thực hiện đồng thời tại cả 2 group. Dữ liệu được gửi từ site1 đến siten/2 tại group1 và từ siten đến siten/2+1 tại group2. Bƣớc 5: Site1 gửi ma trận M1 và enV1 đến site2. (Hoặc siten gửi ma trận Mn và enVn đến siten-1). Bƣớc 6: Site2 thực hiện M1 x M2 bằng cách sử dụng khái niệm về tích Descartes và tạo ra một ma trận M12 trong đó bao gồm tập hiếm của M1 x M2. Site2 sau đó tạo ra ma trận M2' từ các ma trận M1, M2 và M12. Bƣớc 7: Site2 tạo ra vector enV2' trong đó bao gồm danh sách đã mã hóa các tập hiếm có trong enV1, enV2 và enV12 với enV12 là đại diện cho các tập hiếm được mã hóa của M12. Site2 sẽ gửi ma trận M2' cùng với vector enV2' đến bên kế tiếp của nó. Bảng 1. Một số từ viết tắt Thuật ngữ Mô tả minsup Độ hỗ trợ tối thiểu maxsup Độ hỗ trợ tối đại minconf Độ tin cậy tối thiểu Mi Ma trận thể hiện dữ liệu tập hiếm của bên thứ i Mi’ Ma trận thể hiện dữ liệu tập hiếm của bên thứ i và i+1 (hoặc i-1 tùy theo hướng khai thác) Vi Vector thể hiện các thuộc tính tương ứng với Mi enVi Vector đã mã hóa các thuộc tính từ Vi DM Data Miner – Nơi độc lập, nhận dữ liệu từ bên n/2 và n/2+1 195 Bƣớc 8: Các sitei còn lại thực hiện Bước 6 và 7 dựa vào ma trận và vector nhận được từ bên thứ i-1 và ma trận riêng của mình Mi và vector mã hóa enVi. Bƣớc 9: Bên cuối cùng của mỗi group (siten/2 và siten/2+1) gửi ma trận Mn/2', vector enVn/2' và ma trận Mn/2+1', vector enVn/2+1' đến DM. Bƣớc 10: Sau khi nhận được dữ liệu từ siten/2 và siten/2+1. DM thực hiện tương tự ở Bước 6 và 7 để có MDM' và vector enVDM'. Bƣớc 11: Tại DM, sắp xếp lại enVDM' dựa vào độ dài các tập hiếm đã mã hóa theo thứ tự giảm dần. Dựa theo vị trí của các tập hiếm đặt trong danh sách sắp xếp enVDM', ma trận MDM' được sắp xếp lại để theo đúng thứ tự. DM giải mã bằng khóa riêng cho mỗi tập hiếm trong vector enVDM' để có được những tập hiếm toàn cục. DM tìm độ hỗ trợ của từng tập hiếm toàn cục bằng cách đếm số lần xuất hiện của mỗi tập mục trong hàng tương ứng của ma trận MDM' và sinh ra một danh sách bao gồm các tập hiếm toàn cục và độ hỗ trợ của nó. Bƣớc 12: Dựa trên danh sách này, DM tạo ra các luật hiếm toàn cục dựa vào minconf do người sử dụng nhập vào. Sau đó các luật hiếm này sẽ được gửi đến tất cả các bên. Quy trình khai thác kết thúc. 4. THỰC HIỆN MÔ HÌNH Giả sử trong mô hình ví dụ của chúng ta có 4 bên tham gia và các bên có dữ liệu đã được phân tán dọc như trong các bảng 2, 3, 4 và 5. Dữ liệu của các bên đều bao gồm 6 giao dịch và với các thuộc tính khác nhau từ A1 đến A12 tương đương với các mặt hàng khác nhau mà các bên có. Bảng 2. Dữ liệu cục bộ tại Site1 TID\Item A1 A2 T1 1 1 T2 1 0 T3 1 0 T4 0 1 T5 1 0 T6 0 0 Bảng 3. Dữ liệu cục bộ tại Site2 TID\Item A3 A4 A5 T1 1 1 0 T2 1 0 1 T3 1 0 0 T4 1 1 1 T5 1 1 0 T6 0 0 0 Đầu tiên, DM yêu cầu cả bốn bên tham gia vào quá trình khai thác để tìm tập hiếm toàn cục bằng cách gửi maxsup= 40% và minsup=5%. Mỗi bên áp dụng thuật toán tìm tập hiếm để tìm các tập hiếm thỏa maxsup và minsup này. Tại group1- site1: Site1 tạo ra ma trận M1 và vector V1 có giá trị như sau: [ ] và V1 = {A2, (A1,A2)}. Site1 mã hóa tên các thuộc tính của vector V1 dựa vào khóa công khai: enV1 = {e(A2), e(A1, A2)}. Sau đó gửi M1 và enV1 đến site2. Tại group1 - site2: Site2 có ma trận M2 và vector enV2 đã mã hóa các thuộc tính như sau: 196 [ ] enV2 = {e(A5), e(A3,A5)}. Site2 tìm ma trận M12 và vector enV12 dựa trên M1, enV1, M2 và enV2. Ma trận M12 được tạo ra bằng cách tính tích Descartes của ma trận M1 và M2. Sau đó chọn ra những dòng thỏa điều kiện của tập hiếm. Kết quả M12 như sau: , - và vector V12={(A2, A3, A5)} M2' được tạo ra bằng cách hội M2, M12 vào M1 và enV2’ tạo ra bằng cách kết hợp enV2, enV12 vào enV1. Ta có kết quả như sau: [ ] và enV2'={e(A2), e(A1,A2), e(A5), e(A3,A5), e(A2, A3, A5)}. Sau đó site2 sẽ gửi M2' và enV2' cho DM. Tại group2 giả sử dữ liệu của site3 và site4 lần lượt như trong Bảng 4 và Bảng 5. Site4 thực hiện tìm M4 và enV4 sau đó gửi qua site3. Tại đây, site3 thực hiện tương tự như site2 của group1. Bảng 4. Dữ liệu cục bộ tại Site3 TID\Item A6 A7 A8 T1 1 0 0 T2 0 1 0 T3 0 1 1 T4 1 1 0 T5 0 0 1 T6 1 0 1 Bảng 5. Dữ liệu cục bộ tại Site4 TID\Item A9 A10 A11 A12 T1 1 1 0 0 T2 0 1 0 0 T3 1 0 0 1 T4 0 0 0 1 T5 0 0 1 1 T6 1 1 0 0 Kết quả tại site3 sau khi kết hợp với kết quả của site4 như sau: [ ] enV3' = {e(A6,A7), e(A6,A8), e(A7,A8), e(A11), e(A9, A10), e(A9, A12), e(A11, A12), e(A6, A8, A9, A10), e(A7, A8, A9, A12)}. Sau đó, site3 gửi M3' và enV3' đến DM. Tại DM: Sau khi nhận được dữ liệu từ site2, site3, DM thực hiện tương tự như ở các group với M2', enV2' và M3', enV3' để tìm ra MDM' và enVDM': 197 enVDM’ = { e(A2), e(A1,A2), e(A5), e(A3,A5), e(A2, A3, A5), e(A6,A7), e(A6,A8), e(A7,A8), e(A11), e(A9, A10), e(A9,A12), e(A11,A12), e(A6,A8, A9,A10), e(A7, A8, A9, A12)}. DM sắp xếp enVDM' dựa vào độ dài các tập hiếm đã mã hóa theo thứ tự giảm dần. Dựa theo vị trí của các tập hiếm đặt trong danh sách sắp xếp enVDM', ma trận MDM' được sắp xếp lại để theo đúng trật tự. enVDM' ={e(A6, A8, A9, A10), e(A7, A8, A9, A12), e(A2, A3, A5), e(A6, A7), e(A6, A8), e(A7, A8), e(A9, A10), e(A9,A12), e(A11,A12), e(A1,A2), e(A3,A5), e(A2), e(A5), e(A11)}. DM áp dụng giải mã enVDM' với private key để có các tập hiếm, lúc này các tập hiếm đã trộn lẫn của nhiều bên nên DM không phát hiện ra một tập hiếm X chính xác thuộc site nào. DM cũng tìm độ hỗ trợ (Support) cho từng tập hiếm bằng cách đếm các giá trị 1 trong các hàng tương ứng từ ma trận MDM' đã sắp xếp. Từ đó, DM cũng sẽ tìm các luật hiếm cho từng tập hiếm toàn cục dựa trên minconf. (Trong ví dụ này minconf=80%). Ta xét tập hiếm toàn cục (A3, A5) ta có luật hiếm A3 A5 do độ tin cậy của luật này là 100%> minconf. Tương tự cách tìm luật hiếm như trên, DM sẽ tìm tất cả luật hiếm trong các tập hiếm và truyền kết quả về cho từng bên tham gia. Bảng 6. Tập hiếm toàn cục và độ hỗ trợ Item Sets Sup Item Sets Sup (A2) (A5) (A11) (A1,A2) (A3,A5) (A6,A7) (A6,A8) 2 2 2 1 2 2 2 (A7,A8) (A9,A10) (A9,A12) (A11,A12) (A2,A3,A5) (A6,A8,A9,A10) (A7,A8,A9,A12) 1 2 1 1 1 1 1 Chúng tôi đã cài đặt chương trình để kiểm tra kết quả. Kết quả cho thấy mô hình đề xuất có kết quả số luật hiếm tìm thấy tương đương với nghiên cứu [2]. Máy tính sử dụng tại các bên tham gia là Intel 3.2GHz, bộ xử lý Core i5, Ram 4GB, hệ điều hành Window 10 – 64 bit. Chúng tôi cũng thực nghiệm trên nhiều site khác nhau để đo thời gian thực hiện. Thời gian đo được tính từ khi DM gửi maxsup, minsup và khóa công khai cho các bên và được tính là tổng thời gian thực hiện ở tất cả các bên và ở DM. Thời gian truyền dữ liệu được coi là không đáng kể. Số liệu thực nghiệm được đo từ dữ liệu Mushroom gồm 8418 dòng và 119 thuộc tính. Chúng tôi lần lượt chia số thuộc tính ra làm 4, 10 và 20 cho số lượng các bên tham gia. Kết quả trong bảng 7. Bảng 7. Thời gian thực nghiệm Số bên Thời gian (Milisecond) 4 3250 10 3824 20 4422 Bảng 8. Kết quả thực hiện trên các CSDL Tên CSDL minsup maxsup minconf Số luật hiếm Mushroom 30% 70% 75% 23 Chess 30% 70% 75% 135 C20d10k 30% 70% 75% 15 198 Trong Bảng 8, số lượng các bên tham gia là 4, chúng tôi tiến hành thực nghiệm để kiểm tra tính đúng đắn của mô hình khai thác đề xuất. Kết quả cho thấy: số luật hiếm khai thác được trên mô hình đề xuất trùng vời số luật hiếm được tìm thấy khi khai thác trên CSDL tập trung. 5. KẾT LUẬN Bài báo đã đề xuất mô hình khai thác tập hiếm trên CSDL phân tán dọc bảo toàn tính riêng tư cho dữ liệu của các bên tham gia. Thông tin các bên đã được mã hóa, và chỉ DM mới có thể giải mã. Lúc này dữ liệu các bên đã được trộn lại và DM không thể biết chính xác dữ liệu của từng bên, như vậy mô hình sẽ đảm bảo thông tin được giữ kín, không thể bị đánh cắp từ các bên khác. Dựa vào kết quả thực nghiệm, chúng tôi cũng nhận xét rằng kết quả khai thác trên CSDL tập trung và kết quả khai thác trên CSDL phân tán dọc bảo toàn tính riêng tư theo mô hình đã đề xuất là như nhau. Hạn chế đối với mô hình 2 nhóm là: số lượng các bên tham gia phải lớn hơn hoặc bằng 4. Nếu số lượng các bên tham gia là 2 hoặc 3 chúng tôi đề xuất sử dụng mô hình một bên để đảm bảo dữ liệu được trộn ít nhất là của 2 bên tham gia nhằm tránh bị lộ thông tin tại DM. TÀI LIỆU THAM KHẢO [1] Cu Thu Thuy, Do Van Thanh (2010), “Mining Imperfectly Sporadic Rules with Tow Thresholds”, International Journal of Computer Theory and Engineering, Vol.2(5) 2010, pp.718-723. [2] Huỳnh Ngọc Ca, Cao Tùng Anh, Nguyễn Hoàng Tú Anh (2017), “Khai thác luật hiếm bảo toàn tính riêng tư trên CSDL phân tán ngang”, Hội thảo quốc gia về công nghệ thông tin và truyền thông, Quy Nhơn 23-24/11/2017, tr 123-128. [3] N. V. Muthu Lakshmi and K. Sandhya Rani (2012), “Privacy Preserving Association Rule Mining in Vertically Partitioned Databases”, International Journal of Computer Science and Information Technologies, Vol. 39-No.13, 2012, pp.0975 - 8887. [4] Nguyễn Hữu Lộc, Cao Tùng Anh, Nguyễn Hoàng Tú Anh (2017), “Bảo toàn tính riêng tư trong khai thac CSDL phân tán dọc”, Hội thảo quốc gia về công nghệ thông tin và truyền thông, Quy Nhơn 23-24/11/2017, tr 18-23. [5] Nikunj Domadiya, Udai Pratap Rao (2019), “Privacy Preserving Distributed Association Rule Mining Approach on Vertically Partitioned Healthcare Data”, Procedia computer science 148, (2019), pp.303-312.

Các file đính kèm theo tài liệu này:

de_xuat_mo_hinh_khai_thac_luat_hiem_tren_co_so_du_lieu_phan.pdf