Thuật toán hiệu quả khai thác tập tương quan hiếm có trọng số kết hợp độ đo All-confidence

Khai thác tập hiếm là một kỹ thuật khai thác rất quan trọng cùng với các ứng dụng tiềm năng như phát hiện các cuộc tấn công máy tính, giao dịch gian lận trong các tổ chức tài chính, tin sinh học, y tế. Trong khai thác dữ liệu truyền thống trên dữ liệu giao dịch thì các item không có trọng số (như nhau). Tuy nhiên, trong một số ứng dụng thực tế thì mỗi item có trọng số khác nhau (thể hiện mức độ quan trọng hay ý nghĩa của từng item) - Cần khai thác các tập phổ biến/ hiếm có trọng số của item. Trong bài viết này, chúng tôi đề xuất một cách tiếp cận khai thác tập tương quan hiếm có trọng số theo hướng tiếp cận không thỏa tính chất bao đóng giảm và đồng thời thỏa ràng buộc phản đơn điệu của độ đo tương quan all-confidence. Thuật toán chúng tôi đề xuất được gọi là ALLCONF-CORSI. Chúng tôi tiến hành thực nghiệm thuật toán trên bộ dữ liệu thực của UCI và bộ dữ liệu giả lập của trung tâm nghiên cứu IBM Almaden, cho thấy thuật toán đề xuất hiệu quả

10 trang | Chia sẻ: Thục Anh | Lượt xem: 566 | Lượt tải: 0

Nội dung tài liệu Thuật toán hiệu quả khai thác tập tương quan hiếm có trọng số kết hợp độ đo All-confidence, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

DAC; 0,20;0,13)}. Phan Thành Huấn, Lê Hoài Bắc 457 Xét item F, nLOOC-Tree(F) có hai đƣờng đi đơn {F E G} và {F G}: sigsup({FEG}) = 0,06 < minsigsup và thỏa Bổ đề 4. Dòng 10, sinh phân đoạn đƣờng đi đơn {F E} có sigsup({FE}) = 0,12 < minsigsup và không thỏa Bổ đề 4, sinh các itemset tƣơng quan hiếm có trọng số từ item F là CORSI[F] = {(FE; 0,20;0,12), {(FAE; 0,20;0,12), {(FCE; 0,20;0,12), {(FACE; 0,20;0,12)}, tƣơng tự đƣờng đi đơn {F G} sinh thêm các itemset tƣơng quan hiếm có trọng số CORSI[F] = {(FG; 0,20;0,12), {(FAG; 0,20;0,12), {(FCG; 0,20;0,12), {(FACG; 0,20;0,12)}. Xét item E, cây nLOOC-Tree(E): có một đƣờng đi đơn {E G} và ssigup(EG) = 0,12 < minsigsup và không thỏa Bổ đề 4: sinh các itemset tƣơng quan hiếm có trọng số từ item E là CORSI[E] = {(EG; 0,30;0,12)}. Tập tƣơng quan hiếm có trọng số CORSI trên Ɗ ở Bảng 1 với minsigsup = 0,15 và min_allconf = 0,25: Item hạt nhân Tập tương quan hiếm có trọng số CORSI H (H;0,1;0,08) B (B;0,2;0,14) (BE;0,2;0,14) (BA;0,2;0,14) (BC;0,2;0,14) (BAE;0,2;0,14) (BCE;0,2;0,14) (BAC;0,2;0,14) (BACE;0,2;0,14) D (D;0,2;0,13) (DA;0,2;0,13) (DC;0,2;0,13) (DF;0,1;0,065) (DAC;0,2;0,13) F (FE;0,2;0,12) (FG;0,2;0,12) (FAE;0,2;0,12) (FCE;0,2;0,12) (FGA;0,2;0,12) (FGC;0,2;0,12) (FACE;0,2;0,12) (FGAC;0,2;0,12) E (EG;0,3;0,12) IV. KẾT QUẢ THỰC NGHIỆM Thực nghiệm trên máy tính Core Duo 2.0 GHz, 4GB RAM, thuật toán cài đặt trên C#, MVS 2010. Nghiên cứu thực nghiệm trên hai nhóm dữ liệu: Nhóm dữ liệu thực có mật độ dày: sử dụng dữ liệu thực từ kho dữ liệu về học máy của trƣờng Đại học California (Lichman, M. (2013). UCI Machine Learning Repository []. Irvine, CA: University of California, School of Information and Computer Science) gồm 2 tập Chess và Mushroom. Nhóm dữ liệu giả lập có mật độ thưa: sử dụng phần mềm phát sinh dữ liệu giả lập của trung tâm nghiên cứu IBM Almaden (IBM Almaden Research Center, San Joe, California 95120, U.S.A []) gồm 2 tập T10I4D100K và T40I10D100K. Bảng 6. Dữ liệu thực nghiệm Tên dữ liệu Số mục Số giao dịch Số mục nhỏ nhất/ giao dịch Số mục lớn nhất/ giao dịch Số mục trung bình/ giao dịch Mật độ (%) Chess 75 3.196 37 37 37 49,3 Mushroom 119 8.142 23 23 23 19,3 T10I4D100K 870 100.000 1 29 10 1,1 T40I10D100K 942 100.000 4 77 40 4,2 Trong bài viết này, chúng tôi đề xuất thuật toán khai thác tập tƣơng quan hiếm có trọng số kết hợp độ đo All- Confidence và giải quyết bài toán theo hƣớng sinh các tập hiếm có trọng số không thoả tính chất bao đóng giảm. Đây là đề xuất đầu tiên theo hƣớng tiếp cận trên, nên chƣa có thuật toán cùng hƣớng tiếp cận để so sánh hiệu năng thuật toán. Vì vậy, chúng tôi đề xuất so sánh hiệu năng thuật toán theo 2 thực nghiệm sau: A. Thực nghiệm thứ 1 Khai thác tập tƣơng quan hiếm có trọng số kết hợp độ đo tƣơng quan All-Confidence: Trong thực nghiệm 1, chúng tôi dựa vào thuật toán IWI [7] và cải tiến thành thuật toán khai thác tập hiếm có trọng số item đồng thời kết hợp độ đo All-Confidence, gọi là IWI. Trên cơ sở này, chúng tôi so sánh hiệu năng thuật toán IWI với thuật toán đề xuất ALLCONF-CORSI: cho minsigsup thay đổi và cố định min_allconf. Mức ý nghĩa (trọng số) của từng item đƣợc phát sinh ngẫu nhiên trong [0, 1] và cố định ngƣỡng min_allconf. 1.000 10.000 100.000 1000.000 0,20 0,21 0,22 0,23 0,24 T h ờ i g ia n ( m il i g iâ y) minsigsup (a) Chess+min_allconf=0,30 IWI ALLCONF-CORSI 1.000 10.000 100.000 1000.000 0,15 0,16 0,17 0,18 0,19 T h ờ i g ia n ( m il i g iâ y) minsigsup (b) Mushroom+min_allconf=0,30 IWI ALLCONF-CORSI Hình 2. Thời gian thực hiện ALLCONF-CORSI và IWI trên Chess, Mushroom 458 KHAI THÁC TẬP TƢƠNG QUAN HIẾM CÓ TRỌNG SỐ KẾT HỢP ĐỘ ĐO ALL-CONFIDENCE Hình 2a và 2b là kết quả thực nghiệm trên nhóm dữ liệu có mật độ cao, ta thấy thuật toán ALLCONF-CORSI nhanh hơn thuật toán IWI. 1.000 10.000 100.000 1000.000 0,015 0,016 0,017 0,018 0,019 T h ờ i g ia n ( m il i g iâ y) minsigsup (a) T10I4D100K+min_allconf=0,25 IWI ALLCONF-CORSI 1.000 10.000 100.000 0,025 0,030 0,035 0,040 0,045 T h ờ i g ia n ( m il i g iâ y) minsigsup (b) T40I10D100K+min_allconf=0,25 IWI ALLCONF-CORSI Hình 3. Thời gian thực hiện ALLCONF-CORSI và IWI trên T10I4D100K, T40I10D100K Hình 3a và 3b là kết quả thực nghiệm trên nhóm dữ liệu giả lập có mật độ thấp, ta thấy thuật toán ALLCONF- CORSI nhanh hơn thuật toán IWI. Hiệu suất của thuật toán ALLCONF-CORSI rất cao so với IWI trên dữ liệu thƣa. B. Thực nghiệm thứ 2 Khai thác ALLCONF-CORSI không trọng số: 1 2 1 mi i i sig sig sig... (5) Thuật toán ALLCONF-CORSI, có mức ý nghĩa (trọng số) các mục thỏa (5) là thuật toán khai thác tập tƣơng quan hiếm không trọng số (mức ý nghĩa các item như nhau), đồng thời ngƣỡng độ đo tƣơng quan min_allconf = 0. Trong thực nghiệm 2, chúng tôi so sánh thuật toán đề xuất ALLCONF-CORSI (có trọng số là như nhau và ngưỡng độ đo tương quan minallconf = 0, ký hiệu là ALLCONF-CORSI-0) với thuật toán AprioriInverse [8], đây là thuật toán khai thác tập tƣơng quan hiếm không trọng số hiệu quả trong những năm gần đây. .100 1.000 10.000 100.000 1000.000 25 30 35 40 45 T h ờ i g ia n ( m il i g iâ y) Minsup (% ) (a) Chess AprioriInverse ALLCONF-CORSI-0 .100 1.000 10.000 100.000 1000.000 10 15 20 25 30 T h ờ i g ia n ( m il i g iâ y) Minsup (% ) (b) Mushroom AprioriInverse ALLCONF-CORSI-0 Hình 4. Thời gian thực hiện ALLCONF-CORSI-0 và AprioriInverse trên Chess, Mushroom Hình 4a và 4b là kết quả thực nghiệm trên nhóm dữ liệu có mật độ cao, ta thấy thuật toán ALLCONF-CORSI- 0 nhanh hơn thuật toán AprioriInverse. .100 1.000 10.000 100.000 1000.000 0,1 0,2 0,3 0,4 0,5 T h ờ i g ia n ( m il i g iâ y) Minsup (% ) (a) T10I4D100K AprioriInverse ALLCONF-CORSI-0 .100 1.000 10.000 100.000 1000.000 0,3 0,4 0,5 0,6 0,7 T h ờ i g ia n ( m il i g iâ y) Minsup (% ) (b) T40I10D100K AprioriInverse ALLCONF-CORSI-0 Hình 5. Thời gian thực hiện ALLCONF-CORSI-0 và AprioriInverse trên T10I4D100K, T40I10D100K Hình 5a và 5b là kết quả thực nghiệm trên nhóm dữ liệu giả lập có mật độ thấp, ta thấy thuật toán ALLCONF- CORSI-0 hiệu quả hơn thuật toán AprioriInverse rất nhiều. Hiệu suất của thuật toán ALLCONF-CORSI-0 rất cao so với AprioriInverse trên dữ liệu thƣa. Kết quả trên cho thấy thuật toán khai thác tập tƣơng quan hiếm có trọng số ALLCONF-CORSI tốt hơn thuật toán mới gần đây. Ngoài ra, thuật toán cũng cần thực nghiệm thêm trên nhiều tập dữ liệu có mật độ khác nhau, cũng nhƣ trên nhiều dữ liệu cỡ lớn. Phan Thành Huấn, Lê Hoài Bắc 459 V. KẾT LUẬN Nhóm tác giả đã đề xuất thuật toán khai thác tập tương quan hiếm có trọng số gồm ba giai đoạn: giai đoạn thứ nhất là tính nhanh mảng Index_COOC chứa các item đồng xuất hiện và item xuất hiện với item hạt nhân ít nhất trong một giao dịch; giai đoạn thứ hai: xây dựng cây nLOOC-Tree; giai đoạn thứ ba: thuật toán ALLCONF-CORSI khai thác hiệu quả tập tương quan hiếm có trọng số dựa trên mảng Index_COOC và cây nLOOC-Tree. Với kiến trúc nhƣ trên, khi ngƣời dùng khai thác tập tƣơng quan hiếm có trọng số với ngưỡng khác thì thuật toán đề xuất chỉ thực hiện khai thác tập tƣơng quan hiếm trên mảng Index_COOC và cây nLOOC-Tree đã tính ở lần khai thác trƣớc làm giảm thời gian xử lý đáng kể. Tƣơng lai, nhóm tác giả mở rộng thuật toán để có thể khai thác tập tương quan hiếm có trọng số kết hợp độ đo Any-confidence, Bond, trên dữ liệu giao dịch có trọng số của item, đây là hƣớng nghiên cứu đang đƣợc quan tâm vì khả năng ứng dụng vào nhiều lĩnh vực, đặc biệt là trong kinh doanh, y khoa. VI. LỜI CẢM ƠN Nhóm tác giả cảm ơn sự hỗ trợ từ Trƣờng Đại học Khoa học Xã hội và Nhân văn; Đại học Khoa học Tự nhiên Đại học Quốc gia Tp.HCM. TÀI LIỆU THAM KHẢO [1] R. Agrawal, T. Imilienski, A. Swami, “Mining association rules between sets of large databases”. Proc. of the ACM SIGMOD International Conference on Management of Data, Washington, DC, pp.207-216, 1993. [2] M. J. Zaki, S. Parthasarathy, M. Ogihara, W. Li, “New Algorithms for Fast Discovery of Association Rules”. In: Proc. of the 3rd International Conference on Knowledge Discovery in Databases, pp.283-286, 1997. [3] J. Han, J. Pei, Y. Yin, R. Mao, “Mining frequent patterns without candidate generation: A frequent pattern tree approach”. Data Mining and Knowledge Discovery, 8(1) pp.53-87, 2004. [4] E. Omiecinski, “Alternative interest measures for mining associations in databases”. IEEE Transactions on Knowledge and Data Engineering, 15(1), pp.57-69, 2003. [5] C.H. Cai, A.W. Fu, C.H. Cheng, W.W. Kwong, “Mining association rules with weighted items”. Proceedings of International Database Engineering and Applications Symposium (IDEAS 98), pp.68-77, 1998. [6] F. Tao, F. Murtagh, M. Farid, “Weighted association rule mining using weighted support and significance framework”. SIGKDD’03, pp.661-666, 2003. [7] S. Kamepalli, R. S. R. Kurra, Y. K. K. Sundara, “Infrequent Pattern Mining from Weighted Transactional Data Set”. International Journal of Research Studies in Computer Science and Engineering, 2(3), pp. 1-5, 2015. [8] Y. S. Koh, N. Rountree, “Finding sporadic rules using apriori-inverse”. In PAKDD’05, 3518, pp.97-106, 2005. [9] L. Troiano, C. Birtolo, “A fast algorithm for mining rare itemsets”. IEEE 19th International Conference on Intelligent Systems Design and Applications, pp.1149-1155, 2009. [10] L. Szathmary, P. Valtchev, A. Napoli, R. Godin, ”Efficient vertical mining of minimal rare itemsets”. Proc. of the 19th International Conference on Concept Lattices and Their Applications, pp.269-280, 2012. [11] S. Bouasker, S. B. Yahia, “Key correlation mining by simultaneous monotone and anti-monotone constraints checking”. Proc. of the 2015 ACM Symposium on Applied Computing (SAC 2015), pp. 851-856, 2015. [12] Phan Thành Huấn, Lê Hoài Bắc, “Thuật toán hiệu quả khai thác tập hiếm tối thiểu”. Hội nghị Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); tr. 497-505, 2018. AN EFFICIENT MINING ALGORITHM RARE CORRELATED SIGNIFICANCE ITEMSET COHERENCE ALL-CONFIDENCE MEASURE Phan Thanh Huan, Le Hoai Bac ABSTRACTL: Rare itemsets mining is an important task for potential applications such as the detection of computer attacks, fraudulent transactions in ﬁnancial institutions, bioinformatics and medical. In the traditional data mining on transaction databases, which items have no weight (equal weight, as equal to 1). However, in real world applications are often each item has a different weight (the importance/significance of each item). Therefore, we need to mining weighted frequent/rare itemsets on transaction databases. In this paper, we proposed an algorithm for mining rare correlated significance itemsets approach based on NOT satisfy the downward closure property and coherence the anti-monotone constraint of correlation belong to the all-confidence measure. We propose an efficient algorithm called ALLCONF-CORSI. The experimental results show that the proposed algorithms perform faster than other existing algorithms on both real-life datasets of UCI and synthetic datasets generated by IBM Almaden. Keywords: all-confidence measure, rare correlated significance itemset, ALLCONF-CORSI algorithm.

Các file đính kèm theo tài liệu này:

thuat_toan_hieu_qua_khai_thac_tap_tuong_quan_hiem_co_trong_s.pdf