Khai phá tập mục hữu ích cao hiếm nhằm mục đích tìm kiếm trong cơ sở dữ liệu giao tác (CSDL) tất cả các tập mục có độ hỗ trợ thấp hơn hoặc bằng ngưỡng hỗ trợ tối đa và giá trị hữu ích lớn hơn hoặc bằng ngưỡng hữu ích tối thiểu được chỉ ra bởi người dùng. Các thuật toán khai phá tập mục hữu ích cao hiếm hai pha sẽ tốn nhiều thời gian thực thi ở pha sinh tập ứng viên, đặc biệt khi ngưỡng hỗ trợ tối đa tăng lên sẽ sinh ra nhiều tập ứng viên. Để khắc phục hạn chế này, trong bài báo này chúng tôi đề xuất thuật toán khai phá tập mục hữu ích cao hiếm mà không cần sinh tập ứng viên. Để lưu trữ hiệu quả thông tin về giá trị hữu ích và độ phổ biến của các tập mục chúng tôi sử dụng cấu trúc utility-List, đồng thời dựa trên cấu trúc này để tỉa không gian tìm kiếm hiệu quả. Kết quả thực nghiệm cho thấy thuật toán của chúng tôi nhanh hơn các thuật toán hiện tại
9 trang |
Chia sẻ: Thục Anh | Ngày: 11/05/2022 | Lượt xem: 413 | Lượt tải: 1
Nội dung tài liệu Fhurim: Thuật toán khai phá tập mục hữu ích cao hiếm, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
dựng các utility-list của các tập mở rộng của Px
(tập mở rộng là tập ). Gọi đệ quy thuật toán FHURIM_Miner để xác định
tập mục hữu ích cao cho các tập mở rộng của Px
Sau đây là thuật toán FHURI được viết dưới dạng mã giả:
Thuật toán FHURIM
Vào: D: CSDL Giao tác; ngưỡng hữu ích tối thiểu; ngưỡng hỗ trợ cực đại.
Ra: HURIs: Tập gồm các tập mục hữu ích cao hiếm.
1. ;
2. ;
Thuật toán FHURIM_Initial
Vào: D: CSDL Giao tác; ngưỡng hữu ích tối thiểu;
Ra: : Tập gồm các mục có trọng số hữu ích lớn hơn hoặc bằng và được sắp xếp theo thứ tự tăng dần của
trọng số hữu ích của các mục; ULs: tập các utility_list của các mục đơn trong ; EUCS: Chứa dữ liệu theo cấu
trúc EUCS;
1. )
2. Tính ;
3. Xác định tập { };
4. Sắp xếp lại thứ tự của các mục trong { } ( ) ;
5. ){
Huỳnh Triệu Vỹ, Lê Quốc Hải, Trương Ngọc Châu 165
6. Xây dựng tập ULs gồm các utility-list của các mục ;
7. Xây dựng cấu trúc EUCS
8. }
Thuật toán FHURIM_Miner
Vào: P.UL: Utility-list của tập mục P; ULs: tập các utility-list của các tập mục mở rộng của P; ngưỡng hữu
ích tối thiểu; ngưỡng hỗ trợ cực đại; : cấu trúc EUCS;
Ra: HURIs: Tập gồm các tập mục hữu ích cao hiếm;
1. {
2. { }
3. {
4. { };//tập các utility-list của các tập mở rộng của Px
5.
6.
7.
8. ;
9. }
10. }
B. Kết quả thực nghiệm
Mô tả CSDL: Các cơ sở dữ liệu liệu chạy thực nghiệm chúng tôi sử dụng CSDL được công bố tại [15], chi tiết
về các CSDL này được mô tả trong Bảng 5.
Bảng 5. Mô tả tập CSDL thực nghiệm
Databases #|D| #|I| #AvgLen #MaxLen
Foodmart 4.141 1.559 4,0 11
Mushroom 8.124 119 23 23
Chú thích: #|D|: Tổng số giao tác; #|I|: Tổng số mục trong CSDL; #AvgLen: Độ dài trung bình của giao tác
trong CSDL; #MaxLen: Độ dài cực đại của giao tác trong CSDL.
Mô tả hệ thống máy tính: CPU Core I5 2.4GHz, RAM 8GB, Windows 10.
Kết quả thực nghiệm: Chúng tôi so sánh thời gian thực thi giữa thuật toán FHURIM với thuật toán Up-Rare
Growth trên CSDL được mô tả trong Bảng 5. Kết quả thực nghiệm cho thấy thuật toán FHURIM có thời gian thực thi
nhanh hơn nhiều lần so với thuật toán Up-Rare Growth. Bởi vì thuật toán UP-Rare Growth dựa trên cấu trúc UP-Tree
để tính toán độ phổ biến và giá trị hữu ích của tập mục cùng nhau và áp dụng chiến lược tỉa không gian tìm kiếm tương
tự như thuật toán UP-Growth. Tuy nhiên, nhược điểm của UP-Tree là tốn nhiều thời gian và bộ nhớ để xây dựng cấu
trúc UP-Tree, đặc biệt khi ngưỡng hữu ích tối thiểu thấp và CSDL chứa mẫu dài và dày vì thuật toán chỉ tỉa các mục
đơn có TWU nhỏ hơn ngưỡng hữu ích tối thiểu và độ hỗ trợ của tập mục chỉ được tính khi toàn bộ dữ liệu được thêm
vào cây UP-Tree. Còn đối với thuật toán FHURIM sử dụng cấu trúc utility-list và EUCS để tính toán giá trị hữu ích và
độ phổ biến của các tập mục (từ utility-list của mục đơn được khởi tạo ban đầu) mà không cần quét lại CSDL, đồng
thời trên 2 cấu trúc này cũng chứa thông tin heuristic để tỉa không gian tìm kiếm hiệu quả.
Hình 5 biểu diễn thời gian thực thi giữa hai thuật toán Up-Rare Growth và FHURIM trên CSDL Foodmart và
Mushroom với các ngưỡng hỗ trợ cực đại và ngưỡng hữu ích tối thiểu khác nhau.
0
300
600
900
1200
1500
0.024 0.048 0.072 0.096
R
u
n
t
im
e
s(
m
s)
Max Support
Foodmart
(Min Utility=560)
UP-Rare Growth FHURIM
0
300
600
900
1200
1500
0.024 0.048 0.072 0.096
R
u
n
t
im
e
s(
m
s)
Max Support
Foodmart
(Min Utility=600)
UP-Rare Growth FHURIM
166 FHURIM: THUẬT TOÁN KHAI PHÁ TẬP MỤC HỮU ÍCH CAO HIẾM
Hình 5. Kết quả so sánh thời gian thực thi của thuật toán Up-Rare Growth so với FHURIM trên CSDL Foodmart và
Mushroom
IV. KẾT LUẬN
Khai phá tập mục hữu ích cao hiếm là một mở rộng của bài toán khai phá tập mục hữu ích cao nhằm mục đích
tìm ra trong CSDL liệu giao tác tất cả tập mục hữu ích cao nhưng không phổ biến trong CSDL. Trong bài báo này
chúng tôi đề xuất thuật toán có tên gọi là FHURIM để khai phá nhanh tập mục hữu ích cao hiếm mà không cần trải qua
pha sinh tập ứng viên dựa trên cấu trúc utility-list và chiến lược tỉa EUCS. Chúng tôi chạy thực nghiệm trên 2 CSDL
thực với các trường hợp khác nhau về ngưỡng hữu ích tối thiểu và ngưỡng hỗ trợ cực đại, kết quả cho thấy thuật toán
của chúng tôi nhanh hơn thuật toán hiện tại.
TÀI LIỆU THAM KHẢO
[1] R. Agrawal, T. Imieliński, and A. Swami, "Mining association rules between sets of items in large databases," in
Acm sigmod record, 1993, pp. 207-216.
[2] N. Bloom, R. Sadun, and J. V. Reenen, "The organization of firms across countries," The Quarterly Journal of
Economics, vol. 7, pp. 1663-1705, 2012.
[3] H. Yao, H. J. Hamilton, and C. J. Butz, "A foundational approach to mining itemset utilities from databases," in
Proceedings of the 2004 SIAM International Conference on Data Mining, 2004, pp. 482-486.
[4] Q. H. Duong, P. Fournier-Viger, H. Ramampiaro, K. Nørvåg, and T. L. Dam, "Efficient high utility itemset
mining using buffered utility-lists," Applied Intelligence, vol. 48, pp. 1859-1877, 2018.
[5] A. Erwin, R. P. Gopalan, and N. Achuthan, "Efficient mining of high utility itemsets from large datasets," in
Pacific-Asia Conference on Knowledge Discovery and Data Mining, 2008, pp. 554-561.
[6] P. Fournier-Viger, C. W. Wu, S. Zida, and V. S. Tseng, "FHM: Faster high-utility itemset mining using estimated
utility co-occurrence pruning," in International symposium on methodologies for intelligent systems, 2014, pp. 83-
92.
[7] M. Liu and J. Qu, "Mining high utility itemsets without candidate generation," in Proceedings of the 21st ACM
international conference on Information and knowledge management, 2012, pp. 55-64.
[8] Y. Liu, W. K. Liao, and A. Choudhary, "A fast high utility itemsets mining algorithm," in Proceedings of the 1st
international workshop on Utility-based data mining, 2005, pp. 90-99.
[9] V. S. Tseng, C. W. Wu, B. E. Shie, and P. S. Yu, "UP-Growth: an efficient algorithm for high utility itemset
mining," in Proceedings of the 16th ACM SIGKDD international conference on Knowledge discovery and data
mining, 2010, pp. 253-262.
[10] H. Yao and H. J. Hamilton, "Mining itemset utilities from transaction databases," Data & Knowledge
Engineering, vol. 59, pp. 603-626, 2006.
[11] S. Zida, P. Fournier-Viger, J. C. W. Lin, C. W. Wu, and V. S. Tseng, "EFIM: a fast and memory efficient
algorithm for high-utility itemset mining," Knowledge and Information Systems, vol. 51, pp. 595-625, 2017.
[12] J. Pillai, O. Vyas, and M. Muyeba, "Huri–a novel algorithm for mining high utility rare itemsets," in Advances in
Computing and Information Technology, ed: Springer, 2013, pp. 531-540.
[13] V. Goyal, S. Dawar, and A. Sureka, "High utility rare itemset mining over transaction databases," in International
Workshop on Databases in Networked Information Systems, 2015, pp. 27-40.
[14] J. Pillai, O. Vyas, and M. K. Muyeba, "A Fuzzy Algorithm for Mining High Utility Rare Itemsets-FHURI,"
International Journal on Recent Trends in Engineering & Technology, vol. 10, p. 1, 2014.
[15] P. Fournier-Viger. (2019). An Open-Source Data Mining Library. Available:
viger.com/spmf/index.php?link=datasets.php
3500
18500
33500
48500
63500
78500
93500
25 30 35 40
R
u
n
t
im
e
s(
m
s)
Max Support
Mushroom
(Min Utility=8050000)
UP-Rare Growth FHURIM
3500
18500
33500
48500
63500
78500
93500
25 30 35 40
R
u
n
t
im
e
s(
m
s)
Max Support
Mushroom
(Min Utility=8080000)
UP-Rare Growth FHURIM
Huỳnh Triệu Vỹ, Lê Quốc Hải, Trương Ngọc Châu 167
FHURIM: HIGH UTILITY RARE ITEMSETS MINING ALGORITHM
Huynh Trieu Vy, Le Quoc Hai, Truong Ngoc Chau
ABSTRACT: Mining rare high utility itemsets aims at discovering the itemsets such that their support are under maximal support
threshold and no less than minimal utility threshold given by users. The Two-phase rare high utility itemset mining algorithms
require high running time. Especially, at the high maximal support threshold, the set of candidate itemsets is very large. In order to
overcome this drawback, this paper proposes the rare high utility itemset mining algorithm without generating candidate itemsets.
The utility-list structure is applied to store utility and support value of itemsets and for effectively pruning searching space. The
experiment results indicate that the proposed algorithm is better than the state-of-the-art.
Các file đính kèm theo tài liệu này:
- fhurim_thuat_toan_khai_pha_tap_muc_huu_ich_cao_hiem.pdf