Modified efficient high-utility itemset mining with multiple minimum utility

Khai thác tập hạng mục có độ hữu ích cao (High Utility itemsets Mining- HUIM) là phương

pháp phân tích hành vi của khách hàng. Các thuật toán HUIM có thể khai thác các tập mẫu

có lợi nhất trong cơ sở dữ liệu giao dịch, cụ thể là các tập hạng mục có độ hữu ích cao (High

Utility itemsets - HUI). Các thuật toán HUIM truyền thống đều bỏ qua việc mỗi vật phẩm sẽ

có yêu cầu về mức độ hữu ích khác nhau. Trong nhiều cơ sở dữ liệu giao dịch trong thực tế,

thông tin này được đưa ra tùy vào loại vật phẩm. Do đó áp dụng một ngưỡng cho tất cả vật

phẩm là không hợp lý. Để tìm chính xác các hui từ cơ sở dữ liệu định lượng với đa ngưỡng,

một thuật toán mới được gọi là MEHUI (Multiple Thresholds Efficient High-Utility Itemset

Mining) được đề xuất, tích hợp tất cả các ưu điểm của thuật toán iMEFIM. Qua thực nghiệm

có thể thấy rằng phương pháp bài nghiên cứu đưa ra có thể khai thác các HUI từ các giao

dịch tại cửa hàng bán lẻ với hiệu quả cao.

6 trang | Chia sẻ: Thục Anh | Lượt xem: 592 | Lượt tải: 0

Nội dung tài liệu Modified efficient high-utility itemset mining with multiple minimum utility, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

96 MODIFIED EFFICIENT HIGH-UTILITY ITEMSET MINING WITH MULTIPLE MINIMUM UTILITY Hoàng Ngọc Cương, Nguyễn Ngọc Thạch, Lê Thị Dung, Lê Quốc Đạt* Khoa Công nghệ Thông tin, Trường Đại học Công nghệ TP. Hồ Chí Minh GVHD: KS. Nguyễn Thanh Tùng TÓM TẮT Khai thác tập hạng mục có độ hữu ích cao (High Utility itemsets Mining- HUIM) là phương pháp phân tích hành vi của khách hàng. Các thuật toán HUIM có thể khai thác các tập mẫu có lợi nhất trong cơ sở dữ liệu giao dịch, cụ thể là các tập hạng mục có độ hữu ích cao (High Utility itemsets - HUI). Các thuật toán HUIM truyền thống đều bỏ qua việc mỗi vật phẩm sẽ có yêu cầu về mức độ hữu ích khác nhau. Trong nhiều cơ sở dữ liệu giao dịch trong thực tế, thông tin này được đưa ra tùy vào loại vật phẩm. Do đó áp dụng một ngưỡng cho tất cả vật phẩm là không hợp lý. Để tìm chính xác các hui từ cơ sở dữ liệu định lượng với đa ngưỡng, một thuật toán mới được gọi là MEHUI (Multiple Thresholds Efficient High-Utility Itemset Mining) được đề xuất, tích hợp tất cả các ưu điểm của thuật toán iMEFIM. Qua thực nghiệm có thể thấy rằng phương pháp bài nghiên cứu đưa ra có thể khai thác các HUI từ các giao dịch tại cửa hàng bán lẻ với hiệu quả cao. Từ khóa: cơ sở dữ liệu đa ngưỡng, cơ sở dữ liệu định lượng, khai thác dữ liệu, tập hạng mục có độ hữu ích cao, thuật toán MEHUI. 1 GIỚI THIỆU Bài toán khai thác tập hạng mục có độ hữu ích cao (High Utility itemsets - HUI) lần đầu tiên được đề xuất bởi H. Yao và cộng sự vào năm 2004 (Yao et al, 2004). Khai thác HUI nhằm mục đích khám phá các tập hạng mục có độ hữu ích cao trong cơ sở dữ liệu giao dịch. HUI sử dụng ngưỡng do người dùng chỉ định để lọc các tập hạng mục không thỏa mãn yêu cầu. Ngưỡng này được gọi là ngưỡng hữu ích tối thiểu và đại diện cho độ hữu ích thấp nhất mà mỗi tập hạng mục phải có để được xem là tập hạng mục có độ hữu ích cao. Bài toán khai thác tập hạng mục có độ hữu ích cao với nhiều ngưỡng độ hữu ích (Multiple threshold High Utility itemsets) lần đầu tiên được đề xuất vào năm 2008 (Lin, 2008). Các thuật toán HUIM truyền thống đều dùng một ngưỡng độ hữu ích cho tất cả các hạng mục. Tuy nhiên, trên thực tế thì mỗi mặt hàng đều có một ngưỡng độ hữu ích khác nhau do đó Multilple Thresholds HUI được sử dụng để khai thác các HUI bằng cách xem xét các ngưỡng hữu ích cho từng mặt hàng thay vì nhập một ngưỡng độ hữu ích duy nhất. Thuật toán MHUI (Multiple threshold High Utility itemsets) (Krishnamoorthy, 2018) được đề xuất bởi S. Krishnamoorthy đã giới thiệu phương pháp hiệu quả để khai thác các tập hạng mục có độ hữu ích cao với nhiều ngưỡng độ hữu ích tối thiểu. Thuật toán giới thiệu khái niệm về 97 hữu ích tối thiểu hậu tố và trình bày các chiến lược cắt tỉa để khai thác các tập hạng mục có độ hữu ích cao một cách hiệu quả dựa trên cấu trúc Utility-List. Thuật toán MHUI dựa trên thuật toán FHM (Faster High-Utility Itemset Mining) (Fournier- Viger et al, 2014) do đó thuật toán vẫn tiêu tốn nhiều thời gian và bộ nhớ để lưu trữ thông tin về Utility-List của mỗi tập hạng mục. Để giải quyết vấn đề này, bài nghiên cứu đề xuất thuật toán mới có tên MEHUI (Multiple thresholds Efficient High-Utility Itemset Mining) cho việc khai thác HUI với nhiều ngưỡng hữu ích tối thiểu. 2 THUẬT TOÁN Đầu vào của thuật toán MEHUI bao gồm một cơ sở dữ liệu giao dịch , một cơ sở dữ liệu giao dịch bao gồm một tập các giao dịch . Trong mỗi giao dịch có thông tin các hạng mục có trong giao dịch cũng như các giá trị về số lượng của hạng mục đó trong giao dịch được ký hiệu là ( ). Mỗi hạng mục sẽ mang lại một độ hữu ích tương ứng được ký hiệu là ( ). Độ hữu ích của một hạng mục trong một giao dịch được ký hiệu là ( ) và được tính bằng công thức ( ) ( ) ( ) . Độ hữu ích của một tập hạng mục trong giao dịch được tính bằng ( ) ∑ ( ) Độ hữu ích của một tập hạng mục trong cơ sở dữ liệu được tính bằng công thức ( ) ∑ ( ) . Trong bài toán khai thác tập hạng mục có độ hữu ích cao đa ngưỡng thì mỗi hạng mục được đặt một giá trị ngưỡng yêu cầu khác nhau được ký hiệu là ( ), và được tập hợp trong một danh sách được ký hiệu là . Một tập hạng mục có một giá trị ngưỡng được ký hiệu là ( ) và được xác định bằng công thức ( ) ( ) (Krishnamoorthy, 2018). Một tập hạng mục được gọi là tập hạng mục có độ hữu ích cao là tập hạng mục có độ hữu ích ( ) ( ). Thuật toán MEHUI sử dụng hai giới hạn dựa trên độ hữu ích, đó là độ hữu ích cục bộ (local utility - ) và độ hữu ích cây con (sub-tree utility - ) để cắt tỉa không gian tìm kiếm, cộng thêm hai kỹ thuật mới và hiệu quả để giảm chi phí quét cơ sở dữ liệu là phép chiếu cơ sở dữ liệu có độ hữu ích cao và hợp nhất giao dịch có độ hữu ích cao đã được trình bày ở thuật toán EFIM (A Fast and Memory Efficient algorithm for high-utility itemset Mining) (Zida et al, 2017). Song song với đó thuật toán sử dụng cấu trúc chiếu ngược P-set được đề xuất ở thuật toán iMEFIM (Nguyen et al, 2019). Tuy nhiên hai thuật toán EFIM và iMEFIM chưa giải quyết được vấn đề khai thác tập hạng mục độ hữu ích cao với đa ngưỡng độ hữu ích. Do đó, thuật toán MEHUI sẽ sử dụng giá trị ngưỡng độ hữu ích hậu tố như một giá trị ước lượng ngưỡng tối thiểu mà tập hạng mục có thể nhận bằng cách tính toán giá trị ngưỡng độ hữu ích nhỏ nhất của các giá trị có thể mở rộng từ tập hạng mục và đặt giá trị đó làm ngưỡng độ hữu ích hậu tố. Độ hữu ích hậu tố của tập hạng mục được ký hiệu là ( ) và được xác định ( ) ( ( ) ( ( ))) (Krishnamoorthy, 2018), trong đó ( ) là tập hạng mục có thể kết hợp với để tạo ra tập hạng mục là ứng viên có thể là HUI. Thuật toán MEHUI sẽ so sánh giá trị độ hữu ích cục bộ và độ hữu ích cây con với giá trị ( ) để cắt tỉa không gian tìm kiếm thay vì so sánh các giá trị này với giá trị ngưỡng cố định như các thuật toán truyền thống. Thuật toán sử dụng phép chiếu ngược P-set để tránh quét các giao dịch thừa không có chứa hạng mục cần tính toán, giúp giảm số lần tìm kiếm 98 hạng mục cần tìm trong mỗi giao dịch giúp thuật toán chạy tốt hơn trên các cơ sở dữ liệu thưa thớt. Mã giả thuật toán MEHUI Input: Database , set of items , MMU Output: High utility itemsets 1. 2. Scan to calculate ( ) for all item 3. ( ) ( ) ( ) 4. Sort ( ) in ascending order of ( ) values; 5. Scan to remove each item ( ) from all transactions. Then remove empty transactions; 6. Sort each transaction in ascending order according of ( )values when read backward; 7. Scan to calculate ( ) and ( ) for each item ( ); 8. ( ) ( ) ( ) ( ) 9. ( ( ) ( ) ( )) Procedure: Search Input: Itemset , database , primary items ( ) secondary items ( ) minimum utility threshold , the extensions of the projection ( ) Output: High utility itemsets found by appending items to . 1. 2. Foreach item ( ) do 3. 4. Scan in ( ) to calculate ( ) and construct // using transaction merging 5. if ( ) ( ) then 6. Scan to calculate ( ) ( ) and ( for all ( ) after 7. ( ) ( ) ( ) ( ) 8. ( ) ( ) ( ) ( ) 9. ( ( ) ( ) ( )) 10. End 11. Return HUIList. 99 Mô tả thuật toán MEHUI Thuật toán 1 nhận đầu vào là một cơ sở dữ liệu , tập các hạng mục và dữ liệu MMU. Thuật toán cho ra các tập hữu ích cao thỏa ngưỡng . Đầu tiên, khởi tạo . Sau đó, quét cơ sở dữ liệu và sử dụng utilityBinArray (mảng chứa độ hữu ích) để tính ( ), cho mỗi hạng mục (dòng #2). Tiếp theo, xây dựng tập hạng mục phụ thuộc ( ) (dòng #3). Sắp xếp tăng dần các hạng mục có chứa trong tập phụ thuộc theo giá trị của ( ) (dòng #4). Sau đó, quét để loại bỏ các hạng mục không thuộc ( ) và các giao dịch rỗng (dòng #5). Dòng #6, sắp xếp các giao dịch từ dưới lên theo giá trị của ( ). Tiếp theo tại dòng #7, quét , sử dụng utilityBinArray để tính ( ) và sử dụng phép chiếu cơ sở dữ liệu để giữ lại các hạng mục thuộc ( ). Sau đó tại dòng #8, xây dựng hạng mục căn bản ( ). Tại dòng #9 là quy trình tìm kiếm theo chiều sâu để duyệt đệ quy mở rộng các hạng mục ban đầu để tìm tất cả HUI (thuật toán 2). Thuật toán 2 nhận đầu vào là , tập hạng mục , tập ( ), tập ( ), dữ liệu , và các tập mở rộng của các . Và cho đầu ra là tất cả các tập hữu ích cao được tìm thấy thì thêm các hạng mục vào sau . Đầu tiên, khởi tạo danh sách HUI rỗng (dòng #1). Từ dòng #2 đến dòng #10 là vòng lặp để kiểm tra tất cả các tập mở rộng bằng một hạng mục ( ) vào ngay sau (dòng #3) được tập mục mới . Tiếp theo, quét tính ( ) và sử dụng phép gom giao dịch đc cơ cở dữ liệu mới (dòng #4). Tại dòng #5, nếu ( ) ( ) thì . Dòng #6, quét cơ sở dữ liệu và sử dụng utilityBinArray để tính ( ) ( ). Sau đó, xây dựng tập ( ) (dòng #7) và ( ) (dòng #8). Sau đó tại dòng #10, thuật toán SEARCH sau đó được gọi đệ quy để tiếp tục khám phá không gian tìm kiếm để mở rộng . Để tìm ra các tập HUI. 3 THỰC NGHIỆM Hai thuật toán được chạy thực nghiệm trên PC có cấu hình Intel Core I3-9400F, 16GB RAM chạy trên hệ điều hành Windows 10 pro và sử dụng Java JDK 8. Cơ sở dữ liệu được lấy trên website mã nguồn mở spmf1. Bảng 1. Thông tin cơ sở dữ liệu Dataset Số Lượng giao dịch Số Lượng hạng mục Độ dài Trung Bình BMS 59601 497 4.8 Chess 3196 75 37 Thuật toán sử dụng chỉ số GLMU để so sánh tốc độ của hai thuật toán MEHUI và MHUI do MHUI là thuật toán mới nhất đã được công bố trên tạp chí quốc tế về khai thác tập hạng 1 https://www.philippe-fournier-viger.com/spmf/index.php?link=datasets.php 100 mục có độ hữu ích cao đa ngưỡng. Với GLMU là một giá trị truyền vào do người dùng như một ngưỡng chặn dưới của các giá trị MU, khi đó MU sẽ được tính bởi công thức ( ) ( ( ) ) với là giá trị hằng số do người dùng nhập vào với mỗi cơ sở dữ liệu. Hình 1. So sánh bộ nhớ và thời gian trên cơ sở dữ liệu BMS Hình 2. So sánh bộ nhớ và thời gian trên cơ sở dữ liệu Chess Kết quả được thể hiện từ Hình 1 đến 4. Từ kết quả có thể thấy rằng thuật toán MEHUI chiếm ưu thế hơn so với thuật toán MHUI về thời gian thực hiện trong tất cả các bài kiểm tra. Trong mọi tập dữ liệu, khi ngưỡng GLMU càng được tăng lên thì thời gian chạy của thuật toán cũng giảm đi rất nhiều. Thuật toán MEHUI nhanh hơn đáng kể so với thuật toán MHUI trên CSDL BMS (100 lần Hình 1) và CSDL Chess (6 lần Hình 3). Một lý do khác khiến MEHUI đạt được tốc độ tăng đáng kể là vì MEHUI mở rộng khuôn khổ của thuật toán iMEFIM, một thuật toán hiệu quả cho HUIM. Sử dụng các giới hạn trên hiệu quả cao để loại bỏ các ứng cử viên từ iMEFIM, MEHUI sử dụng các chiến lược gộp giao dịch giống nhau, phép chiếu ngược P- set giúp giảm quá trình quét cơ sở dữ liệu cũng như hai độ đo chặt chẽ hơn so với độ đo độ hữu ích còn lại của thuật toán MHUI. 4 KẾT LUẬN Khai thác các tập hạng mục hữu ích cao với nhiều ngưỡng tiện ích là một trong những các giải pháp hữu ích có ý nghĩa thiết thực. Phương pháp mới này hỗ trợ người ra quyết định loại bỏ các hạng mục hiếm. Tuy nhiên, việc khai thác hiệu quả các HUI trong giải pháp mới này là khá thách thức. Bài báo này nhằm giải quyết các thách thức đó và đã thiết kế, phát triển phương pháp khai thác HUI một cách vượt trội. Chúng tôi đã trình bày thuật toán 101 MEHUI và xem xét trên nhiều mức tối thiểu các giá trị tiện ích để cải thiện hơn nữa về hiệu suất cho quá trình khai thác HUI. Chúng tôi sử dụng cấu trúc P-set để giảm số lượng giao dịch được quét và giảm chi phí quét cơ sở dữ liệu. Ngoài ra, chúng tôi cũng đánh giá thực nghiệm rộng rãi trên các cơ sở dữ liệu khác nhau cho thấy rằng MEHUI hiệu quả hơn về mặt cả thời gian chạy và sử dụng bộ nhớ so với các thuật toán đã được thử nghiệm trước đó. Trong công việc tương lai, chúng tôi dự định áp dụng thuật toán trên các tập đóng, tập tối đại và triển khai thuật toán hoạt động trên môi trường song song để có thể tận dụng lợi thế của đa ngưỡng hoặc để hoạt động trên cơ sở dữ liệu rất lớn. TÀI LIỆU THAM KHẢO [1] Fournier-Viger P, Wu C-W, Zida S, Tseng VS (2014) FHM: Faster High-Utility Itemset Mining Using Estimated Utility Co-occurrence Pruning. Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics) 8502 LNAI: 83–92. [2] Krishnamoorthy S (2018) Efficient mining of high utility itemsets with multiple minimum utility thresholds. Eng. Appl. Artif. Intell. 69: 112–126. [3] Lin JC-W, Gan W, Fournier-Viger P, Hong TP (2008) Mining High-Utility Itemsets with Multiple Minimum Utility Thresholds. Proceedings of the Eighth International C* Conference on Computer Science & Software Engineering - C3S2E ’15: 9–17. [4] Nguyen LTT, Nguyen P, Nguyen TDD., Vo B, Fournier-Viger P, Tseng VS (2019) Mining high-utility itemsets in dynamic profit databases. Knowledge-Based Syst 175: 130–144. [5] Yao H, Hamilton HJ, Butz CJ (2004) A Foundational Approach to Mining Itemset Utilities from Databases. Proceedings of the 2004 SIAM International Conference on Data Mining 4: 482–486. [6] Zida S, Fournier-Viger P, Lin JC-W., Wu C-W, Tseng VS (2017) EFIM: a fast and memory efficient algorithm for high-utility itemset mining,” Knowl. Inf. Syst 51: 595–625.

Các file đính kèm theo tài liệu này:

modified_efficient_high_utility_itemset_mining_with_multiple.pdf