Vấn đề phân loại đa nhãn cho đồ thị - Tài liệu, ebook, giáo trình

Học máy là lĩnh vực rất quan trọng trong khai phá dữ liệu, đặc biệt trong bối cảnh dữ liệu ngày càng tăng nhanh chóng và kiểu dữ liệu ngày càng đa dạng do được thu thập từ nhiều nguồn thông tin khác nhau. Phân loại hay phân lớp dữ liệu là một kỹ thuật chính yếu trong lĩnh vực học máy. Với sự tăng trưởng dữ liệu nhanh chóng và đa dạng kiểu dữ liệu, phân loại đa nhãn đang trở thành một xu thế mới do bản chất vấn đề phân loại dữ liệu thường là đa nhãn chẳng hạn như đối với âm thanh thì một bài nhạc có thể được phân vào nhiều nhãn cảm xúc đồng thời, hay một hình ảnh có thể được phân vào nhiều nhãn đồng thời như động vật, tự nhiên, hoang dã,. Tuy nhiên, phân loại đa nhãn phải có một độ tin cậy nhất định vì một bức ảnh rộng chỉ chứa vài cây cỏ cũng có thể được phân vào nhãn hoang dã. Hầu hết các công trình phân loại đa nhãn đều áp dụng trên cấu trúc dữ liệu biểu diễn dạng vecto, trong bài báo này chúng tôi đề xuất một phương pháp phân loại đa nhãn cho kiểu dữ liệu có thể biểu diễn dạng đồ thị chẳng hạn như các cấu trúc hoá học các thành phần thuốc tây bằng cách xây dựng một dàn giao khái niệm cho dữ liệu đồ thị đồng thời sử dụng luật Dempster-Shafer để tăng hiệu quả và độ chính xác phân loại đa nhãn đồ thị.

8 trang | Chia sẻ: Thục Anh | Lượt xem: 774 | Lượt tải: 0

Nội dung tài liệu Vấn đề phân loại đa nhãn cho đồ thị, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

u đồ thị GD, cả các đồ thị liệu đồ thị t chứa một đồ i nhau. ính thức, tìm t dàn giao kh a hai đồ thị g ݀ hai đồ thị trê thị như đồ thị ân loại cho đồ ng đương như đồ thị đa nh GD chưa đượ ng giềng gần một độ đo t hữu hạn cục b tự giữa hai đ để xây dựng con thường x ập đối tượng. thị con thườn ra tất cả các ái niệm ICL, i, gj. ( ௜݃, ݃௝) = ݈ܿ ∑௞ n dàn giao kh con chung lớ thị mới đượ các phương ãn được xây c gán nhãn v nhất [4], cho ương tự d và ộ) thì một m m୧( m୧(ሾ∅ ồ thị trên dàn dàn giao cho uyên đóng CS Mối quan hệ g xuyên đóng khái niệm ch độ đo tương ݏ൫ ௜݃, ݃௝൯ ݈ܿݏ( ௜݃, ݃௞) , ∀ ái niệm thể h n nhất, đườn c thể hiện qua pháp độ đo ch dựng theo ph ới mọi đồ thị ߮௫ là tập k lán xi là một phầnục bằng chứn ሾܣ௜, ܤ௜ሿ) = ߙ௜ , Ռሿ) = 1 − ߙ giao khái niệ các đồ thị sử của cơ sở d giữa tập đối gj ∊ CS thì ính thức. Từ đ tự giữa hai đ ݃௞ஷ௜ ∈ GD iện được chín g đi ngắn nhấ bản chất các o đồ thị khác ương pháp k- Gi ∊ GD đã đư g giềng gần n tử của tập k g có thể được ௜ m. dụng một bả ữ liệu đồ thị G tượng và tập đồ thị Gi và đ ó, xây dựng ồ thị gi, gj ∊ h xác tập nhã t, nhân của đ đồ thị con thư . láng giềng g ợc gán nhãn hất của mẫu láng giềng gầ mô tả như hà ng ngữ cảnh D và coi tập thuộc tính th ồ thị con thư được một dàn GD được tính n của đồ thị ồ thị, sửa đổi ờng xuyên đ ần nhất để xá ܮ௜ ⊆ L. đối tượng mớ n nhất có tập m khối sau: 571 chính thức CS là tập ể hiện qua ờng xuyên giao khái theo khái hơn so với đồ thị. Độ óng hơn là c định tập i được mô nhãn nằm 5 Đ ℽ x đ th đ 72 Theo [6 ể quyết định là tập nhãn đ ác định như s Cho cơ Cơ sở d ộ hỗ trợ supsg ị con thường Ngữ cả óng CS theo t Khái ni , 16] đề xuất mỗi nhãn ߠ ∈ úng chứa ߠ, au: sở dữ liệu đồ ữ liệu đồ thị >=2/4 đều là xuyên đóng ܥ nh chính thức hủ tục Calcul ệm chính thức luật để xác đ Ռ được gán và cấp độ hàm ℽ = IV. VÍ D thị GD = {g1 GD có |GD| = các đồ thị co ܵ = ⋃ ሼ௜:ଶ→௞ là tập tất cả ateFCT. của ngữ cản ịnh tập nhãn cho x hay kh tin cậy ܾ݈݁( ሼθ ∈ Ռ|ܾ݈݁( Ụ PHÂN LO , g2, g3, g4} vớ 4, với ngưỡn n thường xuy ݏ݃ ∈ ܥ ௜ܵሽ của mối quan hệ h chính thức ( cho đối tượng ông, hai số lư ሾ∅, ሼ̅ߠሽሿ) mà k ሾሼߠሽ, Ռሿ) ൒ ܾ ẠI ĐA NHÃ i tập nhãn L = g độ hỗ trợ σ ên. Áp dụng t GD. giữa mọi đồ t ký hiệu KCT VẤN ĐỀ x. Cho ℽ là ợng được tính hông chứa ߠ ݈݁(ሾ∅, ሼ̅ߠሽሿ)ሽ N CHO ĐỒ {l1, l2, l3, l4, = 2/4= 50% huật toán PSI hị gi ∈ GD v theo thủ tục C PHÂN LOẠI tập nhãn dự đ là cấp độ hà . Tập nhãn dự THỊ l5}, ngưỡng đ , tất cả những -CFSM [2] tìm ới tập tất cả đ alculateIcebe ĐA NHÃN CH oán sẽ được m tin cậy ܾ݈݁ đoán được g ộ hỗ trợ σ = 5 đồ thị con bấ được tập tấ ồ thị con thư rgLattice) O ĐỒ THỊ gán cho x. (ሾሼߠሽ, Ռሿ), án ℽ được 0% t kỳ sg có t cả các đồ ờng xuyên HC 2 d n { oàng Minh Qu Từ mối alculateIcebe Để xác trên tập dữ l (g4, g1) = 2/6 hất với g4 vớ l1, l2, l4}], [{l2 Tính đư mg1([{l mg1([∅, mg2([{l2 mg2([∅, Sử dụng Dựa và m([{l1, m([{l2, m([{l1, m([∅,L Gán tập bel([{l1 bel([{l2 bel([{l3 bel([{l4 bel([{l5 Như vậ ang, Nguyễn N quan hệ cha rgLattice: định nhãn ch iệu đồ thị GD = 0.3333, d( i k = 2 tương , l4}, {l2, l4}] ợc các hàm k 1, l2}, {l1, l2, l4 L]) = 1 − 0.33 , l4}, {l2, l4}]) L]) = 1 − 0.17 luật Dempst o luật Dempst l2, l4}, {l1, l2, l4}, {l2, l4}]) = l2}, {l1, l2, l4} ]) = 0.56 nhãn cho đố }, L]) = 0.06 }, L]) = 0.33 }, L]) = 0 < b }, L]) = 0.06 }, L]) = 0 < b y tập nhãn củ gọc Cương con giữa cá o đồ thị g4 ∈ là các đồ thị g4, g3) = 3/6 =ứng là g1, g2. hối như sau: }]) = 0.33 = 0.67 = 0.17 = 0.83 er thu được k er, tính được l4}]) = 0.06 0.11 ]) = 0.27 i tượng x: + 0.27 = 0.33 > bel([∅, ൛݈ଶഥൟ] el([∅, ൛݈ଷഥൟ]) = > bel([∅, ൛݈ସഥൟ] el([∅, ൛݈ହഥൟ]) = a đồ thị g4 đư c khái niệm GD, dựa vào g1, g2, g3 the 0.5000, d(g Xác định kho ết quả sau: : > bel([∅, ൛݈ଵഥൟ ) = 0, g4 có n 0.11 ) = 0, g4 có n 0.11 ợc xác định là chính thức ta dàn giao khái o đường đi ng 4, g2) = 1/6 = ảng nhãn tươ ]) = 0.11, g4 c hãn l2 hãn l4 {l1, l2, l4} xây dựng m niệm CL tìm ắn nhất từ đỉ 0.1667. Như ng ứng với k- ó nhãn l1 ột dàn giao k-láng giềng nh chung đến vậy, xác định láng giềng gầ khái niệm th gần nhất của hai đồ thị cầ được k-láng n nhất g1, g2 573 eo thủ tục g4 với k = n so sánh: giềng gần là [{l1, l2}, 574 VẤN ĐỀ PHÂN LOẠI ĐA NHÃN CHO ĐỒ THỊ V. KẾT LUẬN Trong bài báo này, chúng tôi đã đề xuất một phương pháp hiệu quả phân loại đa nhãn trên đồ thị. Do bản chất thiếu tính vecto nên việc phân loại đa nhãn trên đồ thị gặp nhiều khó khăn. Bằng cách sử dụng khái niệm chính thức và xây dựng dàn giao khái niệm, chúng tôi đã xác định được độ đo tương tự giữa hai đồ thị, sau đó áp dụng luật Dempster-Shafer để kết hợp các hàm khối và hàm tin cậy để xác định tập hợp các nhãn cho đồ thị theo k đồ thị láng giềng gần nhất với độ đo tương tự được xác định bằng dàn giao khái niệm. Kết quả này có ý nghĩa quan trọng trong ứng dụng vào thực tiễn như phân loại các mẫu gen, cấu trúc protein, các hợp chất enzim để xác định khả năng có thể mắc tập hợp những bệnh đã được gán nhãn cho trước. VI. DANH MỤC THAM CHIẾU [1] B. A. Davey and H. A. Priestley. Introduction to lattices and order. Cambridge university press, 2002. [2] J. Demetrovics, H. Quang, N. Anh, and V. Thi. An optimization of closed frequent subgraph mining algorithm. Cybernetics and Information Technologies, 17(1):3-15, 2017. [3] A. P. Dempster. The dempster-shafer calculus for statisticians. International Journal of Approximate Reasoning, 48(2):365-377, 2008. [4] T. Denoeux. A k-nearest neighbor classification rule based on dempster-shafer theory. IEEE transactions on systems, man, and cybernetics, 25(5):804-813, 1995. [5] T. Denœux and M.-H. Masson. Evidential reasoning in large partially ordered sets. Annals of Operations Research, 195(1):135-161, 2012. [6] T. Denœux, Z. Younes, and F. Abdallah. Representing uncertainty on set-valued variables using belief functions. Artificial Intelligence, 174(7):479-499, 2010. [7] B. Ganter and R. Wille. Applied lattice theory: Formal concept analysis. In In General Lattice Theory, G. Grätzer editor, Birkhäuser. Citeseer, 1997. [8] V. K. Garg, N. Mittal, and A. Sen. Applications of lattice theory to distributed computing. ACM SIGACT Notes, 34(3):40-61, 2003. [9] M. Grabisch. Belief functions on lattices. International Journal of Intelligent Systems, 24(1):76-95, 2009. [10] J. Huan, W. Wang, and J. Prins. Efficient mining of frequent subgraphs in the presence of isomorphism. In Data Mining, 2003. ICDM 2003. Third IEEE International Conference on, pages 549-552. IEEE, 2003. [11] X. Kong and S. Y. Philip. gmlc: a multi-label feature selection framework for graph classification. Knowledge and information systems, 31(2):281-305, 2012. [12] B. Monjardet. The presence of lattice theory in discrete problems of mathematical social sciences. why. Mathematical Social Sciences, 46(2):103-144, 2003. [13] V. A. Nguyen and A. Yamamoto. Learning from graph data by putting graphs on the lattice. Expert Systems with Applications, 39(12):11172-11182, 2012. [14] G. Shafer et al. A mathematical theory of evidence, volume 1. Princeton university press Princeton, 1976. [15] X. Yan and J. Han. Closegraph: mining closed frequent graph patterns. In Proceedings of the ninth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 286-295. ACM, 2003. [16] Z. Younes, F. Abdallah, and T. Denœux. An evidence-theoretic k-nearest neighbor rule for multi-label classification. In International Conference on Scalable Uncertainty Management, pages 297-308. Springer, 2009.

Các file đính kèm theo tài liệu này:

van_de_phan_loai_da_nhan_cho_do_thi.pdf