Học máy là lĩnh vực rất quan trọng trong khai phá dữ liệu, đặc biệt trong bối cảnh dữ liệu ngày càng tăng nhanh chóng và kiểu dữ liệu ngày càng đa dạng do được thu thập từ nhiều nguồn thông tin khác nhau. Phân loại hay phân lớp dữ liệu là một kỹ thuật chính yếu trong lĩnh vực học máy. Với sự tăng trưởng dữ liệu nhanh chóng và đa dạng kiểu dữ liệu, phân loại đa nhãn đang trở thành một xu thế mới do bản chất vấn đề phân loại dữ liệu thường là đa nhãn chẳng hạn như đối với âm thanh thì một bài nhạc có thể được phân vào nhiều nhãn cảm xúc đồng thời, hay một hình ảnh có thể được phân vào nhiều nhãn đồng thời như động vật, tự nhiên, hoang dã,. Tuy nhiên, phân loại đa nhãn phải có một độ tin cậy nhất định vì một bức ảnh rộng chỉ chứa vài cây cỏ cũng có thể được phân vào nhãn hoang dã. Hầu hết các công trình phân loại đa nhãn đều áp dụng trên cấu trúc dữ liệu biểu diễn dạng vecto, trong bài báo này chúng tôi đề xuất một phương pháp phân loại đa nhãn cho kiểu dữ liệu có thể biểu diễn dạng đồ thị chẳng hạn như các cấu trúc hoá học các thành phần thuốc tây bằng cách xây dựng một dàn giao khái niệm cho dữ liệu đồ thị đồng thời sử dụng luật Dempster-Shafer để tăng hiệu quả và độ chính xác phân loại đa nhãn đồ thị.
8 trang |
Chia sẻ: Thục Anh | Lượt xem: 508 | Lượt tải: 0
Nội dung tài liệu Vấn đề phân loại đa nhãn cho đồ thị, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
u đồ thị GD,
cả các đồ thị
liệu đồ thị t
chứa một đồ
i nhau.
ính thức, tìm
t dàn giao kh
a hai đồ thị g
݀
hai đồ thị trê
thị như đồ thị
ân loại cho đồ
ng đương như
đồ thị đa nh
GD chưa đượ
ng giềng gần
một độ đo t
hữu hạn cục b
tự giữa hai đ
để xây dựng
con thường x
ập đối tượng.
thị con thườn
ra tất cả các
ái niệm ICL,
i, gj.
( ݃, ݃) =
݈ܿ
∑
n dàn giao kh
con chung lớ
thị mới đượ
các phương
ãn được xây
c gán nhãn v
nhất [4], cho
ương tự d và
ộ) thì một m
m୧(
m୧(ሾ∅
ồ thị trên dàn
dàn giao cho
uyên đóng CS
Mối quan hệ
g xuyên đóng
khái niệm ch
độ đo tương
ݏ൫ ݃, ݃൯
݈ܿݏ( ݃, ݃) , ∀
ái niệm thể h
n nhất, đườn
c thể hiện qua
pháp độ đo ch
dựng theo ph
ới mọi đồ thị
߮௫ là tập k lán
xi là một phầnục bằng chứn
ሾܣ, ܤሿ) = ߙ
, Ռሿ) = 1 − ߙ
giao khái niệ
các đồ thị sử
của cơ sở d
giữa tập đối
gj ∊ CS thì
ính thức. Từ đ
tự giữa hai đ
݃ஷ ∈ GD
iện được chín
g đi ngắn nhấ
bản chất các
o đồ thị khác
ương pháp k-
Gi ∊ GD đã đư
g giềng gần n
tử của tập k
g có thể được
m.
dụng một bả
ữ liệu đồ thị G
tượng và tập
đồ thị Gi và đ
ó, xây dựng
ồ thị gi, gj ∊
h xác tập nhã
t, nhân của đ
đồ thị con thư
.
láng giềng g
ợc gán nhãn
hất của mẫu
láng giềng gầ
mô tả như hà
ng ngữ cảnh
D và coi tập
thuộc tính th
ồ thị con thư
được một dàn
GD được tính
n của đồ thị
ồ thị, sửa đổi
ờng xuyên đ
ần nhất để xá
ܮ ⊆ L.
đối tượng mớ
n nhất có tập
m khối sau:
571
chính thức
CS là tập
ể hiện qua
ờng xuyên
giao khái
theo khái
hơn so với
đồ thị. Độ
óng hơn là
c định tập
i được mô
nhãn nằm
5
Đ
ℽ
x
đ
th
đ
72
Theo [6
ể quyết định
là tập nhãn đ
ác định như s
Cho cơ
Cơ sở d
ộ hỗ trợ supsg
ị con thường
Ngữ cả
óng CS theo t
Khái ni
, 16] đề xuất
mỗi nhãn ߠ ∈
úng chứa ߠ,
au:
sở dữ liệu đồ
ữ liệu đồ thị
>=2/4 đều là
xuyên đóng ܥ
nh chính thức
hủ tục Calcul
ệm chính thức
luật để xác đ
Ռ được gán
và cấp độ hàm
ℽ =
IV. VÍ D
thị GD = {g1
GD có |GD| =
các đồ thị co
ܵ = ⋃ ሼ:ଶ→
là tập tất cả
ateFCT.
của ngữ cản
ịnh tập nhãn
cho x hay kh
tin cậy ܾ݈݁(
ሼθ ∈ Ռ|ܾ݈݁(
Ụ PHÂN LO
, g2, g3, g4} vớ
4, với ngưỡn
n thường xuy
ݏ݃ ∈ ܥ ܵሽ của
mối quan hệ
h chính thức (
cho đối tượng
ông, hai số lư
ሾ∅, ሼ̅ߠሽሿ) mà k
ሾሼߠሽ, Ռሿ) ܾ
ẠI ĐA NHÃ
i tập nhãn L =
g độ hỗ trợ σ
ên. Áp dụng t
GD.
giữa mọi đồ t
ký hiệu KCT
VẤN ĐỀ
x. Cho ℽ là
ợng được tính
hông chứa ߠ
݈݁(ሾ∅, ሼ̅ߠሽሿ)ሽ
N CHO ĐỒ
{l1, l2, l3, l4,
= 2/4= 50%
huật toán PSI
hị gi ∈ GD v
theo thủ tục C
PHÂN LOẠI
tập nhãn dự đ
là cấp độ hà
. Tập nhãn dự
THỊ
l5}, ngưỡng đ
, tất cả những
-CFSM [2] tìm
ới tập tất cả đ
alculateIcebe
ĐA NHÃN CH
oán sẽ được
m tin cậy ܾ݈݁
đoán được g
ộ hỗ trợ σ = 5
đồ thị con bấ
được tập tấ
ồ thị con thư
rgLattice)
O ĐỒ THỊ
gán cho x.
(ሾሼߠሽ, Ռሿ),
án ℽ được
0%
t kỳ sg có
t cả các đồ
ờng xuyên
HC
2
d
n
{
oàng Minh Qu
Từ mối
alculateIcebe
Để xác
trên tập dữ l
(g4, g1) = 2/6
hất với g4 vớ
l1, l2, l4}], [{l2
Tính đư
mg1([{l
mg1([∅,
mg2([{l2
mg2([∅,
Sử dụng
Dựa và
m([{l1,
m([{l2,
m([{l1,
m([∅,L
Gán tập
bel([{l1
bel([{l2
bel([{l3
bel([{l4
bel([{l5
Như vậ
ang, Nguyễn N
quan hệ cha
rgLattice:
định nhãn ch
iệu đồ thị GD
= 0.3333, d(
i k = 2 tương
, l4}, {l2, l4}]
ợc các hàm k
1, l2}, {l1, l2, l4
L]) = 1 − 0.33
, l4}, {l2, l4}])
L]) = 1 − 0.17
luật Dempst
o luật Dempst
l2, l4}, {l1, l2,
l4}, {l2, l4}]) =
l2}, {l1, l2, l4}
]) = 0.56
nhãn cho đố
}, L]) = 0.06
}, L]) = 0.33
}, L]) = 0 < b
}, L]) = 0.06
}, L]) = 0 < b
y tập nhãn củ
gọc Cương
con giữa cá
o đồ thị g4 ∈
là các đồ thị
g4, g3) = 3/6 =ứng là g1, g2.
hối như sau:
}]) = 0.33
= 0.67
= 0.17
= 0.83
er thu được k
er, tính được
l4}]) = 0.06
0.11
]) = 0.27
i tượng x:
+ 0.27 = 0.33
> bel([∅, ൛݈ଶഥൟ]
el([∅, ൛݈ଷഥൟ]) =
> bel([∅, ൛݈ସഥൟ]
el([∅, ൛݈ହഥൟ]) =
a đồ thị g4 đư
c khái niệm
GD, dựa vào
g1, g2, g3 the
0.5000, d(g
Xác định kho
ết quả sau:
:
> bel([∅, ൛݈ଵഥൟ
) = 0, g4 có n
0.11
) = 0, g4 có n
0.11
ợc xác định là
chính thức ta
dàn giao khái
o đường đi ng
4, g2) = 1/6 = ảng nhãn tươ
]) = 0.11, g4 c
hãn l2
hãn l4
{l1, l2, l4}
xây dựng m
niệm CL tìm
ắn nhất từ đỉ
0.1667. Như
ng ứng với k-
ó nhãn l1
ột dàn giao
k-láng giềng
nh chung đến
vậy, xác định
láng giềng gầ
khái niệm th
gần nhất của
hai đồ thị cầ
được k-láng
n nhất g1, g2
573
eo thủ tục
g4 với k =
n so sánh:
giềng gần
là [{l1, l2},
574 VẤN ĐỀ PHÂN LOẠI ĐA NHÃN CHO ĐỒ THỊ
V. KẾT LUẬN
Trong bài báo này, chúng tôi đã đề xuất một phương pháp hiệu quả phân loại đa nhãn trên đồ thị. Do bản chất
thiếu tính vecto nên việc phân loại đa nhãn trên đồ thị gặp nhiều khó khăn. Bằng cách sử dụng khái niệm chính thức và
xây dựng dàn giao khái niệm, chúng tôi đã xác định được độ đo tương tự giữa hai đồ thị, sau đó áp dụng luật
Dempster-Shafer để kết hợp các hàm khối và hàm tin cậy để xác định tập hợp các nhãn cho đồ thị theo k đồ thị láng
giềng gần nhất với độ đo tương tự được xác định bằng dàn giao khái niệm. Kết quả này có ý nghĩa quan trọng trong
ứng dụng vào thực tiễn như phân loại các mẫu gen, cấu trúc protein, các hợp chất enzim để xác định khả năng có thể
mắc tập hợp những bệnh đã được gán nhãn cho trước.
VI. DANH MỤC THAM CHIẾU
[1] B. A. Davey and H. A. Priestley. Introduction to lattices and order. Cambridge university press, 2002.
[2] J. Demetrovics, H. Quang, N. Anh, and V. Thi. An optimization of closed frequent subgraph mining algorithm.
Cybernetics and Information Technologies, 17(1):3-15, 2017.
[3] A. P. Dempster. The dempster-shafer calculus for statisticians. International Journal of Approximate Reasoning,
48(2):365-377, 2008.
[4] T. Denoeux. A k-nearest neighbor classification rule based on dempster-shafer theory. IEEE transactions on
systems, man, and cybernetics, 25(5):804-813, 1995.
[5] T. Denœux and M.-H. Masson. Evidential reasoning in large partially ordered sets. Annals of Operations Research,
195(1):135-161, 2012.
[6] T. Denœux, Z. Younes, and F. Abdallah. Representing uncertainty on set-valued variables using belief functions.
Artificial Intelligence, 174(7):479-499, 2010.
[7] B. Ganter and R. Wille. Applied lattice theory: Formal concept analysis. In In General Lattice Theory, G. Grätzer
editor, Birkhäuser. Citeseer, 1997.
[8] V. K. Garg, N. Mittal, and A. Sen. Applications of lattice theory to distributed computing. ACM SIGACT Notes,
34(3):40-61, 2003.
[9] M. Grabisch. Belief functions on lattices. International Journal of Intelligent Systems, 24(1):76-95, 2009.
[10] J. Huan, W. Wang, and J. Prins. Efficient mining of frequent subgraphs in the presence of isomorphism. In Data
Mining, 2003. ICDM 2003. Third IEEE International Conference on, pages 549-552. IEEE, 2003.
[11] X. Kong and S. Y. Philip. gmlc: a multi-label feature selection framework for graph classification. Knowledge and
information systems, 31(2):281-305, 2012.
[12] B. Monjardet. The presence of lattice theory in discrete problems of mathematical social sciences. why.
Mathematical Social Sciences, 46(2):103-144, 2003.
[13] V. A. Nguyen and A. Yamamoto. Learning from graph data by putting graphs on the lattice. Expert Systems with
Applications, 39(12):11172-11182, 2012.
[14] G. Shafer et al. A mathematical theory of evidence, volume 1. Princeton university press Princeton, 1976.
[15] X. Yan and J. Han. Closegraph: mining closed frequent graph patterns. In Proceedings of the ninth ACM
SIGKDD international conference on Knowledge discovery and data mining, pages 286-295. ACM, 2003.
[16] Z. Younes, F. Abdallah, and T. Denœux. An evidence-theoretic k-nearest neighbor rule for multi-label
classification. In International Conference on Scalable Uncertainty Management, pages 297-308. Springer, 2009.
Các file đính kèm theo tài liệu này:
- van_de_phan_loai_da_nhan_cho_do_thi.pdf