– So khớp ontology (ontology matching) là một phần quan trọng trong kỹ nghệ ontology của Web ngữ nghĩa với
mục tiêu tìm kiếm các so khớp (alignment) giữa các thực thể của các ontology đã cho. Trong nghiên cứu này chúng tôi đề xuất thuật
toán mới và một công cụ dựa trên thuật toán này để tìm sự tương đồng giữa các thực thể của các ontology đầu vào. Thuật toán đề
xuất này sử dụng độ đo mới về sự tương đồng của từ vựng và cũng sử dụng thông tin về cấu trúc của các ontology để xác định thực
thể tương ứng của chúng. Độ đo sự tương đồng về từ vựng tạo ra một tập từ cho mỗi thực thể dựa trên nhãn và thông tin mô tả của
chúng. Cách tiếp cận về cấu trúc tạo thành một mạng lưới cho mỗi nút trong các ontology. Sự kết hợp của phương pháp tiếp cận về
từ vựng và cấu trúc tạo thành ma trận đồng dạng giữa ontology nguồn và ontology đích. Thuật toán đề xuất này đã được thử
nghiệm dựa trên các chuẩn đã được công nhận và cũng được so sánh với các thuật toán khác hiện nay. Kết quả thực nghiệm của
chúng tôi cho thấy thuật toán đề xuất rất hiệu quả và nhanh hơn so với các thuật toán khác
12 trang |
Chia sẻ: phuongt97 | Lượt xem: 442 | Lượt tải: 0
Nội dung tài liệu Thuật toán mới về so khớp ontology, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
dụ phương pháp tương đồng về chuỗi (tiền tố, hậu tố, chỉnh sửa
khoảng cách) bằng cách dựa trên chuỗi, các kỹ thuật dựa trên ràng buộc. Trong khi đó, một số ngữ nghĩa tương ứng có
Hth
c
r
(
r
s
2
a
c
h
c
b
c
c
c
l
uỳnh Nhứt Phát,
ể thực hiện b
ách sử dụng c
Khung
iêng lẻ.
3. Quá
Description L
Cuối cù
ecall.
Với OM
o khớp riêng
. Các kỹ thu
) Ngưỡng
Ngưỡng
hỉnh sửa của
ai thực thể là
húng tôi phải
) Kết hợp độ
Mỗi cô
huẩn hoá trướ
• Thuật
Độ tin
ho một công
• Phươ
Độ đo t
) So khớp ng
OMRea
ogic mô tả (D
Hoàng Hữu Hạn
ằng cách sử
hiến lược cụ
ứng dụng sẽ h
trình suy di
ogic), trong đ
ng, chúng tôi
Reasoner, kh
lẻ bao gồm Ed
ật sử dụng cụ
rất cần thiết
“book” và “b
tương đồng (
điều chỉnh cô
đo tin cậy
ng cụ so khớp
c khi kết hợp
toán tổng hợ
cậy có thể đư
cụ so khớp k
simሺeଵ
ng pháp cực đ
in cậy cực đạ
sim(e1
ữ nghĩa
soner sử dụn
L - Descriptio
h, Phan Công Vi
dụng từ điển
thể.
ỗ trợ về việc
ễn: ngữ ngh
ó các tương đ
đánh giá các
ung ứng dụn
itDistance và
Hìn
Hình 6. M
thể
đối với nhiều
ooklet” là 3/7
với độ do tin
ng cụ so khớp
riêng lẻ có
. OMReasone
p trọng số (W
ợc tổng hợp b
cụ thể và sim
, eଶሻ ൌ ∑୬୩ୀଵ
ại (Max)
i được chọn tr
, e2) = max(si
g các phương
n Logic).
nh
bên ngoài nh
kết hợp các c
ĩa tương ứng
ồng về từ đượ
kết quả dựa
g rất linh hoạ
WordNet (H
h 5. So khớp
inh hoạ về các
công cụ so k
(tức là, các đ
cậy 0.57); ng
thông qua n
thể tạo ra các
r bao gồm cá
eightSum)
ằng thuật toá
k(e1, e2) là độ
w୩ ൈ sim୩ሺe
ong số n công
m1(e1, e2),
pháp so khớp
ư WordNet.
ông cụ đối sán
có thể đượ
c sinh ra ở bư
vào các đối s
t đối với các
ình 5).
ontology trong
công cụ so khớ
hớp (đặc biệt
ộ đo tin cậy t
ược lại nếu ng
gưỡng.
độ đo tin cậy
c chiến lược li
n tương đồng
tin cậy của s
ଵ, eଶሻ, trong đ
cụ so khớp (
, simn(e1, e2
ngữ nghĩa n
Sau đó, nhiều
h, tạo điều ki
c suy diễn b
ớc 2 được xe
ánh liên quan
công cụ so kh
OMReasoner
p trong OMRea
là cú pháp) v
ương đồng là
ưỡng là 0.6,
tương ứng.
nh hoạt sau đ
về trọng số (
ự tương đồng
ó ∑ w୩୬୩ୀଵ ൌ
công thức 2).
))
hư công cụ so
kết quả so k
ện thuận lợi c
ằng cách sử
m là đầu vào.
, và tính toán
ớp riêng lẻ. H
soner
ề sự tương đồ
1-3/7=0.57).
thì chúng khô
Tất cả các độ
ây để kết hợp
công thức 1),
.
1.0
khớp WordN
hớp được kết
ho các công
dụng logic
hai độ đo: pr
iện nay, nhiề
ng. Ví dụ, kh
Nếu ngưỡng
ng tương đồn
đo tin cậy nà
các kết quả đ
trong đó wk
et và việc su
703
hợp bằng
cụ so khớp
mô tả DL
ecision và
u công cụ
oảng cách
là 0.55, thì
g. Vì vậy,
y sẽ được
ối sánh:
là trọng số
(1)
(2)
y diễn bởi
7m
đ
b
s
p
B
p
W
1
đ
đ
n
p
c
n
=
2
th
(
3
V
n
đ
q
(
k
th
C
04
WordN
ột từ hay cụm
ược tính toán
ên ngoài như
OMRea
o khớp ontolo
hiên bản này,
. Kết quả củ
Trong p
hương pháp:
indows Serv
. Phương ph
Với phư
ược thay đổi
ịnh danh với
goài. Trong n
hân cấp. Tron
ho phép hoán
gưỡng của W
0.95, τed = 0.
. Phương ph
Tập dữ
ống của chú
τwd = 0.9, τed =
. Phương ph
Phương
ới phương p
hau. Trong nh
Trước h
ược dịch sẽ đ
uả. Chúng tôi
τwd = 0.8, τed =
ém hơn so vớ
iết kế tốt để
Để chọ
onference. T
et là một cơ s
từ) của các
với các thuật
WordNet để
soner sử dụn
gy. Tuy nhiê
khả năng suy
a OMReason
hần này, chú
Benchmark,
er 2008 R2 S
áp Benchmark
ơng pháp này
để thay thế cá
các tên khác t
hóm 2 có các
g nhóm 3 cá
vị của các t
ordNet, τed: n
9; S = Max).
áp Conferenc
liệu tin cậy b
ng tôi theo ph
0.8; S = Ma
áp MultiFarm
pháp MultiF
háp này, các
óm 2 các đối
ết, chúng tôi
ưa vào các cô
điều chỉnh cô
0.6; S = Ma
i các đối sán
so khớp với c
n ngưỡng tốt
uy nhiên, chú
ở dữ liệu điệ
từ được sắp
ngữ ràng bu
đạt được sự tư
g logic mô tả
n, khả năng s
diễn được bỏ
er theo từng p
ng tôi trình bà
Conference v
tandard với bộ
, các ontolog
c nhãn hoặc đ
heo một quy
ontology thu
c ontology đư
ừ có chiều d
gưỡng của Ed
Các kết quả đ
Bảng
e
ao gồm các o
ương pháp C
x).
Bản
arm bao gồm
ontology có
sánh ontolog
sử dụng từ đ
ng cụ so khớ
ng cụ của ch
x), trong đó c
h ontology tr
ác ontology k
Bả
hơn, chúng
ng tôi vẫn sử
n tử về từ vựn
xếp tạo thành
ộc về nghĩa c
ơng ứng về n
DL được cun
uy diễn mất n
qua.
hương pháp
y các kết quả
à MultiFarm.
vi xử lý Inte
y có thể được
ịnh danh về
ước đặt tên cụ
hẹp hệ thống
ợc thách thứ
ài cụ thể. Ch
itDitance) và
ạt được từ OM
Bảng 3. Phâ
4. Các kết qủa
ntology thực
onference. C
g 5. Kết quả đạ
một tập con
thể được chia
y đều khác nh
iển để dịch c
p bằng cách s
úng tôi bằng c
ho thấy các đ
ong nhóm 1.
hác là vì chún
ng 6. Các kết q
tôi so sánh
dụng chiến
g tiếng Anh,
các bộ từ đồ
ủa WordNet.
gữ nghĩa.
g cấp bởi Jen
hiều thời gian
thực hiện
đạt được từ O
Các thử ngh
l Core i5 chạy
chia thành 3
chúng. Sự tha
thể, một tên
phân cấp, mở
c lớn nhất về
úng tôi điều c
kết hợp chiến
Reasoner the
n loại theo chu
đạt được theo B
tế. Chúng tôi
ác kết quả đạt
t được theo Co
của tập dữ liệ
thành 2 loại
au.
ác ngôn ngữ
ử dụng chiến
ách sử dụng
ộ đo F-Measu
Chúng tôi thấ
g được viết b
uả đối với Mu
các kết quả (
lược về phươ
THU
trong đó các
ng nghĩa. Cá
Công cụ so k
a. OMReason
và chỉ góp m
MReasoner v
iệm được tiến
ở 2.8 Ghz và
loại (Bảng 3)
y đổi này bao
ngẫu nhiên, m
rộng hệ thốn
đối sánh onto
hỉnh công cụ
lược S, sau đ
o Benchmark
ẩn 2014
enchmark 201
sử dụng chiến
được từ OM
nference 2014
u kết hợp, đư
. Trong nhóm
khác nhau sa
lược Max. Cu
ngưỡng và cá
res của các đ
y rằng những
ằng các ngôn
ltiFarm 2014
Bảng 7) trên
ng pháp Max
ẬT TOÁN MỚI
nghĩa khác n
c quan hệ giữ
hớp riêng lẻ n
er bao gồm c
ột phần nhỏ
ới OAEI 201
hành trên m
16 GB RAM
. Trong nhóm
gồm việc tha
ột tên sai ch
g phân cấp h
logy. Ở đây
bằng cách s
ó nhận được
được tóm tắ
4
lược kết hợp
Reasoner đượ
ợc dịch với tá
1 các đối sá
ng tiếng Anh
ối cùng chún
c kết quả có t
ối sánh ontol
lý do mà OM
ngữ hoàn toàn
một số ngư
để thực hiện
VỀ SO KHỚP O
hau (các nghĩ
a các thực th
ày sử dụng m
ác luật suy di
cho các kết q
4. Nó thực hi
ột máy tính
.
1, thông tin
y thế các nhã
ính tả hoặc m
oặc tất cả đều
các nhãn đượ
ử dụng ngưỡ
các kết quả t
t trong Bảng 4
để thực thi c
c tóm tắt tro
m ngôn ngữ
nh ontology
. Sau đó, tiến
g tôi nhận đư
hể hiển thị tro
ogy ở nhóm 2
Reasoner k
khác nhau.
ỡng theo phư
công cụ của
NTOLOGY
a có thể là
ể ontology
ột từ điển
ễn về việc
uả. Trong
ện theo ba
đang chạy
từ vựng đã
n hoặc các
ột từ nước
không có
c trộn sao
ng T (τwd:
ốt hơn (τwd
.
ông cụ hệ
ng Bảng 5
khác nhau.
đều giống
g Anh đã
ợc các kết
ng Bảng 6
là rõ ràng
hông được
ơng pháp
chúng tôi.
HT
m
d
M
C
1
từ
đ
2
c
từ
m
m
th
đ
c
s
c
tư
c
tr
th
m
m
o
uỳnh Nhứt Phát,
ừ các kết qu
easure = 0.6
ụng phương
ultiFarm.
. Nhận xét c
. Thảo luận v
Thực h
các công cụ
ược liệt kê nh
a) Áp dụ
trên tr
b) Thêm
trước
c) Lấy c
d) Xem
e) Một v
hiện n
. Đề xuất cá
Chúng
a) Làm p
được
b) Tính
c) Tìm c
d) Tìm c
e) Cải th
f) Bao g
Trong b
ủa các ontolo
vựng, cấu t
ột phép đo m
iêu tả, được
ực thể. Tron
ược đặt tên, c
ấu trúc các on
ánh chúng vớ
ận của nút đó
ơng đồng về
ách áp dụng b
ung bình có t
ử nghiệm ch
ột số hệ thốn
easre tốt hơn
ntology theo
Hoàng Hữu Hạn
ả, chúng tôi
47). Vì vậy m
pháp Confer
B
hung
ề cách thức đ
iện việc suy d
so khớp riên
ư sau:
ng nhiều chi
ọng số.
một số tiền x
khi đưa vào c
ác nhận xét v
xét lại việc sử
ấn đề khác tr
ay. Và chúng
c biện pháp m
tôi thấy rằng O
hong phú cá
các khái niệm
đến sự phân c
ác từ đồng ng
ác từ điển ng
iện thuật toán
ồm nhiều côn
ài báo này ch
gy đã cho dựa
rúc, và tổ hợp
ới về sự tươn
chuyển đổi và
g giai đoạn đ
ác thuộc tính
tology, chúng
i nhau dựa trê
và các lân c
cấu trúc đượ
a thao tác đư
rọng số của c
uẩn của OAE
g đã tham gi
. Ngoài ra,
ba phương ph
h, Phan Công Vi
thấy rằng khi
à chúng tôi
ence, chúng
ảng 7. So sánh
ể cải thiện hệ
iễn dựa trên c
g lẻ sẽ nâng c
ến lược linh h
ử lý (Hình 6
ác công cụ đố
à thông tin về
dụng giá trị n
ong công cụ
tôi sẽ cải thiệ
ới
MReasoner
c từ điển ngữ
ngữ nghĩa to
ấp các khái ni
hĩa theo phươ
ôn ngữ khác n
của một số c
g cụ so khớp
úng tôi trình
trên thông ti
. Đối với việ
g đồng, tron
cho vào một
ầu tiên, chún
đối tượng và
tôi tạo ra mộ
n mạng lưới
ận của các lâ
c tính bằng cá
ợc mô tả trong
ác kết quả về
I-08 và có cá
a vào tổ chúc
chúng tôi trìn
áp: Benchma
nh
ngưỡng τwd
sử dụng ngưỡ
tôi nhận đư
kết quả với cá
thống đề xuấ
ác tương ứng
ao các kết qu
oạt hơn tron
), chẳng hạn n
i sánh.
nhãn của ont
gưỡng thích
của chúng tô
n nó trong tư
có thể cải tiến
nghĩa vì Wor
àn diện.
ệm ngữ nghĩa
ng pháp kết h
hau cho Mult
ông cụ đối sá
khác nhau.
VII.
bày thuật toá
n về từ vựng
c xác định sự
g đó các thôn
túi từ, sau đ
g tôi thu đượ
các thuộc tín
t mạng lưới
của chúng. M
n cận đó đồn
ch so sánh cá
phần III mụ
từ vựng và c
c kết quả khả
OAEI-08 và
h bày thêm
rk, Conferenc
= 0.9, τed = 0
ng τwd = 0.9
ợc các ngưỡ
c ngưỡng khác
t
về từ là rất k
ả của chúng t
g việc kết hợp
hư loại bỏ đặ
ology để tính
hợp để tối ưu
i là bỏ qua th
ơng lai.
rất nhiều. M
dNet không p
thay vì chỉ tí
ợp.
iFarm.
nh.
KẾT LUẬN
n so khớp on
và cấu trúc củ
tương đồng
g tin về từ vự
ó chúng được
c ba ma trận t
h dữ liệu của
cho mỗi nút tr
ỗi mạng lưới
g thời được th
c mảng này.
c B. Cuối cùn
ấu trúc. Chún
quan. Ngoài
như trong Bả
các kết quả c
e và MultiFa
.8, công cụ
, τed = 0.8 the
ng tốt hơn s
nhau của Confe
hó khăn, vì v
ôi. Một số cá
nhiều công
c tính cụ thể
toán, cá biệt k
hóa độ chính
ông tin về cấ
ột số cách mớ
hải là một từ
nh đến tất cả
tology tìm ra
a chúng. Thu
về từ vựng gi
ng của mỗi th
sử dụng cho
ương đồng v
hai ontology
ong ontology
của mỗi nút đ
ể hiện bởi m
Sau khi tạo ra
g, trong giai đ
g tôi đã thực
ra chúng tôi
ng 2 cho thấy
ủa hệ thống
rm. Chiến lượ
của chúng tô
o phương ph
o với phươn
rence 2014
ậy các kết qu
ch để cải thiệ
cụ so khớp th
(ví dụ, '-', '_'
hi tên của kh
xác.
u trúc bao gồ
i được đề xuấ
điển chuyên n
các khái niệm
sự tương đồn
ật toán này th
ữa các thực t
ực thể, chẳn
việc tìm kiếm
ề từ vựng bằn
. Trong giai đ
nguồn và ont
ược tạo ra bằ
ột mảng hai
ma trận này
oạn thứ ba, c
hiện thuật toá
so sánh thuật
thuật toán củ
OMReasoner
c kết hợp của
i thực hiện tố
áp Conferenc
g pháp Benc
ả chính xác đ
n công cụ của
ay vì chỉ tổn
) hoặc tách cá
ái niệm này là
m ontology ở
t như sau:
ghiệp, nó kh
và thuộc tính
g trong số cá
ực hiện ở ba
hể, chúng tôi
g hạn như nh
sự tương đồ
g cách so sá
oạn thứ hai,
ology đích và
ng cách sử dụ
chiều. Ma trậ
, nó được cải
húng tôi tính
n của chúng
toán của chú
a chúng tôi c
cho việc đố
nhiều công c
705
t nhất (F-
e. Việc sử
hmark và
ược đưa ra
chúng tôi
g hợp dựa
c từ ghép,
vô nghĩa.
giai đoạn
ông thể có
.
c thực thể
giai đoạn:
giới thiệu
ãn hoặc sự
ng của các
nh các lớp
để so sánh
sau đó so
ng các lân
n khởi tạo
thiện bằng
toán giá trị
tôi trên bộ
ng tôi với
ó độ đo f-
i sánh các
ụ so khớp
706 THUẬT TOÁN MỚI VỀ SO KHỚP ONTOLOGY
riêng lẻ và sự suy diễn logic mô tả DL bao hàm cả trong cách tiếp cận của chúng tôi. Các kết quả đạt được chúng tôi
thấy vẫn chưa thỏa mãn và sẽ tiếp tục cải tiến nó trong tương lai.
VIII. TÀI LIỆU THAM KHẢO
[1] N. Arch-Int and P. Sophatsathit, A semantic information gathering approach for heterogeneous information
sources on WWW, Journal of Information Science 29 (2003) 357–374.
[2] M. Ehrig and J. Euzenat. Relaxed precision and recall for ontology matching, K-Cap 2005 Workshop on
Integrating Ontologies2005 (Banff, Alberta, Canada) 25–32.
[3] L. S. Xiao and R. Ellen, Automated schema mapping techniques: an exploratory study, Research Letters
Information Science4 (2003) 113–136.
[4] W. Cohen, P. Ravikumar and S. Fienberg, A comparison of string metrics for matching names and records,
Proceedings of the Workshop on Data Cleaning and Object Consolidation at the International Conference on
Knowledge Discovery and Data Mining (KDD)(2003).
[5] A. Alasoud, V. Haarslev and N. Shiri, An empirical comparison of ontology matching techniques, Journal of
Information Science35(4) (2009) 379–397.
[6] V. I. Levenshtein, Binary codes capable of correcting deletions, insertions, and reversals, Soviet Physics
Doklady10 (1966) 707–710.
[7] G. A. Miller, WordNet: A lexical database for english, Communications of the ACM38 (1995) 39–41.
[8] P. Bouquet, L. Serafini and S. Zanobini, Peer-to-peer semantic coordination, Journal of Web Semantics 2(1)
(2004) 81–97.
[9] G. Pirro, A semantic similarity metric combining features and intrinsic information content, Journal of Data and
Knowledge Engineering 68 (2009) 1289–1308.
[10] A. Maedche and S. Staab, Measuring similarity between ontologies, In Proceedings of the International
Conference on Knowledge Engineering and Knowledge Management(2002) 251–263.
[11] Rahm, E. and Bernstein, P.: A survey of approaches to automatic schema matching. The VLDB Journal, ,10(4):
334--350(2001).
[12] Shvaiko, P. and Euzenat, J.: A survey of schema-based matching approaches. Journal on Data Semantics (JoDS)
IV, 146--171(2005).
[13] Kalfoglou, Y. and Schorlemmer, M.: Ontology mapping: the state of the art. The Knowledge Engineering
Review Journal, 18(1):1--31, (2003).
A NEW ALGORITHM FOR ONTOLOGY MATCHING
Huynh Nhut Phat, Hoang Huu Hanh, Phan Cong Vinh
ABSTRACT − Ontology matching is an importance in ontology technology of the Semantic Web with a goal of finding alignments
among the entities of given ontologies. Ontology matching is a necessary step for establishing interoperation and knowledge sharing
among Semantic Web applications. In this study we present an algorithm and a tool developed based on this algorithm to find
correspondences among entities of input ontologies. The proposed algorithm uses a new lexical similarity measure and also utilizes
structural information of ontologies to determine their corresponding entities. The lexical similarity measure generates a bag of
words for each entity based on its label and description information. The structural approach creates a grid for each node in the
ontologies. The combination of lexical and structural approaches creates the similarity matrix between the source and target
ontologies. The proposed algorithm was tested on a well known benchmark and also compared to other algorithms presented in the
literature. Our experimental results show the proposed algorithm is effective and outperforms other algorithms.
Các file đính kèm theo tài liệu này:
- thuat_toan_moi_ve_so_khop_ontology.pdf