Tìm kiếm ảnh là lĩnh vực đang nhận được rất nhiều sự quan tâm của cộng đồng khoa học máy tính, xu hướng nghiên cứu hiện nay là kết hợp các thuật toán và các phương pháp trích đặc trưng dữ liệu để làm tăng hiệu quả tìm kiếm. Một trong những phương pháp được sử dụng hiệu quả đó là kỹ thuật phản hồi tương đồng để con người xác định một ảnh kết quả là phù hợp hoặc không phù hợp với ảnh truy vấn thông qua đó điều chỉnh truy vấn gốc sao cho gần hơn các kết quả cần tìm. Bên cạnh đó, người ta còn sử dụng kỹ thuật gom nhóm để làm tăng hiệu quả lấy phản hồi, thay vì mỗi lần phản hồi, người dùng chỉ chọn một ảnh thì với phương pháp này, người dùng sẽ chọn một nhóm ảnh, tất cả ảnh trong nhóm sẽ được coi là tương đồng hoặc không tương đồng. Trong tìm kiếm ảnh, đặc trưng cục bộ thường xuyên được sử dụng bởi vì đặc trưng này phù hợp để xác định các đối tượng bên trong ảnh, đồng thời không bị ảnh hưởng bởi kích thước, góc quay và độ sáng của hình ảnh cũng như các đối tượng trong ảnh. Ngoài ra, ảnh trên internet thường được kèm theo những ghi chú hoặc mô tả ngắn (gọi chung là mô tả), có giá trị rất lớn trong việc thể hiện nội dung bên trong bức ảnh. Sử dụng đồng thời đặc trưng ảnh và đặc trưng văn bản là một hướng tiếp cận mới và đã được chứng minh hiệu quả trong các nghiên cứu về máy học. Từ thực tế đó, nghiên cứu đề xuất sử dụng kết hợp kỹ thuật gom nhóm để lấy phản hồi tương đồng, với đặc trưng ảnh là đặc trưng cục bộ và đặc trưng văn bản. Nghiên cứu được cài đặt và đánh giá trên tập dữ liệu “Di sản văn hoá phi vật thể khu vực Đồng bằng sông Cửu Long” được thu thập tự động từ internet bằng công cụ Web crawler, kết quả thực nghiệm cho thấy phương pháp được đề xuất đã mang lại hiệu quả tốt trong việc nâng cao hiệu quả phản hồi cũng như kết quả tìm kiếm
9 trang |
Chia sẻ: Thục Anh | Lượt xem: 406 | Lượt tải: 0
Nội dung tài liệu Kết hợp kỹ thuật gom nhóm và phản hồi tương đồng trong tìm kiếm ảnh, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
ấy giá trị trung bình AP có xu hƣớng càng cao khi tham số càng thấp, điều này chứng tỏ đóng
góp của văn bản về nội dung ảnh trong tập dữ liệu “Di sản văn hoá phi vật thể khu vực Đồng bằng sông Cửu Long” là
rất lớn. Tuy vậy đặc trƣng ảnh vẫn đóng vai trò quan trọng trong quá trình gom nhóm và hiển thị trực quan để lấy phản
hồi tƣơng đồng.
Mục đích của việc gom nhóm kết quả truy vấn trƣớc khi hiển thị để lấy phản hồi là để tăng hiệu quả phản hồi,
hay nói cách khác trong một lần ta chọn đƣợc nhiều ảnh tƣơng đồng hoặc không tƣơng đồng. Do chất lƣợng tập dữ liệu
thực nghiệm không đồng đều nên mục này lấy trung bình số ảnh theo click phản hồi đối với từng lớp để dễ so sánh. Vì
các ảnh phản hồi chỉ đƣợc lấy vào tập tƣơng đồng hoặc không tƣơng đồng một lần nên có trƣờng hợp một ảnh đƣợc
chọn nhiều lần ở những đợt phản hồi khác nhau dẫn đến số click tăng lên nhƣng số ảnh đƣợc chọn không tăng, điều
này cũng ảnh hƣởng tới tỉ lệ ảnh/click, ngoài ra tỉ lệ ảnh/click còn bị ảnh hƣởng rất nhiều bởi việc giới hạn số cluster
khá lớn trong quá trình gom nhóm top k ảnh kết quả. Biểu đồ hình 8 cho thấy trong mỗi click phản hồi nhận đƣợc số
ảnh không nhiều, cao nhất là lớp 17 với trung bình 1,48 ảnh/click và thấp nhất là lớp 11 với trung bình 1,05 ảnh/click.
Trên toàn tập dữ liệu giá trị này là 1,31.
4. Trung bình AP giữa các phƣơng pháp
Biểu đồ hình 9 thể hiện kết quả so sánh giữa các phƣơng pháp sử dụng: đặc trƣng văn bản không phản hồi, đặc
trƣng văn bản có phản hồi, đặc trƣng ảnh không phản hồi, đặc trƣng ảnh có phản hồi, kết hợp đặc trƣng không phản hồi
và kết hợp đặc trƣng có phản hồi. Trong đó sử dụng đặc trƣng văn bản cùng với phản hồi tƣơng đồng cho kết quả tốt
nhất (34,53%), tuy nhiên cũng chỉ cao hơn một chút so với việc không phản hồi (33,58%). Do đặc tính tập dữ liệu
không đồng nhất nên sử dụng đặc trƣng ảnh chẳng những không cải thiện mà còn làm giảm kết quả truy vấn, điều này
thể hiện rõ trong kết quả sử dụng kết hợp đặc trƣng và phản hồi tƣơng đồng thì kết quả tốt nhất chỉ đạt 32,54% khi
tham số kết hợp (khi đó đặc trƣng ảnh chỉ đƣợc sử dụng cho quá trình hiển thị nhóm để lấy phản hồi), thấp
hơn sử dụng đặc trƣng văn bản cùng với phản hồi tƣơng đồng đạt 34,53%.
VII. KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN
Về mặt lý thuyết kỹ thuật gom nhóm kết quả trƣớc khi lấy phản hồi giúp tăng số lƣợng ảnh đƣợc chọn trong mỗi
lƣợt phản hồi, cải thiện hiệu quả phản hồi. Bên cạnh đó kỹ thuật phản hồi tƣơng đồng và mở rộng truy vấn làm tăng
hiệu quả tìm kiếm. Ngoài ra đặc trƣng văn bản có giá trị quan trọng trong bài toán tìm kiếm ảnh.
Hình 8. Trung bình số ảnh mỗi click phản hồi theo lớp dữ liệu
232 KẾT HỢP KỸ THUẬT GOM NHÓM VÀ PHẢN HỒI TƢƠNG ĐỒNG TRONG TÌM KIẾM ẢNH
Về mặt thực nghiệm do tập dữ liệu có rất nhiều lớp chứa các hình ảnh gần giống nhau, nên trong cài đặt thực
nghiệm phải cắt cây phân cấp ở mức thấp dẫn đến số lƣợng nhóm (clusters) lớn (cho phép tối đa 800 nhóm, trong khi k
kết quả cần gom nhóm chỉ có giá trị là 1000), do đó số ảnh tăng lên trong mỗi lƣợt chọn không nhiều (khoảng từ 1 đến
3 ảnh). Văn bản trong tập dữ liệu “Di sản văn hoá phi vật thể ở khu vực Đồng bằng Sông Cửu Long” có giá trị rất lớn
trong việc nói lên nội dung của hình ảnh mà nó đi kèm.
Nghiên cứu hƣớng tới thực hiện đánh giá thực nghiệm trên các loại đặc trƣng ảnh khác nhƣ đặc trƣng GIST, đặc
trƣng màu sắc - COLOR; đánh giá thực nghiệm khi thay đổi các trọng số tin cậy , và trong công thức Rocchio.
Đồng thời đánh giá thực nghiệm khi thay đổi các kiểu liên kết gom nhóm (liên kết đơn, liên kết tâm, liên kết toàn phần)
và các loại khoảng cách (Euclid, cosine).
Hình 9. Trung bình AP giữa các phƣơng pháp
TÀI LIỆU THAM KHẢO
[1] Trƣơng Quốc Định, Ngô Bá Hùng, Trƣơng Quốc Bảo, Các Hệ Thống Tìm Kiếm Thông Tin Văn Bản, NXb Đại
học Cần Thơ, Cần Thơ, 2014
[2] Phạm Nguyên Khang, Phạm Thế Phi, Đỗ Thanh Nghị, Trần Nguyễn Minh Thƣ, “Sự ảnh hƣởng của phƣơng pháp
tách từ trong bài toán phân lớp văn bản tiếng Việt”, Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin FAIR
2016, tr.668-677, 2016.
[3] Đỗ Thanh Nghị, Phạm Nguyên Khang, Nguyên lý máy học, NXb Đại Học Cần Thơ, Cần Thơ, 2012.
[4] Đỗ Thanh Nghị, Trần Cao Đệ, “Kết hợp ngữ nghĩa với mô hình túi từ để cải tiến giải thuật k láng giềng trong phân
lớp văn bản ngắn”, Tạp chí Khoa học Trƣờng Đại học Cần Thơ, 34, tr.66-73, 2014.
[5] James Allan, “Incremental relevance feedback for information filtering”, Annual International ACM SIGIR
Conference on Research and Development in Information Retrieval, 19, pp.270-278, 1996.
[6] Mghana M Chavan, Asawari Patil, Lata Dalvi, Ajinkya Patil, “Mini batch K-Means clustering on large dataset”,
International Journal of Scientific Engineering and Technology Research, 4(7), pp.1356-1358, 2015.
[7] Hsin-Liang Chen, Edie M. Rasmusse, “Intellectual Access to Images”, Library Trends, 48(2), pp.291-302, 1999.
[8] Yixin Chen, James Z. Wang, Robert Krovetz, “Content-based Image Retrieval by Clustering”, Proceedings of the
5th ACM SIGMM International Workshop on Multimedia Information Retrieval, 3, pp.193-200, 2003.
[9] Yixin Chen, James Z. Wang, Robert Krovetz, “CLUE: Cluster-Based Retrieval of Images by Unsupervised
Learning”, Ieee transactions on image Processing, 14(8), pp.1187-1201, 2005.
[10] Stéphane Clinchant, Julien Ah-Pine, Gabriela Csurka, “Semantic Combination of Textual and Visual Information
in Multimedia Retrieval”, Proceedings of the 1st ACM International Conference on Multimedia Retrieval, 11(44),
pp.1-8, 2011.
[11] Ritendra Datta, Jia Li, James Z. Wang, “Content-based image retrieval: approaches and trends of the new age”,
Proceedings of the 7th ACM SIGMM international workshop on Multimedia information retrieval, 5, pp.253-262,
2005.
[12] Anton Leuski, “Evaluating Document Clustering for Interactive Information Retrieval”, International Conference
on Information and Knowledge Management, 10, pp.33-40, 2001.
[13] David G. Lowe, “Distinctive Image Features from Scale-Invariant Keypoints”, International Journal of Computer
Vision, 60(2), pp.91-110, 2004.
[14] Christopher D. Manning, Prabhakar Raghavan, Hinrich Schütze, An Introduction to Information Retrieval,
Cambridge University Press, New York, USA, 2008.
[15] Banireddy Prasaad, Amar Gupta, Hoomin Toong, Stuart Madnick, “Amicrocomputer-based image database
management system”, IEEE Transactionson Industrial Electronics, 34(1), pp.83-88, 1987.
Nguyễn Tí Hon, Hà Thị Phƣơng Anh, Phạm Thế Phi 233
[16] Ricardo da Silva Torres, Alexandre Xavier Falcão, “Content-Based Image Retrieval: Theory and Applications”,
RITA, 13(2), pp.161-185, 2006.
[17] D. Sculley, “Web-scale k-means clustering”, Proceedings of the 19th international conference on world wide web,
pp.1177-1178, 2010.
[18] Gang Wang, Derek Hoiem, David Forsyth, “Building text features for object image classification”, CVPR,
pp.1367-1374, 2009.
THE COMBINATION OF CLUSTERING AND RELEVANT FEEDBACK IN
IMAGES RETRIEVAL
Nguyen Ti Hon, Ha Thi Phuong Anh, Pham The Phi
Abstract: Image retrieval is a field that is receiving a lot of attention from the computer science community. The current research
trend is to combine algorithms and feature extraction methods to increase query efficiency. One of the most well-used methods is the
relevant feedback technique, which people determine whether a resulting image is appropriate or inconsistent with the query image,
then to modify the original query to increase relevant results. In addition, clustering is usually used to increase the efficiency of
feedback, instead of each response the user only selects one image, with this method, the user will select a group of images, all
images in that group will be considered relevant or not irrelevant. In image retrieval, local feature is frequently used because of
suitable to identify objects within the image, and is not affected by the size, rotation, and brightness of the objects in images. In
addition, images on the Internet are often accompanied by short notes or descriptions (collectively referred to as descriptions),
which are of great value in expressing the content within the image. Simultaneous use of image feature and text feature is a new
approach and has been proven effective in machine learning studies. From that fact, the study proposes to use a combination of
clustering techniques to get feedback, the feature is local image feature and text feature. The study was evaluated on the data set of
"Intangible Cultural Heritage in the Mekong River Delta", which was collected automatically from the Internet using the Web
crawler tool, the experimental results showed that the method was The proposal has brought good results in improving the feedback
efficiency as well as query results.
Keywords: Image retrieval, image classification, clustering, relevant feedback, feature combinations.
Các file đính kèm theo tài liệu này:
- ket_hop_ky_thuat_gom_nhom_va_phan_hoi_tuong_dong_trong_tim_k.pdf