Khảo sát thực nghiệm đặc trưng học sâu trên bộ dữ liệu lớn cho bài toán tái nhận dạng nhân vật

Cho ảnh của một người đã được quan sát tại một vị trí, bài toán tái nhận dạng nhân vật giúp nhận dạng và liên kết ảnh của đối tượng đó xuất hiện tại các địa điểm khác trong hệ thống camera giám sát. Đây là một bài toán có khả năng ứng dụng cao, đặc biệt là trong các hệ thống camera giám sát. Nhiều phương pháp rút trích đặc trưng khác nhau được đề xuất nhằm giúp biểu diễn tốt ảnh của các đối tượng vượt qua các thách thức như sự thay đổi về tư thế của đối tượng, sự khác nhau về khung nền hay điều kiện chiếu sáng. Trong những năm gần đây, đặc trưng học sâu được sử dụng và mang lại kết quả cao trong nhiều bài toán trong lĩnh vực thị giác máy tính. Trong nghiên cứu này, chúng tôi sẽ tiến hành đánh giá hiệu quả của các mạng học sâu trên một bộ dữ liệu lớn MSMT17 vừa được công bố trong năm 2018 nhằm có một cái nhìn tổng quan hơn về hiệu quả và khả năng áp dụng của đặc trưng học sâu trong bài toán tái nhận dạng nhân vật

7 trang | Chia sẻ: Thục Anh | Lượt xem: 740 | Lượt tải: 0

Nội dung tài liệu Khảo sát thực nghiệm đặc trưng học sâu trên bộ dữ liệu lớn cho bài toán tái nhận dạng nhân vật, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XI về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR); Hà Nội, ngày 09-10/8/2018 DOI: 10.15625/vap.2018.00031 KHẢO SÁT THỰC NGHIỆM ĐẶC TRƯNG HỌC SÂU TRÊN BỘ DỮ LIỆU LỚN CHO BÀI TOÁN TÁI NHẬN DẠNG NHÂN VẬT Võ Duy Nguyên 1, Huỳnh Nhật Lƣu2, Nguyễn Thị Bảo Ngọc1, Nguyễn Tấn Trần Minh Khang1 1PTN Truyền thông Đa phương tiện, Đại học Công nghệ Thông tin ĐHQG TP. HCM 2Trường Đại học Mở TP. HCM 1{nguyenvd,ngocntb,khangnttm}@uit.edu.vn 21451010101luu@ou.edu.vn TÓM TẮT: Cho ảnh của một người đã được quan sát tại một vị trí, bài toán tái nhận dạng nhân vật giúp nhận dạng và liên kết ảnh của đối tượng đó xuất hiện tại các địa điểm khác trong hệ thống camera giám sát. Đây là một bài toán có khả năng ứng dụng cao, đặc biệt là trong các hệ thống camera giám sát. Nhiều phương pháp rút trích đặc trưng khác nhau được đề xuất nhằm giúp biểu diễn tốt ảnh của các đối tượng vượt qua các thách thức như sự thay đổi về tư thế của đối tượng, sự khác nhau về khung nền hay điều kiện chiếu sáng. Trong những năm gần đây, đặc trưng học sâu được sử dụng và mang lại kết quả cao trong nhiều bài toán trong lĩnh vực thị giác máy tính. Trong nghiên cứu này, chúng tôi sẽ tiến hành đánh giá hiệu quả của các mạng học sâu trên một bộ dữ liệu lớn MSMT17 vừa được công bố trong năm 2018 nhằm có một cái nhìn tổng quan hơn về hiệu quả và khả năng áp dụng của đặc trưng học sâu trong bài toán tái nhận dạng nhân vật. Từ khóa: Tái nhận dạng nhân vật, đặc trưng học sâu, dữ liệu lớn. I. GIỚI THIỆU Cùng với sự phát triển của các hệ thống camera giám sát, các hệ thống giám sát an ninh được đề xuất nhằm giám sát nhiều nơi công cộng như siêu thị, sân bay hay bệnh viện. Những hệ thống này bao gồm rất nhiều camera được đặt ở nhiều vị trí khác nhau. Hình ảnh của các camera này được thu thập và quản lý bởi một trung tâm kiểm soát. Công việc của trung tâm kiểm soát này có thể bao gồm nhiều tác vụ khác nhau như phát hiện người, tìm kiếm và theo vết các đối tượng (người). Trong những công việc đó, tìm kiếm các đối tượng di chuyển qua nhiều vùng quan sát của các camera khác nhau đóng vai trò rất quan trọng trong các hệ thống giám sát an ninh. Nhiệm vụ này được biết đến với tên gọi là tái nhận dạng nhân vật (Person Re-Identification). Hình 1. Mục tiêu của tái nhận dạng nhân vật là tìm ra ảnh của mục tiêu đã di chuyển qua vùng quan sát của nhiều camera khác nhau Việc tái nhận dạng nhân vật trong một hệ thống gồm nhiều camera khác nhau gặp rất nhiều thách thức. Đặc biệt, khi số lượng người di chuyển qua các camera tăng lên, khả năng tái nhận dạng càng thấp do các đối tượng có thể bị che khuất và nhiều người có ngoại hình, trang phục giống nhau. Ngoài ra, sự khác biệt về hình ảnh của các đối tượng xuất hiện trong các camera do các tác nhân khác nhau như khung cảnh, điều kiện ánh sáng, góc nhìn ... cũng là một vấn đề lớn cần giải quyết để tái nhận dạng các nhân vật một cách chính xác. Võ Duy Nguyên, Huỳnh Nhật Lưu, Nguyễn Thị Bảo Ngọc, Nguyễn Tấn Trần Minh Khang 233 Trong những năm gần đây, đặc trưng học sâu được áp dụng và mang lại hiệu quả cao trong nhiều bài toán trong lĩnh vực thị giác máy tính. Nhiều đặc trưng học sâu cũng đã được đề xuất để áp dụng cho bài toán tái nhận dạng nhân vật và cho kết quả vượt trội so với các phương pháp khác [1]-[4]. Tuy nhiên, do các bộ dữ liệu về tái nhận dạng nhân vật trước đây thường có kích thước nhỏ (ví dụ bộ dữ liệu VIPeR[5] tổng cộng chỉ có 1264 hình, bộ dữ liệu GRID[6] chỉ có 1275 hình), do đó khó có khả năng đánh giá được chính xác hiệu quả của đặc trưng học sâu trong bài toán tái nhận dạng nhân vật. Trong bài báo này, chúng tôi sẽ đánh giá hiệu quả của các đặc trưng học sâu khác nhau trên dữ liệu lớn. Cụ thể, chúng tôi đánh giá đặc trưng rút trích từ mạng học sâu gồm AlexNet[7], VGG16[8]trên bộ dữ liệu lớn và mới được công bố là MSMT17 (4,101 người và 126,441 ảnh). Ngoài ra, chúng tôi cũng đề xuất thay đổi kích thước ảnh đầu vào để rút trích đặc trưng phù hợp hơn với bài toán tái nhận dạng nhân vật. Từ các kết quả thực nghiệm, chúng tôi đưa ra một số nhận xét về các kết quả thu được. Phần còn lại của bài báo được tổ chức như sau, trong phần II chúng tôi sẽ khảo sát bài toán Tái nhận dạng nhân vật cũng như các phương pháp rút trích đặc trưng sẽ được sử dụng. Phần III sẽ trình bày các đặc trưng học sâu. Phần IV, chúng tôi sẽ thảo luận về kết quả đạt được từ các phương pháp khác nhau và cải thiện kết quả. Cuối cùng, phần V sẽ kết luận bài báo và đưa ra các hướng nghiên cứu tiếp theo. II. CÁC NGHIÊN CỨU LIÊN QUAN Trong phần này, chúng tôi trình bày về mô hình tái nhận dạng nhân vật được sử dụng phổ biến và hai hướng tiếp cận chính cho bài toán là dùng đặc trưng thủ công và đặc trưng học sâu. 2.1. Tái nhận dạng nhân vật Mô hình phổ biến được sử dụng trong bài toán Tái nhận dạng nhân vật gồm hai bước chính là rút trích đặc trưng và so khớp (xem Hình 2). Các phương pháp rút trích đặc trưng hiện nay được chia làm hai loại: đặc trưng thủ công và đặc trưng học sâu. Các ảnh sau khi được rút trích đặc trưng sẽ được tiến hành so khớp để tính độ tương tự giữa các cặp ảnh. Dựa trên độ tương tự đã tính, các ảnh trong gallery được sắp xếp theo thứ tự tăng dần độ tương tự với ảnh tìm kiếm. Hình 2. Mô hình phổ biến tái nhận dạng nhân vật 2.2. Khảo sát một số phƣơng pháp rút trích đặc trƣng Nhiều đặc trưng thủ công đã được đề xuất trong bài toán tái nhận dạng nhân vật. Đặc trưng Ensemble of Localized Features (ELF)[5] sử dụng thông tin histogram màu của các kênh màu RGB, YcbCr và HS và các thông tin về kết cấu bề mặt (texture) ảnh. ELF sử dụng 8 kênh màu và 21 thông tin cấu trúc, mỗi đặc trưng là một vecto 16 chiều. Số chiều vecto đặc trưng là 464 chiều, Thông thường mỗi ảnh được chia làm 6 phần, đặc trưng toàn ảnh được biểu diễn bằng vecto đặc trưng có số chiều là 2784. Local Descriptors encoded by Fisher Vectors (LDFV)[9]được đề xuất bởi B.Ma và cộng sự năm 2012. LDFV có thể xác định được đặc trưng của nền và đặc trưng của đối tượng, xác định những chi tiết các thành phần của đối tượng. LDFV biểu diễn thông tin vị trí, cường độ, độ dốc của điểm ảnh thông qua vectơ Fisher. HistLBP[10] công bố bởi F. Xiong và cộng sự năm 2014. HistLBP là đặc trưng biểu diễn bằng biểu đồ màu sắc trong không gian màu RGB, YCbCr và HS cùng với biểu đồ cấu tạo trong không gian nhị phân địa phương (local binary patterns LBP[11]). B. Ma và cộng sự đề xuất đặc trưng gBiCov dựa vào việc tính toán và mã hóa sự khác biệt giữa đặc trưng sinh học BIF ở các tỉ lệ khác nhau[12]. Dựa trên sự thay đổi theo chiều ngang của các đặc trưng cục bộ và tối đa hóa sự xuất hiện của các đặc trưng, đặc trưng LOMO[13] do S. Liao và cộng sự giúp rút trích các thông tin về diễn sự thay đổi của đối tượng qua các góc nhìn khác nhau một cách rõ ràng hơn. Weighted Histogram of Overlapping Stripes (WHOS)[14] là đặc trưng tập trung vào người (foreground) trong bức ảnh, dựa trên việc loại bỏ nền (background) bằng phương pháp Epanechnikov Kernel. WHOS lấy được nhiều đặc trưng về người ở trong ảnh, sau đó lấy histogram của ảnh và nối với đặc trưng HOG của ảnh đã loại bỏ nền. 234 KHẢO SÁT THỰC NGHIỆM ĐẶC TRƯNG HỌC SÂU TRÊN BỘ DỮ LIỆU LỚN CHO BÀI TOÁN Gaussian of Gaussian (GOG)[15] được Matsukawa và cộng sự công bố. Trong GOG, mỗi ảnh được chia ra thành các vùng theo chiều ngang (strip), mỗi vùng sẽ chia ra nhiều mẫu nhỏ, lấy gaussian cho từng mẫu nhỏ, vectơ hóa gaussian và tìm phân phối gaussian cho vùng chứa các mẩu nhỏ, vectơ hóa phân phối gaussian thu được vectơ đặc trưng biểu diễn cho vùng. Nối các vectơ của các vùng thu được vectơ đặc trưng của toàn ảnh. GOG dựa trên cấu tạo bề mặt của đối tượng (màu sắc, hoa văn,) cũng như bố cục, vị trí tương đối giữa các thành phần. III. CÁC ĐẶC TRƢNG HỌC SÂU Trong phần này, chúng tôi sẽ giới thiệu các đặc trưng học sâu được sử dụng trong thực nghiệm. Cụ thể, chúng tôi sử dụng mạng học sâu AlexNet và VGG16 để tiến hành rút trích đặc trưng. 3.1 AlexNet AlexNetlà kiến trúc mạng được đề xuất bởi Alex Krizhevsky và cộng sự[7]. AlexNet được học từng bộ dữ liệu ImageNet1đã tạo ra một bước chuyển lớn đánh dấu sự thành công của phương pháp học sâu. Kiến trúc của AlexNet gồm có 8 lớp với 5 lớp đầu tiên là lớp convolution (conv) và 3 lớp sau là fully connected layer (fc). Cụ thể, kiến trúc AlexNet được biểu diễn như trong hình 3, theo thứ tự từ trái sang: ảnh đầu vào, conv1, conv2, conv3, conv4, conv5, fc6, fc7, fc8. Để rút trích đặc trưng, ảnh đầu vào được đưa về kích thước 227x227. Đầu ra của lớp cuối cùng là một vector 1000 chiều tương ứng với 1000 khái niệm ngữ nghĩa cần cần được phân lớp. Chúng tôi sử dụng đầu ra của lớp fully connected là fc7 để làm đặc trưng của ảnh trong bài toán tái nhận dạng nhân vật. Hình 3. Kiến trúc mạng AlexNet[7] 3.2 VGG16 VGG16 là mạng học sâu được công bố Simonyan và Zisserman[8]. VGG16 có kiến trúc gồm 16 lớp với 3 lớp cuối là fully connected layer. VGG16 sử dụng lớp conv có kích thước nhỏ 3x3 (xem hình 4). Những lớp conv cuối cùng có công dụng như bộ lọc. Để rút trích đặc trưng, ảnh đầu vào được nén về kích thước 224x224. Tương tự như AlexNet, chúng tôi cũng sử dụng đặc trưng từ lớp fc7 để làm đặc trưng cho ảnh trong bài toán tái nhận dạng nhân vật. Hình 4. Kiến trúc mạng VGG16[8] 3.3 Đề xuất chỉnh sửa để phù hợp với bài toán tái nhận dạng nhân vật Như đã trình bày ở trên, ảnh đầu vào của các mạng AlexNet và VGG16 được nén về tỉ lệ 227x227 và 224x224. Tuy nhiên, trong bài toán tái nhận dạng nhân vật, ảnh đầu vào là người đi bộ với kích thước ảnh thường có chiều dài gần gấp đôi với chiều rộng. Do đó, việc áp dụng các mạng học sâu AlexNet và VGG16 trực tiếp vào dữ liệu của bài toán tái nhận dạng nhân vật sẽ ảnh hưởng lớn đến chất lượng ảnh và hiệu suất tái nhận dạng nhân vật. Do đó, trong bài 1www.image-net.org/ Võ Duy Nguyên, Huỳnh Nhật Lưu, Nguyễn Thị Bảo Ngọc, Nguyễn Tấn Trần Minh Khang 235 báo này, chúng tôi đề xuất chia ảnh làm hai phần theo chiều ngang và tiến hành rút trích đặc trưng trên từng phần. Vector đặc trưng biểu diễn ảnh được xác định bằng cách nối hai vector đặc trưng lại với nhau (xem Hình 5). Hình 5. Rút trích đặc trưng trên từng phần của ảnh. IV. THỰC NGHIỆM VÀ ĐÁNH GIÁ 4.1. Bộ dữ liệu Hình 6. Sự khác biệt giữa các ảnh cùng một người do sự khác biệt về ánh sáng, khung cảnh, tư thế và sự che khuất của các đối tượng trong bộ dữ liệu MSMT17 Trong bài báo này, chúng tôi tiến hành thực nghiệm trên một bộ dữ liệu mới được công bố gần đây là MSMT17[16]. MSMT17 (Multi-Scene Multi-Time person ReID dataset) là một trong những bộ dữ liệu lớn nhất hiện nay được công bố cho bài toán tái nhận dạng nhân vật. MSMT17 thu thập dữ liệu từ 15 camera khác nhau lắp đặt ở khuôn viên trường học. Trong số 15 camera đó, có 12 camera được đặt ở ngoài trời và 3 camera lắp đặt trong nhà. Dữ liệu được thu thập trong bốn ngày có điều kiện thời tiết khác nhau tại 12 khoản thời gian khác nhau trong ngày. Để phát hiện người, các tác giả sử dụng phương pháp Faster RCNN[17]. Tổng cộng có 126,441 ảnh người của 4,101 người được gán nhãn. Để tiến hành thực nghiệm, chúng tôi sử dụng cách phân chia bộ dữ liệu được cung cấp bởi tác giả của bộ dữ liệu MSMT17. Cụ thể, MSMT17 được chia làm hai tập huấn luyện và kiểm tra theo tỉ lệ 1:3. Để đánh giá các kết quả tái nhận dạng nhân vật, chúng tôi sử dụng tập kiểm tra (testing set) gồm 11,659 ảnh tìm kiếm (query image) và 82,161 ảnh gallery. 4.2. Phƣơng pháp đánh giá Cho ảnh của một nhân vật cần tái nhận dạng, hệ thống tái nhận dạng nhân vật thông thường sẽ trả về một danh sách xếp hạng các ảnh của các nhân vật đã xuất hiện trước đó tại các vị trí camera khác. Các ảnh này được xếp hạng 236 KHẢO SÁT THỰC NGHIỆM ĐẶC TRƯNG HỌC SÂU TRÊN BỘ DỮ LIỆU LỚN CHO BÀI TOÁN theo thứ tự giảm dần độ tương đồng với ảnh của nhân vật cần tái nhận dạng. Mục tiêu của tái nhận dạng nhân vật là làm sao vị trí đúng của nhân vật cần tìm (true rank) gần thấp càng tốt, nghĩa là người sử dụng có thể tìm thấy đối tượng theo dõi càng sớm càng tốt. Có nhiều phương pháp để đánh giá hiệu suất của một hệ thống tái nhận dạng nhân vật. Trong bài báo này, chúng tôi sử dụng các độ đo phổ biến được sử dụng trong nhiều công trình nghiên cứu khoa học trên thế giới bao gồm: Rank i, đường cong CMC (Cumulative Match Characteristic curves) và nAUC (normalized area under the CMC curve). Trong đó, rank i là tỉ lệ thứ hạng đúng (true rank) nằm trong i vị trí đầu tiên trong danh sách xếp hạng (ranked list) trên tổng số ảnh probe cần tái nhận dạng. Với độ đo rank i, i càng nhỏ, rank i càng cao càng tốt. Đường cong CMC biểu diễn thống kê tất cả các giá trị Rank i. nAUC là phần diện tích (đã được chuẩn hóa) nằm dưới đường cong CMC. Giữa hai phương pháp, phương pháp nào có giá trị của nAUC cao hơn thì được xem là tốt hơn. nAUC tốt nhất là 1 và tệ nhất là 0. 4.3. Phƣơng pháp thực nghiệm Trong bài báo này, để tiến hành đánh giá hiệu quả của các đặc trưng học sâu khác nhau, chúng tôi tiến hành rút trích đặc trưng học sâu AlexNet và VGG16 ở các lớp fc7. Ở mô hình đầu tiên, số chiều đặc trưng thu được là 4096 cho mỗi ảnh. Ở mô hình cải tiến, do mỗi ảnh được phân đôi trước khi lấy đặc trưng, do đó mỗi ảnh có 8194 chiều đặc trưng. Để tính độ tương đồng của hai ảnh, chúng tôi dựa vào khoảng cách Euclid ( ). 4.4. Kết quả thực nghiệm Trong phần này, chúng tôi tiến hành đánh giá các kết quả thí nghiệm trên bộ dữ liệu MSMT17. Kết quả tái nhận dạng nhân vật theo độ đo Rank i (với i = 1, 10, 50) được công bố trong bảng 1. Trong đó chúng tôi tiến hành so sánh kết quả của mạng AlexNet và VGG16 nguyên bản và mạng AlexNet và VGG16 đã được cắt ảnh làm hai phần (ký hiệu AlexNet_2 và VGG16_2). Dựa trên kết quả thực nghiệm cho thấy mạng AlexNet cho kết quả tốt hơn đặc trưng rút trích từ mạng VGG16 ở cả 3 độ đo rank 1, rank 10, rank 50. Cụ thể, AlexNet cho kết quả cao hơn mạng VGG16 lần lượt là 2.63%, 5.34% và 9.2% ở 3 độ đo rank 1, rank 10 và rank 50. So sánh giữa kết quả việc cắt và không cắt ảnh đầu vào làm hai trước khi rút trích đặc trưng cho thấy việc phân đôi ảnh cho kết quả tốt hơn giữ nguyên ảnh ban đầu. Các kết quả trên AlexNetv2 cao hơn kết quả sử dụng mạng AlexNet. Điều tương tự cũng xảy ra với kết quả trên mạng VGG16. Các kết quả trên độ đo CMC được biểu diễn trên Hình 7. Từ hình vẽ ta thấy kết quả từ AlexNetv2 cho kết quả cao vượt trội so với các phương pháp khác. Bảng 1. Kết quả thực nghiệm Phƣơng pháp R1 R10 R50 AlexNet 3.74 10.22 20.50 VGG16 1.11 4.88 11.30 AlexNetv2 4.6 11.80 21.58 VGG16v2 1.98 6.32 13.70 Hình 7. Kết quả đường cong CMC với 50 ảnh Võ Duy Nguyên, Huỳnh Nhật Lưu, Nguyễn Thị Bảo Ngọc, Nguyễn Tấn Trần Minh Khang 237 Trong các bài toán phân lớp, phát hiện đối tượng, mạng VGG16 luôn cho kết quả cao hơn AlexNet, tuy nhiên trong bài toán này, kết quả Alexnet lại tốt hơn. Điều đó cho thấy, khi sử dụng các đặc trưng từ các mô hình đã huấn luyện sẵn (pre-trained model) của bộ dữ liệu ImageNet2 áp dụng cho bài toán tái nhận dạng nhân vật có sự thay đổi. V. KẾT LUẬN Trong bài báo này, chúng tôi khảo sát đặc trưng học sâu từ các mạng học sâu huấn luyện trước bước rút trích đặc trưng của bài toán Tái nhận dạng nhân vật. Từ kết quả thực nghiệm, chúng tôi đưa ra kỹ thuật chia đôi để nâng cao kết quả cho bài toán dựa trên đặc tính của ảnh đầu có chiều cao xấp xỉ gấp đôi chiều rộng. Trong các nghiên cứu tiếp theo, chúng tôi sẽ áp dụng việc chia đôi ảnh để huấn luyện và đánh giá cho bài toán Tái nhận dạng nhân vật. VI. LỜI CÁM ƠN Nghiên cứu này được tài trợ bởi Trường Đại học Công nghệ Thông tin- ĐHQG-HCM trong khuôn khổ Đề tài mã số D2-2018-01. VII. TÀI LIỆU THAM KHẢO [1] E. Ahmed, M. Jones, and T. K. Marks. “An improved deep learning architecture for person re-identification”. 2015 IEEE Conf. Comput. Vis. Pattern Recognit., pp. 3908-3916, 2015. [2] W. Li, R. Zhao, T. Xiao, and X. Wang. “DeepReid: Deep Filter Pairing Neural Network for Person Re- identification”. Cvpr, pp. 1-8, 2014. [3] H. Shi et al.. “Embedding deep metric for person Re-identification: A study against large variations”. Lect. Notes Comput. Sci. (including Subser. Lect. Notes Artif. Intell. Lect. Notes Bioinformatics), vol. 9905 LNCS, pp. 732- 748, 2016. [4] T. Matsukawa and E. Suzuki. “Person re-identification using CNN features learned from combination of attributes”. Proc. - Int. Conf. Pattern Recognit., pp. 2428-2433, 2017. [5] D. Gray and H. Tao. “Viewpoint invariant pedestrian recognition with an ensemble of localized features” in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2008, vol. 5302 LNCS, no. PART 1, pp. 262-275. [6] C. C. Loy, C. Liu, and S. Gong. “Person re-identification by manifold ranking” in 2013 IEEE International Conference on Image Processing, ICIP 2013 - Proceedings, 2013, pp. 3567-3571. [7] A. KrizhKrizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. Advances In Neural Information Processing Systems, 1-9.evsky, I. Sutskever, and G. E. Hinton. “ImageNet Classification with Deep Convolutional Neural Networks”. Adv. Neural Inf. Process. Syst., pp. 1-9, 2012. [8] K. Simonyan and A. Zisserman. “Very Deep Convolutional Networks for Large-Scale Image Recognition”. ImageNet Chall., pp. 1-10, 2014. [9] B. Ma, Y. Su, and F. Jurie. “Local descriptors encoded by Fisher Vectors for person re-identification” in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2012, vol. 7583 LNCS, no. PART 1, pp. 413-422. [10] F. Xiong, M. Gou, O. Camps, and M. Sznaier. “Person re-identification using kernel-based metric learning methods” in Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), 2014, vol. 8695 LNCS, no. PART 7, pp. 1-16. [11] T. Ojala, M. Pietikäinen, and D. Harwood. “A comparative study of texture measures with classification based on featured distributions”. Pattern Recognit., vol. 29, no. 1, pp. 51-59, 1996. [12] B. Ma, Y. Su, B. Ma, and Y. Su. “Covariance Descriptor based on Bio-inspired Features for Person Re- identification and Face Verification To cite this version: Covariance Descriptor based on Bio-inspired Features for Person re-Identification and Face Verification”. 2014. [13] S. Liao, Y. Hu, X. Zhu, and S. Z. Li. “Person re-identification by Local Maximal Occurrence representation and metric learning” in Proceedings of the IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2015, vol. 07-12-June, pp. 2197-2206. [14] G. Lisanti, I. Masi, A. D. Bagdanov, and A. Del Bimbo. “Person re-identification by iterative re-weighted sparse ranking”. IEEE Trans. Pattern Anal. Mach. Intell., vol. 37, no. 8, pp. 1629-1642, 2015. [15] T. Matsukawa, T. Okabe, E. Suzuki, and Y. Sato. “Hierarchical Gaussian Descriptor for Person Re-identification” in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 1363-1372. 2 238 KHẢO SÁT THỰC NGHIỆM ĐẶC TRƯNG HỌC SÂU TRÊN BỘ DỮ LIỆU LỚN CHO BÀI TOÁN [16] Wei, L., Zhang, S., Gao, W., & Tian, Q. (2018). Person Transfer GAN to Bridge Domain Gap for Person Re- Identification. Computer Vision and Pattern Recognition, IEEE International Conference on, 2018. [17] S. Ren, K. He, R. Girshick, and J. Sun. “Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 39, no. 6, pp. 1137-1149, 2017. A SURVEY ON DEEP FEATURES FOR PERSON RE-IDENTIFICATION Nguyen D. Vo, Huynh Nhat Luu, Nguyen Thi Bao Ngoc, Khang Nguyen ABSTRACT: Given an image of a person observed in a camera, person re-identification is the task of recognizing and associating that person appearing in the other camera views. This task plays an important role in many applications, especially in the surveillance system. Many features extraction methods have been proposed in order to overcome challenges such as the variation of poses, background or illumination. Recently, deep featuresare proved to be superior in many computer vision problems. In this paper, we evaluate the performance of deep learning models in the MSMT17 datasetwhich is a newly published large-scale dataset, to have an overview of deep features and its applicability in person re-identification. Keywords: Person Re-Identification, Deep features, large-scale dataset.

Các file đính kèm theo tài liệu này:

khao_sat_thuc_nghiem_dac_trung_hoc_sau_tren_bo_du_lieu_lon_c.pdf