Tình hình an ninh, trật tự xã hội diễn biến phức tạp trong thời gian gần đây, không chỉ trong
nước m cả trên thế giới. Trong đó, các loại t&i phạm liên quan đến sử dụng, trao đổi, mua bán vũ khí
“nóng” có chiều hướng gia tăng. Bi báo đề xuất giải pháp sử dụng mô hình YOLO nhEm xây dựng
phần mềm HandGunDetector-C500 phát hin vũ khí “nóng”, cụ thF l sGng cầm tay thông qua h thHng
camera giám sát nhEm đF phát hin v cảnh báo sớm các vấn đề liên quan đến t&i phạm sử dụng sGng.
6 trang |
Chia sẻ: Thục Anh | Lượt xem: 439 | Lượt tải: 0
Nội dung tài liệu Ứng dụng mô hình YOLO trong phát hiện súng cầm tay, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC”
Ứng Dụng Mô Hình YOLO
Trong Phát Hiện S ng C m Tay
TS. Đo n Trung Sơn, Nguyễn Thị Khánh Trâm
Khoa An ninh thông tin
H c vi n An ninh nhân dân
son.doantrung@gmail.com
Tóm tắt. Tình hình an ninh, trật tự x h i diễn biến phức tạp trong thời gian gần đây, không chỉ trong
nước m cả trên thế giới. Trong đó, các loại t i phạm liên quan đến sử dụng, trao đổi, mua bán vũ khí
“nóng” có chiều hướng gia tăng. B i báo đề xuất giải pháp sử dụng mô hình YOLO nh m xây dựng
phần mềm HandGunDetector-C500 phát hi n vũ khí “nóng”, cụ th l s ng cầm tay thông qua h th ng
camera giám sát nh m đ phát hi n v cảnh báo sớm các vấn đề liên quan đến t i phạm sử dụng s ng .
T khóa: Vũ khí nóng, Nhận di n s ng cầm tay, Mô hình h c sâu CNN, Mô hình YOLO.
Abstract. The situation of security and social order has been complicated in recent times, not only in
our country but also in the world. In particular, crimes related to the use, exchange and trading of "hot"
weapons tend to increase. The paper proposes a solution to use the YOLO model to develop software
HandGunDetector-C500 recognizing "hot" weapons, more specific hand guns, through surveillance
cameras to early warn problems related to crimes owning hand guns.
Keywords: Hot Weapons, Hand Gun Recognition, Deep Learning Model, YOLO Model.
1 Đặt Vấn Đề
Camera an ninh đang trở nên phổ biến tại nhiều th nh ph trên khắp thế giới v cả trong nước [7], chính
vi c tăng nhanh về s lượng camera đặt yêu cầu nghiên cứu, quản lý, sử dụng m t cách có hi u quả hạ tầng
có sẵn v giải quyết những nhu cầu thực tiễn. Camera giám sát (Closed Circuit Television- CCTV) được
sử dụng l m công cụ giám sát t i phạm v các vấn đề x h i, ví dụ CCTV được lắp đặt trên đường ph đ
giám sát các hoạt đ ng x h i nh m tìm kiếm người mất tích, xác nhận h nh vi ch ng đ i x h i, thu thập
b ng chứng t i phạm.
Đ camera an ninh trở nên thông minh, trí tu nhân tạo được ứng dụng nh m tăng khả năng phân tích
các hoạt đ ng, h nh vi của con người v các sự ki n bất thường trong x h i trong phạm vi r ng m t cách
tự đ ng, định vị đ i tượng chuy n đ ng trong h th ng CCTV. Các ứng dụng trong phân tích video thông
minh không chỉ gi p phát hi n, cảnh báo sự c kịp thời m c n h trợ phân tích h nh vi khách h ng, gi p
giảm chi phí, tăng doanh thu kinh doanh. Trên thế giới đ có nhiều công trình nghiên cứu, giải pháp thương
mại về giám sát qua camera sử dụng trí tu nhân tạo như camera tích hợp h c sâu v tìm kiếm n i dung
video dựa trên ngôn ngữ tự nhiên của công ty IC Realtime (Hoa K ) [11], camera quan sát tích hợp trí tu
nhân tạo hoạt đ ng không cần kết n i Internet của công ty Boulder AI (Hoa K ) [12], camera v các thiết
bị tính toán thông minh đầu cu i v xu hướng giải pháp đưa trí tu nhân tạo lên đám mây của công ty
HikVision (Trung Qu c) [13]. Các giải pháp n y có th được ứng dụng trong th nh ph thông minh, giao
thông thông minh, an ninh c ng đ ng v nhiều b i toán an ninh của lực lượng Công an. M t s h th ng
camera thông minh đi n hình có th k tới như: h th ng giám sát camera của IBM [1] tự đ ng theo d i,
phát hi n đ i tượng chuy n đ ng trong m t khu vực giám sát, h th ng VSAM [2] phát hi n đ i tượng di
chuy n như phương ti n giao thông v người cũng như phát hi n tương tác giữa các đ i tượng, h th ng
KNIGHT [3] đặc bi t cho ph p theo vết đ i tượng t nhiều camera giám sát. Tuy nhiên, giá th nh của các
giải pháp n y khá cao hoặc chưa h trợ tri n khai nhiều b i toán đặc thù ở Vi t Nam như đổ tr m rác, đái
bậy Thực tế khảo sát cho thấy, ở Vi t Nam hi n nay, h th ng camera giám sát đ v đang được sử dụng
ở nhiều đơn vị, tổ chức nhưng chức năng thông minh v tự đ ng khai thác thông tin hình ảnh c n nhiều hạn
152
Đoàn Trung Sơn, Nguyễn Thị Khánh Trâm
chế. Đa s các h th ng camera giám sát đều chỉ phục vụ mục đích lưu trữ, quan sát trực tiếp, v xem lại
video khi cần. Theo m t nghiên cứu trên tạp chí Security Oz thì quan sát video sử dụng con người thường
bỏ qua tới 45% các hoạt đ ng đang diễn ra trên m n hình sau 12 ph t. Do đó, nhu cầu phát tri n h th ng
giám sát xử lý video m t cách tự đ ng đang l yêu cầu cấp thiết v đặt ra nhiều b i toán cần xử lý trong đó
có các vấn đề liên quan đến lực lượng an ninh.
Không th phủ nhận, tình hình an ninh trong những năm gần đây diễn biến hết sức phức tạp [8]. T i
phạm sử dụng vũ khí “nóng” đ thực hi n h nh vi phạm t i như đánh nhau, bạo loạn, khủng b , buôn bán
ma t y diễn ra theo chiều hướng gia tăng v gây nhiều bức x c trong x h i [9]. Theo [6] thì “Vũ khí là
thiết bị, phương tiện hoặc tổ hợp những phương tiện được chế tạo, sản xuất có khả năng gây sát thương,
nguy hại cho tính mạng, sức khỏe con người, phá hủy kết cấu vật chất bao gồm: Vũ khí quân dụng, súng
săn, vũ khí thô sơ, vũ khí thể thao và các vũ khí khác có tính năng, tác dụng tương tự”. Khái ni m vũ khí
nóng chỉ đến những loại vũ khí đặc bi t nguy hi m, có tính ứng dụng cao v phổ biến như s ng, dao, gậy
Trong đó, s ng cầm tay chính l vũ khí nguy hi m nhất thường được các loại t i phạm sử dụng thực hi n
h nh vi phạm t i như cướp của, giết người, hiếp dâm, buôn bán ma t y Chính vì lý do đó, nghiên cứu về
s ng cầm tay có ý ngh a đặc bi t cho lực lượng công an. Trong phần mềm, tác giả nhận di n s ng cầm tay
bao g m s ng ngắn v s ng d i: s ng ngắn (Shot-Gun), s ng cầm tay (Hand-Gun) v s ng d i g m s ng
trường (Rifle), s ng carb (Carbine), s ng máy (Sub-Machine-Gun), s ng trường hạng nặng (Assault-Rifle),
s ng trường hạng nh (Light-Machine-Gun), liên quan đến các vụ án v t i phạm, mô hình nhận di n thêm
dao (Knife) và đạn s ng (Bullet) h trợ trong các trường hợp khó nhận di n s ng cầm tay. S ng cầm tay
thường có nhiều m u sắc phổ biến như m u đen, v ng, bạc, Hình dạng của s ng cầm tay gần gi ng như
b a v được thay đổi ở nhiều góc đ dựa v o đ xoay theo chiều d c, ngang, ch o thì hình dạng cũng thay
đổi về tỷ l s ng do góc quay camera, góc nhìn, t đó gây ra đ l ch nhất định. Đặt vấn đề nhận di n súng
cầm tay qua camera giám sát nhận thấy, khả năng nhận di n phụ thu c nhiều yếu t trong đó có ánh sáng,
đ nhiễu, s lượng vật th trong khung hình. Trong phần lớn các tình hu ng, trước khi mang s ng cầm tay
ra sử dụng thì các đ i tượng thường đ s ng kín trong tay, t i quần hoặc bao da nên rất khó trong vi c phát
hi n sớm. Do đó, đ khai thác t i nguyên dữ li u hình ảnh t các camera giám sát nh m nhận di n súng
cầm tay m t cách tự đ ng l m t nhi m vụ đầy thử thách, đ i hỏi đ chính xác v đặc bi t yêu cầu k thuật
xử lý theo thời gian thực đ cảnh báo kịp thời chính xác cho các cơ quan, lực lượng chức năng sớm phát
hi n đ i tượng đang sử dụng vũ khí nóng, qua đó có các bi n pháp đấu tranh kịp thời, hi u quả cũng như
đáp ứng nhu cầu thông tin x h i m t cách hi u quả.
Thực tế, mô hình YOLO (You Only Look Once) l mô hình mạng nơron tích chập (Convolutional Neural
Network- CNN) được sử dụng phổ biến như l vi c ứng dụng trí tu nhân tạo trong nhận di n đ i tượng,
vật th có đ chính xác cao, t c đ nhanh theo thời gian thực. Vì lý do đó, tác giả bài báo đặt vấn đề ứng
dụng mô hình YOLO trong giải quyết nhiều b i toán của lực lượng Công an như nhận biết đám đông, phát
hi n tai nạn giao thông, cướp bóc, buôn bán ma t y Vi c nhận di n vũ khí nóng gi p cảnh báo sớm cho
lực lượng Công an các vụ vi c xảy ra. Ngoài ra, cũng cần k tới vi c ứng dụng mô hình YOLO trong giám
sát tự đ ng lưu lượng truy cập đ phát hi n tấn công mạng, th ng kê lưu lượng tham gia giao thông đ cảnh
báo tình trạng ùn tắc, phát hi n các vi phạm luật giao thông của các phương ti n, phát hi n đ i tượng xâm
nhập v o các khu vực tr ng yếu hay cảnh báo các h nh vi khả nghi liên quan đến khủng b , tr m cắp, hỏa
hoạn
2 Nội Dung
2.1 Mô hình CNN
Mô hình CNN được sử dụng nhiều trong các b i toán nhận dạng đ i tượng trong ảnh, nhận di n khuôn mặt,
phát tri n xe tự h nh, giao h ng tự đ ng Hạn chế của các h th ng cũng như trở ngại khi tri n khai h
th ng liên quan đến bảo mật, dữ li u đưởng truyền mạng v yêu cầu xử lý thời gian thực. M t xu thế công
ngh l tích hợp đám mây trong lưu trữ v xử lý dữ li u. Hi n tại, phần lớn các h th ng giám sát đều tiếp
cận khả năng n n dữ li u v gửi về máy chủ đi n toán đám mây đ giải quyết vấn đề đường truyền mạng.
Trong trường hợp n y, hạ tầng đ được đầu tư với các thiết bị nh ng cấu hình thấp, giá rẻ vẫn có th vận
h nh được. Vi c xử lý trên máy chủ đám mây các mô hình mạng nơron tích chập sẽ gi p hạn chế phải xử
lý dữ li u trên các camera giám sát, điều n y đ ng ngh a với vi c giảm được giá th nh đầu tư. Tuy nhiên,
153
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC”
khả năng mở r ng b i toán trong trường hợp tri n khai s lượng camera giám sát lớn, trong phạm vi r ng
gặp nhiều khó khăn. Hi n tại, các h th ng giám sát trong nước với khả năng công ngh chỉ tri n khai được
dưới 1000 camera hoặc giải pháp của nước ngo i thì giá thành cao. Ví dụ như h th ng camera giám sát tại
TP H Chí Minh dự kiến chi 1600 tỷ cho 10000 camera.
M t cách tiếp cận mới trong mô hình đi n toán đám mây phân tán được đề xuất, cung cấp tính linh hoạt
v có th mở r ng với s lượng camera giám sát ng y c ng tăng. Mô hình đi n toán đám mây phân tán h
trợ xử lý với s lượng camera lớn. Đ giải quyết vấn đề băng thông, thuật toán trí tu nhân tạo không chỉ
xử lý trên máy chủ m c n có th trên các máy cục b hoặc trên các thiết bị nh ng. Ví dụ như b i toán phát
hi n đám đông, thì không cần thiết đẩy dữ li u về máy chủ đám mây đ xử lý, thay v o đó, dữ li u có th
được xử lý ngay tại các thiết bị nh ng.
Mô hình đi n toán đám mây phân tán l m t xu hướng, tuy nhiên sẽ gặp nhiều thách thức vì hi n tại các
thuật toán trí tu nhân tạo liên quan đến nhận di n v phân tích h nh vi đ i hỏi kh i lượng tính toán lớn.
Vi c đưa các thuật toán n y xu ng các thiết bị nh ng giá rẻ sẽ mất nhiều thời gian v công sức t i ưu.
M t trong các vấn đề lớn trong bất cứ h th ng giám sát ứng dụng trí tu nhân tạo g m:
- Nghiên cứu phương pháp xử lý hình ảnh, thị giác máy tính, h c máy nh m phân tích hình ảnh, video
t cơ sở dữ li u lớn thu được.
- Phát tri n ứng dụng thông minh tự đ ng phân tích hoạt đ ng, h nh vi của đ i tượng v các sự ki n
bất thường nh m h trợ ra quyết định, cảnh báo kip thời đ i tượng, sự ki n, giải quyết các vấn đề x
h i.
Đ xử lý hình ảnh v video trong thời gian thực đ i hỏi có m t giải pháp t i ưu hóa cao chạy trên các
máy tính có cấu hình mạnh. Vì hầu hết các camera giám sát đều chứa 25 khung hình trên m i giây, thời
gian xử lý hình ảnh cần ít hơn 0,04s. Khi đó mô hình YOLO dựa trên mạng nơron tích chập đáp ứng được
đ chính xác, t c đ xử lý v nhận di n theo thời gian thực.
2.2 Ứng dụng mô hình YOLO nhận diện vũ khí nóng
Mô Hình YOLO. Bài toán phát hi n đ i tượng (Object Detection) có đầu v o l ảnh m u v đầu ra là các
đ i tượng cũng như vị trí của các đ i tượng trong ảnh. Phát hi n đ i tượng l b i toán quan tr ng trong l nh
vực thị giác máy tính (Computer Vision). Thuật toán phát hi n đ i tượng trong ảnh được chia th nh 2 nhóm
chính:
- Mô hình R-CNN (Region- Based Convolutional Neural Networks) đ giải quyết các b i toán về định
vị v nhận di n vật th .
- Mô hình YOLO dùng đ nhận di n đ i tượng theo thời gian thực.
Mô hình YOLO dù không phải l phương pháp chính xác nhất nhưng l phương pháp nhanh nhất đến
thời đi m hi n tại cho b i toán nhận di n đ i tượng [4]. Mô hình YOLO đ phát tri n được 4 phiên bản:
YOLO v1 sử dụng Framework Darket được huấn luy n trên tập dữ li u huấn luy n ImageNet-1000. Mô
hình n y hạn chế trong vi c nhận di n các đ i tượng có kích thước nhỏ v đặc bi t nếu ch ng xuất hi n
dưới dạng m t nhóm các đ i tượng ví dụ trong đám đông. Phiên bản n y gặp khó khăn trong vi c phát hi n
đ i tượng nếu hình ảnh có kích thước khác với hình ảnh được huấn luy n. YOLO v2 c n có tên khác là
YOLO9000, phiên bản cải tiến n y tăng t c đ thực hi n nh m đạt được t c đ xử lý của mô hình Fast R-
CNN, v giải quyết những hạn chế của phiên bản YOLO v1. Phiên bản YOLO v3 phát hi n v phân loại
m t cách chính xác hơn các đ i tượng trong ảnh và tăng cường khả năng xử lý theo thời gian thực. Phiên
bản cải tiến YOLO v4 đạt được kết quả vượt tr i so với các phiên bản cũ về cả hi u suất lẫn t c đ thực
hi n.
Phát hi n đ i tượng theo thời gian thực với đ chính xác cao l yêu cầu cho b i toán nhận di n vũ khí
nóng. Đặc bi t, YOLO v3 chạy 22ms ở đ chính xác trung bình (Mean Average Precision) 28.2 mAP. Đ
chính xác n y tương đương với vi c sử dụng mô hình SSD (Single Shot Detecter) sử dụng mạng VGG16
đ trích r t các đặc trưng. Mô hình YOLO v3 tăng t c đ nhanh gấp 3 lần so với YOLO v2 v gấp h ng
nghìn lần so với R-CNN, gấp h ng trăm lần so với Fast R-CNN. Vì những lý do nêu trên, tác giả lựa ch n
v ứng dụng mô hình YOLO v3 cho b i toán nhận di n s ng cầm tay.
Ứng Dụng Mô Hình YOLO Nhận Diện S ng C m Tay Và Kết Quả Thực Nghiệm. Mô hình YOLO
v3 được ứng dụng c i đặt cho b i toán nhận di n vũ khí nóng. Phần cứng cấu hình thiết bị chạy mô hình sử
154
Đoàn Trung Sơn, Nguyễn Thị Khánh Trâm
dụng con chíp Cpu i9-9900k, Cpu gtx 1080ti, bo mạch Z490 v b nhớ Ram 32GB DDR4-3200. Đ huấn
luy n dữ li u cho mô hình YOLO v3 cho b i toán nhận di n đ i tượng l các vũ khí nóng, các bước thực
hi n như sau:
Bước 1: Tải Source Code Darknet của YOLO v3 về v hi u chỉnh tham s . Sau đó tiến h nh biên dịch
ra t p thực thi.
Thực hi n l nh git clone https://github.com/pjreddie/darknet đ tải m của YOLO v3 về h th ng. Sau
đó biên dịch b ng vi c thực thi l nh Makefile. Lưu ý: thiết lập tham s GPU nhận giá trị 0 hoặc 1 tùy thu c
h th ng có GPU hay không. Tham s OPENCV phụ thu c v o vi c có sử dụng thư vi n Opencv hay không.
Bước 2: Chuẩn bị dữ li u huấn luy n v gán nh n.
Dữ li u huấn luy n được thu thập t ngu n công khai trên Internet tại địa chỉ
fdb.org/wiki/Main_Page. Đây l dữ li u các video liên quan s ng cầm tay được cung cấp miễn phí (Internet
Movie Firearms Database) được thu thập t các camera giám sát với s lượng lớn bao g m hơn 100.000
bức ảnh về s ng cầm tay (bao g m các loại s ng đ nêu trên). Ngo i ra, tác giả thu thập trên Internet hơn
1000 ảnh chứa đạn s ng (Bullet). Sử dụng headless requess đ crawl data của wiki sau đó lấy được ảnh v
tên nhãn. Tất cả các dữ li u ảnh đ được gán nhãn. Bước kế tiếp, công cụ VOTT (Visual Object Tagging
Tool), được tải tại địa chỉ Web https://vott.z22.web.core.windows.net/ được sử dụng đ khoanh vùng vũ khí
nóng xuất hi n trong ảnh. Vì Vott đ tự đ ng đếm s lượng class nên không cần có thay đổi các tham s
trong quá trình train.
Bước 3: Chuẩn bị các t p cần thiết phục vụ quá trình huấn luy n.
Hi n tại, chúng ta có 6 t p: YOLO.data; YOLO.names; train.txt; val.txt; YOLOv3.cfg; darknet53.conv.74.
Tự các t p ứng với các loại s ng cầm tay l s ng ngắn, s ng trường, s ng carb, s ng máy, s ng trường hạng
nặng, s ng trường hạng nh , dao v đạn được lưu trong t p trong thư mục /darknet/. Sửa t p YOLO.names
b ng cách li t kê những dữ li u cần huấn luy n. Bước tiếp theo, tạo ra 2 t p train.txt và val.txt. Trong đó,
t p train.txt chứa danh sách các t p dùng đề huấn luy n v t p val.txt chứa danh sách các t p dùng đ ki m
tra mô hình. Hai t p cùng được lưu vào thư mục /darknet/. Cấu hình quá trình huấn luy n trong t p
YOLO.data bao g m: tham s classses = 8 (s lượng lớp); train = train.txt (trỏ đến t p chứa các tên t p
dùng đ huấn luy n); valid = val.txt (trỏ đến t p chứa các tên t p dùng đ ki m tra); names = YOLO.names;
backup = backup (đường dẫn lưu các tr ng s t p phục vụ quá trình huấn luy n).
Bước 4: Tiến h nh huấn luy n
V o thư mục darknet, dùng l nh chmod +x darknet đ biến file darknet thành file executable, tiếp tục
mở file cfg/yolov3.cfg và sửa max_bathches=900000 đ h th ng chạy. Cu i cùng, chạy l nh ./darknet
detector train yolo.data cfg/yolov3.cfg darknet53.conv.74 đ train.
Bước 5: Ki m thử
Ki m thử b ng cách phát hi n ảnh chứa đ i tượng sử dụng s ng cầm tay. Trong quá trình huấn luy n,
nếu đ l i của v ng lặp hi n tại loss và độ lỗi loss trung bình của mô hình avg loss biến đổi ít thì d ng quá
trình huấn luy n. Thử nghi m được thực hi n trên m t s ảnh chứa các đ i tượng sử dụng s ng cầm tay v
kết quả các đ i tượng được phát hi n trong các ảnh l phần hình chữ nhật có biên m u đỏ trong các hình
kết quả sau:
Hình. a. Hình. b.
155
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC”
Hình. c. Hình. d.
Hình. 1. Các kết quả nhận di n s ng cầm tay của phần mềm HandGunDetector-C500
Kết quả thu được cho đ chính xác t t trên tất cả các b dữ li u thử nghi m với t c đ trung bình thực
hi n là 40ms ứng với đ chính xác trung bình trong khoảng t 63.4 đến 77.8 trong trường hợp video có 25
khung hình trên giây. Phần mềm nhận di n t t loại s ng ngắn Shot-Gun (Hình a) mảnh v d i hơn so với
Hand-Gun (Hình d). Tác giả cũng detect với video t Internet thì phần mềm vẫn có kết quả t t (Hình c).
So với mô hình nhận di n vũ khí nóng được thiết lập trong [13] thì tác giả đ xây dựng mô hình trên
YOLO v3 với đầy đủ hơn về s lượng lớp với hơn 100.000 ảnh đầu v o các loại s ng. Thực tế, trong [13]
Yolo v3 chỉ sử dụng 5000-6000 dữ li u huấn luy n chỉ với s ng ngắn. Trong b i báo, tác giả sử dụng cách
gán nh n dữ li u, cách huấn luy n mô hình với các bước thực thi đơn giản v dễ thao tác, dễ chính xác hơn
so với b i viết ở [13] đ trình b y.
Kết quả thực nghi m t t phản ánh thời gian xử lý v đ chính xác YOLO v3 cho b i toán phát hi n vũ
khí nóng l các loại s ng cầm tay. Kết quả mô hình dự kiến tri n khai sử dụng trong lực lượng công an
nh m cảnh báo sớm trong các vấn đề liên quan đến t i phạm sử dụng s ng cầm tay.
Hạn chế của phần mềm HandGunDetector-C500 hi n tại vẫn chưa th nhận di n được trường hợp đặc
bi t của vị trí của s ng g i l Gun-Point như trong Hình 2. Khi đó hình dạng cơ bản của s ng không được
th hi n đ có th nhận di n qua mô hình.
a. S ng ngắn bị nhiễu b. S ng ngắn v n t
Hình. 2. Trường hợp ảnh chứa s ng trong trạng thái Gun-Point
Do dữ li u chứa s ng cầm tay được quan sát dưới góc nghiêng v t xa nên tập dữ li u huấn luy n không
đủ đ nhận di n được đ i tượng s ng trong trường hợp n y. Cũng có m t s trường hợp, s ng cầm tay bị
che gần như to n b hoặc m t phần bởi tay của người sử dụng như Hình 3 hoặc bị che v l m nhiễu bởi b i
cảnh xung quang thì đ chính xác của quá trình nhận dạng bị ảnh hưởng tùy mức đ v có th không nhận
di n được đ i tượng s ng. Đ giải quyết vấn đề trên, D.M. Sheen đ đề xuất CWD cho sân bay v vị trí an
to n dựa trên ba chiều kỹ thuật hình ảnh sóng milimet (mm). Ở [5] đề xuất phương pháp phát hi n s ng
b ng cách sử dụng phân đoạn dựa trên phân đoạn m u sắc v phát hi n đi m qua tâm.
156
Đoàn Trung Sơn, Nguyễn Thị Khánh Trâm
Hình. 3. Trường hợp s ng cầm tay bị che gần to n b hoặc m t phần
Trong m t s trường hợp, kết quả nghiên cứu của Lucas-Kanade Optical Flow trong [10] được áp dụng
đ nhận biết được hướng di chuy n của vũ khí v t đó ước lượng được vị trí của ch ng mặc dù không có
khả năng nhận di n.
Kết Luận
Bài báo mô tả kết quả ứng dụng mô hình YOLO v3 cho b i toán nhận di n s ng cầm tay với hơn 100.000
dữ li u huấn luy n. Phần mềm HandGunDetector-C500 cho kết quả thực nghi m phản ánh sự hi u quả,
chính xác v t c đ thực hi n đáp ứng được yêu cầu trong các trường hợp dữ li u ảnh về s ng cầm tay
thông thường. Mở r ng mô hình phát hi n s ng cầm tay trong những trường hợp đặc bi t như s ng bị nhiễu,
bị che m t phần hoặc trong trạng thái Gun-Point cũng như tiếp cận phát hi n các loại vũ khí nóng khác:
gậy, m tấu, các loại dao, kiếm sẽ được xem x t thực hi n trong thời gian tới. Về phương di n lý thuyết đ
cải tiến mô hình, tác giả dự định phát tri n mô hình h c tăng cường hoặc sử dụng kết hợp YOLO và Mask
R-CNN nh m đạt được t c đ thực hi n cũng như đ chính xác của quá trình nhận di n mong mu n.
Tài Liệu Tham Khảo
1. Tian Y. and al e. (2008), IBM smart surveillance system (s3): Event based video surveillance system with an
open and extensible framework, Machine Vision and Application, 19 (5-6), pp: 315-327.
2. Collins R.T. and al e. (2000), A system for visual surveillance and monitoring, Carnegie Mellon University.
3. Shah M., Javed O., and Shafique K. (2007), Automated visual surveillance in realistic sceanarios, IEEE Trans-
actions on Multimedia, 14(1), pp:30-39.
4. Tony Wang, Recognizing Firearms from Images and Videos in Real-Time with Deep Learning and Computer
Vision
5. Rohit Kumar Tiwari and Gyanendra K. Verma, A Computer Vision based Framework for Visual Gun Detection
using Harris Interest Point Detector, IMCIP-2015
6. Điều 3 Luật quản lý, sử dụng vũ khí, vật li u nổ v công cụ h trợ năm 2017 (có hi u lực t ng y 01/7/2018)
7.
8.
tap-dac-biet-la-toi-pham-co-to-chuc_24135.html
9.
10.
11.
12.
13. https://www.miai.vn/2019/08/09/yolo-series-2-cach-train-yolo-de-detect-cac-object-dac-thu/
157
Các file đính kèm theo tài liệu này:
- ung_dung_mo_hinh_yolo_trong_phat_hien_sung_cam_tay.pdf