Bài giảng Học sâu và ứng dụng - Chương 6: Một số ứng dụng học sâu trong thị giác máy (Phần 1)

Nội dung

1.Giới thiệu tổng quan về thị giác máy và

các ứng dụng

2.Giới thiệu về bài toán phát hiện đối

tượng

3.Giới thiệu một số mạng đề xuất vùng RCNN, Fast R-CNN, Faster R-CNN

4.Giới thiệu một số mạng không đề xuất

vùng: SSD, Yolo

64 trang | Chia sẻ: Thục Anh | Lượt xem: 494 | Lượt tải: 1

Bạn đang xem trước 20 trang nội dung tài liệu Bài giảng Học sâu và ứng dụng - Chương 6: Một số ứng dụng học sâu trong thị giác máy (Phần 1), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên

Chương 6: Một số ứng dụng học sâu trong thị giác máy (Phần 1) 01/02/2021 2 Nội dung 1.Giới thiệu tổng quan về thị giác máy và các ứng dụng 2.Giới thiệu về bài toán phát hiện đối tượng 3.Giới thiệu một số mạng đề xuất vùng R- CNN, Fast R-CNN, Faster R-CNN 4.Giới thiệu một số mạng không đề xuất vùng: SSD, Yolo 01/02/2021 3 Giới thiệu tổng quan về thị giác máy và các ứng dụng 01/02/2021 4 Mathematics Computer Science Biology Engineering Physics Psychology Computer Vision Neuroscience Machine learning Speech, NLP Information retrieval Robotics Cognitive sciences Algorithms, theory, Image processing Systems, architecture, optics 01/02/2021 5 Ảnh hoặc video Thiết bị cảm biến Thiết bị diễn giải Diễn giải Vườn, mùa xuân, cây cầu, nước, cây cối, hoa, màu xanh Thế nào là Thị giác máy tính? 01/02/2021 6 Potter, Biederman, etc. 1970s100 ms mỗi khung hình,Chưa hề nhìn thấy ảnh và không biết có người trong đó Nhưng có thể nhận ra dễ dàng Mắt người rất nhạy 01/02/2021 7 Thị giác con người vẫn có nhiều yếu điểm 01/02/2021 8 01/02/2021 9 Mục tiêu của thị giác máy tính • Cầu nối giữa các điểm ảnh biểu diễn bằng số với ngữ nghĩa 01/02/2021 10 Cái chúng ta thấy Cái mà máy tính nhìn thấy So ur ce : S . N ar as im ha n Tại sao nên học thị giác máy tính? • Hữu ích: Ảnh và video khắp nơi! 01/02/2021 11 Personal photo albums Giám sát và an ninh Movies, news, sports Ảnh y tế, viễn thám, thiên văn Thị giác máy có thể dùng như thiết bị đo đạc 01/02/2021 12 Real-time stereo Structure from motion NASA Mars Rover Pollefeys et al. Reconstruction from Internet photo collections Goesele et al. Thị giác máy là nguồn thông tin ngữ nghĩa sky water Ferris wheel amusement park Cedar Point 12 E tree tree tree carouseldeck people waiting in line ride ride ride umbrellas pedestrians maxair bench tree Lake Erie people sitting on ride Objects Activities Scenes Locations Text / writing Faces Gestures Motions Emotions The Wicked Twister Sl id e cr ed it : Kr is te n G ra um an 01/02/2021 13 Mô hình hóa 3D thành phố 01/02/2021 14 Bing maps, Google Streetview Source: S. Seitz Phát hiện mặt • Nhiều camera kỹ thuật số có khả năng tự động phát hiện khuôn mặt • Canon, Sony, Fuji, 01/02/2021 15 Source: S. Seitz Phát hiện nụ cười 01/02/2021 16 Sony Cyber-shot® T70 Digital Still Camera Source: S. Seitz Nhận dạng mặt: Apple iPhoto 01/02/2021 17 Sinh trắc học 01/02/2021 18 How the Afghan Girl was Identified by Her Iris Patterns Source: S. Seitz Sinh trắc học 01/02/2021 SangDV 19 Nhận dạng vân tay (Fingerprint scanners) trên nhiều laptop và thiết bị Hệ thống nhận dạng mặt xuất hiện ngày càng nhiều Ví dụ: iphone X vừa giới thiệu faceID Nhận dạng văn bản (OCR) 01/02/2021 SangDV 20 Nhận dạng chữ số viết tay, AT&T labs Đọc biển số xe Source: S. Seitz Tương tác người máy và games 01/02/2021 SangDV 21 Microsoft’s Kinect Source: S. Seitz Assistive technologies Sony EyeToy Thực tại tăng cường 01/02/2021 SangDV 22 Thực tại ảo 01/02/2021 23 Ứng dụng trong robotics và thám hiểm vũ trụ 01/02/2021 24 Thị giác sử dụng cho nhiều tác vụ khác nhau: • Chụp Panorama • Mô hình hóa 3D bề mặt sao hỏa • Phát hiện vật cản, bám vết vị trí • Chi tiết xem “Computer Vision on Mars” của Matthies et al. NASA'S Mars Exploration Rover Spirit captured this westward view from atop a low plateau where Spirit spent the closing months of 2007. So ur ce : S . S ei tz Giới thiệu về bài toán phát hiện đối tượng 01/02/2021 SangDV 25 Các bài toán thị giác máy 01/02/2021 26 Một số ứng dụng bài toán phát hiện đối tượng • Giao thông thông minh 01/02/2021 27 Một số ứng dụng bài toán phát hiện đối tượng • Phát hiện người 01/02/2021 28 Một số ứng dụng bài toán phát hiện đối tượng • Phát hiện khuôn mặt 01/02/2021 29 Một số ứng dụng bài toán phát hiện đối tượng • Phát hiện văn bản 01/02/2021 30 Một số ứng dụng bài toán phát hiện đối tượng • Robot tự động hái dâu 01/02/2021 31 Giới thiệu một số mạng đề xuất vùng (two-stage object detectors) 01/02/2021 SangDV 32 Tiếp cận quét cửa sổ (sliding windows) 01/02/2021 SangDV 33 cat deer Tiếp cận quét cửa sổ (sliding windows) • Quét cửa sổ từ trái sang phải, từ trên xuống dưới. Tại mỗi vị trí thực hiện bài toán phân loại vùng cửa sổ hiện tại thành nhiều lớp đối tượng cộng thêm lớp nền. 01/02/2021 SangDV 34 CNN nai? mèo? nền? Tiếp cận quét cửa sổ (sliding windows) • Quét cửa sổ từ trái sang phải, từ trên xuống dưới. Tại mỗi vị trí thực hiện bài toán phân loại vùng cửa sổ hiện tại thành nhiều lớp đối tượng cộng thêm lớp nền. 01/02/2021 SangDV 35 CNN nai? mèo? nền? Tiếp cận quét cửa sổ (sliding windows) • Quét cửa sổ từ trái sang phải, từ trên xuống dưới. Tại mỗi vị trí thực hiện bài toán phân loại vùng cửa sổ hiện tại thành nhiều lớp đối tượng cộng thêm lớp nền. 01/02/2021 SangDV 36 CNN nai? mèo? nền? Tiếp cận quét cửa sổ (sliding windows) • Quét cửa sổ từ trái sang phải, từ trên xuống dưới. Tại mỗi vị trí thực hiện bài toán phân loại vùng cửa sổ hiện tại thành nhiều lớp đối tượng cộng thêm lớp nền. 01/02/2021 SangDV 37 CNN nai? mèo? nền? Tiếp cận dựa trên đề xuất vùng • Thay vì quét tất cả vị trí (số lượng rất lớn!), chỉ phân tích để đề xuất ra một số vùng (box) có khả năng cao chứa đối tượng • Các phương pháp này có hai giai đoạn (two-stage): 1) đề xuất vùng 2) xử lý từng vùng để phân loại và hiệu chỉnh tọa độ box 01/02/2021 SangDV 38 SS: Selective Search • Segmentation As Selective Search for Object Recognition. van de Sande et al. ICCV 2011 01/02/2021 39 R-CNN (Region-based ConvNet) • Đề xuất một số vùng tiềm năng bằng thuật toán thô khác, chẳng hạn selective search • Dùng mạng CNN trích xuất đặc trưng từng vùng rồi phân loại bằng SVM 01/02/2021 SangDV 40 Fast-RCNN • Đẩy tất cả các vùng (khoảng 2000) qua mạng trích xuất CNN cùng một lúc • Crop thông tin ở lớp đầu ra của CNN thay vì crop vùng trên ảnh gốc như R-CNN • Đẩy qua nhánh phân loại và nhánh hiệu chỉnh tọa độ box 01/02/2021 SangDV 41 Faster-RCNN • Dùng một mạng riêng để đề xuất vùng thay cho selective search • Còn gọi là phương pháp phát hiện đối tượng hai giai đoạn (two-stage object detector) 01/02/2021 SangDV 42 Giới thiệu một số mạng không đề xuất vùng (one-stage object detectors) 01/02/2021 SangDV 43 Đặc điểm các mạng không đề xuất vùng • Còn gọi là mạng một giai đoạn (one-stage) • Các mạng này thường đề xuất một lưới box dày đặc trên ảnh ban đầu, thường có bước nhảy đều (stride) • Từng box này sẽ được phân loại và hiệu chỉnh tọa độ (nếu box chứa đối tượng) bằng mạng CNN • Các mạng một giai đoạn thường nhanh hơn và đơn giản hơn các mạng hai giai đoạn, nhưng độ chính xác có thể không cao bằng. 01/02/2021 SangDV 44 YOLO- You Only Look Once 01/02/2021 SangDV 45 Redmon et al. CVPR 2016. YOLO- You Only Look Once 01/02/2021 SangDV 46 YOLO- You Only Look Once 01/02/2021 SangDV 47 YOLO- You Only Look Once 01/02/2021 SangDV 48 YOLO- You Only Look Once • Non-maximal suppression: gom các box lại để đưa ra kết quả cuối cùng 01/02/2021 SangDV 49 YOLO v2 01/02/2021 SangDV 50 YOLO v2 • Mỗi ô có 5 anchor box. Với mỗi anchor mạng sẽ đưa ra các thông tin: • offset của box: 4 số thực trong khoảng [0, 1] • Độ tin tưởng box đó có khả năng chứa đối tượng (objectness score). • Phân bố xác suất của đối tượng trong box đó ứng với các lớp đối tượng khác nhau (class scores). • Tổng cộng mỗi ô có số đầu ra là: 5 * (4 + 1 + 20) = 125 số thực 01/02/2021 SangDV 51 5 anchor box YOLO v2 01/02/2021 SangDV 52 YOLO v1 Image 448 x 448 x 3 CNN 7 x 7 x 1024 4096 2 FC Linear reg 7 x 7 x 30 YOLO v2 Image 448 x 448 x 3 CNN 7 x 7 x 1024 7 x 7 x 1024 2 x Conv3, 1024 7 x 7 x 125 1 x Conv1, 125 YOLO v2 • Xác định kích thước mặc định của các anchor bằng cách áp dụng k-means trên tập box các đối tượng đã được đánh nhãn trong tập huấn luyện 01/02/2021 SangDV 53 YOLO v2 • Nhược điểm của YOLO v1 và v2: 01/02/2021 SangDV 54 Chỉ sử dụng feature map cuối cùng, khó phát hiện đối tượng kích thước nhỏ Input image Layer 1 Layer 2 Layer 3 Layer 4 Layer 5 Layer 6 C1 C2 C3 C4 C5 C6 UpsampleConv 1x1Conv 1x1 U6P5 P4 Upsample + T5 U4+ T4 C6 T5 T4 2 x (Conv 3x3, 1024) 1 x (Conv 1x1, 75) 3 anchor boxes mỗi scale YOLO v3 01/02/2021 SangDV 55 SSD: Single Shot Detector • Tương tự YOLO nhưng lưới box dày đặc hơn, có nhiều lưới với các kích thước box khác nhau • Kiến trúc mạng backbone khác với YOLO • Data augmentation + Hard negative mining 01/02/2021 SangDV 56 SSD: Single Shot Detector • Mạng backbone: VGG-16 • Thêm các lớp tích chập phụ phía sau các lớp của mạng backbone • Phát hiện đối tượng ở nhiều mức khác nhau trong mạng (Multi-scale) 01/02/2021 SangDV 57 Liu et al. ECCV 2016. SSD: Single Shot Detector 01/02/2021 SangDV 58 @5x5x256 Feature map 5x5x 21classes 5x5x 4 box offset 3x3 conv 3x3 conv softmax Dự đoán 𝑝(𝑐𝑙𝑎𝑠𝑠) (𝑥, 𝑦,𝑤, ℎ) Hàm mục tiêu 𝐿 𝑥, 𝑐, , 𝑙, 𝑔=1𝑁 (𝐿!"#$ 𝑥, 𝑐+𝛼𝐿%"!(𝑥, 𝑙, 𝑔)) Feature map đầu vào 𝑝(𝑐𝑙𝑎𝑠𝑠!)𝑝(𝑐𝑙𝑎𝑠𝑠") 𝑝(𝑐𝑙𝑎𝑠𝑠#) 𝑥𝑦𝑤ℎ 01/02/2021 SangDV 59 one-stage object detector two-stage object detector (proposal-driven mechanism) R-CNN Fast R-CNN Faster R- CNN Feature Pyramid Network (FPN) (dense sampling of object locations, scales, and aspect ratios) YOLO SSD MDCN DSSD YOLO-v2 SqueezeNet Faster and simpler More accurate Mask R- CNN One-stage vs two-stage 01/02/2021 SangDV 60 YOLO-v3 CornetNet RetinaNet CenterNet EfficientDet RedefineDet 01/02/2021 SangDV 61 01/02/2021 SangDV 62 Thank you for your attentions!

Các file đính kèm theo tài liệu này:

bai_giang_hoc_sau_va_ung_dung_chuong_6_mot_so_ung_dung_hoc_s.pdf