Nội dung
1.Giới thiệu tổng quan về thị giác máy và
các ứng dụng
2.Giới thiệu về bài toán phát hiện đối
tượng
3.Giới thiệu một số mạng đề xuất vùng RCNN, Fast R-CNN, Faster R-CNN
4.Giới thiệu một số mạng không đề xuất
vùng: SSD, Yolo
64 trang |
Chia sẻ: Thục Anh | Ngày: 12/05/2022 | Lượt xem: 429 | Lượt tải: 1
Bạn đang xem trước 20 trang nội dung tài liệu Bài giảng Học sâu và ứng dụng - Chương 6: Một số ứng dụng học sâu trong thị giác máy (Phần 1), để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Chương 6:
Một số ứng dụng học sâu
trong thị giác máy (Phần 1)
01/02/2021 2
Nội dung
1.Giới thiệu tổng quan về thị giác máy và
các ứng dụng
2.Giới thiệu về bài toán phát hiện đối
tượng
3.Giới thiệu một số mạng đề xuất vùng R-
CNN, Fast R-CNN, Faster R-CNN
4.Giới thiệu một số mạng không đề xuất
vùng: SSD, Yolo
01/02/2021 3
Giới thiệu tổng quan về thị
giác máy và các ứng dụng
01/02/2021 4
Mathematics
Computer
Science
Biology
Engineering
Physics
Psychology
Computer
Vision
Neuroscience
Machine
learning
Speech, NLP
Information
retrieval
Robotics
Cognitive
sciences
Algorithms,
theory,
Image
processing
Systems,
architecture,
optics
01/02/2021 5
Ảnh hoặc video Thiết bị cảm biến Thiết bị diễn giải Diễn giải
Vườn, mùa
xuân, cây cầu,
nước, cây cối,
hoa, màu
xanh
Thế nào là Thị giác máy tính?
01/02/2021 6
Potter, Biederman, etc. 1970s100 ms mỗi khung hình,Chưa hề nhìn thấy ảnh và không biết có người
trong đó
Nhưng có thể nhận ra dễ dàng
Mắt người rất nhạy
01/02/2021 7
Thị giác con người vẫn có nhiều yếu điểm
01/02/2021 8
01/02/2021 9
Mục tiêu của thị giác máy tính
• Cầu nối giữa các điểm ảnh biểu diễn bằng số với ngữ
nghĩa
01/02/2021 10
Cái chúng ta thấy Cái mà máy tính nhìn thấy
So
ur
ce
: S
. N
ar
as
im
ha
n
Tại sao nên học thị giác máy tính?
• Hữu ích: Ảnh và video khắp nơi!
01/02/2021 11
Personal photo albums
Giám sát và an ninh
Movies, news, sports
Ảnh y tế, viễn thám, thiên văn
Thị giác máy có thể dùng như thiết bị đo đạc
01/02/2021 12
Real-time stereo Structure from motion
NASA Mars Rover
Pollefeys et al.
Reconstruction from
Internet photo collections
Goesele et al.
Thị giác máy là nguồn thông tin ngữ nghĩa
sky
water
Ferris
wheel
amusement park
Cedar Point
12 E
tree
tree
tree
carouseldeck
people waiting in line
ride
ride
ride
umbrellas
pedestrians
maxair
bench
tree
Lake Erie
people sitting on ride
Objects
Activities
Scenes
Locations
Text / writing
Faces
Gestures
Motions
Emotions
The Wicked
Twister
Sl
id
e
cr
ed
it
:
Kr
is
te
n
G
ra
um
an
01/02/2021 13
Mô hình hóa 3D thành phố
01/02/2021 14
Bing maps, Google Streetview
Source: S. Seitz
Phát hiện mặt
• Nhiều camera kỹ thuật số có khả năng tự động phát
hiện khuôn mặt
• Canon, Sony, Fuji,
01/02/2021 15
Source: S. Seitz
Phát hiện nụ cười
01/02/2021 16
Sony Cyber-shot® T70 Digital Still Camera Source: S. Seitz
Nhận dạng mặt: Apple iPhoto
01/02/2021 17
Sinh trắc học
01/02/2021 18
How the Afghan Girl was Identified by Her Iris Patterns
Source: S. Seitz
Sinh trắc học
01/02/2021 SangDV 19
Nhận dạng vân tay (Fingerprint
scanners) trên nhiều laptop và
thiết bị
Hệ thống nhận dạng mặt xuất
hiện ngày càng nhiều
Ví dụ: iphone X vừa giới thiệu
faceID
Nhận dạng văn bản (OCR)
01/02/2021 SangDV 20
Nhận dạng chữ số viết tay, AT&T labs Đọc biển số xe
Source: S. Seitz
Tương tác người máy và games
01/02/2021 SangDV 21
Microsoft’s Kinect
Source: S. Seitz
Assistive technologies
Sony EyeToy
Thực tại tăng cường
01/02/2021 SangDV 22
Thực tại ảo
01/02/2021 23
Ứng dụng trong robotics và thám hiểm vũ trụ
01/02/2021 24
Thị giác sử dụng cho nhiều tác vụ khác nhau:
• Chụp Panorama
• Mô hình hóa 3D bề mặt sao hỏa
• Phát hiện vật cản, bám vết vị trí
• Chi tiết xem “Computer Vision on Mars” của Matthies et al.
NASA'S Mars Exploration Rover Spirit captured this westward view from atop
a low plateau where Spirit spent the closing months of 2007.
So
ur
ce
: S
. S
ei
tz
Giới thiệu về bài toán phát hiện
đối tượng
01/02/2021 SangDV 25
Các bài toán thị giác máy
01/02/2021 26
Một số ứng dụng bài toán phát hiện đối tượng
• Giao thông thông minh
01/02/2021 27
Một số ứng dụng bài toán phát hiện đối tượng
• Phát hiện người
01/02/2021 28
Một số ứng dụng bài toán phát hiện đối tượng
• Phát hiện khuôn mặt
01/02/2021 29
Một số ứng dụng bài toán phát hiện đối tượng
• Phát hiện văn bản
01/02/2021 30
Một số ứng dụng bài toán phát hiện đối tượng
• Robot tự động hái dâu
01/02/2021 31
Giới thiệu một số mạng đề xuất vùng
(two-stage object detectors)
01/02/2021 SangDV 32
Tiếp cận quét cửa sổ (sliding windows)
01/02/2021 SangDV 33
cat
deer
Tiếp cận quét cửa sổ (sliding windows)
• Quét cửa sổ từ trái sang phải, từ trên xuống dưới. Tại
mỗi vị trí thực hiện bài toán phân loại vùng cửa sổ hiện
tại thành nhiều lớp đối tượng cộng thêm lớp nền.
01/02/2021 SangDV 34
CNN
nai?
mèo?
nền?
Tiếp cận quét cửa sổ (sliding
windows)
• Quét cửa sổ từ trái sang phải, từ trên xuống dưới. Tại
mỗi vị trí thực hiện bài toán phân loại vùng cửa sổ hiện
tại thành nhiều lớp đối tượng cộng thêm lớp nền.
01/02/2021 SangDV 35
CNN
nai?
mèo?
nền?
Tiếp cận quét cửa sổ (sliding
windows)
• Quét cửa sổ từ trái sang phải, từ trên xuống dưới. Tại
mỗi vị trí thực hiện bài toán phân loại vùng cửa sổ hiện
tại thành nhiều lớp đối tượng cộng thêm lớp nền.
01/02/2021 SangDV 36
CNN
nai?
mèo?
nền?
Tiếp cận quét cửa sổ (sliding
windows)
• Quét cửa sổ từ trái sang phải, từ trên xuống dưới. Tại
mỗi vị trí thực hiện bài toán phân loại vùng cửa sổ hiện
tại thành nhiều lớp đối tượng cộng thêm lớp nền.
01/02/2021 SangDV 37
CNN
nai?
mèo?
nền?
Tiếp cận dựa trên đề xuất vùng
• Thay vì quét tất cả vị trí (số lượng rất lớn!), chỉ phân tích để đề
xuất ra một số vùng (box) có khả năng cao chứa đối tượng
• Các phương pháp này có hai giai đoạn (two-stage):
1) đề xuất vùng
2) xử lý từng vùng để phân loại và hiệu chỉnh tọa độ box
01/02/2021 SangDV 38
SS: Selective Search
• Segmentation As Selective Search for Object
Recognition. van de Sande et al. ICCV 2011
01/02/2021 39
R-CNN (Region-based ConvNet)
• Đề xuất một số vùng tiềm
năng bằng thuật toán thô
khác, chẳng hạn selective
search
• Dùng mạng CNN trích xuất
đặc trưng từng vùng rồi phân
loại bằng SVM
01/02/2021 SangDV 40
Fast-RCNN
• Đẩy tất cả các vùng (khoảng 2000) qua mạng trích
xuất CNN cùng một lúc
• Crop thông tin ở lớp đầu ra của CNN thay vì crop vùng
trên ảnh gốc như R-CNN
• Đẩy qua nhánh phân loại và nhánh hiệu chỉnh tọa độ
box
01/02/2021 SangDV 41
Faster-RCNN
• Dùng một mạng
riêng để đề xuất
vùng thay cho
selective search
• Còn gọi là phương
pháp phát hiện đối
tượng hai giai đoạn
(two-stage object
detector)
01/02/2021 SangDV 42
Giới thiệu một số mạng không đề xuất
vùng (one-stage object detectors)
01/02/2021 SangDV 43
Đặc điểm các mạng không đề xuất
vùng
• Còn gọi là mạng một giai đoạn (one-stage)
• Các mạng này thường đề xuất một lưới box
dày đặc trên ảnh ban đầu, thường có bước
nhảy đều (stride)
• Từng box này sẽ được phân loại và hiệu chỉnh
tọa độ (nếu box chứa đối tượng) bằng mạng
CNN
• Các mạng một giai đoạn thường nhanh hơn và
đơn giản hơn các mạng hai giai đoạn, nhưng
độ chính xác có thể không cao bằng.
01/02/2021 SangDV 44
YOLO- You Only Look Once
01/02/2021 SangDV 45
Redmon et al. CVPR 2016.
YOLO- You Only Look Once
01/02/2021 SangDV 46
YOLO- You Only Look Once
01/02/2021 SangDV 47
YOLO- You Only Look Once
01/02/2021 SangDV 48
YOLO- You Only Look Once
• Non-maximal suppression: gom các box lại để đưa ra
kết quả cuối cùng
01/02/2021 SangDV 49
YOLO v2
01/02/2021 SangDV 50
YOLO v2
• Mỗi ô có 5 anchor box. Với
mỗi anchor mạng sẽ đưa ra
các thông tin:
• offset của box: 4 số thực
trong khoảng [0, 1]
• Độ tin tưởng box đó có khả
năng chứa đối tượng
(objectness score).
• Phân bố xác suất của đối
tượng trong box đó ứng với
các lớp đối tượng khác nhau
(class scores).
• Tổng cộng mỗi ô có số đầu
ra là: 5 * (4 + 1 + 20) = 125
số thực
01/02/2021 SangDV 51
5 anchor box
YOLO v2
01/02/2021 SangDV 52
YOLO v1
Image
448 x 448 x 3 CNN
7 x 7 x 1024 4096
2 FC
Linear
reg
7 x 7 x 30
YOLO v2
Image
448 x 448 x 3 CNN
7 x 7 x 1024 7 x 7 x 1024
2 x Conv3,
1024
7 x 7 x 125
1 x Conv1,
125
YOLO v2
• Xác định kích thước mặc định của các anchor bằng
cách áp dụng k-means trên tập box các đối tượng đã
được đánh nhãn trong tập huấn luyện
01/02/2021 SangDV 53
YOLO v2
• Nhược điểm của YOLO v1 và v2:
01/02/2021 SangDV 54
Chỉ sử dụng feature map cuối cùng, khó
phát hiện đối tượng kích thước nhỏ
Input image Layer 1 Layer 2 Layer 3 Layer 4 Layer 5 Layer 6
C1 C2 C3 C4 C5 C6
UpsampleConv 1x1Conv 1x1
U6P5
P4
Upsample
+
T5
U4+
T4
C6
T5
T4
2 x (Conv 3x3,
1024)
1 x (Conv 1x1, 75)
3 anchor boxes mỗi scale
YOLO v3
01/02/2021 SangDV 55
SSD: Single Shot Detector
• Tương tự YOLO nhưng lưới box dày đặc hơn, có
nhiều lưới với các kích thước box khác nhau
• Kiến trúc mạng backbone khác với YOLO
• Data augmentation + Hard negative mining
01/02/2021 SangDV 56
SSD: Single Shot Detector
• Mạng backbone: VGG-16
• Thêm các lớp tích chập phụ phía sau các lớp của
mạng backbone
• Phát hiện đối tượng ở nhiều mức khác nhau trong
mạng (Multi-scale)
01/02/2021 SangDV 57
Liu et al. ECCV 2016.
SSD: Single Shot Detector
01/02/2021 SangDV 58
@5x5x256
Feature map
5x5x
21classes
5x5x
4 box offset
3x3
conv
3x3
conv
softmax
Dự đoán
𝑝(𝑐𝑙𝑎𝑠𝑠)
(𝑥, 𝑦,𝑤, ℎ)
Hàm mục tiêu
𝐿 𝑥, 𝑐, , 𝑙, 𝑔=1𝑁 (𝐿!"#$ 𝑥, 𝑐+𝛼𝐿%"!(𝑥, 𝑙, 𝑔))
Feature map
đầu vào 𝑝(𝑐𝑙𝑎𝑠𝑠!)𝑝(𝑐𝑙𝑎𝑠𝑠")
𝑝(𝑐𝑙𝑎𝑠𝑠#)
𝑥𝑦𝑤ℎ
01/02/2021 SangDV 59
one-stage object detector two-stage object detector
(proposal-driven mechanism)
R-CNN
Fast R-CNN
Faster R-
CNN
Feature Pyramid Network (FPN)
(dense sampling of object
locations, scales, and aspect ratios)
YOLO
SSD
MDCN
DSSD
YOLO-v2
SqueezeNet
Faster and
simpler
More
accurate
Mask R-
CNN
One-stage vs two-stage
01/02/2021 SangDV 60
YOLO-v3
CornetNet
RetinaNet
CenterNet
EfficientDet
RedefineDet
01/02/2021 SangDV 61
01/02/2021 SangDV 62
Thank you
for your
attentions!
Các file đính kèm theo tài liệu này:
- bai_giang_hoc_sau_va_ung_dung_chuong_6_mot_so_ung_dung_hoc_s.pdf