Vấn đề theo vết đối tượng trong video đã và đang thu hút được nhiều sự
quan tâm của cộng đồng nghiên cứu bởi nó có nhiều ứng dụng hữu ích trong
lĩnh vực giải trí , truyền thông , thịgiác máy tính và đa phương tiện , chẳng
hạn như ứng dụng trong xửlý và biên tập video số, trong nén video , trong
các thưviện số, trong các hệthống giám sát giao thông .v.v Đối tượng
trong video , hay ngắn gọn là đối tượng video , là những thành phần có ý
nghĩa đầy đủcủa một khung cảnh . Theo vết đối tượng bao gồm việc theo
vết đường biên , theo vết những chuyển động cục bộvà những biến đổi về
cường độ(độsáng tối , độtương phản) của đối tượng đó .
Nội dung chính của luận văn này là nghiên cứu và thực hiện việc theo vết
đối tượng theo hướng tiếp cận mới : sửdụng lưới hai chiều . Theo đó , vấn
đềtheo vết đường biên , theo vết những chuyển động cục bộvà những biến
đổi vềcường độsẽ được hợp nhất lại thành vấn đềtheo vết lưới 2 chiều .
Lưới ở đây được thiết kếdựa theo nội dung của đối tượng giúp cho việc theo
vết đối tượng được chính xác hơn . Quá trình ước lượng chuyển động tại các
node của lưới được ràng buộc chặt chẽ đểbảo toàn kết cấu của lưới
76 trang |
Chia sẻ: luyenbuizn | Lượt xem: 1123 | Lượt tải: 1
Bạn đang xem trước 20 trang nội dung tài liệu Đồ án Sử dụng lưới hai chiều để theo vết đối tượng trong video, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
TRƯỜNG ĐH KHOA HỌC TỰ NHIÊN TP.HCM
KHOA CÔNG NGHỆ THÔNG TIN
oOo
Luận văn tốt nghiệp
Đề tài :
Sử Dụng Lưới Hai Chiều Để
Theo Vết Đối Tượng Trong Video
Giáo viên hướng dẫn : Th.S Phạm Phạm Tuyết Trinh
Sinh viên thực hiện : Lê Thành Trung (9912087)
TP. Hồ Chí Minh, 7/2003
Lời cảm ơn
Sau hơn bốn tháng nghiên cứu và thực hiện , luận văn đã được hoàn tất
và đã đạt được những kết quả nhất định . Nhìn lại quãng đường đã qua , tôi
cảm thấy vô cùng biết ơn các thầy cô , xin cảm ơn các thầy các cô đã trang
bị cho chúng tôi một nền tảng tri thức vững vàng , giúp chúng tôi có thể tự
mình thực hiện việc nghiên cứu khoa học .
Xin cảm ơn cô Phạm Phạm Tuyết Trinh , người đã hướng dẫn tôi trong
suốt quá trình thực hiện luận văn . Cô đã chỉ ra cho tôi những định hướng
hết sức quan trọng .
Xin cảm ơn bạn bè trong nhóm , cảm ơn các bạn Trương Thiên Đỉnh ,
Nguyễn Thanh Sơn , Trần Hồng Thái đã giúp đỡ tôi rất nhiều trong quá trình
thực hiện luận văn cũng như trong suốt bốn năm học .
Và cuối cùng , con xin cảm ơn ông , cảm ơn mẹ và chị , những người
thân yêu đã luôn là chỗ dựa cho tôi trong những năm tháng qua .
Tổng Quan
Vấn đề theo vết đối tượng trong video đã và đang thu hút được nhiều sự
quan tâm của cộng đồng nghiên cứu bởi nó có nhiều ứng dụng hữu ích trong
lĩnh vực giải trí , truyền thông , thị giác máy tính và đa phương tiện , chẳng
hạn như ứng dụng trong xử lý và biên tập video số , trong nén video , trong
các thư viện số , trong các hệ thống giám sát giao thông .v.v… Đối tượng
trong video , hay ngắn gọn là đối tượng video , là những thành phần có ý
nghĩa đầy đủ của một khung cảnh . Theo vết đối tượng bao gồm việc theo
vết đường biên , theo vết những chuyển động cục bộ và những biến đổi về
cường độ (độ sáng tối , độ tương phản) của đối tượng đó .
Nội dung chính của luận văn này là nghiên cứu và thực hiện việc theo vết
đối tượng theo hướng tiếp cận mới : sử dụng lưới hai chiều . Theo đó , vấn
đề theo vết đường biên , theo vết những chuyển động cục bộ và những biến
đổi về cường độ sẽ được hợp nhất lại thành vấn đề theo vết lưới 2 chiều .
Lưới ở đây được thiết kế dựa theo nội dung của đối tượng giúp cho việc theo
vết đối tượng được chính xác hơn . Quá trình ước lượng chuyển động tại các
node của lưới được ràng buộc chặt chẽ để bảo toàn kết cấu của lưới
Mục lục
1 Giới Thiệu
1.1 Động lực thúc đẩy
1.2 Một số hướng tiếp cận
1.3 Bố cục luận văn
2 Một Số Khái Niệm Nền Tảng
2.1 Một số lĩnh vực liên quan
2.2 Biến dạng ảnh số
2.3 Video , video tương tự , video số
2.4 Đối tượng video , chuyển động của đối tượng video , ước lượng chuyển
động
2.5 Hiện tượng che phủ
3 Mô Hình Theo Vết Đối Tượng Video
3.1 Tạo lưới
3.2 Ước lượng chuyển động tại các node của lưới
3.3 Lan truyền lưới
4 Cài Đặt và Thử Nghiệm
4.1 Chi tiết cài đặt
4.2 Kết quả thử nghiệm
5 Kết Luận và hướng phát triển
1
Chương 1
Giới Thiệu
Vấn đề theo vết đối tượng trong video đã và đang thu hút được sự quan
tâm của cộng đồng nghiên cứu bởi nó có nhiều ứng dụng hữu ích trong lĩnh
vực giải trí , truyền thông , thị giác máy tính và đa phương tiện , chẳng hạn
như ứng dụng trong xử lý và biên tập video số , trong nén video , trong các
thư viện số , trong các hệ thống giám sát giao thông .v.v… Xét một đoạn
video quay một khung cảnh , đối tượng trong đoạn video , hay ngắn gọn là
đối tượng video , là những thành phần có ý nghĩa đầy đủ trong khung cảnh
đó . Theo vết đối tượng bao gồm việc theo vết đường biên , theo vết những
chuyển động cục bộ và những biến đổi về cường độ (độ sáng tối , độ tương
phản) của đối tượng .
Nội dung chính của luận văn này là nghiên cứu và thực hiện việc theo vết
đối tượng theo hướng tiếp cận mới : sử dụng lưới hai chiều . Với hướng tiếp
cận này , ba vấn đề : theo vết đường biên , theo vết những chuyển động cục
bộ và theo vết những biến đổi về cường độ sẽ được hợp nhất lại thành vấn đề
theo vết lưới 2 chiều .
Theo thuật ngữ thông dụng , mặt phẳng alpha của một đối tượng video là
tập hợp tất cả các điểm ảnh thuộc đối tượng đó . Luận văn này đề ra một
phương pháp theo vết đối tượng bán tự động , theo đó mặt phẳng alpha của
đối tượng video sẽ được xác định bằng tay tại một số frame quan trọng , sau
đó mặt phẳng alpha sẽ được tự động xác định ở những frame còn lại bằng
2
cách sử dụng mô hình theo vết lưới 2 chiều . Lưới ở đây được thiết kế dựa
theo nội dung của đối tượng giúp cho việc theo vết đối tượng được chính xác
hơn .
Phần tiếp theo của chương này sẽ trình bày những động lực thúc đẩy việc
nghiên cứu vấn đề theo vết đối tượng , những hướng tiếp cận đã được đề ra ,
và cuối cùng là giới thiệu bố cục của luận văn .
1.1 Động lực thúc đẩy
Có thể dễ dàng nhận ra rằng phần lớn thông tin mà con người thu nhận từ
bên ngoài là thông qua thị giác . Bằng cách quan sát , con người thu nhận
những hình ảnh từ môi trường xung quanh , nhận dạng và đưa ra những phản
hồi thích hợp . Một cách tự nhiên , hình ảnh trở thành một trong những dạng
thông tin giữ vai trò quan trọng trong đời sống con người . Câu châm ngôn
từ xa xưa “một hình ảnh có giá trị hơn vạn lời nói” hay “trăm nghe không
bằng một thấy” đã phần nào nói lên ý nghĩa to lớn của hình ảnh trong việc
truyền tải thông tin . Vấn đề nảy sinh là làm sao có thể biểu diễn , lưu trữ và
trao đổi được dạng thông tin này . Bằng lao động và sáng tạo , con người đã
tìm ra những giải pháp cho vấn đề trên , từ giản đơn như những hình thù
khắc trên đá , những kí hiệu trên tấm da thú .v.v…cho đến những bức tranh ,
tấm ảnh đầy màu sắc , những hình ảnh video sinh động ngày nay .
Ra đời vào những năm 30 của thế kỉ 20 , video , hiểu một cách đơn giản ,
là một chuỗi các ảnh tĩnh (còn được gọi là khung hình - frame) liên tiếp , sắp
xếp theo trật tự thời gian . Một đoạn video chứa đựng được nhiều thông tin
trực quan hơn một ảnh tĩnh , do video có khả năng thu giữ được chuyển
động . Một ảnh tĩnh chỉ có thể cung cấp cho người xem những thông tin tĩnh
3
về một khung cảnh trong khi một đoạn video có thể đem lại cho người xem
phần động trong khung cảnh đó . Ban đầu video ở dạng tương tự , và do bản
chất tương tự nên nó có rất ít khả năng xử lý cũng như tương tác , chỉ có thể
đơn giản như chuyển kênh truyền hình hay quay tới quay lui một đoạn băng
.
Sự phát triển mạnh mẽ của công nghệ phần cứng đã góp phần hướng
người sử dụng đến với video số , vốn gắn liền với một khả năng xử lý tương
tác tốt hơn . Ta có thể dễ dàng thu nhận , lưu trữ , xử lý tín hiệu video dưới
định dạng số , cũng như trao đổi và chia sẻ nó giữa các nền tảng và lĩnh vực
ứng dụng khác nhau .
Theo nguyên thủy , video số được biểu diễn dựa trên cơ sở khung hình ,
tức là mỗi đoạn video bao gồm nhiều khung hình , mỗi khung hình là một
tập hợp các điểm ảnh . Cách biểu diễn như vậy chỉ mới thể hiện được chiều
thời gian của video , trong khi lại làm ẩn đi phần rất quan trọng , đó là nội
dung , là những thông tin mà video chứa đựng , là các đối tượng video .
Những nhu cầu mới xuất hiện gần đây đã làm bộc lộ những hạn chế của
cách biểu diễn này . Những thư viện số , nơi chứa số lượng khổng lồ dữ liệu
video số , đòi hỏi phải được trang bị tính năng truy xuất , rút trích và phân
tích dữ liệu ở mức đối tượng , việc thực hiện theo từng frame tốn chi phí quá
lớn và không khả thi . Công việc xử lý hậu kì , biên tập video đòi hỏi khả
năng kết hợp các đối tượng , các khung cảnh tự nhiên và nhân tạo để tạo ra
hiệu ứng . Việc tương tác với các đối tượng trong môi trường trực quan hiện
chỉ mới giới hạn trong đồ họa máy tính và mong muốn đưa khả năng này
vào các ứng dụng multimedia , truyền thông , giải trí ngày càng lớn . Rõ
ràng , kiến trúc frame và pixel không đủ để thỏa mãn các nhu cầu trên , cần
có một cách biểu diễn video số cấp cao hơn . Và biểu diễn video dựa trên cơ
sở đối tượng là lời giải rất thích hợp cho bài toán . Trên cơ sở đối tượng ,
4
mỗi frame của video sẽ bao gồm nhiều lớp chồng lên nhau , mỗi lớp tương
ứng với một đối tượng video khác nhau .
Hình 1.1 : Biểu diễn video dựa trên cơ sở đối tượng
Để có thể chuyển video từ frame-based sang object-based cần phải thực
hiện việc phân vùng video , tức là phân mỗi frame của video thành nhiều
vùng , mỗi vùng sẽ tương ứng với một đối tượng video khác nhau .
Cách lý tưởng để thực hiện việc phân vùng là sử dụng phông nền xanh .
Theo đó , từng đối tượng video riêng lẻ sẽ được ghi nhận trên phông nền
5
xanh , việc tách đối tượng ra khỏi phông nền xanh là dễ dàng , và cuối cùng
ta chỉ việc chồng các đối tượng này lên nhau để tạo ra hình ảnh video mong
muốn . Cách này đòi hỏi phải có những trang thiết bị kĩ thuật , những phần
cứng chuyên dụng và nhất là phải thực hiện ngay trong giai đoạn thu nhận
hình ảnh . Với những điều kiện phức tạp như vậy , kĩ thuật phông nền xanh
thường chỉ được sử dụng trong việc tạo các kĩ xảo điện ảnh hay trong các
chương trình truyền hình .
Phân vùng bằng tay là một công việc rất tốn thời gian và công sức . Với
tốc độ chiếu 24 hình / giây , để phân vùng một đoạn video dài 5 phút ta phải
thực hiện thủ công trên 24×60×5 = 7200 frame . Hơn nữa , kết quả phân
vùng lại không ổn định và thường thay đổi theo chủ quan của mỗi người .
Đã có những phương pháp phân vùng video hoàn toàn tự động được đề ra
, tuy nhiên các phương pháp này chỉ có thể sử dụng trong những điều kiện
nhất định và mới chỉ dừng ở mức phân vùng các đối tượng video đơn giản ,
rất khó có thể áp dụng cách này cho những đoạn video thông thường hàng
ngày .
Giải pháp thích hợp được lựa chọn hiện nay là thực hiện phân vùng bán
tự động . Với sự trợ giúp của máy tính , việc phân vùng sẽ được thực hiện
bằng tay ở một số frame quan trọng , kết quả thu được , tức là các đối tượng
video , sẽ được theo vết ở các frame còn lại . Ở đây , có thể hiểu “theo vết”
là xác định xem trong các frame tiếp theo thì đối tượng xuất hiện ở đâu và
xuất hiện như thế nào . Cuối cùng ta sẽ thu được bản đồ phân vùng cũng như
các lớp đối tượng tại từng frame và quĩ đạo chuyển động của từng đối tượng
theo thời gian .
Theo vết đối tượng trở thành vấn đề cốt lõi trong việc biểu diễn video
dựa trên cơ sở đối tượng . Nó giữ một vai trò hết sức quan trọng trong việc
6
giúp cho máy tính “hiểu” các cảnh động , giúp thiết lập mối dây liên kết giữa
các đối tượng video trong quá trình chuyển động theo thời gian .
Không chỉ giữ vai trò trên , trong thực tế , việc theo vết đối tượng còn
được ứng dụng theo kiểu thời gian thực trong các hệ thống giám sát giao
thông , giám sát an ninh , điều khiển robot .v.v…
Hầu hết các phương pháp theo vết đối tượng trước đây đều thu được kết
quả không cao , do chỉ sử dụng những mô hình đơn giản để mô tả chuyển
động của đối tượng video , chẳng hạn như mô hình so khớp khối , mô hình
so khớp vùng .v.v…Để cải thiện được kết quả , cần tìm ra những mô hình
chuyển động thích hợp hơn , mạnh mẽ hơn . Sử dụng mô hình lưới 2 chiều
được xem như một hướng tiếp cận mới đầy hứa hẹn . Theo mô hình này ,
mỗi phần tử của lưới (tức là các mắt lưới) được giả thiết là vùng có chuyển
động đồng nhất và chuyển động này có thể được biểu diễn chính xác bằng
một phép biến đổi không gian (affine , bilinear , …) . Phép biến đổi này có
thể được suy ra từ vectơ chuyển động tại các đỉnh của mắt lưới đang xét .
Thực tế đã cho thấy , biểu diễn đối tượng và theo vết đối tượng bằng cách sử
dụng lưới 2 chiều cho ra kết quả chính xác hơn và ổn định hơn . Xét về mặt
lý thuyết , đáp án tốt nhất cho bài toán theo vết đối tượng là sử dụng các mô
hình theo vết 3 chiều . Tuy nhiên , việc sử dụng các mô hình 3 chiều đòi hỏi
chi phí tính toán quá cao , đồng thời phải biết rõ cấu trúc 3 chiều của đối
tượng được quan tâm . Sử dụng lưới 2 chiều là một giải pháp cân bằng giữa
chi phí tính toán và kết quả thu được . Giải pháp này không đòi hỏi phải biết
trước về cấu trúc của đối tượng , không đòi hỏi chi phí tính toán cao , đồng
thời cho ra kết quả đầy hứa hẹn .
7
1.2 Một số hướng tiếp cận
Đã có nhiều phương pháp theo vết được đề ra , theo Toklu [5] , các
phương pháp này có thể được phân thành bốn nhóm : Theo vết điểm đặc
trưng (feature-point tracking) , Theo vết đường biên (boundary tracking) ,
Theo vết vùng (region tracking) và Theo vết dựa trên cơ sở mô hình (model-
based tracking ) . Việc phân loại này chỉ mang tính tương đối .
Theo vết điểm đặc trưng (feature-point tracking)
Trong nhóm phương pháp này , một số điểm đặc trưng (theo một tiêu
chuẩn nào đó) của đối tượng được chọn ra và việc theo vết trở thành việc
xác định quĩ đạo chuyển động của các điểm này theo thời gian
Theo vết đường biên (boundary tracking)
Nhóm phương pháp này tập trung vào việc xác định chuyển động của
đường biên đối tượng . Điều này có nghĩa là các chuyển động cục bộ bên
trong đối tượng bị bỏ qua . Tiêu biểu cho nhóm này là phương pháp đường
viền động (active contour model hay ngắn gọn là snake) do M. Kass , A.
Witkin và D. Terzopoulos đề ra năm 1988 .
Theo vết vùng (region tracking)
Xuất phát từ ý tưởng theo vết một nhóm điểm sẽ cho kết quả tốt hơn theo
vết một điểm riêng lẻ , nhóm phương pháp này thực hiện việc phân đối
tượng thành các vùng và thực hiện ước lượng chuyển động cho từng vùng .
Theo vết dựa trên cơ sở mô hình (model-based tracking)
Nhóm phương pháp này thường được sử dụng để theo vết mặt người ,
thân người , xe cộ …Nhóm phương pháp này đòi hỏi phải được trang bị tri
thức về đối tượng , chẳng hạn như tri thức về cấu trúc ba chiều , các điểm
8
đặc trưng của khuôn mặt , tính đàn hồi .v.v… Nhóm phương pháp không
được sử dụng rộng rãi và thường chỉ dùng trong các trường hợp chuyên biệt.
Những năm gần đây , các phương pháp theo vết sử dụng lưới đang thu
hút được nhiều sự chú ý . Theo mô hình này , mỗi phần tử của lưới (tức là
các mắt lưới) được giả thiết là vùng có chuyển động đồng nhất và chuyển
động này có thể được biểu diễn chính xác bằng một phép biến đổi không
gian (affine , bilinear , …) . Phép biến đổi này có thể được suy ra từ vectơ
chuyển động tại các đỉnh của mắt lưới đang xét . Thực tế đã cho thấy , biểu
diễn đối tượng và theo vết đối tượng bằng cách sử dụng lưới 2 chiều cho ra
kết quả chính xác hơn và ổn định hơn. Việc xác định vectơ chuyển động tại
từng node riêng lẻ thường đem lại kết quả không như ý do các vectơ tìm
được có thể đan chéo nhau . Để giải quyết vấn đề này , Nakaya [22] đề ra
một phương pháp so khớp sáu cạnh , theo đó một lưới đồng dạng (các phần
tử tức các mắt lưới có hình dạng và kích thước giống nhau – hình 1.3a) được
áp lên đối tượng , các node bên trong sẽ được di chuyển trong một vùng giới
hạn bởi 6 cạnh (hình 1.2) để dò ra vị trí tương ứng trong frame tiếp theo .
Toklu [5] mở rộng phương pháp này bằng cách sử dụng mô hình lưới đồng
dạng phân cấp , theo đó việc ước lượng chuyển động sẽ được thực hiện trên
lưới có mật độ từ thưa đến dày .
Hình 1.2 : phương pháp so khớp sáu cạnh
9
Hình 1.3 : lưới : a) đồng dạng , b) dựa theo nội dung khung cảnh
Tuy nhiên , cả Toklu và Nakaya đều sử dụng lưới đồng dạng , bản thân
dạng lưới được tạo bằng cách chia ảnh ra thành các phần bằng nhau do đó
không phản ánh được nội dung của khung cảnh , mỗi phần tử của lưới có
thể chứa nhiều chuyển động cùng một lúc . Altunbasak giải quyết vấn đề này
bằng cách sử dụng lưới có thiết kế dựa theo nội dung đối tượng (hình 1.3b) .
Tuy nhiên , trong phương pháp này , đối tượng được xem là toàn bộ frame
10
chứ không riêng một đối tượng cụ thể nào . Từ những nghiên cứu trên , luận
văn đề ra một mô hình theo vết đối tượng bán tự động cho phép người dùng
chọn ra đối tượng bất kì , đối tượng sẽ được biểu diễn bằng một lưới tam
giác hai chiều được thiết kế dựa theo nội dung của đối tượng và được theo
vết một cách hoàn toàn tự động ở các frame tiếp theo . Quá trình ước lượng
chuyển động tại các node được ràng buộc chặt chẽ để bảo toàn kết cấu của
lưới .
1.3 Bố cục luận văn
Trong chương 1 này , luận văn đã trình bày những động lực thúc đẩy
nghiên cứu vấn đề theo vết đối tượng , trình bày một số hướng tiếp cận đã
được đề ra . Phần còn lại của luận văn sẽ được tổ chức như sau :
– Ở chương 2 , luận văn sẽ trình bày những khái niệm và nội dung nền tảng
liên quan đến vấn đề theo vết đối tượng .
– Trong chương 3 , luận văn sẽ trình bày chi tiết về mô hình theo vết đối
tượng sử dụng lưới hai chiều mà luận văn đã nghiên cứu và đề ra .
– Ở chương 4 , luận văn sẽ trình bày về phần cài đặt thử nghiệm thực tế .
– Cuối cùng , trong chương 5 , luận văn sẽ đưa ra kết luận và hướng phát
triển tương lai .
11
Chương 2
Những khái niệm và nội dung
nền tảng
2.1 Một số lĩnh vực liên quan
Các phương pháp theo vết đối tượng trong video số thường sử dụng
những kĩ thuật thuộc nhiều lĩnh vực khác nhau . Kết quả của việc theo vết
cũng được ứng dụng trở lại trong nhiều lĩnh vực khác nhau . Trong phần này
, luận văn sẽ giới thiệu sơ qua một số lĩnh vực quan trọng có liên quan , bao
gồm xử lý ảnh số (digital image processing) , đồ họa máy tính (computer
graphics) , thị giác máy tính (computer vision) , đa phương tiện (multimedia)
và xử lý video số (digital video processing) . Riêng biến dạng ảnh số (digital
image warping) , một nhánh của xử lý ảnh , là một lĩnh vực mới được biết
đến và có những nội dung quan trọng nên sẽ được trình bày trong một phần
riêng .
Xử lý ảnh số (digital image processing)
Xử lý ảnh số , đúng như tên gọi của nó , bao gồm việc phân tích và xử lý
các ảnh số bằng máy tính . Mục đính chính của xử lý ảnh là tăng cường mức
độ thu nhận thông tin của con người từ nguồn dữ liệu ảnh và làm cho máy
tính có thể tự động xử lý (lưu trữ , biểu diễn , trao đổi …) các hình ảnh thu
nhận từ môi trường tự nhiên .
12
Hình 2.1 : Xử l ý ảnh
Đồ họa máy tính
Đồ họa máy tính bao gồm tất cả những gì liên quan đến việc sử dụng
máy tính để phát sinh ra hình ảnh . So với xử lý ảnh thì đồ họa máy tính
đóng vai trò như một họa sĩ , còn xử lý ảnh đóng vai trò như một thợ chụp
ảnh .
Thị giác máy tính (computer vision)
Thị giác máy tính là hướng ngược lại của đồ họa máy tính . Trong khi đồ
họa lấy thông tin mô tả cảnh bên ngoài (scene discription) để tạo ra ảnh
trong máy tính thì thị giác máy tính lại từ ảnh bên trong máy tính để suy ra
thông tin mô tả cảnh bên ngoài .
13
Hình 2.2 : Tương quan giữa xử lý ảnh , đồ họa máy tính và thị giác máy tính
Đa phương tiện (multimedia)
Thuật ngữ “đa phương tiện” diễn đạt ý tưởng các thông tin trong máy
tính có thể được biểu diễn bằng các âm thanh , hình ảnh video sinh động chứ
không chỉ giới hạn trong những cách biểu diễn truyền thống (văn bản , ảnh
tĩnh.v.v…) .
Lĩnh vực multimedia đề cập đến việc sử dụng máy tính để tích hợp các
dạng dữ liệu như văn bản , hình ảnh tĩnh , hình ảnh động (video) , âm thanh
hay bất kì dạng dữ liệu số nào .
Xử lý video số
Xử lý video số tức là xử lý luồng dữ liệu video số (digital video
bitstream) , bao gồm các công việc như thu nhận , lưu trữ , phân tích , tổng
hợp , trao đổi .v.v…
14
2.2 Biến dạng ảnh số (digital image warping)
Biến dạng ảnh số , hay rõ hơn là biến đổi (về mặt hình học) ảnh số , là
một nhánh của xử lý ảnh . Biến đổi về mặt hình học (geometric
transformation) là thao tác xác lập lại mối tương quan về vị trí giữa các điểm
trên ảnh . Cốt lõi của biến đổi hình học là ánh xạ một hệ tọa độ này sang một
hệ tọa độ khác . Điều này được thực hiện thông qua một biến đổi không gian
(spatial transformation) , đây là một hàm ánh xạ thiết lập sự tương ứng giữa
các điểm trên ảnh đầu vào và các điểm trên ảnh đầu ra . Hàm ánh xạ này có
thể biểu diễn theo hai cách sau :
[x , y] = [X(u,v) , Y(u,v)]
hay :
[u , v] = [U(x,y) , V(x,y)]
Trong đó [u , v] chỉ vị trí của điểm ảnh trên ảnh input tương ứng với điểm
ảnh ở vị trí [x , y] trên ảnh output ; còn X , Y , U , V là các hàm ánh xạ đặc
trưng cho từng phép biến đổi cụ thể . Do X và Y thực hiện việc ánh xạ từ
ảnh input sang ảnh output nên được gọi là các ánh xạ tiến (forward mapping)
, tương tự , U và V được gọi là các ánh xa lùi (backward mapping) hay ánh
xạ ngược (inverse mapping) . Ánh xạ tiến thực hiện việc sao chép từng pixel
trên ảnh input sang ảnh output tai các vị trí do ánh xạ xác định . Còn ánh xạ
ngược thì thực hiện việc đối chiếu từng vị trí trên ảnh output sang ảnh input ,
sau đó sao chép pixel tại vị trí vừa tìm được trên ảnh input sang vị trí tương
ứng trên ảnh output .
15
Một vấn đề phát sinh là các giá trị vị trí lúc ban đầu là số nguyên , sau khi
qua hàm ánh xạ thì trở thành số thực . Điều này gây ra hiện tượng lỗ hổng và
hiện tượng chồng lên nhau . Lỗ hổng ở đây chỉ những pixel không có đối
tượng nào tương ứng . Còn hiện tượng chồng lên nhau là hiện tượng nhiều
pixel cùng được ánh xạ tương ứng vào một pixel .
Hình 2.3 : Ánh xạ tiến
16
Hình 2.4 : Ánh xạ ngược
Ta có thể giảm bớt hiện tượng này bằng cách chia ảnh ra thành các vùng nhỏ
(patch) , chẳng hạn như chia thành các vùng hình vuông . Việc ánh xạ khi đó
sẽ không thực hiện trên đơn vị điểm ảnh mà thực hiện tại từng vùng . Cách
này giúp bảo toàn kết cấu liền lạc của ảnh .
Trong phần tiếp theo , luận văn sẽ trình bày các phép biến đổi không gian
được sử dụng trong mô hình theo vết đối tượng . Ở đây ta chỉ xét các phép
biến đổi 2 chiều . Việc biểu diễn phép biến đổi được thực hiện trong hệ tọa
độ thuần nhất (Homogeneous Coordinates) , đây là hệ tọa độ do tác giả
Roberts đề ra năm 1965 trong lĩnh vực đồ họa máy tính nhằm đảm bảo tính
nhất quán trong cách biểu diễn các phép biến đổi .
17
2.2.1 Biến đổi affine (Affine transformation)
Phép biến đổi affine là phép biến đổi tuyến tính , thuận nghịch , có dạng
biểu diễn tổng quát như sau :
[ ] 11 1221 22
31 32
0
, ,1 [ , ,1] 0
1
a a
x y u v a a
a a
=
Từ đó suy ra :
11 21 31
12 22 32
x a u a v a
y a u a v a
= + +
= + +
Những tính chất quan trọng của phép biến đổi affine là :
– Bảo toàn đường thẳng : ảnh của một đường thẳng qua phép biến đổi
affine là một đường thẳng
– Bảo toàn tính song song của các đường thẳng : ảnh của hai đường
thẳng song song là hai đườn song son
– Bảo toàn tỉ lệ về khoảng cách : giả sử C là điểm chia đoạn AB theo tỉ
số t . Nếu A’ , B’ , C’ lần lượt là ảnh của A , B , C qua phép biến đổi
affine thì C’ cũng sẽ chia A’B’ theo tỉ số t .
18
Hình 2.5 : Phép biến đổi affine
Một số trường hợp đặc biệt của phép biến đổi affine là : phép tịnh tiến
(translation) , phép quay (rotation) , phép biến đổi tỉ lệ (scale) , phép kéo
xiên (shear) .
Tịnh tiến (Translation)
Gọi Tu , Tv là độ dời tương ứng với u , v , dạng biểu diễn của phép tịnh
tiến là :
[ ]
1 0 0
, ,1 [ , ,1] 0 1 0
1u
x y u v
T Tv
=
Quay (Rotation)
Gọi θ là góc quay , dạng biểu diễn của phép quay là :
19
[ ]
cos sin 0
, ,1 [ , ,1] sin cos 0
0 0 1
x y u v
θ θ
θ θ
= −
Biến đổi tỉ lệ (Scale)
Gọi Su , Sv là các hệ số tỉ lệ tương ứng với u và v , dạng biểu diễn của
phép biến đổi tỉ lệ là :
[ ]
0 0
, ,1 [ , ,1] 0 0
0 0 1
u
v
S
x y u v S
=
Kéo xiên (Shear)
Gọi Hu hệ số kéo xiên theo phương trục hoành , dạng biểu diễn của phép
kéo xiên theo phương trục hoành có dạng :
[ ]
1 0
, ,1 [ , ,1] 0 1 0
0 0 1
uH
x y u v
=
Gọi Hv hệ số kéo xiên theo phương trục tung , dạng biểu diễn của phép
kéo xiên theo phương trục tung có dạng :
20
'
'
xx
w
= '
'
yy
w
=
[ ]
1 0 0
, ,1 [ , ,1] 1 0
0 0 1
vx y u v H
=
2.2.2 Biến đổi phối cảnh (Perspective transformation)
Dạng biểu diễn tổng quát của phép biến đổi phối cảnh là :
[ ] 11 12 1321 22 23
31 32 33
', ', ' [ , , ]
a a a
x y w u v w a a a
a a a
=
Với : ,
Từ đó suy ra :
11 21 31
13 23 33
'
'
a u a v axx
w a u a v a
+ += = + +
12 22 32
13 23 33
'
'
a u a v ayy
w a u a v a
+ += = + +
21
Hình 2.6 : Phép biến đổi phối cảnh
2.3 Video , video tương tự , video số
Việc theo vết đối tượng được thực hiện trên dữ liệu video , chính xác là
trên dữ liệu video số , nên hiểu rõ về dạng dữ liệu này là điều cần thiết .
2.3.1 Video
Thuật ngữ video dùng để chỉ nguồn thông tin hình ảnh trực quan
(pictorial visual information) , bao gồm một chuỗi các ảnh tĩnh (still image)
liên tiếp nhau , được sắp xếp theo chiều thời gian . Video còn được gọi là
ảnh thay đổi theo thời gian (time-varying image) , kí hiệu là s( x1 , x2 , t ) ,
trong đó x1 , x2 là các biến chỉ vị trí trong không gian , còn t là biến thời gian
. Một ảnh tĩnh là một phân bố cường độ theo không gian và phân bố này là
không đổi theo thời gian . Trong khi ảnh thay đổi theo thời gian là một phân
22
bố cường độ theo cả không gian lẫn thời gian . Xét về mặt vật lý , ở cấp thấp
nhất , video tồn tại dưới dạng các tín
Các file đính kèm theo tài liệu này:
- 9912087.pdf