Hiện nay, chúng ta đang sống trong một kỷ nguyên mới “Kỷ nguyên truyền thông đa phương tiện” các thiết bị mới, các kỹ thuật mới lần lượt ra đời nhằm mục đích đáp ứng nhu cầu giải trí cho con người ngày một tốt hơn. Các ứng dụng đa phương tiện thời gian thực truyền trên mạng di động, mạng Internet, mạng truyền hình ngày càng phát triển rầm rộ, các nhà sản xuất thiết bị chú trọng áp dụng các công nghệ nén tiên tiến vào thiết bị của mình nhằm thõa mãn nhu cầu “chất lượng trung thực về âm thanh, hình ảnh” của con người cũng như khả năng đáp ứng yêu cầu thực tế của công nghệ. Thế nhưng không phải nhu cầu nào của chúng ta đều có thể được đáp ứng một cách thuận lợi, vì sự gắn liền giữa độ phức tạp, tốn kém chi phí đầu tư cơ sở hạ tầng, thiết bị đầu cuối , luôn đi kèm với công nghệ cao. Bên cạnh đó vấn đề truyền thông nội dung đa phương tiện hiện nay đang gặp một số khó khăn: băng thông đường truyền, nhiễu kênh, giới hạn của pin cho các ứng dụng . Trong khi băng thông kênh truyền phải chờ đợi một công nghệ mới của tương lai mới có thể cải thiện, còn việc cải thiện giới hạn của pin dường như không đáp ứng được sự phát triển của các dịch vụ trong tương lai, thì phương pháp giảm kích thước dữ liệu bằng các kỹ thuật nén là một cách giải quyết hiệu quả các khó khăn trên.
Cho đến nay có rất nhiều kỹ thuật nén dữ liệu đa phương tiện như: chuẩn JPEG, chuẩn JPEG2000 và chuẩn MPEG tuy nhiên hiệu quả nén của các tiêu chuẩn này cũng chưa được cao, và vẫn chưa đáp ứng tốt yêu cầu của truyền hình HDTV cũng như việc lưu trữ dung lượng còn rất lớn. Gần đây nhất là sự thành công của tiêu chuẩn mã hóa MPEG-2 được đánh dấu nổi bật từ những lần phóng thương mại đầu tiên các hệ thống vệ tinh DTH vào giữa những năm 1990 và thành công của chuẩn nén MPEG-4 Part 2 trong ứng dụng truyền hình số, các ứng dụng đồ họa Nhưng với yêu cầu bộ mã hóa có thể tương thích với các ứng dụng tốc độ bit thấp, thì nó không đáp ứng hiệu quả. Từ việc nghiên cứu khắc phục nhược điểm của MPEG-2, phát triển bổ sung cho MPEG-4 Part 2 để cho ra đời những chuẩn nén tiên tiến hơn, mà nổi bật là MPEG-4 H.264/AVC. Nó là sự kết hợp hoàn hảo giữa 2 tổ chức nổi tiếng: nhóm chuyên gia mã hóa video của tổ chức ITU và nhóm chuyên gia xử lý ảnh động ISO/IEC. Ta thử xét một ví dụ minh họa trong truyền hình số, nếu sử dụng kỹ thuật nén MPEG-2 cung cấp định dạng SDTV với độ phân giải 640x480 pixel thì cần băng thông 4.3Mbps trên một kênh truyền còn đối với HDTV thì cần 19Mbps, nhưng nếu sử dụng chuẩn nén H.264 thì băng thông cho truyền hình SDTV chỉ có 1.5 – 2 Mbps hoặc 6-9 Mbps đối với HDTV. Chính vì những ưu điểm đó mà MPEG-4 H.264/AVC đã dần dần chứng tỏ vị thế số 1 của mình, những ưu việt mà chuẩn nén này mang lại chắc chắn sẽ có ảnh hưởng tích cực đến thị trường phim ảnh, cũng như ngành công nghiệp chế tạo thiết bị đầu cuối. Để có thể hiểu biết hơn về tiêu chuẩn nén tiên tiến này, em đã chọn đề tài “Tổng quan về chuẩn nén MPEG-4 H.264/AVC và khả năng ứng dụng trong thực tiễn” làm đề tài tốt nghiệp của mình. Sau hơn 3 tháng nỗ lực hết mình, về cơ bản Đồ án cũng đã cho ta cái nhìn tổng quát về chuẩn nén MPEG-4 H.264/AVC, đồng thời với sự minh họa bằng chương trình Matlab 7.01, cũng giúp cho ta hiểu rõ hơn những ưu điểm của chuẩn nén này, tuy nhiên do có sự hạn chế về kinh nghiệm, thời gian, nên sẽ không tránh khỏi sai sót, kính mong Quý Thầy Cô, bạn bè, đồng nghiệp tham khảo đóng góp ý kiến.
Em xin chân thành cảm ơn TS. Trần Dũng Trình đã bỏ ra chút thời gian quý báu, hướng dẫn tận tình và cung cấp tài liệu bổ ích trong quá trình làm Đồ án. Đồng thời cũng xin cảm ơn Quý Thầy Cô Trường Đại Học Kỹ Thuật Công Nghệ Thành Phố Hồ Chí Minh, đã tận tình dạy dỗ, truyền thụ kiến thức và kinh nghiệm cho em trong suốt hơn bốn năm qua, cảm ơn các bạn bè đã quan tâm, chia xẻ, đóng góp ý kiến.
Kính chuùc Quyù Thaày Coâ vaø baïn beû ñöôïc nhieàu söùc khoûe.
113 trang |
Chia sẻ: oanh_nt | Lượt xem: 1117 | Lượt tải: 1
Bạn đang xem trước 20 trang nội dung tài liệu Đồ án Tổng quan về chuẩn nén MPEG-4 H.264/AVC và khả năng ứng dụng trong thực tiễn, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN
Tên đề tài : “Tổng quan về chuẩn nén MPEG-4 H.264/AVC và khả năng ứng dụng trong thực tiễn”
GVHD : TS. TRẦN DŨNG TRÌNH
SVTH : NGUYỄN QUANG HOÀNG SƠN
MSSV : 103101088
LỚP : 03DDT2
Tp.HCM ngày tháng năm 2008
GVHD
TS. Trần Dũng Trình
NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN
Tên đề tài : “Tổng quan về chuẩn nén MPEG-4 H.264/AVC và khả năng ứng dụng trong thực tiễn”
GVHD : TS. TRẦN DŨNG TRÌNH
GVPB : KS. TRẦN DUY CƯỜNG
SVTH : NGUYỄN QUANG HOÀNG SƠN
MSSV : 103101088
LỚP : 03DDT2
Tp.HCM ngày tháng năm 2008
GVPB
KS. Trần Duy Cường
MỤC LỤC
LỜI GIỚI THIỆU
H
iện nay, chúng ta đang sống trong một kỷ nguyên mới “Kỷ nguyên truyền thông đa phương tiện” các thiết bị mới, các kỹ thuật mới lần lượt ra đời nhằm mục đích đáp ứng nhu cầu giải trí cho con người ngày một tốt hơn. Các ứng dụng đa phương tiện thời gian thực truyền trên mạng di động, mạng Internet, mạng truyền hình…ngày càng phát triển rầm rộ, các nhà sản xuất thiết bị chú trọng áp dụng các công nghệ nén tiên tiến vào thiết bị của mình nhằm thõa mãn nhu cầu “chất lượng trung thực về âm thanh, hình ảnh” của con người cũng như khả năng đáp ứng yêu cầu thực tế của công nghệ. Thế nhưng không phải nhu cầu nào của chúng ta đều có thể được đáp ứng một cách thuận lợi, vì sự gắn liền giữa độ phức tạp, tốn kém chi phí đầu tư cơ sở hạ tầng, thiết bị đầu cuối…, luôn đi kèm với công nghệ cao. Bên cạnh đó vấn đề truyền thông nội dung đa phương tiện hiện nay đang gặp một số khó khăn: băng thông đường truyền, nhiễu kênh, giới hạn của pin cho các ứng dụng…. Trong khi băng thông kênh truyền phải chờ đợi một công nghệ mới của tương lai mới có thể cải thiện, còn việc cải thiện giới hạn của pin dường như không đáp ứng được sự phát triển của các dịch vụ trong tương lai, thì phương pháp giảm kích thước dữ liệu bằng các kỹ thuật nén là một cách giải quyết hiệu quả các khó khăn trên.
Cho đến nay có rất nhiều kỹ thuật nén dữ liệu đa phương tiện như: chuẩn JPEG, chuẩn JPEG2000 và chuẩn MPEG… tuy nhiên hiệu quả nén của các tiêu chuẩn này cũng chưa được cao, và vẫn chưa đáp ứng tốt yêu cầu của truyền hình HDTV…cũng như việc lưu trữ dung lượng còn rất lớn. Gần đây nhất là sự thành công của tiêu chuẩn mã hóa MPEG-2 được đánh dấu nổi bật từ những lần phóng thương mại đầu tiên các hệ thống vệ tinh DTH vào giữa những năm 1990 và thành công của chuẩn nén MPEG-4 Part 2 trong ứng dụng truyền hình số, các ứng dụng đồ họa… Nhưng với yêu cầu bộ mã hóa có thể tương thích với các ứng dụng tốc độ bit thấp, thì nó không đáp ứng hiệu quả. Từ việc nghiên cứu khắc phục nhược điểm của MPEG-2, phát triển bổ sung cho MPEG-4 Part 2 để cho ra đời những chuẩn nén tiên tiến hơn, mà nổi bật là MPEG-4 H.264/AVC. Nó là sự kết hợp hoàn hảo giữa 2 tổ chức nổi tiếng: nhóm chuyên gia mã hóa video của tổ chức ITU và nhóm chuyên gia xử lý ảnh động ISO/IEC. Ta thử xét một ví dụ minh họa trong truyền hình số, nếu sử dụng kỹ thuật nén MPEG-2 cung cấp định dạng SDTV với độ phân giải 640x480 pixel thì cần băng thông 4.3Mbps trên một kênh truyền còn đối với HDTV thì cần 19Mbps, nhưng nếu sử dụng chuẩn nén H.264 thì băng thông cho truyền hình SDTV chỉ có 1.5 – 2 Mbps hoặc 6-9 Mbps đối với HDTV. Chính vì những ưu điểm đó mà MPEG-4 H.264/AVC đã dần dần chứng tỏ vị thế số 1 của mình, những ưu việt mà chuẩn nén này mang lại chắc chắn sẽ có ảnh hưởng tích cực đến thị trường phim ảnh, cũng như ngành công nghiệp chế tạo thiết bị đầu cuối. Để có thể hiểu biết hơn về tiêu chuẩn nén tiên tiến này, em đã chọn đề tài “Tổng quan về chuẩn nén MPEG-4 H.264/AVC và khả năng ứng dụng trong thực tiễn” làm đề tài tốt nghiệp của mình. Sau hơn 3 tháng nỗ lực hết mình, về cơ bản Đồ án cũng đã cho ta cái nhìn tổng quát về chuẩn nén MPEG-4 H.264/AVC, đồng thời với sự minh họa bằng chương trình Matlab 7.01, cũng giúp cho ta hiểu rõ hơn những ưu điểm của chuẩn nén này, tuy nhiên do có sự hạn chế về kinh nghiệm, thời gian,…nên sẽ không tránh khỏi sai sót, kính mong Quý Thầy Cô, bạn bè, đồng nghiệp tham khảo đóng góp ý kiến.
Em xin chân thành cảm ơn TS. Trần Dũng Trình đã bỏ ra chút thời gian quý báu, hướng dẫn tận tình và cung cấp tài liệu bổ ích trong quá trình làm Đồ án. Đồng thời cũng xin cảm ơn Quý Thầy Cô Trường Đại Học Kỹ Thuật Công Nghệ Thành Phố Hồ Chí Minh, đã tận tình dạy dỗ, truyền thụ kiến thức và kinh nghiệm cho em trong suốt hơn bốn năm qua, cảm ơn các bạn bè đã quan tâm, chia xẻ, đóng góp ý kiến.
Kính chuùc Quyù Thaày Coâ vaø baïn beû ñöôïc nhieàu söùc khoûe.
Tp.hcm, thaùng 01/2008
Sinh vieân thöïc hieän
Nguyeãn Quang Hoaøng Sôn
CÁC THUẬT NGỮ TIẾNG ANH
BAC Mã hóa số học nhị phân (Binary Arithmetic Coding)
CA Mã hóa thích nghi theo nội dung (Context Adaptive)
CC Mã xóa (Clear code)
CIF Định dạng mã hóa hình ảnh có kích thước 352 x 288 (Common Intermediate Format)
DAB Phát quảng bá âm thanh số (Digital Audio Broadcasting)
DCT Biến đổi Cosine rời rạc (Discrete Cosine Transform)
DFT Biến đổi Fourier rời rạc (Discrete Fourier Transform)
DPCM Điều xung mã vi sai (Differential Pulse Code Modulation)
DS Thuật toán tìm kiểu hình thoi (Diamond Search)
DTH
DWT Biến đổi Wavelet rời rạc (Discrete Wavelet Transform)
EOI Mã kết thúc (End Of Information)
ES Dòng cơ bản (Elemenatary Stream)
Exp-Golomb Mã Exponential Golomb
FLC Mã hóa có chiều dài cố định (Fixed-Length Code)
FMO Thứ tự MB mềm dẻo (Flexible Macroblock Order)
GOP Nhóm ảnh (Group Of Pictures)
GMC Bù chuyển động toàn phần (Global Motion Compensation)
HDS Thuật toán tìm hình thoi nằm ngang (Horizontal Diamond search)
HDTV Truyền hình phân giải cao (High Definition Television)
HEXBS Thuật toán tìm kiểu hình lục giác (Hexagon-Based Search)
ICT Biến đổi nguyên Cosine rời rạc (Integer Discrete Cosine Transform)
IDR Ảnh làm tươi tức thời bộ giải mã (Instantaneous Decoder Refresh Picture)
IDCT Biến đổi ngược Cosine rời rạc (Inverse Discrete Cosine Transform)
IP Giao thức Internet ( Internet Protocol)
ISDN Mạng tích hợp dịch vụ số (Integrated Service Digital Network)
JPEG Chuẩn nén ảnh của ủy ban JPEG quốc tế (Joint Photographic Experts Group)
JPEG2000 Chuẩn nén ảnh JPEG2000
LOSSLESS Kỹ thuật nén ảnh không tổn hao (không mất dữ liệu)
LOSSY Kỹ thuật nén ảnh có tổn hao (có mất dữ liệu)
MB Đa khối (Macroblock)
MBAFF Mã hóa khung mành thích nghi (Macroblock-Adaptive Frame-Field coding)
MC Bù chuyển động (Motion Compensation)
ME Ước lượng chuyển động(Motion Estimate)
MMS Dịch vụ tin nhắn đa phương tiện (Multimedia Messaging Services)
MSE Sai số bình phương trung bình (Mean Square Error)
MPEG Nhóm chuyên gia nén ảnh động (Moving Pictures Experts Group)
NAL Lớp trừu tượng mạng (Network Abstraction Layer)
NNS Tìm ở khối gần nhất (Nearest Neighbors Search)
PCM Điều xung mã (Pulse Code Modulation)
PF Hệ số co dãn (Parameter Factor)
MF Hệ số nhân(Multipy Factor)
PSNR Tỷ số tín hiệu đỉnh trên nhiễu (Peak Signal to Noise Ratio)
QCIF Định dạng hình ảnh có kích thước 176 x 144 (Quarter Common Intermediate Format)
QP Thông số lượng tử (Quantization Parameter)
RBSP (Raw Byte Sequence Payload)
RGB Ba màu cơ bản màu đỏ/Xanh/Lam (Red/Green/Blue)
RLC Mã hoá dọc chiều dài (Run Length Coding)
RSVP Giao thức dành riêng tài nguyên mạng (Resource Reservation Protocol)
RTP Giao thức truyền tải thời gian thực (Real Time Transport Protocol)
SDTV Truyền hình tiêu chuẩn ( Standard Televison)
SMIL Ngôn ngữ tích hợp Multimedia đồng bộ (Synchronized Multimedia Integration Language)
SRC Điều khiển tốc độ bit biến đổi được ( Scalable Rate Control)
TSS Thuật toán tìm ba bước (Three-Step search)
UMTS (Universal Mobile Telecommications System)
VCL Lớp mã hóa Video (Video Coding Layer)
VLC Mã có chiều dài thay đổi (Variable Length Code)
VO Đối tượng Video (Video Object)
VOP Đối tượng mặt phẳng Video (Video Object Plane)
YCbCr Độ chói, màu lam, màu đỏ (Luminance, Blue chrominance, Red chrominance)
ISO Tổ chức quốc tế về tiêu chuẩn chất lượng (International Organization for Standardization)
IEC Ủy ban kỹ thuật điện quốc tế (International Electro-technical Commission)
JTC1 Ủy ban kỹ thuật 1 (Joint Technical Committee 1)
SC29 Ủy ban phụ 29 (Sub-committee 29)
WG11 Nhóm làm việc 11( Work Group 11)
LỜI MỞ ĐẦU
Để có thể đi sâu vào nghiên cứu chuẩn nén MPEG-4 H.264/AVC, thì chúng ta cần nắm được các thuật ngữ, các kỹ thuật cần thiết cho việc nén tín hiệu, cũng như là các ưu nhược điểm của các chuẩn nén trước đó đã mang lại.Vì đây là một đề tài lý thuyết, nên bước quan trọng nhất của quá trình làm Đồ án tốt nghiệp là tìm kiếm tài liệu và tổng hợp nó thành một chuỗi các kiến thức liên tục tránh lang man và yếu tố thuyết phục người tham khảo cũng rất quan trọng, do đó bên cạnh trình bày chi tiết về cách thức nén, em đã cố gắng mô phỏng một phần ưu điểm của chuẩn nén này nhằm góp phần sinh động cho đề tài.
TỔ CHỨC ĐỒ ÁN
Đồ án được trình bày thành 6 chương và 1 phụ lục.
Chương I: Trình bày cơ sở về nén tín hiệu video, các thông số đặc trưng của tín hiệu số và quá trình biến đổi tín hiệu màu, phân loại các nguyên lý nén.
Chương II: Trình bày các kỹ thuật được sử dụng trong nén Video, các phép biến đổi và các kỹ thuật mã hóa, các tiêu chuẩn đáng giá chất lượng ảnh nén MSE, PSNR, MAE,SAE …
Chương III: Trình bày các chuẩn nén thuộc họ MPEG, cấu trúc dòng bit, các ưu điểm đã đạt được.
Chương IV: Cũng là chương quan trọng nhất, trình bày chuẩn nén tiên tiến nhất hiện nay: MPEG-4 H.264/AVC, các đặc tính nổi bật và các kỹ thuật mới trong chuẩn nén này.
Chương V: Các ứng dụng của MPEG-4 H.264/AVC trong thực tế và tương lai.
Chương VI: Mô phỏng một phần quá trình nén và giải nén của MPEG-4 H.264/AVC, mô phỏng kiểu mã hóa tiên tiến như bù chuyển động với kích thước 4x4, sử dụng bảng lượng tử vô hướng 52 giá trị…
Tuy nhiên, do kinh nghiệm còn hạn chế, đồng thời MPEG-4 H.264/AVC là một kỹ thuật còn trong giai đoạn nghiên cứu và phát triển, nên chắc chắn Đồ án sẽ không tránh khỏi sai sót, kính mong Quý Thầy Cô, và bạn bè đồng nghiệp đóng góp ý kiến nhằm hoàn thiện tốt Đồ án tốt nghiệp này.
CƠ SỞ VỀ NÉN TÍN HIỆU VIDEO
SỰ CẦN THIẾT CỦA NÉN TÍN HIỆU
Một tín hiệu video số thường chứa một lượng lớn dữ liệu, do đó sẽ gặp rất nhiều khó khăn trong việc lưu trữ và truyền đi trong một băng thông kênh truyền hạn chế. Với sự phát triển của khoa học kỹ thuật, ngày nay đã sản xuất được bộ cảm biến màu có độ phân giải lên đến 16 triệu pixel tương đương với một bức ảnh có độ phân giải 4096x4096 pixels, nhưng thực tế ứng dụng cần độ phân giải cao nhất hiện nay cũng chỉ dùng lại ở 1920x1080 pixel, do đó để có thể tiết kiệm không gian lưu trữ và băng thông kênh truyền thì cần nén tín hiệu.
Quá trình nén ảnh thực hiện được là do thông tin trong bức ảnh có tổ chức, có trật tự, vì vậy nếu xem xét kỹ tính trật tự, cấu trúc ảnh sẽ phát hiện và loại bỏ được các lượng thông tin dư thừa, chỉ giữa lại các thông tin quan trọng nhằm giảm số lượng bit khi lưu trữ cũng như khi truyền mà vẫn đảm bảo tính thẩm mỹ của bức ảnh. Tại đầu thu, bộ giải mã sẽ tổ chức, sắp xếp lại được bức ảnh xấp xỉ gần chính xác so với ảnh gốc nhưng vẫn đảm bảo thông tin cần thiết. Tín hiệu video thường chứa đựng một lượng lớn các thông tin dư thừa, chúng thường được chia thành 5 loại như sau:
Có sự dư thừa thông tin về không gian: giữa các điểm ảnh lân cận trong phạm vi một bức ảnh hay một khung video, còn gọi là thừa tĩnh bên trong từng frame.
Có sự dư thừa thông tin về thời gian: giữa các điểm ảnh của các khung video trong chuỗi ảnh video, còn gọi là thừa động giữa các frame
Có sự dư thừa thông tin về phổ: giữa các mẫu của các dữ liệu thu được từ các bộ cảm biến trong camera, máy quay…
Có sự dư thừa do thống kê: do bản thân của các ký hiệu xuất hiện trong dòng bit với các xác suất xuất hiện không đồng đều.
Có sự dư thừa tâm thị giác: thông tin không phù hợp với hệ thống thị giác con người, những tần số quá cao so với cảm nhận của mắt người.
Ưu điểm của việc nén tín hiệu:
Tiết kiệm băng thông kênh truyền ( trong thời gian thực hoặc nhanh hơn).
Kéo dài thời giản sử dụng của thiết bị lưu trữ, giảm chi phí đầu tư cho thiết bị lưu trữ.
Giảm dung lượng thông tin mà không làm mất tính trung thực của hình ảnh.
Có nhiều phương pháp nén tín hiệu, phương pháp nén bằng cách số hóa tín hiệu vẫn tỏ ra hữu hiệu trong mọi thời đại, một mặt nó có thể làm giảm lượng thông tin không quan trọng một cách đáng kể, mặt khác nó còn giúp cho tín hiệu được bảo mật hơn.
QUÁ TRÌNH SỐ HÓA TÍN HIỆU
Quá trình số hoá tín hiệu tương tự, bao gồm quá trình lọc trước (prefiltering), lấy mẫu, lượng tử và mã hoá minh họa như hình I.1. Quá trình lọc trước nhằm loại bỏ các tần số không cần thiết ở tín hiệu cũng như nhiễu, bộ lọc này còn gọi là bộ lọc chống nhiễu xuyên kênh Aliasing.
LẤY MẪU
Thực chất đây là một phép toán rời rạc hay là một phép điều biên xung PAM và được thực hiện bằng các mạch Op-amp có cực khiển strobe. Nó tạo ra giá trị tín hiệu tương tự tại một số hữu hạn các giá trị có biến rời rạc gọi là các mẫu. Các mẫu được lấy cách đều nhau gọi là chu kỳ lấy mẫu. Tần số lấy mẫu phải thoả mãn định lý Nyquist-Shannon :
Trong đó: + fs là tần số lấy mẫu.
+ fmax là tần số cực đại của phổ tín hiệu tương tự.
LƯỢNG TỬ HÓA.
Quá trình lượng tử là quá trình chuyển một xung lấy mẫu thành một xung có biên độ bằng mức lượng tử gần nhất hay nói cách khác là lượng tử chuyển đổi các mức biên độ của tín hiệu đã lấy mẫu sang một trong các giá trị hữu hạn các mức nhị phân. Lượng tử hoá biến đổi tín hiệu liên tục theo thời gian thành tín hiệu có biên độ rời rạc, nhằm làm giảm ảnh hưởng của tạp âm trong hệ thống, hạn chế các mức cho phép của tín hiệu lấy mẫu và chuẩn bị truyền tín hiệu gốc từ tương tự sang số. Giá trị thập phân của các mẫu sau khi lượng tử hoá sẽ được biểu diễn dưới dạng số nhị phân n bit (N= 2n), với n là độ phân giải lượng tử hoá, n càng lớn thì độ chia càng mịn, do đó độ chính xác càng cao.
Do làm tròn các mức nên tín hiệu bị méo dạng do sai số lượng tử gọi là méo lượng tử, tỷ số tín hiệu trên méo lượng tử (S/N) được xác định bởi:
Maõ hoaù tín hieäu
Tín hieäu ñöôïc laáy maãu
Xung laáy maãu
Tín hieäu goác
t
t
t
t
1000
0001
0000
TS chu kyø laáy maãu
Hình I.1: Sô ñoà quaù trình taïo tín hieäu soá.
Lượng tử hóa có hai loại:
Lượng tử tuyến tính: phép nén tín hiệu theo quy luật đường cong đồng đều, bước lượng tử bằng nhau.
Lượng tử phi tuyến: phép nén tín hiệu theo quy luật đường cong không đồng đều, tập trung nhiều mức lượng tử ở những vùng tín hiệu nhỏ. Trong kỹ thuật nén ảnh, nén video thì loại lượng tử phi tuyến được dùng nhiều hơn vì nó giảm dung lượng đến mức tối đa với độ méo lượng tử có thể chấp nhận được.
MÃ HÓA
Là quá trình thay thế mỗi mức điện áp cố định sau khi lượng tử bằng một dãy nhị phân gọi là từ mã. Tất cả các từ mã đều chứa số xung nhị phân cố định và được truyền trong khoảng thời gian giữa 2 thời điểm lấy mẫu cạnh nhau. Bộ mã được sử dụng để tái tạo các xung nhị phân hoặc các từ mã từ các giá trị đã lượng tử xuất hiện ở đầu ra của bộ lượng tử hoá.
TỐC ĐỘ BIT VÀ THÔNG LƯỢNG KÊNH TRUYỀN TÍN HIỆU SỐ
TỐC ĐỘ BÍT
Tốc độ bit là số lượng bit được truyền đi hay lưu trữ trong một đơn vị thời gian.
(bit/s)
Trong đó :
+là tần số lấy mẫu (Hz).
+ n là số bit nhị phân trong một ký hiệu.
+ C là tốc độ bit (bps).
THÔNG LƯỢNG KÊNH TRUYỀN
Là tốc độ số liệu cực đại có thể truyền được trên kênh truyền có độ rộng băng tần B.
(bps)
Trong đó
+ C là tốc độ bit (bps)
+ là tỷ số tín hiệu trên nhiễu trắng.
+ B là băng thông kênh truyền (Hz).
Tốc độ bit càng lớn thì tín hiệu tương tự khôi phục lại càng trung thực tuy nhiên nó sẽ là cho dung lượng lưu trữ và băng thông kênh truyền càng lớn. Trong thực tế để truyền tín hiệu có tốc độ bit là C (bps) thì cần băng thông kênh truyền là: (Hz)
Ví dụ: với n = 4, fs = 44,1Khz thì:
Tốc độ truyền thông tin là : C = n x fs = 4 x 44,1 = 176,3.103 bits/s
Và độ rộng băng tần là =
QUÁ TRÌNH BIẾN ĐỔI TÍN HIỆU MÀU
R, G, B
Hình I.2. Quá trình biến đổi màu
Hình II.2. Minh hoïa quaù trình bieán ñoåi maøu.
Một bức ảnh được chuyển từ RGB sang YUV nhằm giảm dung lượng lưu trữ cũng như truyền đi, trong quá trình giải mã, trước khi hiển thị ảnh thì nó được biến đổi ngược lại thành RGB. Công thức minh họa quá trình biến đổi như sau:
(1)
Với , kb = 0.114, kr = 0.299, khi thế vào công thức (1) thì ta được:
Nên ta có ma trận biến đổi từ RGB sang YUV như sau:
Thực hiện tương tự ta suy ra được ma trận biến đổi từ YUV sang RGB như sau:
CÁC TIÊU CHUẨN LẤY MẪU TÍN HIỆU VIDEO SỐ
Kiểu lấy mẫu cho ảnh video cũng là một vấn đề khá quan trọng của kỹ thuật nén ảnh. Một số kiểu lấy mẫu phổ biến minh họa như hình I.3 và có đặc điểm như sau:
Tốc độ lấy mẫu 4:1:1 - tần số lấy mẫu tín hiệu chói là 13,5MHz, và mỗi tín hiệu hiệu màu là 3,375MHz.
Tốc độ lấy mẫu 4:2:2 - tần số lấy mẫu tín hiệu chói là 13,5MHz, và mỗi tín hiệu hiệu màu là 6,75MHz.
Tốc độ lấy mẫu 4:4:4 - cả 3 thành phần có cùng độ phân giải, nghĩa là tần số lấy mẫu tín hiệu chói là 13,5MHz, và mỗi tín hiệu hiệu màu là 13,5MHz.
Tốc độ lấy mẫu 4:2:0 - là kiểu phổ biến, tần số lấy mẫu tín hiệu chói là 13,5MHz, và mỗi tín hiệu hiệu màu là 6,75MHz theo cả 2 chiều
Ví dụ : Một bức ảnh có độ phân giải 720 × 576 pixels
Độ phân giải của thành phần Y là 720 × 576 pixels được mã hóa bằng từ mã 8 bits.
Nếu sử dụng kiểu lấy mẫu 4:4:4 thì độ phân giải của thành phần Cb, Cr là 720 × 576 mẫu cũng được mã hóa bằng từ mã 8 bits.
=> Vậy tổng số bits sử dụng để mã hóa bức ảnh là 720 × 576 × 8 × 3 = 9 953 280 bits
Nếu sử dụng kiểu lấy mẫu 4:2:0 thì độ phân giải của thành phần Cb, Cr là 360 × 288 mẫu, cũng được mã hóa bằng từ mã 8 bits.
=> Vậy tổng số bits sử dụng là (720 × 576 × 8) + (360 × 288 × 8) × 2 = 4 976 640 bits
Hình I.3. Các tiêu chuẩn lấy mẫu phổ biến
Trong kiểu 4:4:4, tổng số mẫu cần thiết là 12 mẫu, do đó tổng số bit là 12 × 8 = 96 bits, và trung bình là 96/4 = 24 bits/pixel
Trong kiểu 4:2:0, tín hiệu được quét xen kẽ, do đó chỉ cần thiết 6 mẫu, 4 mẫu cho thành phần Y, 1 mẫu cho thành phần Cb, 1 mẫu cho thành phần Cr, do đó tổng số bits cần thiết là 6 × 8 = 48 bits, và trung bình là 48/4 = 12 bits/pixel.
Ta thấy kiểu lấy mẫu 4:2:0 giảm một ½ số lượng bits so với 4:4:4, đó cũng chính là lý do mà kiểu lấy mẫu này được sử dụng phổ biến.
MÔ HÌNH NÉN TÍN HIỆU VIDEO
Nén thời gian
Nén không gian
Lưu trữ ảnh
Bộ mã hóa ENTROPY
Hình I.4. Sơ đồ khối nén tín hiệu Video cơ bản
Các khối chính là:
- Khối nén dư thừa thời gian.
Dự đoán chuyển động
Bù chuyển động
- Khối nén dư thừa theo không gian.
Biến đổi DCT, DWT
Lượng tử hóa
Xắp xếp lại trật tự và mã hóa Entropy
NÉN TÍN HIỆU VIDEO
Tín hiệu video có dải phổ nằm trong khoảng 0 -> 6Mhz, do thành phần tần số cao chỉ xuất hiện ở các đường viền của hình ảnh nên năng lượng phổ rất ít tập trung ở miền tần số cao mà chủ yếu tập trung ở miền tần số thấp. Điều đó có nghĩa là số lượng bit ở miền tần số thấp sẽ nhiều hơn ở miền tần số cao.
Trong các hệ thống nén, tỉ số nén chính là tham số quan trọng đánh giá khả năng nén của hệ thống, ta gọi n1, n2 là số lượng bit của tín hiệu trước và sau khi nén nên ta có công thức như sau:
Tỷ số nén sẽ là
Phần trăm nén hay còn gọi là độ dư thừa dữ liệu tương đối.
Nếu n1= n2 thì ta có C =1, và R = 0 nghĩa là không có sự dư thừa dữ liệu.
Nếu n2<<n1 thì C, R, ta nói rằng có sự dư thừa dữ liệu lớn.
Ví dụ : n1 = 100Mb/s, n2 = 20Mb/s thì C = 5:1, R = 80%. Tức là ảnh có sự dư thừa lớn, hiệu quả nén đạt 80%.
LƯỢNG TIN TRUNG BÌNH (ENTROPY)
Trước khi nghiên cứu các phương pháp nén, ta cần đánh giá lượng thông tin chủ yếu được chứa đựng trong hình ảnh, từ đó xác định dung lượng tối thiểu cần sử dụng để miêu tả, truyền tải thông tin về hình ảnh.
Thông tin được ký hiệu là ai và có xác suất p(ai) thì lượng tin được xác định theo công thức sau:
Theo công thức trên ta thấy lượng tin chứa đựng trong một hình ảnh sẽ tỉ lệ nghịch với khả năng xuất hiện của ảnh đó, nghĩa là sự kiện ít xảy ra sẽ chứa đựng nhiều thông tin hơn và bằng tổng số lượng thông tin của từng phần tử ảnh.
Gọi lượng tin trung bình của hình ảnh là H(X) và được tính bằng công thức sau:
Xác suất phân bố càng nhiều thì lượng tin trung bình entropy càng nhỏ. Entropy đạt giá trị cực đại đối với phân bố đều, do đó nếu một ký hiệu có xác suất lớn sẽ có số Entropy nhỏ.
Ví dụ: Giả sử có một ảnh đen trắng với độ phân giải lượng tử 8 bit. Ký hiệu i là mức xám của pixel và bộ ký hiệu A là tập hợp tất cả các mức xám từ 0->255, mức xám 0 tương ứng với màu đen, mức xám 255 tương ứng với màu trắng. Do đó, Entropy của ảnh là
Giả sử ta có kích thước 4x8 pixels như sau:
21 21 21 95 169 243 243 243
21 21 21 95 169 243 243 243
21 21 21 95 169 243 243 243
21 21 21 95 169 243 243 243
Ta sẽ xét các độ dư thừa của các pixel trong ảnh, hoặc giữa các ảnh liên tiếp như sau.
Giả sử các mức xám của tín hiệu hình đen trắng độc lập thống kê với nhau, dựa vào số liệu thống kê cụ thể là.
Mức xám Số lượng pixel Xác suất.
21 12 3/8
95 4 1/8
169 4 1/8
243 12 3/8
Entropy của phần ảnh tĩnh này là:
H(x) =
Tuy nhiên, trong thực tế các mức xám của các pixel không độc lập thống kê với nhau, nên ta có thể biểu diễn theo từng cặp pixel liên tiếp như sau:
Giá trị cặp mức xám Số lượng cặp Xác suất
(21, 21) 8 1/4
(21, 95) 4 1/8
(95, 169) 4 1/8
(169, 243) 4 1/8
(243, 243) 8 1/4
(243, 21) 4 1/8
H(x) =
Ngoài ra còn có thể biểu diễn theo phần chênh lệch mức xám của 2 pixel liên tiếp như sau.
21 0 0 74 74 74 0 0
21 0 0 74 74 74 0 0
21 0 0 74 74 74 0 0
21 0 0 74 74 74 0 0
Giá trị mức xám Số lượng Xác suất.
21 4 1/8
0 16 1/2
74 12 3/8
H(x) =
Như vậy, số lượng tin trung bình tối thiểu cần thiết để truyền một phần tử ảnh sẽ khác nhau, nghĩa là độ dư thừa trong ảnh và giữa các bức ảnh sẽ phụ thuộc vào cách mã hóa Entropy. Do đó cần phải xem xét kỹ để chọn ra loại mã hóa hiệu quả nhất.
CÁC KỸ THUẬT NÉN VIDEO
PHÂN LOẠI CÁC KỸ THUẬT NÉN
Nén video được chia thành hai họ lớn: Nén không tổn hao và nén tổn hao.
Nén không tổn hao là quy trình biểu diễn các ký hiệu trong dòng bit nguồn thành dòng các từ mã sao cho ảnh được khôi phục hoàn toàn giống ảnh gốc, các thuật toán chỉ phụ thuộc vào cách thống kê nội dung dữ liệu và thường dựa trên việc thay thế một nhóm các ký tự trùng lặp bởi một nhóm các ký tự đặc biệt khác ngắn hơn mà không quan tâm đến ý nghĩa của dòng bit dữ liệu, nên đòi hỏi phải có thiết bị lưu trữ và đường truyền lớn hơn.
Nén có tổn hao, tức là ảnh được khôi phục không hoàn toàn giống ảnh gốc, dạng nén này thích hợp cho việc lưu trữ và truyền ảnh tĩnh, ảnh video qua một mạng có băng thông hạn chế. Các dạng nén này thường có hệ số nén cao hơn (từ 2:1 đến 100:1) và gây nên tổn hao dữ liệu và sự suy giảm ảnh sau khi giải nén do việc xóa và làm tròn dữ liệu trong một khung hay giữa các khung. Nó liên quan đến việc dùng các phép biến đổi tín hiệu từ miền này sang miền khác.
Trong thực tế phương pháp nén tổn hao thường được sử dụng nhiều hơn và các kỹ thuật nén tổn hao thường sử dụng như: mã hóa vi sai, biến đổi cosin rời rạc DCT, lượng tử vô hướng, quét zig-zag, mã hóa Entropy…
QUÁ TRÌNH BIẾN ĐỔI
Hình II1. Moâ hình heä thoáng neùn toån hao.
Bieán ñoåi ngöôïc T-1
Giaûi löôïng töû hoùa R
Giaûi maõ D
Bieán ñoåi T
Löôïng töû hoùa Q
Maõ hoùa C
Giaûi neùn
Tín hiệu ngõ vào được biến đổi nhằm mục đích biểu diễn một số liệu khác thích hợp để nén hơn so với tín hiệu nguồn. Ở phía giải mã tín hiệu nén sẽ được biến đổi ngược lại để thu tín hiệu gốc. Một số phép biến đổi được áp dụng phổ biến hiện nay như:
ĐIỀU XUNG MÃ VI SAI DPCM
Các phương pháp nén dùng DPCM dựa trên nguyên tắc phát hiện sự giống nhau và khác nhau giữa các điểm ảnh gần nhau để loại bỏ các thông tin dư thừa. Trong DPCM chỉ có phần khác nhau giữa mẫu - mẫu được truyền đi, sự khác nhau này được cộng vào giá trị mẫu đã giải mã hiện hành ở phía giải mã để tạo ra giá trị mẫu phục hồi. Hình II.2. mô tả sơ đồ khối của bộ mã hóa và giải mã DPCM.
S
Boä löôïng töû
Maõ hoùa entropy
Boä tieân ñoaùn
S
Hình II.2. Boä maõ hoùa vaø boä giaûi maõ DPCM
Ví dụ
Mẫu tín hiệu vào 115 117 116 117 118 117 115 116
Sự khác nhau 2 -1 1 1 -1 -2 1
Dòng bit được nén như sau: 115 2 -1 1 1 -1 -2 1
MÃ HÓA BIẾN ĐỔI
Nhằm biến đổi các hệ số trong miền thời gian (video số), không gian 2D (bức ảnh tĩnh) thành các hệ số trong miền tần số. Các hệ số này ít tương quan hơn có phổ năng lượng tập trung hơn, thuận tiện cho việc loại bỏ thông tin dư thừa.
Biến đổi cosin rời rạc DCT
Vì ảnh gốc có kích thước rất lớn cho nên trước khi đưa vào biến đổi DCT, ảnh được phân chia thành các MB biểu diễn các mức xám của điểm ảnh. Việc phân khối này sẽ làm giảm được một phần thời gian tính toán các hệ số chung, mặt khác biến đổi cosin đối với các khối nhỏ sẽ làm tăng độ chính xác khi tính toán với dấu phẩy tĩnh, giảm thiểu sai số do làm tròn sinh ra. Phép biến đổi DCT cơ bản hoạt động dựa trên cơ sở ma trận vuông của mẫu sai số dự đoán, kết quả cho ta một ma trận Y là những hệ số DCT được minh họa như sau:
Y = AXAT
Trong đó A là ma trận hệ số biến đổi, các thành phần của A như sau:
Nếu i = 0
Nếu i > 0
Với
Tương đương với
Phép b
Các file đính kèm theo tài liệu này:
- LVver2.doc