Xử lý tín hiệu số - Xử lý tiếng nói

1. Một sốkhái niệm cơb m cơbản

2. Xửlý tín hiệu tiếng nói

3. Mã hoátiếng nói

4. Tổng hợp tiếng nói

5. Nhận dạng tiếng nó

pdf30 trang | Chia sẻ: Mr Hưng | Lượt xem: 821 | Lượt tải: 0download
Bạn đang xem trước 20 trang nội dung tài liệu Xử lý tín hiệu số - Xử lý tiếng nói, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
11 Trịnh Văn Loan Bộ môn Kỹ thuật Máy tính Khoa CNTT, ĐHBK Hà Nội XỬ LÝ TIẾNG NÓI 2 Tài liệu tham khảo „ La parole et son traitement automatique Calliope, Masson, 1989 „ Traitement de la parole Rene Boite et Murat Kunt, Presse Polytechnique Romandes, 1987 „ Fundamentals of Speech Signal Processing Saito S., Nakata K. , Academic Press, 1985 „ Digital Processing of Speech Signals Lawrence R. Rabiner, Ronald W. Schafer, Prentice-Hall .1978 „ Discrete-Time Processing of Speech Signals John R. Deller, John G. Proakis, Hansen John H. L. 1999 „ Tiếng Việt hiện đại (Ngữ âm, ngữ pháp, phong cách) Nguyễn Hữu Quỳnh, Hà Nội, 1994 „ Dẫn luận Ngôn ngữ học Nguyễn Thiện Giáp, Đoàn Thiện Thuật , Nguyễn Minh Thuyết, Hà Nội, 1994 „ 3 Nội dung 1. Một số khái niệm cơ bản 2. Xử lý tín hiệu tiếng nói 3. Mã hoá tiếng nói 4. Tổng hợp tiếng nói 5. Nhận dạng tiếng nói 4 „ Xử lý thông tin chứa trong tín hiệu tiếng nói nhằm truyền, lưu trữ tín hiệu này hoặc tổng hợp, nhận dạng tiếng nói. „ Các nghiên cứu được tiến hành để xử lý tiếng nói yêu cầu những hiểu biết trên nhiều lĩnh vực ngày càng đa dạng: từ ngữ âm và ngôn ngữ học cho đến xử lý tín hiệu... 1. Một số khái niệm cơ bản 25 Mục đích „ Mã hoá một cách có hiệu quả tín hiệu tiếng nói để truyền và lưu trữ tiếng nói. „ Tổng hợp và nhận dạng tiếng nói tiến tới giao tiếp người-máy bằng tiếng nói. „ Tất cả các ứng dụng của xử lý tiếng nói đều cần phải dựa trên các kết quả của phân tích tiếng nói 6 Một số khái niệm cơ bản „ Phân biệt tiếng nói và âm thanh Tiếng nói được phân biệt với các âm thanh khác bởi các đặc tính âm học có nguồn gốc từ cơ chế tạo tiếng nói. „ Có 2 loại nguồn âm – tuần hoàn (dây thanh rung) – tạp âm (dây thanh không rung) 7 Bộ máy phát âm 8 Bộ máy phát âm 39 Bộ máy phát âm NASAL CAVITY: Khoang mũi SOFT PALATE: Vòm miệng mềm EPIGLOTTIS: Nắp thanh quản VOCAL FOLDS (CORDS): Dây thanh OESOPHAGUS: Thực quản TRACHEA: Khí quản PHARYNX: Họng 10 Sơ đồ khối bộ máy phát âm 11 Thanh môn Dây thanh Thanh môn 12 1. Mét sè kh¸i niÖm c¬ b¶n A. Glotte pendant la respiration B. Glotte pour la phonation 1. Glotte 2. Cordes vocales 3. Epiglotte 5. Cartilages aryténoïdes Thanh môn „ Ở các vị trí hít, thở,phát âm, nói thì thào 413 Dây thanh trong một chu kỳ dao động 14 Biểu diễn tín hiệu tiếng nói „ Dạng sóng theo thời gian 15 „ Tần số lấy mẫu: 8kHz, F1= 11025 Hz, 2F1, 4F1 (16kHz, 10kHz) „ Số bit/mẫu: 8,16 „ Mono, Stereo File WAV 16 Biểu diễn tín hiệu tiếng nói „ Phổ tín hiệu tiếng nói 517 Biểu diễn tín hiệu tiếng nói „ Spectrogram (Sonagram) 18 Biểu diễn tín hiệu tiếng nói 19 Biểu diễn tín hiệu tiếng nói 20 Biểu diễn tín hiệu tiếng nói „ Thu bằng micro khác loại 621 Biểu diễn tín hiệu tiếng nói „ Hai giọng khác nhau cho cùng một âm 22 Biểu diễn tín hiệu tiếng nói „ Cùng người nói, cùng một âm 23 Năng lượng, tỷ lệ biến thiên qua giá trị không 0 0.5 1 1.5 2 2.5 3 3.5 -0.6 -0.4 -0.2 0 0.2 0.4 a m p l i t u d e file:C:\wav\1-6-5-8-10-0.wav, ss,es:1, 43029, window length, shift (samples):160, 40, wtype:1 Signal 0.5 1 1.5 2 2.5 3 3.5 1 2 3 4 s h o r t - t i m e e n e r g y En 0.5 1 1.5 2 2.5 3 3.5 5 10 15 s h o r t - t i m e m a g n i t u d e Mn 0.5 1 1.5 2 2.5 3 3.5 0 20 40 60 80 time in seconds z e r o c r o s s i n g r a t e ZC 24 Tạo âm hữu thanh Formant và antiformant 725 Tạo âm vô thanh 26 Một số đặc điểm ngữ âm tiếng Việt „ Đơn âm tiết „ Có thanh điệu (6), biến đổi thanh điệu kèm theo biến đổi nghĩa „ Không biến đổi hình thái 27 1 i,y ý chí 2 ê ê chề 3 e e dè 4 a a ha 5 ă mắt 6 ơ bơ phờ 7 â ân cần 8 ư từ từ 9 ô ôtô 10 o co ro 11 u lù mù 1 ia,yê,ya,iê (đọc ia, yê) kia kìa, yêu kiều, khuya, tiên tiến 2 ua,uô (đọc ua) tua rua, luôn 3 ưa,ươ (đọc ưa) lưa thưa, lượt Một số đặc điểm ngữ âm tiếng Việt „ Hệ thống âm vị: 14 nguyên âm (11 nguyên âm đơn, 3 nguyên âm đôi, 22 phụ âm) 28 1 b bồng bềnh 2 p ốp ép 3 v vẩn vơ 4 ph phôi pha 5 m mơ màng 6 đ đất đai 7 t tin tưởng 8 th thơ thẩn 9 d,gi duyên, giữ 10 n nóng 11 l long lanh 12 tr trồng 13 s sinh viên 14 r rừng 15 ch chông 16 nh nhọc 17 ng,ngh ngô nghê 18 c,k,q con,kẹt,qua 19 kh khúc 20 g,gh gồ ghề 21 h hả hê 22 x xa xôi Một số đặc điểm ngữ âm tiếng Việt „ Hệ thống âm vị: 22 phụ âm 829 Độ nâng Hàng cao trung bình thấp trước i e e ơ â o giữa ư a ă sau u ô Một số đặc điểm ngữ âm tiếng Việt „ Phân loại nguyên âm theo độ nâng của lưỡi và chuyển động của lưỡi 30 Hàng Độ mở hàng trước hàng sau không tròn môi hàng sau tròn môi hẹp i ia,yê,ya,iê ư ưa ơ â rộng a ă u ua hơi hẹp ê ô hơi rộng e o Một số đặc điểm ngữ âm tiếng Việt „ Phân loại nguyên âm theo độ mở của miệng và chuyển động của lưỡi 31 th Vô thanh p t tr ch c,k,qu Hữu thanh b đ m n nh ng,ngh ph x s kh h v d,gi r g l Xát Bật hơi Vang mũi Vô thanh Hữu thanh Vang bên Ồn Không bật hơi Ồn Cuối lưỡi Họng Phương thức cấu âm Vị trí cấu âm Đầu lưỡi Môi Răng Vòm miệng Tắc Mặt lưỡi Một số đặc điểm ngữ âm tiếng Việt „ Phân loại phụ âm theo tắc hay xát, hữu thanh hay vô thanh, mũi hóa 32 Một số đặc điểm ngữ âm tiếng Việt „ Âm tắc: tiếng nổ, phát sinh do luồng khí từ phổi đi ra bị cản trở hoàn toàn, phải phá vỡ sự cản trở đó để thoát ra. „ Âm xát: tiếng cọ xát, phát sinh do luồng không khí đi ra bị cản trở không hoàn toàn (chỉ bị khó khăn), phải lách qua một khe hở nhỏ và trong khi thoát ra như vậy phải cọ xát vào thành của bộ máy phát âm. „ Phụ âm bên: đầu lưỡi tiếp xúc với lợi chặn lối thoát của không khí, buộc nó phải lách qua khe hở ở hai bên cạnh lưỡi tiếp giáp với má mà ra ngoài tạo nên tiếng xát nhẹ (l). „ Luồng không khí thoát ra ngoài bị cản trở, tạo nên tiếng xát hay tiếng nổ, dạng tín hiệu không tuần hoàn gọi là tiếng động (ồn). „ Trong khi phát âm một số phụ âm, dây thanh cũng hoạt động đồng thời tạo nên tiếng thanh. „ Phụ âm có tỉ lệ tiếng động lớn hơn gọi là phụ âm ồn. „ Phụ âm có tỉ lệ tiếng thanh lớn hơn gọi là phụ âm vang. 933 phê bé vẽ chè Dạng sóng một số từ tiếng Việt 34 trị tìm tám đánh Dạng sóng một số từ tiếng Việt 35 kệ lạ khả Dạng sóng một số từ tiếng Việt 36 0 50 100 150 200 250 300 350 400 450 500 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5 CHUR.WAV, Fs = 11025Hz, 5669 samples, Time = 514ms A m p l i t u d e Time in ms Dạng sóng một số từ tiếng Việt 10 370 50 100 150 200 250 300 350 400 450 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 DDEER.WAV, Fs = 11025Hz, 5278 samples, Time = 479ms A m p l i t u d e Time in ms Dạng sóng một số từ tiếng Việt 38 0 100 200 300 400 500 600 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 KHAR.WAV, Fs = 11025Hz, 7718 samples, Time = 700ms A m p l i t u d e Time in ms Dạng sóng một số từ tiếng Việt 39 0 1 0 0 2 0 0 3 0 0 4 0 0 5 0 0 6 0 0 - 0 . 3 - 0 . 2 - 0 . 1 0 0 . 1 0 . 2 0 . 3 N G H I R . W A V , F s = 1 1 0 2 5 H z , 6 7 0 7 s a m p l e s , T i m e = 6 0 8 m s A m p l i t u d e T i m e i n m s Dạng sóng một số từ tiếng Việt 400 100 200 300 400 500 600 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 XOA.WAV, Fs = 11025Hz, 7690 samples, Time = 697ms A m p l i t u d e Time in ms Dạng sóng một số từ tiếng Việt 11 41 0 100 200 300 400 500 600 -0.6 -0 .4 -0 .2 0 0.2 0.4 0.6 P HA IR .W A V , F s = 11025H z , 6934 s am ples , T im e = 629m s A m p l i t u d e T im e in m s Dạng sóng một số từ tiếng Việt 42 0 50 100 150 200 250 300 350 400 -0.2 -0.15 -0.1 -0.05 0 0.05 0.1 0.15 0.2 MEJ.WAV, Fs = 11025Hz, 4922 samples, Time = 446ms A m p l i t u d e Time in ms Dạng sóng một số từ tiếng Việt 43 0 100 200 300 400 500 600 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 BUF.WAV, Fs = 11025Hz, 6779 samples, Time = 615ms A m p l i t u d e Time in ms Dạng sóng một số từ tiếng Việt 440 50 100 150 200 250 300 350 400 450 -0.6 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 TAMS.WAV, Fs = 11025Hz, 4989 samples, Time = 452ms A m p l i t u d e Time in ms Dạng sóng một số từ tiếng Việt 12 45 0 100 200 300 400 500 600 700 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 GIAF.WAV, Fs = 11025Hz, 8772 samples, Time = 796ms A m p l i t u d e Time in ms Dạng sóng một số từ tiếng Việt 46 0 100 200 300 400 500 600 700 800 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 VIF.WAV, Fs = 11025Hz, 9872 samples, Time = 895ms A m p l i t u d e Time in ms Dạng sóng một số từ tiếng Việt 47 0 100 200 300 400 500 600 -0.6 -0.4 -0.2 0 0.2 0.4 KHOONG.WAV, Fs = 11025Hz, 6743 samples, Time = 612ms A m p l i t u d e Time in ms Dạng sóng một số từ tiếng Việt 48 0 50 100 150 200 250 300 350 400 450 500 -0.4 -0.2 0 0.2 0.4 0.6 NHAAN.WAV, Fs = 11025Hz, 5713 samples, Time = 518ms A m p l i t u d e Time in ms Dạng sóng một số từ tiếng Việt 13 490 50 100 150 200 250 300 350 400 450 -0.6 -0.4 -0.2 0 0.2 0.4 LAJ.WAV, Fs = 11025Hz, 5442 samples, Time = 494ms A m p l i t u d e Time in ms Dạng sóng một số từ tiếng Việt 50 0 50 100 150 200 250 300 350 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 TRIJ.WAV, Fs = 11025Hz, 4108 samples, Time = 373ms A m p l i t u d e Time in ms Dạng sóng một số từ tiếng Việt 51 0 100 200 300 400 500 600 700 800 -0.5 -0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 SOOS.WAV, Fs = 11025Hz, 8888 samples, Time = 806ms A m p l i t u d e Time in ms Dạng sóng một số từ tiếng Việt 52 0 50 100 150 200 250 300 350 400 450 500 -0.4 -0.2 0 0.2 0.4 0.6 TIMF.WAV, Fs = 11025Hz, 5589 samples, Time = 507ms A m p l i t u d e Time in ms Dạng sóng một số từ tiếng Việt 14 53 Mô hình tạo tiếng nói (Fant-1960) ∏ = −− ++ = K 1k 2 k2 1 k1 )zbzb1( B)z(V )z1(C)z(R 1−−= T0 Lọc thông thấp G(z) Lọc thông thấp G(z) Tuyến âm V(z) Tuyến âm V(z) Tải bức xạ R(z) Tải bức xạ R(z) u(n) x(n) )z1)(z1( A)z(G 11 −− β+α+= 54 )z(A )z(R)z(V)z(G)z(T σ== p2K 1 i i i i 0 i 1 i 0 A(z) 1 a z A(z) a z a 1 + − − = = = + = =∑ ∑ )n(u)in(xa)n(x p 1i i σ=−+∑ = )z(A )z(T σ= P = 2K+1 Mô hình toàn điểm cực (AR) „ A(z): Hàm truyền đạt của bộ lọc đảo 55 Mô hình ARMA )z(A )z(C )z(A)z(A )z(T 2 2 1 1 σ=σ+σ= 1zc)z(C -i q 0i i == ∑ = 0c )in(uc)in(xa)n(x q 0i i p 1i i −σ=−+ ∑∑ == 56 1 Tần số Biên độ Dải thông Fk Bk 1 2/ Dải thông 15 57 2. Xử lý tín hiệu tiếng nói „ Phân tích phổ – Bộ lọc hiệu chỉnh H(z) = 1 – az-1, a = 0,95..0,98 Bộ lọc hiệu chỉnh Cửa sổ Hamming FFT Log |.| 58 N x(n) frame 0 59 Xử lý đồng hình (homomorphic) „ s(n)=h(n)*e(n) S(ω) = H(ω).E(ω) „ log[S(ω)]= log[H(ω)]+ log[E(ω)] F-1{log[S(ω)]} = F-1{log[H(ω)]} + F-1{log[E(ω)]} F-1{log[S(ω)]} = F-1{log[H(ω)]} = F-1{log[H(ω)]} = $s(n) $h(n) $e(n) $ $= +$s(n) h(n) e(n) 60 $s(n) Sơ đồ khối xử lý đồng hình Bộ lọc hiệu chỉnh Cửa sổ Hamming FFT Log |.| FFT-1 16 61 T0 h(n) ) c(n) T0 Ví dụ 62 „ Mô hình AR Tiên đoán Sai số tiên đoán Sai số bình phương toàn phần Tối thiểu hóa sai số $ $ = = − −∑p i i 1 x(n) ax(n i) $= −e(n) x(n) x(n) = ∑ 2 n E e (n) $ ∂ = =∂ i E 0, i 1,2,...,p a = + − = σ∑p i i 1 x(n) a x(n i) u(n) Tiên đoán tuyến tính (Linear Prediction Coding) 63 Xác định tần số cơ bản „ Giá trị F0 phụ thuộc vào giới tính và lứa tuổi – Giọng nam: 80..250 Hz – Giọng nữ: 150..500 Hz Xác định Fo Đánh giá kết quả Tiền xử lýTín hiệu tiếng nói 64 Một số phương pháp xác định Fo „ Dựa vào hàm tự tương quan „ Dựa vào hàm vi sai biên độ trung bình „ Dùng bộ lọc đảo và hàm tự tương quan „ Xử lý đồng hình 17 65 1 0 ( ) ( ) ( ) 0,1,..., − − = = + =∑ N k n R k x n x n k k K Dựa vào hàm tự tương quan „ Tính hàm tự tương quan R(k) của tín hiệu tiếng nói x(n) Fs = 10 kHz, N = 300, K = 150.Tìm cực đại trong khoảng (0, K) 66 Phương pháp tự tương quan có cải tiến „ Hạn chế, loại bỏ |x| < CL 67 Dựa vào hàm vi sai biên độ trung bình (Average Magnitude Difference Function) ( ) 0, 0,1,... D iP i= = 1/ 21 1 2 0 0 1 1( ) ( ) N N n n u n u n N N − − = = ⎡ ⎤≤ ⎢ ⎥⎣ ⎦∑ ∑ 2 1/ 2 1( ) [ ( ) ( )] 1 [2 (0) 2 ( )] 0,1,..., 1 ⎧ ⎫= + − + −⎨ ⎬⎩ ⎭ ⎧ ⎫= − =⎨ ⎬⎩ ⎭< ∑ 1/2N-1 m=0 D k x n m x n m k N r r k k K N λ λ λvíi 1 0 ( ) ( ) ( ) 0,1,..., − = = + − + − =∑N m D k x n m x n m k k K 68 700 750 800 850 900 950 1000 1050 1100 1150 -0.2 -0.1 0 0.1 0.2 0.3 x ( n ) n 0 50 100 150 200 250 300 -0.01 -0.005 0 0.005 0.01 0.015 r ( k ) k 0 50 100 150 200 250 300 0 0.05 0.1 0.15 0.2 D ( k ) k 700 750 800 850 900 950 1000 1050 1100 1150 -0.2 -0.1 0 0.1 0.2 0.3 x ( n ) n 50 100 150 200 250 300 -0.01 -0.005 0 0.005 0.01 0.015 r ( k ) k 0 50 100 150 200 250 300 0 0.05 0.1 0.15 0.2 D ( k ) k Ví dụ 18 69 Thông thấp Thông thấp 1-z-1 W(n)(n) LPC(p=4)LPC(p=4) A(z) Hàm tự tương quan Tìm cực đạiNội suyĐánh giá kết quả Fo HT/VT 10kHz 4700Hz 900Hz Dùng bộ lọc đảo (Simplified Inverse Filter Tracking) 70 Xử lý đồng hình 71 Xác định formant „ Tham số cần xác định – Formant Fk – Dải thông Bk „ Phương pháp – Xử lý đồng hình – LPC 72 Bộ lọc hiệu chỉnh Cửa sổ FFT Log10|.| FFT-1 FFT Wc(n) Xử lý đồng hình Tín hiệu tiếng nói 19 73 Xử lý đồng hình 74 Fk,Bk s(n) Bộ lọc hiệu chỉnh Cửa sổ Tính hệ số ai Tính1/ |A(ejω)| bằng FFT Tìm cực đại Tính nghiệm của A(z) Quyết định Phương pháp LPC 75 Mã hoáã hoáLọc1Lọc1 ADAD Giải mãiải ã DADA Lọc2Lọc2 Nhiễu, suy giảm, sai số Nhiễu, suy giảm, sai số 3. Mã hóa tiếng nói „ Dãy thao tác mã hoá và giải mã 76 0 ( ) lim[ /(2 1)]x Np N Nξξ ξ →∞∆ → = + Một số tính chất thống kê của tín hiệu tiếng nói „ Mật độ xác suất Nξ : số lượng mẫu x(n) có biên độ trong khoảng [ξ-∆ξ/2, ξ+∆ξ/2] n ∈[-N,...,N] x egodic và dừng 20 77 1( )d lim ( ) 2 1 N x x N n N p x n N µ ξ ξ ξ ∞ →∞ =−−∞ = = + ∑∫ 2 2 21( )d lim ( ) 2 1 N x x N n N p x n N σ ξ ξ ξ ∞ →∞ =−−∞ = = + ∑∫ Giá trị trung bình và phương sai „ Giá trị trung bình của tín hiệu dừng với tín hiệu tiếng nói µx = 0 „ Phương sai 78 Lượng tử tức thời (không nhớ) „ Luật lượng tử y = Q(x) được định nghĩa: – (L+1) mức tín hiệu x(0), x(1), ..., x(L) – L mức lượng tử hoá „ Mỗi mức lượng tử hoá biểu diễn bằng từ b bit L = 2b. „ Sai số lượng tử (tạp âm lượng tử) e = Q(x) - x „ Bước lượng tử : hiệu 2 mức tín hiệu kề nhau δ(i) = x(i)-x(i-1) „ Thông lượng I = bFs (bit/s). Fs : tần số lấy mẫu 79 „ Tín hiệu lượng tử 8 bit (256 mức), Fs = 8 kHz → Thông lượng = 64 kbit/s „ Tín hiệu lượng tử 16 bit (65536 mức), Fs = 16 kHz → Thông lượng = 256 kbit/s , 1 giờ tiếng nói ~100 Mbyte „ Cần phải mã hoá tín hiệu tiếng nói (MPEG, GSM, G723, ...) để truyền tiếng nói trên mạng hoặc lưu trữ Thông lượng 80 Tần số lấy mẫu (kHz) Số bit cho 1 mẫu Thông luợng kbit/s Dung lượng / phút (kbyte) Lĩnh vực 48 16 768 11520 Ghi âm chuyên nghiệp 44,1 16 705,6 10584 CD Audio 32 16 512 7680 Radio FM 22 12 264 3960 Radio AM 8 8 64 960 Điện thoại Thông lượng 21 81 Lượng tử đều „ Tổng quát, bước lượng tử là hàm của biên độ tín hiệu x (lượng tử không đều) → đơn giản nhất là lượng tử đều. „ Mức lượng tử được chọn giữa 2 mức tín hiệu y(i) = (1/2)[x(i-1)+x(i)] „ Luật lượng tử đều và đối xứng đặc trưng bởi: – các mức bão hoà ± xs – mức lượng tử L hoặc (L+1) = 2b. „ Bước lượng tử δ = 2xs/L 82 Lượng tử đều „ L = 9 83 0 2 4 6 8 10 12 14 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 10 12 14 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 Lượng tử đều 84 0 2 4 6 8 10 12 14 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 0 2 4 6 8 10 12 14 -1 -0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 1 Lượng tử đều „ L = 16 22 85 0 2 4 6 8 10 12 -1 0 1 0 2 4 6 8 10 12 -1 0 1 0 2 4 6 8 10 12 -1 0 1 0 2 4 6 8 10 12 -0.2 0 0.2 Quantification Error 0 2 4 6 8 10 12 -1 0 1 0 2 4 6 8 10 12 -1 0 1 0 2 4 6 8 10 12 -1 0 1 0 2 4 6 8 10 12 -0.2 0 0.2 Quantification Error Lượng tử đều 86 Các tính chất lượng tử đều „ Mật độ xác suất sai số lượng tử „ phân bố đều giữa - δ /2 và + δ /2 „ Trung bình tạp âm lượng tử = 0 „ Phương sai ( ) ( ), ( 1) / 2 e x i p p i Lξ δ ξ =− = + = −∑l l l / 2 2 2 2 / 2 / d /12e δ δ σ ξ δ ξ δ − = =∫ ( ) 1/ , / 2 0, / 2 ep ξ δ ξ δξ δ = ≤ = > 87 2 210 lg (dB) 6,02 4,77 20 lg x s xe xSN bσ σσ ⎛ ⎞ ⎛ ⎞= = + −⎜ ⎟ ⎜ ⎟⎝ ⎠⎝ ⎠ max4 (dB) 6 7,3NÕu sx SN bσ= → = − Các tính chất lượng tử đều „ Tỷ số tín hiệu trên nhiễu Với b ≥ 6, tăng 6 dB mỗi khi tăng 1 bit lượng tử. Để có chất lượng thích hợp cần có b ≥ 11 88 Tỷ số tín hiệu trên nhiễu hoặc s n dB 10 WSN W SN 10 log SN = = = N¨ng l−îng tÝn hiÖu N¨ng l−îng nhiÔu dB 10SN 20 log= Biª n ®é tÝn hiÖuBiª n ®é nhiÔu 23 89 Năng lượng SN (dB) Tín hiệu = Nhiễu 0 Tín hiệu = 2 Nhiễu 2 Tín hiệu = 10 Nhiễu 10 Tín hiệu = 100 Nhiễu 20 Tín hiệu = 1000 Nhiễu 30 Tín hiệu = 10N Nhiễu N x 10 Tỷ số tín hiệu trên nhiễu 90 log[]log[] Q[][] Mã hóaã hóa signe[]signe[] x(n) c(n) y(n) yˆ'(n) exp[]exp[]Giải mãiải ã signe[x(n)] c’(n) xˆ'(n) xˆ'(n) y(n) ) Lượng tử logarit „ Sau khi lấy logarit biên độ tín hiệu sẽ mã hoá tuyến tính 91 log(1 ) log(1 ) x y µ µ += + Lượng tử logarit „ Hai giải pháp dùng cho điện thoại – Luật µ (dùng ở Mỹ) 92 1 log 1 log A x y A += + 255 87,56 Aµ = = Lượng tử logarit „ Hai giải pháp dùng cho điện thoại – Luật A(dùng ở châu Âu) 8 bit logarit ~ 12 bit lượng tử đều 24 93 y(n)= x(n) G(n) Q[]Q[] Mã hóaMã hóa x(n) c(n) Thích nghi độ k.đại Thích nghi độ k.đại G(n) δ G(n) yˆ(n) yˆ'(n) Giải mãGiải mã c’(n): ˆˆ y'(n)x'(n) = G'(n) G’(n) Lượng tử thích nghi „ Bước lượng tử tuỳ thuộc vào biên độ tín hiệu – Thích nghi trước 94 Q[]Q[] Mã hóaMã hóa x(n) c(n)y(n) Thích nghi độ k.đại Thích nghi độ k.đại G(n) ∆ Giải mãGiải mã c’(n): G’(n) Thích nghi độ k.đại Thích nghi độ k.đại Lượng tử thích nghi – Thích nghi sau ˆˆ y'(n)x'(n) = G'(n) yˆ'(n) yˆ(n) 95 Một số chuẩn mã hoá âm thanh/tiếng nói „ G.721 : ADPCM, 32 kbps, 4bits, 8kHz „ G.722 : ~ADPCM, 48 đến 64 kbps, „ G.723 : ~ADPCM, 24 kbps, 3 bits, 8kHz „ G.728 : 16 Kbps „ GSM : điện thoại di động, 13 kbps „ Linear Predictive Encoding (Xerox), 5 kbps „ Code Excited Linear Prediction (CELP) „ Digital Video Interactive : ~ADPCM, 4 đến 8 bits „ VoIP: G723.1 (6.4kbits/s), G728, G729 (8kbits/s) 96 4. Tổng hợp tiếng nói „ Tạo tiếng nói xuất phát từ biểu diễn ngữ âm của lời nói „ Kỹ thuật tổng hợp tiếng nói: – Tổng hợp trực tiếp – Tổng hợp dựa trên mô hình „ Bộ tổng hợp formant „ Bộ tổng hợp dùng LPC „ Bộ tổng hợp mô phỏng bộ máy phát âm 25 97 Phân loại „ Chất lượng bộ tổng hợp: Mức độ tự nhiên – Mức độ rõ – Thanh điệu – Ngữ điệu „ Số lượng từ vựng: – Hạn chế – Không hạn chế „ Bộ tổng hợp tiếng nói từ văn bản (Text-to- Speech) 98 Tổng hợp trực tiếp „ Ghi âm tiếng nói tự nhiên - Đơn vị ghi âm - Ghép các đơn vị ghi âm: từ, câu. „ Đơn vị ghi âm – âm vị – âm tiết (diphone) – từ – tổ hợp từ – câu 99 Tổng hợp formant Tạo tạp âmTạo tạp âm Tạo xungTạo xung Kênh mũiKênh mũi F1 F2 F3 B1 B2 B3 F0 Khoang miệng A2 A1 A3 A4 100 Tổng hợp LPC Tạo xungTạo xung Bộ lọc số bậc p Bộ lọc số bậc p Tạo tạp âmTạo tạp âm F0 A a1 a2 ... ap Synthesis-by-Analysis 26 101 Mô phỏng bộ máy phát âm „ Mô phỏng nguồn âm (nguồn tuần hoàn) Mô phỏng dây thanh:Mô hình một khối, Mô hình hai khối, Mô hình nhiều khối, Mô hình hai dầm... Tham số điều khiển Nguồn âm Tuyến âm 102 Mô hình nguồn âm Mô hình 2 khối Mô hình 2 dầm Mô hình nhiều khối 103 Mô phỏng tuyến âm Rời rạc hóa 104 Mô hình phản xạ „ Giả thiết – Vách ngăn cứng – Sóng truyền đơn hướng (dọc theo trục ống)chỉ xét các tần số < 5000 Hz, biến thiên diện tích không quá đột ngột – Bỏ qua tổn hao: tính lỏng, truyền nhiệt 27 105 Ống tiết diện đều, không tổn hao „ Ống tiết diện đều và đường dây tương đương „ Hệ phương trình Webster u: thông lượng, p: áp suất, ρ: mật độ không khí, c: vận tốc sóng âm v(l,t)=0 0 2 0 p u x A t u A p x tc ρ ρ ∂ ∂− =∂ ∂∂ ∂− =∂ ∂ 0 ( , ) ( , ) x xu x t u t u t c c cx xp x t u t u t c c A ρ + − + − ⎛ ⎞ ⎛ ⎞= − − +⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠⎡ ⎤⎛ ⎞ ⎛ ⎞= − + +⎢ ⎥⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠⎣ ⎦ 106 Tương tự âm học – điện học Âm học Điện học p: Áp suất v: Điện áp u: Thông lượng i: Dòng điện ρ0/A: Điện cảm âm học L: Điện cảm A/ρ0c2: Điện dung âm học C: Điện dung 107 Xét trong miền tần số „ Sóng tới và sóng phản xạ có dạng – Điều kiện biên tại thanh môn – Điều kiện biên tại môi ( ) ( ) , x xj t j t c cx xu t K e u t K e c c Ω − Ω ++ + − −⎛ ⎞ ⎛ ⎞− = + =⎜ ⎟ ⎜ ⎟⎝ ⎠ ⎝ ⎠ (0, ) ( ) ( ) j tG Gu t u t U e Ω= = Ω ( , ) 0p t =l 0 0 ( )Z j A ρΩ = Ω 0 sin[ ( )/ ] cos[ ( )/ ]( , ) ( ) , ( , ) ( ) cos / cos / j t j tG G x c x cp x t jZ U e u x t U e c c Ω ΩΩ − Ω −= Ω = ΩΩ Ω l l l l 108 Đáp ứng tần số „ Tại môi „ Đáp ứng tần số ( , ) ( , ) j tu t U e Ω= Ωl l ( ) 1( , ) ( ) cos / = ⇒ Ω = ΩΩl l l Gx U Uc ( , ) 1( ) ( ) cos( / )G UH U c ΩΩ = =Ω Ω l l ( ) (2 1) 4 víiH n cf Ω →∞+= l 17,5 , 500,1500,2500... c=350 m/scm f Hz ==l 28 109 Mô hình phản xạ không tổn hao (Kelly-Lochbaum) „ Các ống cơ bản có cùng chiều dài k k+1τ τ c = = = τl kl k 1+l + ku (t) + k ku (t - τ ) + k + 1u (t) + k + 1 k + 1u (t - τ ) - ku (t) - k ku (t + τ ) - k + 1u (t) - k + 1 k + 1u (t + τ ) 0 0 tiết diện Ak tiết diện Ak+1 110 Mô hình phản xạ không tổn hao (Kelly-Lochbaum) „ Tính liên tục của áp suất và thông lượng „ Đặt hệ số phản xạ k k 1 k k 1 p ( , t) p (0, t) u ( , t) u (0, t) + + = = l l + +k+1 k+1 k k+1 k k 1 k+1 k k+1 k +k+1 k k k k k 1 k+1 k k+1 k 2A A Au (t) u (t - τ) u (t) A +A A +A A A 2Au (t+ τ) u (t - τ) u (t) A +A A +A − + − − + −= + −= − + k+1 k k k+1 k A Ar A +A −= + + k+1 k k k k 1 + k k k k k 1 u (t) (1 r ) u (t - τ) r u (t) u (t+ τ) r u (t - τ) (1 r ) u (t) − +− − + = + + = − + − 111 Phân bố sóng trÔ τ trÔ τ trÔ τ trÔ τ ku (t) + ku (t ) + −τ k+1u (t)+ k 1u (t )++ −τ ku (t) − ku (t ) − +τ k+1u (t)− k+1u (t )− +τ k(1 r )+ k(1 r )− kr− kr Ống k+1Ống k Tiếp giáp 0 l 0 l 112 Hiệu ứng của các tổn hao „ Tổn hao do dịch chuyển không khí trong tuyến âm – Do tính lỏng của không khí – Do truyền nhiệt – Do rung vách ngăn truyền nhiệt tính lỏng rung 29 113 Hiệu ứng của các tổn hao „ Tổn hao do bức xạ tại môi – Mô hình quả bóng vô hạn – Trở kháng bức xạ ( ) ( , ) r r r r r j L RpZ U R j L ΩΩ= =Ω + Ωl 2 128 8, 39 : b¸n kÝnh më t¹i m«i r r aR L c a ππ= = 114 Hiệu ứng chung của các tổn hao Dải thông Bức xạ tại môi Rung Nhiệt+lỏng 115 5. Nhận dạng tiếng nói „ Hai giai đoạn: huấn luyện (học) – nhận dạng „ Phân loại theo – Số lượng từ vựng – Từ rời rạc – liên tục – Một người nói – nhiều người nói – Nhận dạng từ – câu 116 Phân loại theo độ phức tạp „ Nhận dạng từ riêng lẻ, từ vựng ít (<100), một người nói „ Từ vựng nhiều hơn (vài nghìn từ), một người nói „ Như trên nhưng cho hệ thống nhiều người nói „ Nhận dạng các từ đi với nhau, từ vựng ít (hàng chục từ) „ Nhận dạng câu ngắn, từ vựng hạn chế, một người nói „ Như trên nhưng cho hệ thống nhiều người nói „ Nhận dạng lời nói liên tục, một hoặc nhiều người nói 30 117 Nhận dạng người nói (Speaker Recognition) „ Kiểm tra (verification) giọng nói „ Định danh (identification) giọng nói 118 Một số vấn đề đối với hệ thống nhận dạng tiếng nói „ Phát hiện khoảng lặng „ Cải thiện chất lượng tín hiệu tiếng nói (giảm nhiễu) „ Tiếng nói được phát âm với thời hạn và nhịp điệu khác „ Mô hình nhận dạng – Mô hình Markov ẩn (Hidden Markov Model: HMM) – Mạng nơ-ron

Các file đính kèm theo tài liệu này:

  • pdfxulytiengnoi_trinhvanloan_0787.pdf