Vấn đề để hiểu được lời nói hành động giống như việc hiểu các vấn đề khác, tương tự
như việc hiểu hình ảnh hoặc chẩn đoán y học. Chúng ta đưa ra một tập các đầu vào đa
nghĩa và từ đó chúng ta làm ngược lại để quyết định trạng thái nào của thế giới có thể
được tạo ra đầu vào. Hiểu được vấn đề của lời nói hành động là phần đặc tả của ngôn
ngữ. Một phần của hiểu vấn đề có thể giải thích bằng các lí do logic. Chúng ta nhận thấy
rằng các chuỗi logic liên kết lại là cách tốt để mô tả cách mà các từ và các cụm từ phối
hợp để tạo ra một cụm từ lớn. Phần khác của việc hiểu vấn đề có thể chỉ được giải thích
bởi các lí do kĩ thuật không rõ ràng. Thông thường có nhiều trạng thái của thế giới mà
tất cả đều hướng dẫn đến một lời nói hành động tương tự, vì vậy người hiểu phải quyết
định cái mà nó dễ xảy ra hơn.
31 trang |
Chia sẻ: Mr Hưng | Lượt xem: 1462 | Lượt tải: 1
Bạn đang xem trước 20 trang nội dung tài liệu Xử lý ngôn ngữ tự nhiên, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
, trong các
ứng dụng xử lý tiếng nói người ta thường chia tiếng nói thành nhiều đoạn có thời gian
bằng nhau được gọi là khung (frame), mỗi khung có độ dài từ 10 đến 30 ms.
Phát hiện tiếng nói
Phát hiện thời điểm bắt đầu, điểm kết thúc của tiếng nói (tách tiếng nói ra khỏi khoảng
lặng) là phần cần thiết trong chương trình nhận dạng tiếng nói, đặc biệt trong chế độ
thời gian thực. Phần này trình bày ba phương pháp phát hiện tiếng nói dựa trên hàm
năng lượng thời gian ngắn SE (Short Energy) và tỷ lệ vượt quá điểm không ZCR (Zero
Crossing).
Xử lý ngôn ngữ tự nhiên
17/31
Phát hiện tiếng nói dựa trên hàm năng lượng thời gian ngắn.
Hàm năng lượng thời gian ngắn của tín hiệu tiếng nói được tính bằng cách chia tín hiệu
tiếng nói thành các khung, mỗi khung dài N mẫu. Mỗi khung được nhân với một hàm
cửa sổ W(n).Nếu hàm cửa sổ bắt đầu xét ở mẫu thứ m thì hàm năng lượng thời gian
ngắn Em được xác định như sau:
Trong đó:
n: biểu thức rời rạc;
m:số mẫu thử thứ m;
N: là tổng số mẫu tiếng nói
Hàm cửa sổ W(n) thường dùng là hàm cửa sổ chữ nhật được xác định như sau:
Thuật toán xác định điểm đầu và điểm cuối tiếng nói theo phương pháp này:
Xử lý ngôn ngữ tự nhiên
18/31
Phát hiện tiếng nói dựa trên hàm giả năng lượng và tỷ lệ vượt quá điểm không
Thuật toán này xác định điểm bắt đầu, điểm kết thúc của tín hiệu tiếng nói dựa trên hai
đại lượng tĩnh của tín hiệu tiếng nói là: hàm giả năng lượng E (Pseudo-Energy) và tỷ lệ
vượt quá điểm không ZCR (Zero Crossing Rate) .
Trong một dãy giá trị tín hiệu tiếng nói được rời rạc hóa, điểm không là điểm tại đó diễn
ra sự đổi dấu cường độ tín hiệu và được mô tả bởi:
sgn[x(n+1)] ≠ sgn[x(n)]
trong đó, sgn(.) là hàm dấu
Năng lượng là đại lượng được dùng để xác định vùng chứa âm hữu thanh, vô thanh.
Nhưng hàm năng lượng thường rất nhạy cảm với nhiễu. Do vậy, người ta thường sử
dụng hàm giả năng lượng trong tính toán. Hàm giả năng lượng được xác định bởi:
trong đó;
E∧(n) : là hàm giả năng lượng,
N: là kích thước khung cửa sổ.
Tỷ lệ vượt quá điểm không ZCR
Ta thấy, khung có năng lượng càng cao thì tỷ lệ vượt quá điểm không càng thấp và
ngược lại. Như vậy, tỷ lệ vượt quá điểm không là đại lượng đặc trưng cho tần số tín hiệu
tiếng nói. Ở đây, chúng ta cần xác định các tham số ngưỡng cho hàm giả năng lượng với
hai ngưỡng trên và dưới và một ngưỡng tỷ lệ vượt quá điểm không.
Kí hiệu:
E Up : ngưỡng năng lượng trên (cao);
Edown : ngưỡng năng lượng dưới (thấp);
ZCR _ T : ngưỡng tỷ lệ vượt quá điểm không.
Thuật toán này được mô tả như sau :
Xử lý ngôn ngữ tự nhiên
19/31
Phát hiện tiếng nói dựa trên năng lượng phổ ngắn hạn
Ý tưởng chính của phương pháp này là sử dụng bộ điều khiển dò biên tiếng nói VAD
(Voice Activity Detector) dựa trên việc xác định năng lượng phổ ngắn hạn fE trên các
khung tín hiệu tiếng nói. VAD dùng để xác định một khung chứa tín hiệu tiếng nói hay
nhiễu. Hàm đầu ra của VAD trên khung thứ m là v [m]. Với khung chứa tiếng nói (có
thể cả nhiễu) v [m]=1, ngược lại khung chỉ chứa nhiễu v [m]=0.
Thuật toán được mô tả như sau:
Xử lý ngôn ngữ tự nhiên
20/31
Phương pháp này ngăn việc phân loại sai của phụ âm sát và tiếng nói ở cuối tín hiệu
tiếng nói.
Các phương pháp trích chọn tham số đặc trưng của tín hiệu tiếng nói
Trích chọn các tham số đặc trưng là bước có ý nghĩa quyết định tới kết quả của các
chương trình nhận dạng tiếng nói. Có nhiều phương pháp trích chọn các tham số đặc
trưng nhưng nhìn chung các phương pháp này dựa trên hai cơ chế:
Xử lý ngôn ngữ tự nhiên
21/31
Mô phỏng lại quá trình cảm nhận âm thanh của tai người. Mô phỏng lại quá trình tạo âm
của cơ quan phát âm.
Phân tích cepstral theo thang đo mel
Phương pháp tính các hệ số MFCC là phương pháp trích chọn tham số tiếng nói được sử
dụng rộng rãi bởi tính hiệu quả của nó thông qua phân tích cepstral theo thang đo mel.
Phương pháp được xây dựng dựa trên sự cảm nhận của tai người đối với các dải tần số
khác nhau. Với các tần số thấp (dưới 1000 Hz), độ cảm nhận của tai người là tuyến tính.
Đối với các tần số cao, độ biến thiên tuân theo hàm logarit. Các băng lọc tuyến tính ở
tần số thấp và biến thiên theo hàm logarit ở tần số cao được sử dụng để trích chọn các
đặc trưng âm học quan trọng của tiếng nói. Mô hình tính toán các hệ số MFCC được mô
tả như Hình 7.
Sơ đồ tính toán các hệ số MFCC
Ý nghĩa và phương pháp xác định tham số ở các khối trong sơ đồ trên mô tả như sau:
Khối 1: Bộ lọc hiệu chỉnh (Preemphasis)
Tín hiệu tiếng nói s(n) được đưa qua bộ lọc số bậc thấp để phổ đồng đều hơn, giảm ảnh
hưởng gây ra cho các xử lý tín hiệu sau này. Thường bộ lọc này cố định bậc một, có
dạng:
H(z) = 1- az 1− 0.9≤ a≤ 1.0
Quan hệ giữa tín hiệu ra với tín hiệu vào tuân theo phương trình
Giá trị a thường được chọn là 0.97.
Xử lý ngôn ngữ tự nhiên
22/31
Khối 2: Phân khung (Frame Blocking)
Trong khối này tín hiệu hiệu chỉnh s(n) được phân thành các khung, mỗi khung có N
mẫu; hai khung kề lệch nhau M mẫu. Khung đầu tiên chứa N mẫu, khung thứ hai bắt
đầu chậm hơn khung thứ nhất M mẫu và chồng lên khung thứ nhất N-M mẫu. Tương tự,
khung thứ ba chậm hơn khung thứ nhất 2M mẫu (chậm hơn khung thứ hai M mẫu) và
chờm lên khung thứ nhất N-2M mẫu. Quá trình này tiếp tục cho đến khi tất cả các mẫu
tiếng nói cần phân tích thuộc về một hoặc nhiều khung.
Khối 3: Lấy cửa sổ (Windowing)
Bước tiếp theo là lấy cửa sổ cho mỗi khung riêng rẽ nhằm giảm sự gián đoạn của tín
hiệu tiếng nói tại đầu và cuối mỗi khung. Nếu w(n), 0 ≤ n ≤ N-1, sau khi lấy cửa sổ
được:
Thông thường, của sổ Hamming được sử dụng. Cửa sổ này có dạng:
Khối 4: Biến đổi Fourier rời rạc (FFT)
Tác dụng của FFT là chuyển đổi mỗi khung với N mẫu từ miền thời gian sang miền tần
số. FFT là thuật toán tính DFT nhanh. DFT được xác định
Khối 5: Biến đổi sang thang đo Mel trên miền tần số
Như đã nói ở trên, tai người không cảm nhận sự thay đổi tần số của tiếng nói tuyến tính
mà theo thang Mel. Người ta chọn tấn số 1kHz, 40 dB trên ngưỡng nghe là 1000 Mel.
Do đó, công thức gần đúng biểu diễn quan hệ tần số ở thang mel và thang tuyến tính như
sau:
Xử lý ngôn ngữ tự nhiên
23/31
Các băng lọc tam giác theo thang tần số Mel
Một phương pháp để chuyển đổi sang thang mel là sử dụng băng lọc (Hình 4.6), trong
đó mỗi bộ lọc có đáp ứng tần số dạng tam giác. Số băng lọc sử dụng thường trên 20
băng. Thông thường, người ta chọn tần số từ 0 dến Fs/2 (Fs là tần số lấy mẫu tiếng nói).
Nhưng cũng có thể một dải tần giới hạn từ LOFREQ đến HIFREQ sẽ được dùng để lọc
đi các tần số không cần thiết cho xử lý. Chẳng hạn, trong xử lý tiếng nói qua đường điện
thoại có thể lấy giới hạn dải tần từ LOFREQ=300 đến HIFREQ=3400.
Sau khi tính FFT ta thu được phổ tín hiệu (fn). Thực chất đây là một dãy năng lượng
. Cho W(n) qua một dãy K băng lọc dạng tam giác, ta được một dãy các
. Tính tổng của các dãy trong từng băng lọc, ta thu được một dãy các hệ
số
Khối 6: Biến đổi Cosine rời rạc (DCT)
Trong bước này ta sẽ chuyển log của các giá trị về miền thời gian bằng cách biến
đổi Cosine rời rạc (DCT). Kết quả của phép biến đổi này ta thu được các hệ số MFCC.
Thông thường, chỉ có một số giá trị đầu tiên của ic được sử dụng. Trong các ứng dụng
nhận dạng tiếng nói, người ta thường lấy 12 hệ số MFCC và thêm 1 hệ số năng lượng
của khung sau khi đã được chuẩn hóa làm tham số đặc trưng cho tín hiệu tiếng nói (như
vậy tổng cộng có Q=13 hệ số).
Khối 7: Cepstral có trọng số
Vì độ nhạy của các hệ số cepstral bậc thấp làm cho phổ toàn bộ bị đổ dốc, độ nhạy của
các cepstral bậc cao gây ra nhiễu nên người ta thường sử dụng cửa sổ cepstral để cực
tiểu hóa độ nhạy này. Công thức biểu diễn các hệ số cepstral có trọng số:
Xử lý ngôn ngữ tự nhiên
24/31
Khối 8: Lấy đạo hàm các hệ số MFCC theo thời gian
Để nâng cao chất lượng nhận dạng, người ta đưa thêm các giá trị đạo hàm theo thời gian
của cácgiá trị hệ số MFCC vào vector hệ số tiếng nói. Các giá trị đó được tính theo:
trong đó; θ: là độ dài cửa sổ tính delta (thường chọn là 2 hoặc 3).
Kết thúc các bước trên với mỗi khung ta thu được một vector có 2Q thành phần biểu
diễn tham số đặc trưng của tiếng nói.
Phương pháp mã dự đoán tuyến tính LPC
Mô hình LPC được sử dụng để trích lọc các tham số đặc trưng của tín hiệu tiếng nói.
Kết quả của quá trình phân tích tín hiệu thu được một chuỗi gồm các khung tiếng nói.
Các khung này được biến đổi nhằm sử dụng cho việc phân tích âm học.
Nội dung phân tích dự báo tuyến tính là: một mẫu tiếng nói được xấp xỉ bởi tổ hợp tuyến
tính của các mẫu trước đó. Thông qua việc tối thiểu hóa tổng bình phương sai số giữa
các mẫu hiện tại với các mẫu dự đoán có thể xác định được một tập duy nhất các hệ số
dự báo. Các hệ số s(n) dự báo này là các trọng số được sử dụng trong tổ hợp tuyến tính.
Với dãy tín hiệu tiếng nói,giá trị dự báo được xác định bởi:
trong đó;αk: là các hệ số đặc trưng cho hệ thống.
Xử lý ngôn ngữ tự nhiên
25/31
Sơ đồ bộ xử lý LPC dùng trích chọn đặc trưng tiếng nói
Sơ đồ khối bộ phân tích LPC dùng cho trích chọn các tham số đặc trưng của tín hiệu
tiếngnói (Hình 4.7). Hàm sai số dự báo được tính theo công thức:
Để cực tiểu hóa lỗi cần tìm tập giá trị {αk} phù hợp nhất.
Do tín hiệu tiếng nói thay đổi theo thời gian nên các hệ số dự báo phải được ước lượng
từ các đoạn tín hiệu ngắn. Vấn đề đặt ra là tìm một tập các hệ số dự báo để tối thiểu hóa
sai số trung bình trên một đoạn ngắn.
Hàm lỗi dự báo trong một thời gian ngắn xác định bởi:
trong đó; sn(m) : là một đoạn tín hiệu tiếng nói lân cận mẫu thứ n;
Tìm tập giá trị α k để tối thiểu hóa E bằng cách với I =1,2,,p từ đó nhận
được phương trình:
Xử lý ngôn ngữ tự nhiên
26/31
Đặt:
Phương trình trên có thể viết:
Phương pháp PLP
Phương pháp này là sự kết hợp của hai phương pháp đã trình bày ở trên. Hình 10 mô tả
các bước xác định hệ số PLP.
Sơ đồ các bước xác định hệ số PLP
Các khối xử lý
♦ Khối 1: Biến đổi Fourier nhanh (FFT)
Tương tự như phương pháp MFCC, tín hiệu tiếng nói được chia thành các khung và
được chuyển sang miền tần số bằng thuật toán FFT.
♦ Khối 2: Lọc theo thang tần số Bark
Tín hiệu tiếng nói được lọc qua các bộ lọc phân bố theo thang tần số phi tuyến, trong
trường hợp này là thang tần số Bark:
Xử lý ngôn ngữ tự nhiên
27/31
♦ Khối 3: Nhấn mạnh tín hiệu dùng hàm cân bằng đường xong cân bằng độ ồn (equal-
loudnes) bằng độ ồn (Equal-Loudnes).Bước này tương tự nhấn mạnh (preemphasis) của
phương pháp MFCC.Hàm này mô phỏng:
♦ Khối 4: Dùng luật cường độ nghe (Power Law of Hearing)
Bước xử lý này giống như bước lấy giá trị logarit trong phương pháp MFCC. Hàm căn
lập phương được dùng có dạng:
♦ Khối 5: Biến đổi Fourier ngược (Inverse DFT)
Các hệ số tự tương quan được biến đổi Fourier ngược là giá trị đầu vào cho LPC.
♦ Khối 6: Thuật toán Durbin
Thuật toán Durbin được sử dụng để tính các hệ số dự báo tuyến tính như phương pháp
LPC .
♦ Khối 7: Tính các giá trị delta
Phương pháp tính tương tự như phương pháp hệ số MFCC.
Phương pháp ứng dụng trí tuệ nhân tạo cho xử lý và nhận dạng tiếng nói có thể tham
khảo thêm các tai liệu trích dẫn trong tài liêu..
CÁC HỆ THỐNG HỘI THOẠI
Chúng ta quan tâm đến những gì xảy ra bên trong của một đối tượng - từ khi nó nhận
được một kết quả của tri thức đến khi đối tượng này quyết định một hành động. Trong
phần này chúng ta tập trung vào giao diện giữa đối tượng và môi trường. Kết quả chúng
ta có được sự nhận thức: thị giác, thính giác và có thể nhiều giác quan khác, ở một kết
quả khác chúng ta có hành động: sự cử động của một cánh tay robot chẳng hạn.
Xử lý ngôn ngữ tự nhiên
28/31
Mặc dù bao trùm lên phần này là đối thoại. Một nhóm đối tượng có thể thành công hơn,
cá thể hay tập thể nếu họ đối thoại với nhau về mục tiêu và sự hiểu biết của mình. Chúng
ta sẽ xem xét một cách chặt chẽ ngôn ngữ nhân loại và ngôn ngữ này được sử dụng như
là một công cụ đối thoại.
Con người sử dụng một số hữu hạn các ký hiệu quy ước (mỉm cười, bắt tay) để giao tiếp
tương tự như hầu hết các động vật khác. Con người cũng có thể phát triển một hệ thống
các kí hiệu có kiến trúc phức tạp được biết như là ngôn ngữ mà có thể sử dụng chúng để
đối thoại trong hầu hết những gì mà họ biết về thế giới.
Trong các hệ cơ sở tri thức, đặc biệt hẹ chuyên gia, các hệ thống đối thoai giữa ngươi và
máy đươc thiết lập và là một khâu rất cần thiết để xử lý thông tin, Học viên có thể tham
khảo thêm phần này ở các tài liệu trích dẫn kèm theo
TỪ ĐIỂN ĐIỆN TỬ
Bước đầu tiên trong việc định nghĩa ngữ pháp là định nghĩa một từ điển ngôn ngữ, hoặc
danh sách các từ vựng có thể cho phép. Các từ được nhóm lại vào những phạm trù hoặc
những phần của lời nói quen thuộc đến từ điển người dùng: danh từ, đại từ, và tên để
biểu thị chúng, động từ để biểu thị một sự kiện, tính từ để bổ nghĩa cho danh từ, trạng từ
bổ nghĩa cho động từ. Hình 11 cho một từ điển ngôn ngữ nhỏ.
Từ điển ngôn ngữ
Mỗi một phạm trù đều kết thúc để biểu thị rằng có những từ khác ở trong phạm trù này.
Tuy nhiên chú ý rằng có hai lý do khác biệt cho việc mất từ. Đối với danh từ, động từ,
tính từ và trạng từ, nó là nguyên tắc cơ bản bất khả thi để hiển thị tất cả chúng. Không
những có hàng ngàn hoặc hàng chục ngàn thành viên trong mỗi lớp, mà mỗi một loại
mới luôn luôn được bổ sung thêm vào. Ví dụ, ngày nay “fax” là một danh từ và động từ
phổ biến nhưng nó chỉ được đặt ra trong vài nănm trước. Có bốn phạm trù được gọi là
Xử lý ngôn ngữ tự nhiên
29/31
lớp mở. Những phạm trù khác (đại từ, quán từ, giới từ, và liên từ) được gọi là lớp đóng.
Chúng thường có một số lượng nhỏ các từ (một vài từ đến một vài nhóm từ) mà nó có
thể được liệt kê theo quy tắc. sự thay đổi lớp đóng diễn ra trong hàng thế kỷ , không phải
hàng tháng. Ví dụ “thee” và “thou” thường được sử dụng làm ại từ trong thế kỷ XVII,
bị suy tàn vào thế kỷ XIX, và ngày nay nó chỉ được thấy trong thơ ca và ngôn ngữ địa
phuơng.
Ngữ pháp
Bước tiếp theo là phối hợp các từ trong cụm từ. chúng ta vẫn sử dụng năm biểu tượng
nonterminal để định nghĩa sự khác nhau của cụm từ: câu (S), cụm danh từ (NP), cụm
động từ (VP), cụm giới từ (PP), và mệnh đề quan hệ (Rel Clause)(4). Hình 12 xét một
ngữ pháp cho ε0 với một ví dụ cho mỗi một quy luật viết lại.
Ngữ pháp cho từđiển, với cụm từ ví dụ cho mỗi quy luật
CÂU HỎI VÀ BÀI TẬP
Không xem lại bài trả lời các câu hỏi sau: bốn lớp được nhắc đến của ngữ pháp hình
thức?
Thực hiện một phiên bản của giải thuật biểu đồ phân tích cú pháp mà kết quả là một cây
cho tất cả cạnh mà mở rộng cho toàn bộ đầu vào.
Trình bày phương pháp phát hiện tiếng nói dựa trên năng lượng phổ ngắn hạn .
Xử lý ngôn ngữ tự nhiên
30/31
Trình bày phương pháp tính các hệ số MFCC: phương pháp trích chọn tham số tiếng nói
được sử dụng rộng rãi bởi tính hiệu quả của nó thông qua phân tích cepstral theo thang
đo mel.
Trình bày phương pháp mã dự đoán tuyến tính LPC.
Xử lý ngôn ngữ tự nhiên
31/31
Các file đính kèm theo tài liệu này:
- xu_ly_ngon_ngu_tu_nhien_1305.pdf