Tổng hợp tiếng Việt bằng giải thuật TD-PSOLA
Kểtừkhi xuất hiện, máy tính càng ngày càng chứng tỏrằng đó là một
công cụvô cùng hữu ích trợgiúp con người xửlý thông tin. Cùng với sựphát
triển của xã hội, khối lượng thông tin mà máy tính cần xửlý tăng rất nhanh
trong khi thời gian dành cho những công việc này lại giảm đi. Vì vậy, việc tăng
tốc độxửlý thông tin, trong đó có tốc độtrao đổi thông tin giữa con người và
máy tính, trởthành một yêu cầu cấp thiết. Hiện tại, giao tiếp người-máy được
thực hiện bằng các thiết bịnhưbàn phím, chuột, màn hình,. với tốc độtương
đối chậm nên cần có các phương pháp trao đổi thông tin mới giúp con người
làm việc hiệu quảhơn với máy tính. Một trong những hướng nghiên cứu này là
sửdụng tiếng nói trong trao đổi thông tin người-máy. Những nghiên cứu này
liên quan trực tiếp tới các kết quảcủa chuyên ngành xửlý tiếng nói, trong đó
có tổng hợp tiếng nói.
Tổng hợp tiếng nói là lĩnh vực đang được nghiên cứu khá rộng rãi trên thế
giới và đã cho những kết quảkhá tốt. Có ba phương pháp cơbản dùng đểtổng
hợp tiếng nói là mô phỏng bộmáy phát âm, tổng hợp bằng formant và tổng hợp
bằng cách ghép nối. Phương pháp mô phỏng bộmáy phát âm cho chất lượng
tốt nhưng đòi hỏi nhiều tính toán vì việc mô phỏng chính xác bộmáy phát âm
rất phức tạp. Phương pháp tổng hợp formant không đòi hỏi chi phí cao trong
tính toán nhưng cho kết quảchưa tốt. Phương pháp tổng hợp ghép nối cho chất
lượng tốt, chí phí tính toán không cao nhưng sốlượng từvựng phải rất lớn.
Ởcác nước phát triển, những nghiên cứu xửlý tiếng nói, đã cho các kết
quảkhảquan, làm tiền đềcho việc giao tiếp người-máy bằng tiếng nói. ỞViệt
Nam, các nghiên cứu trong lĩnh vực này tuy mới được phát triển trong những
năm gần đây nhưng cũng đã có một sốkết quảkhảquan.
Với mục đích góp phần vào sựphát triển của tổng hợp tiếng Việt, đềtài
này nghiên cứu vềphương pháp tổng hợp tiếng Việt bằng phương pháp ghép
nối dựa trên giải thuật TD-PSOLA.
TD-PSOLA là phiên bản trên miền thời gian của giải thuật PSOLA (Pitch
Synchronous Overlap-Add). Với PSOLA, tín hiệu tổng hợp được tạo nên bằng
cách cộng xếp chồng (Overlap-Add) các đoạn tín hiệu thành phần. Giải thuật
này cho phép thao tác trực tiếp với tín hiệu tiếng nói trên miền thời gian, thay
đổi tần sốcơbản và độdài của tín hiệu. Đểgiảm sốlượng từvựng khi xây
dựng ứng dụng, các từtiếng Việt sẽ được tổng hợp từcác diphone.
Tổng hợp tiếng Việt bằng giải thuật TD-PSOLA
2
Sau khi nghiên cứu vềmặt lý thuyết, báo cáo này cũng trình bày việc áp
dụng thuật toán đểxây dựng một ứng dụng tổng hợp tiếng Việt từvăn bản.
Với nội dụng nhưvậy, báo cáo được chia làm 4 chương:
¾ Chương I: Tiếng nói và xửlý tiếng nói. Chương này đềcập tới
những vấn đềcơbản nhất vềcác đặc trưng của tín hiệu tiếng nói và
các lĩnh vực của xửlý tiếng nói.
¾ Chương II: Tổng hợp tiếng nóisẽtrình bày các phương pháp khác
nhau trong tổng hợp tiếng nói đồng thời đưa ra đánh giá vềhiệu quả
của các phương pháp này.
¾ Chương III: Giải thuật TD-PSOLA. Chương này trình bày chi tiết
vềgiải thuật PSOLA và phiên bản trên miền thời gian TD-PSOLA,
đồng thời cũng đềcập tới các vấn đềliên quan khi áp dụng cho tín
hiệu tiếng nói.
¾ Chương IV: Thiết kếchương trình tổng hợp tiếng Việt. Dựa trên
các nghiên cứu lý thuyết trong chương III, chương này sẽtrình bày
cách áp dụng thuật toán TD-PSOLA đểxây dựng chương trình tổng
hợp tiếng Việt từvăn bản và các kết quảliên quan.
Các kết quảthu được khi áp dụng:
¾ Có thểbiến đổi tần sốcơbản của tín hiệu tiếng nói đểtạo các thanh
điệu trong tiếng Việt.
¾ Có thểthay đổi thời gian, biên độvà ngữ điệu của từ, làm cơsởcho
việc tổng hợp câu trong tiếng Việt.
¾ Khắc phục được khó khăn vềsốlượng dữliệu: Sốlượng diphone
không lớn (389 diphone).
Với những kết quảnày, trong tương lai có thểphát triển tiếp đềtài theo
những hướng nghiên cứu nhưmởrộng cơsởdữliệu, xửlý văn bản ởmức
cao.
Các file đính kèm theo tài liệu này:
- tong_hop_tieng_noi.pdf