Trong bài báo này, chúng tôi đề xuất một nền tảng học trực tuyến với trợ lý ảo tiếng Việt
giao tiếp bằng văn bản và giọng nói. Trợ lý ảo hỗ trợ giáo viên trong việc trình bày nội dụng bài học
cũng như kiểm tra và đánh giá người học. Khác với các nền tảng học trực tuyến hiện có với nội dung
bài học là các video được quay sẵn, chúng tôi tiếp cận theo hướng trợ lý ảo tiếng Việt trình bày nội
dung bài học thông qua slide trình chiếu (định dạng pdf) kết hợp với giọng nói của giáo viên được
tổng hợp từ văn bản và khuôn mặt của giáo viên chuyển động tương ứng theo giọng nói. Kết quả thực
tế được đánh giá thông qua hình thức khảo sát các đối tượng liên quan bao gồm sinh viên, giảng viên
và bộ phận quản lý đào tạo. Kết quả khảo sát trên 200 mẩu cho thấy trên 85% hài lòng với chất lượng
và hiệu quả của nền tảng học trực tuyến được đề xuất.
9 trang |
Chia sẻ: Thục Anh | Ngày: 11/05/2022 | Lượt xem: 440 | Lượt tải: 0
Nội dung tài liệu Trợ lý ảo tiếng Việt trong giảng dạy trực tuyến, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nguyễn Thị Mỹ Thanh, Diệp Thanh Hải, Trịnh Ngọc Đức, Ngô Thị Kim Linh, Lê Ngọc Bích, Đào Xuân Quy
Trợ Lý Ảo Tiếng Việt Trong Giảng Dạy Trực Tuyến
Nguyễn Thị Mỹ Thanh1, Diệp Thanh Hải1, Trịnh Ngọc Đức1, Ngô Thị Kim Linh1, Lê Ngọc Bích1,
Đào Xuân Quy1
1 School of Engineering – Eastern International University, Binh Duong New City
{thanh.nguyenthimy,quy.dao}@eiu.edu.vn
Tóm tắt. Trong bài báo này, chúng tôi đề xuất một nền tảng học trực tuyến với trợ lý ảo tiếng Việt
giao tiếp bằng văn bản và giọng nói. Trợ lý ảo hỗ trợ giáo viên trong việc trình bày nội dụng bài học
cũng như kiểm tra và đánh giá người học. Khác với các nền tảng học trực tuyến hiện có với nội dung
bài học là các video được quay sẵn, chúng tôi tiếp cận theo hướng trợ lý ảo tiếng Việt trình bày nội
dung bài học thông qua slide trình chiếu (định dạng pdf) kết hợp với giọng nói của giáo viên được
tổng hợp từ văn bản và khuôn mặt của giáo viên chuyển động tương ứng theo giọng nói . Kết quả thực
tế được đánh giá thông qua hình thức khảo sát các đối tượng liên quan bao gồm sinh viên, giảng viên
và bộ phận quản lý đào tạo. Kết quả khảo sát trên 200 mẩu cho thấy trên 85% hài lòng với chất lượng
và hiệu quả của nền tảng học trực tuyến được đề xuất.
Từ khóa: tổng hợp giọng nói, nhận dạng giọng nói, giọng nói điều chỉnh chuyển động khuôn mặt, trợ
lý ảo, trả lời tự động, học trực tuyến.
Abstract. This paper presents a design of Vietnamese text and voice Virtual assistant for online learn-
ing platforms. Virtual assistant support instructors, learners and administrators in teaching, learning
and managing. In addition, Virtual assistant may replace the instructors in teachning by using deep
learning to create video lecture with instructor’s voice and face based on AI technologies such as text
to speech, speech recognition and speech driven face. This approach allows us to display the best
quality of video lecture. Experimental results show the effectiveness of our proposed system design
and deployment approach.
Keywords: text-to-speech, speech-to-text, speech-driven-face, chatbots, online learning.
1 Giới thiệu
Công nghệ phát triển đã làm thay đổi nhiều mặt của cuôc sống, từ kinh tế, xã hội đến giáo dục. Ngày nay,
các nền tảng học trực tuyến phát triển nhanh chóng bởi tính linh hoạt về không gian và thời gian. Nhất là
trong diễn biến phức tạp của dịch COVID-19, học trực tuyến đang là giải pháp tối ưu nhằm hạn chế việc
gián đoạn việc học. Có thể thấy học trực tuyến có hai hình thức. Hình thức đầu tiên, giáo viên phát trực
tiếp nội dụng bài học theo thời gian thực, đây là hình thức chuyển lớp học vật lý thành lớp học ảo trên nền
tảng Internet với sự hỗ trợ của các nền tảng như Zoom, Google Hangout. Hình thức thứ hai, giáo viên
quay nội dung bài học thành video và phát lại, điển hình là các nền tảng học trực tuyến mở cho đại chúng
MOOC (Masive Open Online Course) như Coursera [2], edX [4], Edumall [3] và Hocmai [5]. MOOC
ngày càng phát triển vì nó không những hỗ trợ nhiều khóa học khác nhau trong nhiều lĩnh vực mà còn
giúp người học có nhiều lựa chọn về không gian và thời gian.
Trí tuệ nhân tạo (AI-Artificial Intelligence) đang đóng vai trò quan trọng trong sự phát triển của xã hội
loài người vì những tiềm năng ứng dụng to lớn mà nó mang lại trong những năm gần đây. Những ứng
dụng AI thông minh nhất trên thế giới là những trợ lý ảo (Virtual Assistant) như Siri (Apple), Google
Assistant (Google), Cortana (Microsoft), Alexa (Amazon) và Watson (IBM). Những trợ lý ảo này giao
tiếp và hỗ trợ con người thông qua văn bản và giọng nói. Trong những ứng dụng thực tế, trợ lý ảo đã
được triển khai trong nhiều lĩnh vực như: xe tự hành, tổng đài ảo, báo nói, dịch tự động và cả trong giáo
dục [1].
187
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC”
Hai công nghệ lõi quan trọng trong việc xây dựng trợ lý ảo là xử lý ngôn ngữ tự nhiên (NLP-Natural
Language Processing) và hiểu ngôn ngữ tự nhiên (NLU-Natural Language Understanding). Để trợ lý ảo
giao tiếp được với con người, trước hết trợ lý ảo cần nhận biết con người nói gì (công nghệ nhận dạng
giọng nói: Automatic Speech Recognition (ASR)). Sau khi nhận biết con người nói gì, trợ lý ảo phải hiểu
và trả lời con người (công nghệ tổng hợp giọng nói Text-to-Speech (TTS)). Đối với tiếng Anh, ASR của
Google đã đạt được WER (Word Error Rate: đại lượng đánh giá chất lượng ASR) dưới 5% (4.7% vào
năm 2017) và TTS của Google có điểm MOS (Mean Opinion Score: đại lượng đánh giá chất lượng TTS)
là 4.53 (so với 4.58 từ giọng nói tự nhiên của con người) [11]. Đối với tiếng Việt, trong Hội thảo Xử lý
ngôn ngữ tiếng Việt năm 2019 (VLSP 2019), VASR (Vietnamese ASR) của Vais đạt được WER 13.7%
[8] và VTTS (Vietnamese TTS) của Zalo có điểm MOS là 3.94 (so với 4.44 từ giọng nói tự nhiên của con
người) [15]. Những kết quả này cho phép trợ lý ảo nhận dạng được giọng nói tiếng Việt của người sử
dụng và trả lời bằng giọng tiếng Việt như con người. Thực sự, những công ty công nghệ hàng đầu Việt
Nam như Vais, Zalo, Fpt và Viettel đã ứng dụng xử lý ngôn ngữ tiếng Việt để triển khai nhiều ứng dụng
trong thực tế (báo nói: baomoi.com, dantri.com; tổng đài tự động: Fpt, Viettel, VNPT; chuyển giọng nói
thành văn bản trong các cuộc họp Quốc hội, HĐND các tỉnh). Điều này đảm bảo triển khai trợ lý ảo tiếng
Việt với độ tin cậy cao. Ngoài ra, với sự phát triển nhanh của trí tuệ nhân tạo, đặc biệt là trong lĩnh vực
học sâu (DL-Deep Learning), các mô hình học sâu cho phép hiểu và trả lời con người với độ chính xác
cao như Siri, Google Assistant, Alexa, Cortena và Watson.
Trong các nền tảng học trực tuyến như Coursera [2], edX [4], Edumall [3] và Hocmai [5], việc quay
video nội dụng bài học và phát lại, giúp giáo viên tiết kiệm được thời gian khi chỉ trình bày nội dung bài
học một lần và người học có thể xem lại nhiều lần. Tuy nhiên, để các khóa học trực tuyến đạt chất lượng
cao, giáo viên mất nhiều thời gian trong việc quay và chỉnh sửa video nội dung bài học. Ngoài ra, khi nội
dung bài học thay đổi, các video nội dung bài học cần được quay và chỉnh sửa lại. Một số kết quả về AI
gần đầy về học chuyển tiếp trong NLP [7], [6] cho phép sao chép giọng nói với thời gian rất ngắn và
trong xử lý hình ảnh [12], [14] và [13] cho phép xây dựng chuyển động khuôn mặt theo giọng nói. Vì
vậy, dựa trên những công nghệ hiện có, chúng tôi đề xuất một nền tảng học trực tuyến với trợ lý ảo tiếng
Việt cho phép trình bày nội dung bài học thông qua (1) slide trình chiếu (pdf) kết hợp với (2) giọng nói
của giáo viên được tổng hợp từ văn bản (TTS: Text To Speech) và (3) khuôn mặt của giáo viên chuyển
động tương ứng theo giọng nói (SDF: Speech-driven-Face).
Phần tiếp theo của bài báo này được trình bày như sau: Mục 2 đề xuất nền tảng học trực tuyến với trợ
lý ảo tiếng Việt; Mục 3 trình bày những kết quả đạt được. Cuối cùng là một số kết luận cũng như định
hướng nghiên cứu tiếp theo.
2 Mô tả trợ lý ảo trong nền tảng học trực tuyến
Trong mục này, chúng tôi trình bày các công nghệ lõi đang được áp dụng trong ASR và TTS tiếng Việt
và đề xuất mô hình tương ứng để triển khai nền tảng học trực tuyến tích hợp trợ lý ảo giao tiếp bằng văn
bản và giọng nói tiếng Việt.
2.1 Nhận dạng giọng nói tiếng Việt
Hệ thống VASR cơ bản được trình bày như trong Hình 1. Hệ thống VASR hoạt động như sau: đầu tiên,
giọng nói được trích xuất thành các đặc trưng; sau đó, các trích xuất đặc trựng được giải mã (decoder)
thành chuỗi từ dựa trên mô hình âm thanh, mô hình từ vựng, và mô hình ngôn ngữ như trong Hình 1.
Hình 1. Cấu trúc cơ bản hệ thống VASR.
Bảng 1 mô tả công nghệ VASR mới nhất năm 2019 của các công ty công nghệ hàng đầu Việt Nam.
Trích xuất
đặc trưng
Giọng
nói
Mô hình âm thanh Mô hình từ vựng
Bộ giải mã
Mô hình ngôn ngữ
Chuỗi từ
188
Nguyễn Thị Mỹ Thanh, Diệp Thanh Hải, Trịnh Ngọc Đức, Ngô Thị Kim Linh, Lê Ngọc Bích, Đào Xuân Quy
Bảng 1. Công nghệ sử dụng trong VASR
Đặc điểm Vais Zalo Viettel (Vtcc)
Đặc trưng đầu vào MFCC+Pitch MFCC+Pitch MFCC+Pitch
Tăng cường dữ liệu Noise+RIR Noise+RIR Noise+RIR
Mô hình âm học TDNN TDNN+LSTM TDNN+BLSTM
Ngôn ngữ News+Conv News+YouTube News
Từ vựng 16k từ 17k từ 11k từ
Để đánh giá chất lượng của các hệ thống VASR, chúng ta sử dụng Chỉ số hiệu quả chuyển đổi WER
hoặc WA được tính bằng công thức
hoặc
Trong đó S là số từ thay thế, D là số từ bỏ đi, I là số từ chèn vào và N là tổng số từ tham khảo. Kết quả
cuộc thi VASR trong Hội thảo VLSP 2019, WER của Vais, Zalo và Viettel lần lượt tương ứng là 13.7%,
14.36% và 27.11% đối với bộ dữ liệu được huấn luyện. Kết quả này thể hiện Vais có kết quả tốt nhất cho
VASR. Trong mô tả hệ thống VASR, Vais khẳng định có độ chính xác với WER = 5% (WA=95%), tức là
hệ thống VASR nhận diện giọng nói gần tương đương như con người (WER = 5%). Kết quả này đảm bảo
trợ lý ảo xây dựng trên VASR có thể triển khai trong thực tế. Hơn nữa, VASR của Vais, Viettel và Fpt đã
được triển khai thực tế và cung cấp API (Application Programming Interface – phương thức trung gian
kết nối các ứng dụng và thư viện khác nhau) cho phép tích hợp VASR vào các nền tảng thứ ba. Do đó,
chúng tôi tích hợp VASR vào nền tảng học trực tuyến sử dụng thông qua API được cung cấp bởi Vais,
Zalo và Viettel. Ngoài ra, trong nền tảng học trực tuyến đề xuất, chúng tôi cũng tích hợp API của Google
để hỗ trợ cả tiếng Anh và tiếng Việt.
2.2 Tổng hợp giọng nói tiếng Việt
Hệ thống VTTS cơ bản gồm hai hệ thống: (1) Hệ thống tổng hợp (Synthesizer) và (2) Hệ thống phát âm
(Vocoder) như mô tả trong Hình 2. Trong đó, hệ thống synthesizer có nhiệm vụ chuyển văn bản thành
phổ âm Log-mel (Log-mel Spectrogram) (có thể là tần số cơ bản F0 và một số đặc trưng ngôn ngữ khác)
và Hệ thống vocoder có nhiệm vụ chuyển phổ âm Log-mel thành các mẫu âm thanh (audio samples). Đối
với hệ thống TTS gần đây, cả hai hệ thống synthesizer và vocoder thường được xây dựng dựa trên cấu
trúc của mạng thần kinh hồi quy (Recurrent Neural Networks - RNN).
Hình 2. Cấu trúc cơ bản hệ thống VTTS.
Để đánh giá các hệ thống TTS, chúng ta sử dụng điểm Chỉ số chất lượng bài đọc MOS với thang điểm
gồm năm mức: 1 – rất tệ (bad), 2 – tệ (poor), 3 – khá (pair), 4 – tốt (good), 5 – rất tốt (excellent). Chất
lượng TTS được gọi là “đạt” nếu có điểm đánh giá ở mức khá. Hình 3 mô tả điểm Chỉ số chất lượng bài
đọc MOS của các công ty và công nghệ tương ứng mới nhất [15].
Hình 3. Điểm MOS của các hệ thống VTTS.
Tổng hợp Phát âm
Bộ tạo tín hiệu tiếng
nói
Văn bản
Phổ âm Log-Mel
189
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC”
VTSS có Hệ thống synthesizer được xây dựng trên mô hình Tacotron 2, đây là mạng thần kinh đạt
được điểm MOS cao nhất. Nhiều hệ thống vocoder sử dụng mạng Wavenet [9] (2016), trong khi Zalo sử
dụng mạng WaveGlow mới hơn do Nvidia đề xuất năm 2019 [10] (WaveGlow có cấu trúc đơn giản và dễ
huấn luyện, triển khai và cũng đạt được kết quả tương tự như WaveNet). Tương tự như VASR, triển khai
VTTS cho nền tảng học trực tuyến cũng có thể sử dụng thông qua API của Zalo, Viettel, Fpt và cả
Google. VTTS hiện tại chỉ hỗ trợ một số giọng nói tham khảo như Zalo (6 giọng), Viettel (6 giọng) và
Google (4 giọng). Do đó, trong phần tiếp theo, chúng tôi đề xuất mô hình cho phép triển khai VTTS với
giọng nói của giáo viên và khuôn mặt của giáo viên chuyển động tương ứng theo giọng nói.
2.3 Tạo giọng nói và khuôn mặt giáo viên
Với những kết quả gần đây của Trí tuệ nhân tạo (AI), đặc biệt là Học sâu (DL) trong lĩnh vực Xử lý ngôn
ngữ tự nhiên (NLP) cho phép sao chép giọng nói giáo viên trong thời gian rất ngắn và xử lý hình ảnh cho
phép điều chỉnh chuyển động khuôn mặt theo giọng nói. Trong mục này, chúng tôi đề xuất mô hình tạo
giọng nói và khuôn mặt giáo viên.
Đối với giọng nói của giáo viên, kết quả trong [7], [6] cho phép tổng hợp giọng nói của giáo viên với
thời gian tham khảo trong thời gian rất ngắn, chỉ 5s, gần như là thời gian thực. Hình 4 so sánh giữa TTS
cơ bản và TTS được hiệu chỉnh với giọng nói tham khảo của giáo viên được đưa vào mô hình huấn luyện
mạng Tacotron 2. Công nghệ lõi của mô hình này là học chuyển tiếp (Transfer learning) giúp tích hợp
giọng nói của giáo viên vào trong mô hình huấn luyện theo thời gian thực.
Hình 4. TTS cơ bản (trái) và TTS với tạo giọng nói giáo viên (phải) sử dụng Tacotron 2.
Đối với khuôn mặt của giáo viên, kết quả [12], [14], [13] cho phép xây dựng video khuôn mặt của giáo
viên chuyển động tương ứng với giọng nói (tương ứng với văn bản). Do đó, chúng tôi đề xuất mô hình
tạo khuôn mặt giáo viên (Speech-driven-Face) như trong Hình 5. Trong phần tiếp theo, chúng tôi giới
thiệu cấu trúc của Chatbots, một phần của trợ lý ảo trong nền tảng học trực tuyến.
2.4 Trả lời tự động (Chatbot)
Chatbot được áp dụng trong nền tảng học trực tuyến vì nhiều lợi ích mà nó mang lại như: Chatbot trả lời
ngay lập tức câu hỏi của người học, trong một chủ đề rộng; Chatbots hỗ trợ không giới hạn số lượng
người học; Chatbot hỗ trợ 24/7, không mất tính kiên nhẫn, không mệt mỏi; Chatbot hỗ trợ đa ngôn ngữ.
Dựa trên câu trả lời mà Chatbot đưa ra, chúng ta có thể chia Chatbot thành hai dạng chính. Đầu tiên,
Chatbot có câu trả lời dựa trên quy tắc trả lời (Rule-based Chatbot). Thứ hai, Chatbots có câu trả lời được
tạo bởi AI (AI-based Chatbot). Cấu trúc cơ bản của Chatbot được xây dựng dựa trên NLP, NLU, NLG
(Natural Language Generation – Tạo ngôn ngữ tự nhiên), Cơ sở tri thức - Knowledgebase/Hệ thống quản
lý nội dung - Content management System (CMS) và Bộ nhớ dữ liệu - Data Storage như trong Hình 6.
Trong đó, NLU giúp Chatbot hiểu yêu cầu của Người dùng (User) và NLG sử dụng cơ sở tri thức và bộ
nhớ để tạo ra câu trả lời.
Tổng hợp Phát âm
Bộ tạo tín hiệu
tiếng nói
Văn bản
Phổ âm Log-Mel
Bộ mã hoá
Giọng giáo
viên
190
Nguyễn Thị Mỹ Thanh, Diệp Thanh Hải, Trịnh Ngọc Đức, Ngô Thị Kim Linh, Lê Ngọc Bích, Đào Xuân Quy
Hình 5. Khuôn mặt của giáo viên được điều khiển tương ứng với giọng nói.
Hình 6. Thành phần cơ bản trong cấu trúc Chatbots.
Hình 7. Người học (U: user) tương tác với Chatbots (B: Bot) trong một bài học.
Hình 7 mô tả tương tác giữa Người sử dụng và Chatbot trong một bài học. Người sử dụng có thể hỏi
Chatbot nội dung bài học hoặc kiểm tra kiến thức bằng cách tham gia bài tập - Quiz/trả lời câu hỏi - QA.
Hình 8 mô tả thiết kế hội thoại giữa Chatbot và Người sử dụng trong hai trường hợp: Người sử dụng hỏi
và Chatbot trả lời; Chatbot hỏi và người sử dụng trả lời.
User NLP NLU
NLG
Cơ sở tri thức/CMS
Bộ nhớ
quay lại
Chat
kiểm tra
U: tương tác B
U: câu hỏi U: chọn
U: xem bài học
tiếp tục
quay lại
Chat
191
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC”
Hình 8. Hội thoại giữa Chatbot và người sử dụng (User) trong hai trường hợp.
2.5 Nền tảng học trực tuyến với Chatbot
Có nhiều nghiên cứu áp dụng AI vào giáo dục trong ba nhóm: hỗ trợ người học trong học tập; hỗ trợ giáo
viên trong giảng dạy như giảm khối lượng công việc của giáo viên, giúp giáo viên đánh giá học sinh; hệ
thống quản lý và giám sát cho nhà quản lý. Nhiều nghiên cứu tập trung vào hai nhóm đầu, hỗ trợ người
học và giáo viên. Trong bài báo này, chúng tôi đề xuất một nền tảng học trực tuyến ứng dụng Trí tuệ nhân
tạo hỗ trợ cả ba nhóm. Hình 9 minh họa cấu trúc nền tảng học trực tuyến do chúng tôi đề xuất theo định
hướng Chatbot hỗ trợ: giáo viên, người học và nhà quản lý.
Hình 9. Chatbot tương tác với người học, giáo viên và nhà quản lý.
Người học: Chatbot hỗ trợ người học theo mong muốn cá nhân của người học; Chatbot không những
giao tiếp với người học bằng văn bản và giọng nói mà còn hỗ trợ đa ngôn ngữ (tùy chỉnh ngôn ngữ một
cách dễ dàng); Chatbot giúp giáo viên kiểm tra, đánh giá người học một cách công bằng không dựa vào
cảm xúc và ý kiến chủ quan. Từ đó Chatbot đề xuất lộ trình học tập phù hợp. Chatbot cung cấp kết quả
đánh giá người học và giáo viên theo thời gian thực;
Giáo viên: Chatbot đóng vai trò như một giáo viên ảo trong việc giảng dạy và kiểm tra, đánh giá người
học; Chatbot thay giáo viên thực hiện các công việc lặp lại, hỗ trợ nhiều người học cùng một thời điểm.
Mô hình chúng tôi đề xuất được mô tả trong Hình 10, trong đó, giáo viên chỉ cần thực hiện Slide trình
chiếu và mô tả nội dung bài học, Chatbot tự động tạo ra nội dung bài học với giọng nói và khuôn mặt của
giáo viên. Giáo viên không cần quay video nội dung bài học. Đặc biệt, mô hình đề xuất cho phép chỉnh
sửa nội dung bài học bằng cách chỉ cần thao tác trên Slide và mô tả nội dung Slide.
hoàn thành
kết thúc
B: chúc mừng
B: khen
B: làm lạiU: trả lời
Sai
B: hỏi
B: chào
tiếp tục
đúng
hoàn thành
thử lại
Chatbot hỏi
User trả lời
hoàn thành
B: Thank!
Bye
B: trả lời
U: hỏi
tiếp tục
User hỏi
Chatbot trả lời
Người học
Nhà quản lý
Giáo viên Chatbots Cơ sở dữ liệu
Nền tảng học trực tuyến
192
Nguyễn Thị Mỹ Thanh, Diệp Thanh Hải, Trịnh Ngọc Đức, Ngô Thị Kim Linh, Lê Ngọc Bích, Đào Xuân Quy
Nhà quản lý: Chatbot giúp người quản lý giảm chi phí nhân sự trong việc vận hành; Chatbot giúp
người quản lý giám sát nội dung giảng dạy bằng cách lưu nội dung giảng dạy thành văn bản và đưa ra báo
cáo đánh giá.
Hình 10. So sánh công việc tạo nội dung bài học giữa nền tảng MOOC truyền thống và chúng tôi đề xuất.
3 Kết quả
Nền tảng học trực tuyến được phát triển dựa trên các ngôn ngữ như trong Hình 11. Trong đó, phần Front-
end: Html và Javascript; và phần back-end: Python với Django Framework Web và Sql là PostgreSQL.
Phát triển nền tảng học trực tuyến với Javascript và Python đảm bảo nâng cao trải nghiệm của người dùng
cũng như hỗ trợ công nghệ về AI, đặc biệt NLU, NLP và DL.
Hình 11. Ngôn ngữ xây dựng nền tảng học trực tuyến
Giao diện người dùng UI (User Interface) của bài học được đưa ra trong Hình 12. Với hai phần chính
là Slide trình chiếu và Chatbot. Phần Slide trình chiếu hiển thị nội dụng bài học và Nút Change Button để
thay đổi Slide trình chiếu ở chế độ thủ công - manual. Phần cửa sổ Chatbot Popup gồm: Nút Voice Button
là chế độ người dùng giao tiếp với Chatbot bằng giọng nói, Nút STT Record là chế độ Chatbot chuyển
giọng nói của giáo viên thành văn bản, tự động ghi chép lại nội dung trong trường hợp giáo viên trực tiếp
giới thiệu nội dung bài học; Nút Subtitle hiển thị lời nói của người học, giáo viên hoặc hỗ trợ chuyển đa
ngôn ngữ; Vùng nhập văn bản - Text Input là chế độ người dùng giao tiếp với Chatbot bằng văn bản.
Trợ lý ảo STT
TTS
SDF
Slide + mô tả nội dung
Giáo viên
Giọng
nói
tạo mới
chỉnh sửa
Slide
Mặt
Giáo viên
Slide + mô tả nội dung
quay Video
Video bài học
tạo mới
chỉnh sửa
User HTML JavaScript
Front-end
Python SQL
Back-end
193
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC”
Hình 12. Giao diện người dùng UI
Trong mục này chúng tôi trình bày kết quả khảo sát việc triển khai nền tảng học trực tuyến với Trợ lý
ảo tiếng Việt. Phiên bản thử nghiệm chưa hỗ trợ giọng nói và khuôn mặt của giảng viên. Khảo sát đánh
giá chất lượng giọng nói của Chatbot: Mục đích của cuộc khảo sát là đánh giá khả năng giao tiếp bằng
giọng nói tiếng Việt của Chatbot sử dụng API từ Vais, Zalo, VTCC và Google. Kết quả khảo sát từ 200
sinh viên, giảng viên và nhà quản lý được đưa ra: mức độ hài lòng về chất lượng xử lý ngôn ngữ tự nhiên
đạt được trên 75%, mức độ này đảm bảo độ tin cậy trong việc triển khai hệ thống Trợ lý ảo giao tiếp
giọng nói tiếng Việt. Khảo sát đánh giá hiệu quả học trực tuyến với Trợ lý ảo tiếng Việt: Trên 85% sinh
viên hài lòng với sự hỗ trợ theo thời gian thực từ Trợ lý ảo. Trên 90% giảng viên hài lòng về sự hỗ trợ của
Trợ lý ảo do giảng viên tiết kiệm được thời gian trong giảng dạy và đánh giá sinh viên. Đồng thời, trên
90% bộ phận đào tạo hài lòng trong việc giám sát nội dung bài học thông qua báo cáo đánh giá từ Chatbot
thay vì cử nhân viên giám sát.
4 Kết luận
Trong bài báo này, chúng tôi đã đề xuất nền tảng học trực tuyến với Trợ lý ảo tiếng Việt. Mô hình đề xuất
đảm bảo hiện thị nội dung với chất lượng cao nhất và cho phép chỉnh sửa nội dung bài học trực tiếp từ
văn bản. Kết quả khảo sát việc sử dụng Trợ lý ảo tiếng Việt giao tiếp bằng giọng nói đảm bảo hỗ trợ
giảng dạy trực tuyến. Trong bài báo tiếp theo, chúng tôi giới thiệu kết quả tổng hợp giọng nói và điều
khiển chuyển động khuôn mặt giảng viên theo giọng nói.
Tài liệu tham khảo
1. Cognii, https://www.cognii.com, truy cập 10/8/2020
2. Coursera, https://www.coursera.org, truy cập 10/8/2020
3. Edumaill, https://www.edumall.vn, truy cập 10/8/2020
4. edx, https://www.edx.org, truy cập 10/8/2020
5. Hocmai, https://hocmai.vn, truy cập 10/8/2020
6. Real time voice cloning, https://github.com/CorentinJ/Real-Time-Voice-Cloning
7. Jia, Y., Zhang, Y., Weiss, R., Wang, Q., Shen, J., Ren, F., Nguyen, P., Pang, R.,
Moreno, I.L., Wu, Y., et al.: Transfer learning from speaker verification to multispeaker text-to-speech synthesis.
PDF Slide
1
3 2
4
5
194
Nguyễn Thị Mỹ Thanh, Diệp Thanh Hải, Trịnh Ngọc Đức, Ngô Thị Kim Linh, Lê Ngọc Bích, Đào Xuân Quy
In: Advances in neural information processing
systems. pp. 44804490 (2018)
8. Mai, L.C., Truong, D.Q.: Report on the speech-to-text shared task in vlsp campaign
2019. In: Vietnamese Language Signal Processing. VLSP (2019)
9. Oord, A.v.d., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A., Kalchbrenner, N., Senior, A., Ka-
vukcuoglu, K.: Wavenet: A generative model for raw
audio. arXiv preprint arXiv:1609.03499 (2016)
10. Prenger, R., Valle, R., Catanzaro, B.: Waveglow: A flow-based generative network
for speech synthesis. In: ICASSP 2019-2019 IEEE International Conference on
Acoustics, Speech and Signal Processing (ICASSP). pp. 36173621. IEEE (2019)
11. Shen, J., Pang, R., Weiss, R.J., Schuster, M., Jaitly, N., Yang, Z., Chen, Z., Zhang,
Y., Wang, Y., Skerrv-Ryan, R., et al.: Natural tts synthesis by conditioning wavenet
on mel spectrogram predictions. In: 2018 IEEE International Conference on Acoustics, Speech and Signal Pro-
cessing (ICASSP). pp. 47794783. IEEE (2018)
12. Suwajanakorn, S., Seitz, S.M., Kemelmacher-Shlizerman, I.: Synthesizing obama:
learning lip sync from audio. ACM Transactions on Graphics (TOG) 36(4), 113
(2017)
13. Thies, J., Elgharib, M., Tewari, A., Theobalt, C., Nießner, M.: Neural voice puppetry: Audio-driven facial reen-
actment. arXiv preprint arXiv:1912.05566 (2019)
14. Thies, J., Zollhofer, M., Stamminger, M., Theobalt, C., Nießner, M.: Face2face:
Real-time face capture and reenactment of rgb videos. In: Proceedings of the IEEE
conference on computer vision and pattern recognition. pp. 23872395 (2016)
15. Trang, N.T.T., Tung, N.X.: Text-to-speech shared task in vlsp campaign 2019:
Evaluating vietnamese speech synthesis on common datasets. In: Vietnamese Language Signal Processing.
VLSP (2019)
195
Các file đính kèm theo tài liệu này:
- tro_ly_ao_tieng_viet_trong_giang_day_truc_tuyen.pdf