Nguyễn Tấn Phú, Nguyễn Nhị Gia Vinh, Lê Thị Diễm và Lê Minh Lý
Mô Hình Mạng Nơron Tích Chập 
Phân Tách Giọng Hát Từ Hỗn Hợp Âm Nhạc 
A Convolutional Neural Network Model to Separate Singing Voice 
from Music 
Nguyễn Tấn Phú 1, Nguyễn Nhị Gia Vinh2, Lê Thị Diễm3, Lê Minh Lý4
1 Khoa Công Nghệ Thông Tin, Trường Đại Học Kỹ Thuật – Công Nghệ Cần Thơ 
[email protected] 
2,3,4Khoa Công Nghệ Thông Tin, Trường Đại Học Cần Thơ 
{nngvinh, ltdiem, leminhly}@ctu.edu.vn 
Tóm tắt. Nghiên cứu này đề xuất một mô hình phân tách giọng hát từ nguồn hỗn hợp âm nhạc bằng 
mạng nơron tích chập - CNN (Convolutional Neural Network). Phép biến đổi Fourier thời gian ngắn - 
STFT (Short time Fourier Transform) được áp dụng để trích các đặc trưng cơ bản của tín hiệu giọng 
hát. Bộ dữ liệu DSD100 (Demixing Secrets Dataset 100) gồm các hỗn hợp âm nhạc của giọng hát và 
nhạc đệm từ các nhạc cụ như trống, bass, .v.v. được sử dụng để đánh giá hiệu suất của mô hình mạng 
CNN. Kết quả thực nghiệm cho thấy mô hình mạng CNN đạt độ chính xác là 97.24%. 
Từ khóa. Mạng nơron tích chập (Convolutional Neural Network), Phép biến đổi Fourier thời gian 
ngắn (Short time Fourier Transform), Đặc trưng âm thanh (audio feature), Demixing Secrets Dataset 
100 (DSD100). 
Abstract— This study proposes a model to separate singing voice from music by using convolutional 
neural network (CNN). Short time Fourier Transform (STFT) is applied to extract basic audio features 
of singing voice. Music database named Demixing Secrets Dataset 100 (DSD100) including singing 
voice, music background is used to estimate convolutional neural network performance. Experiental 
results in this study proves that proposed convolutional neural nework gives precistion of 97.24%. 
Keywords. Convolutional Neural Network, Short time Fourier Transform, audio feature, Demixing 
Secrets Dataset 100 
1 Giới thiệu 
Trong những năm gần đây, sự phát triển của khoa học công nghệ cùng với sự bùng nổ của mạng xã hội 
trong nhiều thập kỷ qua, internet đã trở thành nguồn thu thập thông tin đa phương tiện như sách, báo, hình 
ảnh, video, âm nhạc,trong đó âm nhạc đã không ngừng phát triển, hoàn thiện và sức ảnh hưởng của nó 
ngày càng lớn. Bên cạnh đó, nhu cầu về vấn đề tách lời giọng hát khỏi nhạc trong các bài hát là chủ đề được 
quan tâm đối với những nhà biên tập âm thanh. Tuy nhiên, việc lựa chọn mô hình phù hợp để phân tách 
được giọng hát từ bài hát là một bài toán phức tạp. 
Mạng nơron tích chập (CNN) được ứng dụng thành công trong việc xử lý hình ảnh cho các tác vụ như 
siêu phân giải hình ảnh [11] và phân đoạn ngữ nghĩa của hình ảnh theo đề xuất của [12]. Trong trường xử 
lý hình ảnh, CNN lấy đầu vào là một vectơ cường độ pixel hai chiều trên kích thước không gian và khai 
thác mối tương quan không gian cục bộ giữa các nơron đầu vào để trích chọn các đặc điểm cục bộ. Hiện 
nay, nhiều nghiên cứu đã đưa ra các ý tưởng phát triển các hệ thống phân loại nhạc tự động, nhận dạng hợp 
âm, phân tách giọng hát từ các bản thu âm đơn âm. Nghiên cứu [2] đã đề xuất hướng phân tách giọng hát 
dựa trên thuật toán trích chọn đặc trưng STFT và kết hợp với mạng nơron hồi quy (RNN). Phương pháp 
này phân tích tín hiệu audio thành ảnh phổ và sau đó rút trích các đặc trưng thông tin về tần số của tín hiệu 
nhạc. 
211
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” 
Một số phương pháp khác phân tích dựa trên mô hình học sâu (deep learning) để ước tính Mặt nạ nhị 
phân lý tưởng (Ideal Binary Mask - IBM) để tách tín hiệu giọng nói khỏi hỗn hợp nhiễu đã được đề xuất 
bởi [5]. Nugraha và cộng sự. [6] điều chỉnh các mạng nơron để phân tách nguồn đa kênh, sử dụng cả thông 
tin về pha và cường độ. Đối với phân tách nguồn đơn âm, Huang et al. [7] đề xuất một phương pháp sử 
dụng các mạng nơron học sâu, lấy một khung duy nhất của phổ, phổ cường độ của hỗn hợp làm đầu vào để 
trích chọn các đặc trưng âm sắc của khung đơn cho mỗi nguồn. Uhlich et al. [8] đề xuất một phương pháp 
khác lấy nhiều khung của phổ, phổ cường độ của hỗn hợp làm đầu vào và chỉ bao gồm các lớp được kết 
nối đầy đủ. Phương pháp này sử dụng mô hình các đặc trưng âm sắc trên nhiều khung thời gian. Mặc dù 
các phương pháp này hoạt động tốt và dựa vào các đặc trưng trên toàn bộ phổ tần số nhưng không khai thác 
hoàn toàn các đặc trưng về tần số thời gian cục bộ. Hơn nữa, mô hình mạng nơron tích chập (CNN) trong 
nghiên cứu [9][10] đã tận dụng các đặc trưng quy mô nhỏ có trong dữ liệu để trích xuất giọng hát từ hỗn 
hợp âm nhạc. 
Trong bài báo này, chúng tôi thử nghiệm một mô hình phân tách giọng hát từ hỗn hợp âm nhạc bằng 
mạng nơron tích chập và phép biến đổi Fourier thời gian ngắn để phân tích các đặc trưng về biên độ của tín 
hiệu audio. Không giống như hình ảnh 2D, phép biến đổi Fourier thời gian ngắn không có tính đối xứng 
trên cả hai trục, nhưng có thể tìm thấy sự đối xứng cục bộ dọc theo mỗi trục đơn. Do đó, các bộ lọc được 
sử dụng trong CNN cần phải được điều chỉnh phù hợp với biến đổi Fourier thời gian ngắn của âm thanh. 
Kết quả của mô hình có thể được áp dụng đối với các thể loại nhạc khác hoặc được ứng dụng để xây dựng 
các hệ thống truy vấn thông tin nhạc dựa vào nội dung, kiểm tra việc sao chép bản quyền nhạc. Bài báo 
được tổ chức bao gồm các phần chính như sau: phần I giới thiệu tổng quan, phần II mô tả các nghiên cứu 
liên quan đến phân tích tín hiệu audio. Mô hình phân tách giọng hát từ hỗn hợp âm nhạc được trình bày 
trong phần III. Phần IV mô tả kết quả thử nghiệm với bộ dữ liệu DSD100 [4] và phần V là phần kết luận 
và thảo luận. 
2 Các nghiên cứu liên quan 
Derek Mendez và cộng sự [3] đã đề xuất một phương pháp hiệu quả để phân tách nhạc nền và giọng hát. 
Đầu tiên, máy học véctơ hỗ trợ SVM được sử dụng để gắn nhãn các phần của bài hát chứa giọng hát và các 
phần chỉ có nhạc nền, điều này cho phép tách một nhóm lớn các bài hát sau khi dược huấn luyện với SVM 
để phân loại các phân đoạn chứa giọng hát trong một bản nhạc hoặc thể loại cụ thể. Bài hát được gắn nhãn 
sau đó được chuyển tới thuật toán PCLA sau khi thực hiện phép biến đổi Fourier trong thời gian ngắn 
(STFT), còn được gọi là quang phổ. Với phương pháp đề xuất của tác giả dựa trên ý tưởng và được cải tiến, 
kết quả thử nghiệm và nhận dạng trên tập dữ liệu các bài hát với tỷ lệ nhận dạng với độ chính xác gần 90%. 
Pritish Chandna và cộng sự [1] đã đưa ra mô hình mạng nơron tích chập (CNN) để tách nguồn âm thanh 
đơn âm.Mô hình mạng CNN này có hai phần: (1) - phần mã hóa (Encoding) bao gồm hai lớp tích chập (lớp 
tích chập theo chiều dọc, lớp tích chập theo chiều ngang) và một lớp kết nối đầy đủ, (2) - phần giải mã 
(Decoding) là đầu ra của lớp kết nối đầy đủ đầu tiên được chuyển tới một lớp kết nối đầy đủ khác, có hàm 
kích hoạt ReLU và cùng kích thước đầu ra của lớp chập thứ hai. Sau đó, lớp này được định hình lại về cùng 
kích thước với lớp tích chập chiều ngang và được chuyển qua các lớp giải mã liên tiếp, các phép toán nghịch 
đảo đến giai đoạn tích chập để ước lượng cho mỗi nguồn dự đoán. Mô hình trên [1] đã được thử nghiệm, 
đánh giá trên tập dữ liệu Demixing Secrets Dataset 100 (DSD100) [4] và đạt được hiệu suất khá tốt, Source 
to Distortion Ratio (SDR) 1.3 ~ 2.4dB và Source to Interference Ratio (SIR) ~3.6 dB. 
Trong nghiên cứu này, chúng tôi sử dụng mạng nơron tích chập (CNN) dựa trên cơ sở nghiên cứu của 
[1] để xây dựng mô hình cho bài toán phân tách giọng hát từ hỗn hợp âm nhạc. Mô hình đề xuất và mô hình
VGG16 [13] cũng được thử nghiệm và đánh giá trên tập dữ liệu DSD100 [4].
3 Đề xuất mô hình phân tách giọng hát từ hỗn hợp âm nhạc 
3.1 Mô hình tổng quát hệ thống 
Hệ thống phân tách giọng hát từ hỗn hợp âm nhạc bao gồm các thành phần: trích chọn đặc trưng, huấn 
luyện và nhận dạng phân tách giọng hát. Kết quả sau khi trích đặc trưng của tín hiệu âm thanh là một tập 
212
Nguyễn Tấn Phú, Nguyễn Nhị Gia Vinh, Lê Thị Diễm và Lê Minh Lý
các đặc trưng về thời gian, tần số, biên độ. Chúng tôi sử dụng phương pháp biến đổi Fourier thời gian ngắn 
(STFT) để trích đặc trưng về biên độ. Mạng nơron tích chập được sử dụng để nhận dạng và phân biệt giọng 
hát với nhạc đệm. Quá trình huấn luyện mạng nơron tích chập sử dụng các vectơ đặc trưng và nhãn của 
giọng hát để huấn luyện mạng một cách tự động. Hình 1 mô tả các thành phần và quá trình của hệ thống 
phân tách giọng hát từ hỗn hợp âm nhạc. 
Hình 1. Mô hình tổng quát của hệ thống phân tách giọng hát từ hỗn hợp âm nhạc 
3.2 Tiền xử lý audio 
Đầu vào của hệ thống là các tập tin tín hiệu âm thanh audio được lấy từ nguồn dữ liệu DSD100 [4], các tập 
tin âm thanh audio được thu âm với tần số lấy mẫu fs = 44100 Hz và kích thước cửa sổ Hamming là 1024. 
Các bài hát trong cở sở dữ liệu DSD100 có độ dài khác nhau, thời lượng trung bình của một bài hát là 4 
phút 10 giây. Vì vậy, chúng tôi cần chuẩn hóa chiều dài của các audio. Các file audio sẽ được cắt thành 
nhiều đoạn, trong đó mỗi đoạn có thời lượng chuẩn là ~290ms. Với các file audio có thời lượng lớn hơn thì 
chỉ chọn đoạn âm thanh ~290ms nằm ở giữa. Do đó, toàn bộ các file tín hiệu âm thanh đều được phân tích 
thành ảnh phổ với kích thước 513 x 25 để làm dữ liệu đầu vào cho quá trình rút trích đặc trưng. 
3.3 Kiến trúc mô hình mạng nơron tích chập 
Trong kiến trúc mạng đề xuất, các lớp được đặt tên theo số lượng lớp (lớp tích chập và các lớp kết nối đầy 
đủ). Ví dụ, mô hình M3 có 2 lớp tích chập và 1 lớp được kết nối đầy đủ (sử dụng các hàm kích hoạt ReLU, 
MaxPooling2D và Dropout sau các lớp tích chập). Với các thay đổi nhỏ của kiến trúc mạng cũng ảnh hưởng 
đến tên của cấu trúc mạng, ví dụ M4+D (tăng số lượng bộ lọc (filter) trong các lớp tích chập và điều chỉnh 
Dropout so với M4), M4++ là tăng số lượng bộ lọc trong các lớp tích chập so với M4+D, M5+f là điều 
chỉnh kích thước của tất cả bộ lọc. 
Bảng 1. Kiến trúc các mô hình mạng nơron tích chập 
Cấu hình các mô hình mạng nơron tích chập 
Lớp 
M3 M3+ M4 M4+D M4++ M4+f M4++f 
3 lớp 4 lớp 
Dữ liệu đầu vào (ảnh tỷ lệ xám 513 x 25 pixel) 
L1 
Conv2D-
16 
 (3,3) 
ReLU 
Conv2D-
32 (3,3) 
ReLU 
Conv2D-
16 
 (3,3) 
ReLU 
Conv2D-
32 
 (3,3) 
ReLU 
Conv2D-
64 (3,3) 
ReLU 
Conv2D-
16 (5,5) 
ReLU 
Conv2D-32 
(5,5) 
ReLU 
MaxPooling2D (2,2) 
Dropout(0.25) Dropout(0.2) 
213
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” 
Cấu hình các mô hình mạng nơron tích chập 
Lớp 
M3 M3+ M4 M4+D M4++ M4+f M4++f 
3 lớp 4 lớp 
L2 
Conv2D-
32 (3,3) 
ReLU 
Conv2D-
64 (3,3) 
ReLU 
Conv2D-
32 (3,3) 
ReLU 
Conv2D-
64 (3,3) 
ReLU 
Conv2D-
128 (3,3) 
ReLU 
Conv2D-
32 (5,5) 
ReLU 
Conv2D-64 
(5,5) 
ReLU 
MaxPooling2D (2,2) 
Dropout(0.5) Dropout(0.2) 
L3 
Conv2D-
64 (3,3) 
ReLU 
Conv2D-
128 (3,3) 
ReLU 
Conv2D-
256 (3,3) 
ReLU 
Conv2D-
64 (5,5) 
ReLU 
Conv2D-
128 (5,5) 
ReLU 
MaxPooling2D (2,2) 
Dropout(0.5) Dropout(0.2) 
FC Flatten () 
Dense((512), Activation('relu'), Dropout(0.5)) 
Out Dense(513, activation='softmax') 
Los
s 
0.3432 0.3230 0.3421 0.1554 0.1610 0.1605 0.1598 
Acc 0.9098 0.9398 0.9298 0.9420 0.9411 0.9415 0.9417 
Tim
e 
39s 82s 33s 155s 396s 49s 105s 
Trong đó: Loss: tỉ lệ lỗi khi huấn luyện, Acc: Độ chính xác, Time: Thời gian huấn luyện của mỗi epoch. 
Để kiểm tra mức độ ảnh hưởng độ sâu của mạng trong nhận dạng giọng hát, mô hình mạng nơron tích 
chập (CNN) được triển khai bắt đầu với mạng 3 lớp, tức là M3, và sau đó thêm lớp vào mạng này theo từng 
bước. Mô hình CNN được sửa kích thước của tất cả bộ lọc từ 3x3 và tăng lên thành 5x5 ở các mô hình 
M4+f và M4++f. Để giữ kích thước của đầu ra, mô hình được cố định kích thước trượt (stride) là 1 và kích 
thước padding=’same’. Việc lựa chọn kích thước bộ lọc nhỏ giúp giảm đáng kể về số lượng tham số trong 
mạng và giúp việc huấn luyện mạng nhanh hơn. 
Kết quả thử nghiệm trên tập dữ liệu đã được xử lý ở trên với số vòng lặp (epoch) lặp lại 10 lần, batch_size 
= 32 cho tất cả các mô hình mạng. Kết quả ở Bảng 1 cho thấy mô hình M4+D đạt độ chính xác khá cao 
94.20%, tỉ lệ lỗi 0.1554, thời gian huấn luyện của mỗi epoch là 155s (giây). Từ kết quả trên, mô hình mạng 
CNN nhận dạng phân tách giọng hát từ hỗn hợp âm nhạc được đề xuất tại Hình 2. 
Hình 2. Mô hình mạng CNN nhận dạng phân tách giọng hát 
Mô hình mạng CNN đề xuất bao gồm: lớp đầu vào, 3 lớp tích chập, 3 lớp lấy mẫu, lớp kết nối đầy đủ và 
lớp đầu ra. 
Lớp đầu vào có dạng input_shape = (n, 513, 25, 1) trong đó n là số lượng mẫu đầu vào và số lượng kênh 
là 1 vì là ảnh nhị phân. 
Lớp 1: lớp tích chập với 32 bộ lọc (filter) với kích thước mỗi bộ lọc là (3x3), lớp lấy mẫu có kích thước 
(2x2), sử dụng hàm kích hoạt ReLU. 
Lớp 2: lớp tích chập với 64 bộ lọc với kích thước mỗi bộ lọc là (3x3), lớp lấy mẫu có kích thước (2x2), 
sử dụng hàm kích hoạt ReLU. 
Lớp 3: lớp tích chập với 128 bộ lọc với kích thước mỗi bộ lọc là (3x3), lớp lấy mẫu có kích thước (2x2), 
sử dụng hàm kích hoạt ReLU. 
214
Nguyễn Tấn Phú, Nguyễn Nhị Gia Vinh, Lê Thị Diễm và Lê Minh Lý
Lớp Flatten (64 x 3 x 128) thành lớp có 24,576 nút, lớp này kết nối với lớp FC (lớp kết nối đầy đủ Dense) 
sau nó có 512 nút. 
Lớp kết nối đầy đủ Dense là lớp đầu ra với 513 nút có số lượng trọng số là 512 x 513 + 513 = 263,169 
nút. Lớp này sử dụng hàm softmax để biểu diễn phân bố xác suất cho từng giọng hát. 
3.4 Mặt nạ nhị phân (Binary masking) 
Như trong phần nghiên cứu [2], mong muốn tích hợp tính toán của mặt nạ nhị phân cho mỗi nguồn vào 
mạng. Từ đầu ra của mạng   (t,f), ta có thể tính toán mặt nạ nhị phân Mb(f) bằng cách so sánh với ∝ trong 
miền thính giác, được ký hiệu trong khung thời gian t và tần số f với một ngưỡng như sau: 
  ( ,  ) =  
1  ế   ( ,  ) > ∝
0 ,   ượ   ạ 
(1) 
Mặt nạ sau đó được áp dụng cho tín hiệu hỗn hợp đầu vào để ước lượng cho kết quả dự đoán: 
 ̂( ,  ) =   ( ,  ).  ( ,  ) (2) 
Trong đó  ( ,  ) là phổ của tín hiệu hỗn hợp đầu vào. 
4 Kết quả thử nghiệm 
Nghiên cứu sử dụng tập dữ liệu DSD100 [4] gồm 100 bài hát để huấn luyện và đánh giá mô hình. Bộ dữ 
liệu này được chia thành hai phần: 70 bài hát dành cho quá trình huấn luyện mô hình, 30 bài hát còn lại 
dành cho quá trình kiểm tra, đánh giá mô hình. Quá trình thực nghiệm mô hình được thực hiện dựa trên 
máy tính cá nhân, với cấu hình như sau: Intel® Core™ i5- 7200U CPU @ 2.50GHz 2.70GHz , RAM 8GB. 
4.1 Kết quả thực nghiệm 
Mô hình mạng nơron tích chập (CNN) được huấn luyện bằng cách sử dụng lựa chọn giá trị batch_size = 32 
và số vòng lặp (epoch) tăng dần ảnh hưởng đến sự thay đổi tốc độ học và đồng thời cũng ảnh hưởng đến tỉ 
lệ lỗi, độ chính xác, thời gian huấn luyện của mô hình. Kết quả thực nghiệm cho thấy giá trị batch_size=32, 
số vòng lặp (epoch) = 50 cho kết quả cao nhất với độ chính xác là 97.24%. Bảng 2 mô tả kết quả huấn luyện 
và kiểm tra khi thay đổi số vòng lặp qua các trường hợp. 
Bảng 2. Bảng tổng hợp so sánh kết quả thử nghiệm 
Trường 
hợp 
Batch_size 
Số vòng lặp 
(epoch) 
Số lượng mẫu 
Tỉ lệ lỗi 
Độ chính 
xác (%) Huấn luyện Kiểm tra 
1 32 10 61,960 24,785 0.1554 94.20% 
2 32 20 61,960 24,785 0.1460 94.43% 
3 32 50 61,960 24,785 0.0482 97.24% 
4 32 100 61,960 24,785 0.0725 94.42% 
Biểu đồ ở Hình 3 thể hiện tỉ lệ lỗi và độ chính xác với số vòng lặp (epoch) = 50 và batch_size = 32 cho 
thấy các thay đổi trong quá trình thực nghiệm. 
215
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” 
Hình 3. Biểu đồ tỉ lệ lỗi và độ chính xác của mô hình mạng CNN với epoch = 50 và batch_size = 32 
Hình 3 và kết quả của Bảng 2 cho thấy mô hình mạng nơron tích chập (CNN) cho kết quả cao nhất với 
độ chính xác 97,24% tương ứng với số vòng lặp (epoch) = 50. 
4.2 So sánh kết quả thực nghiệm 
Kết quả thực nghiệm với mô hình VGG16 [13] biểu đồ cho thấy tỉ lệ lỗi và độ chính xác với epoch = 50 và 
batch_size = 32 để thấy các thay đổi trong quá trình thực nghiệm. 
Hình 4. Biểu đồ tỉ lệ lỗi và độ chính xác của mô hình VGG16 với epoch = 50 và batch_size = 32 
Hình 4 thể hiện độ chính xác của mô hình mạng VGG16 khi huấn luyện và kiểm tra là ổn định, giá trị 
lỗi giảm dần, độ chính xác của mô hình VGG16 trên tập kiểm tra là 93.98% và không có chiều hướng tăng 
trong khi tỉ lệ lỗi có chiều hướng tăng dần. 
Hình 5 biểu diễn kết quả thực nghiệm với mô hình mạng VGG16 và mô hình mạng nơron đề xuất, hai 
mô hình được huấn luyện trên cùng tập dữ liệu đã được xử lý, số vòng lặp (epoch) tăng dần và số batch_size 
= 32. 
216
Nguyễn Tấn Phú, Nguyễn Nhị Gia Vinh, Lê Thị Diễm và Lê Minh Lý
Hình 5. So sánh tỉ lệ lỗi và độ chính xác của hai mô hình VGG16 và mô hình mạng CNN đề xuất 
So sánh kết quả thử nghiệm: 
Bảng 3 mô tả sự so sánh giữa độ chính xác thu được từ mô hình mạng CNN đề xuất và các mô hình khác 
được sử dụng để nhận dạng và phân tách giọng hát trong các nghiên cứu trước đây. 
Bảng 3. Bảng so sánh kết quả thử nghiệm 
STT Mô hình 
Độ chính 
xác (%) 
1 Derek Mendez, Tarun Pondicherry, Chris Young [3] 90% 
2 VGG16 [13] 93.98% 
3 Mô hình mạng CNN đề xuất 97.24% 
Độ chính xác từ mô hình mạng nơron tích chập CNN đề xuất cao hơn kết quả thử nghiệm từ mô hình 
VGG16 [13] và các công trình nghiên cứu trước đó. Với độ chính xác thu được từ mô hình mạng CNN là 
97.24% trên tập dữ liệu kiểm tra cho thấy mô hình đề xuất với việc điều chỉnh và bổ sung các tham số như 
MaxPooling2D, Dropout và hàm kích hoạt ReLU ở các lớp tích chập và lớp kết nối đầy đủ đã giảm tỉ lệ lỗi 
đáng kể và cho độ chính xác cao so với các mô hình trước đó. 
5 Kết luận và thảo luận 
Bài báo này trình bày mô hình phân tách giọng hát từ hỗn hợp âm nhạc sử dụng mạng nơron tích chập 
(CNN). Tuy nhiên, đây là một công việc không đơn giản vì các thể loại nhạc vẫn còn là một khái niệm mở 
và tùy thuộc vào ý kiến chủ quan của con người. Trong nghiên cứu này, chúng tôi đề xuất sử dụng STFT 
để rút trích các đặc trưng. STFT là một kỹ thuật phân tích tín hiệu, cung cấp một cách biểu diễn tín hiệu 
trong miền thời gian và tần số dưới dạng ảnh phổ làm cho việc tính toán nhanh và hiệu quả. Nghiên cứu 
cũng tập trung vào việc phân tách giọng hát bằng cách sử dụng kết hợp các đặc trưng về thời gian, tần số 
và biên độ tạo nên một vectơ đặc trưng. 
Trong thời gian tới, nghiên cứu sẽ tập trung vào việc xây dựng và bổ sung tập các thuộc tính mô tả khái 
niệm giọng hát để nâng cao độ chính xác của mô hình mạng CNN. Ngoài ra, chúng tôi sẽ nghiên cứu và đề 
xuất mô hình CNN riêng cho bài toán trích xuất các thông tin âm nhạc có ý nghĩa từ các tín hiệu âm thanh. 
LỜI CẢM ƠN 
Các tác giả chân thành cảm ơn Khoa Công nghệ Thông tin, Trường Đại học Cần Thơ, Trường Đại học Kỹ 
thuật Công nghệ Cần Thơ đã hỗ trợ để chúng tôi có thể thực hiện thành công đề tài. 
217
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” 
Tài liệu tham khảo 
1. Pritish Chandna, Marius Miron, Jordi Janer, and Emilia G´omez (2017), “Monoaural Audio Source Separation
Using Deep Convolutional Neural Networks”, semantic scholar Corpus ID: 27739613.
2. Po-Sen Huang, Minje Kim, Mark Hasegawa-Johnson, Paris Smaragdis (2014), “Singing-voice separation from
monaural recordings using deep recurrent neural networks”, ISMIR, Corpus ID: 122871.
3. Derek Mendez, Tarun Pondicherry, Chris Young (2012), “Extracting vocal sources from master audio
recordings”, semantic scholar.
4. Zafar R., Fabian S. and Antoine L. (2016),“ Professionally-produced music recordings”, [Online] Available:
https://sisec.inria.fr/sisec-2016/2016-professionally-produced-music-recordings/.
5. Wang, Y., Narayanan, A., and Wang, D. (2014), “On Training Targets for Supervised Speech Separation”,
IEEE/ACM Transactions on Audio, Speech, and Language Processing, 22(12):1849–1858.
6. Nugraha, A. A., Liutkus, A., and Vincent, E. (2016), “Multichannel audio source separation with deep neural
networks”, Technical report.
7. Huang, P.-S., Kim, M., Hasegawa-Johnson, M., and Smaragdis, P. (2014), “Deep Learning for Monaural
Speech Separation”. Acoustics, Speech and Signal Processing (ICASSP), pp. 1562–1566.
8. Uhlich, S., Giron, F., and Mitsufuji, Y. (2015), “Deep neural network based instrument extraction from music”,
IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), pp. 2135–2139.
9. Krizhevsky, A., Sutskever, I., and Hinton, G. E. (2012), “ImageNet Classification with Deep Convolutional
Neural Networks”, In Advances in Neural Information Processing Systems, pp. 1097–1105.
10. Simpson, A. J. R. (2015), “Probabilistic Binary-Mask Cocktail-Party Source Separation in a Convolutional
Deep Neural Network”, arXiv:1503.06962.
11. Dong, C., Loy, C. C., He, K., and Tang, X. (2015), “Image super-resolution using deep convolutional
networks”, CoRR, abs/1501.00092.
12. Noh, H., Hong, S., and Han, B. (2015), “Learning deconvolution network for semantic segmentation”, CoRR,
abs/1505.04366.
13. Srikanth Tammina (2019), “Transfer learning using VGG-16 with Deep Convolutional Neural Network for
Classifying Images”, IJSRP, Vol. 9, Issue 10, ISSN 2250-3153,
218