The deep learning method has achieved good
results in many application fields, such as image processing and
computer vision. Recently, this method has also been used in the
field of natural language processing and has achieved good results
too. In this area, an issue of concern is subjective opinion
classification. A subjective opinion is an individual's thinking or
judgment about a product or a socio-cultural event or issue.
Subjective opinions have received attention from many producers
and businesses who are interested in exploiting the opinions of
the community and scientists. This paper experiments with the
deep learning model convolution neural network (CNN), long
short-term memory (LSTM), and the combined model of CNN
and LSTM. The training data set comprise reviews of cars in
Vietnamese that are pre-processed according to the method of
aspect analysis based on an ontology of semantic and sentimental
approaches. This data set experiment with CNN, LSTM, and
CNN + LSTM models are used to evaluate the effectiveness of
the data preprocessing method that was used in this paper. This
paper tests the sentiment classification with the English
Sentence Collection Stanford Sentiment Treebank (SST) to
assess the validity of the test models with the Vietnamese
opinion set. The non-neural method, SVM, was also tested
to evaluate the effectiveness of the data processing method
of the paper.
7 trang |
Chia sẻ: Thục Anh | Lượt xem: 660 | Lượt tải: 0
Nội dung tài liệu Improve CNN and LSTM in sentiment analysis for Vietnamese from data preprocessing phase, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
model ran quite slowly and had
the lowest accuracy for all three test sets tested.
• The aspect-level data preprocessing method
for comments based on SSVHT ontology improves
accuracy in both CNN, LSTM, and CNN + LSTM
models. In particular, the CNN + LSTM model has an
accuracy difference of up to 4% when it was trained
by the preprocessed dataset compared to the raw
dataset.
• The SVM method achieved accuracy not high.
The difference in accuracy when testing on two
datasets is also not high. The SVM method is not
based on the neural model as deep learning methods.
Therefore, it can be seen that the data preprocessing
method of the paper is consistent with the deeper
learning models
Although the results obtained on SST and COV tests
differed with respect to accuracy, there were many
similarities in the results achieved in each model as well as
between models. Hence, CNN and LSTM in particular, and
deep learning in general, do not have any language barriers
as well as the subject of sentence-level and aspect-level
sentence sentiment classification.
IMPROVE CNN AND LSTM IN SENTIMENT ANALYSIS FOR VIETNAMESE FROM DATA PREPROCESSING PHASE
Table IV. RESULTS OF CLASSIFICATION AND DISCUSSION OF THE MODELS.
Sentence Type Label CNN LSTM CNN+LSTM
1
Xèng hạt dẻ cho một em hạng B Raw Positive Neutral Neutral Neutral
Giá bán hạt dẻ cho một em hạng B Standardized Positive Positive Positive Positive
2
Các bác nghĩ sao chứ trông em nó ẻo lả quá ạ Raw Negative Neutral Neutral Neutral
Các bác nghĩ sao chứ tổng thể em nó ẻo lả quá ạ Standardized Negative Negative Negative Negative
3
Công nhận khoang lái em này nhìn khá chất Raw Positive Positive Positive Positive
Công nhận nội thất em này nhìn khá chất Standardized Positive Positive Positive Positive
4
Lái qua những đoạn xóc em cảm thấy nó có vẻ
ọp ẹp lắm
Raw Negative Negative Negative Negative
Vận hành qua những đoạn xóc em cảm thấy nó
có vẻ ọp ẹp lắm
Standardized Negative Negative Negative Negative
5
Ôm vô lăng trên cao tốc mớ thầy nó chao liệng
như thế nào nhé bác
Raw Negative Neutral Neutral Negative
Vận hành trên cao tốc mới thấy nó chao liệng
như thế nào nhé bác
Standardized Negative Negative Negative Negative
V. CONCLUSION
This paper achieved good results for aspect-level
sentiment analysis using the CNN and the LSTM model,
particularly the model combining CNN + LSTM by
helping the data preprocessing method based on an
ontology of semantic and sentimental approaches. This
data preprocessing method helps the learning process of
CNN and LSTM models, and combined models can be
performed more rapidly if the CNN and LSTM are
separated. This data preprocessing method enables the
CNN+LSTM model to achieve good results with a small
corpus. The importance of this method is in understanding
the subject of the corpus. The data preprocessing method
was tested in the aspect-level sentiment classification.
Next, the authors will test document-level sentiment
classification as well as improve the method so that we can
obtain good results for that problem.
The test results of this paper on the SST corpus in
English and COV corpus in Vietnamese demonstrate that
the deep learning method does not meet the limitations for
different languages. This feature of the deep learning
method is of high significance to the less popular
languages in the world, including Vietnamese. It will help
these languages develop the sentiment analysis field in
natural language processing more rapidly.
Acknowledgments: This article received some valuable
advice from Prof. Dr. Phan Thi Tuoi. The authors are
grateful to Professor.
REFERENCES
[1] Balazs, Jorge A., and Juan D. Velásquez, "Opinion mining
and information fusion: a survey", Information Fusion Vol
27, 2016, pp 95-110.
[2] MORAES, Rodrigo; VALIATI, JoãO Francisco; NETO,
Wilson P. GaviãO, “Document-level sentiment
classification: an empirical comparison between SVM and
ANN”, Expert Systems with Applications, Vol 40, No. 2,
2013, pp 621-633.
[3] Nal Kalchbrenner, Edward Grefenstette, Phil Blunsom, “A
convolutional neural network for modelling sentences”.
arXiv preprint arXiv:1404.2188, 2014.
[4] Qiudan Li, Zhipeng Jin, Can Wang, Daniel Dajun Zeng,
“Mining opinion summarizations using convolutional
neural networks in Chinese microblogging systems”,
Knowledge-Based Systems, Vol 107, 2016, pp 289-300.
[5] Duy Nguyen Ngoc, Tuoi Phan Thi and Phuc Do, “A data
preprocessing method to classify and summarize aspect-
based opinions using deep learning”, Asian Conference on
Intelligent Information and Database Systems. Springer,
2019. pp. 115-127.
[6] Vo, Q. H., Nguyen, H. T., Le, B., & Nguyen, M. L., “Multi-
channel LSTM-CNN model for Vietnamese sentiment
analysis”, In: 2017 9th international conference on
knowledge and systems engineering (KSE). IEEE, 2017, pp
24-29.
[7] PHAM, Thai-Hoang; LE-HONG, Phuong, “The importance
of automatic syntactic features in Vietnamese named entity
recognition”, arXiv preprint arXiv:1705.10610, 2017.
[8] Xingyou Wang, Weijie Jiang, Zhiyong Luo, “Combination
of Convolutional and Recurrent Neural Network for
Sentiment Analysis of Short Texts”. In Proceedings of
COLING 2016, the 26th International Conference on
Computational Linguistics: Technical Papers. 2016. pp
2428-2437.
[9] Dhanush, D., Thakur, A. K., & Diwakar, N. P, “Aspect-
based sentiment summarization with deep neural networks”,
International Journal of Engineering Research &
Technology, Vol 5, Issue 5, 2016, pp 371-375.
[10] Yoon Kim, “Convolutional neural networks for sentence
classification”, in Proceedings of the 2014 Conference on
Empirical Methods in Natural Language Processing,
EMNLP, 2014, pp 1746-1751.
[11] Lei Zhang, Suai Wang, and Bing Liu, “Deep learning for
sentiment analysis: a survey”, Wiley Interdisciplinary
Reviews: Data Mining and Knowledge Discovery, Vol 8,
Issue 4, 2018, pp e1253.
[12] VAPNIK, Vladimir; VAPNIK, Vlamimir. Statistical
learning theory Wiley. New York, 1998, 1: 624
[13] Socher, R., Perelygin, A., Wu, J., Chuang, J., Manning, C.
D., Ng, A., & Potts, C. “Recursive deep models for semantic
compositionality over a sentiment treebank”.
In Proceedings of the 2013 conference on empirical
methods in natural language processing, 2013, pp 1631-
1642.
[14] DIERK, S. F. The SMART retrieval system: Experiments in
automatic document processing—Gerard Salton,
Ed.(Englewood Cliffs, NJ: Prentice-Hall, 1971, 556 pp.,
$15.00). IEEE Transactions on Professional
Communication, 1972, 1: 17-17.
Nguyễn Ngọc Duy, Lưu Ngọc Điệp
TĂNG CƯỜNG HIỆU NĂNG CHO LSTM AND
CNN TRONG PHÂN TÍCH CẢM XÚC TIẾNG
VIỆT TỪ GIAI ĐOẠN TIỀN XỬ LÝ DỮ LIỆU
Tóm tắt—Phương pháp học sâu đã đạt được kết quả
tốt trong nhiều lĩnh vực ứng dụng, chẳng hạn như xử lý
hình ảnh và thị giác máy tính. Gần đây, phương pháp
này cũng đã được sử dụng trong lĩnh vực xử lý ngôn ngữ
tự nhiên và cũng đạt được kết quả tốt. Trong lĩnh vực
này, một vấn đề cần quan tâm là phân loại ý kiến chủ
quan. Ý kiến chủ quan là suy nghĩ hoặc nhận định của
cá nhân về sản phẩm, sự kiện hoặc vấn đề văn hóa xã
hội. Ý kiến chủ quan đã nhận được sự quan tâm của
nhiều nhà sản xuất, kinh doanh quan tâm, khai thác ý
kiến của cộng đồng và các nhà khoa học. Bài báo này
thử nghiệm với mạng nơ-ron tích chập của mô hình học
sâu (CNN), bộ nhớ ngắn hạn dài (LSTM) và mô hình kết
hợp của CNN và LSTM. Bộ dữ liệu đào tạo bao gồm các
bài đánh giá về ô tô bằng tiếng Việt được xử lý trước
theo phương pháp phân tích khía cạnh dựa trên bản thể
luận của các phương pháp tiếp cận ngữ nghĩa và cảm
tính. Thử nghiệm tập dữ liệu này với các mô hình CNN,
LSTM và CNN + LSTM được sử dụng để đánh giá hiệu
quả của phương pháp tiền xử lý dữ liệu đã được sử dụng
trong bài báo này. Bài báo này kiểm tra sự phân loại ý
kiến với Ngân hàng Bộ sưu tập câu tiếng Anh Stanford
Sentiment Tree (SST) để đánh giá tính hợp lệ của các
mô hình thử nghiệm với tập ý kiến tiếng Việt. Phương
pháp phi thần kinh, SVM, cũng đã được thử nghiệm để
đánh giá hiệu quả của phương pháp xử lý dữ liệu của bài
báo
Từ khóa—CNN, học sâu, khai phá ý kiến, kho ngữ
liệu, LSTM, mạng neural tích chập, phân tích cảm xúc,
SVM.
Nguyen Ngoc Duy is currently
a lecturer of the Faculty of
Information Technology at
Posts and
Telecommunications Institute
of Technology in Vietnam,
campus Ho Chi Minh City. I
received M.Sc. in Computer
Science in the Ho Chi Minh City
University of Technology,
Vietnam (HCMUT) in 2005,
and became Ph.D. Candidate
at HCMUT since 2016. My
research interests include
machine learning, data mining,
and natural language
processing.
Email: duynn@ptithcm.edu.vn
Luu Ngoc Diep is currently a
lecturer of the Faculty of
Information Technology at
Posts and
Telecommunications Institute
of Technology in Vietnam,
campus Ho Chi Minh City. I
received M.Sc. Electronics and
Telecommunications in the Ho
Chi Minh City University of
Technology, Vietnam
(HCMUT) in 2003.
Email: luungocdiep@ptithcm.edu.vn
Các file đính kèm theo tài liệu này:
- improve_cnn_and_lstm_in_sentiment_analysis_for_vietnamese_fr.pdf