Vấn đề nâng cao năng lực tiếng Anh cho sinh viên của các trường Đại học đang là
yêu cầu cấp thiết, giúp sinh viên đáp ứng yêu cầu ngày càng cao của thị trường lao động
nhất là trong bối cảnh hội nhập quốc tế. Một trong những khó khăn của các trường Đại học
trong việc dạy tiếng Anh cho sinh viên là do mỗi sinh viên có sự khác nhau về đầu tư cho
việc học tiếng Anh của mình (thời gian, kinh phí, quyết tâm ) dẫn đến kỹ năng tiếng Anh
của mỗi người là không giống nhau. Việc này gây khó khăn cho các trường đại học trong
việc xây dựng chương trình học tiếng Anh cho sinh viên một cách hiệu quả. Để có được cái
nhìn tổng quan về thực trạng việc học tiếng Anh của sinh viên trường Đại học Kinh tế - Đại
học Đà Nẵng, nghiên cứu tập trung vào kỹ thuật phân cụm và luật kết hợp để phân tích tình
hình học tiếng Anh của sinh viên nhà Trường nhằm giúp Trường nắm được đặc điểm, thực
trạng và mong muốn của sinh viên trong việc học tiếng Anh từ đó đưa ra các tư vấn, định
hướng và đề xuất các giải pháp nhằm nâng cao hiệu quả của việc dạy và học tiếng Anh cho
sinh viên trong Trường.
7 trang |
Chia sẻ: Thục Anh | Ngày: 11/05/2022 | Lượt xem: 344 | Lượt tải: 0
Nội dung tài liệu Ứng dụng kỹ thuật phân cụm và luật kết hợp phân tích tình hình học tiếng Anh của sinh viên trường Đại học Kinh tế - Đại học Đà Nẵng, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nguyễn Văn Chức, Trần Thị Quỳnh Tiên 175
Ứng dụng kỹ thuật phân cụm và luật kết hợp phân tích tình hình học
tiếng Anh của sinh viên trường Đại học Kinh tế - Đại học Đà Nẵng
Nguyễn Văn Chức, Trần Thị Quỳnh Tiên
Trường Đại học Kinh tế - Đại học Đà Nẵng
chuc.nv@due.edu.vn, quynhtien96@gmail.com
Tóm tắt. Vấn đề nâng cao năng lực tiếng Anh cho sinh viên của các trường Đại học đang là
yêu cầu cấp thiết, giúp sinh viên đáp ứng yêu cầu ngày càng cao của thị trường lao động
nhất là trong bối cảnh hội nhập quốc tế. Một trong những khó khăn của các trường Đại học
trong việc dạy tiếng Anh cho sinh viên là do mỗi sinh viên có sự khác nhau về đầu tư cho
việc học tiếng Anh của mình (thời gian, kinh phí, quyết tâm) dẫn đến kỹ năng tiếng Anh
của mỗi người là không giống nhau. Việc này gây khó khăn cho các trường đại học trong
việc xây dựng chương trình học tiếng Anh cho sinh viên một cách hiệu quả. Để có được cái
nhìn tổng quan về thực trạng việc học tiếng Anh của sinh viên trường Đại học Kinh tế - Đại
học Đà Nẵng, nghiên cứu tập trung vào kỹ thuật phân cụm và luật kết hợp để phân tích tình
hình học tiếng Anh của sinh viên nhà Trường nhằm giúp Trường nắm được đặc điểm, thực
trạng và mong muốn của sinh viên trong việc học tiếng Anh từ đó đưa ra các tư vấn, định
hướng và đề xuất các giải pháp nhằm nâng cao hiệu quả của việc dạy và học tiếng Anh cho
sinh viên trong Trường.
Từ khóa: Phân tích dữ liệu, phân cụm, luật kết hợp, học tiếng Anh, Khai phá dữ liệu.
1 Đặt vấn đề
Trong xu thế toàn cầu hóa và hội nhập quốc tế ngày nay, khả năng ngoại ngữ, đặc biệt là
tiếng Anh đóng một vai trò rất quan trọng trong tất cả các hoạt động từ giao tiếp, học tập, công
việc... Ở Việt Nam, tiếng Anh đã được giảng dạy từ rất sớm trong các trường học từ bậc tiểu
học đến đại học. Bên cạnh đó, các trung tâm ngoại ngữ cũng đóng góp tích cực vào việc đào tạo
năng lực tiếng Anh đáp ứng yêu cầu học tập của người học. Ở bậc đại học, năng lực ngoại ngữ
(chủ yếu là tiếng Anh) của sinh viên được các trường đại học rất coi trọng và có nhiều giải pháp
giúp sinh viên hoàn thiện kỹ năng ngoại ngữ như đưa năng lực ngoại ngữ là chuẩn đầu ra để tốt
nghiệp, nhiều chương trình đào tạo dạy bằng tiếng Anh Vì vậy, việc nắm được đặc điểm, xu
hướng và thực trạng học tiếng Anh của sinh viên trong các trường đạị học là việc làm rất cần
thiết, giúp các trường đại học có được cái nhìn tổng quan về năng lực tiếng Anh của sinh viên,
từ đó đề xuất các chính sách, định hướng và tư vấn giúp sinh viên nâng cao năng lực tiếng Anh.
Để phân tích thực trạng học tiếng Anh của sinh viên trường Đại học Kinh tế - Đại học Đà Nẵng,
sau quá trình thu thập dữ liệu về tình hình học tiếng Anh của sinh viên trong Trường, nghiên
cứu tập trung vào ứng dụng kỹ thuật phân cụm và luật kết hợp trong khai phá dữ liệu để để phân
tích, giúp nhà Trường có được các thông tin cần thiết về thực trạng, đặc điểm và mong muốn
học tiếng Anh của sinh viên. Từ đó, đề xuất những giải pháp phù hợp trong tư vấn, định hướng
và giảng dạy giúp nâng cao năng lực tiếng Anh cho sinh viên.
2 Sơ lược về kỹ thuật phân cụm và luật kết hợp
2.1 Phân cụm dữ liệu
Phân cụm dữ liệu là qui trình tìm cách nhóm các đối tượng đã cho vào các cụm (clusters),
sao cho các đối tượng trong cùng 1 cụm càng giống nhau (similar) càng tốt và các đối tượng
khác cụm thì càng khác nhau nhau (Dissimilar) càng tốt.[1],[2]
176 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC”
Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm của dữ liệu. Có rất nhiều kỹ
thuật phân cụm như phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa trên mật độ...
Tuy nhiên, không có tiêu chí nào là được xem là tốt nhất để đánh giá hiệu qủa của phân tích
phân cụm, điều này phụ thuộc vào mục đích của bài toán phân cụm. [1],[2]
2.2 Luật kết hợp
Trong lĩnh vực Data Mining, mục đích của luật kết hợp (Association Rule - AR) là tìm ra các
mối quan hệ giữa các đối tượng trong khối lượng lớn dữ liệu. Nội dung cơ bản của luật kết hợp
được tóm tắt như dưới đây.[1],[2]
Cho cơ sở dữ liệu giao dịch T gồm tập các giao dịch t1, t2, tn.
T = {t1, t2, tn}. Mỗi giao dịch ti bao gồm tập các đối tượng I (gọi là itemset).
I = {i1, i2 , im}. Một itemset gồm k items gọi là k-itemset.
Mục đích của luật kết hợp là tìm ra sự kết hợp (tương quan) giữa các items.
Những luật kết hợp này có dạng X → Y
Hai tiêu chí rất quan trọng trong việc đánh giá luật kết hợp đó là độ hỗ trợ (support) và độ tin
cậy (confidence).
Công thức tính độ hỗ trợ và độ tin cậy của luật kết hợp X→Y: [2]
( )( ) ( ) n X YSupport X Y P X Y
N
( )( ) ( )
( )
n X YConfidence X Y P Y X
n X
Trong đó:
- n(X): Số giao dịch chứa X.
- N: Tổng số giao dịch.
Các luật kết hợp có độ hỗ trợ và độ tin cậy lớn hơn hoặc bằng độ hỗ trợ tối thiểu (min_sup)
và độ tin cậy tối thiểu (min_conf) gọi là các luật mạnh. min_sup và min_conf gọi là các giá trị
ngưỡng (threshold) được xác định trước khi sinh các luật kết hợp.
3 Ứng dụng kỹ thuật phân cụm và luật kết hợp phân tích tình hình
học tiếng Anh của sinh viên Đại học Kinh tế - Đại học Đà Nẵng
3.1 Mô tả bài toán
Mục đích: ứng dụng kỹ thuật phân cụm và luật kết hợp để đánh giá được tình hình học tiếng
Anh của sinh viên Đại học Kinh tế - Đại học Đà Nẵng
Đầu vào: Gồm các thông tin của sinh viên: giới tính, quê quán, chuyên ngành, năm thứ, kết
quả học tập; thông tin về việc học tiếng Anh: mục đích học tiếng Anh, thời gian, chi phí dành
cho việc học tiếng Anh
Đầu ra: Đưa ra đặc trưng về việc học tiếng Anh của từng nhóm sinh viên, mối liên hệ giữa
các thuộc tính liên quan đến việc học tiếng Anh của sinh viên, từ đó đánh giá được thực trạng
học tiếng Anh của họ.
Nguyễn Văn Chức, Trần Thị Quỳnh Tiên 177
3.2 Kịch bản triển khai các mô hình phân tích tình hình học tiếng Anh của sinh viên
Hình 1. Kịch bản triển khai các mô hình phân tích tình hình học tiếng Anh của sinh viên
- Bước 1. Thu thập và tiền xử lý dữ liệu.
Dữ liệu thu thập được 450 mẫu, từ các sinh viên đang học tại trường Đại học Kinh tế - Đại
học Đà Nẵng từ tháng 2/2017 đến 4/2017.
Dữ liệu ban đầu gồm rất nhiều thuộc tính, sau quá trình tiền xử lý dữ liệu (sử dụng phương
pháp trích chọn thuộc tính) để đánh giá mức độ ảnh hưởng của các thuộc tính việc phân tích tình
hình học tiếng Anh (TA) của sinh viên, mô hình xác định được các thuộc tính như Bảng 1.
Tên thuộc tính Giải thích Tên thuộc tính Giải thích
MaSV Mã sinh viên (PK) MDDuDKDuHoc Mục đích học TA: Đủ điều
kiện đi du học
GioiTinh Giới tính BatDauHocTA Bắt đầu học TA từ khi nào
QueQuan Quê quán ThoiGianHocTA Thường học TA vào thời
gian nào
ChuyenNganh Chuyên ngành ThoiGianTBHocTrong1Tuan Thời gian trung bình trong 1
tuần dành cho việc học TA
NamThu Năm học thứ ChiPhiHangThang Chi phí hàng tháng dành cho
việc học TA
KQHT Kết quả học tập VaiTroTATrongCongViec Vai trò TA trong công việc
MDDuChuanTN
Mục đích học TA:
Đủ chuẩn tốt nghiệp
KiNangYeuNhat Kĩ năng TA yếu nhất
MDYeuThich
Mục đích học TA:
Vì yêu thích
KhoaHocTAQuanTamNhat Khóa học TA quan tâm nhất
MDCongViecTuongLa
i
Mục đích học TA: Vì
công việc tương lai
KeHoachRoRangHocTA
Có lên kế hoạch cho việc học
TA không
Bước 2. Xây dựng mô hình phân cụm và luật kết hợp
Mô hình phân cụm và luật kết hợp phân tích dữ liệu khách hàng sử dụng dịch vụ khách sạn
được xây dựng trên công cụ khai phá dữ liệu Business Intelligence Development Studio (BIDS)
của Microsoft. BIDS là công cụ rất mạnh cho phép triển khai các mô hình khai phá dữ liệu,
được sử dụng rộng rãi hiện nay bởi khả năng kết nối dễ dàng với nhiều nguồn dữ liệu, giao diện
dễ sử dụng và nhất là khả năng biểu diễn tri thức phát hiện được rất trực quan, dễ hiểu, dễ sử
dụng. BIDS được tích hợp vào SQL SERVER 2005 trở về sau trong các phiên bản Enterprise
hoặc Development.[5]
178 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC”
Sau khi thực hiện các thao tác tiền xử lý dữ liệu để phù hợp với mô hình khai phá dữ liệu, sử
dụng Microsoft Clustering với thuật toán K-means và Microsoft Association Rule với thuật toán
Apriori trong BIDS để xây dựng mô hình phân tích tình hình học tiếng Anh của sinh viên Đại
học Kinh tế - Đại học Đà Nẵng.
- Bước 3. Phát hiện tri thức từ mô hình phân cụm và luật kết hợp.
Mô hình phân cụm.
Hình 2. Kết quả phân cụm dữ liệu
Từ mô hình phân cụm, cho ra được đặc trưng 5 nhóm khách hàng như sau:
- Cụm 1: Cụm này đa số là các bạn nữ; đang học năm 3; kết quả học tập: Khá; có mục đích
học TA là vì công việc tương lai và đủ chuẩn tốt nghiệp; bắt đầu học TA từ tiểu học, trung học
cơ sở; thời gian học TA thường là buổi tối,10h - <20h/tuần; chi phí dành cho việc học TA:
500.000 - < 1.000.000 VNĐ/tháng; cho rằng vai trò TA trong công việc là rất cần thiết; kĩ năng
TA yếu nhất là nghe và nói; khóa học TA quan tâm nhất là giao tiếp; phần lớn chưa lên kế
hoạch rõ ràng cho việc học TA.
- Cụm 2: Cụm này đa số là các bạn nữ; đang học năm 1; kết quả học tập: Khá; có mục đích
học TA là vì công việc tương lai; bắt đầu học TA từ trung học cơ sở; thời gian học TA thường là
buổi tối, bất cứ khi nào rảnh, < 10h/tuần; chi phí dành cho việc học TA: < 500.000 VNĐ/tháng;
cho rằng vai trò TA trong công việc là rất cần thiết; kĩ năng TA yếu nhất là nghe; khóa học TA
quan tâm nhất là giao tiếp và ôn thi chứng chỉ; có lên kế hoạch rõ ràng cho việc học TA.
- Cụm 3: Cụm này đa số là các bạn đang học năm 1; kết quả học tập: Khá; có mục đích học
TA là vì công việc tương lai, vì đủ chuẩn tốt nghiệp; bắt đầu học TA từ tiểu học; thời gian học
TA thường là bất cứ khi nào rảnh, < 10h/tuần; chi phí dành cho việc học TA: < 500.000
VNĐ/tháng; cho rằng vai trò TA trong công việc là rất cần thiết; kĩ năng TA yếu nhất là nghe,
nói và viết; khóa học TA quan tâm nhất là giao tiếp và ôn thi chứng chỉ; có lên kế hoạch rõ ràng
cho việc học TA.
- Cụm 4: Cụm này đa số là các bạn nữ; đang học năm 2; kết quả học tập: Khá; có mục đích
học TA là vì công việc tương lai, vì đủ chuẩn tốt nghiệp; bắt đầu học TA từ trung học cơ sở;
thời gian học TA thường là buổi tối, < 10h/tuần; chi phí dành cho việc học TA: < 500.000
VNĐ/tháng; cho rằng vai trò TA trong công việc là rất cần thiết; kĩ năng TA yếu nhất là nghe;
khóa học TA quan tâm nhất là giao tiếp; phần lớn chưa lên kế hoạch rõ ràng cho việc học TA.
Nguyễn Văn Chức, Trần Thị Quỳnh Tiên 179
- Cụm 5: Cụm này đa số là các bạn đang nam học năm 3; kết quả học tập: trung bình và khá;
có mục đích học TA là vì công việc tương lai, vì đủ chuẩn tốt nghiệp, vì đủ điều kiện đi du học,
vì yêu thích; bắt đầu học TA từ tiểu học; thời gian học TA thường là bất cứ khi nào rảnh,
< 10h/tuần; chi phí dành cho việc học TA: < 500.000 VNĐ/tháng; cho rằng vai trò TA trong
công việc là rất cần thiết; kĩ năng TA yếu nhất là nghe; khóa học TA quan tâm nhất là ôn thi
chứng chỉ; có lên kế hoạch rõ ràng cho việc học TA.
Hình 3. Đặc trưng từng cụm dữ liệu
Mô hình luật kết hợp.
Hình 4. Kết quả mô hình luật kết hợp
Từ mô hình luật kết hợp đã xây dựng, một số luật được trích ra sau đây:
- Luật 1: Với chuyên ngành là Quản trị kinh doanh du lịch, quê quán ở Đà Nẵng thì chi phí
dành cho việc học TA hàng tháng là 1.000.000 - 1.500.000 VNĐ với độ tin cậy 0,5.
- Luật 2: Với kết quả học tập (KQHT) là Xuất sắc, quê quán ở Đà Nẵng thì có mục đích học
TA là để đủ điều kiện đi du học với độ tin cậy 0,8.
- Luật 3: Với chuyên ngành là Tài chính doanh nghiệp, giới tính Nam thì kĩ năng TA yếu
nhất là viết với độ tin cậy 0,57.
180 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC”
- Luật 4: Với chuyên ngành là Kiểm toán, là sinh viên Năm 2 thì khóa học TA quan tâm
nhất là Tiếng Anh tổng quát với độ tin cậy 0,5.
- Luật 5: Với chuyên ngành là Marketing, là sinh viên Năm 3 thì chi phí dành cho việc học
TA hàng tháng là 500.000 - <1.000.000 VNĐ với độ tin cậy là 1,0.
Bước 4. Xây dựng giao diện.
Dựa vào các tri thức phát hiện được từ mô hình phân cụm và luật kết hợp, một hệ thống giao
tiếp được xây dựng trên nền web cho phép người dùng dễ dàng sử dụng để tìm ra đặc điểm học
tiếng Anh từng nhóm sinh viên, đánh giá tình hình học tiếng Anh của sinh viên.
Hình 5. Giao tiếp người dùng với hệ thống
4 Kết luận và hướng phát triển
Nghiên cứu đã tìm hiểu về lý thuyết kỹ thuật phân cụm và luật kết hợp trong khai phá dữ
liệu, từ đó ứng dụng các kỹ thuật này vào xây dựng mô hình khai phá dữ liệu nhằm phân tích
tình hình học tiếng Anh của sinh viên trường Đại học Kinh tế - Đại học Đà Nẵng.
Kết quả nghiên cứu giúp cho nhà Trường nắm được tình hình học tiếng Anh của sinh viên, từ
đó có những chính sách phù hợp giúp cho sinh viên đạt kết quả học tập tiếng Anh tốt. Ngoài ra,
kết quả phân tích còn giúp cho sinh viên chủ động trong việc lập kế hoạch học tập nhằm nâng
cao khả năng tiếng Anh của mình, đáp ứng yêu cầu học tập và công việc.
Dựa vào mô hình khai phá dữ liệu với hai kỹ thuật phân cụm dữ liệu và phát hiện luật kết
hợp đã xây dựng, nhóm tác giả đã xây dựng thành công một hệ thống giao tiếp trên nền web để
người dùng có thể dễ dàng sử dụng các tri thức phát hiện được từ mô hình. Trong thời gian
tới sẽ thu thập thêm dữ liệu để hoàn thiện mô hình cũng như mở rộng nghiên cứu tình hình học
các ngoại ngữ khác (tiếng Nhật, Pháp) của sinh viên thuộc các cơ sở đào tạo của Đại học
Đà Nẵng.
Tài liệu tham khảo
1. Nguyễn Đức Thuần (2013), Nhập môn khai phá dữ liệu và quản trị tri thức, NXB Thông tin và
Truyền thông.
Nguyễn Văn Chức, Trần Thị Quỳnh Tiên 181
2. Jiawei Han and Micheline Kamber (2011). Datamining: Concepts and Techniques, Simon Fraser
University.
3. Nguyễn Văn Chức, Đào Thị Giang (2015), Ứng dụng kỹ thuật phân cụm và luật kết hợp khai phá dữ
liệu khách hàng sử dụng dịch vụ khách sạn, Tạp chí KH&CN ĐHĐN, số 12(97).2015, Quyển 2,
tr. 1-4.
4. Nguyễn Văn Chức, Lê Vũ Thùy Tâm (2016), Nghiên cứu và ứng dụng luật kết hợp phân tích xu
hướng đăng ký ngành tuyển sinh Đại học, Kỷ yếu Hội thảo khoa học Quốc Gia “Thống kê và Tin học
ứng dụng” NCASI 2016, 2, 1-8.
5. JamieMacLennan, Z.T., Bogdan Crivat (2008), Data Mining with Microsoft SQL Server 2008,
Indianapolis, Indiana: Wiley Publishing, Inc.
Các file đính kèm theo tài liệu này:
- ung_dung_ky_thuat_phan_cum_va_luat_ket_hop_phan_tich_tinh_hi.pdf