Tình trạng sinh viên ngày nay đang phải chịu nhiều áp lực rất phổ biến, thậm chí
trở thành chủ đề đáng báo động trên rất nhiều phương tiện truyền thông. Bên cạnh đó, áp
lực không chỉ đến từ một phía, nguyên nhân gây nên áp lực không dừng lại ở khối lượng
kiến thức hay sự cạnh tranh của môi trường học tập mà còn mở rộng ra ở những khía cạnh
xoay quanh đời sống hay chính bản thân của sinh viên. Bài báo tập trung nghiên cứu về luật
kết hợp trong khai phá dữ liệu và ứng dụng vào phân tích áp lực sinh viên Đại học Kinh tế -
Đại học Đà Nẵng. Các tri thức phát hiện được cung cấp cái nhìn cụ thể hơn về các áp lực
của sinh viên trong quá trình học tập cũng như tìm ra các nguyên nhân, nhân tố gây nên áp
lực cho sinh viên, từ đó giúp cho sinh viên chủ động hơn trong nhận thức và phòng tránh
các áp lực có thể gặp phải. Kết quả phân tích cũng giúp cho cán bộ giáo dục (giảng viên,
nhà quản lý giáo dục) có những giải pháp tốt hơn để giúp đỡ sinh viên trong quá trình học
tập.
6 trang |
Chia sẻ: Thục Anh | Ngày: 11/05/2022 | Lượt xem: 439 | Lượt tải: 0
Nội dung tài liệu Nghiên cứu và ứng dụng luật kết hợp trong khai phá dữ liệu phân tích áp lực của sinh viên Đại học, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nguyễn Văn Chức, Phạm Phương Loan
Nghiên cứu và ứng dụng luật kết hợp trong khai phá dữ liệu phân
tích áp lực của sinh viên Đại học
Nguyễn Văn Chức, Phạm Phương Loan
Trường Đại học Kinh tế - Đại học Đà Nẵng
chuc.nv@due.edu.vn, ppl@outlook.com.vn
Tóm tắt: Tình trạng sinh viên ngày nay đang phải chịu nhiều áp lực rất phổ biến, thậm chí
trở thành chủ đề đáng báo động trên rất nhiều phương tiện truyền thông. Bên cạnh đó, áp
lực không chỉ đến từ một phía, nguyên nhân gây nên áp lực không dừng lại ở khối lượng
kiến thức hay sự cạnh tranh của môi trường học tập mà còn mở rộng ra ở những khía cạnh
xoay quanh đời sống hay chính bản thân của sinh viên. Bài báo tập trung nghiên cứu về luật
kết hợp trong khai phá dữ liệu và ứng dụng vào phân tích áp lực sinh viên Đại học Kinh tế -
Đại học Đà Nẵng. Các tri thức phát hiện được cung cấp cái nhìn cụ thể hơn về các áp lực
của sinh viên trong quá trình học tập cũng như tìm ra các nguyên nhân, nhân tố gây nên áp
lực cho sinh viên, từ đó giúp cho sinh viên chủ động hơn trong nhận thức và phòng tránh
các áp lực có thể gặp phải. Kết quả phân tích cũng giúp cho cán bộ giáo dục (giảng viên,
nhà quản lý giáo dục) có những giải pháp tốt hơn để giúp đỡ sinh viên trong quá trình học
tập.
Từ khóa: Áp lực học tập, khai phá dữ liệu, luật kết hợp, phân tích dữ liệu
1 Đặt vấn đề
Trong môi trường có tính cạnh tranh cao như đại học, để đạt được kết quả học tập tốt, sinh
viên phải không ngừng cố gắng trên nhiều mặt như kế hoạch và phương pháp học tập, thích
nghi với môi trường học tập và sinh hoạt, quản lý thời gian và tài chính cá nhânViệc không
thể kiểm soát tốt các nhân tố ảnh hưởng dẫn đến mất cân bằng và có thể là nguyên nhân gây ra
những áp lực, ảnh hưởng tiêu cực đến tâm lý, lối sống và kết quả học tập của sinh viên. Hiện
nay, áp lực của sinh viên đang là vấn đề quan trọng được các nhà quản lý giáo dục quan tâm
nghiên cứu nhằm tìm ra nhân tố và nguyên nhân gây ra áp lực cho sinh viên trong quá trình học
tập, từ đó có giải pháp phù hợp nhằm làm giảm thiểu tình trạng này, giúp cho sinh viên có được
môi trường sinh hoạt học tập tốt nhất.
Bài báo này hướng mục tiêu làm rõ các nhân tố gây ra áp lực cho sinh viên và mối quan hệ
giữa các nhân tố này dưới dạng luật kết hợp với dữ liệu thu thập từ sinh viên sinh viên Đại học
Kinh tế, Đại học Đà Nẵng.
2 Sơ lược về luật kết hợp
Trong lĩnh vực khai phá dữ liệu (Data Mining), mục đích của luật kết hợp (Association Rule
- AR) là tìm ra các mối quan hệ giữa các đối tượng trong khối lượng lớn dữ liệu. Nội dung cơ
bản của luật kết hợp được tóm tắt như dưới đây.[1],[2]
Cho cơ sở dữ liệu giao dịch T gồm tập các giao dịch t1, t2, tn.
T = {t1, t2, tn}. Mỗi giao dịch ti bao gồm tập các đối tượng I (gọi là itemset).
I = {i1, i2 , im}. Một itemset gồm k items gọi là k-itemset.
Mục đích của luật kết hợp là tìm ra sự kết hợp (tương quan) giữa các items.
Những luật kết hợp này có dạng X →Y
111
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC
Hai tiêu chí rất quan trọng trong việc đánh giá luật kết hợp đó là độ hỗ trợ (support) và độ tin
cậy (confidence).
Công thức tính độ hỗ trợ và độ tin cậy của luật kết hợp X→Y: [2]
𝑆𝑢𝑝𝑝𝑜𝑟𝑡 (𝑋 → 𝑌) = 𝑃(𝑋 ∪ 𝑌) =
𝑛(𝑋∪𝑌)
𝑁
𝐶𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 (𝑋 → 𝑌) = 𝑃(𝑌|𝑋) =
𝑛(𝑋∪𝑌)
𝑛(𝑋)
Trong đó:
𝑛(𝑋): Số giao dịch chứa X
N: Tổng số giao dịch
Các luật kết hợp có độ hỗ trợ và độ tin cậy lớn hơn hoặc bằng độ hỗ trợ tối thiểu (min_sup)
và độ tin cậy tối thiểu (min_conf) gọi là các luật mạnh. min_sup và min_conf gọi là các giá trị
ngưỡng (threshold) được xác định trước khi sinh các luật kết hợp.
3 Ứng dụng luật kết hợp phân tích áp lực sinh viên Đại học
3.1 Mô tả bài toán
Mục đích: Ứng dụng luật kết hợp để phân tích áp lực của sinh viên Đại học Kinh tế - Đại học
Đà Nẵng.
Đầu vào: Gồm các thông tin của sinh viên: giới tính, độ tuổi, quê quán, nghề nghiệp gia đình..
; các thông tin về đặc trưng học tập của sinh viên: khoa, ngành/chuyên ngành, năm thứ, mức độ
tham gia hoạt động đoàn/hội/câu lạc bộ.. ; các áp lực ảnh hưởng đến sinh viên: áp lực việc làm,
áp lực chuẩn đầu ra ngoại ngữ, áp lực chi phí học tập, áp lực chi phí sinh hoạt, áp lực điểm cao,
áp lực thỏa mãn kỳ vọng gia đình,..
Đầu ra: Các nhân tố gây ra áp lực đối với sinh viên và mối liên hệ giữa nguyên nhân liên
quan đến áp lực của sinh viên dưới dạng các luật kết hợp.
3.2 Quy trình triển khai các mô hình phân tích áp lực của sinh viên
Hình 1. Kịch bản triển khai phân tích áp lực sinh viên
Bước 1. Thu thập và tiền xử lý dữ liệu
Dữ liệu thu thập được gần 600 mẫu khảo sát từ sinh viên thuộc trường Đại học Kinh tế, Đại học
Đà Nẵng.
Dữ liệu ban đầu gồm rất nhiều thuộc tính, sau quá trình tiền xử lý dữ liệu (chuyển đổi, mã
hóa, trích chọn thuộc tính), các thuộc tính được sử dụng để xây dựng mô hình phân tích được
cho như Bảng 1.
Thu thập và tiền
xử lý dữ liệu
Xây dựng mô hình
phát hiện luật kết
hợp
Phát hiện tri thức,
giải thích kết quả
112
Nguyễn Văn Chức, Phạm Phương Loan
Bảng 1. Mô tả dữ liệu
Tên thuộc tính Giải thích Tên thuộc tính Giải thích
STT Số thứ tự (Khóa chính,
chỉ dùng để phân biệt các
mẫu)
Lam_them Tình trạng làm thêm hiện tại
Khoa Khoa chuyên môn Mucdo_hoatdong Mức độ tham gia hoạt động đoàn,
hội, câu lạc bộ
Nganh_cnganh Ngành/ chuyên ngành Mucdich_daihoc Mức độ xác định rõ mục đích học
đại học
Sv_nam Năm sinh viên đang theo
học
Thichnghi_hoctap Mức độ thích nghi được phương
pháp học tập ở Đại học
Gioi_tinh Giới tính Tichcuc_hoctap Mức độ tích cực trong học tập
Tuoi Độ tuổi Chudong_hoctap Mức độ chủ động trong học tập
Thanh_pho Quê quán Sangtao_hoctap Mức độ sáng tạo trong học tập
Nghe_giadinh Nghề nghiệp gia đình Tron_hoc Mức độ thường xuyên bỏ giờ học
Sinh_song Tình trạng sinh sống hiện
tại
Mat_taptrung Mức độ thường xuyên mất tập
trung khi học trên lớp
Nguoi_chon_ngan
h
Người chọn ngành cho
sinh viên
Khong_hoanthanh
bt
Mức độ thường xuyên không hoàn
thành bài tập ở nhà
Xembai_truoc Mức độ thường xuyên
xem bài trước khi lên lớp
Apluc_ngoaingu Mức độ áp lực đạt chuẩn ngoại ngữ
Apluc_chiphi_
hoctap
Mức độ áp lực chi phí
học tập (học phí)
Apluc_tinhoc Mức độ áp lực đạt chuẩn tin học
Apluc_ chiphi_
sinhhoat
Mức độ áp lực chi phí
sinh hoạt
Apluc_giadinh Mức độ áp lực thỏa mãn kỳ vọng
của gia đình
Apluc_diemcao Mức độ áp lực điểm cao Apluc_vieclam Mức độ áp lực tìm được việc làm
phù hợp khi ra trường
Apluc_canhcao_
hoctap
Mức độ áp lực cảnh cáo
học tập do kết quả học
tập thấp
Tutin_tuonglai Mức độ tự tin vào tương lai của bản
thân
Apluc_baitap Mức độ áp lực hoàn
thành bài tập nhóm, bài
tập về nhà
Chiase Người thường được sinh viên chia
sẻ khó khăn, áp lực trong cuộc sống
Apluc_thichnghi_
hoctap
Mức độ áp lực thích nghi
với kiến thức (môn học)
hoặc giáo viên
113
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC
Bước 2. Xây dựng mô hình phát hiện luật kết hợp
Mô hình luật kết hợp phân tích dữ liệu áp lực sinh viên Đại học Kinh tế - Đại học Đà Nẵng
được xây dựng trên công cụ SQL Server Data Tools (SSDT) của Microsoft. SSDT là công cụ
rất mạnh cho phép triển khai hầu hết các kỹ thuật khai phá dữ liệu như cây quyết định, phân
cụm dữ liệu, hồi qui, phát hiện luật kết hợp, phân tích dãy số thời gian với giao diện dễ sử
dụng, khả năng tích hợp dữ liệu mạnh mẽ và nhất là khả năng biểu diễn tri thức phát hiện được
rất trực quan, dễ hiểu, dễ sử dụng [4].
Sau khi thực hiện các thao tác tiền xử lý dữ liệu để phù hợp với mô hình luật kết hợp, sử
dụng Microsoft Association Rule trong SSDT để xây dựng mô hình phát hiện luật kết hợp nhằm
tìm mối quan hệ giữa các nhân tố gây ra áp lực cho sinh viên.
Bước 3. Phát hiện tri thức từ luật kết hợp
Hình 2. Kết quả mô hình phát hiện luật kết hợp áp lực của sinh viên
Bảng 3. Phân loại áp lực theo mức độ ảnh hưởng
Thang điểm áp
lực
Mức độ áp lực Loại áp lực
5 Rất áp lực
Áp lực việc làm
Áp lực ngoại ngữ
4 Áp lực
Áp lực bài tập
Áp lực điểm cao
Áp lực gia đình
Áp lực tin học
3 Bình thường
Áp lực thích nghi học tập
Áp lực chi phí sinh hoạt
Áp lực chi phí học tập
2 - 1 Không/ Rất không áp lực Áp lực cảnh cáo học tập
Từ mô hình luật kết hợp đã xây dựng, một số luật được trích ra sau đây:
Luật 1: Sinh viên mà nghề nghiệp gia đình là “Nông dân”, mức độ xác định mục đích học Đại
học là “Bình thường” thì chịu áp lực về việc làm là rất lớn (Rất áp lực) với độ tin cậy 58.4%
Luật 2: Sinh viên mà nghề nghiệp gia đình là “Nông dân”, mức độ chủ động trong học tập là
“Bình thường” thì áp lực về ngoại ngữ rất lớn (Rất áp lực) với độ tin cậy 45.5%.
Luật 3: Sinh viên đang học năm thứ 2 với nghề nghiệp gia đình là “Nông dân” thì chịu áp lực
về hoàn thành bài tập nhóm, bài tập về nhà lớn (Áp lực) với độ tin cậy 52%.
114
Nguyễn Văn Chức, Phạm Phương Loan
Luật 4: Sinh viên “Nữ” có mức độ hoạt động đội, nhóm, câu lạc bộ là “Bình thường” thì chịu
áp lực tin học lớn (Áp lực) với độ tin cậy 43.9% .
Luật 5: Sinh viên có mức độ thích nghi học tập và mức độ chủ động trong học tập đều ở mức
“Bình thường” thì chịu áp lực thỏa mãn kỳ vọng gia đình lớn (Áp lực) với độ tin cậy 44.5%.
Luật 6: Sinh viên có đi làm thêm, mức độ tham gia hoạt động đoàn, hội, câu lạc bộ là “Bình
thường” thì chịu áp lực chi phí sinh hoạt không đáng kể (Bình thường) với độ tin cậy 52.4%.
Mạng phụ thuộc (Dependency Network) của từng loại áp lực
Mạng phụ thuộc cho biết mức độ ảnh hưởng (weight) của các nhân tố đến các áp lực của
sinh viên.
Hình 3. Các nhân tố ảnh hưởng đối với áp lực việc làm
Hình 4. Các nhân tố ảnh hưởng đối với áp lực ngoại ngữ
Hình 5. Các nhân tố ảnh hưởng đối với áp lực bài tập
115
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC
Hình 6. Các nhân tố ảnh hưởng đối với áp lực thích nghi học tập
4 Kết luận và hướng phát triển
Bài báo đã tìm hiểu kỹ thuật luật kết hợp trong khai phá dữ liệu, từ đó ứng dụng kỹ thuật này
vào xây dựng mô hình khai phá dữ liệu nhằm phân tích áp lực của sinh viên trường Đại học
Kinh tế - Đại học Đà Nẵng.
Kết quả phân tích cho thấy các áp lực chủ yếu mà sinh viên thường gặp là Áp lực việc làm
và Áp lực đạt chuẩn ngoại ngữ (mức rất áp lực); tiếp theo là Áp lực bài tập, Áp lực điểm cao,
Áp lực gia đình, Áp lực đạt chuẩn tin học (mức áp lực); các yếu tố Áp lực thích nghi môi trường
học tập, Áp lực chi phí sinh hoạt, Áp lực chi phí học tập không gây áp lực cho sinh viên (mức
áp lực bình thường).
Kết quả từ việc phân tích về áp lực của sinh viên đã cung cấp cái nhìn tổng quan về áp lực và
các nhân tố chính gây nên áp lực cho sinh viên. Các tri thức phát hiện được giúp cho sinh viên
nhận diện được thực trạng và nguyên nhân dẫn đến tình trạng áp lực đang diễn ra rất phổ biến
đối với sinh viên, từ đó giúp sinh viên chủ động hơn trong việc phòng tránh áp lực trong quá
trình học tập tại trường Đại học. Kết quả nghiên cứu cũng góp phần hỗ trợ cho các nhà làm
công tác đào tạo tại trường Đại học (giảng viên, nhà quản lý giáo dục) có định hướng, giải pháp
toàn diện hơn trong việc tìm cách giải tỏa áp lực, giúp cải thiện môi trường sinh hoạt và học tập
tốt hơn cho sinh viên.
Trong thời gian tới sẽ mở rộng mô hình phân tích dữ liệu cho sinh viên các trường thuộc đại
học Đà Nẵng, ứng dụng nhiều kỹ thuật khai phá dữ liệu khác như phân lớp dữ liệu, phân cụm
dữ liệu để khai thác tốt hơn dữ liệu về áp lực sinh viên giúp có được góc nhìn chi tiết, đa chiều
hơn về áp lực của sinh viên trong đại học Đà Nẵng.
Tài liệu tham khảo
1. Nguyễn Đức Thuần: Nhập môn khai phá dữ liệu và quản trị tri thức, NXB Thông tin và truyền thông
(2013).
2. Jiawei Han and Micheline Kamber: Datamining: Concepts and Techniques, Simon Fraser University
(2011).
3. Nguyễn Văn Chức, Đào Thị Giang: Ứng dụng kỹ thuật phân cụm và luật kết hợp khai phá dữ liệu
khách hàng sử dụng dịch vụ khách sạn, Tạp chí KH&CN ĐHĐN, số 12(97).2015, Quyển 2, trang 1-4
(2015).
4. JamieMacLennan, Z.T., Bogdan Crivat: Data Mining with Microsoft SQL Server 2008, Indianapolis,
Indiana: Wiley Publishing, Inc (2008).
5. data + mining
116
Các file đính kèm theo tài liệu này:
- nghien_cuu_va_ung_dung_luat_ket_hop_trong_khai_pha_du_lieu_p.pdf