Nghiên cứu và ứng dụng luật kết hợp trong khai phá dữ liệu phân tích áp lực của sinh viên Đại học

Tình trạng sinh viên ngày nay đang phải chịu nhiều áp lực rất phổ biến, thậm chí

trở thành chủ đề đáng báo động trên rất nhiều phương tiện truyền thông. Bên cạnh đó, áp

lực không chỉ đến từ một phía, nguyên nhân gây nên áp lực không dừng lại ở khối lượng

kiến thức hay sự cạnh tranh của môi trường học tập mà còn mở rộng ra ở những khía cạnh

xoay quanh đời sống hay chính bản thân của sinh viên. Bài báo tập trung nghiên cứu về luật

kết hợp trong khai phá dữ liệu và ứng dụng vào phân tích áp lực sinh viên Đại học Kinh tế -

Đại học Đà Nẵng. Các tri thức phát hiện được cung cấp cái nhìn cụ thể hơn về các áp lực

của sinh viên trong quá trình học tập cũng như tìm ra các nguyên nhân, nhân tố gây nên áp

lực cho sinh viên, từ đó giúp cho sinh viên chủ động hơn trong nhận thức và phòng tránh

các áp lực có thể gặp phải. Kết quả phân tích cũng giúp cho cán bộ giáo dục (giảng viên,

nhà quản lý giáo dục) có những giải pháp tốt hơn để giúp đỡ sinh viên trong quá trình học

tập.

pdf6 trang | Chia sẻ: Thục Anh | Lượt xem: 465 | Lượt tải: 0download
Nội dung tài liệu Nghiên cứu và ứng dụng luật kết hợp trong khai phá dữ liệu phân tích áp lực của sinh viên Đại học, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nguyễn Văn Chức, Phạm Phương Loan Nghiên cứu và ứng dụng luật kết hợp trong khai phá dữ liệu phân tích áp lực của sinh viên Đại học Nguyễn Văn Chức, Phạm Phương Loan Trường Đại học Kinh tế - Đại học Đà Nẵng chuc.nv@due.edu.vn, ppl@outlook.com.vn Tóm tắt: Tình trạng sinh viên ngày nay đang phải chịu nhiều áp lực rất phổ biến, thậm chí trở thành chủ đề đáng báo động trên rất nhiều phương tiện truyền thông. Bên cạnh đó, áp lực không chỉ đến từ một phía, nguyên nhân gây nên áp lực không dừng lại ở khối lượng kiến thức hay sự cạnh tranh của môi trường học tập mà còn mở rộng ra ở những khía cạnh xoay quanh đời sống hay chính bản thân của sinh viên. Bài báo tập trung nghiên cứu về luật kết hợp trong khai phá dữ liệu và ứng dụng vào phân tích áp lực sinh viên Đại học Kinh tế - Đại học Đà Nẵng. Các tri thức phát hiện được cung cấp cái nhìn cụ thể hơn về các áp lực của sinh viên trong quá trình học tập cũng như tìm ra các nguyên nhân, nhân tố gây nên áp lực cho sinh viên, từ đó giúp cho sinh viên chủ động hơn trong nhận thức và phòng tránh các áp lực có thể gặp phải. Kết quả phân tích cũng giúp cho cán bộ giáo dục (giảng viên, nhà quản lý giáo dục) có những giải pháp tốt hơn để giúp đỡ sinh viên trong quá trình học tập. Từ khóa: Áp lực học tập, khai phá dữ liệu, luật kết hợp, phân tích dữ liệu 1 Đặt vấn đề Trong môi trường có tính cạnh tranh cao như đại học, để đạt được kết quả học tập tốt, sinh viên phải không ngừng cố gắng trên nhiều mặt như kế hoạch và phương pháp học tập, thích nghi với môi trường học tập và sinh hoạt, quản lý thời gian và tài chính cá nhânViệc không thể kiểm soát tốt các nhân tố ảnh hưởng dẫn đến mất cân bằng và có thể là nguyên nhân gây ra những áp lực, ảnh hưởng tiêu cực đến tâm lý, lối sống và kết quả học tập của sinh viên. Hiện nay, áp lực của sinh viên đang là vấn đề quan trọng được các nhà quản lý giáo dục quan tâm nghiên cứu nhằm tìm ra nhân tố và nguyên nhân gây ra áp lực cho sinh viên trong quá trình học tập, từ đó có giải pháp phù hợp nhằm làm giảm thiểu tình trạng này, giúp cho sinh viên có được môi trường sinh hoạt học tập tốt nhất. Bài báo này hướng mục tiêu làm rõ các nhân tố gây ra áp lực cho sinh viên và mối quan hệ giữa các nhân tố này dưới dạng luật kết hợp với dữ liệu thu thập từ sinh viên sinh viên Đại học Kinh tế, Đại học Đà Nẵng. 2 Sơ lược về luật kết hợp Trong lĩnh vực khai phá dữ liệu (Data Mining), mục đích của luật kết hợp (Association Rule - AR) là tìm ra các mối quan hệ giữa các đối tượng trong khối lượng lớn dữ liệu. Nội dung cơ bản của luật kết hợp được tóm tắt như dưới đây.[1],[2] Cho cơ sở dữ liệu giao dịch T gồm tập các giao dịch t1, t2, tn. T = {t1, t2, tn}. Mỗi giao dịch ti bao gồm tập các đối tượng I (gọi là itemset). I = {i1, i2 , im}. Một itemset gồm k items gọi là k-itemset. Mục đích của luật kết hợp là tìm ra sự kết hợp (tương quan) giữa các items. Những luật kết hợp này có dạng X →Y 111 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC Hai tiêu chí rất quan trọng trong việc đánh giá luật kết hợp đó là độ hỗ trợ (support) và độ tin cậy (confidence). Công thức tính độ hỗ trợ và độ tin cậy của luật kết hợp X→Y: [2] 𝑆𝑢𝑝𝑝𝑜𝑟𝑡 (𝑋 → 𝑌) = 𝑃(𝑋 ∪ 𝑌) = 𝑛(𝑋∪𝑌) 𝑁 𝐶𝑜𝑛𝑓𝑖𝑑𝑒𝑛𝑐𝑒 (𝑋 → 𝑌) = 𝑃(𝑌|𝑋) = 𝑛(𝑋∪𝑌) 𝑛(𝑋) Trong đó: 𝑛(𝑋): Số giao dịch chứa X N: Tổng số giao dịch Các luật kết hợp có độ hỗ trợ và độ tin cậy lớn hơn hoặc bằng độ hỗ trợ tối thiểu (min_sup) và độ tin cậy tối thiểu (min_conf) gọi là các luật mạnh. min_sup và min_conf gọi là các giá trị ngưỡng (threshold) được xác định trước khi sinh các luật kết hợp. 3 Ứng dụng luật kết hợp phân tích áp lực sinh viên Đại học 3.1 Mô tả bài toán Mục đích: Ứng dụng luật kết hợp để phân tích áp lực của sinh viên Đại học Kinh tế - Đại học Đà Nẵng. Đầu vào: Gồm các thông tin của sinh viên: giới tính, độ tuổi, quê quán, nghề nghiệp gia đình.. ; các thông tin về đặc trưng học tập của sinh viên: khoa, ngành/chuyên ngành, năm thứ, mức độ tham gia hoạt động đoàn/hội/câu lạc bộ.. ; các áp lực ảnh hưởng đến sinh viên: áp lực việc làm, áp lực chuẩn đầu ra ngoại ngữ, áp lực chi phí học tập, áp lực chi phí sinh hoạt, áp lực điểm cao, áp lực thỏa mãn kỳ vọng gia đình,.. Đầu ra: Các nhân tố gây ra áp lực đối với sinh viên và mối liên hệ giữa nguyên nhân liên quan đến áp lực của sinh viên dưới dạng các luật kết hợp. 3.2 Quy trình triển khai các mô hình phân tích áp lực của sinh viên Hình 1. Kịch bản triển khai phân tích áp lực sinh viên  Bước 1. Thu thập và tiền xử lý dữ liệu Dữ liệu thu thập được gần 600 mẫu khảo sát từ sinh viên thuộc trường Đại học Kinh tế, Đại học Đà Nẵng. Dữ liệu ban đầu gồm rất nhiều thuộc tính, sau quá trình tiền xử lý dữ liệu (chuyển đổi, mã hóa, trích chọn thuộc tính), các thuộc tính được sử dụng để xây dựng mô hình phân tích được cho như Bảng 1. Thu thập và tiền xử lý dữ liệu Xây dựng mô hình phát hiện luật kết hợp Phát hiện tri thức, giải thích kết quả 112 Nguyễn Văn Chức, Phạm Phương Loan Bảng 1. Mô tả dữ liệu Tên thuộc tính Giải thích Tên thuộc tính Giải thích STT Số thứ tự (Khóa chính, chỉ dùng để phân biệt các mẫu) Lam_them Tình trạng làm thêm hiện tại Khoa Khoa chuyên môn Mucdo_hoatdong Mức độ tham gia hoạt động đoàn, hội, câu lạc bộ Nganh_cnganh Ngành/ chuyên ngành Mucdich_daihoc Mức độ xác định rõ mục đích học đại học Sv_nam Năm sinh viên đang theo học Thichnghi_hoctap Mức độ thích nghi được phương pháp học tập ở Đại học Gioi_tinh Giới tính Tichcuc_hoctap Mức độ tích cực trong học tập Tuoi Độ tuổi Chudong_hoctap Mức độ chủ động trong học tập Thanh_pho Quê quán Sangtao_hoctap Mức độ sáng tạo trong học tập Nghe_giadinh Nghề nghiệp gia đình Tron_hoc Mức độ thường xuyên bỏ giờ học Sinh_song Tình trạng sinh sống hiện tại Mat_taptrung Mức độ thường xuyên mất tập trung khi học trên lớp Nguoi_chon_ngan h Người chọn ngành cho sinh viên Khong_hoanthanh bt Mức độ thường xuyên không hoàn thành bài tập ở nhà Xembai_truoc Mức độ thường xuyên xem bài trước khi lên lớp Apluc_ngoaingu Mức độ áp lực đạt chuẩn ngoại ngữ Apluc_chiphi_ hoctap Mức độ áp lực chi phí học tập (học phí) Apluc_tinhoc Mức độ áp lực đạt chuẩn tin học Apluc_ chiphi_ sinhhoat Mức độ áp lực chi phí sinh hoạt Apluc_giadinh Mức độ áp lực thỏa mãn kỳ vọng của gia đình Apluc_diemcao Mức độ áp lực điểm cao Apluc_vieclam Mức độ áp lực tìm được việc làm phù hợp khi ra trường Apluc_canhcao_ hoctap Mức độ áp lực cảnh cáo học tập do kết quả học tập thấp Tutin_tuonglai Mức độ tự tin vào tương lai của bản thân Apluc_baitap Mức độ áp lực hoàn thành bài tập nhóm, bài tập về nhà Chiase Người thường được sinh viên chia sẻ khó khăn, áp lực trong cuộc sống Apluc_thichnghi_ hoctap Mức độ áp lực thích nghi với kiến thức (môn học) hoặc giáo viên 113 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC  Bước 2. Xây dựng mô hình phát hiện luật kết hợp Mô hình luật kết hợp phân tích dữ liệu áp lực sinh viên Đại học Kinh tế - Đại học Đà Nẵng được xây dựng trên công cụ SQL Server Data Tools (SSDT) của Microsoft. SSDT là công cụ rất mạnh cho phép triển khai hầu hết các kỹ thuật khai phá dữ liệu như cây quyết định, phân cụm dữ liệu, hồi qui, phát hiện luật kết hợp, phân tích dãy số thời gian với giao diện dễ sử dụng, khả năng tích hợp dữ liệu mạnh mẽ và nhất là khả năng biểu diễn tri thức phát hiện được rất trực quan, dễ hiểu, dễ sử dụng [4]. Sau khi thực hiện các thao tác tiền xử lý dữ liệu để phù hợp với mô hình luật kết hợp, sử dụng Microsoft Association Rule trong SSDT để xây dựng mô hình phát hiện luật kết hợp nhằm tìm mối quan hệ giữa các nhân tố gây ra áp lực cho sinh viên.  Bước 3. Phát hiện tri thức từ luật kết hợp Hình 2. Kết quả mô hình phát hiện luật kết hợp áp lực của sinh viên Bảng 3. Phân loại áp lực theo mức độ ảnh hưởng Thang điểm áp lực Mức độ áp lực Loại áp lực 5 Rất áp lực Áp lực việc làm Áp lực ngoại ngữ 4 Áp lực Áp lực bài tập Áp lực điểm cao Áp lực gia đình Áp lực tin học 3 Bình thường Áp lực thích nghi học tập Áp lực chi phí sinh hoạt Áp lực chi phí học tập 2 - 1 Không/ Rất không áp lực Áp lực cảnh cáo học tập Từ mô hình luật kết hợp đã xây dựng, một số luật được trích ra sau đây: Luật 1: Sinh viên mà nghề nghiệp gia đình là “Nông dân”, mức độ xác định mục đích học Đại học là “Bình thường” thì chịu áp lực về việc làm là rất lớn (Rất áp lực) với độ tin cậy 58.4% Luật 2: Sinh viên mà nghề nghiệp gia đình là “Nông dân”, mức độ chủ động trong học tập là “Bình thường” thì áp lực về ngoại ngữ rất lớn (Rất áp lực) với độ tin cậy 45.5%. Luật 3: Sinh viên đang học năm thứ 2 với nghề nghiệp gia đình là “Nông dân” thì chịu áp lực về hoàn thành bài tập nhóm, bài tập về nhà lớn (Áp lực) với độ tin cậy 52%. 114 Nguyễn Văn Chức, Phạm Phương Loan Luật 4: Sinh viên “Nữ” có mức độ hoạt động đội, nhóm, câu lạc bộ là “Bình thường” thì chịu áp lực tin học lớn (Áp lực) với độ tin cậy 43.9% . Luật 5: Sinh viên có mức độ thích nghi học tập và mức độ chủ động trong học tập đều ở mức “Bình thường” thì chịu áp lực thỏa mãn kỳ vọng gia đình lớn (Áp lực) với độ tin cậy 44.5%. Luật 6: Sinh viên có đi làm thêm, mức độ tham gia hoạt động đoàn, hội, câu lạc bộ là “Bình thường” thì chịu áp lực chi phí sinh hoạt không đáng kể (Bình thường) với độ tin cậy 52.4%. Mạng phụ thuộc (Dependency Network) của từng loại áp lực Mạng phụ thuộc cho biết mức độ ảnh hưởng (weight) của các nhân tố đến các áp lực của sinh viên. Hình 3. Các nhân tố ảnh hưởng đối với áp lực việc làm Hình 4. Các nhân tố ảnh hưởng đối với áp lực ngoại ngữ Hình 5. Các nhân tố ảnh hưởng đối với áp lực bài tập 115 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA 2018 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC Hình 6. Các nhân tố ảnh hưởng đối với áp lực thích nghi học tập 4 Kết luận và hướng phát triển Bài báo đã tìm hiểu kỹ thuật luật kết hợp trong khai phá dữ liệu, từ đó ứng dụng kỹ thuật này vào xây dựng mô hình khai phá dữ liệu nhằm phân tích áp lực của sinh viên trường Đại học Kinh tế - Đại học Đà Nẵng. Kết quả phân tích cho thấy các áp lực chủ yếu mà sinh viên thường gặp là Áp lực việc làm và Áp lực đạt chuẩn ngoại ngữ (mức rất áp lực); tiếp theo là Áp lực bài tập, Áp lực điểm cao, Áp lực gia đình, Áp lực đạt chuẩn tin học (mức áp lực); các yếu tố Áp lực thích nghi môi trường học tập, Áp lực chi phí sinh hoạt, Áp lực chi phí học tập không gây áp lực cho sinh viên (mức áp lực bình thường). Kết quả từ việc phân tích về áp lực của sinh viên đã cung cấp cái nhìn tổng quan về áp lực và các nhân tố chính gây nên áp lực cho sinh viên. Các tri thức phát hiện được giúp cho sinh viên nhận diện được thực trạng và nguyên nhân dẫn đến tình trạng áp lực đang diễn ra rất phổ biến đối với sinh viên, từ đó giúp sinh viên chủ động hơn trong việc phòng tránh áp lực trong quá trình học tập tại trường Đại học. Kết quả nghiên cứu cũng góp phần hỗ trợ cho các nhà làm công tác đào tạo tại trường Đại học (giảng viên, nhà quản lý giáo dục) có định hướng, giải pháp toàn diện hơn trong việc tìm cách giải tỏa áp lực, giúp cải thiện môi trường sinh hoạt và học tập tốt hơn cho sinh viên. Trong thời gian tới sẽ mở rộng mô hình phân tích dữ liệu cho sinh viên các trường thuộc đại học Đà Nẵng, ứng dụng nhiều kỹ thuật khai phá dữ liệu khác như phân lớp dữ liệu, phân cụm dữ liệu để khai thác tốt hơn dữ liệu về áp lực sinh viên giúp có được góc nhìn chi tiết, đa chiều hơn về áp lực của sinh viên trong đại học Đà Nẵng. Tài liệu tham khảo 1. Nguyễn Đức Thuần: Nhập môn khai phá dữ liệu và quản trị tri thức, NXB Thông tin và truyền thông (2013). 2. Jiawei Han and Micheline Kamber: Datamining: Concepts and Techniques, Simon Fraser University (2011). 3. Nguyễn Văn Chức, Đào Thị Giang: Ứng dụng kỹ thuật phân cụm và luật kết hợp khai phá dữ liệu khách hàng sử dụng dịch vụ khách sạn, Tạp chí KH&CN ĐHĐN, số 12(97).2015, Quyển 2, trang 1-4 (2015). 4. JamieMacLennan, Z.T., Bogdan Crivat: Data Mining with Microsoft SQL Server 2008, Indianapolis, Indiana: Wiley Publishing, Inc (2008). 5. data + mining 116

Các file đính kèm theo tài liệu này:

  • pdfnghien_cuu_va_ung_dung_luat_ket_hop_trong_khai_pha_du_lieu_p.pdf
Tài liệu liên quan