Ứng dụng kỹ thuật phân cụm và luật kết hợp phân tích tình hình học tiếng Anh của sinh viên trường Đại học Kinh tế - Đại học Đà Nẵng

Vấn đề nâng cao năng lực tiếng Anh cho sinh viên của các trường Đại học đang là

yêu cầu cấp thiết, giúp sinh viên đáp ứng yêu cầu ngày càng cao của thị trường lao động

nhất là trong bối cảnh hội nhập quốc tế. Một trong những khó khăn của các trường Đại học

trong việc dạy tiếng Anh cho sinh viên là do mỗi sinh viên có sự khác nhau về đầu tư cho

việc học tiếng Anh của mình (thời gian, kinh phí, quyết tâm ) dẫn đến kỹ năng tiếng Anh

của mỗi người là không giống nhau. Việc này gây khó khăn cho các trường đại học trong

việc xây dựng chương trình học tiếng Anh cho sinh viên một cách hiệu quả. Để có được cái

nhìn tổng quan về thực trạng việc học tiếng Anh của sinh viên trường Đại học Kinh tế - Đại

học Đà Nẵng, nghiên cứu tập trung vào kỹ thuật phân cụm và luật kết hợp để phân tích tình

hình học tiếng Anh của sinh viên nhà Trường nhằm giúp Trường nắm được đặc điểm, thực

trạng và mong muốn của sinh viên trong việc học tiếng Anh từ đó đưa ra các tư vấn, định

hướng và đề xuất các giải pháp nhằm nâng cao hiệu quả của việc dạy và học tiếng Anh cho

sinh viên trong Trường.

pdf7 trang | Chia sẻ: Thục Anh | Ngày: 11/05/2022 | Lượt xem: 354 | Lượt tải: 0download
Nội dung tài liệu Ứng dụng kỹ thuật phân cụm và luật kết hợp phân tích tình hình học tiếng Anh của sinh viên trường Đại học Kinh tế - Đại học Đà Nẵng, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
Nguyễn Văn Chức, Trần Thị Quỳnh Tiên 175 Ứng dụng kỹ thuật phân cụm và luật kết hợp phân tích tình hình học tiếng Anh của sinh viên trường Đại học Kinh tế - Đại học Đà Nẵng Nguyễn Văn Chức, Trần Thị Quỳnh Tiên Trường Đại học Kinh tế - Đại học Đà Nẵng chuc.nv@due.edu.vn, quynhtien96@gmail.com Tóm tắt. Vấn đề nâng cao năng lực tiếng Anh cho sinh viên của các trường Đại học đang là yêu cầu cấp thiết, giúp sinh viên đáp ứng yêu cầu ngày càng cao của thị trường lao động nhất là trong bối cảnh hội nhập quốc tế. Một trong những khó khăn của các trường Đại học trong việc dạy tiếng Anh cho sinh viên là do mỗi sinh viên có sự khác nhau về đầu tư cho việc học tiếng Anh của mình (thời gian, kinh phí, quyết tâm) dẫn đến kỹ năng tiếng Anh của mỗi người là không giống nhau. Việc này gây khó khăn cho các trường đại học trong việc xây dựng chương trình học tiếng Anh cho sinh viên một cách hiệu quả. Để có được cái nhìn tổng quan về thực trạng việc học tiếng Anh của sinh viên trường Đại học Kinh tế - Đại học Đà Nẵng, nghiên cứu tập trung vào kỹ thuật phân cụm và luật kết hợp để phân tích tình hình học tiếng Anh của sinh viên nhà Trường nhằm giúp Trường nắm được đặc điểm, thực trạng và mong muốn của sinh viên trong việc học tiếng Anh từ đó đưa ra các tư vấn, định hướng và đề xuất các giải pháp nhằm nâng cao hiệu quả của việc dạy và học tiếng Anh cho sinh viên trong Trường. Từ khóa: Phân tích dữ liệu, phân cụm, luật kết hợp, học tiếng Anh, Khai phá dữ liệu. 1 Đặt vấn đề Trong xu thế toàn cầu hóa và hội nhập quốc tế ngày nay, khả năng ngoại ngữ, đặc biệt là tiếng Anh đóng một vai trò rất quan trọng trong tất cả các hoạt động từ giao tiếp, học tập, công việc... Ở Việt Nam, tiếng Anh đã được giảng dạy từ rất sớm trong các trường học từ bậc tiểu học đến đại học. Bên cạnh đó, các trung tâm ngoại ngữ cũng đóng góp tích cực vào việc đào tạo năng lực tiếng Anh đáp ứng yêu cầu học tập của người học. Ở bậc đại học, năng lực ngoại ngữ (chủ yếu là tiếng Anh) của sinh viên được các trường đại học rất coi trọng và có nhiều giải pháp giúp sinh viên hoàn thiện kỹ năng ngoại ngữ như đưa năng lực ngoại ngữ là chuẩn đầu ra để tốt nghiệp, nhiều chương trình đào tạo dạy bằng tiếng Anh Vì vậy, việc nắm được đặc điểm, xu hướng và thực trạng học tiếng Anh của sinh viên trong các trường đạị học là việc làm rất cần thiết, giúp các trường đại học có được cái nhìn tổng quan về năng lực tiếng Anh của sinh viên, từ đó đề xuất các chính sách, định hướng và tư vấn giúp sinh viên nâng cao năng lực tiếng Anh. Để phân tích thực trạng học tiếng Anh của sinh viên trường Đại học Kinh tế - Đại học Đà Nẵng, sau quá trình thu thập dữ liệu về tình hình học tiếng Anh của sinh viên trong Trường, nghiên cứu tập trung vào ứng dụng kỹ thuật phân cụm và luật kết hợp trong khai phá dữ liệu để để phân tích, giúp nhà Trường có được các thông tin cần thiết về thực trạng, đặc điểm và mong muốn học tiếng Anh của sinh viên. Từ đó, đề xuất những giải pháp phù hợp trong tư vấn, định hướng và giảng dạy giúp nâng cao năng lực tiếng Anh cho sinh viên. 2 Sơ lược về kỹ thuật phân cụm và luật kết hợp 2.1 Phân cụm dữ liệu Phân cụm dữ liệu là qui trình tìm cách nhóm các đối tượng đã cho vào các cụm (clusters), sao cho các đối tượng trong cùng 1 cụm càng giống nhau (similar) càng tốt và các đối tượng khác cụm thì càng khác nhau nhau (Dissimilar) càng tốt.[1],[2] 176 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Mục đích của phân cụm là tìm ra bản chất bên trong các nhóm của dữ liệu. Có rất nhiều kỹ thuật phân cụm như phân cụm phân hoạch, phân cụm phân cấp, phân cụm dựa trên mật độ... Tuy nhiên, không có tiêu chí nào là được xem là tốt nhất để đánh giá hiệu qủa của phân tích phân cụm, điều này phụ thuộc vào mục đích của bài toán phân cụm. [1],[2] 2.2 Luật kết hợp Trong lĩnh vực Data Mining, mục đích của luật kết hợp (Association Rule - AR) là tìm ra các mối quan hệ giữa các đối tượng trong khối lượng lớn dữ liệu. Nội dung cơ bản của luật kết hợp được tóm tắt như dưới đây.[1],[2] Cho cơ sở dữ liệu giao dịch T gồm tập các giao dịch t1, t2, tn. T = {t1, t2, tn}. Mỗi giao dịch ti bao gồm tập các đối tượng I (gọi là itemset). I = {i1, i2 , im}. Một itemset gồm k items gọi là k-itemset. Mục đích của luật kết hợp là tìm ra sự kết hợp (tương quan) giữa các items. Những luật kết hợp này có dạng X → Y Hai tiêu chí rất quan trọng trong việc đánh giá luật kết hợp đó là độ hỗ trợ (support) và độ tin cậy (confidence). Công thức tính độ hỗ trợ và độ tin cậy của luật kết hợp X→Y: [2] ( )( ) ( ) n X YSupport X Y P X Y N      ( )( ) ( ) ( ) n X YConfidence X Y P Y X n X     Trong đó: - n(X): Số giao dịch chứa X. - N: Tổng số giao dịch. Các luật kết hợp có độ hỗ trợ và độ tin cậy lớn hơn hoặc bằng độ hỗ trợ tối thiểu (min_sup) và độ tin cậy tối thiểu (min_conf) gọi là các luật mạnh. min_sup và min_conf gọi là các giá trị ngưỡng (threshold) được xác định trước khi sinh các luật kết hợp. 3 Ứng dụng kỹ thuật phân cụm và luật kết hợp phân tích tình hình học tiếng Anh của sinh viên Đại học Kinh tế - Đại học Đà Nẵng 3.1 Mô tả bài toán Mục đích: ứng dụng kỹ thuật phân cụm và luật kết hợp để đánh giá được tình hình học tiếng Anh của sinh viên Đại học Kinh tế - Đại học Đà Nẵng Đầu vào: Gồm các thông tin của sinh viên: giới tính, quê quán, chuyên ngành, năm thứ, kết quả học tập; thông tin về việc học tiếng Anh: mục đích học tiếng Anh, thời gian, chi phí dành cho việc học tiếng Anh Đầu ra: Đưa ra đặc trưng về việc học tiếng Anh của từng nhóm sinh viên, mối liên hệ giữa các thuộc tính liên quan đến việc học tiếng Anh của sinh viên, từ đó đánh giá được thực trạng học tiếng Anh của họ. Nguyễn Văn Chức, Trần Thị Quỳnh Tiên 177 3.2 Kịch bản triển khai các mô hình phân tích tình hình học tiếng Anh của sinh viên Hình 1. Kịch bản triển khai các mô hình phân tích tình hình học tiếng Anh của sinh viên - Bước 1. Thu thập và tiền xử lý dữ liệu. Dữ liệu thu thập được 450 mẫu, từ các sinh viên đang học tại trường Đại học Kinh tế - Đại học Đà Nẵng từ tháng 2/2017 đến 4/2017. Dữ liệu ban đầu gồm rất nhiều thuộc tính, sau quá trình tiền xử lý dữ liệu (sử dụng phương pháp trích chọn thuộc tính) để đánh giá mức độ ảnh hưởng của các thuộc tính việc phân tích tình hình học tiếng Anh (TA) của sinh viên, mô hình xác định được các thuộc tính như Bảng 1. Tên thuộc tính Giải thích Tên thuộc tính Giải thích MaSV Mã sinh viên (PK) MDDuDKDuHoc Mục đích học TA: Đủ điều kiện đi du học GioiTinh Giới tính BatDauHocTA Bắt đầu học TA từ khi nào QueQuan Quê quán ThoiGianHocTA Thường học TA vào thời gian nào ChuyenNganh Chuyên ngành ThoiGianTBHocTrong1Tuan Thời gian trung bình trong 1 tuần dành cho việc học TA NamThu Năm học thứ ChiPhiHangThang Chi phí hàng tháng dành cho việc học TA KQHT Kết quả học tập VaiTroTATrongCongViec Vai trò TA trong công việc MDDuChuanTN Mục đích học TA: Đủ chuẩn tốt nghiệp KiNangYeuNhat Kĩ năng TA yếu nhất MDYeuThich Mục đích học TA: Vì yêu thích KhoaHocTAQuanTamNhat Khóa học TA quan tâm nhất MDCongViecTuongLa i Mục đích học TA: Vì công việc tương lai KeHoachRoRangHocTA Có lên kế hoạch cho việc học TA không Bước 2. Xây dựng mô hình phân cụm và luật kết hợp Mô hình phân cụm và luật kết hợp phân tích dữ liệu khách hàng sử dụng dịch vụ khách sạn được xây dựng trên công cụ khai phá dữ liệu Business Intelligence Development Studio (BIDS) của Microsoft. BIDS là công cụ rất mạnh cho phép triển khai các mô hình khai phá dữ liệu, được sử dụng rộng rãi hiện nay bởi khả năng kết nối dễ dàng với nhiều nguồn dữ liệu, giao diện dễ sử dụng và nhất là khả năng biểu diễn tri thức phát hiện được rất trực quan, dễ hiểu, dễ sử dụng. BIDS được tích hợp vào SQL SERVER 2005 trở về sau trong các phiên bản Enterprise hoặc Development.[5] 178 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” Sau khi thực hiện các thao tác tiền xử lý dữ liệu để phù hợp với mô hình khai phá dữ liệu, sử dụng Microsoft Clustering với thuật toán K-means và Microsoft Association Rule với thuật toán Apriori trong BIDS để xây dựng mô hình phân tích tình hình học tiếng Anh của sinh viên Đại học Kinh tế - Đại học Đà Nẵng. - Bước 3. Phát hiện tri thức từ mô hình phân cụm và luật kết hợp. Mô hình phân cụm. Hình 2. Kết quả phân cụm dữ liệu Từ mô hình phân cụm, cho ra được đặc trưng 5 nhóm khách hàng như sau: - Cụm 1: Cụm này đa số là các bạn nữ; đang học năm 3; kết quả học tập: Khá; có mục đích học TA là vì công việc tương lai và đủ chuẩn tốt nghiệp; bắt đầu học TA từ tiểu học, trung học cơ sở; thời gian học TA thường là buổi tối,10h - <20h/tuần; chi phí dành cho việc học TA: 500.000 - < 1.000.000 VNĐ/tháng; cho rằng vai trò TA trong công việc là rất cần thiết; kĩ năng TA yếu nhất là nghe và nói; khóa học TA quan tâm nhất là giao tiếp; phần lớn chưa lên kế hoạch rõ ràng cho việc học TA. - Cụm 2: Cụm này đa số là các bạn nữ; đang học năm 1; kết quả học tập: Khá; có mục đích học TA là vì công việc tương lai; bắt đầu học TA từ trung học cơ sở; thời gian học TA thường là buổi tối, bất cứ khi nào rảnh, < 10h/tuần; chi phí dành cho việc học TA: < 500.000 VNĐ/tháng; cho rằng vai trò TA trong công việc là rất cần thiết; kĩ năng TA yếu nhất là nghe; khóa học TA quan tâm nhất là giao tiếp và ôn thi chứng chỉ; có lên kế hoạch rõ ràng cho việc học TA. - Cụm 3: Cụm này đa số là các bạn đang học năm 1; kết quả học tập: Khá; có mục đích học TA là vì công việc tương lai, vì đủ chuẩn tốt nghiệp; bắt đầu học TA từ tiểu học; thời gian học TA thường là bất cứ khi nào rảnh, < 10h/tuần; chi phí dành cho việc học TA: < 500.000 VNĐ/tháng; cho rằng vai trò TA trong công việc là rất cần thiết; kĩ năng TA yếu nhất là nghe, nói và viết; khóa học TA quan tâm nhất là giao tiếp và ôn thi chứng chỉ; có lên kế hoạch rõ ràng cho việc học TA. - Cụm 4: Cụm này đa số là các bạn nữ; đang học năm 2; kết quả học tập: Khá; có mục đích học TA là vì công việc tương lai, vì đủ chuẩn tốt nghiệp; bắt đầu học TA từ trung học cơ sở; thời gian học TA thường là buổi tối, < 10h/tuần; chi phí dành cho việc học TA: < 500.000 VNĐ/tháng; cho rằng vai trò TA trong công việc là rất cần thiết; kĩ năng TA yếu nhất là nghe; khóa học TA quan tâm nhất là giao tiếp; phần lớn chưa lên kế hoạch rõ ràng cho việc học TA. Nguyễn Văn Chức, Trần Thị Quỳnh Tiên 179 - Cụm 5: Cụm này đa số là các bạn đang nam học năm 3; kết quả học tập: trung bình và khá; có mục đích học TA là vì công việc tương lai, vì đủ chuẩn tốt nghiệp, vì đủ điều kiện đi du học, vì yêu thích; bắt đầu học TA từ tiểu học; thời gian học TA thường là bất cứ khi nào rảnh, < 10h/tuần; chi phí dành cho việc học TA: < 500.000 VNĐ/tháng; cho rằng vai trò TA trong công việc là rất cần thiết; kĩ năng TA yếu nhất là nghe; khóa học TA quan tâm nhất là ôn thi chứng chỉ; có lên kế hoạch rõ ràng cho việc học TA. Hình 3. Đặc trưng từng cụm dữ liệu Mô hình luật kết hợp. Hình 4. Kết quả mô hình luật kết hợp Từ mô hình luật kết hợp đã xây dựng, một số luật được trích ra sau đây: - Luật 1: Với chuyên ngành là Quản trị kinh doanh du lịch, quê quán ở Đà Nẵng thì chi phí dành cho việc học TA hàng tháng là 1.000.000 - 1.500.000 VNĐ với độ tin cậy 0,5. - Luật 2: Với kết quả học tập (KQHT) là Xuất sắc, quê quán ở Đà Nẵng thì có mục đích học TA là để đủ điều kiện đi du học với độ tin cậy 0,8. - Luật 3: Với chuyên ngành là Tài chính doanh nghiệp, giới tính Nam thì kĩ năng TA yếu nhất là viết với độ tin cậy 0,57. 180 KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2017 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC” - Luật 4: Với chuyên ngành là Kiểm toán, là sinh viên Năm 2 thì khóa học TA quan tâm nhất là Tiếng Anh tổng quát với độ tin cậy 0,5. - Luật 5: Với chuyên ngành là Marketing, là sinh viên Năm 3 thì chi phí dành cho việc học TA hàng tháng là 500.000 - <1.000.000 VNĐ với độ tin cậy là 1,0. Bước 4. Xây dựng giao diện. Dựa vào các tri thức phát hiện được từ mô hình phân cụm và luật kết hợp, một hệ thống giao tiếp được xây dựng trên nền web cho phép người dùng dễ dàng sử dụng để tìm ra đặc điểm học tiếng Anh từng nhóm sinh viên, đánh giá tình hình học tiếng Anh của sinh viên. Hình 5. Giao tiếp người dùng với hệ thống 4 Kết luận và hướng phát triển Nghiên cứu đã tìm hiểu về lý thuyết kỹ thuật phân cụm và luật kết hợp trong khai phá dữ liệu, từ đó ứng dụng các kỹ thuật này vào xây dựng mô hình khai phá dữ liệu nhằm phân tích tình hình học tiếng Anh của sinh viên trường Đại học Kinh tế - Đại học Đà Nẵng. Kết quả nghiên cứu giúp cho nhà Trường nắm được tình hình học tiếng Anh của sinh viên, từ đó có những chính sách phù hợp giúp cho sinh viên đạt kết quả học tập tiếng Anh tốt. Ngoài ra, kết quả phân tích còn giúp cho sinh viên chủ động trong việc lập kế hoạch học tập nhằm nâng cao khả năng tiếng Anh của mình, đáp ứng yêu cầu học tập và công việc. Dựa vào mô hình khai phá dữ liệu với hai kỹ thuật phân cụm dữ liệu và phát hiện luật kết hợp đã xây dựng, nhóm tác giả đã xây dựng thành công một hệ thống giao tiếp trên nền web để người dùng có thể dễ dàng sử dụng các tri thức phát hiện được từ mô hình. Trong thời gian tới sẽ thu thập thêm dữ liệu để hoàn thiện mô hình cũng như mở rộng nghiên cứu tình hình học các ngoại ngữ khác (tiếng Nhật, Pháp) của sinh viên thuộc các cơ sở đào tạo của Đại học Đà Nẵng. Tài liệu tham khảo 1. Nguyễn Đức Thuần (2013), Nhập môn khai phá dữ liệu và quản trị tri thức, NXB Thông tin và Truyền thông. Nguyễn Văn Chức, Trần Thị Quỳnh Tiên 181 2. Jiawei Han and Micheline Kamber (2011). Datamining: Concepts and Techniques, Simon Fraser University. 3. Nguyễn Văn Chức, Đào Thị Giang (2015), Ứng dụng kỹ thuật phân cụm và luật kết hợp khai phá dữ liệu khách hàng sử dụng dịch vụ khách sạn, Tạp chí KH&CN ĐHĐN, số 12(97).2015, Quyển 2, tr. 1-4. 4. Nguyễn Văn Chức, Lê Vũ Thùy Tâm (2016), Nghiên cứu và ứng dụng luật kết hợp phân tích xu hướng đăng ký ngành tuyển sinh Đại học, Kỷ yếu Hội thảo khoa học Quốc Gia “Thống kê và Tin học ứng dụng” NCASI 2016, 2, 1-8. 5. JamieMacLennan, Z.T., Bogdan Crivat (2008), Data Mining with Microsoft SQL Server 2008, Indianapolis, Indiana: Wiley Publishing, Inc.

Các file đính kèm theo tài liệu này:

  • pdfung_dung_ky_thuat_phan_cum_va_luat_ket_hop_phan_tich_tinh_hi.pdf