Bài giảng Tin học ứng dụng - Bài 4: Các phép biến đổi dữ liệu

Hiểu và áp dụng được các phương pháp biến đổi

dữ liệu phù hợp với yêu cầu nghiên cứu.

• Hiểu và áp dụng được các phương pháp xử lý lỗi

phát sinh trong quá trình nhập liệu.

• Tổ chức và làm việc nhóm xây dựng bảng câu hỏi

khảo sát, tiến hành khảo sát, nhập và xử lý dữ liệu.

pdf30 trang | Chia sẻ: phuongt97 | Lượt xem: 414 | Lượt tải: 0download
Bạn đang xem trước 20 trang nội dung tài liệu Bài giảng Tin học ứng dụng - Bài 4: Các phép biến đổi dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
PHÂN TÍCH DỮ LIỆU NGHIÊN CỨU VỚI SPSS TIN HỌC ỨNG DỤNG BÀI 4: CÁC PHÉP BIẾN ĐỔI DỮ LIỆU namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số MỤC TIÊU • Hiểu và áp dụng được các phương pháp biến đổi dữ liệu phù hợp với yêu cầu nghiên cứu. • Hiểu và áp dụng được các phương pháp xử lý lỗi phát sinh trong quá trình nhập liệu. • Tổ chức và làm việc nhóm xây dựng bảng câu hỏi khảo sát, tiến hành khảo sát, nhập và xử lý dữ liệu. namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số NỘI DUNG • Xử lý dữ liệu trên biến – Mã hóa biến với công cụ Recode – Chuyển định dạng của biến – Tính toán giá trị của biến với công cụ Compute – Xử lý câu hỏi có nhiều lựa chọn trả lời • Làm sạch dữ liệu – Dữ liệu lỗi và các biện pháp khắc phục – Các phương pháp làm sạch dữ liệu namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số CÁC PHÉP BIẾN ĐỔI DỮ LIỆU • Mục đích – Xử lý sai sót trong quá trình mã hóa, nhập liệu – Biến đổi dữ liệu để phát hiện mối quan hệ giữa các biến • Phân loại – Xử lý dữ liệu trên biến – Làm sạch dữ liệu namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số XỬ LÝ DỮ LIỆU TRÊN BIẾN • Mã hóa biến với công cụ Recode • Chuyển định dạng của biến • Tính toán giá trị của biến với công cụ Compute • Xử lý câu hỏi có nhiều lựa chọn trả lời namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số MÃ HÓA BIẾN VỚI RECODE • Mục đích – Biến đổi trị số dữ liệu bằng cách mã hóa lại chúng • Điều kiện áp dụng – Giảm số biểu hiện của một biến định tính xuống chỉ còn hai hoặc ba loại biểu hiện cơ bản – Chuyển biến định lượng thành biến định tính namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số MÃ HÓA BIẾN VỚI RECODE • Quy trình thực hiện – Gọi thực hiện chức năng Transform -> Recode -> Into Different Variables (giữ nguyên biến gốc, tạo biến mới) – Chọn biến muốn mã hóa lại – Đặt tên và nhãn cho biến mới, nhấn nút Change để xác nhận – Nhấn nút Old and New Values để xác định sự chuyển đổi giá trị giữa biến cũ và biến mới – Gán các nhãn giá trị cho biến vừa tạo namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số MÃ HÓA BIẾN VỚI RECODE namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số CHUYỂN ĐỊNH DẠNG CỦA BIẾN • Mục đích – Chuyển biến dạng phân loại Category nhiều trị số thành biến phân loại Dichotomy có hai trị số • Ví dụ – BankAccount là biến phân loại, cho biết tên ngân hàng quản lý tài khoản lương của người được hỏi – SalaryThrBank là biến phân loại, cho biết người được hỏi có nhận lương qua ngân hàng VCB hay không namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số CHUYỂN ĐỊNH DẠNG CỦA BIẾN • Quy trình thực hiện – Gọi thực hiện chức năng Transform -> Count – Khai báo tên và nhãn của biến Dichotomy – Cung cấp (các) biến Category có liên quan tới biến Dichotomy – Cung cấp trị số mã hóa của (các) biến Category có liên quan tới biến Dichotomy – Gán nhãn các giá trị của biến Dichotomy namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số CHUYỂN ĐỊNH DẠNG CỦA BIẾN namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU • Dữ liệu lỗi và các biện pháp khắc phục • Các phương pháp làm sạch dữ liệu namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số DỮ LIỆU LỖI • Lỗi mã hóa dữ liệu • Lỗi nhập dữ liệu • Lỗi về tính nhất quán của dữ liệu namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LỖI MÃ HÓA DỮ LIỆU • Mô tả – Dữ liệu nhập không phản ánh đúng ý nghĩa của thông tin do người được hỏi cung cấp • Nguyên nhân – Mã hóa sai thông tin do người được hỏi cung cấp namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LỖI NHẬP DỮ LIỆU • Mô tả – Dữ liệu nhập không đúng với bảng mã theo thông tin do người được hỏi cung cấp • Nguyên nhân – Mã đọc sai – Mã đọc đúng nhưng lỗi do đánh máy namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LỖI NHẤT QUÁN DỮ LIỆU • Mô tả – Không nhất quán giữa các câu trả lời của cùng một đối tượng được hỏi • Nguyên nhân – Lỗi mã hóa dữ liệu – Lỗi nhập dữ liệu – Lỗi do đối tượng được hỏi cung cấp sai thông tin namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số KHẮC PHỤC LỖI MÃ HÓA VÀ NHẬP LIỆU • Nhập toàn bộ số liệu hai lần bởi hai người độc lập • Nhập toàn bộ số liệu một lần, nhập lần hai 20% bộ số liệu (chọn ngẫu nhiên) bởi hai người độc lập namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU • Sự cần thiết – Xử lý các lỗi phát sinh trong quá trình mã hóa dữ liệu, nhập dữ liệu – Đảm bảo tính nhất quán của dữ liệu • Các biện pháp ngăn ngừa – Thiết kế bảng câu hỏi rõ ràng, dễ trả lời – Chọn lọc và huấn luyện điều tra viên – Các bảng câu hỏi cần kiểm tra, xử lý lỗi trước khi nhập namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU • Kết hợp sử dụng MS Excel và SPSS để phát hiện, xử lý lỗi và làm sạch dữ liệu – Sử dụng Excel (Max, Min, Auto Filter, Scatter) – Sử dụng SPSS (Scatter, Frequency, Charts, Box Plots) • Quy trình thực hiện – Dùng công cụ để phát hiện giá trị “lạ” của mỗi biến – Tìm bản ghi chứa giá trị “lạ” – Chỉnh sửa/loại bỏ bản ghi chứa giá trị lạ namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU VỚI MS EXCEL • Ví dụ – Sử dụng hàm MIN, MAX đối với biến Age – Sử dụng công cụ AutoFilter đối với biến Gender – Sử dụng đồ thị Scatter đối với biến Childrens namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU VỚI MS EXCEL • Sử dụng hàm MIN, MAX đối với biến Age – Đối với dữ liệu người tiêu dùng, độ tuổi khảo sát từ 18 đến 60 – Giá trị nằm ngoài vùng 18 – 60 là dữ liệu lỗi namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU VỚI MS EXCEL • Sử dụng công cụ AutoFilter đối với biến Gender – Biến Gender chỉ có hai giá trị Male và Female, những giá trị khác (hoặc để trống) là lỗi nhập liệu namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU VỚI MS EXCEL • Sử dụng đồ thị Scatter đối với biến Age namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU VỚI MS EXCEL • Sử dụng đồ thị Scatter đối với biến Age namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU VỚI SPSS • Ví dụ – Sử dụng công cụ Frequencies đối với biến Gender – Sử dụng công cụ Charts đối với biến Literacy – Sử dụng công cụ Histogram đối với biến Age namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU VỚI SPSS • Sử dụng công cụ Frequencies đối với biến Gender namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU VỚI SPSS • Sử dụng công cụ Frequencies đối với biến Gender namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU VỚI SPSS • Sử dụng công cụ Charts đối với biến Literacy namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU VỚI SPSS • Sử dụng công cụ Charts đối với biến Literacy namth@buh.edu.vn T in h ọ c ứ n g d ụ n g : B iế n đ ổ i d ữ li ệ u n g h iê n c ứ u những bước chập chững vào thế giới số LÀM SẠCH DỮ LIỆU VỚI SPSS • Sử dụng công cụ Histogram đối với biến Age

Các file đính kèm theo tài liệu này:

  • pdfbai_giang_tin_hoc_ung_dung_bai_4_cac_phep_bien_doi_du_lieu.pdf
Tài liệu liên quan