Ứng dụng ngôn ngữ R trong phân tích dữ liệu

Hướng dẫn cài đặt và vận hành R

Xử lý số liệu bằng R

Phân tích thống kê mô tả bằng R

Phân tích hồi quy bằng R

Phân tích dãy số thời gian bằng R

 

ppt60 trang | Chia sẻ: Mr Hưng | Lượt xem: 938 | Lượt tải: 0download
Bạn đang xem trước 20 trang nội dung tài liệu Ứng dụng ngôn ngữ R trong phân tích dữ liệu, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
ỨNG DỤNG NGÔN NGỮ R TRONG PHÂN TÍCH DỮ LIỆUNhóm thực hiện:Phan Đình KhôiNguyễn Hồ Anh KhoaNội dung chínhHướng dẫn cài đặt và vận hành RXử lý số liệu bằng RPhân tích thống kê mô tả bằng RPhân tích hồi quy bằng RPhân tích dãy số thời gian bằng RNội dung 1. GIỚI THIỆU R Tại sao sử dụng R Tổng quan R Workspace Đọc và lưu dữ liệu trong RTại sao R Mã nguồn mở Hoàn toàn miễn phí Chạy trên nền Windows, MacOS Nhiều phương pháp phân tích không có trong các phần mền khác Vẽ biểu đồ tuyệt vờiLưu ý! Thuật ngữ/ngôn ngữ khó hiểu Dùng câu lệnh tương tác Nhiêu ký hiệu Cần quen với ngôn ngữ lập trìnhR làm được gì? R là công cụ phân tích thống kê Cho phép thực hiện tất cả các mô hình phân tích Mô phỏng Vẽ đồ thị và biểu đồ rất đẹp Lập trình cho phương pháp mớiTải phần mềm R Truy cập R for Windows screen, chọn “base” Download R Run, chọn OK sau đó chọn FINISH Biểu tượng R sẽ xuất hiện trên desktop Bắt đầu sử dụng RLàm việc với R Object: Đối tượng - tên cho mỗi đối tượng (case sensitive) - gán giá trị cho đối tượng sử dụng assignment operator (tuoi=25 >Tuoix = c(1:10)# gọi các giá trị của object >x >x[(x>8)|(xy = rnorm(10) # tạo myobject bao gồm 20 giá trị nornal >myobjectmy.objectmy objecty = rnorm(10, mean=0, sd=1)Hoặc >y=rnorm(10,0,1) Làm việc với RLàm việc với R Workspace: Môi trường làm việc # tạo thư mục chứa dữ liệu > setwd(“D:/thongke”)Note: + thongke phải được tạo trước ở D: + R làm việc với / (không phải \) # xem thư mục làm việc > getwd() Làm việc với R Workspace: Môi trường làm việc # chuyển thư mục làm việc >setwd(“C:/mydocument”) # lưu trữ lệnh >savehistory(file=“myfile”) # mở lệnh đã lưu trữ >loadhistory(file=“myfile”) Làm việc với R Packages: Gói công cụ - R cấu trúc theo packages - Mỗi phương pháp phân tích được thiết kế trong một package - Tải package về để sử dụng trong R - Để xem các packages sẳn có > library() Làm việc với R Làm việc với R Packages: Gói công cụ # cài đặt package mới >install.packages(c(“moments”) > library() # cài đặt nhiều packages >install.packages(c(“car”,“ggplot2”)) Làm việc với R Đọc và lưu dữ liệu trong R Ghi xuất các dữ liệu dưới dạng file.rda # tạo hai vector cột x, y >x=c(1,3,1,3,5) >y=c(2,5,6,7,8) # sử dụng data.frame để nhập hai vector x, y vào object tên là mydat >mydat=data.frame(x,y) Đọc và lưu dữ liệu trong R Đọc và lưu dữ liệu trong R Ghi xuất các dữ liệu dưới dạng file.rda # lưu mydat dưới dạng R file với tên mydatfile.rda >save(mydat,file=“mydatfile.rda") Đọc và lưu dữ liệu trong R Nhập số liệu trực tiếp trong R # mở cửa sổ nhập liệu bằng lệnh edit(data.frame()) >nhaplieu=edit(data.frame()) # lưu nhaplieu dưới dạng R file với tên mynhaplieu.rda >save(nhaplieu,file=“mynhaplieu.rda") Đọc và lưu dữ liệu trong R Đọc dữ liệu vào R Trực tiếp từ R Từ text, excel, SPSS, Stata Từ mạng Lưu ý: kiểm tra thư mục đang làm việc Đọc và lưu dữ liệu trong R Đọc dữ liệu từ R (file.rda) # gọi tên file (tìm file mynhaplieu.rda) >filename=file.choose() # đọc dữ liệu dưới dạng R bằng lệnh load >dat= load(“mynhaplieu.rda”)# xem dữ liệu >head(dat) Đọc và lưu dữ liệu trong R Đọc dữ liệu vào R từ text (ASCII file) # lấy tên file >filename=file.choose() # đọc dữ liệu dùng lệnh read.table() >dat1= read.table(“home price.txt, header=T)# xem dữ liệu >head(dat1) Đọc và lưu dữ liệu trong R Đọc dữ liệu vào R từ Excel (.csv) # lấy tên file >filename=file.choose() # đọc dữ liệu dùng lệnh lệnh read.csv() >dat2= read.csv(“income.csv”,header=T)# xem dữ liệu >head(dat2) Đọc và lưu dữ liệu trong R Đọc dữ liệu vào R từ Excel (.xls) sử dụng package “gdata” # lấy tên file >filename=file.choose() # đọc dữ liệu dùng lệnh lệnh read.xls() >dat3= read.xls(“myfile.xls”, sheet=1, header=T)# xem dữ liệu Đọc và lưu dữ liệu trong R Đọc và lưu dữ liệu trong R Đọc dữ liệu vào R từ SPSS # lấy tên file >filename=file.choose() # đọc dữ liệu lệnh read.sav() >dat4= read.sav(“myspss.sav”)# xem dữ liệu >head(dat4) Đọc và lưu dữ liệu trong R Đọc dữ liệu vào R từ Stata # lấy tên file >filename=file.choose() # đọc dữ liệu sử dụng lệnh read.dta() >dat5= read.dta(“mystata”)# xem dữ liệu >head(dat) Đọc và lưu dữ liệu trong R Đọc và lưu dữ liệu trong R Đọc dữ liệu vào R từ website # đọc dữ liệu từ trang >dat6=read.csv("", header=T)> head(dat) Đọc và lưu dữ liệu trong R Làm việc với object sau khi đọc vào R # gọi object dùng lệnh attach() >attach(dat6) # dùng attach() để gọi các objects trước đâyBiên tập số liệu Tạo biến mới # gọi object dùng lệnh attach() >attach(dat6) # dùng attach() để gọi các objects trước đâyBiên tập số liệu Tạo biến mới Làm việc với một phần dữ liệu Kết nối dữ liệuBiên tập số liệu Một số hàm cơ bảnHàm Mô tả Hàm Mô tả + Cộng Lớn hơn * Nhân = Lớn hơn/bằng ^ Lũy thừa == Exactly equal to != Not equal to !x Not x x|y x OR y x&y x AND yBiên tập số liệu Tạo biến mới bằng câu lệnh # gọi object từ file mydatafile.rda >mydat=load(mydatafile.rda) # xem tiêu đề dữ liệu >head(mydat) # làm việc với số liệu >attach(mydat)Biên tập số liệu Tạo biến mới bằng câu lệnh # Tạo biến mới và kết nối với một dataframe sử dụng dấu $ >mydat$sum = mydat$x +mydat$y # Tạo biến mới z=x*y trong mydat >mydat$z = mydat$x * mydat$y Đọc và lưu dữ liệu trong R Biên tập số liệu Tạo biến mới bằng câu lệnh # Tạo biến mới id và gender >id = c(1:5) > gender = c("male", "female", "male", "female", "male") # Tạo biến mới sex với 1=male, 2=female >mydat=data.frame(id,gender) >mydat$sex[gender==“male”]mydat$sex[gender==“female”]mydat$group[id>=“1” & idmydat$group[id>=“4” & idhead(mydat) Biên tập số liệuBiên tập số liệu Làm việc với một phần dữ liệu # data frame là một matrix (dòng và cột) >id=c(1:10) >name=c(“A”,“B”,“C”,“D”,“E”,“F”,“G”,“H”,“I”,“J”) >x=c(12, 15, 67, 32, 26, 86, 11, 16, 25, 37) >dat=data.frame(id, name, x) # dat có bao nhiêu dòng và cột? >datBiên tập số liệuBiên tập số liệu Làm việc với một phần dữ liệu # Liệt kê dòng và cột của dữ liệu >dat[,1]  liệt kê cột 1 >dat[,1:2]  liệt kê cột 1 >dat[2,]  liệt kê dòng 2 >dat[3:8,1]  liệt kê >dat[1:5,2:3]  liệt kêBiên tập số liệuBiên tập số liệu Làm việc với một phần dữ liệu # làm việc trong nhóm iddat1=subset(dat, iddat2=subset(dat, idnew.dat=dat[order(x), ]  thấp đến cao Biên tập số liệuBiên tập số liệu Kết nối dữ liệu # kết nối dữ liệu sử dụng lệnh merge trong package reshape >install.packages(“reshape”) >dat=merge(dat1, dat2, by=“id”) >dat=merge(dat1, dat2, by=“id”, all.x=T, all.y=T) >datBiên tập số liệuBiên tập số liệuBiên tập số liệu Chuyển dữ liệu từ dạng cột sang dòng # dụng lệnh metl trong package reshape >id=c(1:4) >sex=c(“M” “F” “F” “M”) >group=c(1,1,2,2) >income1=c(15,16,21,31) >income2=c(17,15,23,35) >income3=c(19,20,19,33)>dat=data.frame(id,sex,group,income1,income2,income3)>datBiên tập số liệu Chuyển dữ liệu từ dạng cột sang dòng # dụng lệnh metl trong package reshape >require(reshape2) >dat1=melt(dat, id=c(“id”, “sex”, “group”), income.vars=c(“income1”, “income2”, “income3”)) >dat1Biên tập số liệuBiên tập số liệuBiên tập số liệu Chuyển dữ liệu từ dạng dòng sang cột # dụng lệnh cast trong package reshape >dat2=cast(dat1, id=c(id, sex, group ~ variable) >dat2Biên tập số liệuTóm lược Đối tượng/Object Môi trường làm việc/Workspace Gói công cụ/Packages Đọc và lưu dữ liệu Đọc từ text file Đọc từ excel file Đọc từ spss file Đọc từ stata file Đọc từ web

Các file đính kèm theo tài liệu này:

  • pptbai_1_gioi_thieu_ve_r_25_03_2014_9107.ppt