Giới thiệu
Trường hợp dữ liệu một chiều
Trường hợp dữ liệu 2 hoặc 3 chiều
Trường hợp dữ liệu có > 3 chiều
27 trang |
Chia sẻ: Mr Hưng | Lượt xem: 799 | Lượt tải: 0
Bạn đang xem trước 20 trang nội dung tài liệu Toán học - Phân tích dữ liệu bằng công cụ trực quan, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
1Phân tích dữ liệu bằng
công cụ trực quan
2Dàn bài
Giới thiệu
Trường hợp dữ liệu một chiều
Trường hợp dữ liệu 2 hoặc 3 chiều
Trường hợp dữ liệu có > 3 chiều
3Giới thiệu
2 mục tiêu quan trọng của phân tích dữ liệu
◦ Xác định mô hình hợp lý của quá trình phát sinh dữ
liệu
◦ Xác định dữ liệu nhiễu (outlier) trong tập mẫu
Trong phần này xem xét kỹ thuật sử dụng các
công cụ trực quan
4Dàn bài
Giới thiệu
Trường hợp dữ liệu một chiều
Trường hợp dữ liệu 2 hoặc 3 chiều
Trường hợp dữ liệu có > 3 chiều
5Trường hợp dữ liệu một chiều
Các phương pháp
◦ Histogram
◦ Quantile plot
◦ Box plot
6Histogram
Chia trục x thành các ‘bin’ có độ rộng h như
nhau bắt đầu từ x0
[x0,x0+h), [x0+h,x0+2h),, [x0+n.h,x0+(n+1)h),
Gọi vk là số điểm rơi vào bin thứ k, tức là
[x0+(k-1)h,x0+k.h)
Gọi n là số lượng điểm trong tập dữ liệu
7Histogram (tt)
Frequency histogram:
Relative frequency histogram:
Density histogram
0 0
ˆ ( ) , [ ( 1) , . )kf x v x x k h x k h= ∈ + − +
0 0
ˆ ( ) , [ ( 1) , . )kvf x x x k h x k h
n
= ∈ + − +
0 0
ˆ ( ) , [ ( 1) , . )
.
kvf x x x k h x k h
n h
= ∈ + − +
8Histogram (tt)
Ví dụ: histogramExample.m
9Quantile plot
Quantile qp của biến ngẫu nhiên x được xác
định sao cho
p = P{x < qp}
Ví dụ: cho x ~ U(a,b)
◦ q0 = a
◦ q0.5 = (a+b)/2
◦ q1 = b
10
Quantile plot (tt)
11
Quantile plot (tt)
Tập dữ liệu được sắp xếp tăng dần
x1 ≤ x2 ≤ ≤ xn
Hàm phân phối thực nghiệm (empirical
distribution function) được cho bởi
1
1
0
ˆ ( )
1
n j j
n
x x
jP x x x x
n
x x
+
<
= ≤ <
≥
12
Quantile plot (tt)
Mục tiêu: kiểm định xem tập dữ liệu có phân
phối P hay không.
Giả sử tập dữ liệu được sắp x1 ≤ x2 ≤ ≤ xn
B1: sinh chuỗi n số
B2: biểu diễn trên đồ thị, trục x là các xi, trục y
là các giá trị số sinh được ở B1.
B3: nếu thấy gần tuyến tính tập dữ liệu có
phân phối P
1 1 11 0.5 0.5 0.5
,..., ,...,
i nP P P
n n n
− − −
− − −
13
Quantile plot (tt)
Ví dụ: xem quantilePlotExample.m
14
Box plot
Trong phương pháp này, 5 tham số được quan
tâm
◦ 3 quantile q0.25, q0.5, q0.75,
◦ Giá trị min và max trong tập mẫu
Đặt IQR (interquartile range) là
IQR = q0.75 - q0.25
2 giới hạn
◦ Low: LL = q0.25 – 1.5 IQR
◦ Up: UL = q0.75 + 1.5 IQR
15
Box plot (tt)
Mọi điểm dữ liệu nằm ngoài [LL,UL] đều bị coi
là outlier
Box plot (tt)
Ví dụ: boxPlotExample.m
17
Dàn bài
Giới thiệu
Trường hợp dữ liệu một chiều
Trường hợp dữ liệu 2 hoặc 3 chiều
Trường hợp dữ liệu có > 3 chiều
18
Trường hợp dữ liệu 2 hoặc 3
chiều
Các phương pháp
◦ Scatter
◦ Bivariate Histogram
19
Scatter
Trên hệ trục Cartesian vẽ các điểm tương ứng
với từng điểm dữ liệu
Đây là phương pháp đơn giản nhất cho việc
quan sát phân bố tập dữ liệu
Ví dụ:
◦ scatter2D.m
◦ scatter3D.m
20
Bivariate Histogram
2 trục x(1) và x(2)
Chia trục x(i) thành các ‘bin’ có độ rộng h(i) như
nhau bắt đầu từ x(i)0
[x(i)0, x(i)0 +h(i)), [x(i)0 +h(i), x(i)0 +2h(i)),, [x(i)0 +n. h(i),
x(i)0 +(n+1) h(i)),
Gọi vl,k là số điểm rơi vào bin thứ l theo trục x(1)
và thứ k theo trục x(2), tức là
[x(1)0 +(l-1) h(1), x(1)0 +l. h(1)) x [x(2)0 +(k-1) h(2), x(2)0
+k. h(2))
21
Bivariate histogram (tt)
Density histogram
Ví dụ: bivariateHistogramExample.m
,
(1) (2)
(1) (1) (1) (1) (2) (2) (2) (1)
0 0 0 0
ˆ ( ) ,
.
[ ( 1) , . ) [ ( 1) , . )
l kvf
n h h
x l h x l h x k h x k h
=
∈ + − + × + − +
x
x
22
Dàn bài
Giới thiệu
Trường hợp dữ liệu một chiều
Trường hợp dữ liệu 2 hoặc 3 chiều
Trường hợp dữ liệu có > 3 chiều
23
Trường hợp dữ liệu > 3 chiều
Các phương pháp
◦ Scatter plot matrix
◦ Parallel coordinates
24
Scatter plot matrix
Áp dụng scatter 2D cho từng cặp đặc trưng 1
chiều
Nếu tập dữ liệu có d chiều thì sẽ có d*d scatter
plot.
Ví dụ: scatterPlotMatrix.m
25
Parallel coordinates
Cách thể hiện dữ liệu 2, 3 chiều trong hệ trục
Cartesian: các trục vuông góc từng đôi một
tối đa 3D
Parallel Coordinates: các chiều song song với
nhau
26
Parallel Coordinates (tt)
x2
x1
x3
x4
27
Parallel coordinates (tt)
•Ví dụ: parallelCoordinates.m
Các file đính kèm theo tài liệu này:
- 14_phan_tich_du_lieu_bang_cong_cu_truc_quan_6091.pdf