Giới thiệu
Phương pháp tham số hóa
◦ Ước lượng mô hình bằng các công cụ trực quan
◦ Ước lượng tham số của mô hình
◦ Finite Mixture
Phương pháp phi tham số hóa
◦ Ước lượng bằng Histogram
◦ Ước lượng bằng Kernel
So sánh 2 lớp phương pháp
34 trang |
Chia sẻ: Mr Hưng | Lượt xem: 1505 | Lượt tải: 0
Bạn đang xem trước 20 trang nội dung tài liệu Phân tích dữ liệu - Ước lượng mật độ phân bố xác suất, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
Phân tích dữ liệu -
ước lượng mật độ phân
bố xác suất
Lê Phong
Dàn bài
Giới thiệu
Phương pháp tham số hóa
◦ Ước lượng mô hình bằng các công cụ trực quan
◦ Ước lượng tham số của mô hình
◦ Finite Mixture
Phương pháp phi tham số hóa
◦ Ước lượng bằng Histogram
◦ Ước lượng bằng Kernel
So sánh 2 lớp phương pháp
Giới thiệu
Trong thống kê, để khai thác được các tính chất
của tập quần thể, người ta quan tâm đến phân bố
xác suất ẩn trong quần thể đó.
Ước lượng hàm mật độ phân bố xác suất từ tập
mẫu.
Có 2 phương pháp tiếp cận
◦ Tham số hóa
◦ Phi tham số hóa
Giới thiệu (tt)
Mỗi phương pháp đều có ưu nhược điểm và
được đánh giá trên
◦ Độ chính xác
◦ Bộ nhớ lưu trữ
◦ Tốc độ tính toán
Để đánh giá độ chính xác, người ta thường dùng
1 trong 3 độ đo tiêu chuẩn (càng nhỏ càng tốt)
◦ Mean squared error
◦ Mean integrated squared error
◦ Mean integrated absolute error
Giới thiệu (tt)
Mean squared error tại một điểm x
Mean integrated squared error
Mean integrated absolute error
2ˆ ˆ[ ( )] [( ( ) ( )) ]MSE f x E f x f x= −
2ˆ ˆ[ ] ( ( ) ( ))MISE f E f x f x dx = − ∫
ˆ ˆ[ ] | ( ) ( ) |MIAE f E f x f x dx = − ∫
Dàn bài
Giới thiệu
Phương pháp tham số hóa
◦ Ước lượng mô hình bằng các công cụ trực quan
◦ Ước lượng tham số của mô hình
◦ Finite Mixture
Phương pháp phi tham số hóa
◦ Ước lượng bằng Histogram
◦ Ước lượng bằng Kernel
So sánh 2 lớp phương pháp
Phương pháp tham số hóa
Ý tưởng của các phương pháp này gồm 2 bước
◦ B1: xác định mô hình phân bố xác suất theo những
phân bố quen thuộc (normal, uniform, beta,)
◦ B2: ước lượng tham số để mô hình trở nên “tốt nhất”
đối với tập mẫu
Phương pháp tham số hóa (tt)
Bước 1 có thể thực hiện dựa trên các phương
pháp phân tích trực quan như
◦ Histogram
◦ Quantile-based
(xem lại slide Phân tích dữ liệu bằng các
phương pháp trực quan)
Ví dụ:
◦ univariateHistogram.m
◦ quantilePlot.m
Phương pháp tham số hóa (tt)
Bước 2: việc ước lượng tham số có thể được
thực thi bằng một số phương pháp
◦ Maximum Likelihood
◦ Phương pháp moment
(xem lại slide Phân tích dữ liệu _ các đặc trưng
và ước lượng tham số)
Finite Mixture
Ý tưởng: ước lượng mật độ xác suất bằng tổng
các mật độ xác suất thành phần có trọng số.
Trong đó
◦ pi là các mật độ thành phần
◦ wi là trọng số tương ứng
◦ θi là tham số của pi
◦ c là số lượng thành phần, c << n
1
( ) ( | )
c
i i
i
p w p
=
=∑ ix x θ
Finite Mixture (tt)
Ví dụ:
( ) 0.3 ( ; 3,1) 0.3 ( ;0,1) 0.4 ( ;2,0.5)p x N x N x N x= − + +
Finite Mixture (tt)
Có 3 vấn đề
◦ Xác định mô hình pi
◦ Xác định số lượng mật độ thành phần c
◦ Ước lượng từng tham số θi và trọng số wi
Thông thường, pi được chọn là mật độ xác suất
chuẩn
Finite Mixture (tt)
Ước lượng c: dựa trên sự phân bố dữ liệu trong
không gian đặc trưng
Ví dụ: c = ???
Finite Mixture (tt)
Ước lượng tham số θi và trọng số wi : phương
pháp EM
Dàn bài
Giới thiệu
Phương pháp tham số hóa
◦ Ước lượng mô hình bằng các công cụ trực quan
◦ Ước lượng tham số của mô hình
◦ Finite Mixture
Phương pháp phi tham số hóa
◦ Ước lượng bằng Histogram
◦ Ước lượng bằng Kernel
So sánh 2 lớp phương pháp
Phương pháp phi tham số
Lớp phương pháp này không cần phải xác định
trước mô hình phân bố.
Xem xét 2 phương pháp
◦ Histogram
◦ Kernel
Phương pháp Histogram
Ý tưởng chính:
◦ dùng tập mẫu để xây dựng density histogram
◦ dùng histogram này là ước lượng cho mật độ xác suất
ẩn của tập quần thể
Density histogram
Trong đó
◦ không gian đặc trưng được chia thành các bin có kích
thước bằng nhau
◦ d là số chiều, hi là độ rộng chiều thứ i của mỗi bin
◦ vk là số điểm rơi vào bin thứ k
1
ˆ ( ) , ( )
. ...
k
d
vf bin k
n h h
= ∈x x
Phương pháp Histogram (tt)
Ảnh hưởng của hi: phân phối chuẩn
Phương pháp Histogram (tt)
Cần phải tìm hi sao cho tối thiểu hóa error
Chứng minh được là
Phương pháp Histogram (tt)
Nếu mỗi chiều đặc trưng thứ i có phân phối
chuẩn với phương sai σi2 thì
Ví dụ: bivariateHistogram.m
Phương pháp Histogram (tt)
Một mở rộng là: Average Shifted Histogram
m ∞?
Phương pháp Kernel – 1 chiều
Hàm mật độ được ước lượng
K(.) được gọi là hàm kernel với tính chất
∫K(t)dt=1 (tại sao?)
Thông thường K(.) là hàm mật độ, đối xứng và
có đỉnh tại 0.
Ý nghĩa: đặt giá trị cao tại nơi có mật độ dày
Phương pháp Kernel – 1D (tt)
Phương pháp Kernel – 1D (tt)
Ảnh hưởng của h: phân phối chuẩn
Phương pháp Kernel – 1D (tt)
Nếu K(.) có trung bình µ và phương sai σ2 thì
Tối ưu đạt được tại h làm cực tiểu AMISE
Một ước lượng
Phương pháp Kernel – 1D (tt)
Phương pháp Kernel – 1D (tt)
Phương pháp Kernel – 1D (tt)
Việc xác định h quan trọng hơn là việc chọn
K(.)
Phương pháp Kernel - dD
Hàm mật độ được ước lượng
Với một trong những ước lượng hj
Dàn bài
Giới thiệu
Phương pháp tham số hóa
◦ Ước lượng mô hình bằng các công cụ trực quan
◦ Ước lượng tham số của mô hình
◦ Finite Mixture
Phương pháp phi tham số hóa
◦ Ước lượng bằng Histogram
◦ Ước lượng bằng Kernel
So sánh 2 lớp phương pháp
So sánh 2 lớp phương pháp
Chi phí bộ nhớ
◦ Phương pháp tham số chỉ cần lưu lại các tham số nên
tốn ít bộ nhớ
◦ Phương pháp phi tham số buộc phải lưu lại
Histogram: rất nhiều giá trị f^(x) vì số lượng bin rất
lớn
Kernel: phải lưu lại toàn bộ tập mẫu
So sánh (tt)
Chi phí tính toán
◦ Offline:
phương pháp tham số do phải ước lượng mô hình và
tham số nên tốn nhiều thời gian
phương pháp phi tham số thì ko hề tốn thời gian nào
◦ Online:
phương pháp tham số tính rất nhanh chóng do chỉ
cần thế số vào hàm
phương pháp phi tham số tính toán rất lớn
Histogram: tìm xem x thuộc bin nào
Kernel: tính toàn bộ n lần hàm kernel
So sánh (tt)
Độ chính xác:
◦ Phương pháp tham số
Do phải gò ép vào một mô hình biết trước nên error
chưa chắc giảm xuống khi n tăng, thậm chí có rủi ro
nếu ước đoán mô hình sai
Đối với Finite Mixture: nếu c vô hạn thì ước
lượng chính xác bất kỳ hàm mật độ nào, tuy nhiên
khi đó chi phí về bộ nhớ và thời gian tính toán
không thua gì phương pháp phi tham số
◦ Phương pháp phi tham số
Error giảm khi n tăng
So sánh (tt)
Phương pháp kernel và Finite Mixture có mối
liên hệ với nhau (bài tập)
Các file đính kèm theo tài liệu này:
- 18_phan_tich_du_lieu_uoc_luong_mat_do_phan_bo_xac_suat_6636.pdf