1. Tài nguyên KPDL: 9 kiểu công cụ
▪ Data mining suites (DMS): Gói chứa nhiều phương pháp
▪ Business intelligence packages (BIs): Không tập trung chuyên
về KPDL mà hướng tới các chức năng KPDL cơ bản, đặc biệt
thống kê trong ứng dụng kinh doanh
▪ Mathematical packages (MATs): Không tập trung chuyên về
KPDL mà hướng tới một tập lớn và mở rộng các thuật toán và thủ
tục trực quan hóa.
▪ Integration packages (INTs): gói mở rộng nhiều thuật toán nguồn
mở khác nhau/phần mềm độc lập (chủ yếu là dựa trên Java).
▪ EXT: tiện ích bổ sung nhỏ cho các công cụ khác như Excel,
Matlab, R với chức năng hạn chế song rất hữu dụng.
▪ Data mining libraries (LIBs): thực thi các phương pháp KPDL
như một gói chức năng.
▪ Specialties (SPECs): tương tự như LIB song gồm chỉ một nhóm
phương pháp chuyên biệt (mạng nơron, )
▪ RES: thường là sự thi hành lần đầu tiên thuật toán mới, cách tân.
▪ Solutions (SOLs): một nhóm các công cụ được tùy biến cho các
lĩnh vực ứng dụng hẹp như khai phá văn bản (GATE), xử lý hình
ảnh (ITK, ImageJ) .
102 trang |
Chia sẻ: Thục Anh | Ngày: 12/05/2022 | Lượt xem: 365 | Lượt tải: 1
Bạn đang xem trước 20 trang nội dung tài liệu Bài giảng Nhập môn khai phá dữ liệu - Chương 10: Nội dung bổ sung về Khai phá dữ liệu - Hà Quang Thụy, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
h chủ đề mới
78
⚫ Giải thích
▪ Must-links: Tri thức sẵn có để tinh chỉnh chủ đề mới trong lấy mẫu
Gibbs
▪ Sử dụng mô hình Multi-generated Pólya Urn cho cannot-links
Multi-
generalized
Pólya Urn
model
(MGPU)
Một mô hình đề xuất [ACIIDS2018]
⚫ Giải thích
▪ Dựa trên AMC
▪ Thiên vị mức “miền dữ liệu”: chỉ lấy miền dữ liệu gần S*
▪ Định nghĩa độ gần nhau: mức chủ đề và mức miền
▪ Mức miền: tập từ vựng, tập từ tốp đầu, lượng chủ đề gần nhau
▪ Mức chủ đề: độ đo cosine cho hai túi từ có trọng số
79
Quang-Thuy Ha,
Thi-Cham Nguyen et al.
Áp dụng phân lớp đa nhãn văn bản
80
Kiểm thử
một mẫu
cho kỳ vọng
giả thuyết
quần thể
với phương
sai chưa
biết: kết
quả tăng
thực sự so
với AMC
WordNet và mô hình chủ đề suốt đời
81
⚫ WordNet chung: Thành phần kho tri thức
[Chen16]
▪ Đề cập cơ sở tri thức KB khởi đầu: | WordNet
▪ Tiếp theo: chỉ đề cập tới KB khởi đầu
⚫ Vấn đề
▪ ? Sử dụng WordNet: tính đa nghĩa của từ, đồng nghĩa/nghịch
nghĩa có ngư cảnh các từ.
▪ Đồng nghĩa: mustlinks, nghịch nghĩa: Cannotlinks
▪ Vấn đề: “ngữ cảnh” đồng nghĩa/nghịch nghĩa
▪ Wordnet chung hay WordNet tự xây dựng ?
▪ Wordnet chung: sẵn có VietWordNet từ KC.01.02/06-10
▪ Wordnet tự xây dựng: liên quan tới từng miền
Học sâu suốt đời: một chủ đề nghiên cứu
⚫ Các chủ đề nghiên cứu về học suốt đời
▪ Học suốt đời phân lớp và hồi quy (Lifelong Learning for
Classification and Regression)
▪ Học tăng cường suốt đời (Lifelong Reinforcement Learning)
▪ Học suốt đời với chuyển giao tri thức mức cao (Few-Shot
Transfer in Lifelong Learning). David Isele.
trier.de/pers/hd/i/Isele:David . ACIIDS 2018?
▪ Học sâu suốt đời (Deep Lifelong Learning)
▪ Học suốt đời mô hình người dùng và cung cấp đám đông
(Lifelong Learning for User Modeling and Crowdsourcing)
▪ Học suốt đời người máy (Lifelong Robot Learning)
▪ Học suốt đời thông tin cấu trúc (Lifelong Learning of
Structured Information)
82
Học sâu: Nhận định của François Chollet
⚫ An Interview with François Chollet
▪ François Chollet, ít thông tin cá nhân
https://research.google.com/pubs/105096.html
https://www.linkedin.com/in/fchollet
Công bố không nhiều
trier.de/pers/hd/c/Chollet:Fran=ccedil=ois
▪ Hạng Kaggle cao nhất đạt được: 17th toàn cầu
▪ AI và học sâu của Google
▪ Tác giả: (i) Keras: khung học sâu Python hàng
đầu nguồn mở: Google Scholar Cited 1060, (ii)
Sách "Deep Learning with Python“
▪ https://www.datacamp.com/community/blog/int
erview-francois-chollet
▪ https://www.datacamp.com/community/tutorials
/deep-learning-python
▪ [Chollet18] François Chollet. Deep Learning
with Python. Manning, 2018
83
https://www.kaggle.com/rankings
Học sâu: Hạn chế [Chollet18]
⚫ Giới thiệu
▪ Hạn chế của học sâu
▪ Học sâu suốt đời: Một chủ đề nghiên cứu thời sự
⚫ Học sâu và hạn chế
▪ Học sâu “vô hạn” ứng dụng
▪ nhiều ứng dụng ngoài tầm học sâu dù có rất nhiều ví dụ mẫu
▪ X={mô tả sản phẩm phần mềm do một người quản lý viết}
▪ Y={mã nguồn đáp ứng mô tả do một đội viết}
▪ Cho 105 (106) cặp (x, y) XY. Không thể sinh một mô hình học
sâu ánh xạ X → Y
▪ Giải thích: học xâu = chuỗi các phép biến đổi hình học đơn giản
và liên tục: X → Y (hai không gian vector) ngầm định dãy biến
đổi liên tục từ X sang Y.
▪ Một mô hình học sâu là một chương trình song hầu hết chương
trình không thể biểu diễn bằng mô hình học sâu
▪ Chồng lấp mô hình chỉ giảm thiểu mà không giải quyết
84
https://blog.keras.io/the-limitations-of-deep-learning.html
Hạn chế học sâu: ví dụ 1
⚫ Rủi ro nhân cách hóa mô hình học máy
▪ anthropomorphizing
▪ Nhận dạng ảnh: chỉ một thay đổi nhỏ cho kết quả khác biệt
▪ Giải thích: mô hình học sâu không hiểu gì về đầu vào như con người
▪ Con người hiểu biết về hình ảnh, âm thanh, ngôn ngữ
85
[Chollet18] François Chollet. Deep Learning with Python. Manning, 2018
“Cậu bé đang cầm cây gậy
bóng chày”
phân loại ảnh gấu trúc thành vượn
Hạn chế học sâu: Ảnh mờ trong gương
⚫ Lưu ý chuyên gia học máy
▪ Tránh rơi vào bẫy miền tin “mạng nơ-ron hiểu được bài toán cần làm”
▪ Thực hiện nhiệm vụ hẹp hơn so với mong muốn con người
▪ Dữ liệu khác ví dụ học: mạng nơ-ron phá vỡ một cách vô lý
86
[Chollet18] François Chollet. Deep Learning with Python. Manning, 2018
Thế giới thực
Trải nghiệm
con người
Tóm tắt khái
niệm vào tâm
trí người
Dữ liệu có
nhãn minh
hoạ khái niệm
Mô hình
học máy
Không phải lúc nào
cũng chuyển tốt tới thế
giới thực
Không khớp với mô
hình tâm trí người
dẫn xuất
Khớp với dữ
liệu học
Học sâu khác biệt với người học
⚫ Khái quát hóa cục bộ khái quát hóa tới cực
▪ Học sâu: biến dạng hình học đơn giản từ đầu vào tới đầu ra.
Khái quát hóa cục bộ (local generalization)
▪ “Con” người học: qua trải nghiệm bản thân thay vì được trình
diễn qua ví dụ học
▪ Năng lực cao > ánh xạ kích thích trực tiếp để đáp ứng trực tiếp
▪ Duy trì các mô hình phức tạp, tóm tắt các mô hình cho tình
huống hiện thời, dùng mô hình cho tương lai
▪ Khái quát hóa “cận biên” (extreme generalization)
87
[Chollet18] François Chollet. Deep Learning with Python. Manning, 2018
Tương lai học sâu: suy đoán [Chollet18]
⚫ Mô hình như là một chương trình máy tính
▪ Từ khái quát hóa cục bộ tới khái quát hóa cận biên (lập luận
và trừu tượng hóa)
▪ Hiện tại: thành phần học của hệ thống chỉ xảy ra ở mô đun
chuyên dụng. Tương lai: hệ thống học đầy đủ, không có sự
tham gia của con người
88
[Chollet18] François Chollet. Deep Learning with Python. Manning, 2018
geometric primitives
algorithmic primitives
Truyền ngược, phân biệt và học tự động
⚫ Vượt qua tầng lan truyền ngược, sự phân biệt
▪ “Chương trình” mô hình vẫn sử dụng chương trình con hình học
(phân biệt) song toàn bộ chương trình là không phân biệt
▪ Lan truyền ngược là cách thức không nên chọn
▪ Không phân biệt toàn bộ song phân biệt cục bộ
⚫ Học máy tự động
▪ Tương lai: học kiến trúc mô hình
▪ Tìm kiếm kiến trúc phù hợp dựa trên học tăng cường và học di
truyền
▪ Học kiến trúc mô hình đồng thời với trọng số mô hình
▪ Thay thế công việc của kỹ sư học máy → kỹ sư học máy hướng
mô hình tới mục tiêu kinh doanh, mô hình tác động tới hệ sinh
thái kỹ thuật số
89
[Chollet18] François Chollet. Deep Learning with Python. Manning, 2018
Học sâu suốt đời: tái sử dụng mô-đun
90
[Chollet18] François Chollet. Deep Learning with Python. Manning, 2018
▪ Chương trình con thuật toán (Algorithmic subroutine): tri thức
mức miền, được tổ chức vào thư viện
▪ Chương trình con hình học (Geometric subroutine): tri thức mức
dữ liệu cụ thể liên quan tới thuật toán học sâu
Học sâu suốt đời
⚫ Nhận diện thực thể
▪ Lei Shu, Hu Xu, Bing Liu. Lifelong Learning CRF for Supervised Aspect
Extraction. ACL (2) 2017:148-154. Học suốt đời nhận diện thực thể
▪ Lei Shu, Bing Liu, Hu Xu, Annice Kim. Lifelong-RL: Lifelong Relaxation
Labeling for Separating Entities and Aspects in Opinion Targets.
EMNLP 2016: 225-235. Học suốt đời nhận diện thực thể
▪ Chen Tessler, Shahar Givony, Tom Zahavy, Daniel J. Mankowitz, Shie
Mannor. A Deep Hierarchical Approach to Lifelong Learning in
Minecraft. AAAI 2017: 1553-1561. Học sâu dữ liệu ảnh
⚫ Học sâu suốt đời phân lớp đa nhãn
▪ Lei Shu, Hu Xu, Bing Liu. DOC: Deep Open Classification of Text
Documents. EMNLP 2017: 2911-2916. Học sâu
▪ Geli Fei, Shuai Wang, Bing Liu. Learning Cumulatively to Become More
Knowledgeable. KDD 2016: 1565-1574. Phân lớp sâu suốt đời = học
tích lũy + học sâu (trên)
▪ Quang-Thuy Ha, Thi-Ngan Pham, Van-Quang Nguyen, Thi-Cham
Nguyen, Thi-Hong Vuong, Minh-Tuoi Tran and Tri-Thanh Nguyen. A
New Lifelong Topic Modeling Method and Its Application to Vietnamese
Text Multi-label Classification. ACIIDS 2018 (in press). Phân lớp đa
nhãn dựa trên mô hình chủ đề suốt đời.
91
Một dự án học sâu suốt đời
92
⚫ Giới thiệu
▪ Do Eric Eaton chủ trì, được AFRL và DARPA tài trợ
▪ https://www.grasp.upenn.edu/projects/lifelong-deep-
learning
▪ Xem [Isele17]
Học sâu suốt đời
⚫ Một vài tham khảo khác
▪ David Isele. Thesis Proposal: Representations for Continuous Learning.
Proceedings of the Thirty-First AAAI Conference on Artificial
Intelligence (AAAI-17).
https://www.grasp.upenn.edu/people/david-isele
https://www.grasp.upenn.edu/labs/lifelong-machine-learning
▪ Simon Stiebellehner, Jun Wang, Shuai Yuan. Learning Continuous
User Representations through Hybrid Filtering with doc2vec.
arXiv:1801.00215.
▪ Andrei A. Rusu, Neil C. Rabinowitz, Guillaume Desjardins, Hubert
Soyer, James Kirkpatrick, Koray Kavukcuoglu, Razvan Pascanu, Raia
Hadsell. Progressive Neural Networks. CoRR abs/1606.04671, 2016
▪ Irina Higgins, Arka Pal, Andrei A. Rusu, Loïc Matthey, Christopher
Burgess, Alexander Pritzel, Matthew Botvinick, Charles Blundell,
Alexander Lerchner. DARLA: Improving Zero-Shot Transfer in
Reinforcement Learning. ICML 2017: 1480-1490
▪ James Kirkpatrick et al. Overcoming catastrophic forgetting in neural
networks. CoRR abs/1612.00796, 2016.
▪ v.v.
93
GIỚI THIỆU VỀ HỌC MÁY THẾ GIỚI MỞ
94
Tài liệu nghiên cứu
⚫ [Chen18] Zhiyuan Chen, Bing Liu. Lifelong
Machine Learning (2nd edittion). Morgan &
Claypool, 2018
▪ CHAPTER 5. Open-World Learning
▪ [Bendale15] Abhijit Bendale and Terrance E Boult. Towards open world
recognition. IEEE Conference on Computer Vision and Pattern
Recognition, pages 1893–1902, 2015.
▪ [Fei16] Geli Fei and Bing Liu. Breaking the closed world assumption in
text classification. NAACL-HLT, pages 506–514, 2016.
▪ [Fei16a] Geli Fei, Shuai Wang, Bing Liu. Learning Cumulatively to
Become More Knowledgeable. KDD 2016: 1565-1574.
▪ [Shu17] Lei Shu, Hu Xu, Bing Liu. DOC: Deep Open Classification of
Text Documents. EMNLP 2017: 2911-2916.
▪ Lei Shu, Hu Xu, Bing Liu. Unseen Class Discovery in Open-world
Classification. CoRR abs/1801.05609, 2018
▪ CHAPTER 8. Continuous Knowledge Learning in Chatbots
▪ [Mazumder18] Sahisnu Mazumder, Nianzu Ma, and Bing Liu. Towards
a continuous knowledge learning engine for chatbots.
ArXiv:1802.06024, 2018
95
Ví dụ minh họa 1: Người máy chào hỏi
⚫ Người máy chào đón khách hàng ở cửa ra-vào
▪ Với mỗi khách hàng quen: Có ảnh, tên khách hàng, thông tin
khác và mô hình đoán nhận khách hàng từ ảnh
▪ Một khách hàng tới cửa ra –vào. Người máy chụp ảnh, sử dụng
mô hình đoán nhận khách hàng để biết tên khách hàng.
⚫ Tiếp cận học máy thế giới đóng
▪ Số lớp = số lượng khách hàng quen + 01 “lớp chưa biết”
▪ Khách quen: phát hiện, chào hỏi theo tên
▪ Khách lạ: phân vào lớp chưa biết và đợi người quản lý nạp mô
hình phân lớp mới.
⚫ Tiếp cận học máy thế giới đóng
▪ Số lớp = số lượng khách hàng quen + k “lớp chưa biết”
▪ Khách quen: phát hiện lớp, chào hỏi theo tên
▪ Khách lạ: bổ sung dữ liệu về khách như chụp thêm ảnh nhận
diện, đàm thoại với khách hàng hoặc người quản lý để biết tên
và các thông tin khác về khách hàng. Chào hỏi theo tên. Xây
dựng mô hình đoán nhận khách hàng theo ảnh.
96
Ví dụ minh họa 2: Chatbot với chủ đề mới
⚫ Đàm thoại chatbot
▪ Chatbot đã nhận biết được một số chủ đề cho trước theo mô
hình phân lớp từ ví dụ học liên quan tới mỗi chủ đề
▪ Khởi động một đàm thoại mới: Sử dụng các mô hình phân lớp
để nhận diện chủ đề của đàm thoại hiện thời
⚫ Tiếp cận thế giới đóng
▪ Người đàm thoại nêu câu đàm thoại, dùng các mô hình phân
lớp phát hiện chủ đề người đàm thoại nêu ra.
▪ Sử dụng cơ sở tri thức cho chủ đề chưa biết: suy luận tuy nhiên
không tự nhiên
⚫ Tiếp cận thế giới mở
▪ Số lớp = số chủ đề đã biết + k lớp “khác đi”
▪ Câu đàm thoại thuộc chủ đề: tiếp tục trợ giúp
▪ Câu đàm thoại không thuộc chủ đề đã biết. Sử dụng Cơ sở tri
thức, đàm thoại người dùng để thêm tri thức dữ kiện.
▪ Xây dựng mô hình phân lớp theo các chủ đề liên quan với đàm
thoại bổ sung.
97
Ví dụ minh họa 3: Xe tự lái trên đường
⚫ Xe tự lái
▪ Muôn màu “vật” có thể gặp trên đường
▪ Có mô hình liên quan tới các kiểu đối tượng “đã biết”
▪ Xuất hiện không ngừng các đối tượng “chưa biết”
⚫ Chỉ có thể tiếp cận thế giới mở
▪ Bài toán rất phức tạp
▪ Ghi nhận dữ liệu đối tượng chưa biết và tương tác để có thêm
thông tin về đối tượng chưa biết
▪ Tương tác: (i) người giám sát, (2) khách hàng, (3) đa tác tử: kết
nối với các xe đang vận hành “láng giềng” bổ sung tri thức về
đối tượng chưa biết
⚫ Qua ba ví dụ
▪ Nhận ra một “cái mới chưa biết” nào đõ xuất hiện
▪ Tự động học để hiểu về “cái mới chưa biết” đó
98
Học thế giới mở
⚫ Định nghĩa
1) Bộ học có một mô hình phân lớp đa lớp FN={f1, f2,..., fN} từ N
tập dữ liệu lớp quá khứ DN= {D1, D2, , DN} với các nhãn lớp
tương ứng YN= {l1, l2, , lN}. thể hiện mới x, FN hoặc gán
nhãn li Y
N hoặc từ chối và đưa x vào tập chưa biết R.
2) Hệ thống/người sử dụng xác định các lớp chưa biết ẩn C trong
R và thu thập dữ liệu học cho các lớp chưa biết
3) Giả sử có k lớp mới đã đủ dữ liệu học, bộ học học gia tăng k
lớp mới theo dữ liệu học. Bộ học cập nhật là (FN+k, DN+k, YN+k).
⚫ Học thế giới mở là một dạng học suốt đời
▪ Bài toán TN+1: xây dựng bộ phân lớp mở đa lớp dựa trên các lớp
đã biết và các lớp mới
▪ Cơ sở tri thức: mọi mô hình thuộc FN+k và mọi dữ liệu thuộc
DN+k.
▪ 3) học gia tăng truyền thống (không từ chối thể hiện lớp chưa
biết) dù có bổ sung lớp mới gia tăng mà không cần học lại toàn
bộ mô hình
99
Học không gian tương tự theo tâm [Fei16]
⚫ Tư tưởng
▪ Học khái niệm mới của con người thông qua các khái niệm
tương tự đã biết
▪ Đã biết {“phim”, “đồ nội thất”, “bóng đá”} cần học khái niệm mới
chưa biết “bóng rổ”. “Bóng rổ” tương tự “bóng đá” và rất khác
biệt “phim” và “đồ nội thất”
▪ Hai bước (1) tìm kiếm tập SC các lớp đã biết tương tự lớp mới
chưa biết lN+1, (2) học phân biệt tách lớp mới chưa biết lN+1 với
các lớp đã biết tương tự trong SC
▪ center-based similarity: tương tự theo tâm
⚫ Giải pháp
▪ (1) Tìm SC: Chạy từng bộ phân lớp nhị phân “1-vs-rest” trong FN
với mỗi xDN+1. Lớp “tương tự” với lớp “mới chưa biết” có một
tỷ lệ đoán nhận các x DN+1 vượt qua một ngưỡng cho trước.
▪ (2) gồm hai nội dung: (i) xây dựng phân lớp nhị phân đoán nhận
lớp N+1 với DN+1 tập ví dụ dương và SCDi là tập ví dụ âm (2)
cập nhật các phân lớp thuộc SC với tập ví dụ dương đã biết còn
tập ví dụ âm là tập ví dụ âm đã biết bổ sung thêm DN+1.
100
Thuật toán học gia tăng CBS khái quát
⚫ N
⚫ H
101
[Fei16] mô tả cụ thể
thuật toán CL-cbsSVM
với “tương tự theo
tâm”
Đánh giá thuật toán học gia tăng CBS
⚫ Nhận biết một ví dụ là chưa biết
▪ Bộ học cập nhật FN+1= {f1, f2, , fN, fN+1}, một thể hiện x, cần xác
định x thuộc một lớp đã biết nào hoặc thuộc một lớp chưa biết.
▪ f1 là các bộ phân lớp nhị phân SVM “1-vs-còn lại” mà điểm đầu
ra SVM khó so sánh
▪ Chuyển điểm đầu ra SVM thành một xác suất P(li|x) theo thuật
toán [Platt99] (có sẵn trong LIBSVM)
⚫ Quyết định
▪ y* : nhãn quyết định cho x
▪ : ngưỡng quyết định, chọn =0.5
▪ Co: “nhãn” lớp mới chưa biết.
102
Các file đính kèm theo tài liệu này:
- bai_giang_nhap_mon_khai_pha_du_lieu_chuong_10_noi_dung_bo_su.pdf