Sự phát triển mạnh mẽ về số lượng và tính phức tạp của dữ liệu của các ứng dụng đã dẫn
đến những thách thức trong việc khai thác dữ liệu và sử dụng các mô hình học máy. Một trong những
thách thức lớn là việc lựa chọn các đặc tính có liên quan từ tập hợp các đặc tính có sẵn ban đầu để cải
thiện tối đa hiệu suất học tập hơn của dữ liệu gốc. Vì vậy việc lựa chọn các đặc tính được trở thành
tiếp cận các nhà nghiên cứu tập trung trong những năm gần đây. Lựa chọn đặc tính cung cấp giải
pháp hiệu quả để giải quyết vấn đề này bằng cách loại bỏ dữ liệu không liên quan và dư thừa, có thể
giảm thời gian tính toán, cải thiện độ chính xác của mô hình máy học. Trong bài báo này, chúng tôi
tập trung nghiên cứu và tổng hợp các phương pháp được sử dụng trong việc lựa chọn các đặc tính bao
gồm Filter, Wrapper và Embedded với các phương thức, thuật toán được sử dụng. Từ đó, tổng hợp và
đánh giá các ưu nhược điểm của từng phương pháp.
7 trang |
Chia sẻ: Thục Anh | Ngày: 11/05/2022 | Lượt xem: 382 | Lượt tải: 0
Nội dung tài liệu Nghiên cứu các kỹ thuật lựa chọn đặc trưng trong tập dữ liệu, để tải tài liệu về máy bạn click vào nút DOWNLOAD ở trên
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC”
Nghiên cứu các kỹ thuật lựa chọn đặc trưng trong tập dữ liệu
Hà Thị Minh Phương1, Phan Thị Quỳnh Hương2
1,2 Trường ĐH Công nghệ Thông tin và Truyền thông Việt-Hàn, Đại học Đà Nẵng
{htmphuong, ptqhuong}@vku.udn.vn
Tóm tắt. Sự phát triển mạnh mẽ về số lượng và tính phức tạp của dữ liệu của các ứng dụng đã dẫn
đến những thách thức trong việc khai thác dữ liệu và sử dụng các mô hình học máy. Một trong những
thách thức lớn là việc lựa chọn các đặc tính có liên quan từ tập hợp các đặc tính có sẵn ban đầu để cải
thiện tối đa hiệu suất học tập hơn của dữ liệu gốc. Vì vậy việc lựa chọn các đặc tính được trở thành
tiếp cận các nhà nghiên cứu tập trung trong những năm gần đây. Lựa chọn đặc tính cung cấp giải
pháp hiệu quả để giải quyết vấn đề này bằng cách loại bỏ dữ liệu không liên quan và dư thừa, có thể
giảm thời gian tính toán, cải thiện độ chính xác của mô hình máy học. Trong bài báo này, chúng tôi
tập trung nghiên cứu và tổng hợp các phương pháp được sử dụng trong việc lựa chọn các đặc tính bao
gồm Filter, Wrapper và Embedded với các phương thức, thuật toán được sử dụng. Từ đó, tổng hợp và
đánh giá các ưu nhược điểm của từng phương pháp.
Từ khóa: lựa chọn đặc tính; filter; wrapper; embedded; hybrid.
Abstract. The rapid growth in quantity and complexity of data of applications has led to challenges in
data mining and the use of machine learning models. One of the major challenges is the selection of
relevant features from the original set of features to maximize the learning performance of the
original data. Thus the selection of features is becoming an approach to focus researchers in recent
years. Feature selection provides an effective solution to this problem by eliminating extraneous and
redundant data, which can reduce computation time, improve the accuracy of the machine learning
model. In this paper, we focus on research and synthesis of the methods used in the selection of
properties including Filter, Wrapper and Embedded with the methods and algorithms used. From
there, synthesize and evaluate the advantages and disadvantages of each method.
Keywords: feature selection, filter, wrapper, embedded, hybrid
1 Đặt vấn đề
Hiện nay, các ứng dụng đã tạo ra lượng dữ liệu khổng lồ như video, ảnh, văn bản, giọng nói và dữ liệu
thu được từ các ứng dụng mạng xã hội và từ điện toán đám mây. Những dữ liệu này thường phức tạp có
các đặc điểm của kích thước đa chiều, chứa những dữ liệu nhiễu, dư thừa hoặc thiếu các thuộc tính tạo ra
thách thức đối với việc phân tích dữ liệu và ra quyết định. Để giải quyết vấn đề này, feature selection – kỹ
thuật lựa chọn các đặc tính được nghiên cứu và trở thành một phần trong giai đoạn tiền xử lý. Feature
selection (FS) được sử dụng để loại bỏ những dữ liệu dư thừa để nâng cao hiệu quả xử lý. Trong FS, một
tập hợp con các đặc tính được chọn từ tập hợp các đặc tính ban đầu dựa trên tính dư thừa. Dựa trên mức
độ liên quan và các tính năng thừa, Yu và Liu [7] đã phân loại tập hợp con đặc trưng thành bốn loại bao
gồm:1) Noisy và irrelevant; 2) Redundant và Weakly relevant; 3) Weakly relevant và Non-redundant; 4)
Strongly relevant. Lựa chọn các đặc tính sẽ giảm thiểu các thuộc tính nhiễu, không liên quan và dư thừa
nâng cao hiệu quả dự đoán cho các mô hình máy học.
Các phương pháp FS được phân thành ba loại, dựa trên sự tương tác với mô hình học máy như phương
pháp Filter, Wrapper và Embedded. Trong Filter, các đặc tính được chọn dựa trên các phương pháp thống
kê. Nó độc lập với thuật toán học và cần ít thời gian tính toán hơn. Một số các phương thức đo lường
thống kê được sử dụng trong Filter bao gồm Information gain, Chi-square test, Fisher score, correlation
coef-ficient, và variance threshold. Wrapper sử dụng các kỹ thuật máy học để đánh giá tập con các thuộc
tính theo tiêu chuẩn tương ứng. Hiệu suất của Wrapper phụ thuộc vào các thuật toán phân loại. Tập hợp
204
Hà Thị Minh Phương, Phan Thị Quỳnh Hương
con tốt nhất của các đặc tính được chọn dựa trên kết quả của thuật toán phân loại. Về mặt tính toán, các
phương pháp Wrapper yêu cầu tính toán phức tạp hơn các Filter, do các bước học tập lặp lại và xác nhận
chéo. Tuy nhiên, các phương pháp này chính xác hơn Filter. Một số thuật toán được sử dụng trong Wrap-
per là Recursive feature elimination [6], Sequential feature selection algorithms [1], and Genetic algo-
rithms. Cách tiếp cận thứ ba là phương pháp Embedded sử dụng phương pháp học tập kết hợp và phương
pháp lai để lựa chọn đặc tính, giải pháp lựa chọn đặc tính ra đời để giải quyết bài toán trên. Lựa chọn đặc
tính có các ưu điểm bao gồm giúp cho thuật toán máy học huấn luyện nhanh hơn, giảm độ phức tạp của
mô hình và làm cho mô hình dễ biên dịch, cải thiện độ chính xác của mô hình với tập dữ liệu được chọn.
Bài báo sẽ nghiên cứu một số phương pháp lựa chọn đặc tính: phương pháp Filter, Wrapper và Em-
bedded. Mô hình lựa chọn các đặc tính, các kỹ thuật và phương thức của mỗi phương pháp sẽ được trình
bày. Phần 2 trình bày về quy trình lựa chọn các đặc trưng. Nội dung kỹ thuật lựa chọn các đặc tính trong
kỹ thuật máy học sẽ được trình bày ở phần 3. Kết luận sẽ được trình bày trong phần 4.
2 Quy trình lựa chọn các đặc trưng
Các nghiên cứu đã chỉ ra được kỹ thuật lựa chọn các đặc tính có thể nâng cao hiệu quả của dự đoán và
tính chính xác đối với các kỹ thuật máy học. Kỹ thuật lựa chọn các đặc tính đóng vai trò quan trọng trọng
trong việc giảm thiểu độ phức tạp tính toán, dung lượng và giá thành [8]. Hình 1 trình bày về quy trình
lựa chọn các đặc trưng trong tập dữ liệu gồm 4 giai đoạn: lựa chọn các kỹ thuật tìm kiếm, xác định chiến
lược tìm kiếm, đánh giá tập dữ liệu con trên các tiêu chuẩn, tiêu chuẩn dừng lựa chọn đặc tính.
Hình 1. Quy trình lựa chọn các đặc trưng
2.1 Lựa chọn các kỹ thuật tìm kiếm
Anget al. [9] nêu ra giai đoạn đầu tiên trong của quy trình lựa chọn đặc trưng là tìm các kỹ thuật tìm kiếm
các tập con. Các kỹ thuật tìm kiếm được phân loại thành forward search, backward search, và random
search. Quy trình tìm kiếm bắt đầu với một tập rỗng để các đặc tính mới được thêm vào trong mỗi vòng
lặp gọi là forward search. Ngược với forward search, backward search bắt đầu với tập dữ liệu với đầy đủ
các đặc tính và các đặc tính sẽ được loại bỏ cho đến khi đạt được tập dữ liệu con tối ưu. Một các tiếp cận
khác là random search xây dựng tập con các thuộc tính bằng cách thêm và loại bỏ các đặc tính tại mỗi
vòng lặp. Sau khi lựa chọn các kỹ thuật tìm kiếm các đặc tính, chiến lược tìm kiếm sẽ được áp dụng tại
giai đoạn 2.
1.Xác định hướng
tìm kiếm
2. Xác định chiến
lược tìm kiếm
3. Xác định tiêu chí
tiến hóa
5. Xác nhận kết quả
cuối cùng
4.Dừng tiêu
chí
Dữ liệu ban đầu
Dữ liệu ban đầu
Đặc trưng
Sai Đúng
Tập con đặc
trưng được
chọn
205
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC”
2.2 Xác định chiến lược tìm kiếm
Từ tài liệu, các chiến lược tìm kiếm có thể là tìm kiếm ngẫu nhiên - randomized, tìm kiếm theo cấp số
nhân - exponential và tìm kiếm tuần tự - sequential. Bảng 1 liệt kê các chiến lược tìm kiếm khác nhau và
các thuật toán của chúng. Một chiến lược tìm kiếm tốt cần có được giải pháp tối ưu, khả năng tìm kiếm
cục bộ và hiệu quả tính toán [11]. Dựa trên những yêu cầu tìm kiếm này các thuật toán được phân loại
thêm là lựa chọn tính năng tối ưu và dưới mức tối ưu thuật toán.
Bảng 1. Chiến lược tìm kiếm và các phương thức
Chiến lược tìm kiếm Các phương thức
Exponential search · Exhaustive search
Sequential search · Sequential Forward Selection (SFS)
· Sequential Backward Selection (SBS)
· Sequential Forward Floating Selection (SFFS)
· Sequential Backward Floating Selection
(SBFS)
· Best first search
· Beam search
· Plus, L Take-away r Algorithm (PTA)
Random search · Simulated annealing
· Random hill-climbing
· Genetic Algorithm (GA)
· Las Vegas Algorithm
· Tabu search
· Ant Colony Optimization (ACO)
· Chaotic simulated annealing
· Noisy, chaotic simulated annealing
· Branch-and-bound
· Particle Swarm Optimization (PSO)
2.3 Tiêu chuẩn đánh giá
Các đặc tính tối ưu nhất được lựa chọn dựa trên các tiêu chuẩn đánh giá. Dựa trên các phương thức đánh
giá kỹ thuật lựa chọn các đặc tính [12] được phân loại thành Filter, Wrapper, Embedded và Hybrid.
2.4 Tiêu chuẩn dừng lựa chọn đặc tính
Các tiêu chuẩn việc lựa chọn quy định quy trình lựa chọn đặc trưng dừng khi đạt được tập con đặc trưng
tối ưu. Các tiêu chuẩn dừng việc lựa chọn đặc trưng sẽ mang lại hiệu quả với độ tính toán phức tạp thấp
trong việc tìm kiếm các tập con gồm các đặc trưng tối ưu và giải quyết vấn đề over-fitting. Việc lựa chọn
các tiêu chuẩn dừng được ảnh hưởng bởi các giai đoạn thực hiện trước. Một số các tiêu chuẩn dừng bao
gồm:
· Xác định trước các số lượng các đặc tính
· Xác định trước số lần lặp
· Phần trăm (%) tiến bộ giữa 2 vòng lặp liên tiếp
· Dựa vào các hàm đánh giá
2.5 Đánh giá các kết quả
Để đánh giá kết quả của các kỹ thuật lựa chọn các đặc trưng, một số độ đo đánh giá được sử dụng như
Cross-validation, Confusion matrix, Jaccard similarity-based measure, Rand Index. Một số các độ đo
đánh giá cho kỹ thuật phân lớp – classification và phân cụm – clutering bao gồm
206
Hà Thị Minh Phương, Phan Thị Quỳnh Hương
Độ đo dánh giá cho kỹ thuật phân lớp Độ đo đánh giá cho kỹ
thuật phân cụm
Error Rate
TP Rate/ Recall / Sensitivity
Specificity
ROC (Receiver Operating Characteristic) Curve
Precision
F-Score / F-Measure
Davies-Bouldin Index
Dunn Index
F-Measure
Jaccard index
Dice index
Fowlkes-Mallows index
3 Kỹ thuật lựa chọn các đặc trưng dựa trên các tiêu chuẩn đánh giá
Trong phần này, bài báo sẽ trình bày các phương pháp lựa các đặc trưng dựa trên tiêu chuẩn đánh giá.
Dựa trên các tiêu chuẩn đánh giá và làm việc với các kỹ thuật máy học, lựa chọn các đặc trưng được phân
loại thành Filter, Wrapper và Embedded.
3.1 Phương pháp Filter
Chọn lựa đặc tính dựa trên phương pháp filter được mô tả như sau:
Hình 2. Sơ đồ khối phương pháp Filter
Phương pháp Filter dựa trên những đặc tính duy nhất của dữ liệu để đánh giá và chọn ra một tập con
các đặc tính, bằng cách sử dụng các tiêu chí đánh giá được trích rút ra từ tập dữ liệu, như khoảng cách,
thông tin, độ phụ thuộc, tính nhất quán. Cụ thể, phương pháp filter sử đụng tiêu chí điển hình của kỹ thuật
xếp hạng và phương pháp thứ tự xếp hạng cho việc lựa chọn các biến. Lý do của việc sử dụng phương
pháp xếp hạng này là vì tính đơn giản, hiệu quả cao và có thể tìm ra các đặc trưng phù hợp, đồng thời loại
bỏ các đặc trưng không phù hợp trước khi thực hiện quá trình phân loại.
Phương pháp Filter thường được dùng như bước tiền xử lý dữ liệu. Quá trình này cũng có tính độc lập
với thuật toán máy học. Các đặc tính được xếp hạng dựa trên các giá trị thống kê, trong đó các giá trị
thống kê này xác định mỗi tương quan giữa các đặc tính với các biến đầu ra.
Có một số ví dụ cho phương pháp filter này: Mutual information(MI), Pearson correction, Chi-square.
· Mutual information(MI)
Tiêu chí xếp hạng lý thuyết thông tin sử dụng thước đo độ phụ thuộc giữa 2 biến. Để mô tả MI ta bắt
đầu với định lý Shannon cho khái niệm entropy như sau:
( ) = −∑ ( ). log ( ) (1)
Phương trình này biểu diễn cho sự không chắc chắn (nội dung thông tin) ở ngõ ra Y. Giả sử ta quan sát
một biến X thì entropy có điều kiện được cho bởi công thức:
( | ) = −∑ ∑ ( , ) log ( | ) (2)
Phương trình trên nghĩa là quan sát biến X, sự không chắc chắn trong thông tin ra Y sẽ giảm. Độ giảm
này bằng:
( , ) = ( ) − ( | ) (3)
Có nghĩa là MI giữa Y và X có mối tương quan như sau: nếu X và Y độc lập thì MI sẽ bằng không và
lớn hớn không nếu X và Y phụ thuộc. Nói một cách khác rằng nếu một biến có thể chứa thông tin về một
biến khác thì gọi là phụ thuộc.
· Pearson correction (PC)
Pearson correction là một thước đo mức độ hai biến ngẫu nhiên X và Y tương quan tuyến tính. PC
được tính bằng một con số có giá trị nằm giữa -1 và 1. Chúng ta sử dụng PC giữa các đặc tính vào và ngõ
Tập
các đặc
tính
Thuật
toán học
Hiệu
suất
Chọn tập
con tốt nhất
207
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC”
ra của mô hình để lựa chọn các đặc tính. Phương pháp thông kê này phù hợp với các bài toán quy hồi
tuyến tính.
Hệ số tương quan Pearson, khi áp dụng cho một tập các sự kiên, được ký hiệu bởi ρ. Với cặp biến ngẫu
nhiên (X,Y), công thức hệ số Pearson là:
( , ) =
( , )
.
(4)
Trong đó cov là hiệu phương sai, σ_X,σ_y lần lượt là độ lệch chuẩn của X và Y.
Công thức trên có thể được biểu diễn dựa trên giá trị trung bình và giá trị kỳ vọng:
( , ) = Ε[( − ). ( − ] (5)
Nên hệ số Pearson được viết lại thành:
( , ) =
[( ).( ]
.
(6)
Trong đó: μ_X,μ_y là giá trị trung bình của X và Y, E là giá trị kỳ vọng.
Hệ số Pearson có giá trị gần không, nghĩa là có rất ít hoặc không có tương quan. Hệ số Pearson có giá
trị gần 1 là độ tương quan dương, và có giá trị gần bằn 0 là có độ tương quan âm.
· Chi-square
Trong thống kê, Chi-square được áp dụng để kiểm mức độ độc lập của hai sự kiện, trong đó nếu hai sự
kiện A và B được định nghĩa là độc lập nếu P(AB)=P(A).P(B), tương đương P(A│B)=P(A) và
P(B│A)=P(B).
Trong lựa chọn đặc tính, hai sự kiện chính là các đặc tính và target. Ta dùng giá trị Chi-square để tìm
đặc tính nào chứa nhiều thông tin đối với mô hình. Ta tính giá trị Chi-square giữa mỗi đặc tính và target.
Đặc tính nào cho giá trị cao là đặc tính tốt. Chi-square được tính:
Χ ( , , ) = ∑ ∑
∈{ , } ∈{ , } (7)
Trong đó , có 2 giá trị là 0 và 1, N là giá trị quan sát trong D, và E là giá trị kỳ vọng.
3.2 Phương pháp Wrapper
Hình 3. Sơ đồ khối phương pháp Wrapper
Trên đây là mô hình sơ đồ khối của phương pháp Wrapper. Phương pháp Wrapper cần một thuật toán
máy học và dùng hiệu suất của thuật toán như là một tiêu chí để đánh giá. Phương pháp này tìm các đặc
tính mà phù hợp nhất với thuật toán máy học với mục đích cải thiện hiệu suất khai thác dữ liệu. Phương
pháp này dùng độ chính xác dự đoán để phân loại đặc tính. Một số ví dụ điển hình của phương pháp
Wrapper này là Forward feature selection, Backward feature elimination, Recursive feature elimination.
- Forward feature selection: Quy trình bắt đầu với một tập hợp các đặc tính trống. Đặc tính tốt nhất sẽ
được chọn và trên vào tập trống sau mỗi lần thực hiện vòng lặp.
- Backward feature elimination: Quy trình bắt đầu với một tập đặc tính đầy đủ của dữ liệu. Sau mỗi
vòng lặp thì sẽ loại bỏ đi các đặc tính xấu nhất.
- Recursive feature elimination: có quy trình tìm kiếm tập con đặc trưng có thể hoạt động tốt nhất.
Phương pháp này tạo ra các vòng lặp thực hiện, và xác định được các đặc tính tốt hoặc xấu nhất. Sau đó,
nó xây dựng các mô hình tiếp theo với các tập đặc tính được chọn cho đến khi không còn đặc tính nào
chưa sử dụng, sau đó các đặc tính sẽ được xếp hạng và loại bỏ dựa trên thứ tự xếp hạng của các đặc tính.
Trong trường hợp xấu nhất, nếu một tập dữ liệu với N đặc tính, thì phương pháp này có thể sẽ thực hiện
tìm kiếm cho 2N tổ hợp các đặc tính.
Tập các
đặc tính
Tạo tập
con
Thuật
toán học
Hiệu suất
Chọn tập con đặc tính tốt nhất
208
Hà Thị Minh Phương, Phan Thị Quỳnh Hương
Phương pháp Filter và Wrapper khác nhau ở một số điểm:
- Trong phương pháp Filter sẽ không bao gồm mô hình máy học để quyết định đặc tính có tính tốt hay
xấu, trong khi đó phương pháp Wrapper có sử dụng mô hình máy học và huấn luyện nó để quyết định đặc
tính đó có cần thiết hay không.
- Phương pháp Filter nhanh hơn nhiều so với phương pháp Wrapper vì Filter không có quá trình huấn
luyện mô hình. Nói một cách khác, phương pháp Wrapper có tính toán phức tạp, nếu làm việc với tập dư
liệu lớn thì phương pháp Wrapper sẽ không còn hiệu quả nữa.
- Trong trường hợp không đủ dữ liệu để mô hình hóa sự tương quan thống kê của các đặc tính thì
phương pháp Filter sẽ không còn hiệu quả, nhưng phương pháp Wrapper vẫn sẽ tìm được tập con dữ liệu
phù hợp.
- Việc sử dụng các đặc tính trong phương pháp Wrapper trong mô hình máy học sau cùng có thể dẫn
đến hiện tường overfitting vì phương pháp Wrapper đã huấn huyện các mô hình máy học với các đặc tính
và có ảnh hưởng đến việc học của mô hình. Trong khi đó, các đặc tính từ phương pháp Filter sẽ không
gây ra hiện tượng overfitting trong hầu hết các trường hợp.
3.3 Phương pháp Embedded
Các mô hình Embedded [2], [4], lựa chọn các đặc tính trong quá trình huấn luyện các mô hình máy học
và kết quả là tập các đặc tính được tự động trích xuất khi quá trình huấn luyện dừng lại. Phương pháp
Embedded khắc phục được sự phức tạp trong tính toán. Trong phương pháp này, việc lựa chọn đặc tính
thích hợp và học mô hình được thực hiện đồng thời, và các đặc tính sẽ được chọn trong giai đoạn huấn
luyện mô hình. Do đó, chi phí tính toán của phương pháp này ít hơn so với phương pháp Wrapper.
Phương pháp này tránh việc đào tạo mô hình mỗi khi một lựa chọn đặc tính mới đã khám phá . Mohsenza
deh et al. [3] vào năm 2013 đã đề xuất một thuật toán Relevant Sample-Feature Machine (RSFM)
(RSFM) dựa trên thuật toán máy học sparse Bayesian. RSFM là một phần mở rộng của thuật toán Rele-
vance Vector Machine (RVM) [5]; nó là một phương pháp học tập dựa trên phương pháp sparse kernel
based . Mirzaei [2] vào năm 2017 đã đề xuất một phương pháp Embedded FS được gọi là Variational
RSFM thường được gọi là VRSFM dựa trên mô hình Bayes của RSFM [3]. Phương pháp lựa chọn đặc
tính được đề xuất được sử dụng cho cả phân loại cũng như hồi quy. Nó định nghĩa phương pháp Gaussian
trước đây phân phối trên các tham số của mô hình và các siêu tham số của nó. Thuật toán hoạt động tốt
cho tập dữ liệu kích thước nhỏ.
3.4 So sánh 3 phương pháp
Một số điểm mạnh và yếu của mỗi phương pháp được trình bày trong bảng 2. Dựa vào các ưu nhược
điểm của các phương pháp cũng như đối với mỗi tập dữ liệu gốc, phương pháp lựa chọn các đặc trưng
được sử dụng để đạt được một tập con các đặc tính tối ưu.
Bảng 2. Ưu nhược điểm của các phương pháp
Các phương pháp Ưu điểm Nhược điểm
Phương pháp
Filter
Hiệu quả
Độc lập với thuật toán học,
Tính toán nhanh hơn phương pháp
Wrapper và Embedded,
Thích hợp với dữ liệu số chiều thấp
Không xem xét mối tương quan giữa các bộ phân
loại.
Không xem xét tương quan giữa các đặc trưng.
Không nhận dạng được đúng mẫu trong giai đoạn
học.
Phương pháp
Wrapper
Xem xét mối tương quan giữa các
đặc tính và nhãn lớp, đồng thời xem
xét độ phụ thuộc giữa các đặc tính,
Chính xác hơn phương pháp Filter.
Tính toán phức tạp
Lặp lại nhiều lần đánh giá các tập con đặc tính
được chọn.
Một số đặc tính không được đánh giá khi đã bị
loại bỏ ở các vòng lặp đầu.
Gây ra overfitting
Phương pháp
Embedded
Tính toán hiệu quả hơn phương pháp
Wrapper
Chính xác hơn phương pháp Filter và
Wrapper
Không thích hợp cho dữ liệu số chiều cao
Tính tổng quát thấp
Giá thành cao hơn phương pháp Filter.
209
KỶ YẾU HỘI THẢO KHOA HỌC QUỐC GIA CITA 2020 “CNTT VÀ ỨNG DỤNG TRONG CÁC LĨNH VỰC”
4 Kết luận
Trong bài báo này, chúng tôi đã cung cấp giới thiệu về các kỹ thuật lựa chọn đặc trưng từ đó trích xuất
được một tập con tối ưu từ đó giảm được độ phức tạp và thời gian tính toán, nâng cao hiệu quả của các
thuật toán trong các mô hình máy học. Từ các quan sát, kỹ thuật filter có ưu điểm tính toán nhanh hơn so
với các kỹ thuật còn lại nhưng độ chính xác thấp hơn. Wrapper có độ chính xác cao hơn Filter đòi hỏi tính
phức tạp trong tính toán. Kỹ thuật Embedded chính xác cao nhưng không thích hợp với dữ liệu có số
chiều cao.
Các kỹ thuật lựa chọn đặc trưng cho thấy rằng nhiều thông tin hơn không phải lúc nào cũng tốt trong
các ứng dụng học máy. Không có thuật toán nào là tối ưu cho tất cả các tập dữ liệu mà ta chỉ có thể áp
dụng các thuật toán khác nhau cho tập dữ liệu và từ các kết quả hiệu suất mô hình để chọn một kết quả
cuối cùng thuật toán lựa chọn đặc tính tối ưu nhất. Một thuật toán lựa chọn đặc tính có thể được chọn dựa
trên những điều sau cân nhắc: tính đơn giản, tính ổn định, số lượng đặc tính giảm, độ chính xác của phân
loại, yêu cầu lưu trữ và tính toán.
References
1. Anil Jain and Douglas Zongker. Feature selection: Evaluation, application, and small sample performance. IEEE
transactions on pattern analysis and machine intelligence, 19(2):153–158, 1997.
2. Ali Mirzaei, Yalda Mohsenzadeh, and Hamid Sheikhzadeh. Variational relevant sample-feature machine: a fully
bayesian approach for embedded feature selection. Neurocomputing, 241:181–190, 2017.
3. Yalda Mohsenzadeh, Hamid Sheikhzadeh, Ali M Reza, NajmehsadatBathaee, and Mahdi M Kalayeh. The rele-
vance sample-feature machine: A sparse bayesian learning approach to joint feature-sample selection. IEEE
Transactions on Cybernetics, 43(6):2241–2254, 2013.
4. Yalda Mohsenzadeh, Hamid Sheikhzadeh, Ali M Reza, Najmehsadat Bathaee, and Mahdi M Kalayeh. The rele-
vance sample-feature machine: A sparse bayesian learning approach to joint feature-sample selection. IEEE
Transactions on Cybernetics, 43(6):2241–2254, 2013
5. Michael E Tipping. Sparse bayesian learning and the relevance vector machine. Journal of machine learning re-
search, 1(Jun):211–244, 2001.
6. Ke Yan and David Zhang. Feature selection an d analysis on correlated gas sensor data with recursive feature
elimination. Sensors and Actuators B: Chemical, 212:353–363, 2015.
7. Lei Yu and Huan Liu. Efficient feature selection via analysis of relevance and redundancy. Journal of machine
learning research, 5(Oct):1205–1224, 2004.
8. Gutkin, M., R. Shamir, G.Dr or. SlimPLS: A Method for Feature Selection in Gene Expression-Based Disease
Classification. – PLoS One, Vol. 4, July 2009, No 7, p. e6416
9. Ang, J. C.,A. Mirzal, H. Haron, H. N. A. Hamed. Supervised, Unsupervised, and SemiSupervised Feature Selec-
tion: A Review on Gene Selection. – IEEE/ACM Trans. Comput. Biol. Bioinforma., Vol. 13, September 2016,
No 5, pp. 971 -989.
10. Bins, J., B.A.Draper. Feature Selection from Huge Feature Sets. – In: Proc. ofIEEE Int. Conf. Comput. Vis., Vol.
2, 2001, pp. 159-165
11. Gheyas, I. A., L.S. Smith. Feature Subset Selection in Large Dimensionality Domains. – Pattern Recognit, Vol.
43, January 2010, No 1, pp. 5-13.
12. Dash, M., H. L i u. Feature Selection for Classification. – Intell. Data Anal., Vol. 1, January 1997, No 1 -4, pp.
131 -156
210
Các file đính kèm theo tài liệu này:
- nghien_cuu_cac_ky_thuat_lua_chon_dac_trung_trong_tap_du_lieu.pdf