Lompat ke konten Lompat ke sidebar Lompat ke footer

Metode-Metode dalam Feature Selection

Feature selection atau seleksi fitur adalah salah satu teknik penting dan sering digunakan dalam tahap pre-processing. Teknik ini mengurangi jumlah fitur yang terlibat dalam menentukan suatu nilai kelas target. Fitur yang diabaikan biasanya berupa fitur yang tidak relevan dan data berlebih. Tujuan utama dari seleksi fitur ialah memilih fitur terbaik dari suatu kumpulan data fitur.

Pada artikel ini kita akan membahas apa saja metode seleksi fitur yang populer digunakan dalam machine learning. Simak, ya!

Daftar Isi

Metode-Metode Feature Selection

Secara umum, metode feature selection dapat dibagi menjadi tiga kelompok, yakni filter, wrapper, dan embedded selector.

Berikut adalah penjelasan dari masing-masing metode seleksi fitur tersebut.

1. Metode Filter 

Metode filter mengevaluasi setiap fitur secara bebas dari classifier kemudian memberikan peringkat pada fitur setelah mengevaluasi dan mengambil yang unggul. 

Metode filter menerapkan ukuran statistik untuk menetapkan skor untuk setiap fitur. Fitur-fitur tersebut diberi peringkat berdasarkan skor dan dipilih untuk disimpan atau dihapus dari dataset. Metode ini sering bersifat univariat dan mempertimbangkan fitur secara mandiri, atau berkaitan dengan variabel dependen.

Sumber: analyticsvidhya.com

Metode filter bergantung pada keunikan umum dari data yang akan dievaluasi dan memilih subset fitur. Metode filter menggunakan kriteria penilaian yang mencakup jarak, informasi, ketergantungan, dan konsistensi. Metode filter menggunakan kriteria utama teknik pemeringkatan dan menggunakan urutan peringkat untuk pemilihan variabel.

Alasan untuk menggunakan metode pemeringkatan adalah kesederhanaan, menghasilkan fitur yang sangat baik dan relevan. Metode pemeringkatan akan menyaring fitur yang tidak relevan sebelum proses klasifikasi dimulai.

Metode filter umumnya digunakan sebagai langkah preprocessing data. Penentuan dan pemilihan fitur tidak tergantung pada algoritma Machine Learning apa pun. Fitur memberi peringkat berdasarkan skor statistik yang cenderung menentukan korelasi fitur dengan variabel hasil. Korelasi adalah istilah yang sangat kontekstual, dan bervariasi dari satu tugas ke tugas lainnya.

2. Metode Wrapper

Metode wrapper membutuhkan satu jenis algoritma Machine Learning dan menggunakan kinerjanya sebagai kriteria evaluasi. Metode ini mencari fitur yang paling cocok untuk algoritma Machine Learning dan bertujuan untuk meningkatkan kinerja algoritma. Untuk mengevaluasi fitur, akurasi prediktif digunakan pada tugas klasifikasi.

Alur dari metode wrapper dapat dilihat pada gambar berikut:

Sumber: analyticsvidhya.com

Metode wrapper didasarkan pada algoritma pencarian greedy karena metode ini mengevaluasi semua kemungkinan kombinasi fitur dan memilih kombinasi yang menghasilkan hasil terbaik. Kelemahan dari pendekatan ini adalah pengujian semua kemungkinan kombinasi fitur dapat menjadi sangat mahal secara komputasi, terutama jika himpunan fitur sangat besar.

Metode wrapper untuk pemilihan fitur dapat dibagi menjadi tiga kategori: Forward selection, Backward elimination dan Recursive Feature elimination

  • Forward Selection: Metode seleksi berulang yang dimulai dengan fitur kosong pada model. Dalam setiap iterasi atau perulangan, kita menambahkan fitur yang memiliki pengaruh paling signifikan dalam meningkatkan model yang kita miliki. Kemudian dilanjutkan dengan penambahan variabel baru yang tidak meningkatkan kinerja model.
  • Backward Elimination: Berkebalikan dengan metode forward selection, pada metode ini model berisi semua fitur. Kemudian pada setiap iterasi atau perulangan dilakukan penghapusan fitur yang tidak meningkatkan kinerja model secara signifikan. Kita mengulangi proses ini sampai model berisi fitur yang ideal, ditandai dengan tidak ada perubahan yang ditemukan ketika dilakukan penghapusan fitur.
  • Recursive Feature elimination: Metode ini adalah optimasi algoritma greedy yang bertujuan untuk menemukan subset fitur berkinerja terbaik. Pada setiap iterasi, metode ini membangun model yang dimulai dari fitur paling kiri sampai semua fitur selesai dijelajahi. Metode ini mengabaikan fitur berkinerja terbaik atau terburuk di setiap iterasi. Sebaliknya metode ini memberi peringkat fitur berdasarkan urutan eliminasinya.

3. Metode Embedded Selector

Metode embedded selector adalah metode seleksi fitur yang menggabungkan keunggulan metode filter dan metode wrapper. Metode ini diimplementasikan oleh algoritma yang memiliki metode pemilihan fitur bawaannya sendiri.

Sumber: analyticsvidhya.com

Beberapa contoh paling populer dari metode ini adalah regresi Lasso dan ridge yang memiliki fungsi utama untuk mengurangi overfitting.

  • Regresi Lasso melakukan regularisasi L1 yang menambahkan penalti ekuivalen dengan nilai absolut dari besaran koefisien.
  • Regresi Ridge melakukan regularisasi L2 yang menambahkan penalti yang setara dengan kuadrat dari besarnya koefisien.

Perbedaan Metode Filter dan Wrapper

Dalam seleksi fitur, berikut adalah perbedaan antara metode filter dan wrapper:

  • Metode filter mengukur relevansi fitur beserta korelasinya dengan variabel dependen sementara metode wrapper mengukur kegunaan subset fitur dengan melatih model di dalamnya.
  • Metode filter jauh lebih cepat dibandingkan dengan metode wrapper karena tidak melibatkan pelatihan model. Di sisi lain, metode wrapper juga cenderung sangat ‘mahal’ secara komputasi.
  • Metode filter menggunakan metode statistik untuk evaluasi subset fitur sementara metode wrapper menggunakan validasi silang (cross validation).
  • Metode filter dapat terjadi kegagalan dalam menemukan subset fitur terbaik. Sebaliknya metode wrapper selalu dapat memberikan subset fitur terbaik.
  • Menggunakan subset fitur dari metode wrapper membuat model lebih rentan terhadap overfitting dibandingkan dengan menggunakan subset fitur dari metode filter.

Penutup

Sebagai kesimpulan, seleksi fitur adalah upaya pada tahap preprocessing untuk mengurangi fitur yang tidak revelan dan tidak memberikan pengaruh signifikan dalam meningkatkan kinerja model machine learning. Adapun metode yang digunakan secara umum diantaranya metode filter, wrapper, dan embedded selector.

Demikianlah penjelasan mengenai pengertian feature selection dan metode metode yang digunakan. Semoga bermanfaat.

Apabila tertarik dengan artikel serupa, Anda bisa mengunjungi rubrik Machine Learning atau membaca artikel lainnya mengenai “Jenis-jenis atribut dalam data mining”.

Salam!

Trivusi
Trivusi Ikatlah ilmu dengan menulis. Menebar manfaat dengan berbagi :)

Posting Komentar untuk "Metode-Metode dalam Feature Selection"