Yuk Kenali Apa itu Algoritma K-Nearest Neighbors (KNN)

Dalam dunia machine learning, terdapat beragam algoritma yang digunakan untuk menyelesaikan berbagai masalah, baik itu klasifikasi maupun regresi. Salah satu algoritma yang cukup sederhana namun efektif adalah Algoritma K-Nearest Neighbor atau KNN.

Artikel ini akan membahas pengertian KNN, karakteristiknya, dan bagaimana algoritma ini digunakan dalam pengambilan keputusan.

Daftar Isi

Pengertian K-Nearest Neighbor (KNN)

KNN adalah singkatan dari K-Nearest Neighbor, sebuah algoritma machine learning yang bekerja berdasarkan prinsip bahwa objek yang mirip cenderung berada dalam jarak yang dekat satu sama lain. Dengan kata lain, data yang memiliki karakteristik serupa akan cenderung saling bertetangga dalam ruang fitur (feature space).

Algoritma K-Nearest Neighbor (KNN) juga memiliki karakteristik sebagai algoritma yang bersifat non-parametric dan lazy learning. Apa itu? Mari kita jabarkan satu per satu.

Yuk Kenali Apa itu Algoritma K-Nearest Neighbors (KNN)

Non-parametric algorithm

Salah satu karakteristik utama KNN adalah sifat non-parametric-nya. Konsep non-parametric dalam KNN menggambarkan sifat algoritma ini yang tidak membuat asumsi tertentu tentang distribusi data yang digunakan.

Dalam kata lain, KNN tidak memiliki parameter tertentu atau estimasi parameter yang harus diatur pada modelnya, terlepas dari seberapa banyak data yang digunakan. Ini menjadikan KNN sebagai algoritma yang sangat fleksibel dan mampu menangani berbagai jenis data.

Lazy learning

KNN juga dikenal juga sebagai algoritma lazy learning. Ini berarti algoritma ini tidak melibatkan fase pelatihan yang signifikan seperti algoritma machine learning lainnya.

Dalam KNN, hampir tidak ada pembentukan model yang dilakukan menggunakan data pelatihan. Sebaliknya, seluruh data pelatihan digunakan saat menguji atau melakukan klasifikasi data baru.

Hal ini membuat proses pelatihan berjalan lebih cepat, tetapi proses pengujian memerlukan lebih banyak waktu dan sumber daya, termasuk penggunaan memori yang lebih besar.

K-Nearest Neighbor termasuk salah satu algoritma paling sederhana yang digunakan dalam machine learning untuk regresi dan klasifikasi. KNN mengikuti strategi “bird of a feather” dalam menentukan di mana data baru sebaiknya ditempatkan.

Prinsip Dasar Algoritma KNN

Prinsip dasar algoritma KNN mengasumsikan bahwa objek yang mirip akan berada dalam jarak yang dekat satu sama lain. Dengan kata lain, data yang memiliki karakteristik serupa akan cenderung terletak berdekatan.

KNN menggunakan seluruh data yang tersedia dalam pengambilan keputusan. Ketika ada data baru yang perlu diklasifikasikan, algoritma mengukur tingkat kemiripan atau fungsi jarak antara data baru tersebut dengan data yang sudah ada. Data baru kemudian ditempatkan dalam kelas yang paling banyak dimiliki oleh data tetangga terdekatnya.

Dalam proses tersebut adalah beberapa hal yang penting untuk disesuaikan agar algoritma KNN bekerja dengan baik, yakni:

Menentukan Metrik Jarak

Poin pertama yang perlu diperhatikan dalam KNN adalah penentuan metrik jarak atau distance metric. Metrik jarak digunakan untuk mengukur seberapa dekat atau jauhnya titik kueri dari titik data lainnya. Metrik ini adalah pondasi utama dalam membentuk batasan keputusan dalam algoritma ini, yang nantinya akan mengarahkan titik kueri ke kelas yang berbeda.

Ada berbagai jenis perhitungan jarak yang dapat digunakan dalam KNN, tergantung pada sifat data dan masalah yang dihadapi. Beberapa di antaranya adalah Euclidean distance, Hamming distance, Manhattan distance, dan Minkowski distance. Pemilihan metrik jarak yang sesuai sangat penting karena dapat memengaruhi hasil akhir dari algoritma KNN.

Mendefinisikan Nilai K

Langkah selanjutnya adalah mendefinisikan nilai K dalam algoritma KNN. Nilai K ini menentukan jumlah tetangga yang akan diambil sebagai pertimbangan dalam menentukan klasifikasi titik kueri tertentu. Sebagai contoh, jika K sama dengan 1, titik tersebut akan diklasifikasikan ke dalam kelas yang sama dengan tetangga terdekatnya.

Pemilihan nilai K merupakan langkah penting karena dapat memengaruhi kinerja algoritma. Nilai K yang rendah dapat menyebabkan overfitting, di mana algoritma sangat sensitif terhadap noise dalam data. Di sisi lain, nilai K yang tinggi dapat menghasilkan model yang terlalu sederhana atau underfitting. Pilihan K harus disesuaikan dengan data yang digunakan, dan seringkali disarankan untuk memilih nilai K yang ganjil untuk menghindari kebingungan dalam klasifikasi.

Strategi cross-validation juga dapat digunakan untuk membantu menentukan nilai K yang optimal untuk dataset tertentu. Dengan menggunakan teknik ini, kita dapat menghindari pemilihan K yang mengakibatkan model yang tidak dapat digeneralisasi dengan baik.

Langkah-langkah Cara Kerja Algoritma K-Nearest Neighbor

Berikut adalah langkah-langkah utama dalam cara kerja algoritma KNN:

1. Pilih nilai k

Langkah pertama adalah memilih nilai K, yang menentukan jumlah tetangga yang akan diperiksa dalam menentukan klasifikasi suatu titik data. Misalnya, jika K sama dengan 3, algoritma akan mempertimbangkan tiga tetangga terdekat.

2. Hitung jarak

Kemudian, algoritma menghitung jarak antara titik data baru yang akan diklasifikasikan dengan semua titik data yang ada dalam set pelatihan. Perhitungan jarak ini dapat menggunakan berbagai metrik, seperti Euclidean distance, Hamming distance, Manhattan distance, dan Minkowski distance, tergantung pada jenis data dan masalah yang dihadapi.

3. Temukan tetangga terdekat

Setelah menghitung jarak, KNN akan mengidentifikasi K tetangga terdekat yang memiliki jarak terpendek dari titik data baru.

4. Tentukan kelas mayoritas

Dari tetangga-tetangga yang telah diidentifikasi, KNN akan menghitung jumlah titik data di setiap kelas atau kategori. Kelas yang memiliki jumlah tetangga terbanyak akan dianggap sebagai klasifikasi untuk titik data baru tersebut.

5. Klasifikasikan titik data baru

Akhirnya, KNN akan memetakan titik data baru ke dalam kelas yang telah ditentukan sebagai mayoritas oleh tetangga-tetangga terdekatnya. Dengan demikian, titik data baru akan mendapatkan label atau kategori yang sesuai.

Penerapan K-Nearest Neighbor

Klasifikasi adalah masalah penting dalam bidang data science dan machine learning. KNN adalah salah satu algoritma tertua namun akurat yang digunakan untuk klasifikasi pola dan model regresi.

Berikut adalah beberapa area di mana algoritma k-nearest neighbor dapat digunakan:

Peringkat kredit: Digunakan untuk menentukan peringkat kredit individu dengan membandingkannya dengan individu yang memiliki karakteristik serupa.
Persetujuan pinjaman: Mengidentifikasi individu yang cenderung gagal membayar pinjaman dengan membandingkan sifat mereka dengan individu serupa.
Preprocessing data: Mengisi nilai yang hilang dalam dataset (missing data imputation) dengan memprediksi nilai-nilai tersebut berdasarkan tetangga terdekat.
Pengenalan pola: Mendeteksi pola dalam data, seperti pola penggunaan kartu kredit atau perilaku pembelian pelanggan.
Prediksi harga saham: Memprediksi nilai saham di masa mendatang berdasarkan data historis.
Sistem rekomendasi: Menyarankan konten atau produk yang sesuai untuk pengguna dengan menganalisis apa yang digemari oleh pengguna serupa.
Visi Komputer: Klasifikasi gambar dengan mengelompokkan objek-objek serupa ke dalam kelas yang berbeda.

Kelebihan dan Kekurangan Algoritma K-Nearest Neighbor (KNN)

Algoritma K-Nearest Neighbor (KNN) adalah salah satu algoritma machine learning yang memiliki keunggulan dan kelemahan tersendiri. Pemilihan KNN sebagai metode yang sesuai sangat tergantung pada jenis proyek dan aplikasinya.

Berikut ini adalah beberapa kelebihan dan kekurangan dari algoritma KNN:

Kelebihan KNN

1. Kemudahan implementasi

KNN dikenal karena kesederhanaannya. Algoritma ini mudah untuk dipahami dan diterapkan, sehingga sangat cocok untuk pemula dalam dunia data science dan machine learning.

2. Kemampuan beradaptasi

KNN dapat dengan mudah menyesuaikan diri dengan perubahan dalam dataset. Ketika sampel pelatihan baru ditambahkan, KNN akan langsung mempertimbangkan data baru ini karena semua data pelatihan disimpan dalam memori.

3. Hyperparameter yang sedikit

KNN hanya memiliki dua hyperparameter utama: nilai K (jumlah tetangga terdekat yang akan diperhitungkan) dan metrik jarak yang digunakan. Hal ini membuat proses penentuan parameter model menjadi lebih sederhana dan kurang kompleks dibandingkan dengan beberapa algoritma lainnya.

Kekurangan KNN

1. Tidak cocok untuk dataset berukuran besar

Salah satu kelemahan utama KNN adalah ketidakcocokannya untuk dataset berukuran besar. Algoritma ini memerlukan perhitungan jarak antara titik baru dengan semua titik dalam dataset, sehingga biaya komputasi menjadi sangat besar dan dapat mengurangi kinerja algoritma secara signifikan pada dataset yang besar.

2. Tidak cocok untuk dimensi tinggi

KNN tidak efektif pada data dengan dimensi tinggi. Ketika jumlah dimensi meningkat, algoritma akan menghadapi masalah perhitungan jarak yang semakin rumit dan memerlukan lebih banyak data untuk melakukan perhitungan yang akurat.

3. Penskalaan fitur diperlukan

Sebelum menerapkan KNN pada dataset, penting untuk melakukan penskalaan fitur. Tanpa penskalaan yang benar (standarisasi dan normalisasi), KNN dapat menghasilkan prediksi yang salah karena beberapa fitur memiliki skala yang dominan.

4. Sensitif terhadap noise, missing value, dan outlier

KNN cenderung sensitif terhadap noise dalam dataset. Ini berarti kita perlu melakukan pemrosesan data yang cermat, termasuk mengatasi nilai yang hilang dan mengidentifikasi serta mengatasi outlier, sebelum menggunakan KNN.

Penutup

Algoritma KNN merupakan algoritma yang sangat mudah diterapkan dan dipahami, tetapi memiliki kelemahan utama yaitu menjadi sangat lambat seiring dengan bertambahnya ukuran data yang digunakan.

Meskipun begitu, algoritma ini patut dipertimbangkan untuk dipelajari dan digunakan oleh pemula di bidang machine learning karena kesederhanaan dan kemudahannya.

Demikianlah penjelasan mengenai algoritma K-Nearest Neighbor. Apabila tertarik mengenai artikel seputar algoritma machine learning seperti ini, sobat bisa memilih rubrik Machine Learning atau mengunjungi artikel sebelumnya mengenai algoritma K-Means Clustering yang juga menarik untuk dibaca.

Salam!

Referensi:

Trivusi