Lompat ke konten Lompat ke sidebar Lompat ke footer

Pengertian dan Jenis-jenis Distance Metric pada Machine Learning

Distance metric memainkan peranan penting pada machine learning. Metode ini menyediakan dasar untuk beberapa algoritma populer seperti K-nearest neighbor untuk jenis supervised learning dan k-means clustering untuk jenis unspervised learning. Distance metric pada dasarnya digunakan untuk meningkatkan kinerja algoritma yang bersifat similarity-based (berbasis kemiripan).

Di artikel ini kita akan membahas apa itu Distance metric dan apa saja jenis-jenisnya.

Daftar Isi

Pengertian Distance Metric

Distance metric atau metrik jarak adalah metode yang digunakan untuk mengukur kesamaan dan kedekatan antara dua titik data.

Saat menilai seberapa mirip dua titik data, kita perlu acuan untuk dapat membandingkannya. Distance metric memungkinkan kita untuk menghitung secara numerik seberapa mirip dua titik dengan menghitung jarak di antara keduanya.

Kenapa kita butuh distance metric di machine learning?

Alasan kita harus mempelajari hal ini adalah karena distance metric ini digunakan di beberapa algoritma populer seperti algoritma K-Nearest Neighbors Classification, algoritma K-Means Clustering, atau Self-Organising Maps (SOM). Beberapa algoritma kernel seperti Support Vector Machine juga biasanya menggunakan perhitungan yang dapat dianggap sebagai 'perhitungan distance metric’.

Karena itu, penting untuk memahami logika di balik setiap distance metric untuk mengetahui kapan kita harus menggunakannya. Karena hal ini dapat berdampak besar pada hasil algoritma atau model yang kita gunakan.

Masing-masing jenis distance metric tentunya memiliki keunggulan dan kelemahan dalam menghitung jarak antara dua atau lebih titik data, tergantung pada jenis data yang kita miliki dan algoritma yang kita gunakan.

Jadi ada baiknya untuk memiliki pemahaman dasar tentang apa yang diwakili setiap metrik dan bagaimana masing-masing distance metric melakukan kalkulasi jarak.

Jenis-Jenis Distance Metric

Adapun beberapa jenis distance metric yang populer, di antaranya  Euclidean Distance, Hamming Distance, Manhattan Distance, dan Minkowski Distance.

Pengertian dan Jenis-jenis Distance Metric Pada Machine Learning

Euclidean Distance

Euclidean distance atau jarak Euclidean adalah metrik jarak ukur antara dua vektor dengan menghitung akar kuadrat dari jumlah selisih kuadrat antara keduanya. Perhitungan ini mirip seperti yang digunakan pada teorema Pythagoras. Karena alasan ini, Euclidean distance biasa juga disebut sebagai Pythagorean Distance.

Kita kemungkinan besar akan menggunakan Euclidean Distance saat menghitung jarak antara dua baris data yang memiliki nilai numerik, berupa bilangan desimal atau bilangan bulat.

Jika kolom memiliki nilai dengan skala yang berbeda, biasanya dilakukan normalisasi atau standarisasi nilai numerik di semua kolom sebelum menghitung jarak Euclidean. Jika tidak, kolom yang memiliki nilai besar akan mendominasi ukuran jarak.

Berikut adalah rumus umum dari Euclidean Distance:

rumus euclidean distance

Hamming Distance

Hamming Distance atau jarak Hamming adalah metrik jarak ukur untuk membandingkan dua vektor biner, utamanya binary string atau bitstring. Saat membandingkan dua bitstring dengan panjang yang sama, jumlah perbedaan bit antara dua bitstring ini dikalkulasi menghasilkan nilai jarak Hamming (Hamming Distance)

Jarak Hamming antara dua string, a dan b dilambangkan sebagai d(a,b).

Metrik ini sering digunakan untuk deteksi kesalahan atau koreksi kesalahan ketika data dikirimkan melalui jaringan komputer. Juga digunakan dalam teori pengkodean untuk membandingkan data kata yang sama panjang.

Berikut adalah rumus umum dari Hamming Distance

rumus hamming distance

Manhattan Distance

Manhattan distance atau jarak Manhattan sering juga disebut Taxicab distance atau City Block distance. Manhattan distance adalah metrik ukur yang umumnya digunakan untuk menghitung jarak antara dua titik data dalam jalur seperti grid. 

Jarak Manhattan dihitung sebagai jumlah dari perbedaan mutlak antara dua vektor. Adapun rumus dari Manhattan distance adalah:

rumus hamming distance

Minkowski Distance

Minkowski distance adalah metrik ukur yang digunakan untuk menghitung jarak antara dua vektor bernilai bilangan riil. Metrik ini adalah bentuk generalisasi dari Euclidean dan Manhattan distance dengan tambahan parameter yang disebut “order” atau p, yang memungkinkan pengukuran jarak yang berbeda untuk dihitung.

Perhitungan Minkowski distance adalah sebagai berikut:

rumus minkowski distance

Dimana  “p” adalah parameter order

Ketika p diatur ke 1, perhitungannya sama dengan jarak Manhattan. Ketika p diatur ke 2, akan sama dengan jarak Euclidean.

  • p=1: jarak Manhattan.
  • p=2: Jarak Euclidean.

Penutup

Demikianlah penjelasan singkat mengenai pengertian dan jenis-jenis distance metric pada machine learning. Semoga bermanfaat.

Anda bisa mengunjungi rubrik Machine Learning apabila tertarik dengan artikel serupa mengenai algoritma dan istilah-istilah yang ada pada machine learning.

Selamat belajar.

Salam!

Trivusi
Trivusi Ikatlah ilmu dengan menulis. Menebar manfaat dengan berbagi :)

Posting Komentar untuk "Pengertian dan Jenis-jenis Distance Metric pada Machine Learning"