Pengertian dan Contoh Algoritma Naive Bayes Classifier

Algoritma Naive Bayes Classifier merupakan salah satu algoritma machine learning yang banyak digunakan untuk tugas klasifikasi.

Daftar Isi

Pengertian Naive Bayes Classifier

Naive Bayes Classifier adalah sekumpulan algoritma yang didasarkan pada Teorema Bayes. Dengan kata lain, algoritma ini bukan algoritma tunggal melainkan satu grup algoritma dimana masing-masing memiliki prinsip kerja yang mirip.

Pengertian dan Contoh Algoritma Naive Bayes Classifier

Algoritma ini bekerja berdasarkan prinsip probabilitas bersyarat, seperti yang diberikan oleh Teorema Bayes.

Teorema Bayes menemukan probabilitas atau kemungkinan suatu peristiwa akan terjadi dengan memberikan probabilitas peristiwa lain yang telah terjadi.

Dalam istilah yang lebih sederhana, Teorema Bayes adalah metode untuk menemukan probabilitas ketika kita mengetahui probabilitas tertentu lainnya.

Teorema Bayes dinyatakan secara matematis dalam persamaan berikut:

$RUmus teorema bayes$

Dimana P(B) != 0

Pada dasarnya, kita mencoba mencari peluang kejadian A, apabila kejadian B bernilai benar. Kejadian B juga disebut sebagai bukti.
P(A) adalah apriori dari A (probabilitas sebelumnya, yaitu probabilitas peristiwa sebelum bukti terlihat). Bukti adalah nilai atribut dari instance yang tidak diketahui (peristiwa B).
P(A|B) adalah probabilitas posteriori dari B, yaitu probabilitas kejadian setelah bukti terlihat.

Ciri utama dari algoritma Naive Bayes Classifier adalah adanya asumsi yg sangat kuat (naif) akan independensi dari masing-masing kondisi / kejadian.

Contoh Cara Kerja Algoritma Naive Bayes Classifier

Untuk memudahkan penjelasan, kita akan mengambil contoh kasus. Misalkan kita memiliki dataset yang ditunjukkan oleh tabel di bawah.

No	Outlook	Temperature	Humidity	Windy	Play Golf
0	Rainy	Hot	High	FALSE	No
1	Rainy	Hot	High	TRUE	No
2	Overcast	Hot	High	FALSE	Yes
3	Sunny	Mild	High	FALSE	Yes
4	Sunny	Cool	Normal	FALSE	Yes
5	Sunny	Cool	Normal	TRUE	No
6	Overcast	Cool	Normal	TRUE	Yes
7	Rainy	Mild	High	FALSE	No

Tabel di atas menggambarkan kondisi cuaca untuk bermain golf. Dengan mempertimbangkan kondisi cuaca, setiap tuple mengklasifikasikan keputusan untuk bermain golf atau tidak.

Dataset di atas dibagi menjadi dua bagian, yaitu matriks fitur dan vektor respons.

Matriks fitur berisi semua vektor (baris) dari dataset di mana setiap vektor terdiri dari nilai fitur dependen. Dalam dataset di atas, fitur-fiturnya adalah 'Outlook', 'Temperature', 'Humidity' dan 'Windy'.
Vektor respons berisi nilai variabel kelas (prediksi atau keluaran) untuk setiap baris matriks fitur. Dalam dataset di atas, nama variabel kelas adalah ‘Play golf’'.

Dengan menggunakan formula naive bayes, probabilitas masing-masing fitur dependen dapat dihitung.

Sumber: geeksforgeeks.org

Pada gambar di atas, kita telah menghitung masing-masing fitur dependen secara manual pada tabel 1-4. Misalnya, peluang bermain golf jika suhunya dingin, yaitu P(temp. = cool | play golf = Yes) = 3/9.

Juga kita perlu mencari peluang kelas (P(y)) yang telah dihitung pada tabel 5. Misalnya, P(Play golf = Yes) = 9/14.

Dengan menghitung semua peluang, maka model klasifikasi untuk Naive Bayes Classifier sudah siap.

Kita dapat melakukan pengujian dengan menerapkan beberapa kondisi tertentu untuk mengetahui probabilitas bermain golf apakah yes atau no.

Contoh kita ingin tahu apakah kita bisa bermain golf dengan kondisi yang berikut:

$today=(Sunny,Hot,Normal,False)$

Kita dapat menghitung peluang bermain golf dengan persamaan

$P(Yes|today)=\frac{P(SunnyOutlook|Yes)P(HotTemperature|Yes)P(NormalHumidity|Yes)P(NoWind|Yes)P(Yes)}{P(today)}$

Kemudian peluang tidak bermain golf adalah

$P(No|today)=\frac{P(SunnyOutlook|No)P(HotTemperature|No)P(NormalHumidity|No)P(NoWind|No)P(No)}{P(today)}$

Karena, variabel pembagi P(today) identik di kedua persamaan, kita dapat mengabaikan P(today) dan menemukan probabilitas proporsional dengan persamaan:

$P(Yes|today)\propto\frac{2}{9}\times\frac{2}{9}\times\frac{6}{9}\times\frac{6}{9}\times\frac{9}{14}\approx 0.0141$

dan

$P(No|today)\propto\frac{3}{5}\times\frac{2}{5}\times\frac{1}{5}\times\frac{2}{5}\times\frac{5}{14}\approx 0.0068$

Mengingat jumlah peluang kejadian harus bernilai 1, maka

$P(Yes|today)+P(No|today)=1$

Kita dapat melakukan normalisasi dengan persamaan berikut:

$P(Yes|today)'=\frac{P(Yes|today))}{P(Yes|today)+P(No|today)}=\frac{0.0141}{0.0141+0.0068}=0.67$

dan

$P(No|today)'=\frac{P(No|today))}{P(Yes|today)+P(No|today)}=\frac{0.0068}{0.0141+0.0068}=0.33$

Kemudian kita bandingkan antara kedua probabilitas tersebut.

$P(Yes|today)'>P(No|today)'$

Karena probabilitas p(yes|today) lebih besar daripada p(no|today) maka dengan kondisi cuaca yang diberikan, maka prediksi klasifikasinya adalah ‘Yes’

Penerapan Algoritma Naive Bayes Classifier

Naive Bayes Classifier banyak digunakan pada tugas klasifikasi seperti:

Pengenalan wajah
Sebagai algoritma klasifikasi, Naive Bayes Classifier dapat digunakan untuk mengidentifikasi wajah atau fitur lainnya, seperti hidung, mulut, mata, dll.
Prediksi cuaca
Algoritma ini dapat digunakan untuk memprediksi apakah cuaca akan baik atau buruk.
Diagnosa medis
Dokter dan profesional kesehatan dapat menggunakan Naive Bayes untuk mendiagnosis apakah pasien berisiko tinggi untuk penyakit dan kondisi tertentu, seperti penyakit jantung, kanker, dan penyakit lainnya.
Klasifikasi berita
Dengan bantuan Naive Bayes, Google News dapat mengenali apakah sebuah berita bersifat politik, berita dunia, dan sebagainya.

Keunggulan Algoritma Naive Bayes Classifier

Adapun keunggulan dari algoritma Naive Bayes Classifier adalah sbb:

sederhana dan mudah diterapkan
tidak membutuhkan banyak data pelatihan
menangani data kontinu dan diskrit
sangat skalabel dengan jumlah prediktor dan titik data
cepat dan dapat digunakan untuk membuat prediksi realtime
tidak sensitif terhadap fitur yang tidak relevan

Penutup

Sebagai kesimpulan, algoritma Naive Bayes Classifier sangat direkomendasikan digunakan untuk tugas-tugas klasifikasi pada machine learning karena kesederhanaanya dalam melakukan prediksi berdasarkan pada probabilitas dari fitur-fitur yang ada.

Demikianlah penjelasan mengenai algoritma Naive Bayes. Semoga bermanfaat.

Apabila Anda suka dengan artikel serupa, Anda bisa mengunjungi rubrik Machine Learning atau membaca artikel lainnya mengenai algoritma Decision Tree.

Salam!

Referensi

Trivusi