Decision Tree: Pengertian, Cara Kerja, Kelebihan, dan Kekurangannya

Decision tree merupakan metode supervised learning yang dapat digunakan untuk masalah klasifikasi dan regresi, tetapi kebanyakan dipakai untuk menyelesaikan masalah klasifikasi.

Artikel ini akan membahas seputar algoritma Decision tree, salah satu algoritma machine learning yang cukup populer.

Daftar Isi

Pengertian Algoritma Decision Tree

Decision tree adalah jenis algoritma klasifikasi yang strukturnya mirip seperti sebuah pohon yang memiliki akar, ranting, dan daun. Simpul akar (internal node) mewakili fitur pada dataset, simpul ranting (branch node) mewakili aturan keputusan (decision rule), dan tiap-tiap simpul daun (leaf node) mewakili hasil keluaran. Itulah kenapa algoritma ini disebut Decision tree atau pohon keputusan.

Decision Tree: Pengertian, Cara Kerja, Kelebihan, dan Kekurangannya

Tujuan penggunaan Decision tree adalah untuk membuat training model yang dapat digunakan untuk memprediksi kelas atau nilai variabel target dengan mempelajari aturan keputusan sederhana yang disimpulkan dari data sebelumnya (data training).

Dalam algoritma Decision tree, terdapat 2 node, yakni Decision Node dan Leaf Node.

Decision node digunakan untuk membuat keputusan berdasarkan fitur dari dataset yang diberikan. Node ini memiliki simpul cabang, bisa berupa decision node atau leaf node.
Leaf node digunakan untuk mewakili keluaran hasil keputusan dari simpul induknya (decision node). Node ini tidak memiliki simpul cabang.

Diagram di bawah ini menggambarkan struktur umum dari algoritma Decision tree:

representasi diagram algoritma decision tree

Sumber: javatpoint.com

Jenis-jenis Decision Tree

Jenis-jenis Decision tree didasarkan pada jenis variabel target yang kita miliki. Adapun jenis-jenis decision tree, yaitu:

Categorical variable decision tree: Decision tree yang memiliki variabel target kategori. Misalnya, kategorinya bisa ya atau tidak. Kategori berarti bahwa setiap tahap proses keputusan masuk tepat ke dalam satu kelompok, dan tidak ada di antaranya.
Continuous variable decision tree: Decision tree yang variabel targetnya kontinu. Misalnya, pendapatan individu yang pendapatannya tidak diketahui dapat diprediksi berdasarkan informasi yang tersedia seperti pekerjaan, usia, dan variabel kontinu lainnya.

Cara Kerja Algoritma Decision Tree

Untuk memprediksi kelas dari dataset yang diberikan, algoritma Decision tree dimulai dari simpul akar pohon. Algoritma ini membandingkan nilai atribut root dengan atribut record. Berdasarkan perbandingan tersebut, algoritma menelusuri cabang dan menuju ke simpul berikutnya.

Untuk simpul berikutnya, algoritma kembali membandingkan nilai atribut dengan sub-simpul lainnya dan bergerak menuju simpul yang lebih dalam. Tujuannya untuk melanjutkan proses sampai mencapai simpul daun (node leaf).

Langkah-langkah dari algoritma Decision tree adalah sebagai berikut:

Mulai dari simpul akar, kita misalkan sebagai S, yang berisi dataset lengkap.
Ambil atribut terbaik dalam dataset menggunakan Attribute Selection Measure (ASM). ASM yang bisa digunakan di antaranya Information Gain dan Gini Index
Pisahkan himpunan S menjadi himpunan bagian yang berisi kemungkinan nilai untuk atribut terbaik.
Buat simpul decision tree yang berisi atribut terbaik.
Buat simpul decision tree baru secara rekursif menggunakan himpunan bagian dari kumpulan data yang dibuat pada langkah 3. Lanjutkan proses ini sampai tahap terakhir di mana kita tidak dapat mengklasifikasikan simpul lebih lanjut. Simpul ini yang menjadi simpul akhir atau disebut sebagai simpul daun (leaf node).

Sebagai contoh terdapat beberapa atribut data seperti cuaca (weather), suhu (temperature), kelembaban (humidity) dan angin (wind). Atribut-atribut ini akan menentukan apakah kita bisa bermain atau tidak. Dalam hal ini outputnya adalah yes atau no.

Sumber: medium.com

Berikut adalah representasi Decision tree untuk melakukan proses klasifikasi

Sumber: medium.com

Kelebihan Decision Tree

Mudah dipahami karena mengikuti proses yang sama seperti cara manusia saat membuat keputusan dalam kehidupan nyata.
Sangat berguna untuk memecahkan masalah terkait keputusan.
Membantu untuk memikirkan semua kemungkinan hasil untuk suatu masalah.
Data cleaning cenderung lebih sedikit dibandingkan dengan algoritma lain.

Kekurangan Decision Tree

Mengandung banyak layer yang membuat algoritma ini cukup rumit.
Dapat terjadi masalah overfitting, namun dapat diselesaikan dengan menggunakan algoritma Random Forest.
Untuk label kelas yang cenderung banyak, kompleksitas komputasi dari Decision tree dapat meningkat.

Penutup

Demikianlah penjelasan mengenai algoritma Decision tree, mulai dari pengertian, jenis-jenisnya, cara kerja, beserta kelebihan dan kekurangannya.

Semoga informasi yang dibagikan dapat bermanfaat.

Apabila tertarik dengan artikel serupa, Anda bisa mengunjungi rubrik Machine Learning atau membaca artikel lainnya mengenai algoritma K-Nearest Neighbor yang juga menarik untuk dibaca.

Salam!

Referensi:

Trivusi