Principal Component Analysis (PCA): Pengertian dan Kegunaannya

Dalam dunia digital yang maju, kita sering dihadapkan pada dataset yang besar dan kompleks. Namun, mengolah data dengan dimensi tinggi dan fitur yang berkorelasi bisa menjadi sulit.

Algoritma Principal Component Analysis atau PCA hadir sebagai solusi yang efektif untuk mengatasi masalah ini.

Principal Component Analysis (PCA): Pengertian dan Kegunaannya

Di artikel ini kita akan menjelajahi lebih lengkap mengenai apa itu algoritma PCA, prinsip kerjanya, serta kelebihan dan kelemahan algoritma ini. Yuk, kita simak penjelasannya di bawah!

Daftar Isi

Apa itu Algoritma PCA?

PCA (Principal Component Analysis) merupakan jenis algoritma machine learning unsupervised yang berfungsi untuk reduksi dimensi (jumlah fitur) dalam sebuah dataset sambil tetap mempertahankan informasi sebanyak mungkin.

Metode reduksi dimensi umumnya berguna untuk mengurangi kompleksitas dataset berukuran besar. Melalui transformasi variabel-variabel yang saling terkait menjadi satu set yang lebih kecil, PCA mempertahankan sebagian besar informasi yang terkandung dalam dataset awal.

Hal ini dilakukan dengan menemukan sekumpulan fitur baru yang disebut komponen, yang merupakan gabungan dari fitur-fitur asli yang saling tidak berkorelasi.

Dengan memiliki dataset yang lebih kecil, eksplorasi dan visualisasi menjadi lebih mudah, serta mempercepat analisis titik data oleh algoritma machine learning tanpa harus memproses variabel yang tidak relevan.

Algoritma PCA didasarkan pada beberapa konsep matematika, antara lain:

Varians dan Kovarians
Nilai-nilai Eigen dan Faktor-faktor Eigen

Algoritma ini pertama kali diperkenalkan oleh matematikawan Karl Pearson pada tahun 1901. PCA bekerja dengan prinsip bahwa ketika data dalam ruang berdimensi tinggi dipetakan ke dalam ruang berdimensi rendah, varians data dalam ruang berdimensi rendah harus maksimum.

Algoritma ini sangat populer dalam eksplorasi data dan dalam pembuatan model prediksi dalam machine learning. Selain itu, PCA juga sering digunakan dalam berbagai aplikasi kecerdasan buatan seperti visi komputer dan kompresi gambar.

Dalam beberapa kasus, PCA juga dapat membantu dalam menemukan pola tersembunyi ketika data memiliki dimensi yang tinggi. Beberapa bidang yang menggunakan PCA meliputi keuangan, data mining, dan psikologi.

Istilah pada Algoritma PCA

Beberapa istilah umum yang digunakan dalam algoritma PCA:

Dimensi, yaitu jumlah fitur atau variabel yang ada dalam dataset yang diberikan. Lebih mudahnya, ini adalah jumlah kolom yang ada dalam dataset.
Korelasi, yaitu istilah yang menunjukkan seberapa kuat dua variabel saling berhubungan. Misalnya, jika satu berubah, variabel lain juga berubah. Nilai korelasi berkisar dari -1 hingga +1. Di sini, -1 terjadi jika variabel saling terbalik proporsional, dan +1 menunjukkan bahwa variabel saling berbanding lurus.
Orthogonal, yaitu istilah yang menggambarkan bahwa variabel-variabel tidak saling berkorelasi, dan korelasi antara pasangan variabel adalah nol.
Vektor Eigen, yakni jika terdapat matriks persegi M, dan diberikan vektor non-nol v. Maka v akan menjadi vektor eigen jika Av merupakan kelipatan skalar dari v.
Matriks Kovarian (CovMatrix), yakni matriks yang berisi kovarian antara pasangan variabel pada dataset.

Langkah-langkah pada Algoritma PCA

Berikut adalah langkah-langkah pada algoritma PCA:

Membagi dataset: Pertama-tama, kita perlu memperoleh dataset input dan membaginya menjadi dua bagian, yaitu X dan Y.
X sebagai dataset training dan Y sebagai dataset validation.
Merepresentasikan data: Kemudian, dataset akan direpresentasikan dalam bentuk struktur. Kita akan menggunakan matriks dua dimensi untuk menyimpan variabel independen X. Setiap baris dalam matriks ini mewakili sebuah item data, sedangkan setiap kolom mewakili fitur-fitur. Jumlah kolom matriks menunjukkan dimensi dari dataset.
Standarisasi data: Pada langkah ini, dataset kita akan di-standarisasi. Artinya, pada setiap kolom, fitur-fitur dengan varian yang tinggi akan memiliki bobot yang lebih besar dibandingkan dengan fitur-fitur yang memiliki varian yang lebih rendah.
Menghitung Matriks Kovarian (CovMatrix): Untuk menghitung kovarian dari matriks standarisasi Z (pada langkah 3), kita akan mentranspos Z dan mengalikannya dengan Z. Hasilnya akan menjadi matriks kovarian dari Z.
Menghitung Nilai dan Vektor Eigen: Selanjutnya, kita akan menghitung nilai-nilai eigen dan vektor-vektor eigen dari matriks kovarian Z. Vektor-vektor eigen mewakili arah sumbu yang mengandung informasi yang penting, sedangkan nilai-nilai eigen adalah koefisien untuk vektor-vektor tersebut.
Mengurutkan Vektor Eigen: Pada tahap ini, nilai-nilai eigen akan diurutkan secara menurun, dari yang terbesar hingga terkecil. Secara bersamaan, vektor-vektor eigen juga akan diurutkan sesuai dengan urutan nilai eigen tersebut. Hasilnya akan menjadi matriks P*.
Menghitung fitur-fitur baru: Di sini, kita akan mengalikan matriks P* dengan matriks Z untuk menghasilkan matriks baru Z*. Setiap kolom dalam matriks Z* akan mewakili kombinasi linear dari fitur-fitur asli. Fitur-fitur ini saling independen satu sama lain.
Menghapus fitur-fitur yang kurang penting: Terakhir, kita akan memutuskan fitur-fitur mana yang akan disimpan dan mana yang akan dihapus dari dataset baru. Fitur-fitur yang dianggap kurang penting akan dihilangkan, sementara fitur-fitur yang dianggap penting akan tetap dipertahankan.

Kelebihan Algoritma PCA

Kelebihan dari algoritma PCA dapat dijabarkan sebagai berikut:

Reduksi Dimensi
PCA adalah teknik yang populer digunakan untuk reduksi dimensi, yaitu proses mengurangi jumlah variabel dalam sebuah dataset. Dengan mengurangi jumlah variabel, PCA menyederhanakan analisis data, meningkatkan performa, dan memudahkan visualisasi data.
Seleksi Fitur
PCA dapat digunakan untuk seleksi fitur, yaitu proses pemilihan variabel yang paling penting dalam sebuah dataset. Hal ini berguna dalam machine learning, di mana jumlah variabel bisa sangat banyak dan sulit untuk mengidentifikasi variabel yang paling penting.
Visualisasi Data
PCA dapat digunakan untuk visualisasi data. Dengan mengurangi jumlah variabel, PCA dapat memetakan data berdimensi tinggi menjadi dua atau tiga dimensi, sehingga memudahkan interpretasi.
Multikolinearitas
PCA dapat digunakan untuk mengatasi masalah multikolinearitas, yang merupakan masalah umum dalam analisis regresi di mana dua atau lebih variabel independen saling berkorelasi tinggi. PCA dapat membantu mengidentifikasi struktur yang mendasari dalam data dan menciptakan variabel baru yang tidak saling berkorelasi untuk digunakan dalam model regresi.
Pengurangan Noise
PCA dapat digunakan untuk mengurangi noise dalam data. Dengan menghapus komponen utama dengan varian rendah yang diasumsikan mewakili noise, PCA dapat meningkatkan rasio sinyal-ke-noise dan memudahkan identifikasi struktur yang mendasari dalam data.
Kompresi Data
PCA dapat digunakan untuk kompresi data. Dengan merepresentasikan data menggunakan jumlah komponen utama yang lebih sedikit namun tetap menggambarkan sebagian besar variasi dalam data, PCA dapat mengurangi kebutuhan penyimpanan dan mempercepat pemrosesan.

Kelemahan Algoritma PCA

Berikut adalah beberapa kelemahan yang dimiliki algoritma PCA:

Interpretasi
Komponen utama yang dihasilkan oleh PCA adalah kombinasi linear dari variabel asli, dan seringkali sulit untuk menginterpretasikan komponen-komponen tersebut dalam konteks variabel asli. Hal ini dapat membuat penjelasan hasil PCA menjadi sulit bagi orang lain.
Skala Data
PCA sensitif terhadap skala data. Jika data tidak diubah skala dengan benar, maka PCA mungkin tidak berfungsi dengan baik. Oleh karena itu, penting untuk mengubah skala data sebelum menerapkan PCA.
Kehilangan Informasi
PCA dapat menyebabkan kehilangan informasi. Meskipun PCA mengurangi jumlah variabel, hal ini juga dapat mengakibatkan kehilangan informasi. Tingkat kehilangan informasi tergantung pada jumlah komponen utama yang dipilih. Oleh karena itu, penting untuk memilih jumlah komponen utama dengan hati-hati.
Hubungan Non-linear
PCA mengasumsikan bahwa hubungan antar variabel bersifat linear. Namun, jika terdapat hubungan non-linear antar variabel, PCA mungkin tidak bekerja dengan baik.
Kompleksitas Komputasi
Menghitung PCA dapat menjadi proses yang memakan waktu dan sumber daya komputasi, terutama untuk dataset yang besar. Hal ini terutama berlaku jika jumlah variabel dalam dataset tersebut banyak.
Overfitting
PCA kadang-kadang dapat menyebabkan overfitting, yaitu ketika model terlalu cocok dengan data pelatihan dan kinerjanya buruk pada data baru. Hal ini dapat terjadi jika terlalu banyak komponen utama digunakan atau jika model dilatih dengan dataset yang kecil.

Kesimpulan

PCA adalah algoritma yang digunakan dalam analisis data untuk mengurangi dimensi, memilih fitur penting, dan memvisualisasikan data dengan mengkorelasikan variabel-variabel yang ada. Meskipun memiliki keuntungan seperti mengurangi noise dan kompresi data, PCA juga memiliki batasan seperti interpretasi yang sulit dan risiko overfitting.

Demikianlah penjelasan mengenai algoritma PCA, semoga informasi yang disajikan dapat bermanfaat dan menambah pengetahuan kita.

Apabila Anda suka dengan artikel serupa, Anda dapat mengunjungi rubrik Machine Learning atau membaca artikel lainnya mengenai algoritma Decision Tree.

Referensi:

Trivusi