Lompat ke konten Lompat ke sidebar Lompat ke footer

Data Splitting: Pengertian, Metode, dan Kegunaannya

Data splitting atau pemisahan data adalah metode membagi data menjadi dua bagian atau lebih yang membentuk subhimpunan data. Umumnya, data splitting memisahkan dua bagian, bagian pertama digunakan untuk mengevaluasi atau uji data dan data lainnya digunakan untuk melatih model.

Data Splitting: Pengertian, Metode, dan Kegunaannya

Data splitting merupakan aspek penting dari data science, terutama untuk membuat model berbasis data. Teknik ini membantu memastikan model data yang dibuat sudah akurat dan model dapat digunakan pada proses lanjutan, misalnya machine learning.

Daftar Isi

Metode yang Digunakan pada Data Splitting

Pada dasarnya data splitting dibagi menjadi dua bagian, yakni data training dan data testing.

Data training atau data latih digunakan untuk melatih dan mengembangkan model. Kumpulan data training biasanya digunakan untuk mengestimasikan parameter yang berbeda atau untuk membandingkan kinerja model yang berbeda.

Data testing atau data uji digunakan setelah proses training selesai. Data training dan testing dibandingkan untuk memeriksa apakah model akhir yang digunakan bekerja dengan benar.

Pada machine learning, data biasanya dibagi menjadi tiga bagian atau lebih. Bagian yang ditambah adalah set dev, yang digunakan untuk mengubah parameter proses pembelajaran.

Dalam data splitting, tidak ada pedoman atau metrik yang tetap mengenai bagaimana data harus dibagi. Proses data splitting bisa saja bergantung pada ukuran dataset asli atau jumlah prediktor dalam model prediktif.

Kita dapat memilih untuk memisahkan data secara terpisah berdasarkan metode pengambilan sampel data, seperti tiga metode berikut:

1. Random sampling

Random sampling atau pengambilan sampel secara acak merupakan metode pengambilan sampel data yang menjaga proses pemodelan data dari bias terhadap kemungkinan karakteristik data yang berbeda. Namun, pemisahan secara acak bisa saja terjadi masalah jika terdapat distribusi data yang tidak merata.

2. Stratified random sampling

Stratified random sampling atau pengambilan sampel acak berstrata adalah teknik pengambilan sampel dengan terlebih dahulu membuat populasi menjadi beberapa subpopulasi (lapisan, strata) dan kemudian mengambil sampel dari setiap subpopulasi tersebut.

Metode ini memilih sampel data secara acak dalam parameter tertentu. Hal ini untuk memastikan data didistribusikan dengan benar dalam himpunan data training dan testing.

3. Nonrandom sampling

Non-random sampling adalah metode pengambilan data yang berdasar pada pemilihan suatu karakteristik atau ciri-ciri untuk mendapatkan sampel relevan agar tujuan dari sebuah penelitian dapat tercapai. Pendekatan ini biasanya digunakan ketika kita menginginkan data terbaru sebagai himpunan data uji.

Dengan data splitting, kita tidak harus memilih antara menggunakan data untuk analitik dengan analisis statistik, karena data yang sama dapat digunakan pada proses yang berbeda.

Gambar di bawah ini merupakan contoh pengambilan sampel data yang menggunakan metode random, berbasis probabilitas atau pendekatan non-random.

Sumber: techtarget.com

Fungsi dan Kegunaan Data Splitting

Data splitting banyak diterapkan pada tugas-tugas berikut:

  • Data modelling menggunakan data splitting untuk melatih model. Sebagai contoh pada pengujian regresi, sebuah model dipakai untuk memprediksi respond sistem ketika dioperasikan dengan nilai yang dibuat. Menggunakan sekumpulan nilai, developer perlu memilih sebagian data tersebut untuk bertindak sebagai data latih. Kemudian, membandingkan kembali hasil tersebut dari data uji yang dimasukkan melalui model regresi.
  • Machine learning menggunakan data splitting untuk melatih model. Data latih ditambahkan ke model untuk memperbarui parameter pada fase training. Setelah fase training selesai, data dari sekumpulan data uji diukur terhadap cara model dalam menangani observasi baru.
  • Data splitting juga dipakai pada cryptographic splitting, namun dengan proses yang agak berbeda dari penggunaan data splitting yang disebutkan di atas. Teknik ini digunakan untuk mengamankan data yang melintasi jaringan komputer. Cryptographic splitting dimaksudkan untuk melindungi sistem dari pelanggaran keamanan dengan melibatkan enkripsi data. Adapun cara yang dilakukan adalah dengan membagi data terenkripsi menjadi potongan-potongan yang lebih kecil dan menyimpannya ke lokasi penyimpanan yang berbeda.

Data Splitting pada Machine Learning

Pada machine learning, data splitting biasanya dilakukan untuk menghindari overfitting. Overfitting adalah keadaan dimana model machine learning terlalu cocok dengan data pelatihannya dan gagal untuk menyesuaikan data tambahan dengan andal.

Data asli pada model machine learning biasanya diambil dan dibagi menjadi tiga atau empat bagian. Tiga diantaranya adalah training set, dev set, dan testing set.

  • Training set adalah bagian data yang digunakan untuk melatih model. Model harus mengamati dan belajar dari training set, mengoptimalkan salah satu parameternya.
  • Dev set adalah kumpulan data contoh yang digunakan untuk mengubah parameter proses pembelajaran. Dataset ini juga disebut sebagai cross-validation atau validasi model. Himpunan data ini bertujuan untuk menentukan akurasi model dan membantu dalam pemilihan model.
  • Testing set adalah bagian dari data yang diuji pada model akhir dan dibandingkan pada kumpulan data sebelumnya. Testing set bertindak sebagai evaluasi model dan algoritma akhir.

Data splitting memisahkan dataset dengan jumlah rasio data tertinggi dipakai untuk training. Sebagai contoh, data bisa dipisah menjadi rasio 80-20 atau 70-30 masing-masing untuk training dan testing.

Rasio yang tepat tergantung pada data, namun secara umum rasio training-dev-test 70-20-10 merupakan rasio paling optimal untuk dataset berukuran kecil.

Penutup

Demikianlah penjelasan mengenai pengertian, metode, dan kegunaan data splitting. Semoga informasi yang dipaparkan dapat bermanfaat dan menambah khazanah ilmu pengetahuan kita.

Salam!

Referensi: https://www.techtarget.com/searchenterpriseai/definition/data-splitting

Trivusi
Trivusi Ikatlah ilmu dengan menulis. Menebar manfaat dengan berbagi :)

Posting Komentar untuk "Data Splitting: Pengertian, Metode, dan Kegunaannya"