15+ Sumber Dataset Open Source untuk Visi Komputer

Data latih atau dataset yang memiliki kualitas yang baik biasanya sulit ditemukan. Kita mungkin perlu berhari-hari atau berminggu-minggu untuk menemukan kumpulan data yang sesuai dengan tugas visi komputer.

Pada artikel ini akan memuat kumpulan dataset untuk bidang visi komputer yang berkualitas dan dapat diakses secara gratis.

1. CIFAR-10 & CIFAR-100

CIFAR-10 dan CIFAR-100 diberi label subset dari 80 juta dataset gambar kecil yang dikumpulkan oleh Alex Krizhevsky, Vinod Nair, dan Geoffrey Hinton.

CIFAR-10 berisi 60000 gambar berwarna dengan ukuran 32x32 piksel dengan 10 kelas (binatang dan benda). Terdapat 6000 gambar setiap kelas. Dataset ini memiliki 50000 gambar pelatihan dan 10000 gambar uji. Kelas saling ekslusif, tanpa tumpang tindih.

CIFAR-100 terdiri dari 100 kelas yang masing-masing berisi 60 gambar. Ada 500 gambar pelatihan dan 100 gambar pengujian per kelas.

Link dataset: https://www.cs.toronto.edu/~kriz/cifar.html

2. ImageNet

ImageNet adalah salah satu database gambar paling populer dengan lebih dari 14 juta gambar anotasi.
Database ini diatur menurut hierarki WordNet (saat ini hanya kata benda), di mana ratusan dan ribuan gambar menggambarkan setiap simpul hierarki. Anotasi tingkat objek menyediakan kotak pembatas (bounding box) di sekitar bagian yang terlihat dari objek yang ditunjukkan. Dataset ini mencakup 1000 kelas objek dan berisi 1.281.167 gambar pelatihan, 50.000 gambar validasi, dan 100.000 gambar uji.

Link dataset: https://image-net.org/

3. Kinetics-700

Database ini berisi kumpulan data video yang terdiri dari 650 ribu video yang mencakup 400/600/700 kelas dari tindakan manusia. Contoh tindakan yang dilakukan yakni interaksi manusia-objek seperti memainkan instrumen, manusia-manusia seperti berjabat tangan dan berpelukan. Setiap kelas aksi memiliki setidaknya 400/600/700 video, dan setiap video beranotasi manusia dengan kelas aksi yang berlangsung selama sekitar 10 detik.

Link dataset: https://www.deepmind.com/open-source/kinetics

4. MNIST

MNIST (Modified National Institute of Standards and Technology) merupakan dataset besar yang terdiri dari 60 ribu data latih dan 10 ribu data uji yang tersedia dari NIST. MNIST berisi gambar angka dari tulisan tangan yang biasanya digunakan untuk melatih berbagai sistem pemrosesan gambar

MNIST dirilis pada tahun 1999 dan digunakan untuk tugas klasifikasi. MNIST juga bagus digunakan untuk orang yang ingin mencoba mempelajari teknik dan metode pengenalan pola pada data dunia nyata sambil menghabiskan sedikit upaya untuk prapemrosesan gambar.

Sumber: https://en.wikipedia.org/wiki/MNIST_database

Link dataset: http://yann.lecun.com/exdb/mnist/

5. LSUN

LSUN (Large-scale Scene Understanding) berisi hampir 1 juta gambar berlabel untuk masing-masing dari 10 kategori pemandangan dan 20 kategori objek.

Untuk data pelatihan, setiap kategori berisi dari 120 ribu hingga 300 juta gambar. Data validasi mencakup 300 gambar, dan data uji memiliki 1000 gambar untuk setiap kategori.

Sumber: https://www.yf.io/p/lsun

Link dataset: https://github.com/fyu/lsun

6. IMDB-Wiki

Dataset IMDB-Wiki adalah salah satu kumpulan data wajah manusia yang tersedia untuk umum dengan jenis kelamin, usia, dan nama.

Dataset ini berisi total 523.051 gambar, dengan 460.723 gambar wajah dari 20.284 selebriti dari IMDb dan 62.328 dari Wikipedia.

Sumber: data.vision.ee.ethz.ch

Link dataset: https://data.vision.ee.ethz.ch/cvl/rrothe/imdb-wiki/

7. MS COCO

Dataset MS COCO (Microsoft Common Objects in Context) terdiri dari 328 ribu gambar. Dataset ini berisi anotasi untuk deteksi objek, deteksi titik kunci, segmentasi panoptik, segmentasi gambar barang, captioning, dan estimasi pose manusia.

Link dataset: http://mscoco.org/

8. Labeled Faces in the Wild

Labeled Faces in the Wild merupakan database skala besar dari 13 ribu foto wajah yang dirancang untuk tugas pengenalan wajah. Setiap wajah telah diberi label dengan nama orang tersebut.

Link dataset: https://vis-www.cs.umass.edu/lfw/

9. Cityscapes

Cityscapes adalah database yang berisi beragam rangkaian video stereo yang direkam dalam pemandangan jalanan dari 50 kota berbeda. Gambar diambil dari waktu ke waktu dalam berbagai kondisi cahaya dan cuaca.

Kumpulan data Cityscapes mencakup anotasi semantik, instance-wise, dan piksel padat untuk 30 kelas yang dikelompokkan ke dalam 8 kategori. Ini memberikan anotasi tingkat piksel 5000 bingkai dan 20 ribu bingkai beranotasi kasar.

Link dataset: https://www.cityscapes-dataset.com/

10. LabelMe-12-50k

Dataset ini berisi 50 ribu gambar JPEG (40 ribu untuk data latih dan 10 ribu untuk data uji) dengan 12 kelas. Gambar diambil dari LabelMe dan memiliki ukuran gambar 256x256 piksel.

Kelas termasuk objek seperti mobil, orang, pohon, atau keyboard. 50% dari gambar dalam set pelatihan dan pengujian menunjukkan objek terpusat, sedangkan 50% sisanya menunjukkan wilayah yang dipilih secara acak dari gambar yang dipilih secara acak.

Dataset ini dapat digunakan untuk pengenalan objek.

Link dataset: https://www.ais.uni-bonn.de/download/datasets.html

11. Places

Dataset Places terdiri dari 2,5 juta gambar (dengan label kategori) dan 205 kategori pemandangan. Ada lebih dari 5 ribu gambar per kategori.

Link dataset: http://places.csail.mit.edu/

12. Places2 (365-Standard)

Dataset lain disumbangkan oleh MIT. Ada 1,8 juta gambar dari 365 kategori pemandangan. Dataset berisi 50 gambar per kategori pada kumpulan data validasi dan 900 data pengujian. Places2 dapat digunakan untuk pengenalan aksi dan fitur adegan umum untuk pengenalan visual.

link: http://places2.csail.mit.edu/download.html

13. VisualGenome

VisualGenome merupakan kumpulan data dan basis pengetahuan dengan 108.077 gambar dengan objek beranotasi, atribut, dan hubungannya.

Link dataset: http://visualgenome.org/

14. Stanford Dogs

Dataset ini telah dibangun menggunakan gambar dan anotasi (label kelas, kotak pembatas) dari ImageNet. Ini adalah kumpulan data skala besar yang berisi gambar 120 ras anjing dari seluruh dunia. Ada 20.580 gambar dan 120 kategori.

Link dataset: http://vision.stanford.edu/aditya86/ImageNetDogs/

15. Dataset Kucing

Kumpulan data kucing mencakup lebih dari 9000 gambar kucing dengan fitur wajah beranotasi. Ada anotasi kepala kucing dengan sembilan titik untuk setiap gambar: dua untuk mata, satu untuk mulut, dan enam untuk telinga.

Link dataset: https://www.kaggle.com/datasets/crawford/cat-dataset

16. CelebFaces

CelebFaces Attributes Dataset (CelebA) adalah dataset atribut wajah berskala besar dengan lebih dari 200 ribu gambar selebriti, masing-masing dengan 40 anotasi atribut. Anotasi mencakup 10.177 jumlah identitas unik dan 202 ribu jumlah citra wajah.

Dataset dapat digunakan sebagai data latih dan uji untuk deteksi wajah, pengenalan atribut wajah, pelokalan, dan pelokalan landmark (atau bagian wajah).

Link dataset: http://mmlab.ie.cuhk.edu.hk/projects/CelebA.html

17. Face Mask Detection

Dataset ini berisi 853 gambar dengan 3 kelas serta kotak pembatasnya dalam format VOC PASCAL. Kelas-kelas yang dimaksud seperti “dengan masker”, “tanpa masker” dan “masker dipakai secara tidak benar”.

Link dataset: https://www.kaggle.com/datasets/andrewmvd/face-mask-detection

18. Dataset Api dan Asap

Kumpulan data memiliki lebih dari 7000 gambar unik dalam resolusi HD. Dataset ini terdiri dari gambar api dan asap awal yang diambil menggunakan ponsel dalam skenario dunia nyata. Gambar diambil dalam berbagai kondisi pencahayaan dan cuaca. Dataset ini dapat digunakan untuk pengenalan api dan asap, deteksi, ditambah deteksi anomali.

Dataset ini juga berisi berbagai adegan domestik, termasuk sampah dan pembakaran ladang, serta masakan rumah tangga, dll.

Link dataset: https://www.kaggle.com/datasets/dataclusterlabs/fire-and-smoke-dataset

19. Dataset FloodNet

Dataset FloodNet terdiri dari citra UAS resolusi tinggi dengan anotasi semantik yang mencakup tentang kerusakan yang disebabkan oleh badai.

Data dikumpulkan dengan platform UAS kecil, quadcopters DJI Mavic Pro, setelah badai harvey. Seluruh dataset memiliki 2.343 gambar, dibagi menjadi 60% data latih, 20% data validasi, dan 20% data uji.

Link dataset: https://github.com/BinaLab/FloodNet-Challenge-EARTHVISION2021

Penutup

Demikianlah informasi lengkap mengenai dataset open source untuk bidang visi komputer. Semoga informasi yang disajikan dapat bermanfaat.

Apabila Anda suka dengan artikel seperti ini, jangan lupa kunjungi rubrik Kecerdasan Buatan untuk informasi menarik lainnya.

Salam!

Referensi: https://www.v7labs.com/blog/computer-vision-datasets

Trivusi