Lompat ke konten Lompat ke sidebar Lompat ke footer

Mengenal Lebih Dalam tentang Teknologi Speech Recognition

Pengenalan ucapan atau speech recognition adalah teknologi yang berkembang belakangan ini. Teknologi ini adalah salah satu dari banyak cara orang berkomunikasi dengan komputer tanpa banyak mengetik. 

Berbagai aplikasi bisnis berbasis komunikasi memanfaatkan kenyamanan dan kecepatan komunikasi lisan yang dimungkinkan oleh teknologi ini.

Mengenal Lebih Dalam tentang Teknologi Speech Recognition

Di artikel ini kita akan membahas lebih dalam mengenai speech recognition, cara kerjanya, algoritma yang digunakan, contoh kegunaannya, serta kelebihan dan kekurangan dari speech recognition.

Simak!

Daftar Isi

Pengertian Speech Recognition

Speech recognition atau speech-to-text adalah kemampuan mesin atau program untuk mengidentifikasi kata-kata yang diucapkan oleh manusia dan mengubahnya menjadi teks yang dapat dibaca.

Speech recognition merupakan teknologi perpaduan antara ilmu komputer, linguistik, dan teknik komputer.

Mengenal Lebih Dalam tentang Teknologi Speech Recognition
Sumber: freepik.com

Perangkat lunak untuk speech recognition (pengenalan ucapan) yang belum sempurna memiliki kosakata yang terbatas dan hanya dapat mengidentifikasi kata dan frasa jika diucapkan dengan jelas. Sedangkan program yang lebih canggih dapat menangani ucapan alami, aksen yang berbeda, dan berbagai bahasa.

Saat ini, banyak perangkat seluler memasukkan teknologi speech recognition ke dalam sistem operasi yang memungkinkan pengguna melakukan penelusuran berbasis suara.

Di Android misalnya, Google Assistant dapat dipakai oleh pengguna untuk menanyakan berbagai hal, seperti prakiraan cuaca atau meminta menelepon seseorang tanpa harus menyentuh ponsel sama sekali. Di iOS, ada Siri yang memberikan banyak aksesibilitas seputar SMS.

Perlu diketahui selain speech recognition, ada juga istilah voice recognition. Kedua istilah ini merupakan dua teknologi yang memiliki fungsi yang sedikit berbeda.

Speech recognition (pengenalan ucapan) digunakan untuk mengidentifikasi kata-kata dalam bahasa lisan. Sedangkan voice recognition (pengenalan suara) adalah teknologi biometrik untuk mengidentifikasi suara individu.

Speech recognition berfokus pada terjemahan ucapan dari format verbal ke teks sedangkan voice recognition hanya berusaha mengidentifikasi pengguna berdasarkan suaranya.

Cara Kerja Teknologi Speech Recognition

Teknologi pengenalan ucapan mengubah suara yang direkam oleh mikrofon menjadi bahasa tertulis yang dapat dipahami oleh komputer dan manusia, umumnya mengikuti 4 prosedur berikut:

  • menganalisis audio
  • memecah audio menjadi beberapa bagian
  • mendigitalkan audio ke dalam format yang dapat dibaca komputer
  • menggunakan algoritma untuk mencocokkan audio dengan representasi teks yang paling sesuai

Program pengenalan ucapan atau speech recognition harus mampu beradaptasi dengan sifat ucapan manusia yang sangat bervariasi dan memiliki konteks yang spesifik.

Program yang memproses dan mengatur audio menjadi teks perlu dilatih pada pola bicara, gaya bicara, bahasa, dialek, aksen, dan frasa yang berbeda. Program ini juga harus dapat memisahkan audio yang diucapkan dari kebisingan latar belakang yang sering menyertai sinyal suara.

Untuk memenuhi persyaratan tersebut, sistem pengenalan ucapan (speech recognition) menggunakan dua jenis model, yakni:

  • Acoustic Model. Yakni model yang mewakili hubungan antara unit linguistik ucapan dan sinyal audio.
  • Language Model. Pada language model, suara dicocokkan dengan urutan kata untuk membedakan antara kata-kata yang terdengar mirip. Gunanya agar kata yang dihasilkan sesuai dengan konteks pembicaraan.

Algoritma Speech Recognition

Speech recognition adalah proses decoding ucapan manusia menjadi teks yang ditranskripsi melalui program komputer. 

Untuk mengenali kata-kata yang diucapkan, program harus menyalin sinyal suara yang masuk ke dalam format digital, yang kemudian dibandingkan dengan database sinyal digital berskala besar dari kata-kata yang diucapkan.

Algoritma Speech Recognition
Sumber: freepik.com

Sistem speech recognition menggunakan algoritma komputer untuk memproses dan menafsirkan kata-kata yang diucapkan dan mengubahnya menjadi teks.

Berbagai algoritma dan teknik komputasi digunakan untuk mengenali ucapan ke dalam teks dan meningkatkan akurasi dari proses transkripsi (penerjemahan sinyal suara ke tulisan). 

Berikut adalah penjelasan singkat dari beberapa metode yang paling umum digunakan:

1. Natural Language Processing (NLP)

NLP adalah sub-bidang kecerdasan buatan yang berfokus pada interaksi antara manusia dan mesin melalui bahasa (ucapan dan teks).

Meskipun NLP bukan merupakan algoritma khusus yang digunakan dalam sistem speech recognition, namun NLP memudahkan dan mempercepat proses pengenalan ucapan.

2. Hidden Markov Model (HMM)

Hidden Markov Model dibangun di atas Markov chain model, yang menetapkan bahwa probabilitas keadaan tertentu bergantung pada keadaan saat ini, bukan keadaan sebelumnya. Markov chain model berguna untuk peristiwa yang dapat diamati, seperti misalnya input teks.

Algoritma HMM memungkinkan kita untuk menggabungkan peristiwa tersembunyi, seperti tag part-of-speech, ke dalam model probabilistik. Algoritma ini digunakan sebagai model urutan dalam pengenalan suara dengan menetapkan label ke setiap unit—seperti kata, suku kata, kalimat, dll.—dalam bentuk urutan. Label ini membuat pemetaan dengan input yang disediakan, memungkinkan algoritma dalam menentukan urutan label yang paling tepat.

3. N-gram

N-Gram adalah jenis model bahasa atau Language Model (LM) paling sederhana, yang memberikan probabilitas pada kalimat atau frasa. N-gram adalah urutan N-kata. Misalnya, "pesan pizza" adalah digram atau 2 gram dan "silakan pesan pizza" adalah 3 gram. Tata bahasa dan kemungkinan urutan kata tertentu digunakan untuk meningkatkan pengenalan dan akurasi.

4. Neural Network

Neural Network atau jaringan saraf tiruan banyak dimanfaatkan pada Deep Learning.

Jaringan saraf memproses data training dengan meniru interkonektivitas otak manusia melalui lapisan node. Setiap node terdiri dari input, bobot, bias (atau ambang batas) dan output. Jika nilai output itu melebihi ambang batas yang diberikan, maka node akan aktif, dan meneruskan data ke lapisan berikutnya dalam jaringan.

Neural Network menggunakan tata bahasa, struktur, sintaksis, dan komposisi sinyal audio dan suara untuk memproses ucapan.

5. Speaker Diarization (SD)

Algoritma Speaker Diarization mengidentifikasi dan mengelompokkan ucapan berdasarkan identitas pembicara. Hal ini membantu program membedakan individu dalam percakapan dengan lebih baik. Metode ini sering diterapkan di layanan call center yang membedakan pelanggan dan agen CS.

Contoh Penerapan Teknologi Speech Recognition

Sebagian besar industri saat ini memanfaatkan berbagai aplikasi teknologi speech recognition, membantu bisnis dan konsumen menghemat waktu dan bahkan nyawa. Beberapa contoh di antaranya

1. Otomotif

Speech recognition meningkatkan keselamatan pengemudi dengan mengaktifkan sistem navigasi melalui suara. Pengemudi dapat menggunakan kontrol suara untuk komunikasi hands-free (lepas genggam), mengendalikan telepon, radio, dan GPS.

2. Teknologi mobile

Sekarang banyak smartphone menggunakan perintah suara untuk perutean panggilan, pemrosesan ucapan-ke-teks, panggilan suara, dan pencarian berbasis suara. 

Pengguna dapat menanggapi teks, misalnya SMS atau chat WhatsApp tanpa melihat perangkat smartphone. Di Apple iPhone contohnya, pengenalan suara memberi akses pada keyboard dan Siri, asisten virtual untuk dapat menulis pesan balasan via suara pengguna.

Contoh Speech Recognition pada Apple Siri
Sumber: thesiliconreview.com

Pengenalan ucapan juga dapat ditemukan pada aplikasi pengolah kata seperti Microsoft Word dan Google Docs, di mana pengguna dapat mendiktekan kata untuk diubah menjadi teks.

3. Pendidikan.

Perangkat lunak pengenalan suara (speech recognition) juga digunakan dalam pengajaran bahasa, contohnya aplikasi DuoLingo.

Contoh Speech Recognition pada aplikasi duolingo
Sumber: blog.duolingo.com

Perangkat lunak mendengar pelafalan bahasa oleh user, kemudian memberi skor dan koreksi terhadap ucapan pengguna.

4. Layanan pelanggan

Asisten suara otomatis mendengarkan pertanyaan pelanggan dan menyediakan sumber daya yang bermanfaat.

5. Aplikasi kesehatan

Dokter dapat menggunakan aplikasi berbasis speech recognition untuk menyalin catatan secara real time ke dalam catatan perawatan kesehatan.

6. Keamanan

Saat teknologi terintegrasi ke dalam kehidupan kita sehari-hari, protokol keamanan menjadi prioritas yang semakin meningkat. Otentikasi berbasis suara dapat dipakai untuk menambahkan tingkat keamanan yang layak.

7. Bantuan disabilitas

Perangkat lunak speech recognition dapat menerjemahkan kata-kata yang diucapkan menjadi teks menggunakan teks tertutup untuk memungkinkan orang dengan gangguan pendengaran memahami apa yang dikatakan orang lain.

Speech recognition juga dapat memungkinkan mereka yang memiliki keterbatasan penggunaan tangan untuk bekerja dengan komputer, menggunakan perintah suara alih-alih mengetik.

8. Pelaporan pengadilan

Software speech recognition dapat digunakan untuk menyalin proses sidang di ruang pengadilan, yang dapat memangkas kebutuhan terhadap jasa transkrip manual oleh manusia.

9. Pengenalan emosi

Teknologi speech recognition dapat menganalisis karakteristik vokal tertentu untuk menentukan emosi apa yang dirasakan pembicara. Dipasangkan dengan analisis sentimen, teknologi ini dapat mengungkapkan bagaimana perasaan seseorang tentang suatu produk atau layanan.

Kelebihan Teknologi Speech Recognition

Ada beberapa keuntungan menggunakan sistem speech recognition, antara lain sebagai berikut:

  • Komunikasi mesin-ke-manusia. Teknologi ini memungkinkan perangkat elektronik untuk berkomunikasi dengan manusia dalam bahasa alami atau ucapan percakapan.
  • Mudah diakses. Sistem speech recognition ini sering dipasang di komputer dan perangkat seluler, sehingga mudah diakses.
  • Mudah digunakan. Aplikasi speech recognition yang dirancang dengan baik akan mudah dioperasikan dan sering berjalan di latar belakang.
  • Peningkatan otomatis yang berkelanjutan. Sistem pengenalan ucapan yang menggabungkan AI akan lebih efektif seiring berjalannya waktu. Saat sistem menyelesaikan tugas pengenalan suara, maka akan menghasilkan lebih banyak data mengenai ucapan manusia. Hal ini tentunya membuat ssitem menjadi lebih baik ke depannya dengan belajar melalui data yang sudah dikumpulkan.

Kekurangan Teknologi Speech Recognition

Meskipun nyaman, teknologi speech recognition masih memiliki beberapa masalah untuk diselesaikan. Berikut adala keterbatasan dari teknologi speech recognition:

  • Kinerja yang tidak konsisten. Sistem mungkin tidak dapat menangkap kata secara akurat karena variasi pengucapan, kurangnya dukungan untuk beberapa bahasa, dan ketidakmampuan untuk memilah-milah noise latar belakang. Noise di sekitar suara pengguna bisa menjadi kendala. Acoustic model dapat membantu melakukan filtering, tetapi bisa saja tidak sempurna. Terkadang sangat sulit untuk mengisolasi suara manusia.
  • Kecepatan pemrosesan yang lambat. Beberapa program pengenalan suara membutuhkan waktu untuk diterapkan dan dikuasai. Pemrosesan ucapan (speech recognition) mungkin terasa relatif lambat.
  • Masalah file sumber. Keberhasilan pengenalan ucapan tergantung pada peralatan perekaman yang digunakan, bukan hanya perangkat lunaknya.

Penutup

Demikianlah penjelasan singkat mengenai speech recognition. Semoga paparan di atas bisa bermanfaat dan membantu Anda memahami secara lebih rinci tentang teknologi speech recognition, fungsi dan manfaatnya.

Jika Anda suka dengan artikel serupa, Anda bisa mengunjungi rubrik Kecerdasan Buatan, atau membaca artikel lainnya mengenai 'Teknologi Face Recognition'.

Salam!

Referensi:

Trivusi
Trivusi Ikatlah ilmu dengan menulis. Menebar manfaat dengan berbagi :)

Posting Komentar untuk "Mengenal Lebih Dalam tentang Teknologi Speech Recognition"