0

PENCOCOKAN POLA SUARA (SPEECH RECOGNITION) DENGAN ALGORITMA FAST FOURIER TRANSFORM

Posted by kunia on Oct 17, 2010 in Uncategorized

Pencocokoan pola suara adalah proses konversi dari sinyal akustik yang ditangkap oleh microphone dari suatu kata yang diucapkan, selanjutnya pola gelombang yang telah dikonversi akan disimpan oleh computer ,hasil konveri tersebut dapat ditampilkan dalam bentuk tulisan atau dapat dibaca oleh perangkat sebagai komando untuk melakukan suatu pekerjaan. Sehingga sampel suara dapat dicocokkan dengan kode pola yang telah disimpan sebelumnya. Ilustrasinya dapat digambarkan dengan kunci gembok .

12

Gembok hanya dapat terbuka jika pola kunci sama dengan pola ruang gembok. Lalu apa saja yang dapat ‘dibuka’ dengan speech recognition?. Ide sederhana dari pencocokan suara tersebut adalah bisa saja kita menambahkan fitur untuk memerintah mouse. Cukup katakan: “Let me handle my mouse” dan mouse sudah siap mendengarkan anda untuk diperintah dengan kata “Left”, “Right”, “ Click “, dan lain-lain. tanpa harus masuk mode mouse command.

Selain itu, pengamanan berdasarkan Biometric recognition, yakni suatu sistem pengenalan atau identifikasi seseorang berdasarkan karakteristik biologis khusus yang dimiliki oleh orang tersebut. Fungsinya selain untuk sistem keamanan dengan mengenali identitas seseorang, juga untuk identifikasi penyakit yang diderita seseorang, keperluan militer, dan lain-lain .

21

Aplikasi biometric recognition antara lain retinal scan fingerprint recognition, face recognition, dan voice recognition

Pada tulisan ini hanya akan dibahas mengenai speech recognition dengan dengan alogaritma fast fourier transform.

Mengapa digunakan fast fourier transform?

Algoritma FFT (Fast fourier transform) merupakan salah satu metode untuk transformasi sinyal suara menjadi sinyal frekuensi. Artinya proses perekaman suara disimpan dalam bentuk digital berupa gelombang spektrum suara berbasis frekuensi.

Pada percobaan Analisa Fourier yang telah saya lakukan menggunakan Waveform Pasco, waveform pasco diberi input tegangan dari function generator lalu outputnya divisualkan pada oscilloscope, dari oscilloscope akan dihasilkan ampitudo dari kotak vertical dikalikan dengan volts/div oscilloscope dan frekuensi dari satu per periode, dengan periodenya adalah kotak horizontal dikalikan time/div oscilloscope.

Dengan kata lain, konsep utama algoritma ini adalah mengubah sinyal yang berbasis waktu menjadi berbasis frekuensi dengan membagi masalah menjadi beberapa masalah yang lebih kecil. Kemudian, setiap masalah diselesaikan dengan cara melakukan pencocokan pola digital suara.

Keuntungan menggunakan Fourier Transform adalah ketika ada sinyal dalam domain waktu panjang yang tak terbatas dan Anda ingin menganalisis tanggapannya untuk setiap saluran. Karena sinyal adalah panjang waktu yang tak terbatas sehingga Anda mengubahnya menjadi frekuensi domain di mana ia akan secara berkala untuk rentang frekuensi tertentu.

SKEMA UTAMA SPEECH RECOGNITING

Skema dari pencocokan pola suara adalah sebagai berikut;

31

Langkah pertama yang harus dilakukan adalah merekam suara dalam microphone menggunakan sound card dalam computer, sehingga data digital akan terbentuk menjadi suatu template yang disimpan dalam computer dalam bentuk kode.

Selanjutnya adalah data sampel ditangkap oleh microphone kemudian sebelum data digital terbentuk sinyal analog sebelumnya disampling, kuantitas, dan pengkodeanya sehingga terbentuk data digitalnya yang diproses dengan fast fourier transform.selanjutnya hasil pengolahan dengan fast fourier transform dibandingkan dengan input rekaman yang berada di template, apabila terdapat data rekaman yang dibandingkan sesuai, maka akan ditampilkan dalam aplikasi computer.

Proses Sampling

Disinilah terjawab mengapa digunakan fourier transform, dimana sinyal suara manusia tidak terbatas dalam domain waktu, kekontinuan suara manusia tidak dapat langsung ditampilkan pada computer. Dengan asumsi frekuensi percakapan manusia pada rentang 300-3400Hz, kemudian dipotonglah sinyal-sinyal tersebut dalam rentang waktu tertentu untuk diproses dengan transformasi fourier.

41

Proses Kuantisasi

Adalah proses konversi dari sinyal yang telah disampling menjadi sinyal digital yang diwakili sebuah nilai dengan jumlah digit tertentu.

51Proses yang pertama adalah memproses gelombang kontinu spectrum ke suara ke dalam bentuk diskrit, kemudian dikalkulasi, ketika mengkonversi gelombang suara ke dalam bentuk diskrit, gelombang diperlebar dengan cara memperinci berdasarkan waktu, untuk mempermudah dalam proses pencocokan. Selanjutnya akan diperoleh kode array yang akan dikonversi ke bilangan biner.

PROSES PENGKODEAN

Adalah proses pemberian kode pada masing-masing sinyal yang telah terkuantisasi berdasarkan level yang telah ditempati. Pada proses kuantisasi suatu gelombang ditempatkan pada suatu level yang sama, yang berarti sinyal tersebut disamakan walau tinggi sinyalnya berbeda-beda

61 Sehingga didapatkan kode digital yang nantinya akan dicocokkan dengan template yang telah tersimpan dalam komputer

74

Kopirait © 2012 kunia. Edit oleh Disrum untuk UNS Social Network