about speaker recognition

Upload: rizki

Post on 12-Jul-2015

294 views

Category:

Documents


7 download

DESCRIPTION

Makalah tentang speaker recognition

TRANSCRIPT

MAKALAH

SPEAKER RECOGNITION

Kelompok : Pifan Septiandi / 101088 Rizal / 101088 Rizki Apriliyandi / 10108823

Kelas : IF-15

TEKNIK INFORMATIKA TEKNIK DAN ILMU KOMPUTER

UNIVERSITAS KOMPUTER INDONESIA2011/2012

BAB I PENDAHULUAN

1.1.

Latar Belakang Suara manusia dihasilkan oeh pita suara yang menghasilkan bunyi yang berbeda-

beda. Setiap individu manusia memiliki suara yang baraneka ragam tergantung dari posisi atau bentuk rongga seseorang. Hal ini menyebabkan karakter suara yang dimiliki seseorang unik. Suara yang sesungguhnya yang sering manusia dengar merupakan suara vocal seperti a, i, u, e, dan o. Karena itu, seseorang dapat dikenali dari suara mereka. Misalnya saja suara laki-laki yang bunyinya lebih berat dibanding dengan suara perempuan. Dari hal itu saja kita dapat langsung mengenali, yang mana suara laki-laki dan yang mana suara perempuan. Dengan kata lain dengan suara kita bisa mengenali identitas seseorang. Teknologi pengolahan suara adalah salah satu teknologi aplikasi yang telah ditemukan beberapa tahun lalu. Salah satunya adalah speaker recognition yang merupakan suatu proses yang sering disebut dengan verifikasi pengucap. Yang berarti mengenali suara dengan cara membandingkan dengan suara standar. Perkembangan teknologi pengolahan sinyal suara manusia akhir-akhir ini sedang gencar diteliti dan dikembangkan. Salah satu contoh teknologi pengolahan sinyal suara manusia yang sedang dikembangkan adalah sistem pengenal pengucap atau speaker recognition. Sistem pengenal pengucap dapat digunakan sebagai salah satu sistem pengamanan pintu karena dapat mengeliminir siapa saja yang dapat mengakses pintu, sehingga tidak diperlukan lagi kunci konvensional yang mudah hilang. Sinyal informasi berupa suara pengucap akan digunakan sebagai otorisasi untuk mengakses pintu. Pengenal pengucap (speaker recognition) adalah suatu proses pengenalan untuk mengetahui siapa yang mengucapkan sinyal informasi tersebut dengan mencocokkan karakteristik ucapan yang ada di dalam basisdata dengan ucapan masukan.

1.2.

Rumusan Masalah Pengenal pengucap (speaker recognition) adalah suatu proses pengenalan untuk

mengetahui siapa yang mengucapkan sinyal informasi tersebut dengan mencocokkan karakteristik ucapan (vokal) yang ada di dalam basisdata dengan ucapan masukan.

Untuk dapat memperoleh karakter suatu vokal terlebih dahulu sebuah sinyal suara vokal diubah ke dalam domain frekuensi. Sedangkan untuk dapat mengenali suara seseorang, data suara orang tersebut diperlukan sebagai acuan yang kemudian akan diverifikasi dengan suaranya yang lain menggunakan crosscorrelation. Pengetahuan tentang domain frekuensi dapat digunakan lebih lanjut dalam sintesis suara sedangkan verifikasi suara atau speaker recognition dapat digunakan dalam bidang keamanan sebagai tanda identitas seseorang. Karakteristik ucapan dapat dibedakan melalui ekstraksi dengan suatu teknik pengkodean. Teknik pengkodean yang digunakan dalam pegekstraksian ciri sinyal ucapan adalah LPC (Linear Predictive Coding) dan menggunakan metode VQ (Vector Quantization) dalam pencocokan ciri (feature matching). Dengan mekanisme kerja pengambilan contoh-contoh suara, ekstraksi ciri dapat dilakukan dengan cara proses sampling, front-end, preemphasis, frame blocking, windowing, dan DFT (Discrete Fourier Transform) dari ekstraksi ciri tersebut diproses lagi menggunakan metode K-means untuk mencari centroid diantara fitur-fitur dari hasil ekstraksi dan jarak terdekat antar centroid sehingga dapat dikelompokkan menjadi suara berdasarkan usia dewasa atau anak anak yang kemudian disimpan kedalam database. Pada saat ada sinyal wicara masuk, sistem akan melakukan proses pengolahan wicara. Kemudian hasil ekstraksi sinyal baru tersebut akan dibandingkan dengan hasil ekstraksi sinyal standar yang terdapat di database menggunakan metode DFT dan K-means sehingga akan dibandingkan dengan hasil pengklusteran, apakah suara tersebut masuk dalam range centroid 1 (dewasa) atau centroid 2 (anak anak). Hasil dari Software ini adalah berupa clustering suara dewasa dan anak anak, yang mana nantinya system akan membedakan suara dewasa dan anak anak dengan melihat nilai formant-formatnya. Recognition yang mampu mengenali mendekati 100 % masih terus diteliti dan dicari metode-metode yang paling efektif. Apabila recognition belum mencapai tingkat pengenalan 100 % sistem ini tentunya tidak akan memperbaiki security dan accessibility. Pekerjaan berat untuk mengoptimalkan sistem inilah yang menjadi hambatan utama untuk

mengimplementasikan sistem ini. Karena banyak aspek juga yang harus diteliti agar performa pengenalan bisa semakin membaik (contohnya : aspek penggunaan jenis microphone, noise/ gangguan, kemungkinan kareteristik suara yang dibuat mirip, dan lain-lain).

1.3.

Tujuan Tujuan :

-

Mengetahui lebih dalam speaker recognition

-

Mengetahui implementasi speaker recognition Mengetahui cara kerja speaker recognition

1.4. -

Batasan Masalah Masalah yang dibahas hanya beberapa metode yang berhubungan dengan implementasi speaker recognition.

-

Diambil dari beberapa jurnal yang terkait dengan speaker recognition. Dimaksudkan agar pembahasan tidak terlalu luas.

BAB II PEMBAHASAN

Speaker recognition yang merupakan suatu proses

yang sering disebut dengan

verifikasi pengucapan. Yang berarti mengenali suara dengan cara membandingkan dengan suara standar. Mekanisme cara kerja mekanisme ini dengan cara mengambil contoh-contoh suara. Sebagai manusia, kita mampu mengenali seseorang hanya dengan mendengar dia atau berbicara. Biasanya, beberapa detik dari pidato yang cukup untuk mengidentifikasi suara yang familier. Dari sini muncul Ide untuk mengajarkan komputer bagaimana mengenali manusia. Suara yang ada pada manusia itu mengeluarkan gelombang atau frekuensi bunyi, pada domain frekuensi bunyi kita bisa menganalisis suatu sinyal. Untuk bisa melakukan itu kita membutuhkan bantuan alat, salah satunya adalah tranformasi fourier yang dinyatakan dengan persamaan sebagai berikut :

Kedua persamaan ini merupakan pasangan, maksudnya itu persamaan yang satu adalah transformasi dari persamaan yang lain. Untuk membandingkan suatu sinyal lain dapat dinyatakan dengan persamaan cross correlation. Persamaannya sebagai berikut :

Di mana x(t) merupakan suatu sinyal acuan dan y(t) adalah sinyal lain yang dibandingkan , tetapi perhitungan dengan persamaan ini membutuhkan waktu yang lama. Karena itu diperlukan suatu persamaan yang lebih cepat, salah satunya adalah dengan transformasi fourier sebagai berikut :

Dimana X *(w) merupakan kompleks konjugat dari X(w). persamaan ini dapat digunakan untuk menentukan tingkat kesamaan atau kemiripan suatu sinyal terhadap sinyak yang lainnya. Berikut ini merupakan domain frekuensi yang diperoleh dengan program DFT menggunakan MATLAB 6.5.1

(a)

(b) Gambar (a) di atas merupakan domain waktu sinyal vocal /u/. dan pada gambar(b)merupakan domain frekuensi dan respon frekuensi dari system vocal /u/.

(c)

(d) Pada gambar (c) di atas merupakan waktu sinyal suara vocal /a/. dan pada gambar(d) merupakan domain dari frekuensi system vocal /a/. Dari gambar-gambar diatas dapat dilihat bahwa puncak puncak domain frekuensi pada fonem /u/. berada pada sekitar frekuensi 350hz dengan identitas (relative)0.5dB pada puncak pertama dan sekitar 1000hz dengan intensitas (relative) -0.1 dB pada puncak kedua. Sedangkan frekuensi fundamental adalah 140hz dengan intensitas 0.45dB. secara relative perbandingan amplitude puncak pertama terhadap puncak kedua adalah 1: 25. Sedangkan pada vocal /a/ puncak pertama di frekuensi 120 hz dengan intensitas(relative) 0.32 dB yang juga merupakan frekuensi fundamentalnya. Puncak keduasekitar 820hz dengan intensitas

(relatife) 0.60dB yang merupakan frekuensi dengan intensitas tertinggi, puncak ketiga 1650hz dB yang merupakan frekuensi intensitas tertinggi, puncak ketiga 1650Hz dengan intensitas (relative) 0.23 dB, puncak keempat 2500hz sebesar 2.23 dB, puncak kelima 3800 hz 0.50dB, dan puncak keenam 4500 hz 0.75 dB. Secara relative perbandingan puncak puncak tersebut adalah 0.52 : 1 : 0. 43 : 0.15 : 0.08 : 0.04. Pada teori teori diatas yang dapat diterapkan pada speaker recognition , kalau setiap suara itu memiliki frekuensi yang berbeda beda. Untuk contoh frekuensi suara dengan kata buka dengan memakai orang yang sama namun waktu yang berbeda.

Frekuensi yang dihasilkan sama atau mendekati. Namun jika orang lain yang berkata buka maka frekuensi suaranya seperti gambar berikut :

Pada teknologi speaker recognition ada beberapa teori penunjang : a. Sinyal Suara merupakan sinyal diskrit yang dipengaruhi oleh waktu. b. Formant didefinisikan oleh fant sebagai puncak spectrum suara, formant juga digunakan untuk mengartikan suara akustik resonansi. c. Spectrogram gambar yang menunjukan spectrum dari sinyal terhadap waktu, spectrogram digunakan untuk mengidentifikasi suara, speech prosesing, dll. d. Source filter model dalam satu ucapan terdapat 2 sumber akustik yaitu suatu ucapan dengan suara dan ucapan tanpa suara. Ucapan bersuara dihasilkan getaran dari modulasi udara dari paru paru. Sedangkan ucapan tanpa suara bukan merupakan getaran suara biasa melainkan aliran udara yang disebabkan turbulen akibat penyempitan di saluran vocal. e. Pengelolaan Sinyal Digital pengelolaan sinyal suara sampai diperoleh koefisien karakteristik. f. Sampling sinyal suara yang tidak terbatas pada domain waktu. g. Frame blocking pembagian suara menjadi beberapa frame dan satu frame terdiri dari beberapa sampel.

h. Windowing mengurangi efek diskontinuitas dari potongan potongan sinyal pada awal dan akhir sinyal. Efek dari diskontinuitas akan menyebabkan kesalahan data pada proses transformasi fourier. i. Discrette fourier transform(DFT) metode yang efisien untuk menyelesaikan transformasi fourier diskrit yang banyak dipakai untuk keperluan analisa sinyal seperti pemfilteran, analisa korelasi, dan analisa spectrum.

Dalam speaker recognition ada beberapa algoritma yang dapat digunakan atau diterapkan yaitu sebagai berikut : 1. Algoritma K-means yaitu suatu algoritma yang sering digunakan didalam teknik pengelompokan karena membuat suatu perkiraan yang efisien dan tidak dan tidak memerlukan banyak banyak parameter. K-means[MacQueen(1967)] menggunakan k kelompok yang telah ditetapkan (k kelompok pertama pada gambar dibawah ini. sebagai centroid). Seperti

Pada gambar sebelah kiri merupakan contoh gambar perolehan centroid menggunakan k-means pada matlab. Sendagkan pada gambar sebelah kanan perolehan centroid menggunakan k-means. 2. VQ (Vector Quantization) yaitu algoritma yang dipakai untuk membentuk codebook adalah algoritma LBG(linde Buzo Gray Algorithm). Algoritma tersebut

diimplementasikan dalam prosedur berulang sebagai berikut : 1) Menentukan vector codebook pertama, yang merupakan centroid awal dari keseluruhan centroid awal dari keseluruhan vector iri.

2)

Menggandakan jumlah codebook dengan membagi tiap vector yn dari codebook yang telah terbentuk, dengan aturan :

Dengan n memiliki nilai antara 1 sampai dengan M (ukuran dari codebook yang diinginkan)m dan 3) merupakan parameter pembagi ( ).

Pencarian nearest- neighbour : untuk tiap vektor ciri, temukan codeword di dalam codebook tersebut.

4)

Pembaharuan centroid : memperbaharui codeword pada setiap kelompok dengan menggunakan centroid dari vektor ciri .

BAB III KESIMPULANSpeaker recognition adalah suatu proses pengenalan untuk mengetahui siapa yang mengucapkan sinyal informasi tersebut dengan mencocokkan karakteristik ucapan yang ada di dalam basisdata dengan ucapan masukan. Dengan teknologi speaker recognition, sekali lagi manusiadimudahkan dalam kehidupannya. Dengan beberapa metode, speaker recognition bisa menjadi teknologi yang bisa digunakan dalam kehidupan sehari-hari secara maksimal. Penggunaan teknologi speaker recognition bisa di terapkan pada berbagai bidang. Bukan hanya dalam sistem verifikasi, bahkan bisa digunakan untuk security dan accessibiliy dalam suatu jaringan, mengetahui usia seseorang dari suara, dan juga bisa digunakan dalam persidangan suatu kasus kriminal yang hanya memiliki bukti berupa rekaman suara.

Lampiran