Ada ribuan bahasa di dunia. Hampir semua bahasa terpopuler bisa langsung diterjemahkan menggunakan software Google Translate. Untuk terjemahan waktu nyata, beberapa perangkat lunak menggunakan suara di mikrofon untuk menerjemahkan pesan tanpa pengguna mengetik. Tapi bagaimana dengan jutaan orang yang tidak bisa mendengar?. Beginilah cara kerja kecerdasan buatan (AI) dalam bahasa isyarat di Google Terjemahan untuk membantu pengguna dengan gangguan bicara dan pendengaran menggunakan gambar.
Convolutional Neural Network (CNN) merupakan metode kerja pada komputer yang berupa jaringan saraf tiruan konvolusional, yang dapat mengklasifikasikan citra atau citra visual. Sistem dilatih untuk mendeskripsikan ribuan foto dan mengklasifikasikan setiap kategori gambar untuk diterjemahkan. CNN terdiri dari beberapa lapisan. Lapisan biasanya terdiri dari lapisan yang berbelit-belit, gabungan, dan terhubung sepenuhnya.
Baca Juga: Semua Event yang Akan Datang di Update 1.3 Genshin Impact
Lapisan konvolusional terdiri dari kernel (filter) dengan ukuran konvolusi. Kemudian di atas piksel, nilai dikalikan dan dijumlahkan untuk membentuk matriks baru yang lebih kecil dan disederhanakan. Matriks baru yang lebih kecil penting karena dapat menyorot fitur-fitur pada gambar dan juga lebih mudah untuk dipraktikkan karena membutuhkan lebih sedikit waktu untuk mengidentifikasi bobot gambar.
Lapisan berikutnya adalah lapisan gabungan. Lapisan ini bertujuan untuk memperkecil ukuran matriks. Untuk memperkecil ukuran matriks, kernel (filter) harus melewati matriks fitur dan mendapatkan nilai piksel gambar tertinggi atau rata-rata. Selanjutnya, lanjutkan ke lapisan ketiga, yang merupakan lapisan yang sepenuhnya terhubung. Di sinilah klasifikasi citra berlangsung. Pertama, matriks diratakan menjadi vektor, kemudian dilewatkan melalui jaringan netral (neural network). Jaring netral ini mirip dengan jaring netral buatan (jaringan syaraf tiruan). CNN menggunakan fungsi aktivasi softmax untuk mengklasifikasikan gambar, yang memberikan probabilitas masukan untuk kategori tertentu.
Data citra bahasa isyarat yang terkumpul dikelompokkan menjadi 29 folder dengan 3.000 gambar untuk setiap huruf di setiap folder. Tiga folder lainnya adalah ruang untuk menghapus gambar. Selain itu, untuk mempercepat pelatihan, ukuran gambar bahasa isyarat dikurangi dari 200x200 menjadi 48x48.
Ada lima tindakan dalam lapisan konvolusional dan penggabungan untuk menerjemahkan bahasa isyarat pada Google Translate, yaitu:
1. Di baris pertama, jumlah filter dan ukuran filter ditentukan. Untuk lapisan pertama, 64 filter 3x3 digunakan. Ukuran gambar ditentukan 48x48.
Setelah matriks mengalami konvolusi, lalu ia membentuk matriks ifitur kemudian melewati normalisasi batch. Tindakan ini akan mengurangi pergeseran nilai lapisan yang tersembunyi.
Hal tersebut juga membuat matriks gampang dilatih karena menstabilkan bobot dan meningkatkan akurasi gambar.
Setelah itu, jalankan fungsi Re-LU untuk membawa beberapa non-linearitas ke lapisan yang memungkinkan CNN untuk memahami gambar rumit yang telah dimasukkan.
2. Baris berikutnya adalah tempat terjadinya penggabungan. Telah ditentukan ukuran filter penggabungan 2x2 dan menggunakan penggabungan maksimal demi mengurangi ukuran matriks.
3. Akhirnya, matriks dihapus node-nya melalui jaringan saraf (Neural Net). Manfaat dari menghapus node adalah jaringan akan mengurangi kesensitifannya terhadap bobot setiap node.
Hal tersebut juga memungkinkan jaringan menjadi lebih umum dalam memprediksikan dan meningkatkan akurasi. Dalam model yang digunakan, 25 persen node dihapus dan akan diganti dengan lapisan yang baru berikutnya.
Setelah konvolusi, selanjutnya adalah tahapan fully-connected layers. Namun sebelumnya, data diratakan menjadi vektor kolom tunggal.
- Setelah itu, data dapat melewati jaringan saraf ke lapisan yang lebih padat. Lapisan padat ini meneruskan masukan dari langkah sebelumnya dan mengeluarkan semua matriks ke dalam neuron. Neuron terhubung dalam meneruskan data dari satu lapisan berikutnya, dalam kasus ini ada 256 neuron.
- Lalu data melewati normalisasi batch.
- Kemudian fungsi ULT digunakan untuk aktivasi.
- Akhirnya, 25 persen dari node terhapus menggunakan dropout.
- Ada dua lapisan yang terhubung sepenuhnya, jadi kode ini berulang dengan 512 node.
- Setelah melewati lapisan kedua yang terhubung sepenuhnya, keluaran datanya dimasukkan melalui fungsi softmax yang digunakan untuk memberikan probabilitas bahwa gambar tersebut termasuk ke dalam salah satu dari 29 kelas gambar bahasa isyarat.
- Terakhir, menurut Towards Data Science, beberapa baris akhir akan menyetel kecepatan pembelajaran dan mengevaluasi keakuratan model.
0 Komentar