Model baru dapat melokalisasi suara di dunia nyata

Otak manusia disetel dengan baik tidak hanya untuk mengenali suara tertentu, tetapi juga untuk menentukan dari mana asalnya. Dengan membandingkan perbedaan suara yang mencapai telinga kanan dan kiri, otak dapat memperkirakan lokasi gonggongan anjing, raungan mobil pemadam kebakaran, atau mobil yang mendekat.

Ahli saraf MIT kini telah mengembangkan model komputer yang juga dapat melakukan tugas kompleks itu. Model, yang terdiri dari beberapa jaringan saraf convolutional, tidak hanya melakukan tugas seperti yang dilakukan manusia, tetapi juga berjuang dengan cara yang sama seperti yang dilakukan manusia.

Kami sekarang memiliki model yang benar-benar dapat melokalisasi suara di dunia nyata. Dan ketika kami memperlakukan model seperti peserta eksperimen manusia dan mensimulasikan serangkaian eksperimen besar yang telah diuji manusia di masa lalu, apa yang kami temukan berulang kali adalah model tersebut merekapitulasi hasil yang Anda lihat pada manusia.”

Josh McDermott, profesor otak dan ilmu kognitif dan anggota Institut Penelitian Otak McGovern MIT

Temuan dari studi baru juga menunjukkan bahwa kemampuan manusia untuk melihat lokasi disesuaikan dengan tantangan spesifik lingkungan kita, kata McDermott, yang juga anggota Pusat Otak, Pikiran, dan Mesin MIT.

McDermott adalah penulis senior makalah ini, yang muncul hari ini di Sifat Manusia Perilaku. Penulis utama makalah ini adalah mahasiswa pascasarjana MIT Andrew Francl.

Pemodelan lokalisasi

Ketika kita mendengar suara seperti peluit kereta api, gelombang suara mencapai telinga kanan dan kiri kita pada waktu dan intensitas yang sedikit berbeda, tergantung dari arah mana suara itu berasal. Bagian otak tengah dikhususkan untuk membandingkan perbedaan kecil ini untuk membantu memperkirakan dari arah mana suara itu berasal, tugas yang juga dikenal sebagai lokalisasi.

READ  Lebih dari 8.700 sapi divaksinasi brucellosis pada 15 Juli di distrik Virudhunagar

Tugas ini menjadi jauh lebih sulit dalam kondisi dunia nyata -; di mana lingkungan menghasilkan gema dan banyak suara terdengar sekaligus.

Para ilmuwan telah lama berusaha membangun model komputer yang dapat melakukan jenis perhitungan yang sama dengan yang digunakan otak untuk melokalisasi suara. Model-model ini terkadang bekerja dengan baik dalam pengaturan ideal tanpa kebisingan latar belakang, tetapi tidak pernah di lingkungan dunia nyata, dengan kebisingan dan gemanya.

Untuk mengembangkan model lokalisasi yang lebih canggih, tim MIT berubah menjadi jaringan saraf convolutional. Pemodelan komputer semacam ini telah digunakan secara luas untuk memodelkan sistem visual manusia, dan baru-baru ini, McDermott dan ilmuwan lain mulai menerapkannya pada audisi juga.

Jaringan saraf convolutional dapat dirancang dengan banyak arsitektur berbeda, jadi untuk membantu mereka menemukan yang paling cocok untuk pelokalan, tim MIT menggunakan superkomputer yang memungkinkan mereka melatih dan menguji sekitar 1.500 model berbeda. Pencarian itu mengidentifikasi 10 peneliti yang tampaknya paling cocok untuk pelokalan, yang selanjutnya dilatih dan digunakan untuk semua studi mereka selanjutnya.

Untuk melatih model, para peneliti menciptakan dunia virtual di mana mereka dapat mengontrol ukuran ruangan dan sifat pantulan dinding ruangan. Semua suara yang diumpankan ke model berasal dari suatu tempat di salah satu ruang virtual ini. Kumpulan lebih dari 400 suara pelatihan termasuk suara manusia, suara binatang, suara mesin seperti mesin mobil, dan suara alam seperti guntur.

Para peneliti juga memastikan model dimulai dengan informasi yang sama yang diberikan oleh telinga manusia. Telinga luar, atau pinna, memiliki banyak lipatan yang memantulkan suara, mengubah frekuensi yang masuk ke telinga, dan pantulan ini bervariasi tergantung dari mana suara itu berasal. Para peneliti mensimulasikan efek ini dengan menjalankan setiap suara melalui fungsi matematika khusus sebelum masuk ke model komputer.

READ  Jejak kehidupan kuno ditemukan terbungkus dalam batu safir berusia 2,5 miliar tahun

“Ini memungkinkan kami untuk memberikan model jenis informasi yang sama seperti yang dimiliki seseorang,” kata Francl.

Setelah melatih model, para peneliti mengujinya di lingkungan dunia nyata. Mereka menempatkan manekin dengan mikrofon di telinganya di ruangan yang sebenarnya dan memainkan suara dari arah yang berbeda, lalu memasukkan rekaman itu ke dalam model. Model tampil sangat mirip dengan manusia ketika diminta untuk melokalisasi suara-suara ini.

“Meskipun modelnya dilatih di dunia maya, ketika kami mengevaluasinya, itu bisa melokalisasi suara di dunia nyata,” kata Francl.

pola serupa

Para peneliti kemudian mengarahkan model ke serangkaian tes yang telah digunakan para ilmuwan di masa lalu untuk mempelajari kemampuan lokalisasi manusia.

Selain menganalisis perbedaan waktu tiba di telinga kanan dan kiri, otak manusia juga mendasarkan penilaian posisinya pada perbedaan intensitas suara yang mencapai masing-masing telinga. Studi sebelumnya menunjukkan bahwa keberhasilan kedua strategi ini bervariasi tergantung pada frekuensi suara yang masuk. Dalam studi baru, tim MIT menemukan bahwa model menunjukkan pola kepekaan yang sama terhadap frekuensi.

“Model ini tampaknya menggunakan perbedaan waktu dan level antara kedua telinga dengan cara yang sama seperti yang dilakukan orang, dengan cara yang bergantung pada frekuensi,” kata McDermott.

Para peneliti juga menunjukkan bahwa ketika mereka membuat tugas pelokalan menjadi lebih sulit, dengan menambahkan beberapa sumber suara yang diputar pada saat yang sama, kinerja model komputer menurun dengan cara yang sangat mirip dengan pola kegagalan manusia dalam situasi yang sama.

“Saat Anda menambahkan lebih banyak sumber, Anda mendapatkan pola spesifik penurunan kemampuan manusia untuk secara akurat menilai jumlah sumber yang ada, dan kemampuan mereka untuk melokalisasi sumber tersebut,” kata Francl. “Manusia tampaknya terbatas untuk melokalisasi sekitar tiga sumber sekaligus, dan ketika kami menjalankan tes yang sama pada model tersebut, kami melihat pola perilaku yang sangat mirip.”

READ  Sebuah survei terhadap arsip data terbesar Hubble mengungkapkan mengapa beberapa planet begitu hangat

Karena para peneliti menggunakan dunia virtual untuk melatih model mereka, mereka juga dapat mengeksplorasi apa yang terjadi ketika model mereka belajar untuk melokalisasi dalam berbagai jenis kondisi yang tidak wajar. Para peneliti melatih satu set model di dunia virtual tanpa gema, dan satu lagi di dunia di mana tidak pernah ada lebih dari satu suara yang terdengar pada satu waktu. Di sepertiga, model hanya diekspos ke suara dengan rentang frekuensi yang sempit, bukan suara yang muncul secara alami.

Ketika model yang dilatih di dunia yang tidak alami ini dievaluasi pada baterai tes perilaku yang sama, model menyimpang dari perilaku manusia, dan cara mereka bervariasi tergantung pada jenis lingkungan tempat mereka dilatih. Hasil ini mendukung gagasan bahwa kemampuan lokalisasi otak manusia disesuaikan dengan lingkungan di mana manusia berevolusi, kata para peneliti.

Para peneliti sekarang menerapkan jenis pemodelan ini ke aspek lain dari audisi, seperti persepsi persepsi dan pengenalan suara, dan percaya itu juga dapat digunakan untuk memahami fenomena kognitif lainnya, seperti batasan pada apa yang dapat diperhatikan seseorang atau , kata McDermott.

Penelitian ini didanai oleh National Science Foundation dan National Institute on Deafness and Other Communication Disorders.

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *