Глубокие нейронные сети обещают стать моделями человеческого слуха
Вычислительные модели, имитирующие структуру и функции слуховой системы человека, могут помочь исследователям разрабатывать более совершенные слуховые аппараты, кохлеарные имплантаты и интерфейсы «мозг-машина». Новое исследование Массачусетского технологического института показало, что современные вычислительные модели, основанные на машинном обучении, приближаются к этой цели.
В большом исследовании глубоких нейронных сетей, обученных выполнять слуховые задачи, команда Массачусетского технологического института показала, что большинство этих моделей генерируют внутренние представления, которые имеют общие свойства с представлениями, наблюдаемыми в человеческом мозге, когда люди слушают одни и те же звуки. .
Исследование также дает представление о том, как лучше всего обучать модели этого типа: исследователи обнаружили, что модели, обученные на слуховом входе, включая фоновый шум, более точно имитируют модели активации слуховой коры человека.
«Что отличает это исследование, так это то, что на данный момент оно представляет собой наиболее полное сравнение такого рода моделей со слуховой системой. Исследование предполагает, что модели, полученные с помощью машинного обучения, являются шагом в правильном направлении и дают нам некоторые подсказки относительно того, что делает их лучшими моделями мозга», — говорит Джош МакДермотт, доцент кафедры мозга и когнитивных функций. наук из Массачусетского технологического института, член Института Макговерна Массачусетского технологического института по исследованию мозга и Центра мозга, разума и машин, а также старший автор исследования.
Аспирантка Массачусетского технологического института Грета Такут и Дженель Физер, доктор философии '22, являются ведущими авторами статьи в открытом доступе, которая опубликована в журнале PLOS Biology.
Дополнительная литература: глубокие нейронные сети в слуховых аппаратах
Модели слуха
Глубокие нейронные сети — это вычислительные модели, состоящие из множества слоев блоков обработки информации, которые можно обучать на огромных объемах данных для выполнения конкретных задач. Этот тип модели стал широко использоваться во многих приложениях, и нейробиологи начали изучать возможность использования этих систем для описания того, как человеческий мозг выполняет определенные задачи.
«Эти модели, созданные с помощью машинного обучения, способны опосредовать поведение в масштабе, который действительно был невозможен с предыдущими типами моделей, и это привело к интересу к тому, могут ли представления в моделях отражать вещи. это происходит в мозгу», — говорит Такуте.
Когда нейронная сеть выполняет задачу, ее процессоры генерируют шаблоны активации в ответ на каждый получаемый аудиовход, например слово или другой тип звука. Эти модельные представления входных данных можно сравнить с паттернами активации, наблюдаемыми при фМРТ-сканировании мозга людей, слушающих тот же входной сигнал.
В 2018 году Макдермотт и тогдашний аспирант Александр Келл сообщили, что когда они обучили нейронную сеть выполнять слуховые задачи (например, распознавание слов из аудиосигнала), внутренние представления, сгенерированные моделью, показали сходство с теми, которые наблюдались в ФМРТ-сканирование людей, слушающих одни и те же звуки.
С тех пор эти типы моделей стали широко использоваться, поэтому исследовательская группа Макдермотта приступила к оценке большего набора моделей, чтобы выяснить, является ли способность аппроксимировать нейронные представления, наблюдаемые в человеческом мозге, общей чертой этих моделей. модели.
Для этого исследования исследователи проанализировали девять общедоступных моделей глубоких нейронных сетей, которые были обучены выполнять слуховые задачи, а также создали 14 собственных моделей, основанных на двух разных архитектурах. Большинство этих моделей были обучены выполнять одну задачу: распознавать слова, идентифицировать говорящего, распознавать звуки окружающей среды и определять музыкальный жанр, а две из них были обучены выполнять несколько задач.
Когда исследователи представили этим моделям звуки природы, которые использовались в качестве стимулов в экспериментах с фМРТ человека, они обнаружили, что внутренние представления модели имеют тенденцию проявлять сходство с теми, которые генерирует человеческий мозг. Модели, чьи представления были наиболее похожи на те, которые наблюдаются в мозге, были моделями, которые были обучены более чем одной задаче и обучены работе со слуховым сигналом, включающим фоновый шум.
«Если вы тренируете модели в шуме, они дают лучшие прогнозы мозга, чем если бы вы этого не делали, что интуитивно разумно, потому что большая часть реального слуха предполагает слух в шуме, и это, вероятно, то, к чему адаптирована слуховая система. », — говорит Перо.
Иерархическая обработка
Новое исследование также подтверждает идею о том, что слуховая кора человека имеет некоторую степень иерархической организации, в которой обработка разделена на этапы, которые поддерживают отдельные вычислительные функции.
Как и в исследовании 2018 года, исследователи обнаружили, что представления, созданные на более ранних стадиях модели, больше всего напоминают те, которые наблюдаются в первичной слуховой коре, тогда как представления, созданные на более поздних стадиях модели, более похожи на представления, созданные в областях мозга за пределами первичной коры. /п>
Кроме того, исследователи обнаружили, что модели, обученные различным задачам, лучше воспроизводили различные аспекты прослушивания. Например, модели, обученные решать задачи, связанные с речью, больше напоминают области выбора речи.
"Несмотря на то, что модель использовала одни и те же обучающие данные и архитектура та же самая, когда вы оптимизируете одну конкретную задачу, вы можете видеть, что она выборочно объясняет определенные свойства настройки мозга", - говорит Такуте.
Лаборатория Макдермотта теперь планирует использовать свои открытия, чтобы попытаться разработать модели, которые еще более успешно воспроизведут реакции человеческого мозга. Подобные модели не только помогут ученым узнать больше о том, как может быть организован мозг, но и помогут разработать более совершенные слуховые аппараты, кохлеарные имплантаты и интерфейсы «мозг-машина».
«Цель нашей области — создать компьютерную модель, которая сможет предсказывать реакции и поведение мозга. Мы думаем, что если нам удастся достичь этой цели, это откроет множество дверей», — говорит Макдермотт.
Анонсы наших новых статей в Телеграме