Современные методы машинного обучения позволяют создавать нейронные сети, способные распознавать эмоции по записи голоса человека длиной всего в полторы секунды — столько же, сколько в среднем требуется человеку. Статья исследователей из Института человеческого развития Общества Макса Планка опубликована в журнале Frontiers in Psychology.
В экспериментах использовались записи на немецком и английском языках, сделанные актерами и выражающие радость, гнев, печаль, страх, отвращение и нейтральное состояние. Исследователи обучали три типа нейронных сетей: глубокие нейронные сети (DNN), анализирующие общие особенности записи — громкость или высоту звуков, сверточные нейронные сети (CNN), анализирующие спектральное представление и гибридные модели (C-DNN) использующие оба метода. Сети DNN и C-DNN показали лучшие результаты, но во всех случаях обучение позволило добиться точности распознавания, сравнимой с точностью, которую показывают на аналогичных образцах люди. Это, как считают исследователи, подтверждает гипотезу о том, что люди и нейросети распознают эмоции по сходным шаблонам.