Ученые Оксфордского университета сообщили о разработке компьютерной программы, которая читает по губам. Возможности искусственного интеллекта и в этой области превысили человеческие: как сообщается, профессиональный чтец по губам, выполняя аналогичную задачу, справился с ней в четыре раза хуже.
Работая над проблемой, ученые воспользовались технологиями машинного обучения компании DeepMind, ранее приобретенной Google.
Чтобы научить свою программу распознавать речь по движению губ, разработчики воспользовались записями телепередач и субтитрами к ним — более 5 тыс. новостных выпусков BBC Breakfast и Newsnight, а также аналитическую передачу Question Time. Программа должна была устанавливать соответствие движений на лице говорящего на записи, аналогичную аудиоинформацию и напечатанный текст. Всего программа отследилп произнесение более 118 тыс. фраз; общий словарь составил 17,5 тыс. слов.
Качество работы программы проверили на фильме без звука, показав его компьютеру и профессиональному чтецу по губам. Искусственный интеллект расшифровал 50% текста, а человек — всего 12%.