На конференции по нейронным системам обработки информации NIPS 2017 исследователи из МТИ представили результаты экспериментов с разработанным ими новым методом обучения нейронных сетей распознаванию объектов в реальном мире и предсказанию их поведения. Метод основан на теории Дэвида Марра, предполагавшего, что при интерпретации образов мозг сначала создает двухмерный «эскиз», на котором представлены только обращенные к зрителю поверхности объектов, а затем определяет их полную форму и расположение.
В отличие от других подобных исследований, авторы решили обучать систему не на реальных фотографиях, а на изображениях, созданных на компьютере. Сначала система строит трехмерную модель объектов, отсеивая лишние детали (текстуры, отражения, тени), а затем добавляет их обратно, добиваясь максимально точного воспроизведения исходных данных.
Другая система, разработанная авторами, анализирует записи звука падения объектов и пытается по ним вычислить форму и материал объекта и высоту, с которой он падал. А последняя система обучается предсказывать движение объектов: в одном случае, бильярдных шаров после столкновения, а в другом — кубиков из разваливающейся пирамиды. В некоторых экспериментах с шарами система давала даже более точные предсказания, чем человек.