Даже лучшие системы распознавания образов точно угадывают объекты на цифровых изображениях лишь в 30—40% случаев, а ошибочные версии, выдаваемые компьютером, нередко способны вызвать недоумение. Исследователи из Массачусетского технологического института создали систему, позволяющую человеку увидеть мир «глазами» программы для распознавания образов и тем самым помогающую выяснить, как именно нужно доработать алгоритм, чтобы повысить точность идентификации.
Один из методов, широко применяемых в системах компьютерного зрения, состоит в преобразовании изображения в гистограмму направленных градиентов (Histogram of Oriented Gradients, HOG): картинка разбивается на квадраты 8х8 пикселов, и для каждого из них определяются 32 характеристики цветового перехода, включая ориентацию, начальный и конечный цвет, резкость и т. д. Алгоритм из МТИ пытается по HOG воссоздать оригинал с использованием «словаря» — заранее составленной обширной коллекции HOG для всевозможных изображений из Интернета. Полученные таким способом реконструкции изображений показывали людям, и они делали те же самые ошибки распознавания, что и компьютеры, — например, вместо крыла самолета на фоне лесного массива они видели женщину, сидящую перед зеркалом.