В компании Algebraix Data недавно представили свою «алгебру данных» — новый подход к хранению данных и доступу к ним. Пользуясь собственными методиками, в компании предлагают заказчикам сервисы для анализа Больших Данных, но применение технологии может быть гораздо шире, например она могла бы стать основой универсального языка запросов.

Судя по заявлениям создателей, изобретенный ими способ работы с данными способен произвести революцию в этой области, подобно тому как это произошло 40 лет назад с появлением реляционных принципов. Об «алгебре данных» рассказал недавно портал Datanami. Представляем вниманию читателей Computerworld Россия выдержки из этой публикации.

Истоки

Когда Эдгар Кодд начал работать над теорией хранения данных, он собирался воспользоваться строгими математическими принципами, основанными на теории множеств. Реализовать эту идею ему не удалось, но Кодд изобрел реляционные базы данных, которые стали основой программного обеспечения для бизнеса на следующие три с половиной десятка лет.

К концу 2000-х стало понятно, что реляционные базы уже не справляются с гигантскими объемами полуструктурированных и неструктурированных данных, и начинается расцвет новых технологий — баз NoSQL, объектно-ориентированных файловых систем и Hadoop. Эпоха Больших Данных положила конец господству реляционных СУБД с языком запросов SQL в мире систем доступа к информации.

В это время математик Гари Шерман, специалист в области современной и линейной алгебры, теории вероятности, топологии и функционального анализа, начал работать над новым способом репрезентации данных. Вместо хранения информации в строках и столбцах, вложенных документах JSON, в ребрах графа или парах ключ-значение он предлагает математическую репрезентацию данных, подобную той, которую изначально планировал Кодд.

Шерман, профессор Технологического института Роуз-Халман, начал работу с изучения вышедшего в 1968 году доклада Дэвида Чайлдса «Описание структуры данных на основе теории множеств». Этот доклад Кодд положил в основу своей работы над реляционной теорией. Шерман и его коллега Робин Блор представили проведенное ими исследование в книге «Алгебра данных: основа экономики данных», опубликованной в 2015 году.

По мнению Шермана, Чайлдс верно определил теорию множеств как логичную математическую основу для репрезентации данных и предложил расширенную теорию множеств на роль инструмента создания «алгебры данных». Данные в математической репрезентации можно опрашивать с помощью операций над множествами — объединения, пересечения, декартова произведения и т. д. При таком подходе множества и операции над ними обеспечат полную независимость от физических структур данных.

Шерман вскоре пришел к выводу, что, хотя Чайлдс и выбрал верную цель, для ее достижения расширение теории множеств не требуется. В конечном счете Шерман покинул университет, перешел в компанию Algebraix и целиком посвятил себя разработке основанной на теории множеств Цермело-Френкеля «алгебры данных», позволяющей создавать произвольные репрезентации любых данных.

Радикальная оптимизация запросов

Компанией Algebraix заинтересовался предприниматель Чарли Сильвер, на собственном опыте знакомый со сложностями анализа больших объемов данных. Он был сооснователем RealAge, медицинского сайта, созданного в начале 2000-х. Посетитель сайта заполнял анкету о своем здоровье и образе жизни, после чего алгоритмы подсчитывали его «реальный» возраст и выдавали рекомендации по «омоложению». Сильвер рассказывает, что главной проблемой сайта было отсутствие эффективных аналитических инструментов, хотя для того, чтобы обеспечить сопоставление высокого уровня холестерина, рациона питания и прочих характеристик, тратились огромные средства и привлекались лучшие специалисты. В 2007 году RealAge был продан компании Hearst примерно за 60 млн долл.

Увидев в обещаниях Шермана рациональное зерно, Сильвер решил инвестировать в его компанию, а позднее стал ее генеральным директором. По его мнению, работа Шермана способна оказать серьезное влияние на мир анализа Больших Данных. Сильвер отмечает, что любые данные можно представить в виде алгебраических множеств, после чего работа с данными кардинально ускоряется независимо от того, какие решения для этого используются.

Чтобы проиллюстрировать возможности Algebraix, Сильвер проводит аналогию с вращающейся картотекой Rolodex. По его словам, когда вы вводите на компьютере запрос, например поисковый, то каждый раз перебираете весь Rolodex, делая полный оборот. А при использовании алгебраического метода вычисления выполняются в кэше, то есть всякий раз, когда что-то было подсчитано, вы получаете неизменяемое алгебраическое множество, которым можно будет пользоваться снова. Это и обеспечивает молниеносную скорость: системе не нужно просматривать 99,9% нерелевантных данных, тогда как в традиционной вычислительной среде весь срез данных просматривается при каждом запросе.

Основатель компании Algebraix математик Гари Шерман целиком посвятил себя разработке основанной на теории множеств «алгебры данных», позволяющей создавать произвольные репрезентации любых данных
Источник: Algebraix

Алгебра Больших Данных

Сейчас в Algebraix используют свою технологию в сервисах анализа Больших Данных. Как заявляет Сильвер, компания готова предоставить заказчикам за 10 тыс. долл. в месяц аналитические возможности, которые у таких вендоров, как McKinsey, Bain, IBM или Oracle, обойдутся в миллионы.

Сегодня среди клиентов Algebraix — некоммерческая образовательная организация Khan Academy и сеть фастфудов из Южной Калифорнии. Компания тесно сотрудничает с Microsoft: разработанная технология работает поверх облачной платформы Microsoft Azure.

В этому году в Algebraix собираются выпустить свой первый «коробочный» продукт — оптимизатор SQL для Hadoop, который ускоряет выполнение запросов, не требуя предварительного преобразования данных в алгебраическую форму и знакомства с кодом Algebraix. В компании работают над тем, чтобы ее технологией можно было пользоваться с документными и графовыми базами данных (в Algebraix создали собственную семантическую СУБД под названием SPARQL), и рассматривают возможность создания расширений для популярных языков программирования, включая Java, C++, PHP и Ruby.

На данный момент сложно сказать, как дальше пойдут дела у «алгебры данных». Пока технология разрабатывалась, в компании держали ее в строгом секрете, а теперь готовятся сделать попытку преобразовать ее в коммерческий продукт. О потенциале идеи красноречиво говорит, к примеру, тот факт, что Робин Блор, являясь видным аналитиком ИТ-индустрии, заинтересовался Algebraix и даже стал ее технологическим евангелистом. Обладатель кандидатской степени в области математики и компьютерных наук, Блор считает Гари Шермана лучшим из известных ему современных специалистов и убежден в безупречности предложенного математического аппарата.

Блор не сомневается, что «алгебраический» подход в конечном счете начнут применять в высокопроизводительных вычислениях, а также что в будущем он может стать основой универсального языка запросов. У технологии есть и ряд недостатков, в частности потребность конвертировать данные традиционных форматов в алгебраическую форму. Но приверженцы «алгебры данных» рассчитывают на то, что, когда смысл и преимущества этого подхода получат широкую известность, он приживется и станет неоъемлемой частью технологического ландшафта.