На сайте GitHub опубликованы исходные коды системы управления данными OpenHouse, разработанной в компании LinkedIn.
Система OpenHouse предназначена для управления таблицами в архитектуре данных типа lakehouse. Это гибридная архитектура, сочетающая в себе преимущества озер данных, где хранятся неструктурированные данные, и хранилищ структурированных данных реляционного типа. Пользователи хранилищ lakehouse создают реляционные объекты в виде таблиц поверх структурированных или полуструктурированных данных с помощью вычислительных механизмов — например, Apache Spark, Trino и Apache Flink. Метаданные для таблиц хранятся в каталогах (Apache Iceberg, Delta, Hudi, Apache Hive Metastore), а сами данные — в распределенном хранилище — например, на основе Hadoop.
Система OpenHouse призвана решить проблему унифицированного управления элементами хранилищ типа lakehouse. В LinkedIn успешно использовали такие хранилища, построенные с использованием решений с открытым исходным кодом, но пользователям приходилось иметь дело с задачами инфраструктуры низкого уровня: оптимизацией расположения файлов в хранилище, удалением данных по истечении заданного времени во избежание исчерпания квоты, репликацией данных по географическим регионам и управлением разрешениями на уровне файлов. С помощью OpenHouse многие из этих задач решаются автоматически. Пользователи работают исключительно с таблицами, а не с файлами и не с данными в распределенном хранилище.