Поиск «золотой записи», позволяющий сформировать единый, точный и полный вариант записи клиента, — достойная цель, оправдывающая усилия по надежному сохранению. Сопоставление и консолидация записей — это только начало. Рассмотрим пути применения интеллектуальных правил с целью поиска оптимальных решений для очистки данных.

В стремлении к эффективности данных многие нередко упускают из виду важность надежного сохранения, приводящего к получению так называемой «золотой записи» (Golden Record). И все же сегодня этот окончательный шаг процесса сопоставления и консолидации записей более важен, чем когда-либо раньше. В современных компаниях наконец появилась возможность создать единую, точную и полную версию записи клиента.

Даже если вы приобрели лучший инструмент сопоставления и благодаря тщательному анализу построили политику сопоставления, которая обнаружит все дубликаты в базе данных, то как определить наиболее точный вариант данных для формирования «золотой записи»? Применение интеллектуальных правил вместо того, чтобы просто использовать последнюю по времени запись, — это новый подход, в рамках которого возрастает значение данных «золотой записи».

Принципы «золотой записи»

После завершения процесса сопоставления вы можете получить дублированные записи, объединенные в группы дубликатов и готовые к консолидации. Явные совпадения, например John Smith с адресом 123 Main St. и John Smythe с адресом 123 Mein Street, определены как содержащие одинаковую информацию. Но что делать дальше? Как быть с обнаруженными дубликатами?

Следующий логический шаг в методологии сопоставления — выбор уникальной или предпочтительной «золотой записи». Процесс выбора записей, которые будут сохранены, заключается в отборе лучшего кандидата. Однако понятие «лучший» для сохранения может меняться в широких пределах. На него влияют структура данных, источник данных, способ заполнения данных, типы хранимых данных и иногда особенности бизнес-правил. Такие методы можно применять для реализации изменений определенных типов при выполнении сохранения.

Традиционные способы сохранения

Какую запись следует сохранить, а какую отбросить? Чаще всего используются три метода определения сохраняемой записи. Метод недавней записи заключается в упорядочении записей с метками времени от самых новых до самых давних. Самая свежая запись считается подходящей для сохранения. Метод наиболее часто встречающейся записи сравнивает записи, содержащие одинаковую информацию, определяя их корректность. Повторение записей свидетельствует, что информация стабильна и поэтому надежна. Наконец, метод наибольшей полноты учитывает фактор полноты в качестве основного показателя корректности. Записи, содержащие больше значений, внесенных в каждое доступное поле, считаются наиболее подходящими кандидатами для сохранения.

Такие методы широко применяются в схемах сохранения, но корректность во многих случаях оказывается сомнительной. Эти методы применяются почти к любым типам данных, поэтому основания сохраняемой записи подчиняются только «общим» правилам. Однако, применяя эталонные данные, администраторы баз данных могут строить более эффективные схемы для сохранения.

Переход к эталонным данным

В результате применения эталонных данных при сохранении меняется действие правил. Использование логики самых недавних, наиболее частых и наиболее полных записей в действительности дает в большей степени эстетическую основу для выбора. В идеале выбор записи для сохранения должен основываться на глубоком понимании данных.

Здесь важны эталонные данные. Главное, что акцент делается исключительно на способности консолидировать самые качественные данные. Благодаря эталонным данным администраторы получают возможность понять истинный смысл данных и подготовить оптимальные решения по сохранению. А изменение взгляда на то, как следует определять качество данных, в свою очередь меняет нормы типичных схем сохранения.

Решения по сохранению

Рассмотрим ряд примеров, показывающих, как эталонные данные и качество данных влияют на решения по сохранению.

1. Качество адресов

Качество адресов имеет большое значение, и отделение добротных данных от плохих играет важную роль при принятии решений по сохранению. В случае с адресами перенос приоритета на корректность адресов позволяет принимать более эффективные решения о схеме сохранения по сравнению с выбором наиболее частых (см. таблицу 1).

 

Список адресов

2. Качество записей

Можно также утверждать, что корректные данные могут существовать в одной группе совпадающих записей. В таких случаях, как этот, можно оценить общее качество данных, учитывая значимость других факторов, влияющих на общее качество данных. Например, возьмем данные, показанные в таблице 2.

 

Качество записей

В этом случае лучший подход — оценить несколько элементов каждой записи в группе. Поскольку вторая запись содержит действительный номер телефона, ей можно назначить больший вес или более высокую важность, чем третьей записи, хотя третья запись более полная.

Приведенные таблицы показывают, что методологии и логика, используемые для сохранения записей, определяются в первую очередь качеством данных, независимо от того, имеем мы дело с данными о контактах, продуктах или другой формой данных. Важность качества данных превосходит и даже сводит на нет другие определяющие факторы, в том числе полноту и новизну записи. Например, в таблице 3 можно указать, что вторая запись — самая свежая, и потому следует сохранить ее. Но, внимательно оценив качество данных, можно увидеть, что во второй записи содержится недействительный номер телефона. Такой интеллектуальный подход открывает перед компаниями путь к более глубокому пониманию и позволяет справедливо заключить, что первая запись содержит более качественные данные и потому должна быть принята как «золотая».

 

Очищенные записи

Выбираем новую перспективу

Какой бы способ определения качества данных ни был выбран, чрезвычайно важно сохранять только лучшие элементы данных, чтобы получить максимально точную и корректную информацию. Успешное использование качества данных в будущем зависит от нашей новой и уникальной способности определять качество контактных данных и выбирать записи для сохранения в зависимости от качества содержащейся в них информации.

Новый метод выбора «золотой записи» обеспечивает гораздо более эффективный подход к сохранению записей. В конечном итоге удается построить автоматизируемую систему, которая позволяет принимать более интеллектуальные и точные решения по очистке данных. Полученный единый результат отличается высокой достоверностью и может с успехом применяться для ведения бизнеса.