Как полагает Сергей Карелов, прежде чем начинать проекты, связанные с Большими Данными, надо разобраться с возникшими вокруг них мифами |
Если верить «циклу зрелости» Gartner, в жизни любой технологии наступает момент, когда первоначальный ажиотаж сменяется разочарованием, связанным с тем, что на нее возлагалось слишком много надежд.
Как считает Сергей Карелов, председатель совета Лиги независимых экспертов, именно так сейчас обстоит дело с Большими Данными и будет обстоять еще пару лет. В течение этого времени 60% проектов, связанных с Большими Данными, будут заканчиваться на стадии «пилотов». Свои соображения он высказал на форуме Big Data 2015, организованном издательством «Открытые системы».
Чтобы попасть в оставшиеся 40%, полагает Карелов, надо отдавать себе отчет в том, что вокруг Больших Данных за время Больших Надежд создано немало мифов, которые он разбил на три группы — мифы «о проектах», «о данных» и «о людях».
В «проектную» группу входят мифы о том, что все вокруг уже используют Большие Данные, и поэтому надо торопиться с внедрением соответствующих систем (на самом деле даже на Западе реально работают с такими системами лишь 13% компаний); что Большие Данные представляют некую ценность «по умолчанию» (на самом деле — только если аналитики найдут в них полезную информацию); что «продвинутая аналитика» есть усовершенствованная версия «обычной» (на самом деле последняя — чисто описательная, а Advanced Analytics — предсказательная, и для нее нужны другие инструменты и другой аналитический опыт); что если собрать огромный объем данных из множества источников, то они станут «непредвзятыми» («предвзятость» возникает уже на этапе отбора источников и даже целеполагания). И наконец, что Большие Данные позволят отказаться от традиционных подходов.
Из мифов «про данные» наиболее интересно звучит несогласие с популярным ныне тезисом о том, что 80% всех данных — неструктурированные. Это не так, полагает Карелов, все данные структурированы, просто структура может быть неочевидной. И первым делом надо попытаться осознать эту структуру.
Другой миф состоит в том, что «чем больше данных, тем точнее предсказания на их основе». Карелов советует рассмотреть вопрос, не лучше ли заняться изучением классических малых данных, если Большие данные все равно не обеспечат нужной точности предсказаний.
Что до кадрового вопроса, то главный из мифов — о том, что с развитием инструментария по операциям с Большими Данными исчезнет дефицит специалистов по работе с ними. Уже сейчас, по оценке Карелова, заполнена лишь треть вакансий категории Data Scientist, а в 2016–2017 годах положение с кадрами станет еще хуже.
Выводы, вытекающие из мифов и их разоблачений, впрочем, применимы к любой ситуации: тщательно обдумайте проект и ни в коем случае не начинайте его, не решив кадровую проблему.