НЕЙТ СИЛВЕР: «Комплексная и детализированная модель, построенная на нелепых предположениях, не принесет пользы» |
«Большие Данные позволяют заглянуть глубоко, но больше — не всегда лучше», — предупреждает статистик Нейт Силвер, ставший одним из наиболее известных специалистов в США в области анализа данных, после того как в своем блоге FiveThirtyEight точно предсказал результаты президентских выборов 2012 года во всех 50 штатах.
«Чем больше у людей данных, тем выше соблазн выбрать из них подтверждение того, что они желают продемонстрировать», — подчеркнул он.
Изобилие данных — серьезная проблема в политике, где у многих прослеживается свой интерес в получении тех или иных результатов. Важна она и во многих других областях, начиная от медицины — где многие исследователи и журналы предпочитают увидеть работы, которые показывали бы интересные результаты, а не подтверждали отсутствие новостей, — и заканчивая прогнозированием землетрясений.
«В итоге вместо реальной глубины Большие Данные помогают выявить массу фиктивных связей и продемонстрировать наличие отношений, которые, по сути, являются случайным шумом», — указал Силвер в своем выступлении на недавней конференции RMS Exceedance в Бостоне.
Силвер ведет блог FiveThirtyEight, который теперь можно увидеть на страницах The New York Times, а также написал книгу The Signal and the Noise: why so many predictions fail — but some don’t («Сигнал и шум: почему не сбывается так много прогнозов, но некоторые все же оказываются верны»).
Известный статистик дает четыре совета, помогающие повысить эффективность анализа данных и использования полученных результатов.
Мыслите вероятностными категориями. Говорите о возможности, а не об абсолюте. Не бойтесь рисовать в своих прогнозах уровень неопределенности, ведь изучение общественного мнения допускает некоторую погрешность, даже если не вся ваша аудитория способна это понять. Вероятностные прогнозы на полную достоверность, конечно же, не претендуют.
Не отрывайтесь от реальности. Не забывайте о своих предубеждениях и мотивах, побудивших сделать то или иное заключение, а также о причинах, заставивших отказаться от других выводов. «Ваше поведение определяется вашими стереотипами», — указал Силвер.
Изучайте имеющиеся у вас данные и учитывайте возможные варианты перед выдачей прогноза. «Комплексная и детализированная модель, построенная на нелепых предположениях, не принесет пользы», — отметил Силвер.
Метод проб и ошибок полезен. Модели обычно хорошо работают в тех случаях, когда разрабатываются постепенно, с учетом обратной связи. «Как и в обычной жизни, к поразительным результатам здесь следует относиться с подозрением», — подчеркнул Силвер.