Использование больших данных не даст точного прогноза

Результаты недавних голосований, особенно президентских выборов в США и референдума Великобритании о выходе из Европейского Союза (более известного как Brexit), многих удивили. В обоих случаях претензия после принятия решения выглядела примерно так: «В эпоху больших данных, как исследователи и эксперты могли ошибиться в своих прогнозах?»

Использование собранных данных для прогнозирования событий не должно ослеплять людей, стоящих за ними.

Я не претендую на то, что у меня есть ответ, хотя, несомненно, остается открытым вопрос, можно ли считать опросы с с выборкой в несколько тысяч «большими» данными. Статистика опроса, вероятно, больше подпадает под рубрику средних данных.

Возможно, в этом и была проблема: если предварительный анализ и анализ перед референдумом могли бы получить доступ к данным миллионов избирателей, тогда результаты были бы менее удивительными? Или, возможно, важны не сами данные, а подход, который использует преимущества множества новых типов данных.

Технологии Big Data готовы изменить мировой порядок

Например, быстрые данные относятся к данным, которые требуют почти мгновенного доступа или анализа или которые актуальны только в течение очень короткого времени. На противоположной стороне информационной медали у нас медленные данные, которые накапливаются за относительно долгое время, а это означает, что в какой-то момент они могут стать холодными данными, которые распространяются на сотни лет назад.

Быстрая или медленная, горячая или холодная информация никому не нужна, если она грязная, то есть является неполной, непоследовательной или просто неверной.

Точно так же, как темная материя остаётся невидимой, но очень большой частью космоса (по некоторым оценкам, темная материя составляет 27 процентов массы Вселенной), темные данные представляют собой невидимую, но очень большую часть данных, которые собирает большинство корпораций.

Некоторые из них – это временные данные, такие как данные датчиков или информация о сетевой маршрутизации, и данные в реальном времени, такие как пользовательские (изменяющиеся) GPS-координаты. Иногда эти данные могут привести к скоропортящемуся пониманию: ценные данные с очень коротким сроком годности (например, когда вы обнаруживаете, что ваш роуминг-пользователь блуждает мимо одного из ваших обычных магазинов). Противоположностью являются целевые данные. При таргетировании, обработке и анализе эти данные дают владельцу ценную и долгосрочную информацию.

Возможно, есть способ синтезировать как большую, так и маленькую картину, то есть каким-то образом объединить как большие данные, так и наш вклад в эти данные: небольшие данные, которые возникают в результате наших повседневных действий.

Вместе с тем, нам пришлось бы преодолеть некоторые опасности. Например, нам нужно убедиться, что наши данные не станут кубовыми данными, когда третья сторона делится нашими данными с другой третьей стороной, и становится невозможным предсказать, где они, в конечном итоге, окажутся, или как они будут использоваться или интерпретироваться.

Нам потребуются некоторые гарантии того, что третьи стороны будут использовать ответственные данные, информацию, которая используется и передаётся, конфиденциально и гуманно.

Более многообещающим подходом может быть тот, который использует объемные данные, который объединяет как количественный, так и качественный анализ. Мудрецы могли бы издать реплику из нарративной медицины, которая использует историю болезни пациента в сочетании с традиционной медицинской практикой как способ понимания, диагностики и лечения болезни. Вместо того, чтобы гадать о том, что будут делать люди, например, о том, что сельские избиратели будут оставаться дома в день выборов, или что люди, которые сказали, что голосуют за «выход», но делают обратное в кабине для голосования – эксперты могли бы просто поговорить с людьми, выслушать их истории, а не просто смотреть на цифры. Назовите это нарративными данными.

Почему большие данные не помогают точно прогнозировать события