Ежедневно каждый из нас оставляет огромное количество цифровых следов. Вы зашли по пути с работы в MacDonald’s, расплатились кредиткой за те самые кеды на распродаже, лайкнули пост бывшего с запасного аккаунта и думаете, что эти тайны умрут вместе с вами. На самом деле, вся эта информация фиксируется и сохраняется (чаще всего, в обезличенном виде) в цифровом пространстве. Долгие годы этот громадный массив данных лежал на серверах и в «облаках» мертвым грузом, но в начале 2000-х человечество задалось вопросом: как извлечь из больших данных пользу? И нашло ответ.

Какая дата?..

Big Data — термин довольно «гиковский». Точнее как: его много где используют, он витает в воздухе, но истинная его суть известна не всем. Big Data — это большой массив данных, сформированный как раз из тех самых цифровых следов, неизбежно оставляемых человечеством. Объем этой информации настолько огромен, что не умещается в традиционные базы данных. Дальше толкования расходятся: часть исследователей называет большими данными «сырые» следы сами по себе, часть считает, что современный термин big data можно применять только к обработанным и структурированным с помощью специальных инструментов данным. В России популярнее второй подход.

Словосочетание «Big Data» в качестве определения большого массива данных, нуждающихся в обработке, впервые употребил редактор журнала Nature Клиффорд Линч в спецвыпуске от 2008 года, посвященном взрывному росту мировых объемов информации. Линч, как и его знаменитый режиссер-однофамилец, нащупал важнейший тренд, который с годами будет только крепнуть. По данным IBS, к 2008 году было накоплено 0,18 зеттабайта данных (1 зеттабайт — это 1 млрд терабайт), к 2011 году — 1,76 зеттабайта. В 2015-м в мире каждые десять минут генерировалось столько же данных, сколько за весь 2003 год. Сейчас объем данных в интернете удваивается каждые 1,5 года. По оценке сервиса Statista, в 2020 году интернет «весил» 59 зеттабайт, а уже в 2025 году его объем составит свыше 200 зеттабайт.

Нефть будущего

Все слышали избитое выражение «данные — это новая нефть». Но данные — это лучше, чем нефть, потому что на их игле можно сидеть вечно. По информации исследователей из Expert Market Research, капитализация рынка Big Data в 2020 году превысила 208 млн долл. Он остается одним из самых быстрорастущих сегментов мировой экономики: за 5 лет его объем вырастет еще как минимум в 2 раза и к 2026 году составит уже 450 млн долл.

Главные источники этих полезных, во всех смыслах, «ископаемых» — новые сферы, которые, как и Big Data, родились и расцвели в последние пару десятков лет. Это интернет вещей и подключенные к нему устройства: смартфоны, «умные» часы, автоматические кормушки для животных; соцсети; банковские транзакции, покупки в онлайн-магазинах, поездки на такси и каршеринге — в этом случае Big Data скапливается на стороне компаний, предоставляющих услугу; статистика городов и государств: данные о перемещениях, рождаемости и смертности; медицинские анализы и диагнозы. Конечно, рождались, болели и умирали люди и много миллионов лет до этого, вот только раньше это никак не фиксировалось (летописец Нестор не в счет) и поэтому не могло стать материалом для анализа.

Зеттабайты данных накапливаются у банков, ритейлеров и государства. Что с ними происходит дальше? Есть два пути: компании могут или самостоятельно обработать их и использовать в собственных целях, или не заморачиваться и сгрузить сырую базу тем, кому она нужнее. Обработанные данные ценятся гораздо больше, но превратить эту бесформенную массу в стройный ряд цифр — непростая задача. Многие компании строят на ней отдельный бизнес.

Инструментов работы с Big Data несколько. Основной — он называется MapReduce — разработал Google, один из крупнейших в мире генераторов больших данных. Если упрощать, то обработка информации происходит на большом количестве серверов (узлов), которые образуют кластер. Каждый сервер выполняет одинаковые элементарные задания по обработке (map), а потом все результаты сводят воедино (reduce). Этот принцип лежит в основе многих других конструкторов и облачных хранилищ.

После обработки и разложения по полочкам большие данные превращаются в понятную стройную информацию, с которой можно работать дальше. Количество переходит в качество. Но, погодите, кому вообще важно знать, где и когда мы поставили лайк, сколько раз в день кормим кота и как провели выходные? Тем более, кто готов за это платить?

Кому это надо

Потенциал использования Big Data огромен. Все эти на первый взгляд незначительные детали дают статистически обоснованное представление о наших предпочтениях. А знания о них становятся главным козырем в рукавах тех, кто хочет нам что-то продать. Знакомый всем пример: я лайкаю в Instagram страницы магазинчиков с минималистичной одеждой — реклама этих магазинов выскакивает у меня перед глазами во всех соцсетях и браузерах, я удивляюсь, «как они узнали», и послушно покупаю. Прошлые выходные я провел в Никола-Ленивце (об этом рассказал мой навигатор) и теперь повсюду вижу рекламу туров выходного дня в Подмосковье, Суздале и Коломне. И так далее, и так далее.

«Умный» маркетинг — самый распространенный и очевидный способ монетизировать Big Data. Но не единственный. Где еще применяются большие данные:

  • Государственное управление. О том, исходя из каких соображений обычно выдвигаются законопроекты в России, мы сейчас не будем. Факт в том, что некоторые решения в сфере здравоохранения, занятости населения, борьбы с преступностью и реагирования на чрезвычайные ситуации принимаются как раз на основе обработанных данных из разных регионов страны. Средняя зарплата, продолжительность жизни, количество пожаров и краж дает представление о том, в чем на самом деле нуждается город.

  • Производство и продажи. Раньше у магазинов и предприятий образовывались гигантские нереализованные остатки, которые портились, выходили из моды и их невозможно было продать. Это наносило большой урон по экономике компаний. Благодаря большим данным бизнес получил возможность предсказывать спрос на те или иные товары в разных районах и завозить в один магазин, например, больше арбузов, а в другой — больше колбасы.

  • Медицина. Данные, которые собираются в клиниках и благодаря, так называемым, healthy-девайсам (например, фитнес-браслеты), открывают огромные возможности для индустрии здравоохранения. На основе данных анализов и показателей активности людей можно ставить более точные диагнозы, отслеживать действие лекарств в динамике, эффективнее бороться с пандемией, в конце концов (статистика заболеваемости и смертности, отслеживание контактов заболевших — все это big data).

  • Спорт (что? — да!). Анализ того, как двигается игрок во время матча, сколько он пробегает и насколько эффективно действует в связке с другими игроками команды помогает клубам оценивать и отбирать перспективных спортсменов и разрабатывать стратегию в борьбе с каждым противником.

Темная сторона Big Data

Большие данные кажутся спасением для человечества, раньше блуждавшего в сумерках разрозненной неструктурированной информации. Они помогают искать лекарства от рака и предотвращать экологический кризис, создавать умные города, избавляться от пробок и даже оптимизировать государственный бюджет: так, в Германии сэкономили около 15 млрд евро, которые должны были пойти на пособия по безработице людям, получающим деньги безо всяких на то оснований (министерство подняло и проанализировало данные об их банковских транзакциях).

Но у этого явления есть и темная сторона. Во-первых, систематизация больших данных требует огромных цифровых мощностей. Из-за этого сферу продажи Big Data фактически монополизировали крупные игроки. Кроме того, работа с большими данными предполагает серьезные затраты электроэнергии, что, в свою очередь, негативно влияет на экологию. Помните, как Илон Маск вдруг понял, что майнинг криптовалют — неэкологичный бизнес и обрушил котировки биткоина? Так вот, он еще не добрался до Big Data.

Во-вторых, хранение и обработка данных, связанных с поведением и предпочтениями людей, — соблазнительная цель для хакеров. Уже не раз в современной истории в открытый доступ утекали данные профилей в соцсетях и пароли от сайтов, открывая возможности для взломов и кибератак. В-третьих, данные могут использоваться не только официально для роста продаж, но и недобросовестно: например, политиками для влияния на результаты выборов.

Даже если речь не идет о преступном использовании больших данных, потребителям не хочется, чтобы информацию об их ежедневной активности получали третьи лица. Поэтому главный принцип сбора Big Data — добровольность и обезличенность. Обычно, скачивая приложение, устанавливая программу на компьютер или заключая договор с клиникой, вы автоматически подписываетесь под согласием на то, чтобы компания продавала собранные данные о вас. Поэтому инициатива Apple дополнительно спрашивать пользователей в новой версии iOS разрешение отслеживать данных каждым установленным приложением (тот самый пуш «Попросить не отслеживать») выглядела как мини-революция.

Постепенно общество утвердилось в понимании того, что большие данные — это большая сила, которую нужно контролировать. Самый всеобъемлющий и строгий документ по регулированию сферы был принят в 2018 году в Германии. Он называется GDPR, или Всеобщий регламент по защите данных, и регулирует все, что касается сбора, хранения и использования данных онлайн-пользователей.

За несоблюдение прописанных в GDPR правил уже были оштрафованы такие гиганты, как British Airways (204 млн евро за несоблюдение мер цифровой безопасности, из-за которого личные данные полумиллиона клиентов утекли в сеть), сеть отелей Marriott (110 млн евро), Facebook (5 млрд евро за передачу личных данных пользователей британской фирме Cambridge Analytica).

Что в России

Россия потенциал рынка больших данных оценила совсем недавно, поэтому ни регулирования на государственном уровне, ни отечественных бизнес-инструментов для работы с big data у нас по сути пока нет. При этом, перспективы огромны: по данным Ассоциации больших данных и консалтинговой компании Boston Consulting Group, в 2019 году капитализация российского рынка Big Data составляла 30 млрд рублей, а к 2024 году должна превысить 300 млрд рублей.

В России, как и во всем остальном мире, главными акторами на этом рынке остаются крупные компании, которые все активнее используют возможности big data. Так, трекеры от «Яндекс.Метрики», которые собирают данные пользователей, а затем продают их рекламным сетям, есть на 52% сайтов на русскоязычных доменах, Mail.ru — на 42%, а Liveinternet — на почти 40%.

Госрегулирование старается успеть за стремительно развивающимся рынком, но получается пока не очень. Единственный действующий сегодня документ в этой сфере был принят в январе 2021 года. Он называется «Информационные технологии. Эталонная архитектура больших данных». Документ задумывался как русскоязычная адаптация одноименного европейского стандарта, но пока что зарегламентировал только определение терминов, связанных с big data (в ближайшее время планируется принять еще восемь государственных стандартов в этой сфере).

Недавно стало известно, что Минцифры планирует создать государственный оператор big data, который выступит в роли контрагента в работе с государственными обезличенными данными. Оператор будет объединять в себе функции полноценного игрока на рынке и регулирующей организации. Таким образом, российские и международные компании смогут покупать пакеты обработанных государством данных, но для работы с информацией стратегически важных отраслей потребуются разрешения профильных ведомств.

Вместо выводов

Рынок больших данных — один из самых молодых и при этом уже доказавших свою перспективность рынков в мире. В ближайшие 20 лет единого стандарта по использованию big data мы вряд ли увидим, но точно застанем много интересного: конкуренцию бизнес-гигантов и государства, новые технологические решения и кардинальные изменения нашей повседневной жизни, которые происходят уже сегодня.


Источник: Павел Мартышев, технический директор (СТО) hh.ru

Версия для печати (без изображений)   Все новости