Большие данные (Big data) – это массивы любых неоднородных данных, как имеющих, так и не имеющих ценности, у которых чем быстрее растет объем, тем больше становится самих данных. При этом количество пакетов таких данных велико, а размер одного пакета небольшой.

Что в себя вмещает, к примеру, 1 терабайт данных? Это может быть 250 тыс. фотографий, сделанных 12-мегапиксельной камерой, или 250 фильмов, или 6,5 млн страниц текстовых документов. Это много или мало? Для размещения бумажного аналога такого количества информации потребуется более 1000 шкафов с документами. Очевидно много. Но… не  все данные, занимающие много места, принято называть большими данными, или big data. Термин применяется лишь к  тем, которые удовлетворяют принципу VVV, расшифровывающемуся как Volume, Velocity, Variety, что означает «объем, скорость обновления и разнообразие».

Поток из 150 Гб неоднородных данных в день считается большими данными

Взгляд в прошлое

Как работают технологии с big data

С RFID-метками жители мегаполисов сталкиваются постоянно, хотя могут этого и не замечать. Самый простой пример – покупка книги в книжном магазине. Под обложкой встречаются квадратные белые стикеры, под которыми, если их отклеить, есть металлические контакты и крошечный микрочип.

Такие метки, или транспондеры, хранят информацию об объектах, которым они присвоены. В случае с книгой это могут быть название, автор, цена и код магазина. Покупатель, выходя из книжного отдела, услышит сигнал на рамке.

На складе роль считывателя может выполнять соответствующий терминал.

А теперь представим, что такими метками оклеены абсолютно все товары на складе и их число увеличивается, как снежный ком, с каждой новой единицей произведенной продукции. И сотни тысяч позиций необходимо ежедневно вносить в базу данных. При этом данные о предыдущих товарах не удаляются. Рано или поздно мощности обычного компьютера не хватит ни на хранение, ни на вычисления таких больших данных. Такое под силу только центрам обработки данных (ЦОД), оснащенным суперкомпьютерами.

Big data помогли вернуть в национальный бюджет Германии 15 млрд евро

Экономный алгоритм

В мировой практике большие данные помогают предотвращать мошеннические операции со счетами клиентов. Так, компании MasterCard удается ежегодно спасти от кражи более 3 млрд долл. США.

Вычисления с big data используют IBM, Google, Facebook, VISA, а также министерства разных стран мира. В Германии, к примеру, большие данные помогли остановить незаконную выдачу пособий по безработице. При помощи технологии было установлено, что часть граждан получает их совершенно безосновательно.

В Южной Корее big data использовалась для борьбы с пандемией коронавируса. Данные о нарушениях режима собирались с камер наблюдения, мобильных телефонов, автомобильных GPS-модулей и кредитных карт. Приложение на основе собранной информации не только выписывало штрафы, но и оповещало пользователей о скоплениях людей и наличии в непосредственной близости заразившихся.

В России рынок больших данных находится в стадии становления. Его участниками являются такие компании, как «Яндекс», «Сбер» и Mail.ru.

Отечественный сервис Ctrl2GO предлагает различные технологические решения на основе big data, например систему автопилотирования на основе машинного зрения. Ее алгоритмы обрабатывают данные с сенсоров поезда и принимают решение о действиях на локомотиве менее чем за четверть секунды. Это гораздо быстрее, чем реакция любого машиниста, даже если он бодр и максимально сконцентрирован.

С ростом объема данных, с одной стороны, будет увеличиваться парк оборудования для вычислений. С другой стороны, будут сокращаться издержки на маркетинг, защиту банковских операций и обслуживание производственного оборудования за счет использования нейросетей, блокчейн-технологии и цифровых двойников.

Модель для сборки

Московские компании активно осваивают сектор big data и предлагают собственные ноу-хау в этой области. Вычисления с большими данными встречаются там, где есть непрерывный поток постоянно обновляющейся информации в виде цифр, текста, изображений, звуков или видео. Источниками таких данных в принципе могут быть:

соцсети, блоги и СМИ;
интернет вещей (IoT) и подключенные к нему устройства, как, например, в системе мониторинга воздуха Московского нефтеперерабатывающего завода;
данные компаний (транзакции, заказы товаров и услуг, поездки на такси и каршеринге, а также профили клиентов, как в электронных путевых листах Coca-Cola HBC Россия);
показания приборов (метеорологические станции, измерители состава воздуха и водоемов, данные со спутников, как в решениях по радиолокационному зондированию Земли от АО «Концерн «Вега»);
статистика городов и государств (данные о перемещениях, рождаемости и смертности);
медицинские данные (анализы, заболевания, диагностические снимки).

Big data – это основа для создания цифровых двойников скважин, турбин, зданий, сооружений и других объектов или явлений. Цифровые двойники существуют в виде компьютерной модели, которая в своих ключевых характеристиках дублирует объект и способна воспроизводить его состояния при разных условиях. По этому принципу работают виртуальные обогатительные фабрики компании «НТЦ «Бакор».

Хранение и вычислительную работу с большими данными обеспечивают суперкомпьютеры, подобные оборудованию АО «НИЦЭВТ» в рамках технологии высокоскоростного и низколатентного объединения серверов в высокопроизводительную вычислительную систему.

Кейсы ряда упомянутых выше столичных компаний мы подробно рассматриваем в статьях этого раздела нашего сайта.

Большие данные

Контроль над воздухом

Большие данные

Фабрика на ладони

Большие данные

Большие притоки, малые берега

Большие данные

Климат планеты в деталях