Глоссарий

Big data: что это такое, главные источники больших данных

автор
Автор Максим Пушкарёв
clock
На чтение 7 минут
Big Data - расшифровывается как массивы объемной информации, для обработки которых используются специальные инструменты. Итоговые данные применяются в самых разных сферах человеческой деятельности, начиная от получения статистики и заканчивая выстраиванием различных прогнозов.

В данной статье мы расскажем:

Понятие Big Data (большие данные) появилось в 2008 году благодаря редактору журнала Nature Клиффорду Линчу.

Основные характеристики Big Data

Раньше (до 2011 г.) анализ больших данных проводили лишь для статистических и научных исследований. Однако информации накопилось огромное количество, появилась необходимость систематизировать ее и использовать на практике. В настоящее время Big Data представляет собой не только саму информацию, но и способы ее обработки и применения, а также поиска необходимых данных в больших массивах.

Сначала компания Meta Group выделила базовые характеристики больших данных:

  • Volume – объем данных – не менее 150 Гб в сутки.
  • Velocity – скорость накопления и обработки информационных массивов. Большие данные постоянно обновляются, в связи с чем требуются интеллектуальные технологии, чтобы обрабатывать их в режиме онлайн.
  • Variety – разнообразие типов данных. Информация может быть частично или полностью структурированной либо неструктурированной. Так, в социальных сетях данные разнородны: они включают фото, видео и текстовый формат.

Теперь к этим характеристикам добавлены еще три:

  • Veracity – достоверность данных и проведенного над ними анализа.
  • Variability – изменчивость. Потоки данных могут обновляться с разной скоростью в зависимости от социальных событий или сезонности. Если поток данных нестабилен и постоянно изменяется, то анализировать его становится труднее.
  • Value – ценность, или значимость. Большие данные отличаются разнообразием, они имеют разную степень сложности для восприятия и обработки. К простым данным можно отнести заметки в социальных сетях, к сложным – историю банковских операций.

Главные источники больших данных

  1. Интернет вещей (IoT), а также подключенные к нему устройства.
  2. Социальные сети, блоги и средства массовой информации.
  3. Данные компаний: денежные операции, поездки на такси, заказы товаров и услуг, информация о клиентах.
  4. Показания измерительных приборов: данные с метеорологических станций, сводки о составе воздуха и состоянии водоемов, информация со спутников.
  5. Статистика стран и городов: данные о рождаемости и смертности, информация о перемещениях.
  6. Медицинские сведения: результаты анализов и диагностики, описание заболеваний.

Благодаря передовым вычислительным системам есть возможность получить моментальный доступ к массивам Big Data. Для хранения такого огромного количества информации применяют дата-центры, оснащенные мощнейшими серверами.

Кроме стандартных физических серверов используют облачные технологии для хранения Big Data. Они подразделяются на два вида: data lake («озера данных»), представляющие собой хранилища большого количества неструктурированной информации из какого-то одного источника; Hadoop – фреймворк, включающий набор утилит, способный разрабатывать специальные программы и проводить распределенные вычисления.

Принципы работы с большими данными

Как следует из определения термина, суть работы с Big Data сводится к некоторым базовым принципам:

  • Горизонтальная масштабируемость

Объем больших данных может быть абсолютно любым, поэтому система для обработки информации должна обладать свойством расширяемости. Если, например, объем данных вырос втрое, то, соответственно, нужно установить в 3 раза больше машин в кластере, чтобы система могла полноценно работать.

  • Отказоустойчивость

Системы обработки данных должны обладать горизонтальной масштабируемостью, т.е. число машин в кластере можно увеличивать в соответствии с потребностями. Так, в состав Hadoop-кластера Yahoo входит 42 тыс. машин. В этих машинах неизбежно будут происходить поломки. Для выполнения задач, связанных с обработкой Big Data, необходимо брать в расчет возможные неисправности.

  • Локальность данных

В крупных системах по обработке Big Data информация распределяется по большому количеству машин. Если данные хранятся на одном сервере, а обрабатываются – на другом, то стоимость их передачи может оказаться выше, чем затраты на обработку. Именно по этой причине необходимо следовать принципу локальности данных: хранить и обрабатывать их на одной и той же машине.

В 2022 году все средства работы с Big Data соответствуют перечисленным принципам. Для этого приходится разрабатывать новые методы и средства обработки данных.

Основные методы обработки информации

Для анализа Big Data в основном применяют следующие технологии: Machine Learning, Data mining, визуализация, анализ (статистический и предиктивный), нейросети, имитационные модели, смешение и интеграцию данных.

  • Machine Learning

Машинное обучение – это инструмент, позволяющий извлекать из потока информации необходимые данные. Для этого используются математические модели данных, а обучение происходит поэтапно или самостоятельно по алгоритму.

  • Нейронные сети и распознавание образов

Суть искусственных нейросетей – имитация работы нейронных сетей живых организмов. Математические модели создают с помощью программных и аппаратных технологий.

Алгоритм работы нейросетей следующий: данные поступают на вход, идут по нейронам, а на выходе получается обработанная информация.

  • Data mining

Термин Data mining («добыча данных») ввел в 1989 г. математик Григорий Пятецкий-Шапиро. Метод работает так: имеется массив с данными разного рода, которые подвергаются интеллектуальному анализу, благодаря чему в массиве выявляются определенные закономерности.

  • Краудсорсинг

Иногда машина в одиночку не справляется с обработкой данных, и тогда к анализу присоединяются группы людей. Например, работая с Big Data в маркетинге, люди собирают и обрабатывают данные социальных опросов из различных источников или решают другие подобные задачи. Такие материалы могут быть предоставлены в неоцифрованном виде, содержать различные ошибки или сокращения, которые не понятны компьютеру. Человек способен рассортировать информацию, привести ее в тот формат, который будет понятен машине.

Предиктивная аналитика означает «предсказательная», «прогнозная». На основе накопленной информации осуществляется прогноз, цель которого – ответить на вопрос «Что будет дальше?». Суть методики сводится к следующему: изучается база данных за определенный отрезок времени; вычисляются параметры, повлиявшие на результат; с помощью математических функций или нейронных сетей строится модель, благодаря которой предсказываются события.

  • Статистический анализ

Собирают информацию и проводят расчет по заданному алгоритму, чтобы получить результат.

Статистическими методами являются A/B тестирование и анализ временных рядов. A/B testing, или split testing, представляет собой маркетинговое исследование, при котором проводится сравнение контрольной группы элементов с исходными данными и тестовых групп, в которых параметры изменены. Благодаря этому можно выяснить, какие факторы способствуют улучшению целевых показателей.

  • Имитационное моделирование

От предиктивной аналитики эта технология отличается тем, что прогноз составляется не на реальной информации, а на данных, которые возможны теоретически или являются конечной целью. Математические модели строят с помощью технологий Big Data, проводя эксперимент в так называемой виртуальной реальности, т.е. имитационной среде.

  • Визуализация аналитических данных

Проанализированные данные визуализируют с помощью виртуальной реальности или «больших экранов». Подавляющую часть информации человек получает через зрение, поэтому картинка воспринимается легче, чем обычный текст. Карты, графики, диаграммы, 3D-модели – вот несколько примеров визуализации Big Data.

  • Смешение и интеграция данных

Чаще всего информация собирается из различных источников и может предоставляться в разных форматах. Для проведения качественного комплексного анализа информацию нужно не только собрать, но и отсортировать. Автоматически загружать необработанные данные в базу нельзя. Сначала проводят интеграцию и смешение, то есть приводят информацию к единому формату. После этого можно анализировать данные и проводить их дальнейшую обработку.

Сферы использования Big Data

  • Государственное управление. При изучении и анализе Big Data правительственные органы принимают важные решения в областях здравоохранения, экономического регулирования, обеспечения безопасности, борьбы с криминалом, занятости населения и других социальных сферах.
  • Промышленность. Использование методов Big Data делает производственные процессы более прозрачными, а такой инструмент, как предиктивная аналитика, помогает составить точный прогноз относительно спроса на продукцию и, соответственно, план расходов.
  • Медицина. В современном мире медицинская информация собирается не только соответствующими учреждениями, но и различными гаджетами, например, фитнес-браслетами. Сбор и анализ огромного массива медицинских данных оказывает неоценимую помощь в развитии здравоохранения. Методы Big Data нужны для постановки точных диагнозов, разработки лекарственных средств и способов лечения, борьбы с эпидемиями.
  • Ретейл. Сетевые и электронные торговые точки развиваются бешеными темпами благодаря сбору и анализу Big Data. Проще делать прогноз продаж, формировать ассортимент, а коммерческие предложения и доставка товаров теперь персонализированы.

  • Интернет вещей. Big Data и интернет вещей тесно взаимосвязаны. Многие бытовые и промышленные приборы оснащены соответствующими технологиями, собираются огромные базы данных, помогающие регулировать работу всех этих приборов.
  • Рынок недвижимости. При покупке квартиры теперь не нужно тратить свое время на поездки по объектам и общение с продавцами. Девелоперы собирают огромное количество информации о недвижимости, анализируют ее и выдают клиенту интересующие его результаты.
  • Спорт. Серьезные клубы при анализе Big Data выбирают наиболее перспективных спортсменов, а также разрабатывают командную стратегию для любого соперника.
  • Бизнес. Основы Big Data применяются в трех важнейших бизнес-направлениях. Первое – адресность новых услуг и сервисов, которые будут востребованы у определенных групп населения. Второе – анализ отзывов клиентов о продукции с целью ее улучшения. Третье – аналитические методы, способствующие привлечению и удержанию клиентов.

Проблемы работы с большим объемом данных

Основная сложность при анализе Big Data – высокая стоимость их обработки. Сюда входят и заработная плата специалистов, которые обслуживают гигантские массивы данных, и покупка дорогого оборудования. К тому же, компьютеры нуждаются в периодическом обновлении, чтобы система обработки информации всегда была работоспособной.

Второй сложностью является масштаб работы. Иногда информация имеется в таком количестве и так плохо структурирована, что задача ее обработки становится трудновыполнимой. Кроме того, иногда при исследовании выдаются не два-три результата, а гораздо больше, и специалист не всегда может быть объективен при выборе именно тех данных, которые повлияют на то или иное явление.

Третья сложность – сохранение конфиденциальности больших данных. Очень многие сервисы по обслуживанию клиентов работают в онлайн-режиме, а значит, становятся уязвимыми для киберпреступников. Даже если клиент не совершает банковских операций в интернете, его личная информация может быть украдена с сервиса и использоваться мошенниками. Иными словами, данные должны быть защищены.

Четвертой проблемой может стать потеря информации, например, при выходе серверов из строя. Поэтому однократного резервирования данных недостаточно, нужно создавать две-три резервных копии хранилища. Однако при больших объемах данных могут возникнуть проблемы с их резервированием. Специалисты IT-сферы ищут способ ее решения.

Без методов Big Data сейчас нельзя не обойтись многим отраслям, но руководители должны принимать в расчет и проблемы, которые несут эти технологии.

Сохраните себе:
Другие термины на букву «B»
Читайте также
Холодные продажи: суть, правила, этапы
В данной статье мы расскажем: Суть холодных продаж Этапы холодных продаж Правила…
Горячие продажи: особенности и инструменты
В данной статье мы расскажем: Суть горячих продаж Признаки горячего клиента в…
Project Life: особенности цикла проекта в менеджменте
В данной статье мы расскажем: Понятие Project Life Фазы Project Life Модели…
Перформанс-маркетинг: разбираемся в деталях
В данной статье мы расскажем: Понятие перформанс-маркетинга Плюсы и минусы перформанс-маркетинга Пример…
Лонгрид: задачи, виды, правила составления
В данной статье мы расскажем: Понятие лонгрида Виды лонгридов Этапы создания лонгрида…
MVP: как помогает разработчикам понять потребности ЦА
В данной статье мы расскажем: Что значит MVP Задачи MVP Отличие MVP…
Cash flow: суть показателя, методы расчета
В данной статье мы расскажем: Понятие Cash Flow Типы Cash Flow и…
RSS: что это, как работает
В данной статье мы расскажем: Что такое RSS Задачи, которые решает RSS…
NPV: формула и анализ
В данной статье мы расскажем: Важность расчета NPV Формула и способы расчета…
CPI: как и где используется метрика
В данной статье мы расскажем: Что такое CPI Преимущества и недостатки модели…
CPO: сколько стоят клиенты
В данной статье мы расскажем: Что такое CPO Преимущества и недостатки применения…
CTR: что это в рекламе, как и зачем рассчитывать
В данной статье мы расскажем: CTR: что это в рекламе Формула и…