Big data: что это такое, главные источники больших данных
В данной статье мы расскажем:
- Основные характеристики Big Data
- Главные источники больших данных
- Принципы работы с большими данными
- Основные методы обработки информации
- Сферы использования Big Data
- Проблемы работы с большим объемом данных
Понятие Big Data (большие данные) появилось в 2008 году благодаря редактору журнала Nature Клиффорду Линчу.
Основные характеристики Big Data
Раньше (до 2011 г.) анализ больших данных проводили лишь для статистических и научных исследований. Однако информации накопилось огромное количество, появилась необходимость систематизировать ее и использовать на практике. В настоящее время Big Data представляет собой не только саму информацию, но и способы ее обработки и применения, а также поиска необходимых данных в больших массивах.
Сначала компания Meta Group выделила базовые характеристики больших данных:
- Volume – объем данных – не менее 150 Гб в сутки.
- Velocity – скорость накопления и обработки информационных массивов. Большие данные постоянно обновляются, в связи с чем требуются интеллектуальные технологии, чтобы обрабатывать их в режиме онлайн.
- Variety – разнообразие типов данных. Информация может быть частично или полностью структурированной либо неструктурированной. Так, в социальных сетях данные разнородны: они включают фото, видео и текстовый формат.
Теперь к этим характеристикам добавлены еще три:
- Veracity – достоверность данных и проведенного над ними анализа.
- Variability – изменчивость. Потоки данных могут обновляться с разной скоростью в зависимости от социальных событий или сезонности. Если поток данных нестабилен и постоянно изменяется, то анализировать его становится труднее.
- Value – ценность, или значимость. Большие данные отличаются разнообразием, они имеют разную степень сложности для восприятия и обработки. К простым данным можно отнести заметки в социальных сетях, к сложным – историю банковских операций.
Главные источники больших данных
- Интернет вещей (IoT), а также подключенные к нему устройства.
- Социальные сети, блоги и средства массовой информации.
- Данные компаний: денежные операции, поездки на такси, заказы товаров и услуг, информация о клиентах.
- Показания измерительных приборов: данные с метеорологических станций, сводки о составе воздуха и состоянии водоемов, информация со спутников.
- Статистика стран и городов: данные о рождаемости и смертности, информация о перемещениях.
- Медицинские сведения: результаты анализов и диагностики, описание заболеваний.
Благодаря передовым вычислительным системам есть возможность получить моментальный доступ к массивам Big Data. Для хранения такого огромного количества информации применяют дата-центры, оснащенные мощнейшими серверами.
Кроме стандартных физических серверов используют облачные технологии для хранения Big Data. Они подразделяются на два вида: data lake («озера данных»), представляющие собой хранилища большого количества неструктурированной информации из какого-то одного источника; Hadoop – фреймворк, включающий набор утилит, способный разрабатывать специальные программы и проводить распределенные вычисления.
Принципы работы с большими данными
Как следует из определения термина, суть работы с Big Data сводится к некоторым базовым принципам:
- Горизонтальная масштабируемость
Объем больших данных может быть абсолютно любым, поэтому система для обработки информации должна обладать свойством расширяемости. Если, например, объем данных вырос втрое, то, соответственно, нужно установить в 3 раза больше машин в кластере, чтобы система могла полноценно работать.
- Отказоустойчивость
Системы обработки данных должны обладать горизонтальной масштабируемостью, т.е. число машин в кластере можно увеличивать в соответствии с потребностями. Так, в состав Hadoop-кластера Yahoo входит 42 тыс. машин. В этих машинах неизбежно будут происходить поломки. Для выполнения задач, связанных с обработкой Big Data, необходимо брать в расчет возможные неисправности.
- Локальность данных
В крупных системах по обработке Big Data информация распределяется по большому количеству машин. Если данные хранятся на одном сервере, а обрабатываются – на другом, то стоимость их передачи может оказаться выше, чем затраты на обработку. Именно по этой причине необходимо следовать принципу локальности данных: хранить и обрабатывать их на одной и той же машине.
В 2022 году все средства работы с Big Data соответствуют перечисленным принципам. Для этого приходится разрабатывать новые методы и средства обработки данных.
Основные методы обработки информации
Для анализа Big Data в основном применяют следующие технологии: Machine Learning, Data mining, визуализация, анализ (статистический и предиктивный), нейросети, имитационные модели, смешение и интеграцию данных.
- Machine Learning
Машинное обучение – это инструмент, позволяющий извлекать из потока информации необходимые данные. Для этого используются математические модели данных, а обучение происходит поэтапно или самостоятельно по алгоритму.
- Нейронные сети и распознавание образов
Суть искусственных нейросетей – имитация работы нейронных сетей живых организмов. Математические модели создают с помощью программных и аппаратных технологий.
Алгоритм работы нейросетей следующий: данные поступают на вход, идут по нейронам, а на выходе получается обработанная информация.
- Data mining
Термин Data mining («добыча данных») ввел в 1989 г. математик Григорий Пятецкий-Шапиро. Метод работает так: имеется массив с данными разного рода, которые подвергаются интеллектуальному анализу, благодаря чему в массиве выявляются определенные закономерности.
- Краудсорсинг
Иногда машина в одиночку не справляется с обработкой данных, и тогда к анализу присоединяются группы людей. Например, работая с Big Data в маркетинге, люди собирают и обрабатывают данные социальных опросов из различных источников или решают другие подобные задачи. Такие материалы могут быть предоставлены в неоцифрованном виде, содержать различные ошибки или сокращения, которые не понятны компьютеру. Человек способен рассортировать информацию, привести ее в тот формат, который будет понятен машине.
- Предиктивная аналитика
Предиктивная аналитика означает «предсказательная», «прогнозная». На основе накопленной информации осуществляется прогноз, цель которого – ответить на вопрос «Что будет дальше?». Суть методики сводится к следующему: изучается база данных за определенный отрезок времени; вычисляются параметры, повлиявшие на результат; с помощью математических функций или нейронных сетей строится модель, благодаря которой предсказываются события.
- Статистический анализ
Собирают информацию и проводят расчет по заданному алгоритму, чтобы получить результат.
Статистическими методами являются A/B тестирование и анализ временных рядов. A/B testing, или split testing, представляет собой маркетинговое исследование, при котором проводится сравнение контрольной группы элементов с исходными данными и тестовых групп, в которых параметры изменены. Благодаря этому можно выяснить, какие факторы способствуют улучшению целевых показателей.
- Имитационное моделирование
От предиктивной аналитики эта технология отличается тем, что прогноз составляется не на реальной информации, а на данных, которые возможны теоретически или являются конечной целью. Математические модели строят с помощью технологий Big Data, проводя эксперимент в так называемой виртуальной реальности, т.е. имитационной среде.
- Визуализация аналитических данных
Проанализированные данные визуализируют с помощью виртуальной реальности или «больших экранов». Подавляющую часть информации человек получает через зрение, поэтому картинка воспринимается легче, чем обычный текст. Карты, графики, диаграммы, 3D-модели – вот несколько примеров визуализации Big Data.
- Смешение и интеграция данных
Чаще всего информация собирается из различных источников и может предоставляться в разных форматах. Для проведения качественного комплексного анализа информацию нужно не только собрать, но и отсортировать. Автоматически загружать необработанные данные в базу нельзя. Сначала проводят интеграцию и смешение, то есть приводят информацию к единому формату. После этого можно анализировать данные и проводить их дальнейшую обработку.
Сферы использования Big Data
- Государственное управление. При изучении и анализе Big Data правительственные органы принимают важные решения в областях здравоохранения, экономического регулирования, обеспечения безопасности, борьбы с криминалом, занятости населения и других социальных сферах.
- Промышленность. Использование методов Big Data делает производственные процессы более прозрачными, а такой инструмент, как предиктивная аналитика, помогает составить точный прогноз относительно спроса на продукцию и, соответственно, план расходов.
- Медицина. В современном мире медицинская информация собирается не только соответствующими учреждениями, но и различными гаджетами, например, фитнес-браслетами. Сбор и анализ огромного массива медицинских данных оказывает неоценимую помощь в развитии здравоохранения. Методы Big Data нужны для постановки точных диагнозов, разработки лекарственных средств и способов лечения, борьбы с эпидемиями.
- Ретейл. Сетевые и электронные торговые точки развиваются бешеными темпами благодаря сбору и анализу Big Data. Проще делать прогноз продаж, формировать ассортимент, а коммерческие предложения и доставка товаров теперь персонализированы.
- Интернет вещей. Big Data и интернет вещей тесно взаимосвязаны. Многие бытовые и промышленные приборы оснащены соответствующими технологиями, собираются огромные базы данных, помогающие регулировать работу всех этих приборов.
- Рынок недвижимости. При покупке квартиры теперь не нужно тратить свое время на поездки по объектам и общение с продавцами. Девелоперы собирают огромное количество информации о недвижимости, анализируют ее и выдают клиенту интересующие его результаты.
- Спорт. Серьезные клубы при анализе Big Data выбирают наиболее перспективных спортсменов, а также разрабатывают командную стратегию для любого соперника.
- Бизнес. Основы Big Data применяются в трех важнейших бизнес-направлениях. Первое – адресность новых услуг и сервисов, которые будут востребованы у определенных групп населения. Второе – анализ отзывов клиентов о продукции с целью ее улучшения. Третье – аналитические методы, способствующие привлечению и удержанию клиентов.
Проблемы работы с большим объемом данных
Основная сложность при анализе Big Data – высокая стоимость их обработки. Сюда входят и заработная плата специалистов, которые обслуживают гигантские массивы данных, и покупка дорогого оборудования. К тому же, компьютеры нуждаются в периодическом обновлении, чтобы система обработки информации всегда была работоспособной.
Второй сложностью является масштаб работы. Иногда информация имеется в таком количестве и так плохо структурирована, что задача ее обработки становится трудновыполнимой. Кроме того, иногда при исследовании выдаются не два-три результата, а гораздо больше, и специалист не всегда может быть объективен при выборе именно тех данных, которые повлияют на то или иное явление.
Третья сложность – сохранение конфиденциальности больших данных. Очень многие сервисы по обслуживанию клиентов работают в онлайн-режиме, а значит, становятся уязвимыми для киберпреступников. Даже если клиент не совершает банковских операций в интернете, его личная информация может быть украдена с сервиса и использоваться мошенниками. Иными словами, данные должны быть защищены.
Четвертой проблемой может стать потеря информации, например, при выходе серверов из строя. Поэтому однократного резервирования данных недостаточно, нужно создавать две-три резервных копии хранилища. Однако при больших объемах данных могут возникнуть проблемы с их резервированием. Специалисты IT-сферы ищут способ ее решения.
Без методов Big Data сейчас нельзя не обойтись многим отраслям, но руководители должны принимать в расчет и проблемы, которые несут эти технологии.