Big data что это такое

Другое
Опубликовано: 06.10.2021

Сегодня о Big data не слышал только человек, напрочь оторванный от цифровой реальности. Считается, что эта технология, наравне с искусственным интеллектом, машинным обучением и интернетом вещей, в ближайшие десятилетия кардинально изменит нашу жизнь. Уже сейчас она активно применяется в самых разных областях, от политики и маркетинга до логистики и банковской сферы. Итак, Big data, что это такое и как работают большие данные?

Что такое Big data?

В дословном переводе Big data означает «большой массив данных». Хотя правильнее сказать не большой, а огромный. В России под этим термином часто подразумевают комплекс методов для обработки значительного объема информации.

Big data нельзя назвать одной прорывной технологией. Скорее, это научно-экономический феномен, который возник из-за увеличения глобального трафика и появления возможности анализировать его. Основными источникам информации в «биг дейта» являются:

  • показания приборов: видеорегистраторов, сенсоров, датчиков;
  • интернет: социальные сети, форумы, интернет вещей;
  • государственная статистика;
  • медицинские данные: диагнозы, истории болезней, результаты анализов;
  • корпоративная информация: базы данных, транзакции, архивы.

Сегодня объем глобальной цифровой информации уже измеряется в зеттабайтах (1021 Байт). И он продолжает расти по экспоненте. Чтобы обработать ее, человеческого труда и персональных компьютеров явно недостаточно. Умение говорить просто о больших данных будет определять успешность компании или государства в XXI веке.

Немного истории

Определение Big data в 2008 году ввел редактор Nature Клиффорд Линч. В последующие несколько лет термин распространился в академической среде, а затем вопросом заинтересовались цифровые гиганты.

В 2011 году консалтинговая компания Gartner назвала Big data второй по значимости цифровой технологией после виртуализации. По ее мнению, она будет наиболее эффективна в медицине, производстве, государственном управлении, торговле. С 2013 года анализ больших данных изучается в ведущих университетах мира.

Когда data становится big?

Выделяют шесть признаков «биг дата»:

  • Volume (Объем). В случае с Big data, объем информации – это массив от 150 Гб в сутки.
    Velocity (Скорость). Поступление новой информации происходит с высокой скоростью, данные постоянно обновляются. Для их обработки нужны мощные вычислительные системы.
  • Variety (Разнообразие). Инструменты Big data должны работать с любыми видами информации. Она может приходить в разных форматах. Например, в соцсетях есть текстовые сообщения, фото и видеоконтент. В этом случае структурирование данных – это приведение их к единому виду. Одна из главных задач Big data – оперативное выстраивание связей между разными типа информации, чтобы получить на выходе информацию, годную для анализа.
  • Veracity (Достоверность). Огромный объем информации и большая скорость ее обновления серьезно затрудняет проверку достоверности. Утверждение справедливо, как для полученных исходных данных, так и для результатов их обработки.
  • Variability (Изменчивость). Поток информации способен значительно меняться со временем. У него могут быть спады и пики, возникающие под воздействием различных факторов.
  • Value (Значимость). Ценность полученной информации бывает разной. Необходимо вычленить из огромного информационного потока данные, наиболее важные для решения текущей задачи.

Первые три признака появились еще на заре эры Big data – в 2001 году. Последующие – были сформулированы позднее.

Технологии Big data (больших данных) позволяют пользователю быть максимально информированным. С помощью этого метода можно строить наиболее полные и точные модели развития событий.

Ниже приведены различия между традиционной аналитикой и методами Big data.

Традиционные методы Аналитика Big data
Обработка малых пакетов информации по мере их поступления Анализ всего массива информации одновременно
Сортировка данных перед их анализом Данные анализируются в полученном виде
Подготовка модели, по которой будут тестироваться данные Поиск корреляции по всем входящим данным
Сначала идет сбор и сортировка информации, только потом она обрабатывается Анализ информации происходит по мере ее поступления

Big data: как это работает?

При работе с Big data важны следующие принципы:

  • Способность системы к горизонтальному расширению. Здесь подразумевается возможность подключения дополнительных вычислительных узлов при повышении нагрузки. Говоря простыми словами, при увеличении потока данных для их обработки подключаются новые серверы.
  • Отказоустойчивость системы в целом и ее отдельных элементов. Обычно она достигается за счет увеличения числа цифровых носителей.
  • Локализация обработки информации, которая позволяет экономить ресурсы и время. Она достигается за счет хранения определенных данных на одном сервере.

Надежной и бесперебойной работы можно добиться только при соблюдении всех трех указанных принципов.

К большим Big data применяют следующие методы анализа:

  • Data Mining. Ассоциативное обучение, классификация с разделением на отдельные группы (кластеры). Метод отслеживает закономерности в массиве информации, после чего происходит ее обработка.
  • Краудсорсинг. Обработка данных с привлечением сторонних источников.
  • Смешение и интеграция данных. Набор аналитических техник, которые позволяют интегрировать информацию из разных источников, чтобы затем проводить ее глубинный анализ.
  • Методы машинного обучения. Метод подразумевает использование в анализе больших данных нейронных сетей, которые предварительно проходят «обучение».
  • Распознавание образов. Примером техники может служить распознавание лиц на видео.
  • Прогнозная аналитика и имитационное моделирование. Предполагает построение имитационной модели, с помощью которой можно предсказать изменение тех или иных параметров системы.
  • Пространственный анализ. Метод предполагает использование географии, геометрии и топологии для обработки данных.
  • Сплит-тестирование. Анализ на основе изучения отдельных элементов информации.
  • Визуализация данных. Метод обработки информации путем ее перевода в графики, диаграммы, 3Д-модели, гистограммы.

Для работы с Big data используются наиболее мощные серверы и суперкомпьютеры.

Где применяется Big data?

Сегодня технологии Big data широко применяется в бизнесе, государственном управлении, науке, сфере безопасности.

Государственное управление

Работа с большими данными позволяет государственным структурам принимать эффективные решения в таких важнейших сферах, как экономика, здравоохранение, борьба с преступностью. Методы Big data можно использовать для предупреждения чрезвычайных ситуаций.

Бизнес

Бизнес наиболее активно применяет технологии работы с большими данными. За примерами использования далеко ходить не придется. В 2019 году инвестиции в Big data составили 190 млрд долларов. Считается, что средства, вложенные в большие данные окупаются уже через год или два.

Технология позволяет обработать гигантские массивы информации, поэтому аналитик Big Data может с максимальной точностью предсказать дальнейшее развитие бренда или услуги. Изучение блогов, форумов, социальных сетей позволяет выявить потребности потенциальных клиентов, что является чрезвычайно важным при выводе на рынок нового продукта.

Торговые сети с помощью Big Data определяют ассортимент и корректируют работу с покупателями. Девелоперы используют большие данные, чтобы подобрать клиентам наиболее подходящие варианты. Промышленные гиганты уменьшают на своих предприятиях количество аварий и брака.

Сегодня технологии Big data используют крупнейшие цифровые и финансовые корпорации. Нет никаких сомнений, что в дальнейшем этот тренд будет только развиваться.

Медицина

Использование Big Data в медицине имеет огромный потенциал. Данная технология способна ставить диагнозы, противостоять эпидемиям, придумывать новые лекарства, выявлять опасные заболевания на ранних стадиях.

Управление данными сможет оптимизировать работу системы здравоохранения в целом, снизить затраты на лечение, улучшить качество жизни больных.

Интернет вещей

Считается, что эта цифровая технология кардинально изменит жизнь людей уже в ближайшие десятилетия. Однако Big Data и интернет вещей неразрывно связаны. Последний не сможет работать без постоянного сбора и обработки данных.

Сфера безопасности

Технологии Big data уже давно используются в сфере безопасности. Еще в конце нулевых годов американское агентство АНБ создало сервис PRISM. Он занимался сбором данных пользователей социальных сетей, а также ряда популярных сервисов. Также PRISM анализировал телефонные разговоры, сообщения, электронную переписку. Сегодня подобные структуры имеются у большинство специальных служб и правоохранительных ведомств.

Рекомендуемые новости
Годы новых возможностей
Пересобрать себя
Триггеры никуда не делись
Последнее видео
Как добиться больших результатов в бизнесе?
Узнайте о бизнес-терминах в нашем глоссарии
Подписывайся на нас
в Telegram и Youtube