Что такое Big Data, сфера ее использования и проблемы, связанные с ней
1.1 Жизненный цикл Big Data
«Большие данные (Big Data) — обозначение структурированных и неструктурированных данных огромных объёмов и значительного многообразия, эффективно обрабатываемых горизонтально масштабируемыми программными инструментами, появившимися в конце 2000-х годов и альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence»[1]. При описании феномена больших данных сегодня люди часто отмечают три важнейших
фактора - объем, скорость и разнообразие. Объем и разнообразие данных в основном складываются из результатов вездесущего сбора и складывания любых, порой даже самых небольших данных – касание на экран смартфона, логин на веб-сайте или статистика бега, полученная после утренней пробежки с помощью различных приложений. Это самые простые примеры источников сбора личной информации. Экспоненциальное увеличение объема данных, конечно, также связано с резким падением стоимости хранения данных. Но что привело к появлению такого большого количества информации? Ответ довольно прост – дигитализация. На сегодняшний день любое наше действие становится цифровой информацией. И как и все в нашем мире, информация, которая уже появилась, больше никогда не исчезнет. Прогресс, который в середине 20-ого века привел к созданию первых компьютеров, в начале 21-ого века стал основной причиной создания технологии Big Data.
«Большие данные — это совокупность технологий, которые призваны совершать три операции:
- Обрабатывать большие по сравнению со «стандартными» сценариями объемы данных;
- Уметь работать с быстро поступающими данными в очень больших объемах. То есть данных не просто много, а их постоянно становится все больше и больше;
- Уметь работать со структурированными и слабо структурированными данными параллельно и в разных аспектах»[2].
Общепринято, что именно эти три способности позволяют найти закономерности и факты, которые человеческий мозг никогда не замечал. Это дает безграничные возможности для оптимизации различных сфер человеческой жизни: анализ данных различных особо опасных заболеваний помогает предотвращать эпидемии, исследования в транспортной сфере становятся основой для упрощения систем логистики. Именно поэтому за довольно короткий срок Большие Данные стали основной движущей силой в маркетинге, гос. Управлении и в медицине.
«Не удивительно, что журналисты и маркетологи настолько часто использовали словосочетание Big Data, что многие эксперты считают этот термин дискредитированным и предлагают от него отказаться»[3].
1.2 Метод анализа с использованием технологии Big Data
Как уже отмечалось, Большие Данные используются в самых разных сферах жизни, но очевидно, что ключевое направление данного типа анализа является маркетинг. Для начала надо понимать, что Большие Данные – это сумма небольших данных, которые появляются в нашей рутине. Одним из методов сбора такой информации является онлайн отслеживание. Оно позволяет компаниям узнать кто их потребитель, по какому маршруту чаще всего продвигаются или же чем они больше всего интересуются. Каждый наш поиск в браузере, каждый клик, каждое сообщение в социальных сетях суммируется. Обычно компании получают эти данные с помощью файлов cookie. Очень часто при посещении различных сайтов, приходит оповещение, что сайт использует cookie для улучшения качества обслуживания, и просит наше разрешения на его активацию. В основном это выглядит так:
И хотя сайты и дают пользователю право включать cookie или нет, есть немало других путей отслеживания. Например, flash cookies, history sniffing или же device fingerprinting, которые отслеживают пользователя не только на одном сайте, а собирают информацию о посещении и другие сайты. На мобильных устройствах такие методы работают еще «лучше». В данном случае мы имеем дело ни с отслеживанием сквозь различные сайты, а с сбором информации со всех устройств. Наши умные часы соединены с телефоном, телефон связан с ноутбуком и так далее. По разным данным на одного человека приходится примерно 4 «проверяемых» устройства, а в ближайшие 2 года их количество увеличится вдвое[4].
Международная консалтинговая компания McKinsey, специализирующаяся на решении задач, связанных со стратегическим управлением, выделяет 11 методов и техник анализа, применимых к большим данным.
• Методы класса Data Mining (добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — совокупность методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных знаний, необходимых для принятия решений. К таким методам, в частности, относятся обучение ассоциативным правилам (association rule learning), классификация (разбиение на категории), кластерный анализ, регрессионный анализ, обнаружение и анализ отклонений и др.
• Краудсорсинг — классификация и обогащение данных силами широкого, неопределённого круга лиц, выполняющих эту работу без вступления в трудовые отношения
• Смешение и интеграция данных (data fusion and integration) — набор техник, позволяющих интегрировать разнородные данные из разнообразных источников с целью проведения глубинного анализа (например, цифровая обработка сигналов, обработка естественного языка, включая тональный анализ, и др.)
• Машинное обучение, включая обучение с учителем и без учителя — использование моделей, построенных на базе статистического анализа или машинного обучения для получения комплексных прогнозов на основе базовых моделей
• Искусственные нейронные сети, сетевой анализ, оптимизация, в том числе генетические алгоритмы (genetic algorithm — эвристические алгоритмы поиска, используемые для решения задач оптимизации и моделирования путём случайного подбора, комбинирования и вариации искомых параметров с использованием механизмов, аналогичных естественному отбору в природе)
• Распознавание образов
• Прогнозная аналитика
• Имитационное моделирование (simulation) — метод, позволяющий строить модели, описывающие процессы так, как они проходили бы в действительности. Имитационное моделирование можно рассматривать как разновидность экспериментальных испытаний
• Пространственный анализ (spatial analysis) — класс методов, использующих топологическую, геометрическую и географическую информацию, извлекаемую из данных
• Статистический анализ — анализ временных рядов, A/B-тестирование (A/B testing, split testing — метод маркетингового исследования; при его использовании контрольная группа элементов сравнивается с набором тестовых групп, в которых один или несколько показателей были изменены, для того чтобы выяснить, какие из изменений улучшают целевой показатель)
• Визуализация аналитических данных — представление информации в виде рисунков, диаграмм, с использованием интерактивных возможностей и анимации как для получения результатов, так и для использования в качестве исходных данных для дальнейшего анализа. Очень важный этап анализа больших данных, позволяющий представить самые важные результаты анализа в наиболее удобном для восприятия виде[5].
[1] https://www.it.ua/ru/knowledge-base/technology-innovation/big-data-bolshie-dannye
[2] https://postnauka.ru/faq/46974
[3] https://www.datacenterknowledge.com/archives/2015/03/30/big-data-bubble-set-burst
[4]http://www.cisco.com/web/about/ac79/docs/innov/IoT_IBSG_0411FINAL.pdf
[5] http://sewiki.ru/index.php?title=Большие_данные&oldid=3075