Что представляют собой большие объемы данных?

      

VMware и Cloudera: совместная работа над виртуализацией Hadoop

Video Play Icon
(9:44)

VMware и Cloudera: совместная работа над виртуализацией Hadoop

Ознакомьтесь с возможностями VMware по обработке больших объемов данных

Разоблачение мифов о виртуализации Hadoop

Сведения о виртуализации Hadoop на платформе vSphere

Читать

Пример внедрения: Adobe Systems

Компания Adobe развернула Hadoop как услугу на платформе VMware vSphere

Подробнее

Большие объемы данных


Объем данных, поступающих в организацию из различных источников, стремительно и непрерывно растет. Системы и устройства, в том числе компьютеры, смартфоны и другое оборудование, создают и используют крупные наборы данных.
 

Что же представляют собой большие объемы данных? Большие объемы данных — это общий термин для структурированных и неструктурированных наборов данных, объем и сложность которых делают невозможной их надлежащую обработку с помощью традиционных приложений и систем. Большие объемы данных часто используются для прогнозного анализа. Анализ наборов данных помогает выявлять новые взаимосвязи и определять тенденции в бизнесе, предотвращать эпидемии, бороться с преступностью и решать множество других задач. 
 

Отраслевой аналитик Даг Лэйни (Doug Laney) определяет большие объемы данных с помощью следующих характеристик.

  • Объем: терабайты, записи, транзакции, таблицы и файлы
  • Скорость: пакетная и потоковая обработка в режиме реального времени или близком к реальному времени
  • Многообразие: структурированные, неструктурированные и частично структурированные данные

Apache Hadoop (или Hadoop) — это ПО с открытым исходным кодом, которое используется для распределенного хранения и обработки больших объемов данных. Пакеты Hadoop интегрированы в крупные дистрибутивы таких компаний, как Cloudera, Hortonworks, MAPR и Pivotal, для выполнения рабочих нагрузок, связанных с большими объемами данных.

Препятствия для успешной обработки больших объемов данных

 

Компании часто сталкиваются с препятствиями при реализации проектов, связанных с большими объемами данных. В числе этих препятствий бюджетные ограничения, отсутствие необходимых ИТ-навыков и риски привязки к платформе.

Бюджетные ограничения

Согласно исследованию Deloitte, бюджетные ограничения и высокие расходы являются основными факторами, из-за которых многие компании не развертывают решения для обработки больших объемов данных. Доказать целесообразность инвестиций в новую ИТ-инфраструктуру для обработки больших объемов данных бывает сложно, особенно если у компании нет готового экономического обоснования.

 

ИТ-навыки

Обработка рабочих нагрузок, связанных с большими объемами данных, значительно отличается от обработки стандартных рабочих нагрузок корпоративных приложений. Рабочие нагрузки, связанные с большими объемами данных, обрабатываются параллельно, а не последовательно. Как правило, ИТ-отделы отдают наивысший приоритет важным рабочим нагрузкам, а выполнение менее приоритетных задач планируется в пакетном режиме в ночное время или осуществляется при наличии свободных ресурсов. При анализе больших объемов данных необходимо выполнять многочисленные сценарии использования в режиме реального времени, чтобы обеспечить оперативный анализ и реагирование. Это вынуждает ИТ-отделы изменять политики ЦОД и изучать новые средства для создания, администрирования и мониторинга новых рабочих нагрузок.

 

Привязка к платформе

Компаниям необходимо выбирать для своих приложений и данных подходящую инфраструктуру. На приобретение оборудования требуется время. Переход в облако — хороший способ проверки концепции, однако он создает риск привязки к платформе и возникновения проблем безопасности, а также требует значительных расходов в масштабе всей системы. Компаниям также приходится выбирать, какой дистрибутив Hadoop использовать, так как Cloudera, Hortonworks, MAPR и Pivotal предлагают эффективные, но при этом несовместимые архитектуры. Так как принятые решения часто бывает трудно корректировать в дальнейшем, многие компании откладывают внедрение технологий обработки больших объемов данных.

Роль VMware в обработке больших объемов данных

 

Инфраструктура (как физическая, так и виртуальная) предназначена для поддержки приложений: как традиционных важных бизнес-приложений, так и современных облачных, мобильных приложений и приложений для обработки больших объемов данных. 
 

Виртуализация приложений для обработки больших объемов данных типа Hadoop дает множество преимуществ, которые нельзя получить в физической инфраструктуре или в облаке. При упрощении управления инфраструктурой для больших объемов данных ускоряется получение результатов и повышается экономичность. VMware — это лучшая платформа как для обработки больших объемов данных, так и для выполнения традиционных приложений.
 

Преимущества решений VMware для обработки больших объемов данных

Удобство

Упрощение эксплуатации и обслуживания инфраструктуры для больших объемов данных.

Экономичность

Консолидация кластеров обеспечивает сокращение капитальных расходов. Сокращение эксплуатационных расходов достигается за счет автоматизации и упрощения рабочих процессов.

Адаптивность

Доступ к инфраструктуре по требованию помогает быстро получать преимущества для бизнеса.

Гибкость

Возможность регулярно и на ранних сроках тестировать основные технологии для обработки больших объемов. Благодаря среде с несколькими арендаторами можно выполнять несколько дистрибутивов Hadoop на одной виртуальной машине.

Эффективность

Объединение ресурсов в пулы и повышение эффективности использования серверов. Автоматизация переноса рабочих нагрузок повышает эффективность процессов.

Безопасность

Контроль использования конфиденциальных данных и обеспечение их соответствия нормативным требованиям.

Виртуализация Hadoop на платформе vSphere: примеры внедрения и тематические статьи