Общие сведения о больших данных?

Большие данные — это общий термин для структурированных и неструктурированных наборов данных, объем и сложность которых делают невозможной их надлежащую обработку с помощью традиционных приложений и систем. Большие данные часто используются для целей прогнозной аналитики. Анализ наборов данных помогает выявлять новые взаимосвязи и определять тенденции в бизнесе, предотвращать эпидемии, бороться с преступностью и решать множество других задач.
В результате глобального исследования отрасли было выявлено 4 основных тенденции в области гибридных облаков

Расширение возможностей для работы с большими данными

VMware и Cloudera: совместная работа над виртуализацией Hadoop.

Разоблачение мифов о виртуализации Hadoop

Сведения о виртуализации Hadoop на платформе vSphere

Пример внедрения: Adobe Systems

Компания Adobe развернула Hadoop как услугу на платформе VMware vSphere.

 

Препятствия для успешной обработки больших данных

Компании часто сталкиваются с препятствиями при реализации проектов, связанных с большими данными. В числе этих препятствий бюджетные ограничения, отсутствие необходимых ИТ-навыков и риски привязки к платформе.

Бюджетные ограничения

Согласно исследованию Deloitte, бюджетные ограничения и высокие расходы являются основными факторами, из-за которых многие компании не развертывают решения для обработки больших данных. Доказать целесообразность инвестиций в новую ИТ-инфраструктуру для обработки больших данных бывает сложно, особенно если у компании нет готового экономического обоснования.

ИТ-навыки

Обработка рабочих нагрузок, связанных с большими данными, значительно отличается от обработки стандартных рабочих нагрузок корпоративных приложений. Рабочие нагрузки, связанные с большими данными, обрабатываются параллельно, а не последовательно. Как правило, ИТ-отделы отдают наивысший приоритет важным рабочим нагрузкам, а выполнение менее приоритетных задач планируется в пакетном режиме в ночное время или осуществляется при наличии свободных ресурсов. При анализе больших данных необходимо выполнять многочисленные сценарии использования в режиме реального времени, чтобы обеспечить оперативный анализ и реагирование. Это вынуждает ИТ-отделы изменять политики ЦОД и изучать новые средства для создания, администрирования и мониторинга новых рабочих нагрузок.

Привязка к платформе

Компаниям необходимо выбирать для своих приложений и данных подходящую инфраструктуру. На приобретение оборудования требуется время. Переход в облако — хороший способ проверки концепции, однако он создает риск привязки к платформе и возникновения проблем безопасности, а также требует значительных расходов в масштабе всей системы. Компаниям также приходится выбирать, какой дистрибутив Hadoop использовать, так как Cloudera, Hortonworks, MAPR и Pivotal предлагают эффективные, но при этом несовместимые архитектуры. Так как принятые решения часто бывает трудно корректировать в дальнейшем, многие компании откладывают внедрение технологий обработки больших данных.

Преимущества решений VMware для работы с большими данными

Удобство

Упрощение эксплуатации и обслуживания инфраструктуры для больших данных.

Адаптивность

Доступ к инфраструктуре по требованию помогает быстро получать преимущества для бизнеса.

Экономичность

Консолидация кластеров обеспечивает сокращение капитальных расходов. Сокращение операционных расходов достигается за счет автоматизации и упрощения рабочих процессов.

Гибкость

Возможность регулярно и на ранних сроках тестировать основные технологии для обработки больших данных. Поддержка многоарендности позволяет использовать несколько дистрибутивов Hadoop на одной виртуальной машине.

Эффективность

Объединение ресурсов в пулы и повышение эффективности использования серверов. Автоматизация переноса рабочих нагрузок повышает эффективность процессов.

Безопасность

Контроль использования конфиденциальных данных и обеспечение их соответствия нормативным требованиям.

Материалы о Hadoop

Инфраструктура (как физическая, так и виртуальная) предназначена для поддержки приложений: как традиционных важных бизнес-приложений, так и современных облачных, мобильных приложений и приложений для обработки больших данных. Отраслевой аналитик Даг Лэйни (Doug Laney) определяет большие данные с помощью следующих характеристик.

 

  • Объем: терабайты, записи, транзакции, таблицы и файлы
  • Скорость: пакетная и потоковая обработка в режиме реального времени или близком к реальному времени
  • Многообразие: структурированные, неструктурированные и частично структурированные данные

Apache Hadoop (или Hadoop) — это ПО с открытым исходным кодом, которое используется для распределенного хранения и обработки больших данных. Пакеты Hadoop интегрированы в крупные дистрибутивы таких компаний, как Cloudera, Hortonworks, MAPR и Pivotal, для выполнения рабочих нагрузок, связанных с большими данными. Виртуализация приложений для обработки больших данных типа Hadoop дает множество преимуществ, которые нельзя получить в физической инфраструктуре или в облаке. При упрощении управления инфраструктурой для больших данных ускоряется получение результатов и повышается экономичность. VMware — это лучшая платформа как для обработки больших данных, так и для использования традиционных приложений.

Ресурсы

Готовы начать?