Объем данных, поступающих в организацию из различных источников, стремительно растет, и этот рост носит постоянный характер. Системы и устройства, в том числе компьютеры, смартфоны и другое оборудование, создают и используют большие массивы данных.
Но что же представляют собой «большие данные»? Термин «большие данные» имеет широкий смысл: он характеризует структурированные и неструктурированные наборы данных, которые невозможно надлежащим образом обрабатывать с помощью традиционных приложений и систем. Для больших объемов данных часто применяется прогнозный анализ. Благодаря анализу наборов данных становятся возможными поиск новых взаимосвязей и обнаружение тенденций в бизнесе, предотвращение эпидемий, борьба с преступностью и решение множества других задач.
Отраслевой аналитик Даг Лэйни (Doug Laney) определяет «большие данные» с помощью следующих характеристик:
Apache Hadoop (или Hadoop) — это ПО с открытым исходным кодом для распределенного хранения и обработки больших объемов данных. Пакеты Hadoop интегрированы в крупные дистрибутивы таких компаний, как Cloudera, Hortonworks, MAPR и Pivotal, они выполняют рабочие нагрузки, связанные с большими объемами данных.
При реализации проектов по обработке больших объемов данных компании часто сталкиваются с различными препятствиями, в числе которых бюджетные ограничения, отсутствие технического опыта и риски привязки к платформе.
Согласно исследованию Deloitte, бюджетные ограничения и расходы являются ключевыми факторами, противодействующими развертыванию технологий обработки больших объемов данных во многих компаниях. Доказать целесообразность инвестиций в новую ИТ-инфраструктуру с целью обработки больших данных бывает сложно, особенно если у компании нет готового экономического обоснования.
Обработка больших объемов данных отличается от обработки рабочих нагрузок, типичных для компаний. Рабочие нагрузки, связанные с обработкой больших объемов данных, выполняются не последовательно, а параллельно. Как правило, ИТ отдают наивысший приоритет важным рабочим нагрузкам, а выполнение менее приоритетных задач планируется в пакетном режиме в ночное время или осуществляется при наличии свободных ресурсов. При анализе больших объемов данных необходимо выполнять многочисленные сценарии использования в реальном времени, чтобы анализ и реакция происходили динамически. Это вынуждает ИТ-отделы изменять политики центра обработки данных и изучать средства для создания, мониторинга новых рабочих нагрузок и управления ими.
Компаниям необходимо выбирать для своих приложений и данных подходящую инфраструктуру. Закупка оборудования требует времени; переход в облако — хороший способ проверки концепции, однако он создает риск привязки к платформе, возникновения проблем с безопасностью, а также требует значительных расходов в масштабе всей системы. Кроме того, компаниям необходимо выбирать подходящий дистрибутив Hadoop в условиях, когда Cloudera, Hortonworks, MAPR и Pivotal предлагают архитектуры, которые конкурируют между собой и при этом несовместимы друг с другом. Поскольку принятые решения часто бывает трудно корректировать в будущем, компании зачастую откладывают внедрение технологий обработки больших объемов данных.
Инфраструктура (как физическая, так и виртуальная) предназначена для поддержки приложений — как традиционных важных приложений, так и современных облачных и мобильных приложений, а также решений для обработки больших объемов данных.
Виртуализация приложений, работающих с большими объемами данных (например, Hadoop), обеспечивает множество преимуществ, которыми не обладают физическая и облачная инфраструктуры. Облегчение управления инфраструктурой больших объемов данных ускоряет получение результатов и сокращает расходы. VMware — это лучшая платформа как для обработки больших объемов данных, так и для традиционных приложений.
Упростите эксплуатацию и обслуживание инфраструктуры для обработки больших объемов данных.
Сокращайте капитальные расходы благодаря консолидации кластеров. Сокращайте эксплуатационные расходы благодаря автоматизации и упрощению рабочих процессов.
Получайте преимущества для бизнеса в кратчайшие сроки благодаря доступу к инфраструктуре по требованию.
Экспериментируйте с основными технологиями обработки больших объемов данных. Благодаря среде с несколькими арендаторами становится возможным запуск нескольких дистрибутивов Hadoop на одной виртуальной машине.
Объединяйте ресурсы в пулы и увеличивайте эффективность использования серверов. Автоматизация переноса рабочих нагрузок повышает эффективность процессов.
Контролируйте надлежащее использование конфиденциальных данных и обеспечивайте соответствие требованиям.
Компонент VMware vSphere Big Data Extensions (BDE) упрощает выполнение рабочих нагрузок, связанных с обработкой больших объемов данных, на платформе vSphere, повышая уровень эффективности и адаптивности.
Устанавливайте и настраивайте кластеры Hadoop, производительность которых сопоставима с физическими средами, с помощью vCenter.
Эффективно используйте ресурсы благодаря гибко масштабируемому решению, которое поддерживает среды с несколькими арендаторами.
Создавайте гибкую платформу, которая беспрепятственно масштабируется и обеспечивает долгосрочный рост бизнеса компании благодаря технологии обработки больших объемов данных.