Объем данных, поступающих в организацию из различных источников, стремительно и непрерывно растет. Системы и устройства, в том числе компьютеры, смартфоны и другое оборудование, создают и используют крупные наборы данных.
Что же представляют собой большие объемы данных? Большие объемы данных — это общий термин для структурированных и неструктурированных наборов данных, объем и сложность которых делают невозможной их надлежащую обработку с помощью традиционных приложений и систем. Большие объемы данных часто используются для прогнозного анализа. Анализ наборов данных помогает выявлять новые взаимосвязи и определять тенденции в бизнесе, предотвращать эпидемии, бороться с преступностью и решать множество других задач.
Отраслевой аналитик Даг Лэйни (Doug Laney) определяет большие объемы данных с помощью следующих характеристик.
Apache Hadoop (или Hadoop) — это ПО с открытым исходным кодом, которое используется для распределенного хранения и обработки больших объемов данных. Пакеты Hadoop интегрированы в крупные дистрибутивы таких компаний, как Cloudera, Hortonworks, MAPR и Pivotal, для выполнения рабочих нагрузок, связанных с большими объемами данных.
Компании часто сталкиваются с препятствиями при реализации проектов, связанных с большими объемами данных. В числе этих препятствий бюджетные ограничения, отсутствие необходимых ИТ-навыков и риски привязки к платформе.
Согласно исследованию Deloitte, бюджетные ограничения и высокие расходы являются основными факторами, из-за которых многие компании не развертывают решения для обработки больших объемов данных. Доказать целесообразность инвестиций в новую ИТ-инфраструктуру для обработки больших объемов данных бывает сложно, особенно если у компании нет готового экономического обоснования.
Обработка рабочих нагрузок, связанных с большими объемами данных, значительно отличается от обработки стандартных рабочих нагрузок корпоративных приложений. Рабочие нагрузки, связанные с большими объемами данных, обрабатываются параллельно, а не последовательно. Как правило, ИТ-отделы отдают наивысший приоритет важным рабочим нагрузкам, а выполнение менее приоритетных задач планируется в пакетном режиме в ночное время или осуществляется при наличии свободных ресурсов. При анализе больших объемов данных необходимо выполнять многочисленные сценарии использования в режиме реального времени, чтобы обеспечить оперативный анализ и реагирование. Это вынуждает ИТ-отделы изменять политики ЦОД и изучать новые средства для создания, администрирования и мониторинга новых рабочих нагрузок.
Компаниям необходимо выбирать для своих приложений и данных подходящую инфраструктуру. На приобретение оборудования требуется время. Переход в облако — хороший способ проверки концепции, однако он создает риск привязки к платформе и возникновения проблем безопасности, а также требует значительных расходов в масштабе всей системы. Компаниям также приходится выбирать, какой дистрибутив Hadoop использовать, так как Cloudera, Hortonworks, MAPR и Pivotal предлагают эффективные, но при этом несовместимые архитектуры. Так как принятые решения часто бывает трудно корректировать в дальнейшем, многие компании откладывают внедрение технологий обработки больших объемов данных.
Инфраструктура (как физическая, так и виртуальная) предназначена для поддержки приложений: как традиционных важных бизнес-приложений, так и современных облачных, мобильных приложений и приложений для обработки больших объемов данных.
Виртуализация приложений для обработки больших объемов данных типа Hadoop дает множество преимуществ, которые нельзя получить в физической инфраструктуре или в облаке. При упрощении управления инфраструктурой для больших объемов данных ускоряется получение результатов и повышается экономичность. VMware — это лучшая платформа как для обработки больших объемов данных, так и для выполнения традиционных приложений.
Упрощение эксплуатации и обслуживания инфраструктуры для больших объемов данных.
Консолидация кластеров обеспечивает сокращение капитальных расходов. Сокращение эксплуатационных расходов достигается за счет автоматизации и упрощения рабочих процессов.
Доступ к инфраструктуре по требованию помогает быстро получать преимущества для бизнеса.
Возможность регулярно и на ранних сроках тестировать основные технологии для обработки больших объемов. Благодаря среде с несколькими арендаторами можно выполнять несколько дистрибутивов Hadoop на одной виртуальной машине.
Объединение ресурсов в пулы и повышение эффективности использования серверов. Автоматизация переноса рабочих нагрузок повышает эффективность процессов.
Контроль использования конфиденциальных данных и обеспечение их соответствия нормативным требованиям.