Общие сведения о больших данных?

Расширение возможностей для работы с большими данными
VMware и Cloudera: совместная работа над виртуализацией Hadoop.
Разоблачение мифов о виртуализации Hadoop
Сведения о виртуализации Hadoop на платформе vSphere
Пример внедрения: Adobe Systems
Компания Adobe развернула Hadoop как услугу на платформе VMware vSphere.
Препятствия для успешной обработки больших данных
Бюджетные ограничения
Согласно исследованию Deloitte, бюджетные ограничения и высокие расходы являются основными факторами, из-за которых многие компании не развертывают решения для обработки больших данных. Доказать целесообразность инвестиций в новую ИТ-инфраструктуру для обработки больших данных бывает сложно, особенно если у компании нет готового экономического обоснования.
ИТ-навыки
Обработка рабочих нагрузок, связанных с большими данными, значительно отличается от обработки стандартных рабочих нагрузок корпоративных приложений. Рабочие нагрузки, связанные с большими данными, обрабатываются параллельно, а не последовательно. Как правило, ИТ-отделы отдают наивысший приоритет важным рабочим нагрузкам, а выполнение менее приоритетных задач планируется в пакетном режиме в ночное время или осуществляется при наличии свободных ресурсов. При анализе больших данных необходимо выполнять многочисленные сценарии использования в режиме реального времени, чтобы обеспечить оперативный анализ и реагирование. Это вынуждает ИТ-отделы изменять политики ЦОД и изучать новые средства для создания, администрирования и мониторинга новых рабочих нагрузок.
Привязка к платформе
Компаниям необходимо выбирать для своих приложений и данных подходящую инфраструктуру. На приобретение оборудования требуется время. Переход в облако — хороший способ проверки концепции, однако он создает риск привязки к платформе и возникновения проблем безопасности, а также требует значительных расходов в масштабе всей системы. Компаниям также приходится выбирать, какой дистрибутив Hadoop использовать, так как Cloudera, Hortonworks, MAPR и Pivotal предлагают эффективные, но при этом несовместимые архитектуры. Так как принятые решения часто бывает трудно корректировать в дальнейшем, многие компании откладывают внедрение технологий обработки больших данных.
Преимущества решений VMware для работы с большими данными
Удобство
Упрощение эксплуатации и обслуживания инфраструктуры для больших данных.
Адаптивность
Доступ к инфраструктуре по требованию помогает быстро получать преимущества для бизнеса.
Экономичность
Консолидация кластеров обеспечивает сокращение капитальных расходов. Сокращение операционных расходов достигается за счет автоматизации и упрощения рабочих процессов.
Гибкость
Возможность регулярно и на ранних сроках тестировать основные технологии для обработки больших данных. Поддержка многоарендности позволяет использовать несколько дистрибутивов Hadoop на одной виртуальной машине.
Эффективность
Объединение ресурсов в пулы и повышение эффективности использования серверов. Автоматизация переноса рабочих нагрузок повышает эффективность процессов.
Безопасность
Контроль использования конфиденциальных данных и обеспечение их соответствия нормативным требованиям.
Материалы о Hadoop
Инфраструктура (как физическая, так и виртуальная) предназначена для поддержки приложений: как традиционных важных бизнес-приложений, так и современных облачных, мобильных приложений и приложений для обработки больших данных. Отраслевой аналитик Даг Лэйни (Doug Laney) определяет большие данные с помощью следующих характеристик.
- Объем: терабайты, записи, транзакции, таблицы и файлы
- Скорость: пакетная и потоковая обработка в режиме реального времени или близком к реальному времени
- Многообразие: структурированные, неструктурированные и частично структурированные данные
Apache Hadoop (или Hadoop) — это ПО с открытым исходным кодом, которое используется для распределенного хранения и обработки больших данных. Пакеты Hadoop интегрированы в крупные дистрибутивы таких компаний, как Cloudera, Hortonworks, MAPR и Pivotal, для выполнения рабочих нагрузок, связанных с большими данными. Виртуализация приложений для обработки больших данных типа Hadoop дает множество преимуществ, которые нельзя получить в физической инфраструктуре или в облаке. При упрощении управления инфраструктурой для больших данных ускоряется получение результатов и повышается экономичность. VMware — это лучшая платформа как для обработки больших данных, так и для использования традиционных приложений.
Ресурсы
Обучение и оценка
- Ускорение Spark с помощью графических ЦП
- VMware vRealize Automation: машинное обучение как услуга благодаря ускорению графических ЦП
- Виртуализация приложений для машинного обучения и обработки больших данных
- Виртуализация рабочих нагрузок машинного обучения с помощью графических процессоров NVIDIA позволяет получить преимущества как традиционных, так и виртуальных сред