Obtenga información sobre la virtualización de Hadoop en vSphere.
Adobe implementa Hadoop como servicio en VMware vSphere.
El crecimiento del volumen de los macrodatos es enorme y se origina constantemente y en todas partes. Los sistemas y los dispositivos, incluidos ordenadores, teléfonos móviles, dispositivos electrónicos y equipos generan y amplían los masivos conjuntos de datos existentes.
Pero, ¿qué son los macrodatos? «Macrodatos» es un término amplio que abarca tanto grupos de datos estructurados como no estructurados tan grandes que las aplicaciones y sistemas de procesamiento de datos tradicionales no pueden gestionarlos adecuadamente. Con frecuencia, los análisis predictivos se basan en tecnología de macrodatos. El análisis de los conjuntos de datos se utiliza para encontrar nuevas correlaciones que permitan identificar tendencias comerciales, evitar enfermedades, luchar contra la delincuencia, etc.
El analista del sector Doug Laney definió los macrodatos según el principio de las tres V:
Apache Hadoop (también conocido como Hadoop) es un software de código abierto utilizado para el almacenamiento y el procesamiento distribuidos de macrodatos. Empresas como Cloudera, Hortonworks, MAPR y Pivotal han empaquetado e integrado Hadoop en grandes distribuciones (también conocidas como distros) para ejecutar cargas de trabajo de macrodatos.
Con frecuencia, las empresas se encuentran con obstáculos al implementar proyectos de macrodatos. Estos obstáculos pueden ser limitaciones presupuestarias, falta de conocimientos informáticos y riesgo de dependencia de la plataforma, entre otros.
De acuerdo con un estudio realizado por Deloitte, las limitaciones presupuestarias y el coste son las principales razones por las que muchas empresas se muestran reticentes a implementar los macrodatos. Puede resultar difícil justificar la inversión en una nueva infraestructura de TI para procesar grandes cantidades de datos, especialmente si la empresa no cuenta todavía con una justificación empresarial inmediata.
Existe una diferencia entre procesar cargas de trabajo de macrodatos y procesar cargas de trabajo de las aplicaciones empresariales habituales. Las cargas de trabajo de macrodatos se procesan en paralelo, en vez de secuencialmente. El departamento de TI suele priorizar las cargas de trabajo fundamentales y programa las tareas de baja prioridad en lotes para que se realicen por la noche o cuando haya un exceso de capacidad. Debido a las técnicas de análisis de macrodatos, muchos casos de uso se deben ejecutar en tiempo real para obtener un análisis y una reacción en directo. Esto obliga al departamento de TI a modificar las políticas del centro de datos y a descubrir nuevas herramientas para crear, gestionar y supervisar estas nuevas cargas de trabajo.
Las empresas deben elegir el tipo adecuado de infraestructura para ejecutar sus aplicaciones y datos. Adquirir hardware requiere tiempo. Aunque acceder a la cloud puede ser una buena idea para una validación técnica, supone un riesgo de dependencia de la plataforma, plantea problemas de seguridad y genera un coste enorme. Las empresas también deben decidir qué distribución de Hadoop seleccionarán. Cloudera, Hortonworks, MAPR y Pivotal ofrecen arquitecturas que compiten entre sí (y son incompatibles). Hay muchas decisiones que, una vez tomadas, dificultan que una empresa pueda adaptarse posteriormente, por lo que muchas empresas aplazan el debate sobre los macrodatos.
La función de la infraestructura, ya sea física o virtual, es respaldar las aplicaciones. Esto no solo incluye las aplicaciones esenciales tradicionales, sino también aplicaciones modernas de cloud, móviles y de macrodatos.
La virtualización de aplicaciones de macrodatos como Hadoop ofrece muchas ventajas que no pueden obtenerse en una infraestructura física o en la cloud. Simplificar la gestión de su infraestructura de macrodatos acelera el tiempo de obtención de resultados, por lo que es más rentable. VMware es la mejor plataforma para los macrodatos, al igual que para las aplicaciones tradicionales.
Simplifique las operaciones y el mantenimiento de su infraestructura de macrodatos.
Reduzca la inversión en capital mediante la consolidación de clústeres. Reduzca los gastos operativos mediante la automatización y unos flujos de trabajo sencillos.
Prepare su infraestructura según las necesidades para que pueda proporcionar valor empresarial rápidamente.
Haga más pruebas y más pronto gracias a las principales tecnologías de macrodatos. El entorno multicliente le permite ejecutar varias distribuciones de Hadoop en la misma máquina virtual.
Agrupe sus recursos y aumente la utilización de los servidores. La automatización de la movilidad de cargas de trabajo mejora la eficiencia del proceso.
Garantice el control y la conformidad de los datos confidenciales.