O que é Big Data?

      

VMware e Cloudera: trabalhando juntas para virtualizar o Hadoop

Video Play Icon
(9:44)

VMware e Cloudera: trabalhando juntas para virtualizar o Hadoop

Veja como a VMware potencializa a tecnologia Big Data

Desmistificação da virtualização do Hadoop

Conheça os fatos sobre a virtualização do Hadoop no vSphere

Leia agora

Estudo de caso técnico: Adobe Systems

Adobe implanta o Hadoop como um serviço no VMware vSphere

Saiba mais

O que é Big Data?


O aumento do volume do Big Data é enorme e está vindo de todos os lugares, a cada segundo do dia. Sistemas e dispositivos, incluindo computadores, smartphones, appliances e equipamentos geram e aumentam os enormes conjuntos de dados existentes.
 

Mas o que é Big Data? Big Data é um termo amplo usado para definir conjuntos de dados estruturados e não estruturados tão grandes e complexos a ponto de os aplicativos e os sistemas tradicionais de processamento de dados não conseguirem manipulá-los adequadamente. A tecnologia Big Data geralmente potencializa as técnicas de análise preditivas. As análises de conjuntos de dados são usadas para encontrar novas correlações que identificam tendências de negócios, previnem doenças, combatem o crime e muito mais. 
 

O analista do setor, Doug Laney, definiu o Big Data em três Vs:

  • Volume: terabytes, registros, transações, tabelas e arquivos
  • Velocidade: lote, rapidez, tempo real e fluxos
  • Variedade: estruturados, não estruturados e semiestruturados

O Apache Hadoop (também conhecido como Hadoop) é um software de código aberto usado para armazenamento distribuído e processamento de Big Data. O Hadoop foi empacotado e integrado em grandes distribuições por empresas como Cloudera, Hortonworks, MAPR e Pivotal para executar cargas de trabalho de Big Data.

Obstáculos para o sucesso de projetos de Big Data

 

As empresas geralmente encontram obstáculos ao implementar projetos de Big Data. Esses obstáculos podem incluir restrições orçamentárias, falta de experiência da equipe de TI e risco de bloqueio de plataforma.

Restrições orçamentárias

As restrições orçamentárias e os custos são as principais razões pelas quais muitas empresas estão evitando a implantação de Big Data, de acordo com um estudo realizado pela Deloitte. Pode ser difícil justificar o investimento em novas infraestruturas de TI para processar grandes quantidades de dados, principalmente se a empresa ainda não tem um caso de negócios imediato.

 

Experiência em TI

O processamento das cargas de trabalho de Big Data é diferente do processamento das cargas de trabalho típicas de aplicativos corporativos. As cargas de trabalho de Big Data são processadas paralelamente, e não sequencialmente. Em geral, a TI prioriza as cargas de trabalho essenciais aos negócios e programa trabalhos com prioridade mais baixa para serem executados em lotes à noite ou quando há excesso de capacidade. Com as técnicas de análise de Big Data, muitos casos de uso devem ser executados em tempo real para que a análise e a reação também ocorram em tempo real. Isso força a equipe de TI a mudar as políticas do data center e conhecer novas ferramentas para criar, gerenciar e monitorar essas novas cargas de trabalho.

 

Bloqueio de plataforma

As empresas precisam escolher o tipo ideal de infraestrutura para executar seus aplicativos e dados. A aquisição de hardware leva tempo. Migrar para a nuvem pode ser ótimo para fins de validação técnica, mas traz consigo o risco do bloqueio de plataforma, preocupações com a segurança e um enorme custo em escala. As empresas também precisarão decidir qual distribuição do Hadoop adotarão, com a Cloudera, a Hortonworks, a MAPR e a Pivotal oferecendo todas as arquiteturas concorrentes (e incompatíveis). Há muitas decisões que, após serem tomadas, ficam difíceis de serem controladas mais tarde por uma empresa. Por esse motivo, muitas empresas simplesmente adiam a discussão sobre o Big Data.

Função da VMware na tecnologia Big Data

 

A função da infraestrutura, seja física ou virtual, é oferecer suporte a aplicativos. Isso inclui os tradicionais aplicativos essenciais aos negócios, bem como os modernos aplicativos móveis, de nuvem e de Big Data. 
 

A virtualização de aplicativos de Big Data, como o Hadoop, oferece muitos benefícios que não podem ser obtidos na infraestrutura física ou na nuvem. A simplificação do gerenciamento da infraestrutura de Big Data acelera a obtenção dos resultados, tornando-o mais econômico. A VMware é a melhor plataforma para Big Data, bem como para aplicativos tradicionais.
 

A tecnologia Big Data da VMware é

Simples

Simplifique as operações e a manutenção de sua infraestrutura de Big Data.

Econômico

Reduza os custos de CapEx por meio da consolidação de cluster. Reduza os custos de OpEx por meio da automação e de fluxos de trabalho simples.

Ágil

Obtenha sua infraestrutura sob demanda para que possa agregar rapidamente valor aos negócios.

Flexível

Avalie as grandes tecnologias de Big Data o quanto antes e com frequência. A multilocação permite executar várias distribuições do Hadoop na mesma máquina virtual.

Eficiente

Agrupe os recursos e aumente a utilização do servidor. A automação da mobilidade de carga de trabalho contribui para a eficiência do processo.

Seguro

Assegure o controle e a conformidade de seus dados confidenciais.

Virtualização do Hadoop no vSphere: estudos de caso e white papers