对于大数据和传统应用,VMware 都是最好的平台。对大数据应用进行虚拟化可简化大数据基础架构的管理,让您更快地获得结果,并且更具成本效益。

      

(9:44)

VMware 和 Cloudera:携手合作,实现 Hadoop 虚拟化

查看 VMware 如何实现大数据的强大功能

揭开 Hadoop 虚拟化的神秘面纱

了解有关基于 vSphere 虚拟化 Hadoop 的实际情况

立即阅读

技术案例:Adobe Systems

Adobe 将 Hadoop 作为一项服务在 VMware vSphere 上进行部署

了解更多

什么是大数据


大数据的数量呈现出巨额增长,且时时刻刻从四面八方涌来。电脑、智能手机、虚拟设备和设施等系统和设备都在生成大量数据集,且依靠这些现有的数据集运行。
 

但什么是大数据呢?大数据是一个泛指结构化和非结构化数据集的术语,这些数据集太过庞大和复杂,以至传统的数据处理应用和系统无法充分地进行处理。通常来说,利用大数据可进行预测性分析。通过对数据集进行分析,可以找出新的相关性,从而确定业务趋势、预防疾病、打击犯罪等等。 
 

行业分析师 Doug Laney 从以下三个方面对大数据进行了定义:

  • 数量:数 TB 数据、记录、交易、表和文件
  • 速度:批量、近时、实时和流
  • 种类:结构化、非结构化和半结构化

Apache Hadoop(即 Hadoop)是一款用于大数据分布式存储和处理的开源软件。Cloudera、Hortonworks、MAPR 和 Pivotal 等公司纷纷将 Hadoop 打包并集成在了大版本(即发行版)中,以运行大数据工作负载。

成功实施大数据项目的障碍

 

各公司在实施大数据项目的过程中,经常遇到障碍。这些障碍可能包括预算限制、缺乏 IT 专业技能以及平台受限风险。

预算限制

根据 Deloitte 的研究,预算限制和成本是许多公司回避部署大数据的最主要原因。要证明投资新 IT 基础架构以处理大量数据的正当性确实不易,尤其是在企业并没有相关业务案例的情况下更是如此。

 

IT 专业技能

处理大数据工作负载不同于处理典型企业级应用工作负载。大数据工作负载采用平行的处理方式,而不是按顺序处理。IT 通常会优先处理关键业务工作负载,并安排在夜间或者存在多余容量时批量处理优先级较低的作业。但对于大数据分析,很多使用情形必须实时运行以便立即分析并迅速反应。这使 IT 不得不改变数据中心策略,并学习使用用于创建、管理和监控这些新工作负载的新工具。

 

平台受限

各公司需要选择合适的基础架构类型来运行他们的应用和数据。采购硬件需要花时间。对于概念证明而言,采用云计算可能是明智之举,但也伴随着平台受限的风险以及安全问题,而且会大规模地产生巨大成本。Cloudera、Hortonworks、MAPR 和 Pivotal 全都提供了互不兼容的竞争性体系结构,在这种情况下各公司还必须决定选择哪种 Hadoop 版本。有很多决定,一旦做出,公司以后就很难再进行调整,因此很多公司只好一再推迟讨论是否采用大数据。

VMware 在大数据中的作用

 

无论是物理基础架构还是虚拟基础架构,其作用都是为应用提供支持。这包括传统的关键业务应用以及现代云计算应用、移动应用和大数据应用。 
 

对 Hadoop 等大数据应用进行虚拟化可实现诸多优势,这些优势在物理基础架构或云环境中是无法实现的。简化大数据基础架构的管理可以让您更快地获得结果,从而提高成本效益。如同对传统应用的意义一样,对大数据而言,VMware 同样是最好的平台。
 

VMware 大数据是

简便性

简化大数据基础架构的操作和维护。

经济高效

通过集群整合降低 CAPEX 成本。通过自动化和简单工作流降低 OPEX。

敏捷

按需获取基础架构,让您可以快速实现业务价值。

灵活

尽早尝试并经常使用主要的大数据技术。借助多租户技术,您可以在同一虚拟机上运行多个 Hadoop 版本。

高效

池化您的资源并提高服务器利用率。自动实现工作负载移动化可提高处理效率。

安全性

确保敏感数据的可控性与合规性。