什么是大数据?

      

VMware 和 Cloudera:携手合作,实现 Hadoop 虚拟化

Video Play Icon
(9:44)

VMware 和 Cloudera:携手合作,实现 Hadoop 虚拟化

了解 VMware 如何支持大数据

澄清对 Hadoop 虚拟化的误解

了解有关基于 vSphere 虚拟化 Hadoop 的真实情况

立即阅读

技术案例:Adobe Systems

Adobe 将 Hadoop 作为 VMware vSphere 上的一项服务进行部署

了解更多

什么是大数据


大数据的数量呈爆炸式增长,且时时刻刻从四面八方涌来。电脑、智能手机、家用电器和器材等系统和设备都在生成大量数据集,且依靠这些现有的数据集运行。

但什么是大数据呢?大数据是一个含义广泛的术语,它指的是结构化和非结构化数据集,这些数据集太过庞大和复杂,传统的数据处理应用和系统无法对其进行恰当的处理。通常来说,利用大数据可进行预测性分析。通过对数据集进行分析,可以找出新的相关性,从而确定业务趋势、预防疾病、打击犯罪等等。

行业分析师 Doug Laney 从以下三个方面对大数据进行了定义:

  • 体量:TB、记录、交易、表和文件
  • 速度:批量,短时间,实时和流
  • 种类:结构化、非结构化和半结构化

Apache Hadoop(即 Hadoop)是一款用于大数据分布式存储和处理的开源软件。Cloudera、Hortonworks、MAPR 和 Pivotal 等公司纷纷将 Hadoop 打包并集成在了大版本(即发行版)中,以运行大数据工作负载。

成功实施大数据项目的障碍

 

各公司在实施大数据项目的过程中,经常遇到障碍。这些障碍可能包括预算限制、缺乏 IT 专业技能以及平台限制风险。

预算限制

根据 Deloitte 的研究,预算限制和成本是许多公司回避部署大数据的最主要原因。要证明投资新 IT 基础设施以处理大量数据的合理性确实不易,尤其是在企业并没有相关业务案例的情况下更是如此。

 

IT 专业技能

处理大数据工作负载不同于处理典型企业级应用工作负载。大数据工作负载采用平行的处理方式,而不是按顺序处理。IT 通常会优先处理关键业务工作负载,并安排在夜间或者容量有富余时批量处理优先级较低的作业。但对于大数据分析,很多用例必须实时运行以便立即分析并迅速反应。这使 IT 不得不改变数据中心策略,并学习使用新工具来创建、管理和监控这些新工作负载。

 

平台限制

各公司需要选择合适的基础架构类型来运行他们的应用和数据。采购硬件需要花时间。对于概念证明而言,采用云计算可能是明智之举,但也会带来平台限制风险和安全问题,而且会大规模地产生巨大成本。而且,Cloudera、Hortonworks、MAPR 和 Pivotal 提供的都是互不兼容的竞争性体系架构,各公司必须决定选择哪种 Hadoop 版本。有很多决定,一旦做出,公司以后就很难再进行调整,因此很多公司只好一再推迟讨论是否采用大数据。

VMware 在大数据领域的作用

 

无论是物理基础架构还是虚拟基础架构,其作用都是为应用提供支持。这包括传统关键业务应用以及现代云端应用、移动应用和大数据应用。

对 Hadoop 等大数据应用进行虚拟化可提供诸多优势,这些优势在物理基础架构或云环境中是无法实现的。简化大数据基础架构的管理可以让您更快地取得成果,从而提高成本效益。如同对传统应用的意义一样,对大数据而言,VMware 同样是最好的平台。

VMware 大数据是

简便

简化大数据基础架构的运维和维护。

经济高效

通过集群整合降低 CAPEX 成本。通过自动化和简单工作流降低 OPEX。

敏捷

按需获取基础架构,让您可以快速实现业务价值。

灵活

尽早尝试并经常使用主要的大数据技术。借助多租户技术,您可以在同一虚拟机上运行多个 Hadoop 发行版。

高效

池化您的资源并提高服务器利用率。自动实现工作负载移动化可提高处理效率。

安全

确保敏感数据的可控性与合规性。

基于 vSphere 虚拟化 Hadoop - 案例和白皮书