什麼是大數據?

讓大數據發揮強大效用
VMware 與 Cloudera:共同合作將 Hadoop 虛擬化。
破除對於 Hadoop 虛擬化的迷思
瞭解在 vSphere 上將 Hadoop 虛擬化的事實數據。
技術個案研究:Adobe Systems
Adobe 將 Hadoop 即服務部署在 VMware vSphere 上。
執行成功大數據專案的阻礙
預算有限
根據 Deloitte 公司的研究顯示,許多公司遲遲不願部署大數據的兩個首要原因,就是預算有限和成本考量。要說服公司高層投資新的 IT 基礎架構以處理大量資料可能極為困難,尤其當公司沒有這方面的立即業務需求時。
IT 專業知識
處理大數據工作負載與處理典型的企業應用程式工作負載,兩者並不相同。大數據工作負載的處理方式為並行式,而非循序式。IT 一般會優先處理關鍵業務的工作負載,並將優先性較低的工作排在夜間或有多餘容量時再處理。另一方面,在進行大數據分析時,必須即時執行許多使用情境,才能即時分析和反應。這會導致 IT 不得不變更資料中心內的作業原則,並學會使用新的工具,才能建立、管理和監控這些新的工作負載。
侷限於特定平台
許多公司需要選擇適合執行其應用程式和資料的基礎架構類型。然而,採購硬體需要時間。採用雲端可能非常適合概念驗證,但卻有侷限於特定平台的風險、連帶安全顧慮,且在大規模採用時會產生極大成本。公司也必須決定選擇哪一種 Hadoop 散發軟體,因為 Cloudera、Hortonworks、MAPR 和 Pivotal 目前都提供競爭 (而且互不相容的) 架構。有許多決定都是一旦做出決定後,公司在之後就難以轉換,所以才會有這麼多公司乾脆先暫緩討論大數據事宜。
VMware 大數據的優勢
純文字
為您簡化大數據基礎架構的運作和維護。
機動靈活
讓您的基礎架構能隨選應變,這樣您就能快速提供業務價值。
具成本效益
透過叢集整合降低資金支出成本。透過自動化和簡單的工作流程降低營運成本。
靈活有彈性
經常可以搶先試用重大的大數據技術。多租戶讓您能在同一個虛擬機上,執行多套 Hadoop 散發軟體。
高效率
建立資源集區,並提高伺服器利用率。工作負載行動化的自動化功能,可提高處理流程的效率。
安全
確保您的敏感資料受到控制且合規。
Hadoop 的焦點內容
無論是實體或虛擬基礎架構,所扮演的角色都是支援應用程式。支援的應用程式涵蓋傳統的關鍵業務應用程式,還有現代化雲端、行動和大數據應用程式。 產業分析師 Doug Laney 以三個 V 定義大數據:
- 資料量 (Volume):兆位元組數、記錄數、交易數、表格數和檔案數
- 速度 (Velocity):批次、近時、即時和資料流處理速度
- 多樣性 (Variety):結構化、非結構化和半結構化資料
Apache Hadoop (又稱為 Hadoop) 是一套開放原始碼軟體,用於大數據的分散式儲存和處理。Cloudera、Hortonworks、MAPR 和 Pivotal 等公司,已將 Hadoop 封裝並整合到大型散發軟體 (又稱為 Distro) 內,以執行大數據工作負載。虛擬化 Hadoop 這類大數據應用程式,會提供許多在實體基礎架構或雲端上均無法獲得的優勢。簡化大數據基礎架構的管理能更快獲得結果,讓管理的成本效益更高。VMware 不只是傳統應用程式的最佳平台,也同樣適用於大數據。
資源
學習與評量
- 進行 GPU 加速的 Spark
- 《使用 VMware vRealize Automation 透過 GPU 加速實現機器學習即服務 (MLaaS)》(Enabling Machine Learning as a Service (MLaaS) with GPU Acceleration using VMware vRealize Automation)
- 將大數據和機器學習虛擬化
- 《使用 NVIDIA GPU 將機器學習工作負載虛擬化能提供兩全其美的優點》(Virtualizing Machine Learning Workloads with NVIDIA GPUs Provides the Best of Both Worlds)