什麼是大數據?

大數據是一個泛稱,泛指極為龐大和複雜的結構化和非結構化資料集,無法運用傳統資料處理應用程式和系統來妥善處理。大數據通常是預測性分析的基礎。資料集分析可用於找出新的相關性,以觀察商業趨勢、預防疾病、打擊犯罪,以及其他用途。
全球產業研究顯示 4 大關鍵混合雲趨勢

讓大數據發揮強大效用

VMware 與 Cloudera:共同合作將 Hadoop 虛擬化。

破除對於 Hadoop 虛擬化的迷思

瞭解在 vSphere 上將 Hadoop 虛擬化的事實數據。

執行成功大數據專案的阻礙

許多公司在執行大數據專案時常會遇到阻礙。這些阻礙可能包括預算有限、缺少 IT 專業知識,以及侷限於特定平台的風險。

預算有限

根據 Deloitte 公司的研究顯示,許多公司遲遲不願部署大數據的兩個首要原因,就是預算有限和成本考量。要說服公司高層投資新的 IT 基礎架構以處理大量資料可能極為困難,尤其當公司沒有這方面的立即業務需求時。

IT 專業知識

處理大數據工作負載與處理典型的企業應用程式工作負載,兩者並不相同。大數據工作負載的處理方式為並行式,而非循序式。IT 一般會優先處理關鍵業務的工作負載,並將優先性較低的工作排在夜間或有多餘容量時再處理。另一方面,在進行大數據分析時,必須即時執行許多使用情境,才能即時分析和反應。這會導致 IT 不得不變更資料中心內的作業原則,並學會使用新的工具,才能建立、管理和監控這些新的工作負載。

侷限於特定平台

許多公司需要選擇適合執行其應用程式和資料的基礎架構類型。然而,採購硬體需要時間。採用雲端可能非常適合概念驗證,但卻有侷限於特定平台的風險、連帶安全顧慮,且在大規模採用時會產生極大成本。公司也必須決定選擇哪一種 Hadoop 散發軟體,因為 Cloudera、Hortonworks、MAPR 和 Pivotal 目前都提供競爭 (而且互不相容的) 架構。有許多決定都是一旦做出決定後,公司在之後就難以轉換,所以才會有這麼多公司乾脆先暫緩討論大數據事宜。

VMware 大數據的優勢

純文字

為您簡化大數據基礎架構的運作和維護。

機動靈活

讓您的基礎架構能隨選應變,這樣您就能快速提供業務價值。

具成本效益

透過叢集整合降低資金支出成本。透過自動化和簡單的工作流程降低營運成本。

靈活有彈性

經常可以搶先試用重大的大數據技術。多租戶讓您能在同一個虛擬機上,執行多套 Hadoop 散發軟體。

高效率

建立資源集區,並提高伺服器利用率。工作負載行動化的自動化功能,可提高處理流程的效率。

安全

確保您的敏感資料受到控制且合規。

Hadoop 的焦點內容

無論是實體或虛擬基礎架構,所扮演的角色都是支援應用程式。支援的應用程式涵蓋傳統的關鍵業務應用程式,還有現代化雲端、行動和大數據應用程式。 產業分析師 Doug Laney 以三個 V 定義大數據:

 

  • 資料量 (Volume):兆位元組數、記錄數、交易數、表格數和檔案數
  • 速度 (Velocity):批次、近時、即時和資料流處理速度
  • 多樣性 (Variety):結構化、非結構化和半結構化資料

Apache Hadoop (又稱為 Hadoop) 是一套開放原始碼軟體,用於大數據的分散式儲存和處理。Cloudera、Hortonworks、MAPR 和 Pivotal 等公司,已將 Hadoop 封裝並整合到大型散發軟體 (又稱為 Distro) 內,以執行大數據工作負載。虛擬化 Hadoop 這類大數據應用程式,會提供許多在實體基礎架構或雲端上均無法獲得的優勢。簡化大數據基礎架構的管理能更快獲得結果,讓管理的成本效益更高。VMware 不只是傳統應用程式的最佳平台,也同樣適用於大數據。

準備要開始使用了嗎?