ビッグデータとは

ビッグデータとは、構造化データ セットと非構造化データ セットを含めた幅広い意味を指します。ビッグデータは非常に大規模で複雑なため、従来のデータ処理アプリケーションやシステムでは適切に処理できません。ビッグデータは、予測分析に使用されることが多く、データ セットを分析することで新たな相関関係を検出し、ビジネス トレンドの特定、病気の予防、犯罪撲滅などに役立てることができます。
世界規模の業界調査で明らかになった、ハイブリッドクラウドに関する 4 つの重要なトレンド

ビッグデータの有効活用

VMware と Cloudera:Hadoop の仮想化で協力しています。

Hadoop の仮想化に関する誤解の解消

vSphere 上での Hadoop の仮想化に関する情報をご確認ください。

技術事例:Adobe Systems

Adobe は VMware vSphere 上で Hadoop をサービスとして展開しています。

ビッグデータ プロジェクト成功の障壁

企業がビッグデータ プロジェクトの実現において直面する問題には、予算の制約、IT 専門知識の不足、プラットフォーム ロックインのリスクなどがあります。

予算の制約

Deloitte の調査によると、予算の制約とコストの問題が、多くの企業がビッグデータの導入を断念する主な理由となっています。特にビジネス自体の投資対効果が保証されていない場合、膨大なデータを処理するための新たな IT インフラストラクチャへの投資を正当化することが非常に難しくなります。

IT の専門知識

ビックデータのワークロードの処理は、一般的なエンタープライズ アプリケーションのワークロードの処理とは異なります。ビッグデータのワークロードは、シーケンシャルではなく並列に処理されます。通常、IT 部門はビジネスクリティカルなワークロードを優先し、優先度が低いタスクは夜間のバッチ処理やキャパシティに余裕のある時間帯にスケジューリングします。ビッグデータ分析では、多くのユースケースをリアルタイムで実行し、その場で分析して対応します。そのため、IT 部門はデータセンターのポリシーを変更するほか、こうした新たなワークロードを作成、管理、および監視するための新しいツールの使用方法を習得する必要があります。

プラットフォーム ロックイン

企業は、アプリケーションやデータを実行するにあたって、適切な種類のインフラストラクチャを選択する必要があります。ハードウェアの調達には時間がかかるため、クラウドへの移行は事前検証(POC)が望ましいかもしれませんが、プラットフォーム ロックインのリスクがあるとともに、セキュリティに関する懸念と規模の拡大によるコストの増大を伴います。また、企業はどのベンダーの Hadoop ディストリビューションを導入するかを選択する必要があります。Cloudera、Hortonworks、MAPR、および Pivotal が、互換性のない競合アーキテクチャを提供しています。決定しなければならないことが多く、一度決定すると方針の転換が困難なため、多くの企業がビッグデータの導入を躊躇しています。

VMware ビッグデータ ソリューションのメリット

シンプル

ビッグデータ インフラストラクチャの運用とメンテナンスを簡素化します。

俊敏性

インフラストラクチャをオンデマンドで入手できるため、ビジネス バリューを迅速に実現できます。

優れた費用対効果

クラスタを統合することで設備投資コストを削減し、自動化とシンプルなワークフローによって運用コストを節約できます。

柔軟性

主要なビッグデータ テクノロジーを早期かつ頻繁に試用できます。マルチテナンシーにより、複数の Hadoop ディストリビューションを同一の仮想マシン上で実行できます。

効率性

リソースをプールしてサーバの使用率を向上させます。ワークロードを自動的に移動できるため、プロセスの効率が向上します。

セキュリティ

機密データを管理し、コンプライアンスを確保します。

スポットライト:Hadoop

インフラストラクチャの役割は、物理であるか仮想であるかを問わず、アプリケーションをサポートすることです。アプリケーションには、従来型のビジネスクリティカルなアプリケーションのほかに、最新のクラウド アプリケーション、モバイル アプリケーション、ビッグデータ アプリケーションが含まれます。業界のアナリストである Doug Laney 氏は、ビッグデータを次の 3 つの「V」で定義しました。

  • Volume(データの量):テラバイト、レコード、トランザクション、テーブル、ファイル
  • Velocity(データの速度、頻度):バッチ、ニア リアルタイム、リアルタイム、ストリーム
  • Variety(データの多様性、種類):構造化、非構造化、準構造化

Apache Hadoop(Hadoop)はオープンソースのソフトウェアであり、ビッグデータの分散格納や分散処理に使用されます。Hadoop は、Cloudera、Hortonworks、MAPR、Pivotal などの企業が提供する大規模なディストリビューション(ディストロ)にパッケージングして組み込まれており、ビッグデータのワークロードの実行に利用されています。Hadoop のようなビッグデータ アプリケーションを仮想化することで、物理インフラストラクチャやクラウドでは実現できない多くのメリットが得られます。ビッグデータ インフラストラクチャの管理を簡素化することで、成果を得るまでの時間が短縮され、費用対効果が向上します。VMware のプラットフォームは、従来型アプリケーションだけでなくビッグデータにも最適です。

ご興味をお持ちの方はこちら