Was ist Big Data?

Big Data ist ein weit gefasster Begriff für strukturierte und unstrukturierte Datensätze, die so groß und komplex sind, dass herkömmliche Datenverarbeitungsanwendungen und -systeme sie nicht angemessen handhaben können. Prädiktive Analysefunktionen basieren oftmals auf Big Data. Anhand von Datensatzanalysen werden neue Zusammenhänge erkannt, mit denen Business-Trends ermittelt, Krankheiten verhindert, Kriminalität bekämpft und viele weitere Erkenntnisse erlangt werden können.
Globale Branchenstudien enthüllen 4 wichtige Hybrid Cloud-Trends

Big Data-Virtualisierung

VMware und Cloudera: Kooperation zur Virtualisierung von Hadoop

Hindernisse auf dem Weg zu erfolgreichen Big Data-Projekten

Unternehmen stoßen bei der Umsetzung von Big Data-Projekten häufig auf Probleme. Beispiele dafür sind knappe Budgets, fehlendes IT-Know-how und das Risiko von Plattformabhängigkeiten.

Knappe Budgets

Einer Deloitte-Studie zufolge sind Budgetbeschränkungen und Kosten die Hauptgründe dafür, warum viele Unternehmen vor der Bereitstellung von Big Data zurückschrecken. Es ist schwer, Investitionen in neue IT-Infrastruktur zur Verarbeitung großer Datenmengen zu rechtfertigen – vor allem, wenn dem Unternehmen kein konkreter Business Case vorliegt.

IT-Fachwissen

Die Verarbeitung von Big Data-Workloads unterscheidet sich von der Verarbeitung herkömmlicher Workloads von Unternehmensanwendungen. Big Data-Workloads werden parallel und nicht nacheinander verarbeitet. IT-Abteilungen priorisieren in der Regel geschäftskritische Workloads und planen die Batch-Ausführung von Aufträgen mit geringerer Priorität nachts oder bei überschüssiger Kapazität. Für Live-Analysen und -Reaktionen im Rahmen von Big Data-Analysen müssen viele Prozesse in Echtzeit ausgeführt werden. Damit ist die IT gezwungen, Rechenzentrumsrichtlinien zu ändern und sich mit neuen Tools vertraut zu machen, mit denen sich diese neuen Workloads erstellen, verwalten und überwachen lassen.

Plattformabhängigkeit

Unternehmen müssen die richtige Infrastruktur für die Ausführung ihrer Anwendungen und Daten auswählen. Die Hardwarebeschaffung braucht Zeit. Der Cloud-Einstieg mag für ein Proof-of-Concept großartig sein, birgt aber auch das Risiko von Plattformabhängigkeit und ist außerdem mit Sicherheitsbedenken und enormen Kosten verbunden. Unternehmen müssen sich auch für eine bestimmte Hadoop-Distribution entscheiden, wobei Cloudera, Hortonworks, MAPR und Pivotal konkurrierende (und inkompatible) Architekturen anbieten. Wurden sie erst einmal getroffen, lassen sich zahlreiche Entscheidungen später nur schwer wieder rückgängig machen. Daher schieben viele Unternehmen das Thema Big Data lieber vor sich her.

Vorteile von VMware Big Data

Einfach

Vereinfachen Sie Betrieb und Wartung Ihrer Big Data-Infrastruktur.

Agil

Sie erhalten eine bedarfsorientierte Infrastruktur, damit Sie schnell geschäftlichen Mehrwert erzielen.

Kosteneffektiv

Senken Sie CapEx durch Cluster-Konsolidierung. Senken Sie OpEx durch Automatisierung und einfache Abläufe.

Flexibel

Zögern Sie nicht und führen Sie umfassende Tests mit den wichtigsten Big Data-Technologien durch. Dank Mandantenfähigkeit können Sie mehrere Hadoop-Distributionen auf derselben virtuellen Maschine ausführen.

Effizient

Fassen Sie Ressourcen in Pools zusammen und steigern Sie die Serverauslastung. Die Automatisierung der Workload-Mobilität sorgt für effizientere Prozesse.

Unternehmen

Gewährleisten Sie Kontrolle und Compliance Ihrer sensiblen Daten.

Spotlight: Hadoop

Die Rolle von Infrastruktur – ob physisch oder virtuell – besteht darin, Anwendungen zu unterstützen. Dazu zählen sowohl herkömmliche geschäftskritische Anwendungen als auch moderne Cloud- und Big Data-Anwendungen sowie mobile Apps. Branchenanalyst Doug Laney definierte Big Data mit drei Kernbegriffen:

 

  • Volumen: Terabyte, Datensätze, Transaktionen, Tabellen und Dateien
  • Geschwindigkeit: Stapelverarbeitung, Neartime, Echtzeit und Datenströme
  • Vielfalt: Strukturiert, unstrukturiert und halb strukturiert

Apache Hadoop (auch Hadoop genannt) ist eine Open Source-Software für das verteilte Speichern und Verarbeiten von Big Data. Hadoop wurde von Unternehmen wie Cloudera, Hortonworks, MAPR und Pivotal in große Distributionen (auch „Distros“ genannt) verpackt und integriert, um Big Data-Workloads auszuführen. Die Virtualisierung von Big Data-Anwendungen wie Hadoop bietet viele Vorteile, die weder in einer physischen Infrastruktur noch in der Cloud erreicht werden können. Durch das vereinfachte Management von Big Data-Infrastrukturen werden schneller Ergebnisse erzielt und dadurch die Kosten gesenkt. VMware ist nicht nur für herkömmliche Anwendungen, sondern auch für Big Data die beste Plattform.

Sie möchten gleich anfangen?