Was ist Big Data?

      

VMware und Cloudera: Kooperation zur Virtualisierung von Hadoop

Video Play Icon
(9:44)

VMware und Cloudera: Kooperation zur Virtualisierung von Hadoop

Informieren Sie sich darüber, wie VMware Big Data unterstützt.

Hadoop-Virtualisierung: Wir klären auf

Fakten zur Virtualisierung von Hadoop in vSphere

Jetzt lesen

Technische Fallstudie: Adobe Systems

Adobe stellt Hadoop as a Service in VMware vSphere bereit

Weitere Informationen

Was ist Big Data?


Das Big Data-Volumen steigt enorm – überall und in jeder Sekunde des Tages. Systeme und Geräte wie Computer, Smartphones, Appliances und Anlagen erzeugen riesige Mengen von Datensätzen und arbeiten zudem mit einer Vielzahl vorhandener Daten.
 

Aber was ist Big Data? Big Data ist ein weit gefasster Begriff für strukturierte und unstrukturierte Datensätze, die so groß und komplex sind, dass herkömmliche Datenverarbeitungsanwendungen und -systeme sie nicht angemessen handhaben können. Prädiktive Analysefunktionen basieren oftmals auf Big Data. Anhand von Datensatzanalysen werden neue Zusammenhänge erkannt, mit denen Business-Trends ermittelt, Krankheiten verhindert, Kriminalität bekämpft und viele weitere Erkenntnisse erlangt werden können. 
 

Branchenanalyst Doug Laney definierte Big Data im Rahmen von drei Kernbegriffen:

  • Volumen: Terabyte, Datensätze, Transaktionen, Tabellen und Dateien
  • Geschwindigkeit: Batch-Verarbeitung, Neartime, Echtzeit und Ströme
  • Vielfalt: Strukturiert, unstrukturiert und halbstrukturiert

Apache Hadoop (auch bekannt als Hadoop) ist eine Open Source-Software für das verteilte Speichern und Verarbeiten von Big Data. Hadoop wurde von Unternehmen wie Cloudera, Hortonworks, MAPR und Pivotal in große Distributionen (auch „Distros“ genannt) verpackt und integriert, um Big Data-Workloads auszuführen.

Hindernisse auf dem Weg zu erfolgreichen Big Data-Projekten

 

Unternehmen stoßen bei der Umsetzung von Big Data-Projekten häufig auf Probleme. Beispiele dafür sind knappe Budgets, fehlendes IT-Know-how und das Risiko von Plattformabhängigkeiten.

Knappe Budgets

Einer Deloitte-Studie zufolge sind Budgetbeschränkungen und Kosten die Hauptgründe dafür, warum viele Unternehmen vor der Bereitstellung von Big Data zurückschrecken. Es ist schwer, Investitionen in neue IT-Infrastruktur zur Verarbeitung großer Datenmengen zu rechtfertigen – vor allem, wenn dem Unternehmen kein konkreter Business Case vorliegt.

 

IT-Know-how

Die Verarbeitung von Big Data-Workloads unterscheidet sich von der Verarbeitung herkömmlicher Workloads von Unternehmensanwendungen. Big Data-Workloads werden parallel und nicht nacheinander verarbeitet. IT-Abteilungen priorisieren in der Regel geschäftskritische Workloads und planen die Batch-Ausführung von Aufträgen mit geringerer Priorität nachts oder bei überschüssiger Kapazität. Für Live-Analysen und -Reaktionen im Rahmen von Big Data-Analysen müssen viele Prozesse in Echtzeit ausgeführt werden. Damit ist die IT gezwungen, Rechenzentrumsrichtlinien zu ändern und sich mit neuen Tools vertraut zu machen, mit denen sich diese neuen Workloads erstellen, verwalten und überwachen lassen.

 

Plattformabhängigkeit

Unternehmen müssen die richtige Infrastruktur für die Ausführung ihrer Anwendungen und Daten auswählen. Die Hardwarebeschaffung braucht Zeit. Der Cloud-Einstieg mag für ein Proof-of-Concept großartig sein, birgt aber auch das Risiko von Plattformabhängigkeit und ist außerdem mit Sicherheitsbedenken und enormen Kosten verbunden. Unternehmen müssen sich auch für eine bestimmte Hadoop-Distribution entscheiden, wobei Cloudera, Hortonworks, MAPR und Pivotal konkurrierende (und inkompatible) Architekturen anbieten. Wurden sie erst einmal getroffen, lassen sich zahlreiche Entscheidungen später nur schwer wieder rückgängig machen. Daher schieben viele Unternehmen das Thema Big Data lieber vor sich her.

Die Rolle von VMware bei Big Data

 

Die Rolle von Infrastruktur – ob physisch oder virtuell – besteht darin, Anwendungen zu unterstützen. Dazu zählen sowohl herkömmliche geschäftskritische Anwendungen als auch moderne Cloud- und Big Data-Anwendungen sowie mobile Apps. 
 

Die Virtualisierung von Big Data-Anwendungen wie Hadoop bietet viele Vorteile, die mit einer physischen Infrastruktur oder in der Cloud nicht erreicht werden können. Durch das vereinfachte Management von Big Data-Infrastrukturen erzielen Kunden schnellere Ergebnisse und senken dadurch ihre Kosten. VMware ist nicht nur für herkömmliche Anwendungen die beste Plattform, sondern auch für Big Data.
 

Vorteile von Big Data mit VMware

Einfach

Vereinfachen Sie Betrieb und Wartung Ihrer Big Data-Infrastruktur.

Kostengünstig

Senken Sie Investitionskosten durch Cluster-Konsolidierung und Betriebskosten durch Automatisierung und einfache Workflows.

Agil

Sie erhalten eine bedarfsorientierte Infrastruktur, damit Sie schnell geschäftlichen Mehrwert erzielen.

Flexibel

Zögern Sie nicht und führen Sie umfassende Tests mit den wichtigsten Big Data-Technologien durch. Dank Mandantenfähigkeit lassen sich mehrere Hadoop-Distributionen auf einer virtuellen Maschine ausführen.

Effizient

Fassen Sie Ihre Ressourcen in Pools zusammen und steigern Sie die Serverauslastung. Die Automatisierung von Workload-Mobilität führt zu effizienteren Prozessen.

Sicher

Gewährleisten Sie Kontrolle und Compliance Ihrer sensiblen Daten.

Hadoop-Virtualisierung in vSphere – Fallstudien und White Paper