Was ist Big Data?

Big Data ist ein weit gefasster Begriff für strukturierte und unstrukturierte Datensätze, die so groß und komplex sind, dass herkömmliche Datenverarbeitungsanwendungen und -systeme sie nicht angemessen handhaben können. Prädiktive Analysefunktionen basieren oftmals auf Big Data. Anhand von Datensatzanalysen werden neue Zusammenhänge erkannt, um Business-Trends zu ermitteln, Krankheiten zu verhindern, Kriminalität zu bekämpfen und viele weitere Erkenntnisse zu gewinnen.
Globale Branchenstudien enthüllen vier wichtige Hybrid-Cloud-Trends

Big-Data-Virtualisierung

VMware und Cloudera arbeiten gemeinsam an der Virtualisierung von Hadoop.

Hadoop-Virtualisierung: Wir klären auf

Fakten zur Virtualisierung von Hadoop auf vSphere

Hindernisse auf dem Weg zu erfolgreichen Big-Data-Projekten

Unternehmen stoßen bei der Umsetzung von Big-Data-Projekten häufig auf Probleme. Beispiele dafür sind knappe Budgets, fehlendes IT-Know-how und das Risiko von Plattformabhängigkeiten.

Knappe Budgets

Einer Deloitte-Studie zufolge sind Budgetbeschränkungen und Kosten die Hauptgründe dafür, warum viele Unternehmen vor der Bereitstellung von Big Data zurückschrecken. Es kann schwer sein, Investitionen in neue IT-Infrastruktur zur Verarbeitung großer Datenmengen zu rechtfertigen – vor allem, wenn Unternehmen kein konkreter Business-Case vorliegt.

IT-Fachwissen

Die Verarbeitung von Big-Data-Workloads unterscheidet sich von der Verarbeitung herkömmlicher Workloads von Unternehmensanwendungen. Big-Data-Workloads werden parallel und nicht nacheinander verarbeitet. IT-Abteilungen priorisieren in der Regel geschäftskritische Workloads und planen die Batch-Ausführung von Aufträgen mit geringerer Priorität nachts oder bei überschüssiger Kapazität. Für Live-Analysen und -Reaktionen im Kontext von Big-Data-Analysen müssen viele Prozesse in Echtzeit ausgeführt werden. Damit ist die IT gezwungen, Rechenzentrumsrichtlinien zu ändern und sich mit neuen Tools vertraut zu machen, um diese neuen Workloads zu erstellen, zu verwalten und zu überwachen.

Plattformabhängigkeit

Unternehmen müssen die richtige Infrastruktur für die Ausführung ihrer Anwendungen und Daten auswählen. Die Hardwarebeschaffung braucht Zeit. Der Cloud-Einstieg mag für ein Proof-of-Concept großartig sein, birgt aber auch das Risiko von Plattformabhängigkeit und ist außerdem mit Sicherheitsbedenken und enormen Kosten verbunden. Unternehmen müssen sich auch für eine bestimmte Hadoop-Distribution entscheiden, wobei Cloudera, Hortonworks, MAPR und Pivotal konkurrierende (und inkompatible) Architekturen anbieten. Wurden sie erst einmal getroffen, können zahlreiche Entscheidungen später nur schwer wieder rückgängig gemacht werden. Daher schieben viele Unternehmen das Thema Big Data lieber vor sich her.

Vorteile von Big Data mit VMware

Einfach

Vereinfachen Sie Betrieb und Wartung Ihrer Big-Data-Infrastruktur.

Agil

Nutzen Sie eine bedarfsorientierte Infrastruktur, um schnell geschäftlichen Mehrwert zu erzielen.

Kosteneffektiv

Senken Sie CapEx durch Clusterkonsolidierung. Senken Sie OpEx durch Automatisierung und einfache Workflows.

Flexibel

Zögern Sie nicht und führen Sie umfassende Tests mit den wichtigsten Big-Data-Technologien durch. Dank Mehrmandantenfähigkeit können Sie mehrere Hadoop-Distributionen auf derselben virtuellen Maschine ausführen.

Effizient

Fassen Sie Ressourcen in Pools zusammen und steigern Sie die Serverauslastung. Automatisierte Workload-Mobilität trägt zu effizienteren Prozessen bei.

Schutz

Stellen Sie Kontrolle und Compliance Ihrer sensiblen Daten sicher.

Spotlight: Hadoop

Die Rolle von Infrastruktur – ob physisch oder virtuell – besteht darin, Anwendungen zu unterstützen. Dazu zählen sowohl herkömmliche geschäftskritische Anwendungen als auch moderne Cloud- und Big-Data-Anwendungen sowie mobile Apps. Branchenanalyst Doug Laney definierte Big Data in Form von drei Kernbegriffen:

  • Volumen: Terabyte, Datensätze, Transaktionen, Tabellen und Dateien
  • Geschwindigkeit: Batch-Verarbeitung, Neartime, Echtzeit und Datenströme
  • Vielfalt: Strukturiert, unstrukturiert und halb strukturiert

Apache Hadoop (auch Hadoop genannt) ist eine Open-Source-Software, mit der Sie Big Data verteilt speichern und verarbeiten. Hadoop wurde von Unternehmen wie Cloudera, Hortonworks, MAPR und Pivotal in große Distributionen (auch als „Distros“ bezeichnet) verpackt und integriert, um Big-Data-Workloads auszuführen. Die Virtualisierung von Big-Data-Anwendungen wie Hadoop bietet viele Vorteile, die weder in einer physischen Infrastruktur noch in der Cloud erreicht werden können. Durch das vereinfachte Management von Big-Data-Infrastrukturen werden schneller Ergebnisse erzielt und dadurch Kosten gesenkt. VMware ist nicht nur für herkömmliche Anwendungen, sondern auch für Big Data die beste Plattform.

Sie möchten gleich anfangen?