Qu’est-ce que le Big Data ?

      

Collaboration entre VMware et Cloudera pour virtualiser Hadoop

Video Play Icon
(9:44)

Collaboration entre VMware et Cloudera pour virtualiser Hadoop

Découvrez comment VMware libère la puissance du Big Data

Démystifier les idées reçues sur la virtualisation de Hadoop

Faits sur la virtualisation de Hadoop sur vSphere

Lire

Étude de cas technique : Adobe Systems

Adobe déploie Hadoop sous forme de service sur VMware vSphere

En savoir plus

Présentation du Big Data


L’accroissement en volume du Big Data est énorme et provient de partout, chaque seconde de la journée. Les systèmes et les terminaux, notamment les ordinateurs, les smartphones, les appliances et les équipements, génèrent et mettent à profit des jeux de données colossaux.
 

Mais qu’est-ce que le Big Data ? Big Data est un terme général désignant des ensembles de données structurées et non structurées si importants et si complexes que les applications de traitement des données traditionnelles ne sont pas en mesure de les manipuler de façon adéquate. Le Big Data sert souvent de base à l’analyse prédictive. L’analyse des jeux de données est utilisée pour identifier de nouvelles corrélations permettant notamment de repérer les tendances, de prévenir des maladies, de combattre la délinquance, et bien plus encore. 
 

L’analyste industriel Doug Laney définit le Big Data par le concept des « Trois V » :

  • Volume : téra-octets, enregistrements, transactions, tables et fichiers
  • Vélocité : traitement par lots, temps proche du temps réel, temps réel et flux
  • Variété : données structurées, non structurées et semi-structurées

Apache Hadoop (Hadoop) est un logiciel Open Source utilisé pour le stockage distribué et le traitement du Big Data. Hadoop a été intégré au sein de distributions importantes par des sociétés telles que Cloudera, Hortonworks, MAPR et Pivotal pour traiter les charges de travail de Big Data.

Obstacles à la réussite des projets Big Data

 

Les entreprises sont souvent confrontées à des difficultés lorsqu’elles mettent en œuvre des projets de Big Data. Il peut notamment s’agir de contraintes budgétaires, d’un manque de connaissances informatiques ou du risque de dépendance vis-à-vis d’une seule plate-forme.

Contraintes budgétaires

Selon une enquête menée par Deloitte, les contraintes budgétaires et le coût sont les principales raisons pour lesquelles les entreprises hésitent à déployer le Big Data. En effet, il peut s’avérer difficile de justifier un investissement dans une nouvelle infrastructure informatique destinée à traiter d’importants volumes de données, en particulier si l’entreprise ne dispose pas encore d’un dossier commercial immédiat.

 

Savoir-faire informatique

Le traitement des charges de travail de Big Data diffère de celui des charges de travail des applications d’entreprise classiques. En effet, les charges de Big Data sont traitées en parallèle, et non plus séquentiellement. En informatique, les charges de travail stratégiques sont généralement placées en priorité et les tâches moins prioritaires sont traitées par lots la nuit ou lorsqu’une capacité excédentaire est disponible. Avec les données chiffrées du Big Data, de nombreux cas d’usage doivent être exécutés en temps réel, à des fins d’analyse et de réaction immédiates. Ceci oblige le département informatique à modifier les règles du Data Center et à maîtriser de nouveaux outils pour créer, gérer et surveiller ces nouvelles charges de travail.

 

Dépendance vis-à-vis d’une plate-forme

Les sociétés doivent choisir le type d’infrastructure approprié pour exécuter leurs applications et leurs données. L’approvisionnement en matériel prend du temps. Le passage au Cloud peut s’avérer idéal pour une preuve de concept, mais fait courir le risque de la dépendance vis-à-vis d’une plate-forme, peut entraîner des problèmes de sécurité et implique des coûts colossaux à grande échelle. Les entreprises doivent également décider de la distribution d’Hadoop à sélectionner, avec Cloudera, Hortonworks, MAPR et Pivotal, qui proposent toutes des architectures concurrentes (et incompatibles). De nombreuses décisions, une fois prises, peuvent empêcher une société de changer d’optique par la suite. C’est pour toutes ces raisons que de nombreuses entreprises retardent tout simplement leur adoption du Big Data.

Le rôle de VMware dans le Big Data

 

Qu’elle soit physique ou virtuelle, l’infrastructure a pour rôle de prendre en charge les applications. Il peut aussi bien s’agir d’applications stratégiques traditionnelles que d’applications modernes : Cloud, mobiles et Big Data. 
 

La virtualisation d’applications Big Data telles qu’Hadoop offre de nombreux avantages, impossible à obtenir sur une infrastructure physique ou dans le Cloud. En simplifiant la gestion de votre infrastructure Big Data, vous raccourcissez les délais d’obtention de résultats et la rendez plus économique. Qu’il s’agisse d’applications Big Data ou d’applications traditionnelles, VMware représente la plate-forme idéale.
 

Le Big Data VMware est

Simple

Simplifiez l’exploitation et la maintenance de votre infrastructure Big Data.

Économique

Réduisez les dépenses d’investissement grâce à la consolidation des clusters. Réduisez les coûts d’exploitation grâce à l’automatisation et à des workflows simples.

Agile

Obtenez votre infrastructure à la demande, de façon à apporter rapidement une valeur ajoutée à l’entreprise.

Flexible

Essayez rapidement et fréquemment des technologies Big Data de premier plan. La mutualisation vous permet d’exécuter plusieurs distributions de Hadoop sur une même machine virtuelle.

Efficace

Regroupez vos ressources et améliorez l’utilisation des serveurs. L’automatisation du déplacement des charges de travail rend les processus encore plus efficaces.

Sécurisé

Garantissez le contrôle et la conformité de vos données sensibles.

Virtualisation de Hadoop sur vSphere - Études de cas et livres blancs