Qu’est-ce que le Big Data ?

Big Data est un terme général désignant des ensembles de données structurées et non structurées si importants et si complexes que les applications de traitement des données traditionnelles ne sont pas en mesure de les manipuler de façon adéquate. Le Big Data sert souvent de base à l’analyse prédictive. L’analyse des jeux de données est utilisée pour identifier de nouvelles corrélations permettant notamment de repérer les tendances, de prévenir des maladies, de combattre la délinquance, et plus encore.
Une étude mondiale du secteur révèle les 4 tendances clés du Cloud hybride

Dynamiser le Big Data

VMware et Cloudera : collaborer pour virtualiser Hadoop.

Démystifier les idées reçues sur la virtualisation de Hadoop

Faits sur la virtualisation de Hadoop sur vSphere.

Étude de cas client : Adobe Systems

Adobe déploie Hadoop sous forme de service sur VMware vSphere.

Obstacles à la réussite des projets Big Data

Les entreprises sont souvent confrontées à des difficultés lorsqu’elles mettent en œuvre des projets de Big Data. Il peut notamment s’agir de contraintes budgétaires, d’un manque de connaissances informatiques ou du risque de dépendance vis-à-vis d’une seule plate-forme.

Contraintes budgétaires

Selon une enquête menée par Deloitte, les contraintes budgétaires et le coût sont les principales raisons pour lesquelles les entreprises hésitent à déployer le Big Data. En effet, il peut s’avérer difficile de justifier un investissement dans une nouvelle infrastructure informatique destinée à traiter d’importants volumes de données, en particulier si l’entreprise ne dispose pas encore d’un dossier commercial immédiat.

Savoir-faire informatique

Le traitement des charges de travail de Big Data diffère de celui des charges de travail des applications d’entreprise classiques. En effet, les charges de Big Data sont traitées en parallèle, et non plus séquentiellement. En informatique, les charges de travail stratégiques sont généralement placées en priorité et les tâches moins prioritaires sont traitées par lots la nuit ou lorsqu’une capacité excédentaire est disponible. Avec les données chiffrées du Big Data, de nombreux cas d’usage doivent être exécutés en temps réel, à des fins d’analyse et de réaction immédiates. Ceci oblige le département informatique à modifier les règles du Data Center et à maîtriser de nouveaux outils pour créer, gérer et surveiller ces nouvelles charges de travail.

Dépendance vis-à-vis d’une plate-forme

Les sociétés doivent choisir le type d’infrastructure approprié pour exécuter leurs applications et leurs données. L’approvisionnement en matériel prend du temps. Le passage au Cloud peut s’avérer idéal pour une preuve de concept, mais fait courir le risque de la dépendance vis-à-vis d’une plate-forme, peut entraîner des problèmes de sécurité et implique des coûts colossaux à grande échelle. Les entreprises doivent également décider de la distribution d’Hadoop à sélectionner, avec Cloudera, Hortonworks, MAPR et Pivotal, qui proposent toutes des architectures concurrentes (et incompatibles). De nombreuses décisions, une fois prises, peuvent empêcher une société de changer d’optique par la suite. C’est pour toutes ces raisons que de nombreuses entreprises retardent tout simplement leur adoption du Big Data.

Avantages des solutions VMware de Big Data

Simple

Simplifiez l’exploitation et la maintenance de votre infrastructure Big Data.

Agile

Obtenez votre infrastructure à la demande, de façon à apporter rapidement une valeur ajoutée à l’entreprise.

Rentabilité

Réduisez les dépenses d’investissement grâce à la consolidation des clusters. Réduisez les coûts d’exploitation grâce à l’automatisation et à des workflows simples.

Flexible

Essayez rapidement et fréquemment des technologies Big Data de premier plan. La mutualisation vous permet d’exécuter plusieurs distributions de Hadoop sur une même machine virtuelle.

Efficace

Regroupez vos ressources et améliorez l’utilisation des serveurs. L’automatisation de la mobilité des charges de travail rend les processus encore plus efficaces.

Sécurité

Garantissez le contrôle et la conformité de vos données sensibles.

Coup de projecteur sur Hadoop

Qu’elle soit physique ou virtuelle, l’infrastructure a pour rôle de prendre en charge les applications. Il peut aussi bien s’agir d’applications stratégiques traditionnelles que d’applications modernes : Cloud, mobiles et Big Data. L’analyste industriel Doug Laney définit le Big Data par le concept des « Trois V » :

  • Volume : téra-octets, enregistrements, transactions, tables et fichiers
  • Vélocité : traitement par lots, temps quasi réel, temps réel et flux
  • Variété : données structurées, non structurées et semi-structurées

Apache Hadoop (Hadoop) est un logiciel Open Source utilisé pour le stockage distribué et le traitement du Big Data. Hadoop a été intégré au sein de distributions importantes par des sociétés telles que Cloudera, Hortonworks, MAPR et Pivotal pour traiter les charges de travail de Big Data. La virtualisation d’applications Big Data telles qu’Hadoop offre de nombreux avantages, impossibles à obtenir sur une infrastructure physique ou dans le Cloud. En simplifiant la gestion de votre infrastructure Big Data, vous raccourcissez les délais d’obtention de résultats et la rendez plus économique. VMware est la plate-forme idéale pour les applications Big Data aussi bien que pour les applications traditionnelles.

Prêt à vous lancer ?