Cosa sono i Big Data?

      

VMware e Cloudera collaborano per virtualizzare Hadoop

Video Play Icon
(9:44)

VMware e Cloudera collaborano per virtualizzare Hadoop

Scopri in che modo VMware potenzia i Big Data

I miti da sfatare sulla virtualizzazione di Hadoop

Esamina i dati concreti relativi alla virtualizzazione di Hadoop su vSphere

Leggi ora

Case study tecnico: Adobe Systems

Adobe distribuisce Hadoop-as-a-Service su VMware vSphere

Scopri di più

Definizione di Big Data


La crescita dei volumi dei Big Data è enorme e interessa tutti i settori, ogni secondo della giornata. Sistemi e dispositivi, inclusi computer, smartphone, appliance e apparecchiature, generano e si basano sull'ingente quantità di set di dati esistenti.
 

Ma cosa sono i Big Data? Il termine generico Big Data indica set di dati complessi, strutturati e non, di grandi dimensioni che le applicazioni e i sistemi di elaborazione dati tradizionali non sono in grado di gestire in modo adeguato. I Big Data sono spesso alla base dell'analisi predittiva. L'analisi dei set di dati consente di individuare nuove correlazioni in modo da identificare trend aziendali, prevenire malattie, combattere azioni criminali e molto altro ancora. 
 

Doug Laney, analista di settore, ha fornito una definizione dei Big Data attraverso tre V:

  • Volume: terabyte, record, transazioni, tabelle e file
  • Velocità: batch, quasi in tempo reale, in tempo reale e in streaming
  • Varietà: dati strutturati, non strutturati e semistrutturati

Apache Hadoop (noto anche come Hadoop) è un software Open Source usato per lo storage distribuito e l'elaborazione dei Big Data. Hadoop è stato pacchettizzato e integrato in grandi distribuzioni da aziende quali Cloudera, Hortonworks, MAPR e Pivotal per eseguire carichi di lavoro Big Data.

Ostacoli alla realizzazione dei progetti Big Data

 

Durante l'implementazione di progetti Big Data, le aziende spesso si trovano di fronte a ostacoli quali budget limitati, mancanza di competenze IT e rischio di dipendenza dalla piattaforma.

Budget limitati

Secondo uno studio condotto da Deloitte, budget limitati e costi sono i motivi principali per cui molte aziende non implementano progetti Big Data. Giustificare gli investimenti in una nuova infrastruttura IT per elaborare grandi quantità di dati può essere davvero difficile, soprattutto se l'azienda non ha ancora un business case immediato.

 

Competenze IT

L'elaborazione dei carichi di lavoro Big Data è diversa da quella dei tradizionali carichi di lavoro delle applicazioni aziendali. I carichi di lavoro Big Data vengono elaborati in parallelo, invece che in sequenza. L'IT solitamente assegna la priorità ai carichi di lavoro business critical e pianifica l'esecuzione in batch dei lavori con priorità inferiore durante le ore notturne o quando è disponibile capacità in eccesso. Le funzionalità di analisi dei Big Data richiedono l'esecuzione in tempo reale per numerosi casi d'uso al fine di favorire analisi e risposte immediate, costringendo l'IT a modificare le policy dei data center e ad apprendere nuovi strumenti per creare, gestire e monitorare questi nuovi carichi di lavoro.

 

Dipendenza dalla piattaforma

Le aziende devono scegliere il tipo di infrastruttura adeguata per eseguire le applicazioni e i dati esistenti. L'acquisto di hardware richiede tempo. Il passaggio al cloud può rivelarsi estremamente utile per un prototipo, ma comporta il rischio di dipendenza dalla piattaforma, problematiche legate alla sicurezza e costi estremamente elevati per applicazioni su vasta scala. Le aziende devono anche decidere quale distribuzione Hadoop scegliere, vale a dire Cloudera, Hortonworks, MAPR e Pivotal. Tutte offrono architetture concorrenziali e incompatibili. In campo ci sono tante decisioni che, una volta prese, rendono difficili eventuali ripensamenti futuri, per questo tantissime aziende rimandano il confronto con i Big Data.

Ruolo di VMware per i Big Data

 

L'infrastruttura, indipendentemente dal fatto che sia fisica o virtuale, ha il ruolo di supportare le applicazioni, sia quelle business critical tradizionali sia quelle moderne come cloud, mobile e Big Data. 
 

La virtualizzazione delle applicazioni Big Data come Hadoop offre moltissimi vantaggi che non è possibile ottenere con l'infrastruttura fisica o nel cloud. Semplificando la gestione dell'infrastruttura per i Big Data i risultati vengono raggiunti più rapidamente, rendendo la soluzione più conveniente. VMware è la piattaforma ideale per i Big Data, proprio come lo è per le applicazioni tradizionali.
 

Le soluzioni VMware per i Big Data garantiscono

Semplicità

Semplifica le operation e la gestione dell'infrastruttura per i Big Data.

Convenienza

Riduci le spese di capitale attraverso il consolidamento dei cluster e le spese operative tramite l'automazione e semplici workflow.

Agilità

Implementa l'infrastruttura on demand in modo da garantire rapidamente valore aziendale.

Flessibilità

Prova a utilizzare tempestivamente e di frequente le tecnologie Big Data più importanti. Il supporto multi-tenancy ti consente di eseguire più distribuzioni Hadoop sulla stessa macchina virtuale.

Efficienza

Raggruppa le risorse in pool e incrementa l'utilizzo del server. L'automazione della mobility dei carichi di lavoro aumenta i livelli di efficienza dei processi.

Sicurezza

Garantisci controllo e compliance dei dati sensibili.

Virtualizzazione di Hadoop su vSphere: case study e white paper