빅데이터란?

빅데이터는 기존의 데이터 처리 애플리케이션 및 시스템으로는 제대로 처리할 수 없을 정도로 규모가 크고 복잡한 정형 및 비정형 데이터 세트에 광범위하게 사용되는 용어입니다. 빅데이터는 주로 예측 분석에 사용합니다. 데이터 세트의 분석은 비즈니스 동향을 파악하고, 질병을 예방하고, 범죄를 퇴치하는 등의 목적을 위해 새로운 상관 관계를 찾는 용도로 사용합니다.
글로벌 산업 리서치에 따른 4가지 주요 하이브리드 클라우드 트렌드

빅데이터 강화

VMware 및 Cloudera: 긴밀한 협력을 통해 Hadoop 가상화

Hadoop 가상화에 대한 선입견을 뒤집는 사실

vSphere 기반 Hadoop 가상화 관련 사실 확인

기술 고객 사례: Adobe Systems

VMware vSphere 기반의 Hadoop as a Service를 구축한 Adobe

 

성공적인 빅데이터 프로젝트의 걸림돌

기업에서 빅데이터 프로젝트를 구현할 때 예산 제약, IT 전문성 결여, 플랫폼 종속 리스크와 같은 걸림돌에 종종 부딪힙니다.

예산상의 제약

Deloitte에서 실시한 조사 결과에 의하면 많은 기업이 빅데이터 구축을 꺼리는 가장 큰 이유가 예산상의 제약과 비용인 것으로 나타났습니다. 특히 즉각적인 비즈니스 사례가 없다면 대량 데이터를 처리할 새로운 IT 인프라에 대한 투자를 정당화하기가 쉽지 않을 수 있습니다.

IT 전문성

빅데이터 워크로드를 처리하는 것은 일반적인 엔터프라이즈 애플리케이션 워크로드를 처리하는 것과 다릅니다. 빅데이터 워크로드는 순차적으로 처리되는 것이 아니라 병렬로 처리됩니다. IT는 일반적으로 비즈니스 크리티컬 워크로드에 우선 순위를 지정하고 우선 순위가 낮은 작업에 대해서는 야간에 또는 여분의 용량이 있을 때 일괄 처리하도록 예약합니다. 빅데이터 분석의 경우 라이브 분석 및 대응을 위해 실시간으로 실행해야 하는 사용 사례가 많습니다. 따라서 IT는 이러한 새로운 워크로드를 생성, 관리, 모니터링하기 위해 데이터 센터 정책을 변경하고 새로운 툴을 학습해야 합니다.

플랫폼 종속

기업에서는 애플리케이션과 데이터를 실행하는 데 적합한 유형의 인프라를 선택해야 합니다. 하드웨어를 조달하는 데에는 상당한 시간이 소요됩니다. 클라우드로 전환하면 개념 검증(POC)에는 효과적일 수 있지만 플랫폼 종속의 리스크가 있고 보안 문제와 함께 막대한 비용이 발생합니다. 또한 기업은 서로 상충되는(호환되지 않는) 아키텍처를 제공하는 Cloudera, Hortonworks, MAPR, Pivotal 중에서 Hadoop 배포 버전을 결정해야 합니다. 이 외에도 많은 사항을 결정해야 하는데, 한 번 정하면 나중에 변경하기가 쉽지 않으므로 많은 기업에서 빅데이터 전환을 늦추고 있습니다.

VMware 빅 데이터의 이점

단순

빅데이터 인프라의 운영 및 유지 보수를 간소화합니다.

대응력

비즈니스 가치를 신속하게 제공할 수 있도록 온디맨드로 인프라를 구축합니다.

비용 효율적

클러스터 통합을 통해 자본 비용을 절감하고 자동화 및 간단한 워크플로우를 통해 운영 비용을 절감합니다.

유연성

주요 빅데이터 기술을 초기 단계에서 자주 시도해 볼 수 있습니다. 멀티 테넌시를 통해 동일한 가상 머신에서 여러 Hadoop 배포를 실행할 수 있습니다.

효율성

리소스를 풀링하고 서버 활용도를 늘리며, 워크로드 모빌리티를 자동화하여 프로세스 효율성을 높입니다.

보안

중요 데이터의 제어 및 규정 준수를 보장합니다.

Hadoop 관련 핵심 자료

물리적 인프라든 가상 인프라든, 인프라의 역할은 애플리케이션을 지원하는 것입니다. 이러한 애플리케이션에는 기존 비즈니스 크리티컬 애플리케이션과 함께 최신 클라우드, 모바일 및 빅데이터 애플리케이션이 포함됩니다. 업계 애널리스트인 Doug Laney는 다음 세 가지 V로 빅데이터를 정의했습니다.

 

  • 볼륨(Volume): 테라바이트, 기록, 트랜잭션, 테이블, 파일
  • 속도(Velocity): 일괄 처리, 단시간, 실시간, 스트림
  • 다양성(Variety): 정형, 비정형, 반정형

Apache Hadoop(별칭 Hadoop)은 분산 스토리지와 빅데이터 처리에 사용되는 오픈 소스 소프트웨어입니다. Hadoop은 Cloudera, Hortonworks, MAPR, Pivotal 같은 기업에서 빅데이터 워크로드를 실행하기 위해 대규모 배포(별칭 distros)에 패키지로 구성하여 통합했습니다. Hadoop과 같은 빅데이터 애플리케이션을 가상화하면 물리적 인프라나 클라우드를 통해 제공되지 않는 많은 이점을 누릴 수 있습니다. 빅데이터 인프라 관리를 간소화하면 결과를 더 빠르게 도출하여 비용 효율성을 높일 수 있습니다. VMware는 기존 애플리케이션과 마찬가지로 빅데이터에도 가장 적합한 플랫폼입니다.

시작할 준비가 되셨습니까?