빅데이터란?

      

VMware 및 Cloudera: 긴밀한 협력을 통해 Hadoop 가상화

Video Play Icon
(9:44)

VMware 및 Cloudera: 긴밀한 협력을 통해 Hadoop 가상화

VMware의 빅데이터 지원 방식 알아보기

Hadoop 가상화에 대한 선입견을 뒤집는 사실

vSphere 기반 Hadoop 가상화에 대한 주요 정보

지금 읽기

기술 고객 사례: Adobe Systems

VMware vSphere 기반의 Hadoop as a Service를 구축한 Adobe

자세한 정보

빅데이터란?


빅데이터는 지금도 어디선가 1초도 쉬지 않고 계속해서 그 용량이 증가하고 있습니다. 컴퓨터, 스마트폰, 어플라이언스, 장비 등 다양한 시스템과 기기에서 기존의 대규모 데이터 세트를 기반으로 새로운 데이터를 생성하고 있습니다.
 

그렇다면 빅데이터란 무엇을 말할까요? 빅데이터는 기존의 데이터 처리 애플리케이션 및 시스템으로는 제대로 처리할 수 없을 정도로 규모가 크고 복잡한 정형 및 비정형 데이터 세트에 광범위하게 사용되는 용어입니다. 빅데이터는 주로 예측 분석에 많이 사용됩니다. 데이터 세트의 분석을 통해 비즈니스 동향을 파악하고 질병을 예방하며 범죄를 퇴치하기 위해 새로운 상관 관계를 찾습니다. 
 

업계 애널리스트인 Doug Laney가 다음 세 가지 V로 빅데이터를 정의했습니다.

  • 볼륨(Volume): 테라바이트, 기록, 트랜잭션, 테이블, 파일
  • 속도(Velocity): 일괄 처리, 단시간, 실시간, 스트림
  • 다양성(Variety): 정형, 비정형, 반정형

Apache Hadoop(별칭 Hadoop)은 분산 스토리지와 빅데이터 처리에 사용되는 오픈 소스 소프트웨어입니다. Hadoop은 Cloudera, Hortonworks, MAPR, Pivotal 같은 기업에서 빅데이터 워크로드를 실행하기 위해 대규모 배포(별칭 distros)에 패키지로 구성하여 통합했습니다.

성공적인 빅데이터 프로젝트의 걸림돌

 

기업에서 빅데이터 프로젝트를 구현할 때 예산 제약, IT 전문성 결여, 플랫폼 종속 리스크와 같은 걸림돌에 종종 부딪힙니다.

예산상의 제약

Deloitte에서 실시한 조사 결과에 의하면 많은 기업이 빅데이터 구축을 꺼리는 가장 큰 이유가 예산상의 제약과 비용인 것으로 나타났습니다. 특히 현재 직면하고 있는 비즈니스 사례가 없다면 대량의 데이터를 처리할 새 IT 인프라에 대한 투자를 정당화하기가 어려울 수 있습니다.

 

IT 전문성

빅데이터 워크로드를 처리하는 것은 일반적인 엔터프라이즈 애플리케이션 워크로드를 처리하는 것과 다릅니다. 빅데이터 워크로드는 순차적으로 처리되는 것이 아니라 병렬로 처리됩니다. IT는 일반적으로 비즈니스 크리티컬 워크로드에 우선 순위를 지정하고 우선 순위가 낮은 작업에 대해서는 야간에 또는 여분의 용량이 있을 때 일괄 처리하도록 예약합니다. 빅데이터 분석의 경우 라이브 분석 및 대응을 위해 실시간으로 실행해야 하는 사용 사례가 많습니다. 따라서 IT는 이러한 새로운 워크로드를 생성, 관리, 모니터링하기 위해 데이터 센터 정책을 변경하고 새로운 툴을 학습해야 합니다.

 

플랫폼 종속

기업에서는 애플리케이션과 데이터를 실행하는 데 적합한 유형의 인프라를 선택해야 합니다. 하드웨어를 조달하는 데에는 상당한 시간이 소요됩니다. 클라우드로 전환하면 개념 검증(POC)에는 효과적일 수 있지만 플랫폼 종속의 리스크가 있고 보안 문제와 함께 막대한 비용이 발생합니다. 또한 기업은 서로 상충되는(호환되지 않는) 아키텍처를 제공하는 Cloudera, Hortonworks, MAPR, Pivotal 중에서 Hadoop 배포 버전을 결정해야 합니다. 이 외에도 많은 사항을 결정해야 하는데, 한 번 정하면 나중에 변경하기가 쉽지 않으므로 많은 기업에서 빅데이터 전환을 늦추고 있습니다.

빅데이터에서 VMware의 역할

 

물리적 인프라든 가상 인프라든, 인프라의 역할은 애플리케이션을 지원하는 것입니다. 이러한 애플리케이션에는 기존 비즈니스 크리티컬 애플리케이션과 함께 최신 클라우드, 모바일 및 빅데이터 애플리케이션이 포함됩니다. 
 

Hadoop과 같은 빅데이터 애플리케이션을 가상화하면 물리적 인프라나 클라우드를 통해 제공되지 않는 많은 이점을 누릴 수 있습니다. 빅데이터 인프라 관리를 간소화하면 결과를 더 빠르게 도출할 수 있으므로 비용 효율성을 높일 수 있습니다. VMware는 기존 애플리케이션과 마찬가지로 빅데이터에도 최고의 플랫폼입니다.
 

VMware 빅데이터의 특징

간소화

빅데이터 인프라의 운영 및 유지 보수를 간소화합니다.

비용 효율적

클러스터 통합을 통해 자본 비용을 절감하고 자동화 및 간단한 워크플로우를 통해 운영 비용을 절감합니다.

대응력

비즈니스 가치를 신속하게 제공할 수 있도록 온디맨드로 인프라를 구축합니다.

유연성

주요 빅데이터 기술을 초기 단계에서 자주 시도해 볼 수 있습니다. 멀티 테넌시를 통해 동일한 가상 머신에서 여러 Hadoop 배포를 실행할 수 있습니다.

효율성

리소스를 풀링하고 서버 활용도를 늘리며, 워크로드 모빌리티를 자동화하여 프로세스 효율성을 높입니다.

보안

중요 데이터의 제어 및 규정 준수를 보장합니다.

vSphere 기반 Hadoop 가상화 – 고객 사례 및 백서