신지덤

  1. 신기술
    1. 신기술

하둡

개념
- 공개 소프트웨어 진영은 하둡을 중심으로 빅데이터 분석 플랫폼 기술 생태계를 조성

I. 하둡

     공개 소프트웨어 진영은 하둡을 중심으로 빅데이터 분석 플랫폼 기술 생태계를 조성


II. 하둡 구성요소
  1) R 언어 : 오픈소스 프로젝트 R은 통계계산 및 시각화를 위한 언어 및 개발환경을 제공하며, R언어와 개발환경을 통해
                기본적인 통계기법부터 모델링, 최신 데이터 마이닝 기법까지 구현/개선 가능
  2) NoSQL : 전통적인 관계형 데이터 베이스와 다르게 설계된 비관계형 데이터베이스를 의미함( 카산드라, Hbase, MongoDB )
  3) 하둡 : 오픈소스 분산처리기술 프로젝트, 빅 데이터 분석에 가장 선호되는 솔루션
        1) Core -분산 파일시스템으로 일반적인 입출력(직렬화, 자바 RPC, 영속데이터 구조)을 위한 컴포넌트와 인터페이스의 집합
        2) Avro -교차언어 RPC와 영속적인 데이터 스토리지를 위한 데이터 직렬화 시스템
        3) MapReduce -범용 컴퓨터들의 커다란 클러스터에서 수행되는 분산데이터 처리 모델과 실행환경
        4) HDFS 범용 컴퓨터들로 된 커다란 클러스터에서 수행되는 분산 파일 시스템
        5) Pig -대규모 데이터셋 탐색용 데이터 흐름언어와 실행환경
        6) HBase -분산 컬럼 지향 데이터베이스 스토리지로 HDFS 를 사용
        7) ZooKeeper -다수 컴퓨터로 분산 처리되는 고가용성 조정 (available coordination) 서비스로, 분산 락(Lock) 같은 프리미티브를 제공
        8) Hive -분산 데이터웨어하우스, HDFS에 저장된 데이터를 관리하고, SQL 기반 쿼리 언어(런타임 엔진에 의해 맵리듀스로 변환되는) 제공
        9) Chukwa -분산 데이터 수집 및 분석 시스템, HDFS에 데이터를 저장하는 수집기를 수행하고, 보고서를 생성하기 위해서 맵리듀스를 사용


 

댓글