데이터웨어하우스(DW)

개념
- 수년간의 기업의 운영계 시스템에서 발생한 내부 데이터와 외부 데이터를 주제별로 통합하여 별도의 프로그래밍 없이 즉시 여러 각도에서 분석할 수 있도록 하는 통합시스템 - 데이터 웨어하우징(Data Warehousing)은 데이터의 수집 및 처리에서 도출되는 정보의 활용에 이르는 일련의 프로세스

I. 데이터웨어하우스의 개요

가. DW(Data Warehouse)의 정의

  • 수년간의 기업의 운영계 시스템에서 발생한 내부 데이터와 외부 데이터를 주제별로 통합하여 별도의 프로그래밍 없이 즉시 여러 각도에서 분석할 수 있도록 하는 통합시스템
  • 데이터 웨어하우징(Data Warehousing)은 데이터의 수집 및 처리에서 도출되는 정보의 활용에 이르는 일련의 프로세스

 

나. DW(Data Warehouse)의 필요성

  • 판매자 중심에서 구매자 중심으로 비즈니스 시장변화의 급속한 변화
  • 신속하고 정확한 의사결정이 기업의 생존 직결됨.

 

다. DW(Data Warehouse)의 특징

특징

설명

주제지향적

(Subject –

Oriented)

- 업무기능별로 관리되는 다수의 운영계 데이터를 전사관점에서 중복을 최소화 하고, 모든 업무에 공유 할 수 있도록 통합하는 기준

- 전사공통 관심 주제를 중심으로 관련데이터 통합 ( 데이터가 조직의 Business 주제에 따라 분류되어지고 저장됨 )

- 특정 업무기능이나 어플리케이션에 종속되지 않는 데이터 구조

통합적

(Integrated)

- 데이터의 정합성과 물리적 통일성을 갖는 데이터 구조

- 데이터 모델링을 통해 데이터 정합성 보장

- 전사적인 데이터 표준화를 통해 데이터 통일성 확보

- 운영계로부터 데이터 획득 시 데이터 통합을 위한 일련의 변환작업 수행

시계열적

(Time-Variant)

- 데이터는 오랜 기간 동안 보유 되며, 과거와 현재의 경향에 대한 분석, 예측에 무엇을 해야 하는지 가능하게 일련의 Snapshots 형태로 저장 함

- 일정 기간동안의 업무변화 내지는 발전추세 분석에 필요

- 이력데이터를 통해 시간경과에 따른 데이터의 변화과정 파악 가능, Snapshot 생성

비 휘발성

- 데이터웨어하우스에는 일반적으로 데이터 갱신 프로세스가 존재하지 않음

- 일상적으로 데이터적재와 데이터 엑세스만 존재

- 운영계에서 발생한 변경요건을 갱신하지 않고 Snapshot 형태로 반영

 

 

Ⅱ. 데이터웨어하우스의 개념도와 구성요소

가. 데이터웨어 하우스의 개념도

 

나. 데이터웨어 하우스의 구성요소

구성요소

설명

ETT

소스 데이터로부터 필요 데이터를 검색, 추출, 변환하여 목표 데이터베이스환경으로 전달하는 과정

DOS

(Operational

Data Store)

운영계 시스템별로 관리되는 데이터를 전사관점에서 통합 관리함으로써, 전사데이터공유를 가능하게 하여주는 통합데이터베이스

DM

(Data Mart)

의사결정 프로세스 지원을 목적으로 하는 부서별 또는 업무기능별 DW

  - 부서의 분석수행에 가장 적합한 데이터구조

  - EDW로 부터 필요한 데이터 획득

  - 일반적으로 한 기업 내에 복수개의 DM 존재

OLAP

(Online

Analyticla

Processing)

EDW와 DM의 데이터를 사용자의 요건에 따라 다각적으로 분석하고 활용할 수 있도록 지원하는 도구

 - 사용자가 도구를 이용하여 프로그래머의 지원 없이도 의사결정 및 분석업무에 필요한 정보를 스스로 얻을 수 있음

메타데이터

데이터의 사용성과 관리효율성 향상을 위한 데이터에 관한 데이터

DW 아키텍쳐 구성 요소간의 결합력(Cohesiveness)을 유지시켜주는 매개체

 

다. 데이터웨어 하우스의 구축절차

 

II. 데이터웨어하우스의 4가지 특징

가. 주제지향적

  • Data Warehouse는 의사 결정에 필요한 특정 주제(subject)의 데이터만을 가지며 그 외의 데이터는 포함하지 않음
  • <적용사례 >
  • 운영계 시스템의 생산, 영업, 구매 테이블에 제품, 거래처, 고객 등의 중복되는 데이터를 Data Warehouse 는 하나의 주제 영역으로 분리하여 데이터를 관리함

 

나. 주제지향적

  • Data Warehouse에 저장, 관리되는 데이터는 일반적으로 다수의 서로 다른 형태의 데이터베이스로부터 통합(integrated)된 것
  • <적용사례>
  • 운영계 시스템의 데이터 성별이 남자/여자 또는 M/F등 정보마다 각기 다르고, 날짜 형식 또한 다양하여 통일된 형식으로 변환시켜 Data Warehouse에 적재시킴

 

다. 비휘발성

  • Data Warehouse의 데이터는 운영계 데이터 베이스로부터 로딩하고 액세스 하기 때문에 삭제 및 수정이 불가능 즉, 한 시점에서 다량의 Data가 적재되고 Access 되는 반면 갱신은 이루어 지지 않는 조회 전용 Database
  • <적용사례>
  • 운영계 시스템 데이터는 Update 가 일어나면 기존 데이터는 지워지지만, Data Warehouse에서는 각 시점에 있던 데이터를 모두 저장함

 

라. 시계열성

  • Data Warehouse는 시간에 따라 변화된 데이터 정보를 통해 의사결정을 하기 때문에 일정기간 동안의 데이터를 저장하여 시점에 따른 분석을 가능하게 함
  • <적용사례>
  • 매년 판매실적을 집계하고 계획하기 위해 1년 주기로 데이터를 추출하여 Data Warehouse 에 적재시킴

 

 

 

[DW 2.0]

I. 데이터웨어하우스 2.0의 개념 및 특징

가. 데이터웨어하우스 2.0의 개념

  • 대규모 정형, 비정형 데이터에 대한 실시간 처리와 최신 기술에 대한 수용력, 경제성을 추구하는 차세대 데이터웨어하우스 아키텍처
  • 비즈니스 요구사항 변화에 맞춰 쉽게 변경 가능한 역동성을 갖는 데이터웨어하우스의 새로운 패러다임

 

나. 데이터웨어하우스 2.0의 특징

  • 데이터의 생명주기: 데이터의 생명주기를 인식하고 활용도에 따라 분리하여 저장(성능/경제성 향상)
  • 메타데이터 기반: 규모의 복잡성, 유지보수 관리 필요성으로 인해 메타데이터 중요성 부각
  • 비정형데이터 포함: 비정형 데이터의 통합과 접근, 분석 지원을 추구함
  • 대용량 데이터 대응: 비정형 환경의 데이터 증가속도 급증(정형의 4~5배)에 대한 경제적 대응
  • 비즈니스 변화에 유연: 쉽고 변경 가능한 역동적 기반기술을 활용

 

II.  데이터웨어하우스 2.0 아키텍처 설명

가. 데이터웨어하우스 2.0 아키텍처의 구성

 

나. 데이터웨어하우스 4대영역 설명

  • 데이터에 대한 접근 패턴, 데이터의 양에 따라 4대영역으로 분리하여 비용과 성능문제 해결

영역

설명

트랜잭션

Interactive

Sector

- 응용프로그램의 트랜잭션, ETL을 통해 데이터가 들어오는 장소

- 다른 영역에 비해 소량의 데이터가 항상 디스크에 저장되는 영역으로 실시간 상호작용이 가능함

추가, 삭제,조정 등 업데이트 가능

Integrated

Sector

- 상호작용 영역의 데이터가 ETL 계층을 통과하여 통합되는 영역

- 통합영역의 데이터는 주제지향 상세데이터, 소규모의 요약 데이터, 연속적인 시간데이터, 프로파일 데이터(한 주제에 대한 취합 정보)의 특징을 가짐(분석 용이)

- 통합영역의 데이터는 균일하고 역사적이며 광범위한 소스로부터 취합 되므로 많은 양의 데이터를 보유하고 있음

조회만 가능

Near Line

Sector

- 통합영역의 디스크 저장장치보다 저렴한 카트리지를 이용하여 통합 영역의 데이터 중 접근확률이 낮은 데이터를 저장하는 영역

- 통합 영역을 위한 캐시 메모리로서의 역할을 수행하는 영역

- 준보관 영역의 데이터 중 자주 사용되는 데이터는 통합영역으로 이동 (준보관, 통합영역의 데이터 구조, 형식, 기술은 동일)

조회만 가능

Archival

Sector

- 데이터의 접근 확률이 매우 적을 때 데이터가 이동되는 장소

- 아카이브 영역의 데이터는 순차적으로 검색되고 많은 데이터가 존재

거의 조회되지

않음

 

III.  데이터웨어하우스 2.0에서 메타데이터의 역할

가. 데이터웨어하우스 2.0에서 메타데이터의 부각 배경

- 크기의 다양성

DW의 규모와 복잡성 증대로 필요한 정보 검색의 어려움 발생

- 더욱 다양한 사용자

DW 전문 분석가, 초보 사용자 등 다양한 계층의 사용자가 접근

- 광범위한 메타데이터 범위

어디에 어떤 데이터가, 어떤 형태로 있는지 유용한 분석정보 제공

- 유지보수 관리 필요성

메타데이터의 효율적 관리를 통해 DW 유지보수성 향상

  • 위와 같은 이유로 메타데이터가 존재하지 않거나 나중에 구축되는 1세대 DW와 달리, DW 2.0에서 메타데이터가 핵심 지지대 중의 하나로 부각됨

 

 

나. 수준별 분류에 따른 메타데이터의 역할

영역

설명

역할

기업

메타데이터

- 전사적(마스터) 메타데이터

- 모든 툴과 프로세스에 존재

- 용어가 일관되고 공통 용어로 기술

- 기업 수준과 로컬과의 관계성 조사

- 비즈니스 영역 지원 데이터 식별

- 기업 수준에서 용어/단어를 통합(표준화)

로컬

메타데이터

- 사용의 중심점인 툴에 저장

- 사용되는 툴에 종속적인 관계

- 데이터의 소스에서 타켓 이동/변환 정보 제공

- DBMS 테이블, 속성, 인덱스 정보 제공

비즈니스

메타데이터

- 비즈니스 상의 전문용어로 기술

- 실제 기업의 업무에 적합

- 업무 의사소통, 이해 용이, 용어 표준화

- 정보에 대한 감사 추적

테크니컬

메타데이터

- 기술자들 간의 전문용어로 기술

- 어플리케이션 운용자에 필요

- 기술관련 의사소통, 이해 용이, 용어 표준화

- DW 2.0 어플리케이션 개발, 유지보수 향상

 

다. 사용자 관점별 메타데이터의 역할

관점

역할

전문

분석가

- 어떤 데이터가 가용한지를 판단하고 데이터에 접근할 수 있도록 가이드 하여 새로운 분석 요구사항을 발견하는데 도움

최종

사용자

- 이미 수행된 분석 결과가 있는지를 판단하여 효율적 검색 지원

- 데이터 및 관계에 대한 가이드로 데이터 재사용성 향상

개발자

- 과거에 수행한 개발 업무에 대한 정보 제공

- 신규 데이터웨어하우스 2.0 어플리케이션 개발 가이드, 용어 표준화

운영자

- 데이터웨어하우스의 이슈의 체계적 처리, 운용 지원

- 현재 데이터에 대한 설명, 데이터 소스 식별에 도움

 

IV. 성공적인 DW 2.0 구축 방법 및 접근법

가. 성공적인 DW 2.0 구축 방법

  • 나선형방법론 적용: 데이터웨어하우스 프로젝트가 수행되는 동안 모든 비즈니스 요구사항을 취합하는 것은 불가능, 팀 조직화에 세심한 주의를 기울이며 반복적으로 구축
  • ROI가 아닌 ROA(Return On Asset) 측정: 데이터가 재사용 되었는가, 메타데이터가 재사용 되었는가, 구조적 비즈니스 규칙이 재사용 되었는가, ETL 로직이 재사용 가능하고 확장 가능한가에 초점

 

나. DW 2.0에 대한 효율적인 7가지 접근법

  • 기업 데이터 모델링은 주제영역별로 수행
  • 전사 지식 조정/결합은 결과물 별로 수행
  • 정보공장(DW 2.0) 개발은 나선형 방법론으로 개발
  • 데이터 프로파일링과 매핑은 소스별로 수행
  • 데이터 수집과 정제는 속성별로 수행 – 예) 남녀의 유효한 값을 가지는 속성 “성별”
  • 시스템 인프라 관리는 컴포넌트 별로 수행
  • 통합 정보 품질 관리는 프로세스 개선 및 오류방지를 위해 프로세스별로 수행                                                         

댓글