데이터 전환 - 데이터 전환 기술, 데이터 전환 수행, 데이터 정제

2022. 6. 6. 14:34정처기(필기)/데이터베이스 구축

더보기

(1) 초기 데이터 구축

1. 구축 전략 수립

- 대량의 데이터를 전환 수행 시 신속하고 안정적인 데이터 전환을 위한 체계적인 초기 데이터 구축 전략을 수립한다.

 

▼ 초기데이터 구축 전략

  • 초기 데이터 구축 : 데이터 결과 분석을 통해 대상의 기본 정보 및 기초자료를 확보
  • 데이터 복구 방안 마련 : 기존 데이터 분석을 통한 기초자료 구축방안 제시
  • DB 구축 지침 제시 : 기초 데이터와 대표 값의 비교, DB 구축을 위한 지침서 제시

 

2. 초기 데이터 구축 전략 수립 과정

초기데이터 구축 전략 수립 -> 초기 데이터 구축 대상파악 -> 구축 범위 확정

 

더보기

(2) ETL 

1. ETL의 개념

- ETL은 원천 시스템에서 데이터를 추출하여 변환 작업을 거쳐 목적 시스템으로 적재하는 프로세스다. 

 

2. ETL프로세스

  1. 추출 : 동일 기종 또는 이기종 소스 데이터베이스로부터 데이터를 추출(JDBC, ODBC, 3rd Party Tools) 
  2. 변환 : 데이터 변환
  3. 적재 : 추출 및 변환된 데이터를 최종 대상에 저장

 

 

더보기

(3) 파일 처리 기술

1. 파일 처리 기술이란

- 많은 양의 자료를 각종 매체에 저장하는 기법이다.

- 파일을 하드 디스크에 저장할 시, 기억공간을 효율적으로 사용하고 자료의 탐색을 쉽게 한다. 

 

2. 파일 처리 기술의 유형

[1] 순차 파일 : 데이터들을 논리적인 순서에 따라 물리적 연속 공간에 순차적으로 기록하는 방식(기억공간을 효율적으로 사용, 매체 변환이 쉬워서 처리속도가 빠르나 신규 레코드 삽입/삭제 시 파일 전체 복사로 시간소요가 크고 데이터 검색 시 순차 검색으로 인한 검색 효율성이 저하 될 수 있음)

 

[2] 색인 순차 파일 : 레코드들을 '키 값' 순으로 정렬시켜 기록하고 레코드의 키 항목 색인을 구성하는 방식, 순차 처리와 랜덤 처리가 모두 가능, ISAM 이라고도 함(목적기반 순차 처리, 랜덤 처리가 가능하나 추가 공간이 필요하고 빈번하게 파일을 추가하거나 삭제할 시 효율이 저하됨)

 

[3] 직접 파일 : 파일을 구성하는 레코드를 특정 순서 없이 임의의 물리적 저장 공간에 기록하는 파일, 레코드는 해시 함수에 의해 계산된 물리적 주소를 통해 접근(평균 접근시간 내 접근 가능, 레코드 주소 변환 과정 필요로 추가 시간 소요가 되어 기억공간의 효율 저하 가능성이 존재함, 또한 별도의 기억공간 확보도 필요함)

 

 

 

더보기

(4) 데이터 전환 수행 계획

 

1. 데이터 전환 수행 계획이란

- 데이터 전환을 위한 상세 설계, 전환 및 검증 프로그램 개발과 통합 전환을 수행하는 계획

 

더보기

(5) 체크리스트

1. 체크리스트 개념

- 전환 프로그램의 에러, 시간제약, 비즈니스 로직 변경, 긴급상황 및 위험요인 대응을 위한 측정 가능한 목록

 

 

더보기

(6) 데이터 검증

1. 데이터 전환 프로그램 검증

- 전환 작업 시 적재 과정의 정상 수행 여부를 점검한다. 

- 데이터 전환 계획서의 내용과 체크리스트의 작업 내용을 확인한다.

 

  • 로그 검증 : 전환 시 수행되는 추출, 적재 로그를 작성하여 검증
  • 애플리케이션 검증 : 응용 애플리케이션을 통한 프로그램 기반 검증
  • 데이터 검증 : 사전 정의된 업무 규칙을 통하여 데이터 정합성 검증 수행

 

더보기

(7) 데이터 정제

1. 데이터 정제 요청서 작성 - 전환 시 발생한 오류를 해결하기 위한 데이터 정제 요청 내용을 작성

2. 데이터 정제 보고서 작성 - 정제 요청서에 의해 정제된 데이터를 확인하고 검증

 

더보기

(8) 데이터 품질 분석

1. 데이터 품질 관리 - 조직 내, 외부의 정보시스템 및 데이터베이스 사용자의 기대를 만족시키기 위한 지속적인 데이터 및 데이터 구조를 개선하기 위한 활동