데이터 엔지니어링 기초(2)

2025. 8. 3. 13:19·데이터 분석/05. 데이터 엔지니어링

🔸정형 데이터와 비정형 데이터

  • 정형 데이터 : 스키마에 따라 정리될 수 있는 데이터
  • 비정형 데이터 : 정해진 형식이 없는 데이터 

 

데이터의 형태에 따라 저장하는 방식도 다릅니다.

 

  • 정형 데이터 -> 관계형 데이터베이스(RDBMS) 
  • 비정형 데이터 -> 비관계형 데이터베이스(NoSQL 데이터베이스)

Key - Value 형식으로 저장하고 스키마가 불필요.


🔸OLTP와OLAP

  • OLTP (Online Transational Processing)
    : 데이터가 실시간으로 데이터베이스에 반영되는 시스템
  • OLAP (Online Analytical Processing)
    : 대용량 데이터를 다양한 관점에서 분석하는 작

OLTP에서 생성된 데이터가 중간 처리 과정을 거쳐 정제되고 통합된 후 OLAP 시스템에서 분석됩니다.


🔸배치처리 vs 실시간 처리

  • 배치 처리 = 일정한 주기에 따라 데이터 처리(일괄처리)
  • 실시간 처리 = 생성되는  데이터를 즉각적으 처리

🔸데이터 파이프라인

: 데이터가 생성되는 곳에서부터 분석하거나 저장할 곳까지 자동으로 이동하고 처리되는 흐름을 구성한 시스템

 

데이터 파이프라인이 제대로 작동하려면 그 전에 데이터를 끌어오는 역할을 하는 수집 시스템이 필요한데 그게 바로

데이터 수집 시스템입니다. 

그렇게 수집 데이터가 저장되는 장소가 바로 데이터 저장소죠!

그리고 저장된 데이터를 목적에 맞게 필터링 ,정제,변환하는 과정을 데이터 처리 시스템에서 담당하게 됩니다.

생성  🡆 수집 🡆 저장 🡆 처리

이 과정을 관리해주는 시스템을 작업 관리 시스템이라고 하죠.

마지막으로 검토와 점검과정을 통해 오류를 잡아내는 과정인 데이터 모니터링 시스템이 있습니다.

 


ETL

🔸수집단계(Extract)

: 데이터 소스나 데이터 저장소로부터 데이터를 가져오는 과정

: 이후단계에서 사용되는 데이터의 양과 품질을 보장하는 단계

데이터 베이스, 객체 스토리지, 하둡 등의 저장소에 저장된 데이터에 접근해야합니다.

연결이 생성되면 파이썬이나 자바와 같은 언어로 데이터를 읽어올 수 있습니다.

 

🔸처리 및 변환 단계 (Transform)

: 수집된 데이터를 분석 및 저장에 적합한 형태로 정제하고 변환하는 과정

이 단계에서는 데이터의 내용 및 형상이 변경될 수 있고, 효율적인 변환 및 정제를 위해 분산처리 도구를 사용합니다.

🔸저장(Load)

: 수집되거나 변환된 데이터를 저장소로 옮겨 저장하는 과정

각 저장소와의 연결 수립이 필요합니다. 

데이터를 쉽고 빠르게 활용할 수 있게 저장하는 것이 중요합니다.


🔸ETL과 ELT의 장단점

구분 ETL (Extract → Transform → Load) ELT (Extract → Load → Transform)
처리 순서 데이터 추출 → 변환 → 저장 데이터 추출 → 저장 → 변환
변환 위치 중간 서버(ETL 도구)에서 처리 저장소(DWH, Data Lake)에서 처리
적합한 저장소 전통적 데이터 웨어하우스 클라우드 기반 대용량 시스템 (BigQuery, Snowflake 등)
장점 - 정제된 데이터 저
- 민감 데이터 필터링 쉬움
- 오래된 시스템과 호환성 높음
- 데이터의 초기 적제 속도가 빠름
- 대용량/비정형 데이터에 강함
- 병렬처리로 빠름
- 저장 후 다양한 용도로 재사용 가능
단점 - 대용량 처리 어려움
- 중간 서버 필요 (비용 발생)- 변환 속도 느릴 수 있음
- 원본 데이터를 먼저 저장하므로 보안 이슈 우려
- 처리되기 전까지는 저품질의 데이터
- 활용성이 낮은 데이터도 포함된 저장으 리소스 낭비와 비용 증가
사용 예 데이터마트 구축, 일일보고서 생성, 웹로그 데이터 분 대규모 데이터 처리, 실시간 분석

'데이터 분석 > 05. 데이터 엔지니어링' 카테고리의 다른 글

클라우드 컴퓨팅 기초  (3) 2025.08.04
데이터 엔지니링 기초(1)  (0) 2025.08.01
'데이터 분석/05. 데이터 엔지니어링' 카테고리의 다른 글
  • 클라우드 컴퓨팅 기초
  • 데이터 엔지니링 기초(1)
Growth DA Log
Growth DA Log
Growth DA Log 님의 블로그 입니다.
  • Growth DA Log
    Growth DA Log님의 블로그
    Growth DA Log
  • 전체
    오늘
    어제
    • 분류 전체보기 (125)
      • TIS_COMPANY (6)
      • 코딩 테스트 (61)
        • 01. Python (3)
        • 02. SQL (58)
      • 데이터 분석 (53)
        • 01. BigQuery (9)
        • 02. GA4 (1)
        • 02-1. GA4를 더 잘 다루기 위한 마케팅 개.. (5)
        • 03. streamlit (5)
        • 04. Git (12)
        • 05. 데이터 엔지니어링 (3)
        • 06. 데이터 모델링 (11)
        • 07. Excel (0)
        • 08. Tableau (4)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    streamlit
    쿼리테스트
    SQL
    DENSE_RANK
    이행성
    cross_join
    프로그래머스
    tableau
    ROW_NUMBER
    코딩테스트
    solvesql
    윈도우함수
    코테
    AARRR
    Reset
    코드잇스프린트후기
    tableaubootcamp
    git
    rank
    revert
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.4
Growth DA Log
데이터 엔지니어링 기초(2)
상단으로

티스토리툴바