데이터 엔지니링 기초(1)

2025. 8. 1. 23:39·데이터 분석/05. 데이터 엔지니어링

데이터 엔지니어링 용어 

  • 데이터
    : 가공되지 않은 원시 사실이나 값
  • 정보
    : 데이터를 해석하여 의미를 부여하고 유용한 결과물로 도출해낸 자료
  • 메타 데이터
    : 데이터를 설명하는 데이터
    예를 들어 사진 자체는 데이터이지만  세부정보(이름, 날짜, 시간, 장소, 용량)는 메타데이터인거죠.
  • 빅데이터
    : 기존의 방식으로는 다루기 어려울 만큼 방대하고 다양한 형식의 데이터
  • 데이터 레이크
    :
    데이터의 형태와 상관없이 방대한 양의 원시 데이터를 저장해주는 큰 저장소입니다.
    • 정형,반정형,비정형 데이터를 가공하지 않은 상태로 저장하는 중앙 저장소 
  • 데이터 웨어하우스
    :
    대량의 구조화된 데이터를 저장하고 효율적인 분석 환경을 제공하는 시스템 
    정형화된 데이터를 중앙에서 관리하고 저장하는 시스템
  • 데이터 마트
    :
    데이터 웨어하우스에서 필요한 데이터만 추출한 작은 규모의 데이터베이스를 말합니다.
  • 데이터 거버넌스
    : 데이터레이크, 웨어하우스, 데이터 마트 전부를 포괄적으로 관리하는 상위 개념입니다.
    • 모든 저장소에 일관된 규칙과 책임 체게를 적용하는 관리자 역할인거죠
    • 예를 들어 회사 안에서 누가 , 어떤 데이터를  어떻게  사용하고 관리할지 정해놓은 약속같은 겁니다.

 

🔸분산 처리란

: 하나의 작업을 여러 대의 컴퓨터(또는 서버)에 나눠서 동시에 처리하는 것

🔸분산처리의 장점

속도 향상 (성능 개선) 작업을 여러 대의 컴퓨터가 동시에 처리하니까 훨씬 빠름.→ 대용량 데이터 분석 시간 단축
확장성 (Scalability) 서버를 더 추가하기만 하면 처리 능력을 키울 수 있어.→ 클라우드 환경에서 아주 유리함
내결함성 일부 서버가 고장 나도 나머지가 계속 처리 가능.→ 시스템이 쉽게 멈추지 않음
비용 효율성 고성능 컴퓨터 1대보다 저렴한 컴퓨터 여러 대를 쓰는 게 경제적일 수 있음
유연성 (Flexibility) 다양한 장소·서버·환경에서 작업을 나눠 할 수 있어.→ 분산된 팀/데이터 센터에서 유용함

 

🔸분산 저장의 주요 장점

수평적 확장성(Scalability) 저장할 데이터가 많아져도 서버만 추가하면 쉽게 확장 가능
데이터 가용성 일부 서버가 고장 나도 다른 서버에 복제본이 있어서 데이터 손실 방지
효율성 향상 여러 서버에서 동시에 읽고 쓸 수 있어서 처리 속도 빠름

 

🔸분산 컴퓨팅

네트워크로 연결되어있는 여러 개의 컴퓨터가 분산 처리와 분산 저장을 통해 하나의 시스템(컴퓨터)처럼 동작하는 것을 말합니다.

이런 컴퓨터들의 집합을 클러스터라고 합니다. 클러스터 환경에서는 분산처리 기술을 사용해서  여러 서버에 분산 저장된 데이터를 조합하고 처리할 수 있습니다.

 

🔸분산 컴퓨팅의 장단점

장점 단점
효율적인 저장과 접근성 설계 및 유지보수가 복잡함
뛰어난 확장성과 성능 인프라 비용 증가
높은 신뢰성과 가용성 전송 지연이나 병목현상 발생 가능
  높은 수준의 기술적 전문성 필요

'데이터 분석 > 05. 데이터 엔지니어링' 카테고리의 다른 글

클라우드 컴퓨팅 기초  (3) 2025.08.04
데이터 엔지니어링 기초(2)  (5) 2025.08.03
'데이터 분석/05. 데이터 엔지니어링' 카테고리의 다른 글
  • 클라우드 컴퓨팅 기초
  • 데이터 엔지니어링 기초(2)
Growth DA Log
Growth DA Log
Growth DA Log 님의 블로그 입니다.
  • Growth DA Log
    Growth DA Log님의 블로그
    Growth DA Log
  • 전체
    오늘
    어제
    • 분류 전체보기 (125)
      • TIS_COMPANY (6)
      • 코딩 테스트 (61)
        • 01. Python (3)
        • 02. SQL (58)
      • 데이터 분석 (53)
        • 01. BigQuery (9)
        • 02. GA4 (1)
        • 02-1. GA4를 더 잘 다루기 위한 마케팅 개.. (5)
        • 03. streamlit (5)
        • 04. Git (12)
        • 05. 데이터 엔지니어링 (3)
        • 06. 데이터 모델링 (11)
        • 07. Excel (0)
        • 08. Tableau (4)
  • 블로그 메뉴

    • 홈
    • 태그
    • 방명록
  • 링크

  • 공지사항

  • 인기 글

  • 태그

    윈도우함수
    rank
    streamlit
    AARRR
    코드잇스프린트후기
    git
    solvesql
    코테
    tableaubootcamp
    cross_join
    DENSE_RANK
    코딩테스트
    이행성
    Reset
    ROW_NUMBER
    tableau
    SQL
    프로그래머스
    revert
    쿼리테스트
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.4
Growth DA Log
데이터 엔지니링 기초(1)
상단으로

티스토리툴바