Excel을 Parquet으로 변환하면 분석 속도가 빨라지는 이유

데이터를 열(column) 단위로 저장하는 고성능 파일 포멧

즉, csv나 excel처럼 데이터를 행 단위로 쭉 저장하는게 아니라

각 열별로 데이터를 묶어서 저장하는 구조

엑셀형태에서는 데이터의 용량이 클 경우 로드하는데 오래 걸릴 수 있습니다.

그래서 속도,용량,처리 효율면에서 더 좋은 Parquet을 사용하는 겁니다.

1. 열 기반(Columnar) 저장 구조

2. 필요한 컬럼만 읽는 “Column Pruning”

3. 고성능 압축 구조 (Encoding + Compression)

단순한 zip 압축이 아니라, 열 단위로 특화된 압축 알고리즘을 적용
- Dictionary Encoding: 중복된 문자열을 숫자로 치환
- Run-Length Encoding: 동일 값 반복 시 “값 + 횟수”로 저장
- 👉 파일 크기 ↓, 메모리 사용량 ↓ (예: 1GB CSV → 150MB Parquet 가능)

4. Row Group 구조로 병렬 처리 가능

5. 메타데이터 기반 “필터 푸시다운(Filter Pushdown)”

각 컬럼마다 min, max, null count 등의 통계 정보를 저장
쿼리 실행 시, 조건에 맞지 않는 Row Group은 아예 스킵
→ 예: WHERE age > 30이면 max(age)=28인 블록은 읽지 않음
쿼리 최적화 효과로 속도 대폭 향상

티스토리툴바