Excel을 Parquet으로 변환하면 분석 속도가 빨라지는 이유
·
카테고리 없음
1️⃣ Partquet 이란?데이터를 열(column) 단위로 저장하는 고성능 파일 포멧즉, csv나 excel처럼 데이터를 행 단위로 쭉 저장하는게 아니라각 열별로 데이터를 묶어서 저장하는 구조2️⃣ 엑셀 데이터를 partquet 형태로 바꿔서 불러오는 이유엑셀형태에서는 데이터의 용량이 클 경우 로드하는데 오래 걸릴 수 있습니다. 그래서 속도,용량,처리 효율면에서 더 좋은 Parquet을 사용하는 겁니다.3️⃣ Parquet이 구조적으로 빠른 이유1. 열 기반(Columnar) 저장 구조데이터를 행(row)이 아니라 열(column)단위로 저장필요한 컬럼만 선택적으로 읽을 수 있어 불필요한 데이터 I/O를 최소화따라서 I/O 속도(파일을 읽고 쓰는 속도)가 빠름 2. 필요한 컬럼만 읽는 “Colu..