CSV가 느린 이유 (그리고 빠르게 보는 법)
CSV는 단순해 보이지만 올바르게 파싱하는 건 꽤 복잡합니다. 왜 느린지와 해결책을 정리했습니다.
CSV의 문제점
- 따옴표 필드 안에 쉼표/줄바꿈이 들어갈 수 있음
- 이스케이프 규칙이 도구마다 다름
- 고정 레코드 길이가 없어 랜덤 접근이 어려움
- 행 수를 세려면 전체를 읽어야 함
GigaSieve의 해결 방식
GigaSieve는 청크 단위로 읽고 즉시 렌더링하여 바로 탐색할 수 있습니다.
대안: JSONL
데이터 형식을 바꿀 수 있다면 JSONL이 더 빠릅니다. 한 줄이 하나의 레코드이기 때문입니다.