CSVが遅い理由(高速化の方法)
CSVは簡単そうに見えて実は複雑です。なぜ遅いのか、どう改善するかを解説します。
CSVの問題点
- 引用符内にカンマや改行が入る。
- エスケープ規則がバラバラ。
- 固定長でないためランダムアクセスが難しい。
- 行数カウントには全体読み込みが必要。
GigaSieveの解決策
チャンク処理で即時に行を表示できるため、すぐ探索できます。
代替: JSONL
形式を選べるならJSONLが最適です。1行1レコードでストリーミングに強いです。
CSVは簡単そうに見えて実は複雑です。なぜ遅いのか、どう改善するかを解説します。
チャンク処理で即時に行を表示できるため、すぐ探索できます。
形式を選べるならJSONLが最適です。1行1レコードでストリーミングに強いです。