본문 바로가기
데이터 분석

[Python/datatable] 용량 큰 csv파일 빠르게 읽기

by 빅데이터1020 2021. 5. 20.
SMALL

용량이 큰 csv 파일을 판다스로 읽어오다가

파일 하나 읽어오는데 너무 오래 걸리다보니ㅠㅠㅠ 좀더 빠른 방법이 없나 하다가 datatable 을 알게되었습니다

 

datatable 설명 원문

 

 

An Overview of Python’s Datatable package

Python library for efficient multi-threaded data processing, with the support for out-of-memory datasets.

towardsdatascience.com

 

1. 설치

pip install datatable

 

2. 파이썬에서 실행하기

import datatable as dt
import pandas as pd

 

3. csv 파일 불러오기

datatable_df = dt.fread('data.csv', encoding='utf-8')
df = datatable_df.to_pandas()

 

위에 추천드린 블로그에서는 불러오는데 걸리는 시간도 비교하고 있습니다.

제가 사용한 데이터 불러올 때 시간이 얼마나 걸리는지 측정해보지는 않았지만

체감상 오오오오옫...!!!!!!!!워호!!!! 하는 느낌이었습니다.

ㅋㅋㅋㅋㅋㅋㅋ

LIST