[DuckDB] csv 파일을 읽을때 헤더 있을때와 없을때 사용법 정리
텍스트 포맷으로 데이터를 다룰때 가장편하게 사용하는게 우리팀은 탭을 구분자로 만든 파일을 사용한다.그리고 일반적으로 이걸 읽어들이는 모듈은 csv 관련 모듈을 써서 사용하게 된다. 이를 케이스별로 어떻게 쓰는지 알려주고자 한다. 1. 헤더라인 있음 + 구분자 정의맨 윗줄에 필드명이 정의된 경우를 의미한다. 이때는 특별히 해줄것은 없다.단, 구분자의 변경이 필요하다면, 다음과 같이 parse_options 을 잘 정의해줘야한다.나는 chatGPT 가 과거 버전의 해결법을 알려준건지 이것때문에 삽질을 꽤 했다.import pyarrow.fs as fsimport pyarrow.csv as csvimport duckdbhdfs = fs.HadoopFileSystem(host='hdfs://my', user='..
데이터처리/Duckdb
2024. 12. 26. 19:00