[DuckDB] duckdb 에서 orc 파일 읽는법 - 주피터, Python
duckdb 에서는 Parquet 은 지원하는데, orc 는 지원하지 않는다. 그리고 이슈를 찾아보면 별로 지원할 생각도 없는거 같다.그래서 cli 툴로는 접근하는 제한이 있는데, apache arrow 를 경유하면 다양한 포맷을 읽는것이 가능하다.여기서는 pyarrow 를 이용해서 접근하는 예제를 알려주도록 하겠다.당연하지만, pip install pyarrow 가 선행되어야 한다. 해결방법다음과 같이 pyarrow.orc 를 이용해서 orc 파일을 읽어내는게 가능하다.아래 예제는 hdfs://my/user/user/export/sample/* 파일이 orc 포맷으로 저장되어있을때 읽는 예제이다. hadoop 에 저장된 orc 파일을 읽어내는 샘플코드를 정리했다.import pyarrow as paim..
데이터처리/Duckdb
2024. 12. 27. 09:00