'2024/12 글 목록

[DuckDB] duckdb 에서 orc 파일 읽는법 - 주피터, Python

duckdb 에서는 Parquet 은 지원하는데, orc 는 지원하지 않는다. 그리고 이슈를 찾아보면 별로 지원할 생각도 없는거 같다.그래서 cli 툴로는 접근하는 제한이 있는데, apache arrow 를 경유하면 다양한 포맷을 읽는것이 가능하다.여기서는 pyarrow 를 이용해서 접근하는 예제를 알려주도록 하겠다.당연하지만, pip install pyarrow 가 선행되어야 한다. 해결방법다음과 같이 pyarrow.orc 를 이용해서 orc 파일을 읽어내는게 가능하다.아래 예제는 hdfs://my/user/user/export/sample/* 파일이 orc 포맷으로 저장되어있을때 읽는 예제이다. hadoop 에 저장된 orc 파일을 읽어내는 샘플코드를 정리했다.import pyarrow as paim..

데이터처리/Duckdb 2024. 12. 27. 09:00

[DuckDB] csv 파일을 읽을때 헤더 있을때와 없을때 사용법 정리

텍스트 포맷으로 데이터를 다룰때 가장편하게 사용하는게 우리팀은 탭을 구분자로 만든 파일을 사용한다.그리고 일반적으로 이걸 읽어들이는 모듈은 csv 관련 모듈을 써서 사용하게 된다. 이를 케이스별로 어떻게 쓰는지 알려주고자 한다. 1. 헤더라인 있음 + 구분자 정의맨 윗줄에 필드명이 정의된 경우를 의미한다. 이때는 특별히 해줄것은 없다.단, 구분자의 변경이 필요하다면, 다음과 같이 parse_options 을 잘 정의해줘야한다.나는 chatGPT 가 과거 버전의 해결법을 알려준건지 이것때문에 삽질을 꽤 했다.import pyarrow.fs as fsimport pyarrow.csv as csvimport duckdbhdfs = fs.HadoopFileSystem(host='hdfs://my', user='..

데이터처리/Duckdb 2024. 12. 26. 19:00

[DuckDB] hdfs 에 있는 csv 를 duckdb 로 분석하기 - jupyter

우선 duckdb 에서 s3 는 기본지원이 되는데, hdfs 는 기본지원이 안된다.jupyter 에서 duckdb 를 이용해서 간단한 필터링과 정렬을 sql 기반으로 다룰수 있어서 유용한데 hdfs 의 파일을 분석할때 고민이 되는데, 이때는 pyarrow 를 이용하여 연동하면 대부분 해결된다. (orc 포맷도 pyarrow 로 해결가능함) 해결방법당연하지만 pyarrow 와 duckdb 라이브러리는 깔려있어야한다.그리고 여기서는 kerberos 인증을 keytab파일을 통해 hadoop 연결을 한다고 가정하겠다.우선 다음과 같이 keytab 인증을 한다고 가정한다. 주피터에서는 이런 명령을 실행할때 맨앞에 ! 를 넣고 라인에서 실행하는것도 가능하다.kinit -kt /home1/user/myuser.ke..

데이터처리/Duckdb 2024. 12. 25. 07:00

[오류] jax , numpyro, lightweight_mmm 의 버전충돌 오류

python 3.10 환경에 분석을 위한 다양한 라이브러리를 구성하다보니 호환성 문제로 아래와 같은 문제가 밸생했다. 1. 오류내용크게보면 여러 라이브러리에서 아래와 같은 문제가 발생했다. 사실 처음에는 다양한 라이브러리를 한번에 설치해서 원인을 찾기 힘들었는데 하나식 역추적하며 결국 해결방법을 찾았다. 1.1 numpy 버전 문제 오류A module that was compiled using NumPy 1.x cannot be run inNumPy 2.0.2 as it may crash. To support both 1.x and 2.xversions of NumPy, modules must be compiled with NumPy 2.0.Some module may need to rebuild ins..

데이터처리/Jupyter 2024. 12. 24. 07:00

[DuckDB] minio 기반의 s3 에 업로드된 csv파일 연동방법 : python표현

ipython 의 매직명령어 표현이 아닌 python 코드로 사용하는 방법이 필요한 경우를 알려주고자 한다.참고로 %sql 표현으로 사용가능한 방법은 아래 링크에 정리해 두었다.https://ngela.tistory.com/170 python 코드로 duckdb 에서 읽기minio 기반의 s3 환경에 접근할때는 아래와 같이 ENTRYPOINT 변경이 필요하다. 그 이외에는 특별히 다를게 없다, 아래와 같이 정보를 set 명령을 통해 선언하는게 가능하다.# duckdb 와 연계하여 실행import duckdb# duckdb connectionconn = duckdb.connect()# Set the necessary S3 configurationsconn.execute("SET s3_region = 'us..

카테고리 없음 2024. 12. 23. 10:00

[DuckDB] minio 기반의 s3 에 업로드된 엑셀파일 연동방법 : %sql 표현

주피터랩에서 minio 기반의 s3 데이터의 엑셀파일을 연동할때, IPython 매직명령어 기반으로 %sql 형태로 표현해서 연동하려고 했는데 공식 문서를 확인해보면 SECRET 을 생성후 연결한다고 되어있는데, 문제는 minio 에서 연결하는 예제가 잘 안되어 있어서 실패가 났는데, minio 기반의 s3 를 접근하기위한 예제를 알려주고자 한다. https://duckdb.org/docs/extensions/httpfs/s3api.html S3 API SupportThe httpfs extension supports reading/writing/globbing files on object storage servers using the S3 API. S3 offers a standard API to r..

데이터처리/Duckdb 2024. 12. 20. 19:00

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2024/12 »
일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30	31

글 보관함

정선생의 데이터 팡팡

티스토리툴바