[hive] avro 압축 포맷별 용량 비교 (snappy, bzip2, deflate)

티스토리 뷰

데이터처리/Hive

정선생 2023. 7. 13. 00:00

이번에 streamsets 를 통해 생성된 스트리밍 데이터를 마이그레이션 할 일 이 있어서 테스트해본 간단한 데이터이다.

참고로 avro 포맷에 스트림으로 처리되다보니 파일갯수는 많은 편이었다.

이때, json 텍스트가 많은 A 테이블과, 일반적인 필드값 수준의 B 테이블이 존재해서 몇가지 압축알고리즘별 실험을 해보았다.

참고로, hive 에서 지원하는 avro 압축알고리즘은 snappy, bzip2, deflate 등이 존재한다. (xz 압축은 테스트 실패함)

hive 에서 avro 파일의 압축을 지정하는것은 set 을 통해 환경변수를 지정한다.

아래와 같이 설정을 지정하고 insert 를 하게되면 avro 의 압축이 snappy 로 지정된다.

SET hive.exec.compress.output=true;
SET avro.output.codec=snappy; -- snappy , bzip2, deflate

테이블 A 는 필드값에 json 문자열 덩어리의 비중이 높아서, 컬럼베이스 파일포맷으로 변환해도 이득이 별로 없는 케이스이다.

그래서 AVRO 에서 ORC 로 줄어들어도 10% 정도밖에 용량이 안줄어든 특이한 케이스 이다.

절대적인건 아니지만, 간단하게 요약하면 이런정도의 데이터를 얻을수 있었다.

avro 파일포맷에서 압축 알고리즘은 snappy 를 쓰자. (무압축 대비 1/4 ~ 1/5 로 줄어든다)

avro 에 다른 압축 알고리즘은 bzip2, delate 은 쓰지말자. (느리다)

그럴바에는 ORC+ZLIB 를 사용하자 용량도 더 줄어들고, insert 를 위한 처리시간도 더 짧게 걸렸다.

[hive] KafkaStorageHandler 에서 SASL_PLAINTEXT 인증모듈 사용하기 (0)	2023.07.24
[hive] hive 에서 kafka 를 연동하고 집계하는 방법 - KafkaStorageHandler 를 써보자 (0)	2023.07.21
[Hive] kafka 의 json 데이터를 hive 에서 다루는 방법 - KafkaStorageHandler 활용법 (1)	2023.06.16
[Hive] 파일포맷(orc, parquet, avro..) 별 테이블 생성과 압축방법 (0)	2023.05.22
[HIVE] HiveAccessControlException Permission denied 원인 (1)	2023.02.16

공지사항

최근에 올라온 글

최근에 달린 댓글

링크

글 보관함