• 분류 전체보기 (178)
    • docker & k8s (23)
      • docker (8)
      • kubernetes (6)
      • helm chart (6)
    • 데이터처리 (130)
      • 구글시트-엑셀 (6)
      • Airflow (26)
      • DBMS (6)
      • Kafka (5)
      • Flink (32)
      • Hive (33)
      • ElasticSearch (2)
      • Hadoop (13)
      • MongoDB (1)
      • Duckdb (4)
      • Jupyter (1)
      • 데이터 기타 (1)
    • 개발 (13)
      • python (3)
      • java (4)
      • flutter (1)
      • 앱개발 (ios, 안드) (2)
      • 개발 기타 (2)
    • OS (8)
      • linux (6)
      • mac os (2)
    • 기타 (2)
본문 바로가기 메뉴 바로가기

정선생의 데이터 팡팡

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

정선생의 데이터 팡팡

검색하기 폼
  • 분류 전체보기 (178)
    • docker & k8s (23)
      • docker (8)
      • kubernetes (6)
      • helm chart (6)
    • 데이터처리 (130)
      • 구글시트-엑셀 (6)
      • Airflow (26)
      • DBMS (6)
      • Kafka (5)
      • Flink (32)
      • Hive (33)
      • ElasticSearch (2)
      • Hadoop (13)
      • MongoDB (1)
      • Duckdb (4)
      • Jupyter (1)
      • 데이터 기타 (1)
    • 개발 (13)
      • python (3)
      • java (4)
      • flutter (1)
      • 앱개발 (ios, 안드) (2)
      • 개발 기타 (2)
    • OS (8)
      • linux (6)
      • mac os (2)
    • 기타 (2)
  • 방명록

sequence (1)
[Hive] 파일포맷(orc, parquet, avro..) 별 테이블 생성과 압축방법

hive 테이블의 경우, 파일포맷(text, parquet, rcfile, sequence, orc) 별로 테이블을 선언하는 쿼리가 조금씩 차이가 있어서 create table 하는 방법과, 테이블의 파일포맷별 압축 알고리즘(gzip or zlib, snappy)을 선택하는 방법이 달라서 정리한 문서이다. (옛날에 방치된 내 블로그에 정리한글인데 옮겨옴) 1. text 파일 아래와 같이 text 파일 포맷을 사용하는 Hive 테이블을 만들때는 특별히 선언할것은 없다. 단, 압축을 하기위해서 압축알고리즘을 지정하는 방법은 SET 을 통해 환경변수로 변경후 insert 를 하면 된다. create table tb_text ( ymd String, tag String, cnt int ) ROW FORMAT D..

데이터처리/Hive 2023. 5. 22. 11:57
이전 1 다음
이전 다음
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
  • UDF
  • 하이브
  • Flink
  • airflow
  • Python
  • 오류
  • hdfs
  • Kafka
  • docker
  • hive
more
«   2026/02   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바