• 분류 전체보기 (178)
    • docker & k8s (23)
      • docker (8)
      • kubernetes (6)
      • helm chart (6)
    • 데이터처리 (130)
      • 구글시트-엑셀 (6)
      • Airflow (26)
      • DBMS (6)
      • Kafka (5)
      • Flink (32)
      • Hive (33)
      • ElasticSearch (2)
      • Hadoop (13)
      • MongoDB (1)
      • Duckdb (4)
      • Jupyter (1)
      • 데이터 기타 (1)
    • 개발 (13)
      • python (3)
      • java (4)
      • flutter (1)
      • 앱개발 (ios, 안드) (2)
      • 개발 기타 (2)
    • OS (8)
      • linux (6)
      • mac os (2)
    • 기타 (2)
본문 바로가기 메뉴 바로가기

정선생의 데이터 팡팡

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

정선생의 데이터 팡팡

검색하기 폼
  • 분류 전체보기 (178)
    • docker & k8s (23)
      • docker (8)
      • kubernetes (6)
      • helm chart (6)
    • 데이터처리 (130)
      • 구글시트-엑셀 (6)
      • Airflow (26)
      • DBMS (6)
      • Kafka (5)
      • Flink (32)
      • Hive (33)
      • ElasticSearch (2)
      • Hadoop (13)
      • MongoDB (1)
      • Duckdb (4)
      • Jupyter (1)
      • 데이터 기타 (1)
    • 개발 (13)
      • python (3)
      • java (4)
      • flutter (1)
      • 앱개발 (ios, 안드) (2)
      • 개발 기타 (2)
    • OS (8)
      • linux (6)
      • mac os (2)
    • 기타 (2)
  • 방명록

hyperhyperlog (1)
[Hive 4.x] 새버전에 추가된 유용한 UDF 소개 1탄 - approx_distinct

hive 4.x 버전에서 유용한 함수들이 많이 추가되었다. 그중 유용한 함수가 있어 몇가지 소개하고자 한다.UniqueCount , Count Distinct 를 구할때 속도가 많이 느린 문제가 있다.  PageCount 같은 경우는 단순히 count 하면 되지만, UserCount 를 할때는 중복 접속한 사람을 제거해야하는 문제인데, 문제는 이런 값을 구하는 속도가 너무 오래걸린다. 그래서 HyperHyperLog 알고리즘을 이용하여 빠르게 구하는 함수가 존재하는데, presto 에는 존재했는데 hive 에는 없어서 이 값을 구하려면 매우 오래걸렸다. (참고로 approx_distinct 는 근사치를 구하긴 하지만 정확도대비 성능을 보면 무조건 써야할 경우가 많다) https://github.com/a..

데이터처리/Hive 2024. 6. 24. 19:00
이전 1 다음
이전 다음
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
  • 하이브
  • airflow
  • Flink
  • hive
  • docker
  • Python
  • Kafka
  • 오류
  • hdfs
  • UDF
more
«   2026/02   »
일 월 화 수 목 금 토
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바