• 분류 전체보기 (176)
    • docker & k8s (23)
      • docker (8)
      • kubernetes (6)
      • helm chart (6)
    • 데이터처리 (130)
      • 구글시트-엑셀 (6)
      • Airflow (26)
      • DBMS (6)
      • Kafka (5)
      • Flink (32)
      • Hive (33)
      • ElasticSearch (2)
      • Hadoop (13)
      • MongoDB (1)
      • Duckdb (4)
      • Jupyter (1)
      • 데이터 기타 (1)
    • 개발 (11)
      • python (3)
      • java (4)
      • flutter (1)
      • 개발 기타 (2)
    • OS (8)
      • linux (6)
      • mac os (2)
    • 기타 (2)
본문 바로가기 메뉴 바로가기

정선생의 데이터 팡팡

프로필사진
  • 글쓰기
  • 관리
  • 태그
  • 방명록
  • RSS

정선생의 데이터 팡팡

검색하기 폼
  • 분류 전체보기 (176)
    • docker & k8s (23)
      • docker (8)
      • kubernetes (6)
      • helm chart (6)
    • 데이터처리 (130)
      • 구글시트-엑셀 (6)
      • Airflow (26)
      • DBMS (6)
      • Kafka (5)
      • Flink (32)
      • Hive (33)
      • ElasticSearch (2)
      • Hadoop (13)
      • MongoDB (1)
      • Duckdb (4)
      • Jupyter (1)
      • 데이터 기타 (1)
    • 개발 (11)
      • python (3)
      • java (4)
      • flutter (1)
      • 개발 기타 (2)
    • OS (8)
      • linux (6)
      • mac os (2)
    • 기타 (2)
  • 방명록

쿼리 튜닝 (1)
[튜닝] 리듀서가 적게 잡혀 느린 Group By 쿼리 튜닝하기 - CBO 삽질 케이스

하둡 클러스터 이전을 위해 ETL 을 등록하는데 이상하게 old 서버에서는 잘되는게, new 서버에서는 너~~무 느린문제가 있었다. 일단 성능개선을 위해 동일한 Hive 버전도 아니었고, 플랜도 다르게 돌아가는 상황이라 답답한 상황이었다. 우선 결론부터 말하면 리듀서가 14~26개 정도가 할당되었는데, JOIN 과 카디널리티가 높은 Group By 였기 때문에 이정도수로는 어림도 없는 수준이었기 때문에 너무 오래걸린 문제였다. ---------------------------------------------------------------------------------------------- VERTICES MODE STATUS TOTAL COMPLETED RUNNING PENDING FAILED KI..

데이터처리/Hive 2023. 2. 9. 00:00
이전 1 다음
이전 다음
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
TAG
  • docker
  • Python
  • 오류
  • hdfs
  • Kafka
  • Flink
  • 하이브
  • hive
  • UDF
  • airflow
more
«   2025/07   »
일 월 화 수 목 금 토
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
글 보관함

Blog is powered by Tistory / Designed by Tistory

티스토리툴바