티스토리 뷰

반응형

HUE 에서는 hive 에 연결하기위해서 beeswax 를 사용하고, 해당 download_row_limit 설정값이 100000 으로 기본 세팅되어있기 때문이다. 해당 값을 늘려서 적용하면 10만건 이상 보는것이 가능하다.

 

https://github.com/cloudera/hue/blob/master/desktop/conf.dist/hue.ini#L1404-L1406

[beeswax]
# A limit to the number of rows that can be downloaded from a query before it is truncated.
# A value of -1 means there will be no limit.
download_row_limit=100000

 

해결방법

위 설정값을 크게 늘려주면 된다. -1 을 넣으면 무제한으로 세팅이 가능하지만 성능이 받춰주지 않을것이 명확하다.

테스트해보면 100만건까지는 어느정도 동작하는것은 확인이 되긴 했는데, 더 큰 데이터의 사이즈를 사용해야한다면 이 설정으로 푸는것만으로 원활하게 다운로드 받는건 한계가 있다.

 

이런경우는 HUE 에 의존하지 말고, INSERT OVERWRITE DIRECTORY 를 이용해 select 결과를 hdfs 에 저장하고 그 파일을 다시 읽어서 분석하는게 더 현실적이다.

 

 

반응형
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/10   »
1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29 30 31
글 보관함