티스토리 뷰
반응형
HUE 에서는 hive 에 연결하기위해서 beeswax 를 사용하고, 해당 download_row_limit 설정값이 100000 으로 기본 세팅되어있기 때문이다. 해당 값을 늘려서 적용하면 10만건 이상 보는것이 가능하다.
https://github.com/cloudera/hue/blob/master/desktop/conf.dist/hue.ini#L1404-L1406
[beeswax]
# A limit to the number of rows that can be downloaded from a query before it is truncated.
# A value of -1 means there will be no limit.
download_row_limit=100000
해결방법
위 설정값을 크게 늘려주면 된다. -1 을 넣으면 무제한으로 세팅이 가능하지만 성능이 받춰주지 않을것이 명확하다.
테스트해보면 100만건까지는 어느정도 동작하는것은 확인이 되긴 했는데, 더 큰 데이터의 사이즈를 사용해야한다면 이 설정으로 푸는것만으로 원활하게 다운로드 받는건 한계가 있다.
이런경우는 HUE 에 의존하지 말고, INSERT OVERWRITE DIRECTORY 를 이용해 select 결과를 hdfs 에 저장하고 그 파일을 다시 읽어서 분석하는게 더 현실적이다.
반응형
댓글