티스토리 뷰

반응형

하둡클러스터에 접근해서 파일을 확인하고 복사할때 하둡 클라이언트 바이너리를 설치해야한다.

보통 메이저버전만 맞추면 일반적으로 돌아가는 편인데 다음 경로에서 다운로드를 받아 압축을 푼다.

https://hadoop.apache.org/releases.html

압축풀기화 설정복사

위 경로에서 다운로드를 받았다면, 다음과 같이 압축해제된 경로를 HADOOP_HOME 으로 경로를 잡아주고,

core-site.xml, hdfs-site.xml 설정파일을 복사하면된다.

(ambari에서 client 설정을 다운로드 받아서 복사하거나 하둡클러스터 서버에서 해당 설정을 가져와도 된다.)

# 하둡 2.10.2 버전 다운로드 및 해제 (/home1/user/ 에서 다운받았다고 가정)
$ wget https://dlcdn.apache.org/hadoop/common/hadoop-2.10.2/hadoop-2.10.2.tar.gz --no-check-certificate
$ tar xvfp hadoop-2.10.2.tar.gz 
$ export HADOOP_HOME=/home1/user/hadoop-2.10.2

# --------------------------------------
# 서버에 존재하는 xml 설정을 복사해온다
# ======================================
# $HADOOP_HOME/etc/hadoop/core-site.xml
# $HADOOP_HOME/etc/hadoop/hdfs-site.xml
# ---------------------------------------
$ $HADOOP_HOME/bin/hadoop fs -ls /
Found 14 items
drwxr-xr-x   - hdfs   hdfs            0 2019-05-17 15:28 /apps
...
drwxrwxrwx   - spark  hadoop          0 2022-08-31 14:06 /spark2-history
drwxr-xr-x   - hdfs   hdfs            0 2018-02-13 17:46 /system
drwxrwxrwx   - hdfs   hdfs            0 2022-08-31 00:47 /tmp
drwxr-xr-x   - hdfs   hdfs            0 2020-12-29 16:15 /user

하둡클래스패스 잡기

flink 도 그렇고 하둡에 의존성을 갖는 많은 서드파티 플랫폼이 존재하는데, 이런경우 HADOOP_CLASSPATH 가 잡혀있어야 정상동작되는 경우가 있다. 이때, 여러개의 jar 를 넣어줘야하는데 한가지 팁을 알려주자면 특정 경로 하위의 jar 를 클래스 패스로 묶어둘때 다음과 같은 패턴을 사용하면 편하다.

# $HADOOP_HOME/share/hadoop 하위의 jar 를 모두 CLASSPATH 로 잡는다면?
export HADOOP_CLASSPATH=$(find $HADOOP_HOME/share/hadoop -name '*.jar' | xargs echo | tr ' ' ':')

직접 설치하지 않고, 하둡패키지를 통해 깔았을때는 해당 경로가 다를수 있으므로 경로를 변경해서 응용가능하다.

반응형
댓글
공지사항
최근에 올라온 글
최근에 달린 댓글
Total
Today
Yesterday
링크
«   2024/12   »
1 2 3 4 5 6 7
8 9 10 11 12 13 14
15 16 17 18 19 20 21
22 23 24 25 26 27 28
29 30 31
글 보관함