메모장

하둡 WordCount 실행 테스트 (하둡 2.7.3) 본문

프로그래밍/하둡

하둡 WordCount 실행 테스트 (하둡 2.7.3)

hiandroid 2017. 9. 8. 14:21
반응형

하둡 설치가 되었다고 보고 WordCount 테스트


로컬호스트 접속

$ ssh localhost


yarn, hdfs실행

$ start-all.sh


wordcount구글링을 할 때 어떤 페이지는 하위버전이여서 bin/hadoop-examples-*.*.*jar로 제공하고 있다고 하고

어떤 페이지는 직접 wordcount를 복붙으로 소스를 해야해서 귀찮고 헷갈렸다.

좀 더 찾아보니 하둡 2.7.3 버전일 경우 hadoop-mapreduce-examples-2.7.3.jar파일에 wordcount.class가 있다.

(아마 하둡2.*.*부터 위치가 변경된 것 같다)


jar 파일 위치

hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar



하둡 디렉토리 확인

$ hadoop fs -ls /


하둡 인풋 디렉토리 생성

$ hadoop dfs -mkdir /input


하둡 README.txt파일 확인(어떤파일인지는 상관없음)

$ cd hadoop-2.7.3

$ ll


결과창

...

-rw-r--r--  1 nation909 nation909 14978  8월 18  2016 NOTICE.txt

-rw-r--r--  1 nation909 nation909  1366  8월 18  2016 README.txt

drwxr-xr-x  2 nation909 nation909  4096  8월 18  2016 bin/

drwxr-xr-x  3 nation909 nation909  4096  8월 18  2016 etc/

drwxr-xr-x  2 nation909 nation909  4096  8월 18  2016 include/

drwxr-xr-x  3 nation909 nation909  4096  9월  6 18:33 lib/

drwxr-xr-x  2 nation909 nation909  4096  8월 18  2016 libexec/

drwxrwxr-x  3 nation909 nation909  4096  9월  8 13:09 logs/

drwxr-xr-x  2 nation909 nation909  4096  8월 18  2016 sbin/

drwxr-xr-x  4 nation909 nation909  4096  8월 18  2016 share/


위의 진한글씨로 표시한 README.txt를 하둡 /input에 넣기

$ hadoop dfs -put README.txt /input


README.txt파일을 wordcount 테스트 하기

$ hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input /output

(hadoop jar "jar파일명" "jar파일안의 실행시킬 .class파일명" "타겟파일이 들어있는 디렉토리" "결과물 저장시킬 파일디렉토리")


하둡 hadoop-mapreduce-examples-2.7.3.jar파일의 wordcount.class파일을 실행시키는데 타겟은 /input안의 파일을 읽어서 실행(README.txt)하고

결과물은 /output디렉토리에 저장한다.


결과물 확인
$ hadoop fs -ls /output

결과창
-rw-r--r--   1 nation909 supergroup          0 2017-09-08 13:47 /output/_SUCCESS
-rw-r--r--   1 nation909 supergroup       1306 2017-09-08 13:47 /output/part-r-00000

wordcount한 파일이 있는걸 알 수 있다.


실제로 파일내용을 보려면

http://localhost:50070/ -> utilities -> Browse the file system에서 확인하면 됨.



반응형