메모장
하둡 WordCount 실행 테스트 (하둡 2.7.3) 본문
하둡 설치가 되었다고 보고 WordCount 테스트
로컬호스트 접속
$ ssh localhost
yarn, hdfs실행
$ start-all.sh
wordcount구글링을 할 때 어떤 페이지는 하위버전이여서 bin/hadoop-examples-*.*.*jar로 제공하고 있다고 하고
어떤 페이지는 직접 wordcount를 복붙으로 소스를 해야해서 귀찮고 헷갈렸다.
좀 더 찾아보니 하둡 2.7.3 버전일 경우 hadoop-mapreduce-examples-2.7.3.jar파일에 wordcount.class가 있다.
(아마 하둡2.*.*부터 위치가 변경된 것 같다)
jar 파일 위치
hadoop-2.7.3/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar
하둡 디렉토리 확인
$ hadoop fs -ls /
하둡 인풋 디렉토리 생성
$ hadoop dfs -mkdir /input
하둡 README.txt파일 확인(어떤파일인지는 상관없음)
$ cd hadoop-2.7.3
$ ll
결과창
...
-rw-r--r-- 1 nation909 nation909 14978 8월 18 2016 NOTICE.txt
-rw-r--r-- 1 nation909 nation909 1366 8월 18 2016 README.txt
drwxr-xr-x 2 nation909 nation909 4096 8월 18 2016 bin/
drwxr-xr-x 3 nation909 nation909 4096 8월 18 2016 etc/
drwxr-xr-x 2 nation909 nation909 4096 8월 18 2016 include/
drwxr-xr-x 3 nation909 nation909 4096 9월 6 18:33 lib/
drwxr-xr-x 2 nation909 nation909 4096 8월 18 2016 libexec/
drwxrwxr-x 3 nation909 nation909 4096 9월 8 13:09 logs/
drwxr-xr-x 2 nation909 nation909 4096 8월 18 2016 sbin/
drwxr-xr-x 4 nation909 nation909 4096 8월 18 2016 share/
위의 진한글씨로 표시한 README.txt를 하둡 /input에 넣기
$ hadoop dfs -put README.txt /input
README.txt파일을 wordcount 테스트 하기
$ hadoop jar hadoop-mapreduce-examples-2.7.3.jar wordcount /input /output
(hadoop jar "jar파일명" "jar파일안의 실행시킬 .class파일명" "타겟파일이 들어있는 디렉토리" "결과물 저장시킬 파일디렉토리")
하둡 hadoop-mapreduce-examples-2.7.3.jar파일의 wordcount.class파일을 실행시키는데 타겟은 /input안의 파일을 읽어서 실행(README.txt)하고
결과물은 /output디렉토리에 저장한다.
wordcount한 파일이 있는걸 알 수 있다.
실제로 파일내용을 보려면
http://localhost:50070/ -> utilities -> Browse the file system에서 확인하면 됨.
'프로그래밍 > 하둡' 카테고리의 다른 글
하둡, 하이브 실행 및 beeline으로 하이브 접속 (0) | 2017.09.08 |
---|---|
우분투16.04 하둡2.7.3 설치 (0) | 2017.09.06 |