메모장
hdfs 폴더 생성 hadoop fs -mkdir /tmphadoop fs -mkdir /user hadoop fs -mkdir /user/hive hadoop fs -mkdir /user/hive/warehouse hadoop fs -chmod g+w /tmp hadoop fs -chmod g+w /user/hive/warehouse 1. 하이브 2.0.0 설치 파일을 다운받은 후, 압축을 해제합니다.apache-hive-2.1.1-bin.tar.gz를 다운받음 $ tar xvfz apache-hive-2.0.0-bin.tar.gz .bash_profile에 HIVE export 적용 export HIVE_HOME=~/dev/Apps/apache-hive-2.1.1-bin export PATH=$HIV..
우분투 16.04에서 하둡2.7.3 설치 hadoop-2.7.3.tar.gz 파일을 다운로드 받는다. .bash_profile에 export정보 저장 # javaexport JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 # Hadoopexport HADOOP_HOME=~/dev/hadoop-2.7.3export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbinexport HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/nativeexport HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native source .bash_profile 모드 설정- 독립모드(Stan..
RDD(Resilient Distributed Dataset) - Resilient: 메모리 내에서 데이터가 손실되는 경우, 다시 생성할 수 있다. - Distributed: 클러스터를 통해 메모리에 분산되어 저장된다. - DataSet: 초기 데이터는 파일을 통해 가져올 수 있다. - RDD는 스파크에서의 기본적인 데이터의 단위 대부분의 스파크 프로그래밍은 RDD를 통한 동작으로 구성된다. RDD생성 방법1. 텍스트파일로 생성ex.sc.textFile("myfile.txt")sc.textFile("mydata/*.log")sc.textFile("myfile1.txt, myfile2.txt") 2. 메모리에 있는 데이터를 통해 생성ex.num = [1,2,3,4]rdd = sc.parallelize(nu..