목록분류 전체보기 (31)
메모장
mysql 설치 $ sudo apt-get install software-properties-common $ sudo add-apt-repository -y ppa:ondrej/mysql-5.5 $ sudo apt-get update $ sudo apt-get install mysql-server mysql 버전 확인$ mysql --version mysql 시작$ systemctl start mysql mysql 중지$ systemctl stop mysql mysql 접속$ mysql -u root -p mysql 접속 후 db보기mysql> show databases; //////////////////////////// mysql> create database hive_metastore_db;mysq..
hdfs 폴더 생성 hadoop fs -mkdir /tmphadoop fs -mkdir /user hadoop fs -mkdir /user/hive hadoop fs -mkdir /user/hive/warehouse hadoop fs -chmod g+w /tmp hadoop fs -chmod g+w /user/hive/warehouse 1. 하이브 2.0.0 설치 파일을 다운받은 후, 압축을 해제합니다.apache-hive-2.1.1-bin.tar.gz를 다운받음 $ tar xvfz apache-hive-2.0.0-bin.tar.gz .bash_profile에 HIVE export 적용 export HIVE_HOME=~/dev/Apps/apache-hive-2.1.1-bin export PATH=$HIV..
우분투 16.04에서 하둡2.7.3 설치 hadoop-2.7.3.tar.gz 파일을 다운로드 받는다. .bash_profile에 export정보 저장 # javaexport JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64 # Hadoopexport HADOOP_HOME=~/dev/hadoop-2.7.3export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbinexport HADOOP_COMMON_LIB_NATIVE_DIR=$HADOOP_HOME/lib/nativeexport HADOOP_OPTS="-Djava.library.path=$HADOOP_HOME/lib/native source .bash_profile 모드 설정- 독립모드(Stan..
RDD(Resilient Distributed Dataset) - Resilient: 메모리 내에서 데이터가 손실되는 경우, 다시 생성할 수 있다. - Distributed: 클러스터를 통해 메모리에 분산되어 저장된다. - DataSet: 초기 데이터는 파일을 통해 가져올 수 있다. - RDD는 스파크에서의 기본적인 데이터의 단위 대부분의 스파크 프로그래밍은 RDD를 통한 동작으로 구성된다. RDD생성 방법1. 텍스트파일로 생성ex.sc.textFile("myfile.txt")sc.textFile("mydata/*.log")sc.textFile("myfile1.txt, myfile2.txt") 2. 메모리에 있는 데이터를 통해 생성ex.num = [1,2,3,4]rdd = sc.parallelize(nu..
15강python basics operators>>> 1+12 >>> 2*36 boolean operators>>> 1==0false >>> not (1==0)true >>> (2==2) and (2==3)false >>> (2==2) or (2==3)true Strings관련+ operator>>> 'artificial' + "intelligence"'artificialintelligence' >>> 'artificial'.upper()'ARTIFICIAL' >>> 'HELP'.lower()'help' >>> len('Help') length4 >>> s = 'hello world'>>> print shello world>>> s.upper()'HELLO WORLD' lists관련>>> fruits =..
하둡Hadoop - HDFS -> 스토리지 담당Hadoop - MapReduce -> 계산 담당 흐름Job = HDFS에서 read -> key,value형식 -> Mapper에서 key,value쌍의 형태로 데이터를 읽음 -> Shuffle로 합침 -> [] key,value쌍을 list로 만듬Reduce -> -> HDFS파일로 write MapReduce는 java나 python으로 개발개발Task(driver, mapper, reducer) HIVE탄생배경 - 맵리듀스 프로그래밍은 데이터분석가들이 하기에는 너무 어려움 - 재사용불가, 에러발생율 높음 - 데이터분석가들은 프로그래밍은 못하지만 sql은 사용가능 페이스북에서 HQL이라는 SQL과 유사한 언어로 맵리듀스를 대체할 HIVE를 개발비구조적인..
/usr/bin/dpkg returned an error code (1) 우분투 오류시 $ sudo apt-get update -y; sudo apt-get dist-upgrade -y 의존성 문제 발생한 경우로 사용자가 패키지 설치나 삭제를 잘못 할 경우 발생한다. 그래도 안될 경우sudo apt-get --yes autoremove --purge (오류명 입력 ex. mysql-community-server) sudo rm -rf /var/lib/dpkg/lock
윈도우10, 우분투 듀얼OS 셋팅 1. 윈도우10에서 빠른 시작 켜기 해제제어판 > 시스템 및 보안 > 전원 옵션 > 전원 단추 작동 설정 > 현재 사용할 수 없는 설정 변경 클릭종료 설정 란에서 빠른 시작 켜기 부분을 체크 해제메인보드 bios 메뉴에서 부트관련메뉴에서 Secure Boot 항목 비활성화http://palpit.tistory.com/765 2. 파티션 구성모든 공간을 파티션 구성해서 사용 중이었다면 파티션을 축소해서 공간을 마련한다.http://palpit.tistory.com/765 2. 우분투 설치우분투 설치 USB 만들기 - http://sergeswin.com/1178 설치 USB 로 부팅 후 Try Ubuntu 선택install ubuntu 메뉴 눌러 설치 진행언어 선택 후 설..
HDFS의 file저장 방식1. FILE은 block단위로 분할 - 각 block은 기본적으로 64mb 또는 128mb 크기 2. 데이터가 로드 될 때 여러 machine에 분산되어 저장됨 - 같은 file의 다른 block들은 서로 다른 machine에 저장됨 - 이를통해 효율적인 mapReduce처리가 가능 3. block들은 여러 machine에 복제되어 data node에 저장됨 - 기본 replication은 3개- 각 block은 서로 다른 3개의 machine에 저장되어 있다는 것을 의미 4. name node로 불리는 master node는 어떤 block들이 file을 구성하고 있고, 어느 위치에 저장되어 있는지에 대한 정보를 meta data로 관리 네임노드namenode daemon은..
하둡 설치... 하둡 기본 명령어 hadoop fs -ls / - hdfs안에 root 디렉토리의 내용을 봄 cd ~/training_materials/developer/data - change directory로 디렉토리로 경로 변경 tar zxvf shakespeare.tar.gz - shakespeare라는 tar.gz파일을 압축해제 hadoop fs -put shakespeare /user/training/shakespeare (hadoop fs -put(파일복사) local(로컬경로) hdfs(복사할 hdfs경로)) - 로컬파일시스템에 shakespeare 디렉토리를 HDFS상의 /user/training/shakespeare 디렉토리에 복사를 한다 put - 파일 복사 get - 파일 가져옴 ..