메모장
정규표현식 - 문자열검색(search and match) - 문자열의 부분을 변환(sub) - 작은조각으로 문자열 자르기(split) 정규식 -> appleex. Scrapple from the apple. 정규식 -> b[eor]atex. beat a brat on a boat [x]는 x의 문자 리스트중 어느 하나와 매칭ex. "[abc]"는 'a' 또는 'b' 또는 'c'와 매칭 [^x]는 x의 문자 리스트에 포함되지 않는 한 문자와 매칭ex. "[^abc]"는 'a' 또는 'b' 또는 'c'를 제외한 나머지와 매칭 "."모든 하나의 문자와 매칭괄호는 그룹으로 만들때 사용ex. "(abc)+"는 'abc', 'abcabc', 'abcabcabc'등과 매칭 x|y는 x 또는 y와 매칭ex. "this..
스파크 - 하둡과는 달리 메모리를 이용한 데이터 저장방식을 제공 - 머신러닝 등 반복적인 데이터 처리가 필요한 분야에서 높은 성능을 보여줌 - 스파크2.0부터는 자바, 스칼라, 파이썬, R스크립트로도 스파크 애플리케이션 작성 가능 스파크 라이브러리스파크SQL: 하이브와 연동이 가능한 스키마기반 데이터분석 모듈스파크 스트리밍: 실시간 스트리밍 데이터를 다루는 모듈GraphX: 그래프 알고리즘 처리 모듈SparkR: 통계분석프로그램인 R과의 연동을 지원하는 모듈MLlib: 머신러닝 알고리즘 수행 모듈 하둡 파일시스템 기본적인 동작 방법 - 분석할 데이터를 하둡파일시스템인 HDFS에 저장해 두고 HDFS상에서 맵리듀스 프로그램을 이용해 데이터를 처리 - 하둡파일시스템은 하나의 네임노드와 여러개의 데이터노드로 ..
우분투 16.04 py스파크(2.1.0) 설치 1. spark-2.1.0-bin-hadoop2.7.tgz 파일 압축풀기$ tar -xvzf spark-2.1.0-bin-hadoop2.7.tgz 2. 압축푼 파일 위치 이동$ mv spark-2.1.0-bin-hadoop2.7 ../Apps/ 3. 스파크 환경설정- spark-2.1.0-bin-hadoop2.7/conf/spark-env.sh.template 파일을 복사해서 spark-env.sh로 만든다. 해당 spark-env.sh 파일 밑에 환경설정 세팅export HADOOP_CONF_DIR=~/dev/Apps/hadoop-2.7.3/etc/hadoop#export PYSPARK_PYTHON=~/anaconda3/envs/py35/bin/python..