메모장

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

메모장

빅데이터 분산 컴퓨팅 정리(24~29강 python spark 정규식)

정규표현식 - 문자열검색(search and match) - 문자열의 부분을 변환(sub) - 작은조각으로 문자열 자르기(split) 정규식 -> appleex. Scrapple from the apple. 정규식 -> b[eor]atex. beat a brat on a boat [x]는 x의 문자 리스트중 어느 하나와 매칭ex. "[abc]"는 'a' 또는 'b' 또는 'c'와 매칭 [^x]는 x의 문자 리스트에 포함되지 않는 한 문자와 매칭ex. "[^abc]"는 'a' 또는 'b' 또는 'c'를 제외한 나머지와 매칭 "."모든 하나의 문자와 매칭괄호는 그룹으로 만들때 사용ex. "(abc)+"는 'abc', 'abcabc', 'abcabcabc'등과 매칭 x|y는 x 또는 y와 매칭ex. "this..

교육(KOCW, 오프라인) 2017. 9. 12. 14:37

빅데이터 분산을 위한 스파크2 프로그래밍

스파크 - 하둡과는 달리 메모리를 이용한 데이터 저장방식을 제공 - 머신러닝 등 반복적인 데이터 처리가 필요한 분야에서 높은 성능을 보여줌 - 스파크2.0부터는 자바, 스칼라, 파이썬, R스크립트로도 스파크 애플리케이션 작성 가능 스파크 라이브러리스파크SQL: 하이브와 연동이 가능한 스키마기반 데이터분석 모듈스파크 스트리밍: 실시간 스트리밍 데이터를 다루는 모듈GraphX: 그래프 알고리즘 처리 모듈SparkR: 통계분석프로그램인 R과의 연동을 지원하는 모듈MLlib: 머신러닝 알고리즘 수행 모듈 하둡 파일시스템 기본적인 동작 방법 - 분석할 데이터를 하둡파일시스템인 HDFS에 저장해 두고 HDFS상에서 맵리듀스 프로그램을 이용해 데이터를 처리 - 하둡파일시스템은 하나의 네임노드와 여러개의 데이터노드로 ..

교육(KOCW, 오프라인) 2017. 9. 11. 16:28

우분투 16.04 py스파크(2.1.0) 설치

우분투 16.04 py스파크(2.1.0) 설치 1. spark-2.1.0-bin-hadoop2.7.tgz 파일 압축풀기$ tar -xvzf spark-2.1.0-bin-hadoop2.7.tgz 2. 압축푼 파일 위치 이동$ mv spark-2.1.0-bin-hadoop2.7 ../Apps/ 3. 스파크 환경설정- spark-2.1.0-bin-hadoop2.7/conf/spark-env.sh.template 파일을 복사해서 spark-env.sh로 만든다. 해당 spark-env.sh 파일 밑에 환경설정 세팅export HADOOP_CONF_DIR=~/dev/Apps/hadoop-2.7.3/etc/hadoop#export PYSPARK_PYTHON=~/anaconda3/envs/py35/bin/python..

카테고리 없음 2017. 9. 11. 15:51

이전 Prev 1 ··· 3 4 5 6 7 8 9 ··· 11 Next 다음

메모장

티스토리툴바