메모장
빅데이터 분산 컴퓨팅 정리(1~2강 분산처리시스템과 하둡컨셉)
하둡의 역사- 1990~2000년 사이 구글에서 연구 기존 분산 컴퓨팅의 문제점을 해결할 수 있는 새로운 접근 방법- reliability와 scalability 문제를 모두 해결- Core concept: 초기 데이터를 시스템에 분산하여 저장- 클러스터의 각 노드가 로컬 데이터에 대한 작업을 처리- initial processing을 위해 네트워크를 통해 데이터가 전송되지 않음 분산처리 시스템문제점1. 복잡한 프로그래밍(데이터와 프로세스의 sync 유지)2. Partial failures: 수많은 컴퓨터를 사용하는 경우 일부의 컴퓨터가 고장나는 경우 파셜 페일러 대처(컴퓨터의 스토리지)데이터 리커버리: 시스템의 컴포넌트가 fail 하더라도 시스템을 통해 작업은 지속적으로 수행 되어야 함- failure..
교육(KOCW, 오프라인)/빅데이터분산컴퓨팅(하둡에코시스템)
2017. 8. 30. 15:12