4장_맵리듀스 시작하기
맵: (k1, v1) -> list (k2, v2)
리듀스: (k2, list(v2)) -> list (k3, v3)
그림만 보고도 이해할 수 있어야 한다.
맵리듀스 아키텍처?
클라이언트는 맵리듀스 프로그램과 하둡에서 제공하는 API 를 의미한다.
잡트래커는 하둡클러스터에 등록된 전체 잡의 스케쥴링을 관리하고 모니터링 한다.
보통 하나의 잡트래커가 네임노드에서 실행되지만, 반드시 그럴 네임노드에서 실행될 필요는 없다.
태스크트래커는 데이터노드에서 맵리듀스 프로그램을 실행한다.
잡트래커가 요청한 갯수만큼 맵/리듀스 태스크를 생성하고,
생성시 JVM 을 새롭게 구동한다. 이 JVM 은 재사용 가능.
맵리듀스 작동방식??
Map/Reduce Physical Flow?
'개발 > HADOOP_SPARK_ETC' 카테고리의 다른 글
hadoop 도입시 고려사항 [펌] (0) | 2017.03.14 |
---|---|
spark + s3 + r3 (0) | 2017.03.07 |
하둡 기초 -1 (0) | 2017.02.22 |
spark codeing 시 유의사항 (0) | 2017.02.22 |
SPARK 의 헷갈림 reduce(), fold() (0) | 2017.02.16 |
댓글