본문 바로가기
개발/HADOOP_SPARK_ETC

하둡 기초 - 2

by 로그인시러 2017. 2. 22.

4장_맵리듀스 시작하기


: (k1, v1) -> list (k2, v2)

리듀스: (k2, list(v2)) -> list (k3, v3)



그림만 보고도 이해할 수 있어야 한다.


맵리듀스 아키텍처?



클라이언트는 맵리듀스 프로그램과 하둡에서 제공하는 API 를 의미한다.

잡트래커는 하둡클러스터에 등록된 전체 잡의 스케쥴링을 관리하고 모니터링 한다.

보통 하나의 잡트래커가 네임노드에서 실행되지만, 반드시 그럴 네임노드에서 실행될 필요는 없다.

태스크트래커는 데이터노드에서 맵리듀스 프로그램을 실행한다.

잡트래커가 요청한 갯수만큼 맵/리듀스 태스크를 생성하고,

생성시 JVM 을 새롭게 구동한다. 이 JVM 은 재사용 가능.


맵리듀스 작동방식??






Map/Reduce Physical Flow?




'개발 > HADOOP_SPARK_ETC' 카테고리의 다른 글

hadoop 도입시 고려사항 [펌]  (0) 2017.03.14
spark + s3 + r3  (0) 2017.03.07
하둡 기초 -1  (0) 2017.02.22
spark codeing 시 유의사항  (0) 2017.02.22
SPARK 의 헷갈림 reduce(), fold()  (0) 2017.02.16

댓글