본문 바로가기

개발/HADOOP_SPARK_ETC30

spark 와 hadoop 스파크를 하둡 대체재라고 말하는 일부 예찬론자의 논리는 속도와 편의성을 근거로 한다.​하둡이 디스크 기반 기술이기 떄문에 물리적인 속도한계를 갖고 있으며, 까다로운 프로그래밍 모델 떄문에 익히기 어렵다는 주장이다. 스파크가 하둡보다 더 빠르고 배우기 쉽다며 하둡 대체재라고 설명한다. 이 주장은 반만 맞고, 반은 틀렸다.​하둡은 기본적으로 2개의 필수 요소를 갖고 있다. 하둡분산파일시스템(HDFS)과 맵리듀스(MapReduce)다.​스파크가 가장 많이 활용되는 기반 인프라는 하둡이다. 더 정확하게는 HDFS다. 스파크는 데이터처리 영역인 맵리듀스를 대신해 HDFS의 데이터를 연산한다.​맵리듀스 프레임워크는 ‘맵(map)’과 ‘리듀스(reduce)’란 두 함수를 합친 말이다. 분산된 데이터를 종류별로 모으는.. 2017. 3. 14.
yarn [펌] Hadoop은 크게 두가지 컴포넌트로 구성되는데 하나는 파일을 저장할 수 있는 분산 파일 시스템인 HDFS(Hadoop Distributed File System)과 분산 컴퓨팅 환경을 제공하는 YARN(Yet Another Resource Negotiator) 입니다. Hadoop 을 처음 접하시는 분들은 HDFS에 대해서는 쉽게 이해하지만 YARN에 대해서는 개념을 잡기 어려워하시는 분들이 있습니다. 그 이유는 Hadoop하면 MapReduce를 많이 떠 올리시는데 MapReduce 따로 YARN 따로 있기 때문에 오는 혼선이 아닌가 생각합니다. 이 글에서는 YARN에 대한 간단한 개념 설명과 YARN에서 MapReduce를 사용하기 환경 설정은 어떻게 해야 하는지에 대해 살펴 보겠습니다.YARN 과.. 2017. 3. 14.
하둡의 진화 - 얀 [1] 아키텍처는 간단하게 아래 그림 하나로 요약됨 JobTracker 에 의해서만 리소스에 접근할 수 있으니, SPARK, STORM 같은 다른 컴퓨팅 클러스터와 연동하기 어려움. 그래서, YARN 이 등장 기존에 MapReduce 중에서 리소스 관리 부분만 가져와서 다른 서비스도 사용가능하도록 구성함. 그래서, hadoop2 부터는 MR 도 YARN API 를 이용한 하나의 프로그램에 불과함. 아무튼, YARN 때문에 다양한 어플리케이션이 하둡 리소스를 이용할 수 있게 되었음. [2] 동장 방식은 아래 설명으로 끝 ! 1. 클라이언트는 Application Master 자체를 실행하는 필요한 데이터를 포함하는 응용프로그램을 Resource Manager에게 제출 2. Resource Manager는 .. 2017. 3. 14.
scale up vs scale out Q:What is the difference between scale-out versus scale-up (architecture, applications, etc.)?A:The terms "scale up" and "scale out" are commonly used in discussing different strategies for adding functionality to hardware systems. They are fundamentally different ways of addressing the need for more processor capacity, memory and other resources.Scaling up generally refers to purchasing and ins.. 2017. 3. 14.