본문 바로가기

개발/HADOOP_SPARK_ETC30

hadoop 도입시 고려사항 [펌] 2012년 올해는 IT업계에서는 No-SQL이 큰 이슈 중에 하나로 떠오르고 있는 것 같습니다. 몽고 DB나 카산드라 하둡과 같은 오픈소스들을 말하는 것이겠죠? IT업계에서는 이를 이용해서 로그 데이터나 비정형 데이터를 분석해서 고객의 패턴을 분석해서 영업을 잘해야 한다고 강조하고 외국에서는 이미 그렇게 하고 있다고 영업을 하고 다닙니다.오늘은 제가 작업하고 있는 하둡에 대한 몇가지 이야기를 해보려고 합니다. 이 이야기는 하둡을 이용해서 돈을 버는 사람들의 눈에서 보는게 아니라 하둡을 운영하는 고객의 입장에서 적어보는 것입니다. 여기의 내용은 개인적인 내용이기 때문에 과도한 비판은 삼가해주시길 부탁드립니다.요 몇 개월간 하둡을 이용하는 프로젝트를 하고 있습니다. 처음 하둡에 접근할 때의 기대보다 운영 해.. 2017. 3. 14.
spark + s3 + r3 Spark + S3 + R3를 이용한 데이터 분석 시스템 만들기 from AWS Korea UserGroup (AWS한국사용자모임) 2017. 3. 7.
하둡 기초 - 2 4장_맵리듀스 시작하기 맵: (k1, v1) -> list (k2, v2)리듀스: (k2, list(v2)) -> list (k3, v3) 그림만 보고도 이해할 수 있어야 한다. 맵리듀스 아키텍처? 클라이언트는 맵리듀스 프로그램과 하둡에서 제공하는 API 를 의미한다.잡트래커는 하둡클러스터에 등록된 전체 잡의 스케쥴링을 관리하고 모니터링 한다.보통 하나의 잡트래커가 네임노드에서 실행되지만, 반드시 그럴 네임노드에서 실행될 필요는 없다.태스크트래커는 데이터노드에서 맵리듀스 프로그램을 실행한다.잡트래커가 요청한 갯수만큼 맵/리듀스 태스크를 생성하고,생성시 JVM 을 새롭게 구동한다. 이 JVM 은 재사용 가능. 맵리듀스 작동방식?? Map/Reduce Physical Flow? 2017. 2. 22.
하둡 기초 -1 1장_하둡 소개 빅데이터?3V = Volume + Velocity + Variety 왜하둡?RDBMS 유지비용 비쌈.하둡은 여러개의 싸구려 피씨에 리눅스만 깔면, 분산 컴퓨팅으로 작동하므로 굿. 기존 RDBMS 보다 존나 싸고 좋음.(구글스토리에서 읽었던 GFS 랑 비슷) 하둡에코시스템(하둡생태계)? 하둡에 대한 오해?RDBMS 를 대체하지 않음; 상호보완.데이터무결성 보장, 트랜잭션에 적절치 않음.고로, 중요한 데이터는 RDBMS 에, 배치성 데이터는 하둡에 ..그리고, 하둡은 NoSql 아님. 단점?- 수정불가- 파일 네임스페이스 제한- 고가양성 지원 2장_하둡 개발 준비 실행모드?- Standalone : 로컬에서만 지원되며, 분산 지원 안됨. 맵리듀스 프로그램 개발, 디버깅 할 때- Pseudo-.. 2017. 2. 22.