본문 바로가기

개발183

하둡 기초 - 2 4장_맵리듀스 시작하기 맵: (k1, v1) -> list (k2, v2)리듀스: (k2, list(v2)) -> list (k3, v3) 그림만 보고도 이해할 수 있어야 한다. 맵리듀스 아키텍처? 클라이언트는 맵리듀스 프로그램과 하둡에서 제공하는 API 를 의미한다.잡트래커는 하둡클러스터에 등록된 전체 잡의 스케쥴링을 관리하고 모니터링 한다.보통 하나의 잡트래커가 네임노드에서 실행되지만, 반드시 그럴 네임노드에서 실행될 필요는 없다.태스크트래커는 데이터노드에서 맵리듀스 프로그램을 실행한다.잡트래커가 요청한 갯수만큼 맵/리듀스 태스크를 생성하고,생성시 JVM 을 새롭게 구동한다. 이 JVM 은 재사용 가능. 맵리듀스 작동방식?? Map/Reduce Physical Flow? 2017. 2. 22.
하둡 기초 -1 1장_하둡 소개 빅데이터?3V = Volume + Velocity + Variety 왜하둡?RDBMS 유지비용 비쌈.하둡은 여러개의 싸구려 피씨에 리눅스만 깔면, 분산 컴퓨팅으로 작동하므로 굿. 기존 RDBMS 보다 존나 싸고 좋음.(구글스토리에서 읽었던 GFS 랑 비슷) 하둡에코시스템(하둡생태계)? 하둡에 대한 오해?RDBMS 를 대체하지 않음; 상호보완.데이터무결성 보장, 트랜잭션에 적절치 않음.고로, 중요한 데이터는 RDBMS 에, 배치성 데이터는 하둡에 ..그리고, 하둡은 NoSql 아님. 단점?- 수정불가- 파일 네임스페이스 제한- 고가양성 지원 2장_하둡 개발 준비 실행모드?- Standalone : 로컬에서만 지원되며, 분산 지원 안됨. 맵리듀스 프로그램 개발, 디버깅 할 때- Pseudo-.. 2017. 2. 22.
spark codeing 시 유의사항 - 고반복이지만 정적인 rdd 는 partitionby().persist() 롤 영속화해놓는다 - rdd transformation 은 mapValues 같이 partitioner 가 유지되는 함수사용 @러닝스파크를 보면서 ... 2017. 2. 22.
페이지랭크[펌] 네이버 검색엔진의 문제점을 처음 지적한 글을 썼던 2년 전부터 이 블로그에 언젠가 한 번 써보고 싶었던 주제가 하나 있었다. 구글의 PageRank 알고리즘을 설명하는 것이다. 원리는 간단하지만 알고리즘을 설명하려고 하면 말이 길어질 것 같고 쉽게 설명할 수 있을까 싶어 블로그에 쓸까 말까 망설였는데, 그냥 한 번 시작해보려고 한다. “Google”이라는 230조원짜리 회사가 처음 시작된 곳이 바로 이 세르게이 브린과 래리 페이지가 쓴 논문(The Anatomy of a Large-Scale Hypertextual Web Search Engine)이었다는 것을 생각하면 한 번 시간을 들여 배워볼 만한 의미가 있지 않을까? 이 논문은 1998년에 쓰여졌으나, 논문에서 소개된 PageRank 알고리즘은 14.. 2017. 2. 22.