본문 바로가기

전체239

piss off - 빡쳤다.- 꺼져 (get out of funckin' my face, fuck off) : I'm so pissed: He pisses me off everyday 2017. 2. 22.
하둡 기초 - 2 4장_맵리듀스 시작하기 맵: (k1, v1) -> list (k2, v2)리듀스: (k2, list(v2)) -> list (k3, v3) 그림만 보고도 이해할 수 있어야 한다. 맵리듀스 아키텍처? 클라이언트는 맵리듀스 프로그램과 하둡에서 제공하는 API 를 의미한다.잡트래커는 하둡클러스터에 등록된 전체 잡의 스케쥴링을 관리하고 모니터링 한다.보통 하나의 잡트래커가 네임노드에서 실행되지만, 반드시 그럴 네임노드에서 실행될 필요는 없다.태스크트래커는 데이터노드에서 맵리듀스 프로그램을 실행한다.잡트래커가 요청한 갯수만큼 맵/리듀스 태스크를 생성하고,생성시 JVM 을 새롭게 구동한다. 이 JVM 은 재사용 가능. 맵리듀스 작동방식?? Map/Reduce Physical Flow? 2017. 2. 22.
하둡 기초 -1 1장_하둡 소개 빅데이터?3V = Volume + Velocity + Variety 왜하둡?RDBMS 유지비용 비쌈.하둡은 여러개의 싸구려 피씨에 리눅스만 깔면, 분산 컴퓨팅으로 작동하므로 굿. 기존 RDBMS 보다 존나 싸고 좋음.(구글스토리에서 읽었던 GFS 랑 비슷) 하둡에코시스템(하둡생태계)? 하둡에 대한 오해?RDBMS 를 대체하지 않음; 상호보완.데이터무결성 보장, 트랜잭션에 적절치 않음.고로, 중요한 데이터는 RDBMS 에, 배치성 데이터는 하둡에 ..그리고, 하둡은 NoSql 아님. 단점?- 수정불가- 파일 네임스페이스 제한- 고가양성 지원 2장_하둡 개발 준비 실행모드?- Standalone : 로컬에서만 지원되며, 분산 지원 안됨. 맵리듀스 프로그램 개발, 디버깅 할 때- Pseudo-.. 2017. 2. 22.
spark codeing 시 유의사항 - 고반복이지만 정적인 rdd 는 partitionby().persist() 롤 영속화해놓는다 - rdd transformation 은 mapValues 같이 partitioner 가 유지되는 함수사용 @러닝스파크를 보면서 ... 2017. 2. 22.