전체239 OLTP, OLAP, DW OLTP,OLAP,DW 정의OLTP: OnLine Transaction ProcessingBatch 와 반대되는 개념으로 실시간으로 db의 데이터를 트랜잭션 단위로 갱신/조회하는 처리방식. 은행, 증권사 등에서 씀. 기존과 달리 다수의 client가 거의 동시에 이용할수 있도록 송수신자료를 트랜잭션단위로 압축한것이 특징. DW: Data Warehouse수년간 발생한 데이터를 모아서 주제별로 합쳐 분석할 수 있게 하는 통합시스템.예) 운영데이터, 분산데이터, 시장데이터를 추출하여 DW를 구축하고 그걸 DSS나 OLAP로 분석 ※Data Mart: DW의 하위단위라고 볼 수 있으며, DW는 중앙집중식 데이터 집합체의 개념을 가지나, data mart는 데이터 저장소의 역할을 하고 특정 목적을 위해 쉬운 접.. 2017. 3. 17. .bashrc vs .bash_profile Login Shell vs Non-login Shell먼저 'Login Shell'과 'Non-login Shell' 을 구분해야 하는데, 로그인은 계정과 암호를 입력해서 Shell을 실행하는 것이다. ssh로 접속하거나 로컬에서 GUI에서 로그인한다는 의미다.'.profile', '.bash_profile'이 Login할 때 로드되는(source) 파일이다. '.profile'은 꼭 bash가 아니더라도 로그인하면 로드되고 '.bash_profile'은 꼭 Bash로 Login할 때 로드된다.그리고 'Non-login Shell'은 로그인 없이 실행하는 Shell을 말한다. ssh로 접속하고 나서 다시 bash를 실행하는 경우나. GUI 세션에서 터미널을 띄우는 것이 이해 해당한다. 'sudo bash.. 2017. 3. 16. 데이터 정제 garbage in, garbage out 2017. 3. 15. spark 와 hadoop 스파크를 하둡 대체재라고 말하는 일부 예찬론자의 논리는 속도와 편의성을 근거로 한다.하둡이 디스크 기반 기술이기 떄문에 물리적인 속도한계를 갖고 있으며, 까다로운 프로그래밍 모델 떄문에 익히기 어렵다는 주장이다. 스파크가 하둡보다 더 빠르고 배우기 쉽다며 하둡 대체재라고 설명한다. 이 주장은 반만 맞고, 반은 틀렸다.하둡은 기본적으로 2개의 필수 요소를 갖고 있다. 하둡분산파일시스템(HDFS)과 맵리듀스(MapReduce)다.스파크가 가장 많이 활용되는 기반 인프라는 하둡이다. 더 정확하게는 HDFS다. 스파크는 데이터처리 영역인 맵리듀스를 대신해 HDFS의 데이터를 연산한다.맵리듀스 프레임워크는 ‘맵(map)’과 ‘리듀스(reduce)’란 두 함수를 합친 말이다. 분산된 데이터를 종류별로 모으는.. 2017. 3. 14. 이전 1 ··· 24 25 26 27 28 29 30 ··· 60 다음