본문 바로가기

개발183

grep 하위디렉토리 파일안 문자열 검색 단순 문자열 검색 grep -rn 'search string' * 2>/dev/null 특정 파일들만 find . -name '*.[cpp|h]' | xargs grep -rn 'search string' find xargs 로 쓰일 때 파일명 표시를 위해서는 grep -rnH 와 같은 옵션으로 ... 2017. 8. 11.
intellij idea debug slow deubg 창에 'Memory View' hide 하면 되는듯 2017. 8. 4.
Dataset 2.DataFrameRDD와 마찬가지로 Immutable 하다 기존 RDB에서 테이블 형태로 이름이 있는 컬럼을 갖고 있다 큰 데이터셋을 만들고 쉽게 프로세싱하기위해 디자인되었다 SQL등을 이용해 데이터를 join하고 추출가능하다 3.Dataset스파크2.0 부터는 DataFrame API 가 Dataset API와 합쳐진다. 기본적으로 RDD와 매우 유사한 특징을 갖는다. 가장 큰차이점이라면 Dataset은 type 과 스키마가 정의되어 있다는 것이다. 성능상으로는 RDD는 타입을 지정하든 안하든 클러스터간 데이터 사용에 JAVA serialization 을 사용한다. 이과정에서 객체의 시리얼라이즈 오버해도가 상당히 발생하고 이로인해 가비지 콜렉션에도 더 많은 오버헤드가 생기게 된다. DataFrame.. 2017. 7. 25.
Case class [펌] 스칼라는 케이스 클래스 문법을 지원한다. 케이스클래스는 다음과 같은 일반적인 클래스이다.기본적으로 불변이다.패턴 매칭에 따라 분리될 수 있다.레퍼런스 대신 구조적 동일성에 의해 비교된다.간결하게 초기화 되고 사용될 수 있다.예제를 살펴보자. Notification 추상 클래스가 슈퍼클래스와 각 구현 클래스 Email, SMS, VoiceRecording이다.abstract class Notification case class Email(sourceEmail : String, title : String, body : String) extends Notification case class SMS(sourceNumber : String, message : String) extends Notification c.. 2017. 7. 25.