본문 바로가기

개발/HADOOP_SPARK_ETC30

Spark Java jar NullPointerException 이런 상황이다. - spark-2.2.0 - scala - java jar import 해서 사용 - 개발환경(intellij) 에서 에러는 없는데, 실제 cluster 에 올리면 에러 : java jar 안에 특정 싱글톤 객체의 함수 실행시 NULLPOINTEREXCEPTION : 잘돌아가는 싱글톤 객체도 있음. - 왜이럴까 삽질 ... 끝에 ... 원인 파악과 해결 - 원인 : 잘돌아가는 싱글톤 객체와 안돌아가는 싱글톤 객체의 차이는 싱글톤 내부 멤버객체를 생성했느냐 아니냐의 차이. 이유는 모르겠으나 static init() 안에서 무슨 객체를 생성했다면 driver 에서만 들고 있고 실제 worker 노드에서는 안들고 있음. - 해결 : 그냥 싱글톤 안한닼ㅋㅋ. 아니면 broadcast 해도 될거 .. 2018. 1. 19.
spark-shell error : Service 'sparkDriver' failed after 16 retries! # To solve the problems :Step 1. Go to your installed spark directories.Step 2. Go into 'bin' directory and then open the filed 'load-spark-env.sh'Step 3. After adding 'export SPARK_LOCAL_IP='127.0.0.1' to 'load-spark-env.sh'.It worked for me. I'm using Mac OS X EI Captain.(10.11.6) 출처 : http://jacob119.blogspot.kr/2016/08/spark-shell-error-service-sparkdriver.html 2017. 8. 29.
Dataset 2.DataFrameRDD와 마찬가지로 Immutable 하다 기존 RDB에서 테이블 형태로 이름이 있는 컬럼을 갖고 있다 큰 데이터셋을 만들고 쉽게 프로세싱하기위해 디자인되었다 SQL등을 이용해 데이터를 join하고 추출가능하다 3.Dataset스파크2.0 부터는 DataFrame API 가 Dataset API와 합쳐진다. 기본적으로 RDD와 매우 유사한 특징을 갖는다. 가장 큰차이점이라면 Dataset은 type 과 스키마가 정의되어 있다는 것이다. 성능상으로는 RDD는 타입을 지정하든 안하든 클러스터간 데이터 사용에 JAVA serialization 을 사용한다. 이과정에서 객체의 시리얼라이즈 오버해도가 상당히 발생하고 이로인해 가비지 콜렉션에도 더 많은 오버헤드가 생기게 된다. DataFrame.. 2017. 7. 25.
spark transformation 설명-예제 모음 https://www.supergloo.com/fieldnotes/apache-spark-examples-of-transformations/ 조음 MAP(FUNC)What does it do? Pass each element of the RDD through the supplied function; i.e. funcSpark map function example1234 scala> val rows = babyNames.map(line => line.split(","))rows: org.apache.spark.rdd.RDD[Array[String]] = MappedRDD[360] at map at :14 What did this example do? Iterates over every line in the.. 2017. 4. 21.