[Spark] scala spark(스파크) orc 파일읽기 (spark read hive orc format)

2017. 9. 18. 15:35

스파크 작업을 하다보면 데이터 처리시 쿼리 기반의 spark sql, hive를 이용하기위해 orc로 데이터를 적재하는 경우가 많다.

이 때 spark-shell로 orc파일을 읽어들여 데이터를 보게되면 컬럼보다 데이터내용이 길게되면 잘려서 노출된다.

따라서 데이터 내용을 보고싶다면 dataframe형태의 데이터를 rdd로 만들어서 first나 rdd.take(n).foreach(println)식으로 보도록 하자

1. orc 파일 읽기

val data = sqlContext.read.format("orc").load("hdfs file directory") //spark1.5,6 version

2. 읽어들인 데이터(dataframe형태)를 rdd로 변경하기

val rdd = data.rdd

3. rdd로 변경한 데이터 보기

rdd.first

rdd.take(n).foreach(println) //n은 보고싶은 라인 개수

[Spark] 스파크(Spark) 스트리밍 성능 개선 (0)	2017.11.01
[Spark] 하둡 MR보다 스파크(SPARK)를 사용할 때 장점 (0)	2017.10.24
[Spark] spark직렬화 포맷 (0)	2017.08.11
[Spark] scala.reflect.api.JavaUniverse.runtimeMirror 에러 (0)	2017.07.27
[Spark] 스파크(spark)버전에 따른 SparkConf와 SparkSession 사용하기 (0)	2017.07.27

행복한디벨로퍼