반응형
스파크 작업을 하다보면 데이터 처리시 쿼리 기반의 spark sql, hive를 이용하기위해 orc로 데이터를 적재하는 경우가 많다.
이 때 spark-shell로 orc파일을 읽어들여 데이터를 보게되면 컬럼보다 데이터내용이 길게되면 잘려서 노출된다.
따라서 데이터 내용을 보고싶다면 dataframe형태의 데이터를 rdd로 만들어서 first나 rdd.take(n).foreach(println)식으로 보도록 하자
1. orc 파일 읽기
val data = sqlContext.read.format("orc").load("hdfs file directory") //spark1.5,6 version
2. 읽어들인 데이터(dataframe형태)를 rdd로 변경하기
val rdd = data.rdd
3. rdd로 변경한 데이터 보기
rdd.first
rdd.take(n).foreach(println) //n은 보고싶은 라인 개수
반응형
'Bigdata > Spark' 카테고리의 다른 글
[Spark] 스파크(Spark) 스트리밍 성능 개선 (0) | 2017.11.01 |
---|---|
[Spark] 하둡 MR보다 스파크(SPARK)를 사용할 때 장점 (0) | 2017.10.24 |
[Spark] spark직렬화 포맷 (0) | 2017.08.11 |
[Spark] scala.reflect.api.JavaUniverse.runtimeMirror 에러 (0) | 2017.07.27 |
[Spark] 스파크(spark)버전에 따른 SparkConf와 SparkSession 사용하기 (0) | 2017.07.27 |