반응형

가끔 사이즈 문제인지 binary형태로 저장된 데이터들을 본다,,.,,,,

이걸 읽으려면 파일을 읽기전에 다음과 같이 conf를 설정해준다.

sqlContext.setConf("spark.sql.parquet.binaryAsString","true")

 

그 이후 sqlContext.read.format("parquet").load("hdfs://path")로 읽어주면 된다.

 

spark 2.0대 이후 버전에서는 다음과 같이 입력해주자.

spark.conf.set("spark.sql.parquet.binaryAsString","true")

 

반응형

+ Recent posts