'데이터셋' 태그의 글 목록

데이터셋

[ Spark ] dataframe null값 0으로 변경이 잘안돼요???

2018. 9. 3. 14:57

Spark dataframe(스파크 데이터프레임)으로 작업 중 dataframe의 null값을 특정값으로 바꾸고 싶은 경우가 있다.

이 때 주의해야할 점은 dataframe의 컬럼의 자료형 타입에 맞게끔 변환해줘야 정상적으로 replace된다.

다음과 같은 데이터프레임(dataframe)이 있을 때 "bid_i"의 값을 0으로 변경하려고 다음을 실행

val result_df_q_new = result_df_q.na.fill(0, Seq("bid_i"))

위와 같은 명령을 수행하고 확인을 해도 정상적으로 null값이 0으로 변경되지 않은 걸 확인할 수 있었다.

원인은 bid_i의 자료형 타입에 맞지않게 변경하려했기 때문이다.

위에서 보듯이 "bid_i"의 자료형 타입은 string인데 0으로 변경(na.fill메서드를 하려고 하니 정상적으로 변환되지 않았던 것이다.

(처리 도중 딱히 에러메세지가 없었다...)

val result_df_q_new = result_df_q.na.fill("0", Seq("bid_i"))

0을 string형(큰따옴표)를 씌워서 명령어를 주니 정상적으로 변경되는 것을 확인할 수 있었다.

데이터프레임(dataframe) 값을 na.fill을 통해 변경할 때는 자료형타입을 잘 확인하도록 하자!

저작자표시 비영리

'Bigdata > Spark' 카테고리의 다른 글

[ Spark ] 스파크 지연 평가와 장애 내구성 및 메모리 관리 (0)	2018.11.20
[ Spark ] 스파크 jdk버전 바꿔서 실행하기 (0)	2018.10.18
[ Spark ] 스파크 Dataframe count중 scala.MatchError 발생 (0)	2018.04.19
[ Spark ] 스파크 데이터프레임(Dataframe) partitionBy를 사용해 입맛에 맛게 저장하기 (0)	2018.04.13
[ Spark ] JavaRDD로 saveAsTextFile했는데 데이터가 정상적으로 나오지 않는 경우 (0)	2018.01.10

[ Spark ] 스파크 데이터프레임(Dataframe) partitionBy를 사용해 입맛에 맛게 저장하기

2018. 4. 13. 15:18

스파크 데이터프레임(Dataframe) partitionBy를 사용해 원하는대로 손쉽게 저장하자!

스파크(Spark) 데이터프레임(Dataframe) 혹은 데이터셋(Dataset)을 통해 작업하게 되면

sql기반의 명령을 통해서 데이터를 손쉽게 활용할 수 있다는 점과 더불어 특정 컬럼 기반으로

데이터를 저장할 수가 있다.

잠깐 데이터프레임(Dataframe)과 데이터셋(Dataset)에 대해 언급하자면 데이터셋(Dataset)은 데이터프레임과 RDD의 단점들을

보완한 모델로 Spark 1.6이상 버전부터 사용할 수 있다.

이번에 데이터프레임(Dataframe)을 partitionBy를 통해 저장해보았는데 이런 기능이 있다라고만 알았지

막상 써보니 너무 편해서 정리하게 되었다.

다음과 같은 데이터프레임(Dataframe)이 있을 때

partitionBy를 이용하면 특정 컬럼을 기반으로 디렉토리를 나누어 저장할 수 있다.

예를들어 advid를 기준으로 데이터를 나누어 저장하고 싶을 떄

df.write.partitionBy("advid").save("/저장될경로")

라고 저장해주면 다음과 같이 파일들이 advid를 기준으로 저장되게 된다.

이 얼마나 간편한가!!!!

다들 partitionBy를 통해 데이터를 원하는대로 손쉽게 저장해서 사용하시길!!!

저작자표시 비영리

'Bigdata > Spark' 카테고리의 다른 글

[ Spark ] dataframe null값 0으로 변경이 잘안돼요??? (0)	2018.09.03
[ Spark ] 스파크 Dataframe count중 scala.MatchError 발생 (0)	2018.04.19
[ Spark ] JavaRDD로 saveAsTextFile했는데 데이터가 정상적으로 나오지 않는 경우 (0)	2018.01.10
[Spark] 스파크(Spark) Collect관련 OutOfMemoryError:Java heap space (0)	2017.11.02
[Spark] 스파크(Spark) 스트리밍 성능 개선 (0)	2017.11.01

PREV 1 NEXT

행복한디벨로퍼

* WEB developer

* Data engineer

* Server backend

> NHN 2014.07 ~ 2021.07

> TOSS 2021.08 ~

운동하는개발자

개발자 관련 모든 강연 관심있어요

ex) 동기부여, 개발 경험담 등

📩 kim3zz@naver.com

데이터셋

[ Spark ] dataframe null값 0으로 변경이 잘안돼요???

'Bigdata > Spark' 카테고리의 다른 글

[ Spark ] 스파크 데이터프레임(Dataframe) partitionBy를 사용해 입맛에 맛게 저장하기

'Bigdata > Spark' 카테고리의 다른 글

+ Recent posts

티스토리툴바