반응형
Collect연산?
Spark에서 Collect연산은 RDD의 모든 원소를 모아서 배열로 돌려줍니다.
반환 타입이 RDD가 아닌 배열이므로 이 연산은 액션에 속하는 연산입니다.
[ Collect연산을 사용하실 때 주의사항 ]
Collect 연산을 수행하면 RDD에 있는 모든 요소들이 collect 연산을 호출한 서버의 메모리에 수집되기 때문에
전체 데이터를 모두 담을 수 있을 정도의 충분한 메모리 공간이 확보되어 있는 상태에서만 사용해야 합니다.
그렇지 않을 경우에는 out of memory exception이 발생할 수 있습니다.
따라서 작은 크기으 데이터를 디버깅하거나 처리할 때 제한적으로 사용하시길 바랍니다.
반응형
'Bigdata > Spark' 카테고리의 다른 글
[Spark] spark직렬화 포맷 (0) | 2017.08.11 |
---|---|
[Spark] scala.reflect.api.JavaUniverse.runtimeMirror 에러 (0) | 2017.07.27 |
[Spark] 스파크(spark)버전에 따른 SparkConf와 SparkSession 사용하기 (0) | 2017.07.27 |
[Spark] 스파크(Spark) No TypeTag available for 에러 (0) | 2017.07.27 |
[Spark] Dateformat orc vs parquet 테스트 (3) | 2017.05.11 |