[ Spark ] 스파크 특정 노드에서 기존에 발생하지 않던 이슈가 발생했다면?

2019. 3. 27. 12:09

스파크(Spark) 작업 중 평소에 잘돌던 잡이 갑자기

특정 노드에서의 문제로 작업이 중단됬거나 제대로 돌지 않았을 경우는 해당 노드의 디스크폴트(disk fault)를 의심해보아야 한다.

최근 잡이 실패해 해당 잡의 로그를 보았더니 다음과 같은 에러가 찍혔다.

Exception in thread "main" org.apache.spark.SparkException: Job aborted due to stage failure: Task 8 in stage 1.0 failed 4 times, most recent failure: Lost task 8.3 in stage 1.0 (TID 374, datanode-10.svr.maker.net):

com.esotericsoftware.kryo.KryoException: java.io.IOException: Stream is corrupted

at com.esotericsoftware.kryo.io.Input.fill(Input.java:142)

at com.esotericsoftware.kryo.io.Input.require(Input.java:155)

at com.esotericsoftware.kryo.io.Input.readInt(Input.java:337)

at com.esotericsoftware.kryo.util.DefaultClassResolver.readClass(DefaultClassResolver.java:109)

at com.esotericsoftware.kryo.Kryo.readClass(Kryo.java:610)

at com.esotericsoftware.kryo.Kryo.readClassAndObject(Kryo.java:721)

at org.apache.spark.serializer.KryoDeserializationStream.readObject(KryoSerializer.scala:192)

at org.apache.spark.serializer.DeserializationStream.readKey(Serializer.scala:169)

at org.apache.spark.serializer.DeserializationStream$$anon$2.getNext(Serializer.scala:201)

at org.apache.spark.serializer.DeserializationStream$$anon$2.getNext(Serializer.scala:198)

at org.apache.spark.util.NextIterator.hasNext(NextIterator.scala:71)

at scala.collection.Iterator$$anon$13.hasNext(Iterator.scala:371)

at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:327)

at org.apache.spark.util.CompletionIterator.hasNext(CompletionIterator.scala:32)

at org.apache.spark.InterruptibleIterator.hasNext(InterruptibleIterator.scala:39)

at scala.collection.Iterator$$anon$13.hasNext(Iterator.scala:371)

at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:327)

at scala.collection.Iterator$$anon$13.hasNext(Iterator.scala:371)

at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:327)

at org.apache.spark.util.collection.ExternalSorter.insertAll(ExternalSorter.scala:209)

at org.apache.spark.shuffle.sort.SortShuffleWriter.write(SortShuffleWriter.scala:73)

at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:73)

at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:41)

at org.apache.spark.scheduler.Task.run(Task.scala:88)

at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:214)

at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)

at java.lang.Thread.run(Thread.java:748)

Caused by: java.io.IOException: Stream is corrupted

at net.jpountz.lz4.LZ4BlockInputStream.refill(LZ4BlockInputStream.java:153)

at net.jpountz.lz4.LZ4BlockInputStream.read(LZ4BlockInputStream.java:117)

at com.esotericsoftware.kryo.io.Input.fill(Input.java:140)

... 27 more

데이터노드에서 com.esotericsoftware.kryo.KryoException: java.io.IOException: Stream is corrupted exception이 발생하며

잡이 정상적으로 돌지 않았다. 그래서 해당 서버를 모니터링 하는 사이트에 들어가서 확인해봤더니 딱히 별다른 이슈가 없었지만 이전에도

상태는 정상이나 disk fault로 비슷한 상황이 발생한 적이 있었기에 시스템팀에 문의해보았더니 역시나 디스크폴트(disk fault)문제였다.

정확히는 하드웨어 폴트는 확인 되지 않고 OS에서만 컨트롤러 및 디스크 장애가 있다고 전달받았다.

따라서 평소에 잘 돌던 작업이 특정노드를 원인으로 돌지않았다면 장비를 의심해보시길!!!

저작자표시 비영리 (새창열림)

'Bigdata > Spark' 카테고리의 다른 글

[ Spark ] sort와 order by 차이점??? (0)	2019.07.16
[ Spark ] 스파크 작업 중 만난 "no space left on device" 에러 (0)	2019.06.12
[ Spark ] 리눅스 서버에서 스파크(SPARK)버전 확인하기 (0)	2019.03.13
[ Spark ] 스파크 넓은 종속성(narrow dependency) vs 좁은 종속성(wide dependency) (0)	2018.12.03
[ Spark ] 스파크 설정 Part.2 (0)	2018.11.28

행복한디벨로퍼

* WEB developer

* Data engineer

* Server backend

> NHN 2014.07 ~ 2021.07

> TOSS 2021.08 ~

운동하는개발자

개발자 관련 모든 강연 관심있어요

ex) 동기부여, 개발 경험담 등

📩 kim3zz@naver.com

[ Spark ] 스파크 특정 노드에서 기존에 발생하지 않던 이슈가 발생했다면?

'Bigdata > Spark' 카테고리의 다른 글

+ Recent posts

티스토리툴바