데이터 엔지니어로 살아가기 112일째(분산환경 로깅)

2017. 6. 21. 01:49

데이터 엔지니어로 살아가기 112일째(분산환경 로깅)

spark yarn-cluster에서 돌아가고 있는 실시간 작업들에 대한 로깅이 정상적으로 log4j파일의 위치에 남지 않아 한참을 헤맸다.

실제로는 분산환경에서는 작업 뿐만아니라 로깅또한 driver와 각 executor가 동작하는 데이터노느들에 분산되어 저장되게 된다.

yarn logs -applicationId (appilicationId) 를 통해서 확인을 할 수 있었지만 실제로 오랫동안 실시간으로 돌아가고 있는

시스템에 대한 로그들이 워낙 큰고 빠르게 쌓이기 때문에 확인하기가 어려웠다.

그리고 왜 실제로그는 실시간 어플리케이션이 실행될 때 한 번만 찍히고 이 후 동작하는 stream들에 대해서는

로그가 안남는것인지 원인을 찾지 못하였다.

아직 갈길이 험난하고도 먼 것 같다.

데이터 엔지니어로 살아가기 135일째(카산드라) (0)	2017.07.14
데이터 엔지니어로 살아가기 113일째(카산드라) (0)	2017.06.22
데이터 엔지니어로 살아가기 105일째(프로젝트 셋팅) (0)	2017.06.13
데이터 엔지니어로 살아가기 104일째(자바 스파크 프로젝트 셋팅) (0)	2017.06.13
데이터 엔지니어로 살아가기 101일(장애공유, Spark Kafka Streaming) (0)	2017.06.10

행복한디벨로퍼