반응형
데이터 엔지니어로 살아가기 112일째(분산환경 로깅)
spark yarn-cluster에서 돌아가고 있는 실시간 작업들에 대한 로깅이 정상적으로 log4j파일의 위치에 남지 않아 한참을 헤맸다.
실제로는 분산환경에서는 작업 뿐만아니라 로깅또한 driver와 각 executor가 동작하는 데이터노느들에 분산되어 저장되게 된다.
yarn logs -applicationId (appilicationId) 를 통해서 확인을 할 수 있었지만 실제로 오랫동안 실시간으로 돌아가고 있는
시스템에 대한 로그들이 워낙 큰고 빠르게 쌓이기 때문에 확인하기가 어려웠다.
그리고 왜 실제로그는 실시간 어플리케이션이 실행될 때 한 번만 찍히고 이 후 동작하는 stream들에 대해서는
로그가 안남는것인지 원인을 찾지 못하였다.
아직 갈길이 험난하고도 먼 것 같다.
반응형
'Life > 개발자 칼럼' 카테고리의 다른 글
데이터 엔지니어로 살아가기 135일째(카산드라) (0) | 2017.07.14 |
---|---|
데이터 엔지니어로 살아가기 113일째(카산드라) (0) | 2017.06.22 |
데이터 엔지니어로 살아가기 105일째(프로젝트 셋팅) (0) | 2017.06.13 |
데이터 엔지니어로 살아가기 104일째(자바 스파크 프로젝트 셋팅) (0) | 2017.06.13 |
데이터 엔지니어로 살아가기 101일(장애공유, Spark Kafka Streaming) (0) | 2017.06.10 |