반응형

클라우데라 하둡 네임노드 변경 작업 (노후화된 서버 장비 교체) 문제로 발생한 이슈에 대해 간략히 남겨보려 한다.

먼저 하둡 네임노드(Hadoop Namenode)의 가장 큰 역할은 하둡 HDFS 파일과 관련된 메타데이터를 관리하는 핵심 역할을 한다. 네임노드가 문제가 생기면 하둡에 있는 파일을 읽지 못하는 크리티컬한 이슈가 발생할 수 있다. 

보통 하둡클러스터의 네임노드를 통해 클러스터간 distcp가 진행되기 때문에 외부 클러스터에서 변경하려는 네임노드를 바라보고 있는지 확인하는 작업이 필요하고 클라우데라 설치되지 않은 Spark(스파크)의 설정파일에서도 별도로 네임노드를 변경해주어야 한다.

보통은 클라우데라 하둡설정에서 네임노드 재지정하고 재시작하면 클러스터에 종속된 시스템들의 설정이 변경되서 올라간다.

오늘 포스팅을 남기는 이유는 클라우데라에 설치된 Hive는 네임노드가 변경되고 재시작 되더라도 스스로 신규 네임노드를 Location을 바라보지 않아 이슈가 생겼기 때문이다.(전혀 예상하지 못함...)

Hive의 external table들은 생성되며 기본적으로 관련 메타데이터가 클라우데라 메타데이터를 관리하는 PostgreSQL 데이터베이스에 저장되는데 이부분을 명시로 수정해주어야 한다. 

보통은 이렇게 수동으로 말고 hive의 metatool을 이용해 변경하는 방법도 있다고 하지만 운영하고 있는 클러스터에서는 먹히지 않았다.

Metatool을 통한 NameNode locatcion update 관련내용은 아래 링크 참고

https://cwiki.apache.org/confluence/display/Hive/Hive+MetaTool

반응형

+ Recent posts