[ shell script ] 하둡 디렉토리에서 최신 파일 가져오기 #get the latest hadoop file in directory

2019. 11. 29. 23:38

hadoop streaming, spark batch작업을 하다보면 보통 쉘스크립트로 해당 배치를 동작시키는 경우가 많다.

이 때 원하는 데이터가 없어 배치 작업이 정상적으로 동작하지 않는 경우가 있다.

보통은 해당 파일이 없으면 안돌아야하는게 맞지만 하루 하루 누적으로 쌓이는 데이터(어제, 그제 데이터와 별차이없는)가 없는 것 때문에

중요한 배치작업이 돌지 않아 문제가 발생할 수 있다.

그렇기 때문에 쉘스크립트로 원하는 데이터가 있는 디렉터리의 최신 파일을 가져오는 스크립트를 작성해보았다.

get_recent_file 메서드에 최신 데이터를 가져오고 싶은 direct의 path를 전달해주면 된다.

해당 method에 direcotry parameter를 넘겨주고 최신 파일 경로를 받아 recent_file_path에 저장한다.

옵션에 대한 설명이다.

hdfs dfs -ls -R ${DIR} : gives all dirs recursively
grep "^d" : gives only directories
sort -k6,7 : sorts them by modification time
tail -3 : gives listing for last 3 modified directory
tr -s ' ' : some formatting
cut -d' ' -f8 : gives only directory path
sort -r : result reverse sotring

쉘스크립트를 잘쓰면 프로그래밍삶이 좀 더 윤택해질 것 같다.

틈틈히 보고 유용한 스크립트를 작성해서 나만의 유틸 스크립트들을 만들어 나가면 좋을 것 같다.

저작자표시 비영리 (새창열림)

'Programming > Programming' 카테고리의 다른 글

브라우저(Browser)가 도메인에 해당하는 IP를 찾는 순서? (0)	2020.02.08
Mac에서 IntelliJ사용할 때 많이 쓰는 Ctrl+Shift+a이슈(bug)? 팁(TIP)! (0)	2020.02.07
[ Mac ] Mac os에서 디스크 용량이 부족하다면? (0)	2019.08.10
스레드덤프(thread dump)무료 분석해주는 사이트 (1)	2019.04.22
[ 클린코드 ] 깨끗한 테스트코드 5가지 규칙(FIRST), 테스트코드 잘짜기! (0)	2019.03.19

행복한디벨로퍼

* WEB developer

* Data engineer

* Server backend

> NHN 2014.07 ~ 2021.07

> TOSS 2021.08 ~

운동하는개발자

개발자 관련 모든 강연 관심있어요

ex) 동기부여, 개발 경험담 등

📩 kim3zz@naver.com

[ shell script ] 하둡 디렉토리에서 최신 파일 가져오기 #get the latest hadoop file in directory

'Programming > Programming' 카테고리의 다른 글

+ Recent posts

티스토리툴바