반응형

데이터 엔지니어로 살아가기 229일째(데이터야놀자 컨퍼런스 후기) 


오늘은 이틀전(20171013, 금요일)에 다녀온 '데이터야놀자' 컨퍼런스에 다녀온 후기에 대해서 작성하려고 한다.


먼저 '데이터야놀자' 컨퍼런스를 통해 크게 느낀점 네가지를 정리하자면 다음과 같다.

1. 나이와 관계없이 꿈이 있고 그 꿈을 향해 행동하고 있는 사람은 멋지다.

2.공부에는 끝이 없다. (요즘은 모든 분야, 직무에 해당되는 것 같다.)

3.'잘 모르겠다'라는 말도 누가 말했느냐에 따라 힘을 가질 수 있다.

4.나는 지금 내 꿈을 향해 잘 달려가고 있고 나도 충분히 연사가 될 수 있다.


하루 종일 30분 정도로 진행되는 11개의 세션들을 들으며 많은 생각이 들었지만 그 중 핵심적인 생각은 위의 4가지로 요약할 수 있을 것 같다.


먼저 '데이터야놀자'라는 컨퍼런스는 데이터를 다루는 사람들의 소통의 장을 마련하고 축제의 분위기를 만들고 싶어하는 것 같았다.


그에 따라 세션이후에는 공연도 준비가 되어있었고 다양한 종류의 간식거리 및 맥주를 무료 제공하였다.


내가 들은 11개의 세션 중 가장 기억에 남았던 3개의 세션에 대해서 얘기해보려고 한다.



먼저 첫 번째 세션은 라인게임즈의 '백정상'님이 발표했던 "쌓는다고 다 데이터인가? (로그 맛깔나게 쌓는 방법)" 이다.


세션의 주제를 잘 정해서인지 많은 수의 인원들이 해당 세션을 듣기 위해 자리를 빈틈없이 꽉꽉 채웠다.


역시 주제 선정이 중요성에 대해서 다시 한 번 느끼게 되었다.


해당 세션에서 그 동안 경험했던 타부서팀들과의 경험담을 유쾌하게 잘 설명해주셨고 무작정 쌓은 데이터들과 잘 선별해 쌓은 데이터의 차이를


쓰레기수거장과 분리수거통의 사진으로 비유해 설명해주신게 특히 맘에 와닿았다. 


한 마디로 요약하자면 '데이터를 쌓을 때 어떤 데이터를 어떻게 활용할 것인지에 대해 생각해보는 것이 중요하다'는 내용이 주를 이루었다.




인상깊었던 두 번째 세션은 카카오 선물하기 팀의 '전수현'님이 발표해준 "커머스 로그 통합 시스템"이였다.


여자 발표자 분이라서 그런지 발표하는 내내 상당히 부드러운 느낌을 많이 받았고 중간중간 떠는 모습, 거기에 대해 솔직하게 토로하시는 부분에 


해 굉장히 인간적인 면모를 많이 느꼈고 유쾌한 웃음과 솔직한 모습은 세션공간의 개발자들간의 경계를 많이 허물어 주셨다.


그리고 현재 내가 하고 있는 업무의 내용과 가장 비슷한 내용들이라서 더 집중하며 들었던 것 같다.


해당 세션에서 새롭게 알게 된 내용으로는 Apache Nifi가 있었는데 현재 우리 시스템에서 kafka to hdfs, monitoring을 담당해주는 새로운 대안


이 될 수 있을 것 같다는 생각이들었다. 



마지막 세번째 세션으로는 현재 구글에 계시는 조대협님의 '머신러닝 무엇이 중요한가?'라는 주제의 세션이였다.


솔직히 해당 세션에 대한 궁금증보다는 '조대협'님 자체가 너무 궁금했다. 개발을 하는 분이라면 한번쯤은 그의 블로그를 접해봤을거라는 생각이 


든다. 나 또한 하루에도 여러번 조대협 님의 블로그를 방문하고 글을 읽어 왔기 때문에 그 분의 말하는 방식 생각이 너무 궁금해 묻지도 따지지도 


고 해당 세션을 들었다. 블로그 글들만 봤을 때는 기술에만 관심있는 기술쟁이라는 생각이 들었지만 의외로 말씀도 굉장히 유쾌하게 하시고 


ppt구성이나 발표능력도 상당히 수준급이라는 느낌을 받았다. 그리고 항상 말에는 자신감이 있었고 질문을 하기 힘든 답변에는 시원하게 


'그건 해봐야 안다. 잘모르겠다'라는 말을 서스럼 없이 하는 모습에  신뢰감이 들었다...보통은 연사자가 저런 답을 하면 신뢰감이 떨어지기 


마련인데 그 동안 접해왔던 조대협님의 여러 기술을 주제로한 글들로 인해 '저 사람은 대단한 사람'이라는 생각이 이미 스며들었는지도 모른다.  


어찌되었든 조대협님 세션을 들으며 나도 그와 같이 추후에는 다른 기업에 '컨설팅'도 다니고 기술적인 부분에도 연사로 서있는 나의 모습을 


상상하게 되었다. 그러기 위해 꾸준히 학습하고 배우는 것들에 대한 블로깅, 끊임없이 배우려는 노력, 지속적인 목표 설정과 실천이 


가장 중요하다는 생각이 든다.


마지막으로 이번 '데이터야놀자' 컨퍼런스의 세션들을 들으며 기술적으로 학습해야겠다고 느낀 항목들을 적어본다.

1. Airflow

2. Elasticsearch, kibana(데이터 시각화 툴)

3. Apache Nifi

4. Google Api(Big query, vision api etc)


항상 이런 컨퍼런스들에 관심을 가지고 참여할 수 있도록 하자. 일상에 큰 활력을 불어넣어준 하루였다.


아! 그리고 마지막으로 '데이터야놀자' 세션을 들으며 스스로 다짐했던 내가 듣는 세션에 '질문 꼭 하나씩 하기' 목표를 실천해서 뿌듯하다:)



반응형
반응형

 

데이터 엔지니어로 살아가기 212일째(리타겟팅 시스템)

리타겟팅 시스템에 대해 요즘 매력을 느끼고 있다. 

어떻게 보면 단순한 프로세스이지만 단순한 프로세스로 부터나오는 효율은 단순하다고 말하기 힘들 같다내가 상품에 대한 데이터를 가지고 있다가 후에 내가 다른 사이트에 접근 했을 해당 광고를 내보낸다는게 쉬워보이지만  대상이 100만명 200만명이 되면 말이 달라진다. 

이면에는 수많은 작업들이 돌아가고 있을 것이고 작업 혹은 시스템에 문제가 없는지에 대해 모니터링을 하기 위한 시스템들이 열심히 돌아가고 있을 것이다.  많은 작업들 위에서 데이터 엔지니어들은 작업들이 정상적으로 돌아가고 있는지, 예외적인 케이스로 인해 문제가 발생하지 않는지에 대해 경계하며  효율적으로 작업들을 처리하기 위한 방안들을 모색하고 있다. 

요즘 모색하고 있는 방안 중에 하나는 현재 리타겟팅을 위해 광고주별로 추천 상품을 뽑고, 상품들에 대한 비슷한 맥락의 추천상품을 뽑아내는 작업에 대한 부분이다. 부분이 현재 pyspark으로 작업이 돌고 있는데 pyspark javaspark 비해서도 성능이 많이 떨어진다. 추후에 기회가 된다면 pyspark으로 작업되어 있는 부분들에 대한 개선 작업을 진행해보고 싶다는 것이다. 


반응형
반응형

[ 데이터 분석 정의 ]

데이터 분석은 데이터가 이해되고, 지식이 되고, 통찰을 얻게 되는 과정이다.

"Data analysis is the process which data becomes understanding, knowledge and insight"

-Hadley Wickham(해들리 위컴)-


R의 왕고수라고 불리운다...

Hadley Wickham, Chief Scientist at RStudio, and an Adjunct Professor of Statistics at the University of Auckland, Stanford University, and Rice University. 



반응형
반응형

책 제목을 보고 굉장히 끌렸다가 내용이 생각보다 괜찮아서 바로 사버린 책


좋았던 내용만 공유해볼게요:)


  • 무엇이든 자주 시도해서 작은 성공의 경험들을 쌓아라. 악기를 배우든, 자격증을 따른, 세상엔 도전할 것이 많다. 세상에는 투입한 시간만큼 정직하게 실력이 느는 일들이 많고, 단계를 밟아 올라설 때마다 나는 성공한 사람이 되는 것이다. 그런 과정을 통해서 얻은 '나도 할 수 있다'는 자신감은 긍정의 바탕이 된다.
  • 한 번에 하루씩을 살며 눈앞의 일에 충실한 태도는 평범한 사람도 대단한 일을 할 수 있게 해준다.
  • 건강한 자신감으로 차 있는 그는 얼마나 매력적인지 모른다. 건강한 자부심은 사람들을 자석처럼 끌어모을 것이고, 앞으로의 인생에서 많은 것을 성취할 수 있는 에너지원이 되어 줄 것이다.
  • 사실 우유부단함은 어린아이의 특징이다. 어린아이는 어느 한쪽을 포기함으로써 생기는 손해를 감내하거나 선택의 결과에 책임을 질 능력이 없어서 어떤 상황에 대해 뚜렷한 입장을 취하는 것을 몹시 어려워한다. 어른이 되고도 우유부단하다는 것은 유아기에서 벗어나지 못했다는 의미이며, 20대 이후에도 그런 태도를 고치지 못하면 자아상이나 인간관계, 남녀관계, 직업적 성취 등 모든 면에서 기본적인 수준에조차 이르기 어렵다.
  • 당신이 누군가의 조언으로 도움을 받는 것은 꼭 자신의 그릇만큼이다. 당신의 그릇을 넘어서는 조언은 아무리 좋은 것이어도 저절로 흘러 넘쳐 쓰레기처럼 버려질 뿐이다.
  • 목표를 이루기 위해 노력을 쏟아부어본 사람은 이후 삶을 대하는 시각이 달라지고, 이전보다 무엇이든 더 잘 이루어 낼 수 있는 사람이 된다. '전혀 안 될 것처럼 보였던 일'이 자신의 힘으로 이루어지는 경험은 인생에서 훨씬 더 넓은 선택의 자유를 주고, 어떤 일을 할까 말까 망설이며 고민하는 시간을 줄여주기 때문이다. 
  • 타인에게 하는 말은 할까 말까 할 때 하지 않는 편이 후회가 적고, 지금 어떤 행동을 할까 말까 하는 갈등을 겪고 있을 때에는 하는 편이 후회가 적다.
  • 공감이 주는 재미는 머리가 띵하도록 웃게 만드는 유머보다 힘이 세다.
  • 돈을 빌려주지 않아서 생긴 섭섭한 감정은 쉽게 잊히지만, 돈이 오가서 문제가 생긴 관계는 절대로 회복되지 않는다.


20대의 막바지에 읽으며 느낀점은 '나름 20대를 잘보냈구나'하는 생각이였다. 다시 돌아간다고 해도 군대에서 화장실에서 몰래 공부하던 그 때, 방학동안 하루 종일 도서관에 틀어박혀 책만 읽던 그 때, 교환학생에서 매일 영어로 일기를 썼었던 그 시절 그 열정만큼 뜨겁게 보내긴 힘들 것 같다는 생각이 들었다. 뒤돌아보았을 때 후회가 적다는 건 그만큼 열심히 살았다는 증거이다. 후에 지금을 돌아봤을 때도 후회가 남지 않도록 하루 하루 감사하며 매순간 최선을 다할 수 있도록 하자~!


반응형
반응형

데이터 엔지니어로 살아가기 198일째(실시간 타겟팅 모니터링 시스템)


기존에 실시간으로 스트림으로 처리되고 있는 관심사, 리타겟팅의 경우 실제로 데이터가 잘들어갔는지 확인 할 수 있는 방법이 없었다.


데이터저장소로 카산드라를 사용하고 있는데 카산드라에서는 mysql처럼 테이블의 데이터 count를 쿼리로 확인하기 힘들다.


따라서 실시간타겟팅들이 정상적으로 동작을 안하고 있는 경우에도 알아차리기 힘들다는 문제가 있었다.


매번 타 부서를 통해 '정상적으로 리타겟팅이 안되는 것 같다' 라는 요청이 오는 경우에 한해 확인해보고 있었고


심각한 경우 하루 이상 실시간 리타겟팅 데이터가 카산드라에 적재되지 않았던 적도 있었다...


이런 문제를 해결하고자 한 시간 단위로 실시간 타겟팅에서 사용하는 데이터를 hdfs에서 가져와 실제로 들어가있는지


샘플로 몇개만 추출해 확인하는 시스템을 만드는 작업을 하였다.


이번 작업을 하며 느낀점은 항상 어떤 시스템을 만들때 만들었다는 그 자체보다는 정상적으로 시스템이 돌아가고 있는지에 대한


모니터링이 잘 작동하고 문제 발생 시 이를 감지할 수 있는 장치가 마련되어있어야 한다는 것이다.


그렇지 않고서는 좋은 시스템이라고 절대 말할 수 없을 것 같다.


꾸준히 포스팅을 하고 싶은데 마음처럼 쉽지 않다. 아마 막상 쓰게 되면 잘써야한다는 심리적 부담감이 어느 정도 작용하는 듯도 하다.


앞으로는 간단하게라도 자주 내 발자취를 기록해 나가도록 해야겠다.


먼 후에 봤을 때 좋은 기억 추억이 될 수 있도록...


아 그리고 오늘 새롭게 안사실은 Hadoop Balancer말고 Disk Balancer가 따로 존재한다는 사실이다.


Hadoop Balancer는 데이터 노드들간의 블럭정도를 balancing해주는 역할을 하고 해당 데이터노드에서 디스크간 balancing을 해주는 역할은


별도의 disk balancer가 존재해 작업을 해준다는 것이다.


이 부분은 나중에 기회가 되면 포스팅을 하도록 하겠다.


반응형
반응형

데이터 엔지니어로 살아가기 182일째(nginx ssl인증서 교체) 


오늘의 주요 업무는 로그수집서버 (nginx 8대)들의 ssl 인증서 교체해주는 작업을 진행하였다.


로그수집서버 프로젝트를 로컬에 받아 인증서를 교체 후 알파에 먼저 테스트를 진행하였다.


예전 웹서버 개발할때 많이 하던 작업인데 오랜만에 하려니 가물가물하였다.


로컬에 알파 로그수집서버 ip와 호스트명을 박아놓고 확인하니 정상적으로 요청이 잘갔다.


보통 변경된 인증서의 정보가 잘못되거나 인증서의 비밀번호가 유효하지 않다면 nginx 재시작시 문제가 발생한다.


알파에서 테스트 완료후 리얼서버 8대 한대 한대 l4를 내리고 배포하는 작업을 진행하였다.


최근 custom targeting 작업을 진행하느라 정신없었는데 ssl인증서 작업이 끝나니 홀가분하다.


좀더 custom targeting작업에 집중할 수 있겠다:)

반응형
반응형

쓸데없이 자신을 비하하면서 스스로 발목을 묶지 마라. 그것처럼 어리석은 일이 없다.

노래하고 싶은 꾀꼬리가 공작의 미모에 주눅 들고, 수영하고 싶은 물개가 치타의 질주를 보고 수영을 포기한다면 그것처럼 불행한 일은 없다.

그러나 이 사회는 이런 비교로 당신을 곧잘 기죽인다.

그러므로 만약 당신이 할 수 있고, 하고 싶은 일이 있다면, 과감히 행하라!

크으 너무 멋진 말이다 남과의 비교에서 오는 좌절을 내가 하고 싶은 일을 못하는 핑계거리로 삼는 어리석음을 범하지 말자


사랑은 이성 그 이전의 것이다. 쉽게 말해서 사랑은 자기도 모르게 '빠져드는 것'이며, 그 존재를 알았을 땐 이미 그것에 '젖어 있는 것'이다.

따라서 '해서 안 될 사랑'이란 말은 맞지 않다. '이루어 질 수 없는 사랑'이라면 맞을지 모르지만 말이다.

그야말로 '이루어지지 않을 가능성' 에 대한 두려움이 거의 사라진 것이다.

이루어지지 않는다고 해서 그것이 '해서 안 될 사랑'은 아니니 말이다.

그 사랑은 그 자체로 이미 의미 있고 생산적인 것이다.


백설공주를 향한 말 못 하는 막내 난쟁이 반달이의 사랑은 당연히 결과적으로 그를 비극적 주인공으로 만든다. 그렇게 고통스럽고, 상처 많고, 희생뿐인 듯한 가장 작은 이의 사랑이 과연 '해선 안 될' 것이었을까. 조용하지만 실천하는 사랑이 그를 행복하게 했고, 세상을 변화시키는 실제적인 힘이 되었다.

이 사랑이란 말에 '꿈'을 대입해 보면 그 이해가 쉬울지 모르겠다. 세상에 흔하디흔한 말, 꿈과 사랑...

이 뜬구름 같은 것들의 본모습이 세상을 변화시키고 인간을 성숙하게 만드는 실제적인 힘이라 믿는다. 

해서 안 될 사랑은 없다.


- 머뭇거리지 말고 시작해 나를 움직인 한마디 중 -

반응형
반응형

실패하는 것이 두려운 것이 아니라, 노력하지 않는 것이 두렵다.


사람들은 자신이 하고 싶은 일을 할 수 없는 수천 가지 이유를 찾고 있는데, 정작 그들에게는 그 일을 할 수 있는 한가지 이유만 있으면 된다.


미련한 자는 자기의 경험을 통해서만 알려고 하고, 지혜로운 자는 남의 경험도 자기의 경험으로 여긴다.


 동등하지 않은 관계를 동등하게 만드는 것은 사랑밖에 없다.


 아무도 보지 않는다고 생각하고 춤을 추어라.

 누구에게도 상처받지 않는 것처럼 사랑하라.

 아무도 듣지 않는다고 생각하고 노래를 불러라.

 마치 지상이 천국인 것처럼 살아라.


 인생의 가장 큰 영광은 결코 넘어지지 않는데 있는 것이 아니라, 넘어질 때마다 일어서는데 있다.

반응형
반응형

마음에 와닿았던 글귀 몇개를 정리해본다.


정말 아들을 위한 따뜻한 아버지의 마음이 느껴진 책임과 동시에 어떻게 인생을 살아야 할지에 대해 생각해보게 했던 책이다.


지성 있는 인간은 서두르는 일은 있어도 허둥대는 일은 없다.


교양없는 인간으로 오인받을 정도로 무성의한 글씨를 쓰는 어리석음, 그런 품위 없는 짓을 해서 몇 초의

시간을  벌었다고 해도 그 시간은 아무 쓸모가 없다.


겁이 많고 자신이 없으면 상대가 남성이든 여성이든 자기 수준 이하의 상대와 사귀게 된다.

무엇을 하든지 본인이 '할 수 없다'고 생각하면 할 수 없다. '할 수 있다'고 자기 자신을 타이르면 어떻게든지 할 수 있게 되는 법이다. (크으)


사회에는 재능이 있어야 한다는 것이 첫째 조건이지만, 거기에 더하여 자기 생각을 확실하게 갖고, 그것을 남 앞에서 불필요하게 드러내지 않으며 확고한 의지와 불굴의 끈기가 있으면 무서울 것이 없다. 일부러 불가능에 도전할 필요는 없지만, 가능한 일이라면 갖가지 방법과 수단으로 도전하라. 그러면 길이 열리는 법이다. 한 가지 방법으로 안되면 다른 방법으로 시도하여 알맞은 방법을 찾아내면 좋다. 


아들아 시간을 낭비하기에는 인생이 너무 짧다 중 -


반응형

+ Recent posts