반응형
데이터 엔지니어로 살아가기 212일째(리타겟팅 시스템)
리타겟팅 시스템에 대해 요즘 매력을 느끼고 있다.
어떻게 보면 참 단순한 프로세스이지만 그 단순한 프로세스로 부터나오는 효율은 단순하다고 말하기 힘들 것 같다. 내가 본 상품에 대한 데이터를 가지고 있다가 후에 내가 다른 사이트에 접근 했을 때 해당 광고를 내보낸다는게 참 쉬워보이지만 그 대상이 100만명 200만명이 되면 말이 달라진다.
그 이면에는 수많은 작업들이 돌아가고 있을 것이고 그 작업 혹은 시스템에 문제가 없는지에 대해 모니터링을 하기 위한 시스템들이 열심히 돌아가고 있을 것이다. 그 많은 작업들 위에서 데이터 엔지니어들은 작업들이 정상적으로 돌아가고 있는지, 예외적인 케이스로 인해 문제가 발생하지 않는지에 대해 경계하며 좀 더 효율적으로 작업들을 처리하기 위한 방안들을 모색하고 있다.
요즘 모색하고 있는 방안 중에 하나는 현재 리타겟팅을 위해 광고주별로 추천 상품을 뽑고, 상품들에 대한 비슷한 맥락의 추천상품을 뽑아내는 작업에 대한 부분이다. 이 부분이 현재 pyspark으로 작업이 돌고 있는데 pyspark은 javaspark에 비해서도 성능이 많이 떨어진다. 추후에 기회가 된다면 pyspark으로 작업되어 있는 부분들에 대한 개선 작업을 진행해보고 싶다는 것이다.
반응형
'Life > 개발자 칼럼' 카테고리의 다른 글
데이터 엔지니어로 살아가기 246일째(자바성능튜닝 교육을 듣고) (0) | 2017.11.01 |
---|---|
데이터 엔지니어로 살아가기 229일째(데이터야놀자 컨퍼런스 후기) (0) | 2017.10.15 |
데이터 엔지니어로 살아가기 198일째(실시간 타겟팅 모니터링 시스템, hadoop balancer) (0) | 2017.09.14 |
데이터 엔지니어로 살아가기 182일째(nginx ssl인증서 교체) (0) | 2017.08.30 |
데이터 엔지니어로 살아가기 163일째(kafka, camus) (0) | 2017.08.10 |