줌인터넷 빅데이터 활용사례

지난 달 오픈테크넷과 오늘 플랫폼데이 2012에서 발표한 자료를 제 블로그에도 공유합니다.

회사를 옮기고 나서 느끼고 또 배우고 시도했던 것들을 매우 상위레벨에서 초(!) 간단하게 정리해보았습니다. 느끼는 거지만 빅데이터라고 해서 거창하게 빅데이터 플랫폼을 고민하고 투자하고 이것저것 다 준비한 후에 시작하기보다는 일단 작게라도 데이터를 잘 모으는 방법에 대한 고민을 하고 필요한 데이터 흐름을 우선 파악하는 것이 매우 중요합니다. 그리고 이를 위해서 적당한 기술은 어떠한 것들이 있는지를 파악하고 의사결정하는 것이 중요하겠죠.

  • 전사적인 데이터 흐름을 파악하고 ,
  • flume-ng 을 사용하기로 했고 이를 기반으로
  • 로그데이터를 하나의 빅데이터 리파지토리(HDFS)에 쌓기 시작했습니다.
  • Raw data에 대한 ETL 처리는 pig 로
  • 데이터 분석은 Hive 을 중심으로 활용하고 있습니다. 물론 데이터 분석은 hive 뿐만 아니라 map-reduce 프로그램과 pig script을 이용해서 알고리즘이나 용도에 맞춰서 개발 ,적용을 하고 있습니다.
  • Hive ODBC을 이용해서 엑셀등에서 데이터를 가져와서 리포팅 처리를 할 수 있게 되었습니다.

간단하게 보이는 아키텍쳐도 하나하나를 적용하기 위해서 담당 엔지니어와 데이터 분석가의 숨은 노력(!) 이 있어야 하는 것은 당연하고 오픈소스라는 점 때문에 다양한 장애환경에 대한 고려가 반드시 필요합니다.

장애라는 것에 대해서는 솔직히 닥치기전까지는 쉽게 간과하기 마련인데 운 좋게도(?) 저희는 이러한 장애 상황을 미리 겪음으로써 하나하나 노우하우들이 쌓여가는 과정이라고 생각하시면 됩니다.

이 밖에도 검색서비스라는 것을 지탱하기 위해서는 매우 다양한 오픈소스에 대한 이해와 몸으로 부딪혀서 가지게 되는 노우하우들이 필요하고 특별한 요구사항에 맞추어서 자체 데이터 프로세싱 엔진 개발은 필수적인 것 같습니다.

오픈소스도 많아지고 그 구조들도 점점 복잡해짐에 따라서 무엇이 있는지도 파악하기 힘들고 이해하고 손에 익히기도 바쁜시기이기에 국내에서도 여러분들의 경험과 실패담의 공유가 많이 이루어지는 것이 매우 중요하다고 생각됩니다만 아직도 커뮤니티의 모습을 보면 늘 보이던 분들만 보이는 것 같습니다.

보이지 않는 곳에서 애쓰시는 많은 분들의 작지만 소중한 경험들이 더 많이 얘기되고  논의되는 자리가 더 많이 만들어지면 좋을 것 같다는 생각입니다.

Advertisements
이 글은 IT 카테고리에 분류되었습니다. 고유주소 북마크.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중