빅데이터(Big Data)에 관한 이러저러한 생각들

제가 이번달에 이직을 하기도 했지만 솔직히 빅데이터와 관련한 글감도 이제 별로 없어서 게으름을 피우다보니 포스팅이 뜸했습니다. 오늘은 그냥 이것저것 생각나는데로 두서없이 써볼까 합니다.

최근에 빅데이터나 데이터분석과 관련한 여러 컨퍼런스들을 살펴보기도하고 참석해보면 그 어느때보다 참석자들이 많은 것이 정말 핫 하다는게 이런거구나 하는 생각이 듭니다. 어느새 재작년부터 그렇게 인기가 있던 클라우드 컴퓨팅 얘기는 아무도 하지 않는다는 사실을 깨달았습니다.

그러고보니 어느새  빅데이터와 관련한 책도 출간이 되기도 하고  빅데이터 전문가들이라는 분들이  나타나더니 다양한 동향보고서와  강의에 나와 발표하는  모습들을 보면서 아 이게 바로 우리나라의 IT가 발전하는 동력이 되기도 하고 용두사미가 되기도 하는 그런 문화? 기질? 이런게 느껴지기도 하더군요.

긍정적인 부분은 이러한 붐을 타고 데이터의 가치에 대해서 기업들이 관심을 더욱 가지게 되고 다양한 솔루션들이 등장하고 사업적 기회들이 마련될 수 있다는 것이겠죠? 이를 기반으로 관련한 기술들도 함께 연구 , 발전해 나가는 것일테지만 냉정하게 국내의 여건은 어떨까 하는 생각을 해보게 되었습니다.

일반적으로 빅데이터라고 관점에서 시장을 놓고 봤을때 생각할 수 있는 분야는 크게 하드웨어시장, 데이터베이스 또는 관련솔루션,  분석 및 통계도구 , 컨설팅 그리고 소프트웨어 개발을 위한 SI라고 볼 수 있습니다. 사실은 이 모든 것이 합해져야 하나의 빅데이터를 위한 데이터 플랫폼을 갖출 수 있을 테지만 이 다섯개 분야에서 가장 재미를 많이 볼 수 있는 분야는 어디일까요? (아! 한가지 분야가 더 있군요. 이러한 기술을 바탕으로 소셜데이터분석 및 웹데이터 분석을 통해서 트렌드 분석이나 긍부정 분석 서비스를 하고 있는 업체들이 국내에도 여럿 등장했습니다.)

언제나 그랬듯이 컨설팅에서 돈을 제일 많이 벌어갈까요? 그럴 수도 있겠죠. 하지만 빅데이터 플랫폼을 갖추고나 역량을 갖추기 위해서 도대체 어디서부터 시작을 해야 할 까요? 하드웨어를 일단 구입해서 인프라를 구축하고 데이터를 일단 수집해서 분석을 시작해본다? 향후 기업내에 공통적으로 활용할 수 있는 빅데이터 플랫폼을 구축을 먼저 추진? 하는 등등 여러 접근 방법이 있겠지만 단언컨데 대부분의 기업들은 어디에서 시작하든 빅데이터 프로젝트가 실패할 가능성이 매우 높습니다.

그전에 데이터웨어하우스와 같은 기존 데이터 분석과 요즘 말하고들 있는 빅데이터 기반의 고급분석(advanced anlytics)의 큰 차이가 무엇이라고 생각하십니까?

기존의 분석기법들은 의사결정을 빠르게 하기 위해서 효과적인 리포팅에 중점을 두었다면 고급분석은 예측(추천, 프로파일링) , 실시간, 컨텍스트 와 같은 분석을 할 수 있는 범위까지 확장된 것이라고 생각하면 될 것 같습니다.

이를 위해서는 과제 기획단계에서 목표가 매우 뚜렷해야 합니다. 단순히 데이터 플랫폼만을 확보하고자 한다면 아마도 데이터 사이언스가 아니라 데이터 엔지니어링 과제로 끝나버릴 수 있고 돈만 많이 쓰고 경영진이 원하는 돈되는 결과는 얻기가 매우 힘들기 때문이죠. 또한 이러한 과제 기획단계에서 목표로 하는 기법과 도구 그리고 운영환경을 고려해야 하기 때문에 공통으로 활용할 수 있는 최적화된 단일의 플랫폼을 확보하는 것이 매우 어렵고 냉정하게 말한다면 현실성이 없을 수도 있습니다.

물론 이러한 분석결과를 재빨리 돌려보고 결과를 파악할 수 있는 분석단계에서의 도구들은 일반화할 수 있을 것입니다만 실운영 수준에서의 결과와 성능을 얻기 위해서는 현장에서의 최적화와 실제 경험적인 부분이 매우 중요할 수밖에 없게 됩니다.

간혹 빅데이터에 대해서 이렇게 말씀하시는 분들도 있습니다. “우리 회사는 전부터 데이터분석을 해봤어. 수십테라바이트 규모의 데이터를 저장하고 처리를 해봤고 빅데이터 이거 갑자기 뜨는 유행같은 거야” 저 역시 이러한 얘기들에 동의하는 부분들이 있습니다만,

요즘 언급하고 있는 빅데이터는 적어도 단순히 대용량 데이터를 분석하고 데이터웨어하우스를 구축한다는 측면이 아니라 예를들어 서비스에 바로 적용할 수 있는 수준의 대용량 데이터 소비 패턴 분석을 통한 제품추천, 위치정보를 이용해서 실시간 추천이나 광고 노출, 수십수만개로 부터 전달되는 센서데이터를 이용해서 최적의 통신 경로나 전력선 최적화 개선을 하고 실시간으로 반영하고자 하는 등 보다 액티브한 수준에서의 분석결과와 성능을 요구하고 있는 것이죠.

자 다시 처음 얘기로 돌아가서 과연 국내에서 이러한 관점에서 빅데이터를 바라보고 서비스를 생각하고 기획하고 데이터의 가치를 끌어낼 수 있는 인력이나 환경이 갖추어져 있을까요?

잘 보면 회사내이든 회사밖이든 대부분 이 분야에서 일한 전문가라고 하는 분들은 데이터웨어 하우스나 , SAS , OLAP과 같은 도구에 익숙하고 관련 분석 분야에 잔뼈가 굵은 분들(소위 데이터 마이너라 불리는 분들)이 대부분입니다.

결국 실제 서비스라던가 특정 도메인에 대해서 이해하고 빅데이터 프로젝트를 끌고 갈 사람들은 많지 않은 실정입니다.  그렇기 때문에 더욱 조직내에 인재를 양성하는 것이 매우 중요합니다. 도메인을 이해하면서 업무를 추진할 수 있는 역량을 갖추는 것이 매우 중요한 것이죠.

제가 국내에서 추진하게 되는 여러 빅데이터관련 프로젝트들이 실패할 가능성이 많다고 말씀드리는 이유가 바로 이점입니다. 더불어 이러한 조직이 빅데이터 관련 과제를 추진하기 위해서 제대로 데이터들을 확보하고 있는지 , 이러한 데이터를 적절하게 수집하고 있는지를 살펴봐야 하겠죠. 데이터를 많이 가지고만 있다고 해서 과제가 성공한다고 보장할 수는 없겠지만 그나마 데이터 조차 없다면 참으로 빅데이터 과제를 추진하기가 쉽지 않을 것입니다.

결국 닭과 달걀이냐는 문제로 봉착할 수도 있게 됩니다. 따라서 너무나 당연한 얘기지만 시간을 가지고 단기, 중기 전략을 세워서 인력과 인프라등에 투자를 하고 역량을 내재화하는것이 무엇보다 중요합니다. 특히 기술적인 하드웨어와 인프라 부분은 아웃소싱이 가능하겠지만 분석역량과 기획영역까지 외부의 힘을 빌린다면 큰 효과를 보기 힘들 것으로 생각됩니다.

안타까지만 결국 이 와중에 돈버는 것은 하드웨어 업체와 분석툴과 데이터베이스 솔루션들을 갖추고 있는 외국계회사들이 돈을 벌 것이라는 생각은 별로 변함이 없습니다. 빅데이터 프로젝트라고 시작하지만 빅데이터 프로젝트가 아닌 프로젝트들이 여기저기 기업내에서 준비하고 있을지도 모른다는 생각을 해봅니다. 아마도 이러고들 있겠죠. 서둘러 빅데이터와 관련한 동향 분석과 과제준비를 하라고… 거기에다가 차별화까지 요구하는 경영진들의 요구에 IT실무자들은 미쳐 끝나지도 않은 클라우드 컴퓨팅 과제를 뒤로 한체 다시 한번 바쁜 한해가 될거라는 …

아무튼 몇몇 국내의 외국계 회사들(O사, I사, E사, S사 등)은 그 어느때 보다 좋은 기회인 것  같습니다. 국내에 관련 컨설턴트와 엔지니어가 없는 거 빼고는 다 갖추고 있기 때문에 누구보다도 유리합니다. 아마도 컨설턴트야 비싸게 외국분들 모셔오면 되고 엔지니어들이야 과제추진하면서 양성하면 될거라고들 생각하겠죠. 도입한 기업들은 답답하겠지만 …

이러한 고급 분석 분야를 제외하고는  이미 빅데이터(특히 하둡, NoSQL등과 같은 기술) 관련 기술을 활용해서 로그분석이나 대용량 데이터저장소를 오픈소스로 전환하는 프로젝트들은 많이들 하고 계신 것 같습니다. 다만 이러한 데이터를 이용해서 더욱 가치를 찾아내는 데이터 마이닝이라든가 예측 모델링등을 하고자하는 등의 고도화 작업을 하는데는 시간들이 더 필요하겠죠?

암튼 어느 분야든 제대로 할려면 너무 힘들지만 빅데이터 분야도 할려면 너무 어려워요. 당장은 슈퍼맨 같은 데이터과학자 몇명을 채용할 생각을 하는 것보다는(현실적으로 채용이 불가능하죠) 각각 전문 역량을 갖춘 인력으로 구성된 팀을 만들고 그러한 조직내에서 필요한  역량을 갖추도록 하는 게 더 현실적이라고 생각됩니다. 이것도 쉬운 일은 아닐테지만요.

[참고 자료]

1. 데이터 과학자들에 대한 얘기들을 많이 하시는데요. 링크드인의 데이터과학자로 있던 DJ Patil이 쓴 Building Data Science Team 이라는 책을 참고하세요. (킨들용 무료 책이니까 킨들 어플리케이션을 설치하시면 보실 수 있습니다. 웹브라우저용 킨들앱도 있으니 아마존 계정이 있으시면 편하게 보실 수 있습니다.)

제 생각에는 이 책 중에서 언급된 데이터 과학자의 역량중에 4가지 기술적인 전문성(Technical expertise) , 호기심(Curiosity) , 스토리텔링(Storytelling), 영리함(Cleverness) 중에서 스토리텔링이 정말 가지기 힘든 역량이라는 생각이 듭니다. 이게 아마 데이터 시각화분야에서 앞으로 주목받을지 모르는 데이터 아티스트(Data Artist) (응? 이건 또…) 라는 사람들이 갖추어야 할 역량이겠죠?

2. 겸사겸사 소위 데이터 아티스트라고 불리는 Jer Thorp 의 영상도 한번 시간내서 보세요. 데이터 시각화라는 분야가 앞으로 어떻게 발전해 나갈 것인지를 엿볼 수 있습니다.

이 글은 IT 카테고리에 분류되었고 , 태그가 있습니다. 고유주소 북마크.

댓글 남기기