그래도 빅데이터는 있다

여전히 빅데이터에 대해서 말들은 많고 저 역시 블로그를 통해서 어떻게 방향을 잡아서 가야 할 것인가에 대해서 반복해서 얘기했었습니다만,  앞선 포스팅이 다소 부정적인 견해가 많은 듯해서 약간(?) 긍정적인 사고를 가지고 빅데이터를 기업내에 도입하기 위해서 어떻게 해야할 지 뻔한 얘기를 한번 써볼까 합니다.

회사를 옮기고 나서 제가 하는 업무라는 것도 빅데이터와 관련된 기술과 밀접한 과제들을 추진하고 있기는 하지만 그렇다고 컨설팅 업체나 시장조사업체, 솔루션 업체들이 말하고 있는 것처럼 획기적으로 변화를 이끌어내거나 결과를 만들어내는 것은 그렇게 쉬운 일은 아닌 것 같습니다. 담당자들은 데이터에 치여 힘들어하고 외부에서 만난 분들은 빅데이터 시장에 대해서 부정적인 견해들도 늘어나고 있는 것 같기도 하고 말이죠. 머지 않아 이 거품이나 관심도 서서히 식겠죠.

최근 같이 일하는 분들이 컨퍼런스에 다녀와서 하는 얘기를 들어보면 업체들의 솔루션 홍보 중심으로 흘러간다는 느낌을 지울 수 없습니다. 재작년부터 클라우드 컴퓨팅이라는 것으로 떠들석 했던 것과 비슷하게 빅데이터라는 이름을 컨퍼런스에 붙여서 사람들을 끌어모으고 홍보하는 측면이 많이 느껴진다고 할까요. 물론 이러한 기술적 트렌드와 유행이 산업을 이끌고 창발적인 비지니스를 만들어내고 기업들이 새로운 가치를 찾을 수 있도록 하는 긍정적인 측면은 부인할 수 없습니다만 정말 올바르게 가고 있는지 생각해볼필요가 있을 것 같습니다.

저 역시 작년 말부터 블로그를 통해서 빅데이터라고 하는 분야와 관련된 기술들에 대해서 블로그에 포스팅을 하면서 이와 관련된 분들하고 얘길 할 수 있는 기회가 몇번 있었습니다. 하지만 분명히 국내에서 회자되는 빅데이터는 어느새 데이터 웨어하우스 업체, 분석솔루션 업체들 중심으로 얘기되고 주도되는 면이 다소 있습니다.

어느 분들은 그러시더군요. 빅데이터 덕에 돈을 보는 회사는 오라클과 같은 회사라구요.  참고로 오라클은 Cloudera 와 협력을 해서 솔루션을 공급하고 있지요. 하지만 국내에서 오라클의 빅데이터 솔루션을 도입한 회사가 있을까 또는 앞으로 생길까 하는 생각이 들기도 합니다.  이보다는 오라클의 대용량 데이터베이스 솔루션을  하드웨어와 더불어 많이 판매했을 것입니다. 더불어 빅데이터와 관련해서 요즘 주목 받는 회사중 하나는 데이터웨어하우스 솔루션  업체인 테라데이터 입니다. 일반적으로 빅데이터라고 하면 하둡이라고 하는 대용량 분산 데이터 스토리지와 맵리듀스라고 하는 병렬프로세싱 프레임워크에 대해서 많이들 얘기하는데 정작 테라데이터는 애스터데이터라고 하는 하둡은 아니지만 자체적으로 개발한 SQL+맵리듀스 프레임워크을 가진 회사를 합병해서 빅데이터 솔루션을 통합 제공을 하고 있습니다. 저는 아직 국내 기업들이 관심을 가지고 있지만 이러한 업체들의 빅데이터 솔루션을 도입하기에는 망설일 수밖에 없다고 생각됩니다. 잘 아시겠지만 전보다 가격이 많이 싸졌다고 하지만 상대적인 것이지 일반 기업에서 바로 도입해서 활용하기에는 솔루션 비용이 매우 비쌉니다. 빅데이터 기술을 사용하면 비용이 절감된다고들 하는데 체감할 수준의 솔루션 비용이 아니라는 것이죠.

결국 빅데이터라고 하는 것이 왜 관심을 가지게 되었는지 생각해보면 하둡이라고 하는 프레임워크의 도입 여부와 밀접한 관계가 있습니다. 다시 말하자면 하둡을 제외하고 빅데이터에 대한 얘기를 하는 솔루션 업체의 설명을 듣다보면 좀 시장상황을 왜곡하고 있다는 생각이 들기도 합니다. 다시 말하면 최근 국내의 솔루션 업체들은 기업향이라는 명목하에 빅데이터를 처리하기 위한 하나의 컴포넌트로써 하둡을 얘기하지만 제 생각은 좀 틀립니다.

기존에는 저장할 수 없는 규모의 데이터를 정말 매우 낮은 가격으로 저장하고 분석할 수 있는 비용 역시 크게 낮출 수 있게 된 것이 바로 이 하둡을 중심으로 구축된 여러 오픈소스들 때문입니다. 더욱이 하둡은 아마존 퍼블릭 클라우드 서비스에서 제공됨으로써 (Elastic MR)  대용량 데이터 처리비용을 획기적으로 낮추고 있습니다. 뉴욕타임즈가 아마존 클라우드 서비스와 하둡을 이용해서 예전의 기사자료를 전자문서로 변환하는 비용을 획기적으로 줄였다든가, 100불 이내로 게놈분석을 할 수 있게 된 사례들이 바로 것들이죠.

이러한 측면이 강조되어야 함에도  국내에서는 빅데이터 시장에 대하 주도가 솔루션업체 중심으로 되면서  여러가지로 왜곡되고 있다고 생각됩니다.

여기서부터 오늘 제가 드리고 싶은 말인데요.

무엇보다 명심해야 할 점은 기업내 빅데이터의 적용은 결코 컨설팅이나 솔루션 벤더 중심으로 끌고 가서는 안된다는 점입니다. 초기에 이들의 도움을 받고 인프라를 구축하고 과제를 추진할 수는 있겠지만 근본적으로 조직내에 기술적 내재화를 갖추어야 한다는 점이 매우 중요합니다. 기존의 SI와 같이 이러한 빅데이터 인프라와 추진을 외주 업체 에만 의존해서는 결코 자신들이 가지고 있는 기업내의 데이터로부터 충분한 가치를 끌어내는데 한계가 생기게 마련입니다. (국내 포털회사, 웹서비스 회사, 게임회사들이 자체적으로 하둡이나 NoSQL 개발 인력과 데이터마이너를 확보하고 있다는 점을 다시 한번 생각해보세요.)

대용량 데이터를 처리할 수 있는 인프라와 프로세싱 프레임워크는 하둡을 이용해서 기존의 솔루션 벤더들이 제공하는 가격에 비해 훨씬 저렴하게 구축할 수가 있습니다. 이를 위해서 관련된 기술적 이해와 역량을 내부에 가져가는 것이 매우 중요합니다. 적어도 내부에서 기본적인 아키텍쳐와 추진 방향을 세운 이후  하드웨어 벤더나 솔루션 벤더를 통해서 빅데이터 인프라를 갖추어야 합니다. 물론 컨설턴트의 도움을 받을 수도 있겠지만 이 분야의 전문가라고 하는 분들이 있을 거라고 저는 믿지 않습니다. 문제는 처음 부터 솔루션 벤더에게 의존하게 되면 솔루션에 락-인 되는 것은 물론이고 하둡이 약속하는 저비용의 데이터 프로세싱 인프라와 프레임워크를 확보하지 못하게 될 것입니다. 물론 솔루션업체는 치열하게 이 시장을 키워서 자신들의 영역을 넓힐려고 하겠죠

이와 더불어 데이터에 대한 오너쉽과 분석을 통한 가치를 끌어내는 역할 역시 외부에 의존하게 된다면 원하는 성과를 얻어내지 못할 가능성이 큽니다. 어느 기사를 보니 빅데이터 프로젝트의 80%는 실패한다고 하잖아요. 물론 필요한 경우 전문가나 컨설턴트의 협력이나 지원은 당연히 받아야 하겠지만 외주 주듯이 과제중심으로 , 결과 지향적으로 빅데이터 과제를 끌어간다면 100% 실패하거나 1회성으로 끝나버리거나 계속 외부 컨설팅, 솔루션 업체에 의존할 수 밖에 없을 것입니다.

너무나 당연한 얘기를 하고 있다고 생각하시나요?

아마도 국내의 소프트웨어 프로젝트나 컨설팅 프로젝트가 어떻게 돌아가는지를 아시는 분이라면 제 말에 100% 반박하지 못할 거라고 생각합니다. 특히 서둘러 빅데이터라는 이름하에 과제를 추진해야하는 입장에 있는 기업내의 기획자나 담당자들은 어떻게든 성과중심으로 끌어갈려고 할 수도 있기 때문에 겉으로는 과제가 완료된 것처럼 보여도 결국 실패하는 과제가 될 가능성이 높습니다.

처음엔 저 역시 좀 부정적이긴 했지만 저는 국내 기업내에서 활용하고 가치를 찾아낼 수 있는 소위 빅데이터라는 것이 있다고 생각합니다. 그 데이터의 사이즈가 테라바이트냐 페타바이트냐가 중요한 것이 아니라 앞으로 기업내의 데이터 거버넌스라는 측면에서 점점 중요하게 될 것입니다. 정부도 마찬가지겠죠. 당연히 커버해야 하는 데이터의 범주가 넓어지게 되고 가치가 있을지 없을지도 모르는 데이터를 일단 저장해야 하는 상황이 생길 수도 있고 이를 위해서 통합할 것인지 아니면 분야별로 나누어 관리하고 연계할 것인지 판단해야 하고  더불어서 어떻게 결정하기도 힘든 상황도 생길것입니다. 그럼에도 빅데이터라는 트렌드에 맞추어서 많은 기업들이 데이터 주도의 사업과 경영(Data Driven Business)에  많은 관심을 가지게 된 것이 사실이고 앞으로 이러한 관점이 녹아들어가서 많은 IT 시스템이나 의사결정을 하는데 많은 변화가 올 것이라고 생각됩니다.  그리고 최근 컨퍼런스들이 벤더 중심으로 얘길하다보니 잊기 쉬운데 이러한 빅데이터 기술들은 과학분야나 공공분야에서 더욱 그 효과가 클 것이라고 생각됩니다.

다시 설명드리자면 빅데이터라는 것이 이렇게 흩어져 있는 데이터를 통합함으로써 새로운 가치를 찾아내야 한다고 말들은 하지만 현실은 녹녹치 않습니다. 제가 전에 포스팅한 글에도 종종 말씀드렸지만 레거시 시스템을 절대로 무시할 수 없습니다. 문제는 빅데이터에서 말하는 데이터의 새로운 가치는 새로이 만들 IT시스템이나 서비스에서 나오기 보다는 기존의 레거시 시스템에서 가치가 없다도 생각하고 버려왔던 데이터로부터 시작해야 할지도 모릅니다. 이를 위해서 데이터를 수집하는 체계와 로직을 새로이 잡아야 할것입니다. 문제는 바로 이러한 것들이 잘 돌아가는 레거시 시스템을 건드릴 수 밖에 없게 되고 시스템 담당자들 마음은 불안하기 마련입니다. 그렇다고 명확하게 기업의 사업이나 경영에 큰 도움을 주는 가치가 무엇이라고 처음부터 딱 꼬집어 얘기하기도  쉽지 않다는 점입니다.  즉 닭이 먼저냐 달걀이 먼저냐 하는 ROI 문제로 넘어가기 때문입니다.

다시 말하지만 저는 처음 빅데이터라고 하는 프로젝트를 추진하거나 체계를 갖추고 하는 분들이 있다면 절대로 처음부터 벤더의 솔루션에 의존해서는 안된다고 생각합니다. 기존의 레거시 시스템으로부터 데이터를 수집하는 체계에 대해서 조심스럽게 설계하고 준비해서 하둡과 같은 오프소스와 저가의 서버와 네트워크 장비로 구축한 인프라에 데이터를 저장하는 일부터 작게(?) 시작을 해야 하는 것이 맞습니다. 이렇게 모아진 데이터를 분석하고 평가하고 어떠한 가치를 만들어 낼 수 있는가를 다음 단계에서 고민하고 준비를 하는 것이 초기 투자 비용을 줄이면서 단계적으로 빅데이터 체계를 기업내에 구축할 수 있는 합리적인 방안이라고 생각됩니다.

아마도 올해 하반기가 되면 빅데이터에 대한 거품도 조금씩 사라질 것이고 사람들의 관심도 서서히 줄어들겠죠. 하지만 저는 국내에서도 분명히 빅데이터라고 하는 기술이 활용될 수 있는 영역이 매우 많고 이를 위해서 적극적으로 준비하고 기술역량을 쌓아야 한다고 봅니다. 그러지 않고 넋놓고 한순간의 유행처럼 이를 받아들인다면 2-3년내에,  빠르면 내년쯤에 해외의 여러 성공사례 소식을 듣게 될 것이고 이를 본격적으로 적용해보기 위해서 컨설팅업체나 솔루션 업체들에 더 비싼 값을 주어야 할지도 모르기 때문입니다.

네.. 현실적으로 이렇게 될 가능성이 매우 높겠죠. 누가 리스크를 다 껴앉고 할려고 하겠습니까? 자기 돈 절약하는 것도 아닌데 말이죠. 그래도 좀 알고 이러한 것을 도입할 수 있으면 좋겠습니다

한번 생각들 해보세요. 최근 아마존 코리아가 설립이 되었는데 1-2년 전부터 준비한 국내의 클라우드 업체들은 진정 경쟁력을 갖추었는가? 잘은 몰라도 국내의 클라우드 서비스들 면면히 살펴본다면 자체 기술보다는 해외의 솔루션에 많이 의존하고 있겠지만 그나마 준비를 하지 않았다면  그 종속성은 더욱 커졌을 것입니다.

덧붙여 국내의 작지만 실력있는 몇몇 회사에서 빅데이터 솔루션 개발이나 사업을 하시는 분들이 이러한 시류를 타고 잘 되었으면 하는데  빅데이터 덕분에 오라클만  돈을 벌었다는 얘길 들으면 썩 기분이 좋지는 않습니다. 알만한 분들은 다 아는 얘기지만 빅데이터 솔루션을 제공한다는 해외 솔루션 업체에 정작 하둡 엔지니어가 거의 없다고 알려져 있는 상황이니만큼  몇 안되는 국내의 빅데이터 솔루션 회사들에게도 관심을 가져 준다면 좋을 것 같습니다.

Advertisements
이 글은 IT 카테고리에 분류되었고 , 태그가 있습니다. 고유주소 북마크.

그래도 빅데이터는 있다에 1개의 응답

  1. hyosuk댓글:

    빅데이터와 관련없는 일반 회사 IT직원이지만, 정말 공감하는 내용입니다.
    외부 컨설팅 사람이 남의 회사에 존재하는 데이터를 찾아낸다는건 쉽지 않다고 생각합니다.
    기술의 내재화가 된 회사 임직원이야 말로 빅데이터를 수집하고, 찾고 그 데이터 안에서 진정한 가치를 끌어낼 수 있다고 생각합니다.

  2. calmglow댓글:

    국내에 bigdata를 위해 하단의 인프라부터 분석 엔진과 비즈니스 도구까지 아우르는 투자를 통해서 벤더의 도움은 최소화하고 자체 인력 위주로 막대한 인력과 기간을 들여 할만한 업체가 몇이나 있을까요? 게다가 그 모든 레이어의 것들이 확실한 전문가도 없는 상태고 오픈소스들도 검증이 되었다고 보기도 힘들고… 그렇다고 그 모든 과정 끝에 확실한 Business Insight가 기다리고 있다는 보장도 힘들다면…
    많은 업체들이 Big Data를 고려하면서 벤더에 기대는 이유가 아마도 그런 것들이 아닌가 싶습니다. Big Data의 열기는 뜨거운데 확신을 가지기가 매우 애매한 상황.

    사실 솔직히, 기존에는 데이터가 없어서 insight를 만들 수 없었을까요? 사실 이미 있는 데이터 가지고도 열정과 관심만 있다면 엑셀만 가지고도 다양한 분석이 가능합니다. 근데 잘 안하죠. 여러가지 이유때문에요. 이런 분석으로 얻게되는 가치보다 오히려 다른 방식으로 마케팅을 하는 것이 훨씬 효과적인 경우가 현실세계에는 많기 때문이기도 하고… 때로는 위에서 언급하신 인프라 개선 비용때문이기도 하고..정치적인 이유 때문이기도 하고요.

    • kimws댓글:

      calmglow 님의 말에 충분히 공감을 합니다. 아마 많은 기업들이 말씀하신 이유때문에 빅데이터 이전에 데이터에 대한 분석이나 가치에 대해서 많이들 회의를 가지고 도입하거나 적용하는데 주저하게 될 것입니다. 그래서 글 말미에서도 적었지만 주로 해외의 좋은 성공사례들이 나오게 되면 그제서야 투자를 서두르고 인프라를 구축하고 성과를 가져갈려고 할 것입니다.

      10여년전 리눅스에 대해서도 비슷한 분위기가 있었죠. 이게 정말 괜찮은 것인가에 대해서, 누가 신뢰성을 보장할 것인지, 충분한 관리도구들이 있는지 하지만 지금은 많은 기업과 현장에서 리눅스 서버의 활용은 기정화 되어 있습니다.

      마찬가지로 빅데이터와 관련된 여러 기술들, 하둡, HBase, Hive 뿐 아니라 몽고DB NoSQL 와 같은 기술들은 국내 여러기업에서 활용하고 성과를 내고 있습니다. 문제는 이러한 인식의 벽과 기술 내재화를 하고자 하는 투자가 미흡하다는 것이죠. 몇년간 이쪽 일을 해온 제 경험으로 비추어 보건데 인프라와 프레임워크 관점에서의 도입에 있어 진입장벽은 점점 낮아지고 있습니다.

      이제는 이 분야에 어느 정도 관심이 있고 여력이 있는 기업이라면 ROI를 따지기 보다는 일단 도입하고 적용하는 것이 필요하다는 게 제 견해입니다. 쉬운 것부터 말이죠.

  3. 핑백: 빅데이터에 대한 개인 생각 « hyosuk

  4. 핑백: 사기꾼 SOA를 위한 변명 그리고 빅데이터 | Tech It!

  5. 지나가다...댓글:

    Big Data는 적어도 특정 거대 IT 기업에 종속되는 기술 셋을 기반으로 하지 않습니다. 의지와 열정만 있으면 그 자체만으로 오픈소스를 기반으로 시작할 수 있습니다. 하지만 오픈소스이다 보니 문서, 메뉴얼 등이 친절하지 않고 잠재된 문제들이 있으니 전문기업을 찾게 되는 것이고요. 주로 Hadoop을 기반으로 시작할텐데, 꼭 apache hadoop 만을 고집할 필요도 없습니다. Cloudera의 CDH나 MapR의 M3과 같이 공개되어 있는 패키지들이 있으니까요. 대용량 데이터라는 전재 하에, 적어도 데이터의 저장 비용 절감과 연산(주로 집계 등)시간의 단축이 보장되는 효과는 확실히 있습니다. 여기서 더 나아서서 통계적 분석기법을 얼마나 적절하고 효율적으로 적용, 분석하고 나온 결과를 직관적으로 잘 표현할 수 있는가가 진짜 Insight를 발굴해 낼 수 있는가는 결정합니다. EA나 SOA는 실체가 불분명하거나 특정 솔루션에 종속적이고 무겁고 느린 탓에 사기란 ㄴ소릴 들었고 실제 그런 부분이 있었지만, 적어도 Big Data는 Google이나 Twitter, Facebook 과 같은 확실히 검증된 결과가 있는 기술 트랜드입니다. 그리고 또 모릅니다. SOA가 분산 병렬처리 기술을 업고 SOA2.0이란 이름으로 다시 귀환할지도…

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중