빅데이터(Big Data)의 불편한 진실

빅데이터와 관련한 포스팅은 그만 쓴다고 하고서는 또 빅데이터에 대한 글을 쓰게 되었습니다.

게다가 제목마저 개그 프로의 제목처럼 “불편한 진실” 이라니.

네 맞습니다. 빅데이터에 대해서 혹시나 너무 많은 기대를 하고 있거나 혹여나 이와 관련하여 과제나 지시를 받고 당장 무언가를 해야만 하는 분들에게 드리는 제 “개인적” 견해에 대한 글을 쓰고자 합니다. 특히 최근 국내에서 여기저기 빅데이터라는 말이 나오면서 이건 아닌데 하는 생각도 들고 더 정확히는 현실은 좀 똑바로 봐야 하지 않을까 하는 생각에서 제 나름의 견해를 쓰고자 합니다. 사실 제가 작년 12월에 쓴 “누구나 다 아는 대용량 데이터 분석 기술” 라는 포스팅에서도 어느정도 언급을 했고 지난번 포스팅인 빅데이터에 필요한 역량에 대한 글을 보시면 아시겠지만 소위 빅데이터라고 하는 것을 한다는게 그렇게 쉬운 것이 아닙니다. 더욱이 아무데나 빅데이터라는 말을 붙이는 것도 아니라고 생각됩니다.

그런데 작년 가을부터 시작해서 여러 기술 컨퍼런스, 벤더들의 기술 세미나에서는 “빅데이터” 라는 말이 쉽게 인용되고 회자되는 것 같습니다.  한동안 클라우드 컴퓨팅이라는 말로 시끄럽더니 어느새 이와 더불어 빅데이터라는 말을 여기저기 인용하고 있습니다. 재밌는 것은 빅데이터 분야에 대해서도 무턱대고 클라우드 컴퓨팅이라는 말을 가져다 붙이더니 이제는 빅데이터라는 말을 여기저기 가져다 붙이고 있습니다.

빅데이터에 대해서 생각해보기전에 우선 스스로에게 이러한 질문을 해보는 것은 어떨까요?

“내가 몸담고 있는 회사에 또는 내가 하고자 하는 사업에 있어서 빅데이터를 가지고 있는가?”

“빅데이터라고 할만큼 큰 데이터는 아니지만 빅데이터와 관련된 기술을 활용해서 가치를 얻어낼 수 있는 유즈케이스나 사업의 요구사항이 있는가?”

그전에 다음과 같은 생각을 해보셨나요?

“지금 자신들이 가지고 있는 데이터를 활용해서 사업에 제대로 활용은 하고 있었는가?”

아니, 더 간단하게

“꼭 빅데이터이어야 하는가?”

그럼 또 다른 질문을 해볼까요?

도대체 국내의 유수의 빅데이터 솔루션 벤더들은 어디에다가 어떻게  자신들의 솔루션을 팔 생각들을 하고 있는 걸까요? 게다가 하둡(Hadoop)  관련한 엔지니어는 정작 국내에는 관련 인력들이 별로 있지도 않은 상황에서 말이죠.

해외, 특히 미국에서의 빅데이터 시장은 분명 하둡과 그 기술을 가진 회사들이 중심이 되어서 돌아가고 있습니다. 그런데 국내는 어떤가요? 이제 많은 분들이 하둡이라는 것과 기본적인 기술에 대한 이해들을 가지고들 있습니다. 하지만 이를 능수능란하게 다루고 실제로 이러한 기술과 마이닝 기법들을 제법 큰(?) 데이터에 적용해서 활용하는 회사가 몇이나 있다고 생각하나요?

그렇다면 자연스럽게 다음과 같은 의문을 가져볼만합니다.

지난 번 포스팅에서도 말씀드렸지만 국내에서 정말 빅데이터라고 할만한 데이터를 저장하고 다루는 회사가 몇이나 있을까요?

테라바이트급 데이터를 처리하고 그로부터 의미있는 데이터를 만들어내고 사업에 활용하는 경우는 얼마나 될까요?  그럼 페타바이트급은?

구글, 페이스북, 야후, 트위터등이 말하는 수억명의 사용자, 수백억건의 웹문서에 대한 정보를 긁어모으고 이를 이용해서 광고에 활용할만큼 기술력과 데이터를 확보하고 있는 회사가 국내에 몇이나 있기는 할까요?

수천대의 하둡 클러스터는 고사하고 수백대 규모의 클러스터를 구축해서 데이터를 구축하고 활용하고 있는 회사가 국내에 있다고 생각하세요? 아니 수십대 규모의 클러스터들은 가지고들 계신가요?

이러한 질문에 여러분들은 몇개의 국내 회사가 떠오르시나요?

당장 제 머리속에 떠오르는 회사는 네이버, 다음, 네이트, SKT, KT, 삼성전자 정도입니다.

물론 스마트 그리드, 바이오인포매틱, 기상예측, 과학분야에서는 이미 많이들 사용하고 있을거라고 추측도 하고 관련된 분들이 많은 관심들을 가지시고 있다고 알고 있습니다만,  비지니스라는 관점 특히 기업 시장이라는 측면에서 본다면 국내에서는 역시나 매우 제한적이긴 합니다.

이러한 이유 때문에 저는 하드웨어업체들, DW업체들, 데이터 마이닝업체들, 소셜미디어(?) 솔루션 업체들 등이 요즘 습관적으로 빅데이터라는 말을 붙여서 활동하는 것에 대해서 다소 거부감이 있습니다. 머랄까 혹세무민? 이거 적당한 말인지 모르겠습니다만 아무튼 가트너 자료에 의하면 포춘500대기업 85%가 빅데이터 활용에 실패할 것이라고 예상하고 있다고도 하니 신중하게 빅데이터에 대해서 접근하셨으면 합니다.

물론 이러한 다양한 활동이나 마케팅이 시장을 키우고 사람을 키우고 기술을 성장시키게 하는 긍정적인 측면이 없다고는 말할 수 없겠지만, 실질적인 기술의 축적이나 기술 인력 양성을 이끌어나갈 것이라고 낙관하지도 않습니다.

얘기가 다른 곳으로 새는 것 같지만 사람에 대한 얘기를 좀더 해보면, 앞서 포스팅한 빅데이터를 하기 위해서 필요한 역량이라는 것이 결코 빅데이터만 필요한 역량이 아닙니다. 그 자체가 소프트웨어를 제대로 이해하고 개발할 수 있는 역량입니다.

그래서 빅데이터라고 하는 것을 통해서 좀더 근본적인 수학이나 알고리즘, 프로그래밍, OS , 네트워크등에 대해서 더욱 관심을 가지게 되고 이러한 역량을 갖춘 소프트웨어 인재들이 많이들 나올 수 있게 되는 계기가 되었으면 하는 바램입니다.

글을 쓰다보니 저를 포함해서 국내의 많은 소프트웨어 개발자들은 여전히 외국 벤더가 제공하는 플랫폼, 툴, SDK에 의존해서 조립식 제품을 만들어버리는 기능공이 되어버린것은 아닌가 하는 생각이 또 드네요.  이미 많이 알려진 사실이지만 국제기능올림픽에서 늘 우수한 성적을 내는 국내 기술자들이 대접을 제대로 못받고 있죠. 저는 그 원인중 하나가  결국 기반기술이 아닌 그네들이 제공하는 표준플랫폼(선반,lathe)위에서 밖에 일할 수 없는 단순 기능공으로 취급받게 되버리는 현실과 크게 다르지 않다는 생각을 하곤 합니다. 즉 인력의 대체가 도구가 좋아질 수록 쉬워지기 때문입니다. 이건 제가 종종 주위에 얘기하는 “선반론” 인데요. 물론 이들도 제대로 대접받아야 하겠지만 현실은 그렇게 녹녹치 않잖아요. 같은 관점에서  현재 국내의 소프트웨어 개발자라고 해서 크게 다르지 않죠.

빅데이터라고 하는 분야는 이러한 측면에서 분명 소프트웨어 개발자들에게는 새로운 기회가 될 것입니다. 하지만 이것도 시간이 많이 남질 않았습니다. 점점 쓰기 쉬운 도구들이 이미 나왔고 더욱 좋은 도구와 솔루션들이 나오게 될 것입니다.

그래서 더욱 데이터(꼭 빅데이터가 아니여도 상관없습니다) 라고 하는 것을 제대로 이해할 수 있는 역량 (데이터 과학자)  또는 그 데이터 프로세싱을 효과적으로 프로그래밍하고 운영할 수 있는 기술과 노하우(Devops) 를 갖추는 것이 중요하다고 다시 한번 말씀드리고 싶네요.

 

Advertisements
이 글은 IT 카테고리에 분류되었고 태그가 있습니다. 고유주소 북마크.

빅데이터(Big Data)의 불편한 진실에 1개의 응답

  1. 핑백: 클라우드의 불편한 진실… | Charsyam’s Blog

  2. Ks Yi댓글:

    좋은 글 잘 읽었습니다.~

  3. pLacebo댓글:

    좋은 글 잘 읽었습니다.. ^^

  4. Taeyoung Koh댓글:

    역시나 좋은 글입니다. 블로그가 둘이셨네요? 하~!
    저 역시도 말슴하신 것처럼 빅데이터라는 말로 혹세무민하는 현실이 씁씁해서 일전에도 몇마디 했었습니다… 과연 그런 주제를 마치 화두인것처럼 이야기 하는 사람들이 현장을 알고 이야기 하는 것인지 …하는 의문이야 수십년을 해온 것이었으니 이제는 익숙해져 있습니다.
    물론 지향해야 할 방향이라는 것에는 수긍하지만 데이터 플랫폼의 마이그레이션은 시간을 두고 전략을 잘 수립해서 차분히 수행해야할 일이라 단기간에 뭐가 되지는 않는 것일진데…
    마치 지금 그걸 안하면 큰일 날 것처럼 선동(?)하는 분들 덕분에 대략 난감한 상황들이 몇 번 있긴 했었습니다. 우스게 소리지만 제가 아는 빅 데이터(덩어리 큰 데이터웨어하우스… ㅋ~)와 트렌드세터들이 말하는 빅데이터의 간극은 상당히 멀기만 하죠. 훗~!!!
    여하튼 이 불편한 진실을 많은 사람들이 자각했으면 합니다만 꼭 클라우드 꼴이 날것 같아서 조금 걱정이긴 합니다. 마치 병렬프로세스 프로그래밍을 하기위해 어떤 언어는 안되고 어떤 방식을 사용해야 하고 같은 논쟁과도 같은 소모성 의사충돌이 데이터 분야에도 존재한다는게 어제 오늘 일도 아니지만서도…
    성향이 애시당초 개발만 하자! 주의라서 다른데 기웃거리는걸 생각도 못하고 살다가 최근 3년 사이에 많이도 서핑하고 곁눈질 해보고 주워들어 배우고 그러고 있지만 역시나 맞지 않는 옷을 걸치는 느낌인터라…

    아뭏든 우승님의 글에는 오랜시간을 현업에서 고민해온 사람만의 고민이 잘 묻어 있어서 가끔 이렇게 들러서 넋두리 하고 가게 됩니다. 즐거운 한 주 되세요~!!! 목요일에 우승님 계시는 빌딩으로 놀러갑니다. ㅋ~

  5. 오늘만날댓글:

    빅데이터 관련 좋은 포스트 항상 잘 보고 있습니다
    빅데이터 커뮤니티를 운영하면서 하루하루 뉴스 스크랩을 하는데 우승님 말씀처럼 여기저기 난립하더군요
    마케팅에서 뒤지지 않기 위한 고육지책이겠지요

    • kimws댓글:

      네 저도 님 덕분에 사이트에 들려보았습니다.빅데이터와 관련한 많은 기사와 글들이 모아져 있어서 정말 깜짝 놀랐습니다. 저도 자주 들러서 공부를 해야겠네요. ^^

  6. javarouka댓글:

    혹세무민과 프로그래머의 기능공이라는 표현이 참 와닿네요…
    반성해봅니다.

  7. 핑백: 빅데이터- 리눅스 열풍과 닮았다? :: Channy's Blog

  8. 이준혁댓글:

    좋은 글 잘 봤습니다^-^

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중