빅데이터가 그렇게도 중요한가?

아래의 글은 제가 페이스북의 노트에 지난 주말에 쓴 글입니다.이미 보신 분들도 있을 것이구요. 페이스북의 개인 노트는 제가 전체공개로 해놓아도 반드시 페이스북에 가입되어 있어야 볼 수 있더군요.

페이스북에 쓴 글이라서  기존 블로그에 쓰는 것과 다른 점 이해해주세요.  다시 읽어봐도 두서 없지만  그래도 가감없이 재포스팅합니다.


기회가 있어서 나름 업계의 전문가분들과 빅데이터에 대해 얘기를 나누게 되었다.

그전에 …

사실 나보고 빅데이터 전문가라고 말하는게 참으로 부담스럽다.  나는 어떠한 문제를 풀기 위해서 하둡이라는 빅데이터 플랫폼을 활용했을 뿐이다. 당시에는 어쩌면 상당히 도전적인 과제였다고 생각한다. 국내에서는 당시 참고할 만한 내용도 그렇게 많지 않았고 지금과 같이 관련 책이나 플랫폼 배포판이 안정적으로 나오고 있을때도 아니였을때니까. 하둡이 당시 문제를 해결할 수 있는 좋은 방법이었고 리서치할 수 있는 환경도 마련되어져 있었다는게 나에겐 행운이라면 행운이다. 나름 기술의 맥락을 이해하고 추진하고 실적용도 했지만  결과적으로 투자한만큼 성과를 거두었냐고 물어본다면 반반이다.

아무튼 아직도 우리는 빅데이터를 얘기하고 있다. 재미있는 것은 이제 이 녀석을 어떻게 써야 할지 사람들은 충분히 알게 되었다는 것이다.  PoC을 하고나서 본 과제를 진행하지 않기로 결정했다는 것은 어쩌면 정확하게 이 기술이 어디에 적합하고 적합하지 않은지를 이해하고 있다고 생각한다.  외부에서 봤을때는 호들갑만 떨고 안했다는 둥, 역량이 안된다는 둥, 데이터가 없다는 둥 말들이 많을 수 있겠지만  그렇게 생각하는 것은 한쪽면만 보고 말하는 것이다.

무엇이든 때가 있고 적절한 .. 즉 적재적소가 중요하다.

하둡이라고 하는 , 그리고 하둡 에코시스템이라고 하는 기술군들은 기술자들에게는 매우 매력적일 순 있지만 어느 정도 규모의 데이터를 다룬 경험이 없거나 기존 데이터 처리 기술로 충분히 해결 될 수 있다고 판단된다면,  TCO(Total Cost of Ownership, 총소유비용)을 따지자면  빅데이터를 도입하지 않는 것이 되려 합리적인 선택이 될 수 있다. 그렇기 때문에 좀더 중장기적으로 보고 이러한 기술들을 선택해야 한다.

하지만 이러한 기술이 무조건 필요한 경우도 있다. 애초에 데이터가 많고 이를 처리해야 하는데 상용 솔루션을 사용할만한 자금과 리소스가 없다면 내부의 엔지니어을 육성해서 내재화하면서 빅데이터 플랫폼을 구축하는 것이 맞을 수도 있는 것이다.

어느 데이터든 빅데이터 기술에 적용하는 것도 적합한 것이 아니다. 금융정보나 인사정보 등등의 크리티컬한 데이터를 무턱대고 이러한 하둡이나 NoSQL에 저장한다는 것 자체가 말이 안된다.  대용량의 데이터 백업이나 연산을 위하거나,  로우(raw) 데이터를 저장하는 용도로 우선적으로 활용하는 것이 맞을 것이다. 이러한 처리를 끝내고 빅데이터 플랫폼에서 처리하고 그 결과를 RDBMS에 저장해서 서비스에서 활용하는 것이 너무나도 당연하고 들어보니이미 다들 그렇게 아키텍쳐링과 데이터 플로우를 잡고 프로젝트를 하거나 현업에서 활용들을 하고 있다.

그런데…

앞서 빅데이터 전문가분들과 얘기를 나누면서 그리고 내 자신에게 묻고 싶은 것은 도대체 우리가 다루고 있는 데이터의 규모가 정말 ‘빅’ 이냐는 것이다. 고작 클러스터 100대 , 200대 해놓고 몇백 테라바이트 저장하고 프로세싱하는 수준에서 구글이 말하는 페이스북이 말하는 트위터가 말하는 빅데이터와 비견할 수 있는가 하는 것이다. 천대 , 만대 규모의 단일 클러스터에서 발생하는 물리적인 이슈들 (전력, 네트워크, 장애 등등)에 견딜 수 있는 수준의 서비스를 우리가 정말 겪어 본적이 있는가 하는 것이다.

다 … 남들의 경험을  마치 자신들이 해본것처럼 말하거나 자신들이 경험한 자그마한 도메인 지식을 가지고 빅데이터를 얘기들 하고 있는 것은 아닌가 되새겨볼 일이다. 냉정하게 이러한 규모에 대한 감이 없는데 알고리즘 최적화와 엔지니어링이 무슨 의미일까.

Apache Hadoop, Cloudera , Hortonworks 들이 내놓은 하둡 패포판들이 있다. 소프트웨어는 단순히 하나의 배포판 형태로 제공되겠지만 이것들이 다섯대 , 열대, 백대, 천대, 만대로 구성되었을때 그리고 여기에 들어가는 데이터의 형태나 흐름이 각자가 처한 상황에 따라 다 다를진대 비록 그러한 경험과 문제점들을 공유하고 얘기를 나눌 수는 있겠지만 (그나마 국내에서는 이러한 커뮤니티도 몇 없다.) 사실상 각자가 처한 문제를 남이 해결해 줄 수 없는 노릇이 아니겠는가.

감히 말하는데 빅데이터라고 말한다면 자신들이 다루는 데이터를 (남과 공유하기 매우 어려운) 자신들이 직접 다루면서 최적화하는 것이 맞다고 본다. 하둡이 아니여도 상관 없다. 수많은 NoSQL 의 등장은 바로 이러한 요구를 반영한 것이라고 생각된다.

빅데이터를 말하기전에 데이터를 말해야 하는데 우리는 빅데이터 기술을 먼저 말한다.  그리고 이를 기반으로 하는 너무나도 많은 사례 , 서비스를 말한다. 아직 가질 수 없느 갖고 싶은 그런 것들 말이다.

이제는 개발 능력을 상실했지만 여전히 소프트웨어를 사랑하고 소프트웨어 개발에 참여하고 있는 나는 이런 얘기를  들려주고 싶다.

당신들의 데이터가 무엇인지 어떻게 만들어지를 충분히 이해하시라고  그저 외주 개발사, 외주 데이터 마이너에게 맡기고 그저 개발팀 사람들에게 일을 맡겨놓고  왜 남들이 여기저기 말하는 사례를 들먹이며 왜 우리는 그런 가치를 뽑아내지 못하냐고 닥달하지 않았으면 좋겠다.

나 역시 어떠한 면에서는 편향되고 편협된 내 사고 내에서 풀어내는 얘기라는 걸 알지만 빅데이터라는 걸 너무 일반화 시키면서 생긴 문제라고 본다.

머라고 말하시든 나는 big data = large scale data 라고 생각하는 사람이다. 즉 big은 big이다.

헷갈리게 하지마시라.

오늘도 우리는 서버 한대에  최대 얼마나 많은 데이터를 넣고 저장할지 고민한다.  몇천만건 , 몇억건 데이터를 제때 쑤셔넣고 끄집어내는 걸로 골치아파하고 있다.

10대로 할 일 무엇하러 100대로 하겠나?
10대로 안되니까 100대로 하고 1000대로 하는 거다.
맘 같아선 10대로 하고 싶지만 …

big-data-kitty출처:http://wikibon.org/blog/data-scientists-a-new-field-a-new-job

빅데이터 , 빅데이터 하지 말고 그냥 하던 일 하면 된다. 필요한 일 하면 된다.  그게 본질이다.

두서없이 쓰는 글 이만 끝.

이 글은 IT 카테고리에 분류되었고 , 태그가 있습니다. 고유주소 북마크.

빅데이터가 그렇게도 중요한가?에 1개의 응답

  1. 이상원댓글:

    우승님, 뜨거운 여름, 안녕하십니까?
    facebook에 댓글로 인사드리려다, 면식없는 분들이 많이 계셔서 이곳에서 인사드립니다.
    좋은 글 잘 읽었습니다.(물론, 외계어가 많아서 이해는 안됩니다만…^^;;)
    남은 여름도 건강하게 지내시기를 기원합니다.

이상원님에게 덧글 달기 응답 취소