빅데이터(Big Data) 왜 뜨는걸까?

의외로 지난번 포스팅에 많은 관심을 가져 주셔서 좀더 쉽게 왜 빅데이터에 대한 관심들이 높아졌고 그 주위 환경과 아쉬움들에 대한 글을 써봐야겠다는 생각을 가지다가 이 글을 포스팅 합니다. 지난 번 포스팅과 마찬가지로 빅데이터 분야의 선수분들은 안보셔도 될 것 같구요. “그래서 빅데이터가 무엇인데 이리 시끌한거야?” 하는 분들에게는 도움이 되지 않을까 싶네요.

왜? 지금 이 빅데이터에 대한 관심들이 높아지고 있는 것일까요? 더불어 왜 NoSQL 이라는 것들에 사람들은 관심들을 가지게 된 것일까요?

웹2.0 시대를 넘어서 각종 인터넷 서비스와 더불어 스마트폰의 보급으로 모바일 인터넷시대가 성큼 다가오면서 온갖 종류의 데이터가 갑자기 쏟아져 나와서 그런것일까요? 그럼 그전에는 빅데이터라는 것이 없었는데 이제 처리해야 할 데이터들이 폭증하니까 이러한 데이터를 처리할 기술에 대한 급관심이 생겨서 일까요?

대부분의 빅데이터 시장 조사 자료를 보다보면 빅데이터에 대한 시장 환경에 대해서 설명을 할때 스마트폰 보급 확대, SNS 서비스 활용 증가에 따라 발생하는 데이터의 규모가 급격하게 늘어나게 되었고 , 소위 Yottabyte라고 말하게 되는  환경속에서  이러한 대규모의 데이터를 효율적으로 분석할 수 있는 빅데이터에 대한 기술과 시대가 열리게 되었다고들 하면서 이야기를 풀어가죠 그러면서 온갖 시장자료와 어마어마하게 쌓여가는 데이터들의 숫자들을 나열하고 겁을 줍니다.

Yottabyte : 10^24승, 즉 terabyte(10의12승) x 10의12승 아마 이래도 별로 감이 없으실거에요.

하지만 현재의 빅데이터 시장을 촉발한 결정적인 요인은 구글이 공개한 몇개의 논문과 이를 기반으로 만들어지게 된 아파치 하둡및 관련된 여러 오픈소스에 힘입은 바가 매우 큽니다.

기존 빅데이터라고 하면 특히 DW라고 하는 분야에서 이러한 빅데이터를 주로 다루어왔는데 자신들만의 독자적인 기술과 하드웨어를 갖춘 상용솔루션 업체들이 대기업의 빅데이터 처리시장에 진입해서 많은 수익을 얻고 시장을 장악해왔습니다. 대표적으로 EMC의 테라데이터, IBM 네티자, 오라클 엑사데이터와 같은  솔루션들은 빅데이터 분석을 위하여 개발된 전용 하드웨어위에 소프트웨어를 구현하여 아예 어플라이언스 형태로 패키지화하여 기업에 제공함으로써 각 기업들은 이들 회사의 솔루션에 락-인 될 수 밖에 없는 구조였습니다. 물론 이들 솔루션의 완성도와 성능은 매우 뛰어나겠죠. 제가 직접 써보지 않았으니 객관적인 평가를 할 수 없으니 이정도로만 정리하겠습니다. ^^

그런데 하둡 이라는 것이 소개되면서 소위 전용 하드웨어 필요없이 일반 x86급 서버와 일반 기가급 스위치를 이용해서 빅데이터를 처리할 수 있는 프레임워크를 사람들이 쉽게 가질 수 있게 되었습니다. 더군다나 이 소프트웨어는 오픈소스로 공개되었으니 소프트웨어 비용은 전혀 필요없었구요. 이것이 불과 4-5년전 상황입니다. 2009년도 제가 이쪽을 맡게 될때만해도 여전히 부정적인 시각들이 있었습니다. 유지보수에 대한 어려움, 전문가 부족, 안정성의 떨어짐 등 말이죠. 2012년 지금도 유효한 문제점이기도 하고 업계의 솔루션 업체들은 이점을 들어서 다소 폄훼하거나 기업시장에는 맞지 않다고들 했었습니다.

그럼에도 불구하고 기존 상용솔루션에 비해서 턱없이 싼 가격으로 비슷한 성능 , 심지어 더 높은 성능을 제공할 수 있는 분산 데이터 프로세싱 환경을 갖출 수 있게 된다는 점은 점차 여러 기업들에게 매력적으로 다가왔습니다. 특히 구글, 야후과 같이 되고 싶어하는 많은 인터넷 회사들은 이러한 분산 시스템 아키텍쳐에 많은 관심을 가졌고 적극적으로 이러한 하둡 및 이로 촉발된 다양한 분산 컴퓨팅 프레임워크를 자체적으로 개발하거나 심지어 오픈소스로 공개하면서 더욱 그 저변이 확대되었다고 볼 수 있습니다.

빅데이터와 관련한 다양한 소프트웨어 프레임워크와 기술들을 오픈소스로 기꺼이 내놓은 기업들을 보면 페이스북, 트위터, 링크드인, 아마존, 랙스페이스등 매우 다양하다는 것을 알 수 있습니다. 이들 기업들은 초기부터 이러한 빅데이터 기술에 대해서 관심을 가지고 자신들의 인프라와 시스템을 구축하고 있어왔다는 것이죠.

이 와중에 Cloudera 라는 회사가 이러한 하둡 에 대한 기술적인 지원과 보다 안정적인 배포판을 제공하기 위해서 설립되어서 많은 사람들에게 긍정적이 시각으로 하둡 이라는 기술에 대해서 바라보게 되었고 잇따른 투자로 이쪽 시장의 전망을 밝게 하였습니다.  여담이긴 합니다만 이 회사의 행보를 하나하나 살펴보면 현재 레드햇의 행보와 매우 비슷합니다. 리눅스 배포판 하나로 시작한 지금의 레드햇이 지금은 리눅스뿐 아니라 다양한  오픈소스를 기반으로 하는 각종 서비스와 솔루션을 제공하고 더 나아가 클라우드 비지니스까지 확대된 거대한 IT기업으로 성장한 모습을 보면 Cloudera 도 하둡기술을 바탕으로 빅데이터 분야의 대표적인 서비스 , 솔루션 업체가 머지 않아 될 것이고 제 2의 레드햇을 꿈꾸고 있는 것은 아닐까 생각합니다. 이미 시장에서는 그러한 포지션으로 많은 사람들이 인정하는 분위기인 것 같기도 하구요. 최근 Hortonwork (야후!의 하둡개발팀이 분사한 회사) 및 MapR 이라는 회사가 등장하면 하둡을 기반으로 하는 빅데이터 시장에서 양강구도 또는 삼강구도를 형성하는 분위기이긴 하지만 여전히 서비스지향적인 Cloudera에 대한 영향력이나 접근 방법이 더욱 호응을 받는 분위기입니다.

이러한 하둡과 관련 분산기술들이 어느정도 인정을 받고 안정화되면서 최근 기업을 대상으로 하던 기존 빅데이터 관련 (주로 DW시장) 시장의 강자들이 하나같이 이 하둡을 자신들의 솔루션과의 통합작업을 서두르고 있고 이미 통합을 완료해서 ’11년말 시점으로 시장에 제품들을 소개하고 있다는 것입니다. RDBMS 기반의 정형데이터에 대한 처리는 기존 자신들의 솔루션에 대한 장점을 한껏 강조하고 비정형데이터는 하둡을 이용해서 할 수 있게 되었다고 하면서 즉 자신들은 모든 데이터 형태를 처리할 수 있는 통합솔루션을 다 갖추고 있다고 마케팅을 하고 있습니다

개인적인 견해이긴 하지만 최근 빅데이터 시장의 급관심은 이러한 기존 시장의 솔루션 강자들의 준비상황을 이해할 필요가 있다고 생각됩니다. 그간 하둡의 등장으로 전전긍긍하던 스토리지 솔루션, 데이터베이스, DW, 분석솔루션 시장의 강자들이 하둡을 충분히 이해하게 되었고  특히 기업시장에 대해서 그 누구보다도 잘 이해하고 있는 이들 솔루션의 강자들이 하둡을  자신들의 솔루션과 통합하게 된 이 상황에서는 이제 새로운 파이를 키워서 시장을 키울필요가 있게 된 것입니다. 아시겠지만 솔루션 업체들은 인터넷 기업과 같이 기술을 내재화하고 엔지니어를 확보하고 있는 기업을 별로 좋아하지 않습니다. 다시 말하면 빅데이터의 시장 확대라는 게  Cloudera가 잘해서도 아니고 하둡이 잘나서도 아니라는 거죠. 앞선 포스팅에서도 언급했지만 이런 기업 시장의 선수들의 등장이 바로 빅데이터시장을 키워나가고 견인하는 역할을 하게 된 것이라고 봅니다. 이들이 등장하지 않았다면 아마 시장자체가 커질 여지가 적어졌을 것입니다. 구글이 빅데이터 기술을 많이 가지고 있고 처리를 잘한다고 빅데이터 시장이 커지지 않는다는 점을 생각해보면 제가 어떤 말씀을 드리는지 이해하시리라 생각됩니다.

더불어 국내에 그 부족하다던 하둡엔지니어들도 이러한 빅데이터의 기업시장 확대로 인해서 어느정도 육성되고 늘어날 것으로 기대해봅니다. 이쪽 분야에서 몇년간 묵묵히 일하고 있었던 엔지니어 분들 몸값도 많이 오르겠지요.  더불어 이러한 기술을 어느정도 내재화하고 있는 기업들은 이런 상용솔루션에 의존을 덜하게 됨으로써 상대적인 비용절감 효과를 크게 얻게 될 것입니다.

아무튼 그렇게  어렵게 생각했던 분산 스토리지 , 분산 컴퓨팅, 분산 데이터 스토어라는 기술들이 그 어느때보다도 쉽게 다가온 시기라고 할 수 있습니다. 리눅스와 같이 빅데이터 기술 및 시장도 오픈소스로 인해서 적극적으로 견인되는 현상을 보는 것 같습니다.

그러다보니 관련해서 최근 이런 얘기들을 많이 하고 듣고 다닙니다. 주위에 진짜 리눅스 선수(Guru)는 많지 않다는. 십여년전 국내에 벤쳐붐이 일어나고 리눅스와 관련해서 많은 벤쳐업체들이 나타났다가 사라지는 그때를 기억해보면 그 당시 그 분위기를 뒷받침으로 이러한 오픈소스 및 운영체계 기술에 대한 관심을 가지도록 엔지니어들에 대한 지원을 지속적으로 했더라면 어땠을까 하는 아쉬움이 남습니다.

리눅스와 관련한 운영체계의 기술이 하둡을 중심으로하는 빅데이터 분야의 분산컴퓨팅뿐 아니라  클라우드 컴퓨팅이라는 분야에서 근간을 제공해주고 있다는 점에서 다시 한번 이 분야에 많은 시스템 엔지니어와 소프트웨어 엔지니어의 육성과 참여가 필요하다고 생각됩니다. 특히 고급의 시스템 엔지니어 육성이 시급하다고 생각됩니다. 시간이 걸리는 일이고 진정 핵심 역량을 갖추어야 하는 이러한 기술들이 빅데이터니 클라우드니 하는  것들이 기술 트랜드로써  1-2년간 반짝 관심을 가지다가 사라지지는 않을까 하는 우려도 듭니다. 그러다보면 다시 엔지니어들은 업계를 떠나가고 어느새 기업들은 다시 많은 비용을 들여서 솔루션 업체들에게 하드웨어와 소프트웨어 라이센스를 내고 있게 되는 것이죠. 솔루션 업체들이 투자한 비용과 그 솔루션에 대한 가치는 분명히 인정해야 하고 당연히 지불해야 하는 것이겠지만 지나치게 의존함으로써 생기는 상황은 피할 수도 있지 않을까 생각됩니다. (왜 국내 대기업들은 리눅스를 쓴다고 하면서 레드햇 배포판을 비싼 돈을 주고 구매하는 걸까요? 그것도 서비스 라이센스를 말이죠.)

마지막으로 이러한 트랜드에 편승해서 부화뇌동하지 말았으면 하는 측면에서 말씀드리고 싶은 것이 있습니다.

국내에는 정말 빅데이터가 있을까요? 있다면 이런 빅데이터를 조금이라도 만져보면서 일을 해본 소프트웨어 엔지니어는 몇명이나 있을까요? 하둡이나 NoSQL등을 설치해보고 돌려보는 것은 빅데이터를 이해하는데 백분지일이라는 점을 잊지 마세요. 필요하다면 과감히 다른 기술이나 솔루션에 관심을 가지고 시도해봐야 합니다. MySQL로도 충분히 큰 데이터를 처리할 수도 있고 기존에 구축된 오라클과 같은 RDBMS에서도 주어진 문제를 충분히 해결할 수 있다는 점을 잊지 말았으면 합니다. 빅데이터를 다루는데 있어서 하둡은 하나의 선택일뿐입니다. 자신들이 다루는 도메인과 데이터 자체를 이해하는데 더 많은 시간과 에너지가 들어간다는 사실을 너무나도 당연하지만 명심해야할 사안입니다.

아무튼 국내에 클라우드 컴퓨팅과 빅데이터로 인해서 리눅스 이후 다시 한번 오픈소스에 대한 큰 관심이 생기는 것 같습니다. 이번 분위기를 이용해서 국내의 IT 기술기반을 다시한번 한층 끌어올리고 소프트웨어 엔지니어들에 대한 가치가 높여졌으면 합니다만 밝다고마는 말씀드리기 힘들 것 같습니다.

광고
이 글은 IT 카테고리에 분류되었습니다. 고유주소 북마크.

빅데이터(Big Data) 왜 뜨는걸까?에 1개의 응답

  1. 아크몬드댓글:

    잘 읽고 갑니다.

  2. “국내에는 정말 빅데이터가 있을까요?”라는 말씀에 간단히나마 의견드립니다.

    대부분의 국내의 기업들은 데이터를 쌓는 것에 ‘아직’ 관심이 없는 것이 맞을 껍니다. 그러니 빅데이터라는 것이 ‘현재’는 존재하지 않을꺼구요.
    그러나, 그 기업들이라고 해서 분석하면 의미있을 데이터가 없지는 않으리라 생각합니다. 다만 그를 쌓고 분석하는 비용 대비 효과가 눈에 보이지 않기 때문에 현재는 버려지고 있는 것이리라 봅니다.
    (잠시 생각해 보아도 세상에는 그냥 흘러 가버리는 데이터가 너무나 많은 것 같습니다.)

    시간이 좀 더 흘러서, 지금보다 더 쉽고, 더 낮은 비용으로 데이터를 쌓고 분석할 수 있고, 그것이 IT인들이 아닌 일반 비즈니스 맨들도 이해할 수 있는 때가 오면, 갑자기 국내에도 빅데이터가 ‘있는’ 시대가 오지 않을까 생각되네요.

    물론 그 Tipping Point가 언제올지는 아무도 모르겠지만요. ^^;

    PS. 지난번 글도 그렇고 이번 글도 그렇고 많이 배우고 있습니다. 감사합니다.

    • kimws댓글:

      그래서 두가지 접근방법으로 빅데이터에 대해서 접근할 수가 있습니다. 일단 쌓아보자. 그리고 데이터 마이닝을 통해서 가치를 찾아보자. 또 하나는 충분히 고민하고 가치가 생길 만한 것을 설계한 이후 필요한 데이터를 효과적으로 쌓아가면서 마이닝을 하는 방법이 있겠죠. 논리적으로 생각하면 당연히 후자의 방법을 찾겠지만 충분한 예산이 있다면 전자의 방법으로 추진하는 것도 고려해볼만 합니다. 하둡이 바로 그런 경제성을 상대적으로 제공하게 된 것이기 때문에요. 여하튼 데이터를 쌓아놓는 것에 기업들이 이제들 많이 관심을 가지게 될 것입니다. 인터넷 기업들은 진작에 그렇게들 하고 있지만요.

    • Taeyoung Koh댓글:

      일반인들도 쉽게 다룰 수 있는 그 저렴하고 쉬운 방법을 이제 도입해서 전파하려고 무한 삽질중입니다. 이제 시작인지라 머리 아픕니다.
      맨날 앞서서 뭔가를 하기는 하는데…그저 하기만 하는군요.

      아~! 돈은 언제 버나? ~__~ㅋ

  3. 확실히 아직은 시기상조 인듯합니다. 빅데이터에 대한 개념도 아직 모호한 실정이고 분석 방법자체도 정립되지 않아서 인듯합니다. 너무 ‘빅데이터’란 이슈에 막 달려드는 듯한 느낌이 강합니다.
    좋은글 퍼갈께요^^

  4. Taeyoung Koh댓글:

    우승님 또 안녕하신지요? ^___^;
    새해 복 많이 받으세요.
    어쩌다보니 데이터 분석을 하는 마당에 빅데이터 이슈까지 겹쳐서 머리가 아픈 요즘인지라 우승님의 포스팅을 또 발견하자마자 넉두리하고 가렵니다.
    말 그대로 어쩌다보니 BI솔루션을 다루게 되어서 본의 아니게 빅데이터라는 화두까지 기웃하고 있습니다만…현상을 보자면 마치 빅데이터가 블루오션인 것마냥 시장은 들떠 있는듯(?) 보입니다.
    그러나 현실에 살고 있는 화석나라 개발자 입장에서는 못마땅한 현실이라고 하고 싶습니다.
    이건 마치 뭐랄까?
    새까맣고 옷걸이 안나오는 촌부에게 서양인 체형에나 맞을법한 알마니 입혀놓은 듯 하다고 해야할지 아니면 파리에 간 아메리칸이라고나 해야할지?
    난감하네요.
    트렌드 세터들에겐 좋은 이슈겠지만 기업입장에서는 뭐랄까?
    왜? …라는 소리가 절로 나오게 하는것 같습니다.
    포털이나 이런류의 서비스 플랫폼을 제공하는 기업에게는 새로운 소셜플랫폼 덕분에라도 늘어가는 데이터 처리와 시스템 구조 때문에라도 눈여겨보고 시도라도 해볼텐데…아니면 뭐 이동통신사 라든가… 그런데 일반 기업에서 빅데이터라고 하는 것들은 결국 현시점으로부터 발생하는 비정형적 자연어 분석 혹은 시스템 로그 분석 등을 통해 새로운 지표를 발굴하고 옵티마이징 혹은 추정분석이라도 하면서 이익이라는 측면에 조금은 다가설 수 있겠지만…일반 기업에서의 빅데이터는 클라우드라는 새로운 플랫폼 개념과는 다른 고전적 의미의 (말하자면 오래 쌓여서 도대체가 분석이나 가능할 지 모를 데이터들 더미) 데이터웨어하우스 덩어리를 말하는게 더 가깝다고 봅니다.

    일단 뭔가 이슈를 만드는 입장과 받아들이는 기업 입장에서부터 빅데이터에 대한 포커스가 많이 달라보이는것 같다는게 제 느낌입니다.

    그렇다고 해서 빅데이터를 주창하는 사람들이 이 데이터를 정형화 시키는 1차 축출 2차 변형 3차 적재의 과정을 경유하는 동안 과연 다음의 몇가지를 가지고 있는지 혹은 운영이 가능하긴 한건지 궁금증이 생겼습니다. (아직 분석도 가기 전단계입니다. ㅋ~)
    1. 그 엄청난 기존 데이터웨어하우스로부터의 데이터 정제를 위한 스냅샷 축출시 다운타임 없는 방식이 보장은 되어 있는 것인지?
    2. 이러한 작업을 수행하기 위한 별도의 자동화 처리부분에 대한 준비는 되어 있는 것인지?
    3. 서로 다른 서비스 플랫폼을 통괄해서 관리하는(TMS) 기반의 관리환경은 갖춰져 있는 것인지?

    그리고 이렇게 가공되어 새로 생성한 데이터마트로부터 기업이 필요로 하는 데이터 분석에 대한 의문점도 생겼습니다.
    1. 과거데이터 분석을 통한 상황파악이 아닌 추정과 분석을 위한 로직 같은 것들이 준비되어 있는지 혹은 그것을 수행할 리소스가 확보되어 있는 것인지?
    2. 향상된 통계적 분석과 이를 시각화 처리할 데이터비주얼라이제이션에 대해 준비기 되어 있는 것인지? (예를 들자면 R 혹은 MatLab, SPSS 등과의 인터페이싱 그리고 데이터분석 솔루션 자체의 유연한 대시보드 지원 등 등)

    말하자면 한도 끝도 없지만 제가 판단하건데 우리의 현실은 겉으로 보이는 것과 다르게 실전에 들어가면 암울하기만 합니다. 가장 큰 문제는 기업의 데이터웨어 하우스를 위시한 플랫폼과 서비스 프레임워크들의 현상태는 고전인데 유행은 최첨단이라는데 가장 큰 문제가 있다고 보여집니다.
    클라우드 이슈가 한창이던 2009, 2010년의 상태를 보자면 최소 2010년의 경우 분명히 시장에 레퍼런스화 할 뭔가들이 등장해서 이미 2011년에는 가시적인 뭔가를 보여줬어야만 합니다.
    그런데 현실에선 오퍼레이션 부분에서 많은 문제를 안고 있어보입니다.
    일단 가상화를 구현해놓고도 끊임 없이 발생하는 다운타임.
    즉, 자동화 미비의 상황들이 그 대표적 예이겠지요.
    뭐 빅데이터라고 다르겠습니까마는…
    (그래도 우승님의 경우는 뭔가 혁신적으로 잘 적용해서 활용하실 것 같은 생각이 듭니다. 그간의 성찰을 추론컨데… ^__^;)

    일단 실제에서의 적용을 부분적으로나마 접하는 저로서는 매일 매일이 대략 난감한 상황입니다. 그래서 저의 경우는 플랫폼이나 기본 시스템의 영역은 딱히 손댈 이유가 없다고 단정하고 제가 진행하는 데이터 마이닝과 분석 구현을 위한 부분에만 집중하기로 결심했고 이를 위한 자동화와 (…라고는 말하지만 취급중인 상용의 클러스터 솔루션 – 예 하는 일이 잡 스케쥴링과 프로세스 할당을 하는 일종의 로드밸런서입니다. ㅋ~)을 이용한 RDBMS로부터의 분산 ETL을 감행(?)하기로 했고 (스냅샷을 뜨는건 하고싶어도 할 수 없는 입장이 많아서요 ~_~;) 그러다보니 별도의 (코디네이터 요구사항에 따른 별도의 요구사항에 따라 축출되어지는 데이터들의) 적재소를 지원하기 위해 사재 데이터 마이닝 클러스터펌을 만들고 있습니다.
    이런걸 삽질이라고도 하지요. ㅋ~
    그리고 RDB가 아닌 녀석들 (이걸 NoSQL이라고 해야 하나요?)을 위한 별도의 분산 파일 수집기를 위해서 열심히 Erlang을 길들이고 있습니다.
    이제는 하이브리드라는 이상한 방향으로 가고 있습니다. (진정한 비주류의 길을 가고 있습죠. ~_~;)

    그래서 긍금해지는 것이 과연 제가 처리하는 수준의 분산 파일처리나 기존 데이터웨어하우스로부터의 조건부 무작위 데이터마이닝이 과연 빅데이터 분석을 위한 전처리의 일환이라고 할 수는 있는 것인지에 대한 것이 그 하나고, 또 클라우드 플랫폼 운용기업의 데이터들을 아직 구경도 못해본 저로서는 그쪽 일 하시는 분들이 다루는 데이터라는게 정말 분석해서 뭔가 기업의 비용절감이나 이윤 추구를 위한 매출추정 분석등과 같은 고전적 분석목적에 부합되는 것이기나 한건지가 두 번째입니다.

    저의 경우는 주로 기존 데이터웨어하우스(라고 말하지만 뭐 그냥 RDB 혹은 쉐어포인트 서비스 등으로부터 나오는 데이터들이나 오피스웨어 등로부터 나오는 데이터들인 경우가 많다보니…어쩌다가 MatLab 같은 녀석들이 주는 데이터 더미들… ^___^;) 주로 하게 되는 일이라는게 엔지니어링 인텔리전스, 팩토리 인텔리전스, 오퍼레이셔널 인텔리전스, 비즈니스 인텔리전스 등이 대부분입니다.
    소위 고전에서 진일보했다는 나름 어드밴스드란 데이터분석 영역입니다.
    …라고는 하지만 여전히 OLAP 수준에서 벗어나질 못하다가 이제서야 조금 진화했습니다. ㅠ__ㅠ

    그래서 진짜 궁금해서 그러는데 빅데이터라는 것을 구경해볼 곳이 진정 어디에 있을까요?
    정말 궁금합니다.
    L기업의 W사가 제공하는 클라우드 플랫폼이나 K기업의 D,I,N 등 계열사가 지원하는 플랫폼 혹은 C사의 A라는 클라우드 플랫폼을 도입중인 D기업의 환경 등을 슬쩍 보기는 했습니다만 식견이 짧아서 분간도 안되고 뭐가 뭔지도 몰라서 그러는데 우승님께서 아둔한 저에게 참고할만한 이미 구축된 일견이 가능한 잘된 예를 알려주시면 진정 감사할 것 같습니다. +___+

    프론트엔드 데이터분석을 하는 저에겐 시스템 엔지니어링 차원의 빅데이터 분석이라는 녀석이 참으로 매력처럼 다가오지만 제게는 아직 흐릿한 환상속의 그대인것 같습니다.
    이 참을 수 없는 호기심은 평생을 저를 따라다니는군요. 흐~

    여하튼 즐거운 밤 되시고 행복한 새해 되세요~!!! +___+

    • kimws댓글:

      우선 고태영님의 댓글을 읽고 미루어짐작하건데 저보다 훨씬 많은 경험과 삽질을 하신 것으로 짐작되어 집니다. ^^
      제가 빅데이터 어쩌구 하는 글을 포스팅한 것은 물론 몇년간 관련 과제, 특히 하둡이라는 것을 일찍 연구하고 도입해서 활용할 수 있는 조직에 몸을 담게 되면서구요. 그전에는 저 역시 데이터웨어 하우스니 데이터마트니 하는 것들에 대해서 많은 것들을 이해하지는 못하지만 소프트웨어 개발이라는 분야에서 여러가지 일들을 하나보니 나름의 짠밥이라는 것이 있어서 아는체를 조금 한 것 뿐입니다. 마침 “국내에도 빅데이터가 있는가?” 또는 “국내에는 빅데이터가 필요한가?” 이러한 화두로 여러분들하고도 얘기를 해보기도 했습니다만 대체로 해외의 사례와 같은 페타급 데이터를 보유하고 실제 이정도 규모의 데이터를 분석해서 비지니스에 활용하는 케이스는 많지 않은 것 같습니다. 데이터의 사이즈만을 가지고 빅데이터를 운운한다면 기존의 데이터마트, 데이터웨어하우스 솔루션 업체들도 충분히 큰 데이터를 처리할 수 있는 솔루션을 가지고는 있지요.

      하지만 요즘 빅데이터가 관심을 가지게 되는 것은 여러가지 이유가 있겠지만 하둡이라는 기술이 빅데이터 심지어 빅데이터가 아니더라고 제법 큰 데이터를 상대적으로 저렴한 비용으로 처리가 가능하도록 기술 장벽이 낮아졌다는 점이라고 생각합니다. 처음에야 하둡이라는 기술, NoSQL 이라는 기술이 낯설어서 어려움을 겪게 되겠지만 상용솔루션에 기대어 비싼 비용을 들여서 그들의 제안과 그들의 엔지니어를 활용해야지만 가능했던 일들이 상대적이겠지만 훨씬 싼 비용으로 처리가 가능해졌다는 점이구요.

      또한가지는 그간 관계형데이터베이스라고 불리우는 곳에 어떻게든 데이터를 넣고 처리하는 정형데이터보다는 최근에는 다양한 웹, 모바일 서비스에서 쏟아지는 로그데이터, 센서데이터, 텍스트 등 비정형데이터로부터 바로 분석을 해서 통계를 내고 추정을 해서 서비스에 직접 반영하고자 하는 니즈가 크게 늘면서 기존의 솔루션으로는 쉽게 할 수 없게 되었다는 점도 빅데이터가 관심을 크게 가지게 되는 동인이 되었다고 생각합니다.

      머 이밖에 다양한 이유로 빅데이터 빅데이터 하지만, 고태영님과 같이 그리고 저와 같이 실제 실무를 하는 사람들에게는 박스와 화살표로 멋지게 그려진 아키텍쳐를 들이대면서 빅데이터가 얼마나 중요하고 멋지고 나이스한지 설명하는 것을 보면 괴리가 느껴지는게 당연합니다.

      특히 말씀하신 전처리와 관련된 부분에 대해서 언급하자면 사실 답이 없습니다. 왜냐하면 우리가 데이타를 수집하고자 하는 대상 시스템들은 데이터를 처리하거나 분석을 하기 이전에 이미 개발이 진작에 완료되어 운영되고 있는 것들이 대부분이기 때문에 해당 수집 대상이 되는 시스템별로 ETL을 처리하기 위한 스크립트나 분산수집기 개발을 할 수 밖에 없을 것입니다. 외국의 사례를 보면 무언가 공통으로 활용되는 data aggregator framework 을 언급하기도 하고 실제도 상용으로 파는 제품들도 있는 것으로 압니다. 하지만 대부분 잘 알려진 웹로그 포맷, 데이터베이스 커넥터를 중심으로 구현되어서 제공되는 것들이고 실제 실무에서 운영되는 시스템을 들여다보면 그 연동되는 인터페이스가 상이한 경우도 있고 메타데이터들도 제대로 통합되어 있지 않고 당연히 ID체계들도 제대로 연계가 안되어 있는 경우가 대부분일 것입니다.

      따라서 시스템을 설계할 때 어느 부분까지 분석시스템의 경계로 가져갈 것이며, legacy 시스템은 그렇다하더라고 향후 시스템에서는 표준적인 인터페이스나 연동규약을 어떻게 가져갈 것인지를 우선 정하는 것이 가장 중요하다고 생각됩니다.
      물론 이러한 시스템들은 때론 살아움직이는 것 같아서 변경이 생기면 늘상 대응을 해야하지요. 제 경험으로는 연동 부분은 시스템의 규모, 또는 회사의 규모가 어느정도 되는 경우 한두가지로 통합하기가 매우 어렵습니다. 가능하기 위해서는 이에 대한 높은 분(?)들의 의사결정과 상당한 비용이 수반될 것입니다.

      특히나 연동의 경우 다운타임이 발생할 수 있습니다. 문제는 이를 어떻게 하면 시간을 되돌려서 처리할 수 있도록 하는가에 대해서 고려를 해야 할 것입니다. 데이터를 주는 쪽과 받는 쪽 양쪽에 여유의 스토리지 공간을 두어서 장애가 발생할 것을 대비해서 최근 며칠동안의 연동 데이터를 보관하는 방법이라든가 직접 데이터를 주고 받기 보다는 데이터만을 연동하는 서버를 양쪽에 두어서 데이터의 유실을 막는 것도 또 하나의 방법입니다.

      그리고 질문하신 내용은 저희도 사실 마찬가지로 부딛히는 문제이고 지금도 해결을 하고 있습니다.
      좀 위안이 되시라고 말씀드리자면 저희가 기존 DW 체계에서 하둡이라는 체계로 옮겨가는데 만 3년이 넘게 걸렸답니다. 데이터가 워낙에 크고 기존의 로직이나 프로세싱을 제대로 validation 하면서 하다보니 이렇게 오래 걸렸죠. 아마 비슷한 환경에서 마음은 급하시고 그러실테지만 데이터가 어느정도 커지만 이게 만만한 일이 아니죠.

      저도 님의 댓글을 보면서 많이 배웠네요. 감사합니다.

      • Taeyoung Koh댓글:

        와우~!!! 친절한 설명 감사드립니다. 언젠가 견학 좀 하고 싶어지는군요. ㅋ~
        즐거운 주말 되세요~!!! +___+

      • kimws댓글:

        저희가 요즘 사람도 채용합니다 …

  5. 핑백: 빅데이터- 리눅스 열풍과 닮았다? :: Channy's Blog

  6. zootyducky댓글:

    좋은 글 정말 잘 읽었습니다! 감사합니다.

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 /  변경 )

%s에 연결하는 중