에버노트에 쓰여져 있던 빅데이터(Big Data) 에 대한 단상…

오늘 에버노트를 정리하다가 적혀 있는 빅데이터에 대한 이것저것 작성해 놓은 것이 있어서 공유합니다.  보통은 제가 경어체를 쓰는데 저 혼자 정리한 것이다 보니 말투가 좀 그렇습니다. 이해해주시길 바랍니다. 제 블로그를 통해서 했었던 말들이고 중언부언이지만. 아마 발표자료 준비를 하다가 생각나는데로 적어 놓았던 것 같은데요.

 

올해 혹시나 빅데이터 프로젝트 하시는 분들 다시 한번 잘 생각해보세요. 정말 해야 하는 프로젝트인지 말이죠. ^^

  • 빅 데이터는 솔루션으로 해결할 수 있는가?
    • 기존의 IT 기술과 차이점은 어떤 것이 있는가?
      • 당연히 기업의 가장 은밀하고 중요한 내부 데이터를 함부로 외부에 공개할 수가 없다
      • 외부의 전문가 , 개발자들이 프로젝트로 참여해서 이러한 데이터를 다루고 처리하는 것이 쉬운 일이 아니다.
        • 역량이 쌓이지도 않는다. 기술 내재화가 필요한 것이다.
      • 데이터를 쉽게 수집하고 저장하기 위해서 하둡이라는 것이 규모가 커지기 시작하면 생각보다 그렇게 간단치 않다
      • 끓임없는 시행착오와 최적화 작업이 필요한 것이다. 소프트웨어, 하드웨어, 프레임워크, OS 모두를 고려한 엔지니어링이 필요하다
      • 그래서! 여건이 된다면 잘 알려진 오라클, DB2 등과 같은 고가의 상용 데이터베이스 시스템과 관련 솔루션등을 구매해서 활용한다
      • 매우 잘 표준화되어 있고 관련 기술 교육도 용이하고 인력 확보도 상대적으로 쉽다. 벤더들이 열심히 교육도 시켜준다.
    • 하둡과 빅데이터 기술은
      • 소프트웨어 기술과 시스템 기술이 결합되어서 활용될 수 밖에 없다
      • 이러한 인력이 국내에는 많지 않다
      • 너무나도 잘 분업화되어 있다보니 양쪽을 이해하고 최적화할 수 있는 DevOps 역할을 할 수 있는 인력이 적다
      • 특히 국내에서는 시스템 엔지니어에 대한 대우나 평가가 소프트웨어 엔지니어어 비해서 더욱 좋지 않고
      • 좋은 인력 양성도 되어 있지 않다. 많은 시스템 엔지니어들이 매우 단순한 작업에 매진하고 있다
      • 이러다보니 표준화되어 있는 데이터베이스, 운영체계에 익숙한 인력들만 있고
      • 빅데이터 기술을 최적화하고 엔지니어링할 수 있는 인력 확보는 매우 어려운 것이 현실이다
      • 실제 현업에서 더욱 이러한 문제에 많이 부딪히고 있다
      • 그래서 포털회사나 게임회사에는 이러한 경험과 기술을 가지고 있는 고급 인력들이 있으나 그 외에는 찾기가 쉽지 않다.
      • 최근에 이러한 기술 인력들에 대한 대우들이 좋아지고는 있다.
      • 빅데이터에 대한 기술은 외부에서 가져오는 것이 아니라 내부에서 역량을 쌓고 노하우를 쌓아야 하는 것이다.
      • 대용량 데이터가 없다면 역량이 쌓일리가 없다. 그냥 좋은 컴퓨터와 스토리지로 해결하는 것이 훨씬 낫다.
      • 이러한 점을 간과하면 프로젝트를 실패하기 쉽게 국내의 많은 벤더들이 이러한 기술을 갖추고 있는 엔지니어들을 확보하지 못해서 실제 빅데이터 비지니스를 하지 못하고 있다.
  • 국내에 페타급 데이터를 보유하고 처리할 니즈가 있는 곳이 얼마나 될 것인가?
    • 앞으로는 빅데이터 트랜드에 따라서 늘어나겠지만 실제 페타바이트를 처리할 니즈가 있는 곳은 별로 없다
    • 이것이 바로 빅데이터 트랜드에서의 함정이라고 할 수 있다
    • 많은 데이터 분석 솔루션 업체들은 데이터의 크기보다는 데이터의 특성을 잘 활용해서 분석하고 예측하는데 그 노력을 기울이고 있다. 하지만 … 이것 역시 한계가 있다
    • 빅데이터는 역시나 빅데이터이다. 대용량 데이터를 가지고 있고 이를 통해서 가치있는 정보를 찾아내고 이를 이용해서 기업활동에 활용할 수 있어야 하는 것이다
    • 빅데이터는 기존 통계, 예측해서 말하는 샘플링이 아니라 ‘모수’ 그 자체를 다루는 기술이라고 말할 수 있기 때문이다
    • 데이터가 많지 않다면 차라리 기존의 데이터베이스 솔루션과 분석 솔루션을 활용하는 것이 바람직하다
    • 어설프게 빅데이터 기술을 적용하면 오히려 시스템은 복잡해지고 비용만 급증하게 되는 애물단지가 될 수밖에 없다
  • 작은 기업에서의 빅데이터 활용
    • MySQL 과 같은 오픈소스 데이터베이스와 함께 운영되는 데이터 분석 플랫폼. 그런데 MySQL 보다 더 큰 규모의 데이터를 가지고 있는 경우 검토.
    • 너무 큰 규모의 클러스터 구축은 피해야 한다. 차라리 클라우드 컴퓨팅 서비스를 이용할 생각해야 한다.
    • 글로벌 서비스를 준비하는 스타트업들에 있어서는 고려해볼 필요가 있다
  • 작게 그리고 단계적인 접근이 필요하다
    • 내재화 할 수 있는 인력을 갖추고 있지 않으면 시작하지 마라
    • PILOT 과 실제 적용은 크게 다를 수 있다
    • 시스템의 규모가 커지면 분산컴퓨팅과 규모에 따른 다양한 문제점에 부딪히게 된다.
    • 기술이 아니라 노하우다
    • 그것은 바로 각 기업이 다루는 데이터의 규모와 특성에 따라 달라질 수 밖에 없기 때문이다.
    • RDBMS 와의 연동, 병행을 반드시 생각해야 한다.
    • 레거시 시스템은 늘 고민거리다
  • SQL은 영원하다
    • 빅데이터 솔루션들은 그 위에 SQL 을 지원하도록 진화하고 있다
    • TABLE 이라고 하는 로지컬 모델은 여전히 강력한 도구이다
    • 기존의 분석 인력들이 손쉽게 활용이 가능하게 되었다
    • 하지만 호수의 백조처럼 그 아래의 DevOps 의 역할은 최적화를 위해서 더욱 커지게 된다.
    • Tools
      • Apache Hive
      • Cloudera Impala
      • Teradata Aster’s SQL-H
      • EMC Pivotal HD , HAWQ
      • Informatica
      • 이 밖에도 참 많다.
이 글은 IT 카테고리에 분류되었고 , 태그가 있습니다. 고유주소 북마크.

댓글 남기기