에버노트에 쓰여져 있던 빅데이터(Big Data) 에 대한 단상…

오늘 에버노트를 정리하다가 적혀 있는 빅데이터에 대한 이것저것 작성해 놓은 것이 있어서 공유합니다. 보통은 제가 경어체를 쓰는데 저 혼자 정리한 것이다 보니 말투가 좀 그렇습니다. 이해해주시길 바랍니다. 제 블로그를 통해서 했었던 말들이고 중언부언이지만. 아마 발표자료 준비를 하다가 생각나는데로 적어 놓았던 것 같은데요.

올해 혹시나 빅데이터 프로젝트 하시는 분들 다시 한번 잘 생각해보세요. 정말 해야 하는 프로젝트인지 말이죠. ^^

빅 데이터는 솔루션으로 해결할 수 있는가?
- 기존의 IT 기술과 차이점은 어떤 것이 있는가?
  - 당연히 기업의 가장 은밀하고 중요한 내부 데이터를 함부로 외부에 공개할 수가 없다
  - 외부의 전문가 , 개발자들이 프로젝트로 참여해서 이러한 데이터를 다루고 처리하는 것이 쉬운 일이 아니다.
    - 역량이 쌓이지도 않는다. 기술 내재화가 필요한 것이다.
  - 데이터를 쉽게 수집하고 저장하기 위해서 하둡이라는 것이 규모가 커지기 시작하면 생각보다 그렇게 간단치 않다
  - 끓임없는 시행착오와 최적화 작업이 필요한 것이다. 소프트웨어, 하드웨어, 프레임워크, OS 모두를 고려한 엔지니어링이 필요하다
  - 그래서! 여건이 된다면 잘 알려진 오라클, DB2 등과 같은 고가의 상용 데이터베이스 시스템과 관련 솔루션등을 구매해서 활용한다
  - 매우 잘 표준화되어 있고 관련 기술 교육도 용이하고 인력 확보도 상대적으로 쉽다. 벤더들이 열심히 교육도 시켜준다.
- 하둡과 빅데이터 기술은
  - 소프트웨어 기술과 시스템 기술이 결합되어서 활용될 수 밖에 없다
  - 이러한 인력이 국내에는 많지 않다
  - 너무나도 잘 분업화되어 있다보니 양쪽을 이해하고 최적화할 수 있는 DevOps 역할을 할 수 있는 인력이 적다
  - 특히 국내에서는 시스템 엔지니어에 대한 대우나 평가가 소프트웨어 엔지니어어 비해서 더욱 좋지 않고
  - 좋은 인력 양성도 되어 있지 않다. 많은 시스템 엔지니어들이 매우 단순한 작업에 매진하고 있다
  - 이러다보니 표준화되어 있는 데이터베이스, 운영체계에 익숙한 인력들만 있고
  - 빅데이터 기술을 최적화하고 엔지니어링할 수 있는 인력 확보는 매우 어려운 것이 현실이다
  - 실제 현업에서 더욱 이러한 문제에 많이 부딪히고 있다
  - 그래서 포털회사나 게임회사에는 이러한 경험과 기술을 가지고 있는 고급 인력들이 있으나 그 외에는 찾기가 쉽지 않다.
  - 최근에 이러한 기술 인력들에 대한 대우들이 좋아지고는 있다.
  - 빅데이터에 대한 기술은 외부에서 가져오는 것이 아니라 내부에서 역량을 쌓고 노하우를 쌓아야 하는 것이다.
  - 대용량 데이터가 없다면 역량이 쌓일리가 없다. 그냥 좋은 컴퓨터와 스토리지로 해결하는 것이 훨씬 낫다.
  - 이러한 점을 간과하면 프로젝트를 실패하기 쉽게 국내의 많은 벤더들이 이러한 기술을 갖추고 있는 엔지니어들을 확보하지 못해서 실제 빅데이터 비지니스를 하지 못하고 있다.
국내에 페타급 데이터를 보유하고 처리할 니즈가 있는 곳이 얼마나 될 것인가?
- 앞으로는 빅데이터 트랜드에 따라서 늘어나겠지만 실제 페타바이트를 처리할 니즈가 있는 곳은 별로 없다
- 이것이 바로 빅데이터 트랜드에서의 함정이라고 할 수 있다
- 많은 데이터 분석 솔루션 업체들은 데이터의 크기보다는 데이터의 특성을 잘 활용해서 분석하고 예측하는데 그 노력을 기울이고 있다. 하지만 … 이것 역시 한계가 있다
- 빅데이터는 역시나 빅데이터이다. 대용량 데이터를 가지고 있고 이를 통해서 가치있는 정보를 찾아내고 이를 이용해서 기업활동에 활용할 수 있어야 하는 것이다
- 빅데이터는 기존 통계, 예측해서 말하는 샘플링이 아니라 ‘모수’ 그 자체를 다루는 기술이라고 말할 수 있기 때문이다
- 데이터가 많지 않다면 차라리 기존의 데이터베이스 솔루션과 분석 솔루션을 활용하는 것이 바람직하다
- 어설프게 빅데이터 기술을 적용하면 오히려 시스템은 복잡해지고 비용만 급증하게 되는 애물단지가 될 수밖에 없다
작은 기업에서의 빅데이터 활용
- MySQL 과 같은 오픈소스 데이터베이스와 함께 운영되는 데이터 분석 플랫폼. 그런데 MySQL 보다 더 큰 규모의 데이터를 가지고 있는 경우 검토.
- 너무 큰 규모의 클러스터 구축은 피해야 한다. 차라리 클라우드 컴퓨팅 서비스를 이용할 생각해야 한다.
- 글로벌 서비스를 준비하는 스타트업들에 있어서는 고려해볼 필요가 있다
작게 그리고 단계적인 접근이 필요하다
- 내재화 할 수 있는 인력을 갖추고 있지 않으면 시작하지 마라
- PILOT 과 실제 적용은 크게 다를 수 있다
- 시스템의 규모가 커지면 분산컴퓨팅과 규모에 따른 다양한 문제점에 부딪히게 된다.
- 기술이 아니라 노하우다
- 그것은 바로 각 기업이 다루는 데이터의 규모와 특성에 따라 달라질 수 밖에 없기 때문이다.
- RDBMS 와의 연동, 병행을 반드시 생각해야 한다.
- 레거시 시스템은 늘 고민거리다
SQL은 영원하다
- 빅데이터 솔루션들은 그 위에 SQL 을 지원하도록 진화하고 있다
- TABLE 이라고 하는 로지컬 모델은 여전히 강력한 도구이다
- 기존의 분석 인력들이 손쉽게 활용이 가능하게 되었다
- 하지만 호수의 백조처럼 그 아래의 DevOps 의 역할은 최적화를 위해서 더욱 커지게 된다.
- Tools
  - Apache Hive
  - Cloudera Impala
  - Teradata Aster’s SQL-H
  - EMC Pivotal HD , HAWQ
  - Informatica
  - 이 밖에도 참 많다.

에버노트에 쓰여져 있던 빅데이터(Big Data) 에 대한 단상…

댓글 남기기 응답 취소

글목록

그 밖의 기능

에버노트에 쓰여져 있던 빅데이터(Big Data) 에 대한 단상…

이 글 공유하기:

관련

댓글 남기기 응답 취소

글목록

그 밖의 기능