코끼리등에 올라탄 데이터 솔루션 벤더들 (SQL on Hadoop)

요즘 빅데이터 기술 트렌드에서 주목할 것이 무엇이냐고 한다면 이것이겠죠?

최근에 빅데이터 솔루션 업체들이라고 나서는 기업들중에는 상당수가 기존 데이터베이스, 데이터웨어하우스의 강자들이 많이 있습니다. Oracle, EMC, IBM, Microsoft, Teradata, SAS 심지어 최근에는 Intel 들이 바로 그러한 회사들이이죠. 이 뿐만아니라 오픈소스의 데이터베이스에 있어서도 빅데이터 기술의 연동을 강조하면서 하나같이 하둡(Hadoop)과의 연동과 통합을 강조하고 있다는 것을 알 수 있습니다.

그러면서 하둡이 해결해주지 못하고 있는 실시간 OLTP 기능 , 즉 MapReduce 기반의 성능떨어지는 Hive을 대신해서 자신들이 원래 강점을 가지고 있는 SQL 기반의 데이터 분석 엔진을 하둡위에 올리거나, 통합한 데이터 분석 솔루션들을 시장에 여기저기서 내놓고 있습니다. 클라우데라의 임팔라(Impala)도 사실 시장의 니즈에 맞추어서 이러한 SQL Stack을 자체개발한 거라고 볼 수 있지만 사실 이 분야의 선수들은 따로 있었죠.

흥미로운 것은 이러한 시장 요구사항에 맞추어서 Hortonworks 역시도 Hive 자체의 성능을 개선함으로써 별도의 OLTP(SQL) 스택이 필요없다고 주장하면서 착수한 프로젝트가 바로 Stinger 라고 보시면 됩니다만 결국 이것도 내부적으로는 MapReduce 을 사용하지 않도록 프로세싱 프레임워크를 바꾸고 있습니다.

아래 첨부한 그림을 보시면 아시겠지만 대부분 자신들의 솔루션밑에 데이터 스토리지는 공통적으로 HDFS을 사용하고 자신들의 OLTP(SQL) 병렬처리 엔진을 결합한 것을 알 수 있습니다.

그런데 이런 생각을 해보았습니다. 만일 Stinger 과제가 성공적으로 완료 된다면 (현재 속도의 100배를 약속) 이러한 솔루션 벤더들이 제공하는 별도의 SQL Stack 이 필요할까? 라는 것이죠.

이렇듯 기존 데이터 솔루션 업체들이 부랴부랴 하둡과의 연동을 서둘러 발표하는 것은 새로운 고객과 시장을 찾아나서기보다는 기존에 확보한 자신들의 고객을 지키기위해서 서둘러 빅데이터 솔루션을 만들어내고 있는 것은 아닐까 생각이 들더군요.

여담이지만 국내에서도 어설픈 많은 SI 업체들이 올해 빅데이터 전문기업으로 탈바꿈(?) 하고 있다고 들었는데요. 외국 역시 머 크게 다르겠습니까? 다 먹고 살자고 하는 것이테니까요.

아무튼 Stinger 과제가 성공적으로 이루어져서 Hive의 성능을 “날”로 먹었으면 좋겠습니다. 소문에 의하면 RCFile만 적용해도 10배 빨라진다는데 …

코끼리등에 올라탄 데이터 솔루션 벤더들 (SQL on Hadoop)

코끼리등에 올라탄 데이터 솔루션 벤더들 (SQL on Hadoop)에 1개의 응답

댓글 남기기 응답 취소

글목록

그 밖의 기능

코끼리등에 올라탄 데이터 솔루션 벤더들 (SQL on Hadoop)

이 글 공유하기:

관련

코끼리등에 올라탄 데이터 솔루션 벤더들 (SQL on Hadoop)에 1개의 응답

댓글 남기기 응답 취소

글목록

그 밖의 기능