빅데이터 시대의 정보시스템, 데이터 중심으로 패러다임 쉬프트를 생각할 때

오늘은 오래 전 얘기로 시작해볼까 합니다. 제가 처음 회사 생활을 시작한 것이 90년이니까 벌써 23년이 훌쩍되어 가는 것 같네요. 당시에 제가 들어간 부서는 CAD/CAM 연구소라는 곳이였습니다. 말이 CAD/CAM이 였지만 이외에도 CAE(Computer Aided Engineering) 이라고 해서 컴퓨터를 이용해서 다양한 기계, 전자회로등에 대한 시뮬레이션 역시 하는 부서였었죠. 지금도 당시의 선배들이 여전히 그 회사에 열심히 다니시고 계시죠. 물론 하는 일들은 조금씩 달라졌지만요.

각설하고 처음 제가 하던 일은 캐드파일을 변환하고 관리하는 소프트웨어를 개발하는 것이였습니다. 실제 제품 설계를 하고 있는 엔지니어들을 지원하는 소프트웨어 지원과 구축을 도맡아 할 때였습니다. 그 때 제가 하던 말이 지금도 생각이 납니다. 당시에 여전히 제도기를 이용해서 종이에 설계도를 그리고 소위 블루프린터를 만들어서 배포하고 그러던 때였는데 그 분들한테 어떻게든 캐드 시스템으로 작성해서 컴퓨에 저장만 해놓으면 잘 정리해서 쉽게 찾고 설계변경등이 용이하게 해주겠다고 말하고 다녔습니다. 네, 여기서 핵심은 바로 “캐드 파일 형태로 만들어 컴퓨터에 제발 넣어주세요!”  이렇게 시작한 일이 도면을 관리하고 관련 정보를 데이터베이스에 저장하고 (기억에 오라클 5 인가 6인가 부터 썼던 것 같은데 암튼.) 변경관리를 하고 워크플로우를 만들고 결재 시스템과 연동하고 등등 이러한 일들을 하게 되었죠. 이게 요즘 업계에서 말하는 PLM (Product Lifecycle Management) 의 시초라 할 수 있었던 것 같습니다. ERP 하면 SAP/R3 라는 것이 등장한 것도 한참 뒤의 일입니다.

이것이 불과 20여년 전에 기업에서 일어나고 있었던 일입니다. 당시에는 대부분의 정보들이 여전히 수기로 기록되고 워드프로세스들이 사용되기는 했으나 결재시스템과 연계가 제대로 되지 못하고 있었지요. 하지만 지금은 어떤가요? 너무나도 많은 정보, 데이터들이 기업에서 만들어지고 있습니다. 웹서비스가 만들어내는 데이터에 비해서 상대적으로 작다고 말할 순 있겠지만 이미 전세계의 기업들이 온갖 IT 시스템에 의해서 만들어지는 데이터들은 어마어마하고 국내의 대기업들이 내부에서 사용하고 있는 시스템들은 수백, 수천가지에 이르고 있죠. 생산설비에서부터 마케팅, 세일즈, 고객 정보 , 제품 정보 등등해서요.

그런데 이러한 데이터들의 특징은 기업 내부의 다양한 업무 프로세스나 생산 공정 그리고 체계적인 보고와 예측을 위해서 사전에 잘 정의된 체계 아래에서 저장되고 관리된다는 점입니다. 다시 말하면 각 시스템 자체가 분명한 목적과 틀을 가지고 만들어 졌으며 그 목적에 부합되도록 꾸준히 업그레이드 되거나 유지보수가 되는 그러한 시스템들이 만들어내는 데이터들이라는 것입니다. 이러한 시스템 통합을 위해서도 역시 잘 정의한 프로세스와 규약 아래에서 데이터베이스의 스키마가 정의되고 비지니스 로직이 적용되고 이를 위한 다양한 프레임워크나 플랫폼등이 도입되고 적용되는 것이죠. 그렇기 때문에 사전에 기존 업무를 분석하거나 이를 바탕으로 프로세스를 시스템 하기도 하고 새로운 업무 프로세스나 혁신 업무를 지원(보통 PI , Process Innovation 라고도 하죠) 하기 위해서 시스템이 함께 고려되고 구축되는 경우가 많습니다. 참고로 EP(Enterprise Portal),  메세징 허브 , SOA (Service Oriented Architecture) 이러한 것들은 바로 기업내의 복잡한 시합과 연동을 위해서 제안된 기술 또는 아키텍처라고 할 수있습니다.

소위 레거시 시스템이라고 하는 이러한 정보 시스템에 빅데이터라고 하는 것을 도입하고자하면 어떻게 해야 할까요? 하둡을 적용해서 ? NoSQL 을 적용해서? 이미 이러한 시스템들이 다루고 있는 많은 데이터들은 RDBMS 에 잘 저장되고 관리되고 있는데 여기에 어떤 여지가 있을까요? 여기서 무언가를 해야 할까요? 아무튼 데이터가 무지무지 많으니까 빅데이터 아니냐 할 사람도 있을 것 같고. 빅데이터이고 머고 다 과장된 마케팅 용어라 말하고 이미 우리는 어마어마한 데이터를 이러한 시스템에 담고 있다고 말하는 분들도 있을테지요. 머 간혹 CRM 을 하는 분들이 이거 예전에 한 거랑 머가 다른데 하는 분들도 당연히 계실 것 같네요. (이 말은 G사 대표님이 늘 해주시던 말이라서 살짝 인용하겠습니다. ^^)

사실 많은 기업, 특히 대기업들이 빅데이터를 도입할 때의 딜레마는 이러한 점에서 오지 않을까 생각해봅니다. 즉 체계적인 업무 정의와 이를 바탕으로 구현된 시스템이 만들어내는 데이터를 기반으로 요즘 말하는 빅데이터의 가치를 찾아 낼 수 있을 것인가 하는 것이죠.

단적으로 말하면 사실상 어려울 것입니다. 단순히 대용량 데이터를 처리하는 기술을 도입해서 이를 통해서 찾을 수 있는 비용절감 이 외의 부가 가치를 만들어낼 수 있느냐 하는 질문에 자신있게 답을 할 수 없다는 얘기입니다. 제가 왜  장황하게 제 과거의 한 일들과 기업의 정보 시스템에 대해서 간단히 언급을 한 것은 이 점을 강조하기 위해서 입니다. 기존의 정보시스템이라는 프레임 안에서 교육을 받고 개발을 하고 운영을 하던 많은 사람들의 사고체계와 시스템 체계 안에서는 쉽사리 빅데이터라는 것을 제대로 받아들이고 수용해서 새로운 가치를 찾기가 어렵다는 말입니다. 이 점에 있어서는 저 역시 이러한 관성을 크게 가지고 있는 사람이여서 마찬가지라고 생각이 듭니다만…

다시한번 간단히 정리하면 이렇습니다. 대부분의 기업 데이터들은 필요한 업무 프로세스를 지원하기 위해서 정의된 정보 시스템에서 만들어진것이다. 데이터가 어떻게 생성되고 어떤 프로세스에 의해서 만들어지는가가 명확합니다. 그 만들어지는 데이터의 범위와 양도 충분히 예측이 가능하죠.

제 블로그나 기타 빅데이터에 대한 글을 보신 분은 3V(Volume, Velocity, Variaty 또는 4V(+ Value) 이런 얘길 많이 들어보셨을테지만 정말 중요한 것은 바로 데이터가 어디에서 어떻게 만들어지는가입니다. 공교롭게 빅데이터라고 하는 대용량의 데이터들은 앞서 말한 잘 정의된 프로세스와 스키마 안에서 만들어지는 데이터들이 아닙니다. 오히려 구글은 온갖 웹상의 문서를  크롤(자신들이 정의하지도 직접 만들지도 않은) 해서 거대한 빅데이터 플랫폼을 바탕으로 검색 서비스와 검색 광고 시장을 잡고 있습니다. 페이스북이나 트위터 역시 데이터를 만들어내는 플랫폼만을 제공하지 그 안에서 만들어내는 데이터와 친구관계라는 정보는 사용자들에 의해서 생성되고 이를 바탕으로 역시 광고나 새로운 서비스를 선보이고 있구요. 페이스북이나 트위터 역시 사용자들의 행태를 보고 서비스를 바꾸어나가는 것이지 꽉 짜여진 틀안에서만 데이터를 입력하게 하고 있지 않습니다. 오히려 더 다양한 데이터를 담을 수 있도록 노력하고 있다는 것을 알 수 있을 것입니다. 아마존이나 네플릭스와 같은 추천 엔진들 역시 고객들의 거래 정보를 바탕으로 이루어지는 것이고 이 정보 역시 원래 서비스가 제공하는 프로세스와는 별도로 저장되던 고객의 거래 정보를 활용해서 적용된 것입니다. (아마존의 추천 시스템을 적용한 엔지니어에게 제프 베조스가 무릎을 꿇고 경의를 표했다는 얘기도 들리던데..) 그래서 빅데이터에 많이들 강조하는 것이 데이터에서 그 가치를 찾아내는 것이라고 말하기도 하고 ‘오일’ 이라고도 표현하기도 하죠.

미묘하지만 바로 여기서 패러다임의 전환이 필요합니다. 미리 잘 정의된 프로세스와 데이터 스키마에서 만들어지는 데이터라는 것은 이미 그 가치가 프로세스가 잘 돌아가게 만들어진 그 시스템에 부여된 것이지만 빅데이터라고 하는 것은 그게 무엇이든 데이터로 시작해서 그 데이터를 기반으로 가치를 찾아내는 것이라고 생각하면 됩니다.

좀더 쉽게 이해하기 위해서 다른 예를 들어보겠습니다.  전파망원경이나 입자가속기에 대해서 들어보셨을텐데요.  이러한 측정 장비들은 하루에 수PB 의 데이터를 생성하고 있습니다. 그런데 이러한 기기와 데이터를 처리하고 연구하는 50여명의 몇 안되는 과학자들을 위해서 천명이 넘는 소프트웨어 엔지니어들이 이런 데이터를 저장하고 분석할 수 있는 소프트웨어 개발을 합니다. 비록 극단적인 예가 될 수 있겠지만 바로 엄청난 데이터 속에서 가설을 정의하고 이 가설을 뒷받침하는 정보를 찾아내기도 하지만  이제는 더 나아가 이러한 소프트웨어 프레임워크와 도구를 이용 대용량 데이터를 다양하고 빠르게  분석함으로써 새로운 이론을 이끌어내고 있다는  것입니다.

과학계쪽의 기존 방법론은 우선 이론을 정립하고 식을 만들고 이를 뒷받침하는 실험이나 관찰을 통해서 입증하는 것이였다면 이제는 엄청난 측정 장비와 대용량 데이터를 기반으로 거꾸로 새로운 이론이나 가치를 찾아내고 있는 것입니다. 그리고 이를 지원하는 소프트웨어라는 것이 데이터를 잘 수집하고 분석하고 시각화 할 수 있는 도구라는 점이 기존의 프로세스 중심의 시스템과 큰 차이가 있습니다.

여전히 많은 사람들이 빅데이터가 무엇인가에 대해서 혼란스러워하고 각기 다르게 해석하는 큰 이유가 기존의기업시스템이나 정보시스템의  패러다임에 고착되어 있어서가 아닐까 생각됩니다.

이러한 관점에서 본다면 빅데이터라고 하는 (사실 data-driven , data-intensive 라는 말이 더 정확한 표현이 아닐까 생각 합니다만) 것은 이제 시작일지 모릅니다. 하둡(Hadoop_ 이라는 것이 이제 비로소 이러한 패러다임 전환을 뒷받침할 수 있도록 상대적으로 저렴한 비용으로 빅데이터를 처리하는 데이터 플랫폼의 시초가 되는 것은 아닐까 하는 생각이 드는 것이죠.  여전히 대용량 데이터에 대한 분석 도구, 분석 알고리즘,  시각화 도구들이 여전히 부족합니다. 당연하지만 이러한 기술과 전문 인력을 가진 구글, 아휴, 페이스북과 같은 회사들이 이 분야에서 크게 두각을 나타내고 있습니다.

이러다보니 많은  기업들이 이들을 쫒아가려하지만 근본적인 역량 확보와 접근에 있어서 한계를 가질 수 밖에 없다고 봅니다. 또한 고객의 사용 정보나 센서 정보들이 충분히 축적되어 있지 않다보니 플랫폼이나 빅데이터 분석 도구에 대한 니즈에 대해서 깊이 고민할 기회도 없었을 것입니다. 최근 빅데이터의 트랜드에 편승해 서둘러 빅데이터 플랫폼을 구축하지만 분석은 커녕 충분히 저장된  데이터는 하나도 없을 수도 있을 겁니다.

그래서 웹서비스 기업(포털, 게임회사 등) 들 ,  통신회사들은 하둡과 같은 빅데이터 기술 도입을  빠르게 진행하고 나름 수혜를 받고 있는 반면에 전통적인 일반 기업에서의 빅데이터 도입은 쉽지 않을 뿐더러 그 사례를 찾기가 쉽지 않은 이유이기도 합니다.

아무튼 프로세스 중심(Process-Driven)의 정보시스템에서  이제 데이터 중심의(Data-Driven) 정보시스템으로 바뀌는 시대가 되었습니다

여러분들은 갈아 탈 준비되셨나요?

덧,  The Fourth Paradigm 이 책 한번 읽어 보세요. 이번 포스팅을 쓰게 된 동기가 되었는데요.  다 볼 필요는 없고 샘플을 킨들로 받아서 서문만 읽어봐도 좋을 듯 싶습니다.

The Fourth Paradigm

Advertisements
이 글은 Books, IT 카테고리에 분류되었습니다. 고유주소 북마크.

빅데이터 시대의 정보시스템, 데이터 중심으로 패러다임 쉬프트를 생각할 때에 1개의 응답

  1. kenuheo댓글:

    좋은 경험 감사합니다.
    킨들 앱에서 볼 수 있겠네요. ^^b

답글 남기기

아래 항목을 채우거나 오른쪽 아이콘 중 하나를 클릭하여 로그 인 하세요:

WordPress.com 로고

WordPress.com의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Twitter 사진

Twitter의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Facebook 사진

Facebook의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

Google+ photo

Google+의 계정을 사용하여 댓글을 남깁니다. 로그아웃 / 변경 )

%s에 연결하는 중