작년 뉴욕 Hadoop World 참관에 이어 두번째로 데이터 기반 비즈니스에 대한 콘퍼런스로 유명한 Strata 2012를 위해 샌프란시스코를 다녀왔습니다.
요즘 버즈워드로 뜨고 있는 “빅데이터(Big Data)”라는 열풍 때문에 예년과 달리 2천여명의 참가자가 운집하였고, 업계 최고 벤더와 데이터 스타트업들이 참여하였습니다.
과거와 달리 최근에 기술 콘퍼런스는 모두 개방형으로 Strata 2012 역시 주요 키노트와 세션을 생중계도 해주고 하루만 지나면 발표 자료와 동영상을 올려 줍니다.
따라서, 정보 큐레이션의 목적으로 옛날 같이 후기 남기고 하는 게 별 의미가 없는 일입니다. 그냥 온라인에서 직접 보면 되니까요. 다만, 콘퍼런스를 오는 주요 목적은 짧은 시간에 이 동네 분위기를 파악하거나 사람들과의 네트워킹이 주요 목적입니다.
오랜만에 실리콘 밸리 다녀 온 김에 제가 이 이슈를 어떻게 보는지 생각을 정리하고 공유해 보면 좋겠다 싶네요.
우선 제가 빅데이터를 이야기하니까 웬 오지랖인지 궁금해 하실 분들이 계실 듯하여 간단히 이야기하자면, 2009년에 학교로 가면서 연구 과제를 하나 맡았는데 바로 클라우드 환경에서 그 당시 초기 버전의 Hadoop을 이용한 시맨틱 웹 검색 엔진을 설계하고 구현하는 일을 시작했죠. 연구 과제를 꾸준히 하다보니 3년이 지나 이제 빅데이터가 뜨고 있는데 그나마 풍월을 읊게 되었지요.
해아래 새로운 것은 없다?
요즘 “빅 데이터”라는 용어가 이렇게 까지 뜬것은 오픈 소스 기반 스타트업과 메이저 벤더들의 합작품이라는 생각이 강하게 듭니다. 과거에도 빅데이터는 있었고, 이를 분석하는 시스템과 소프트웨어는 있었지요.
다만, 장비나 SW 가격이 비쌌고 이를 이용하는 업체는 대형 기업으로 한정되어 있습니다. Daum만 해도 로그 분석이나 데이터 분석을 하는 슈퍼돔급 장비와 SAS 및 OLAP 소프트웨어가 이미 있었습니다. (물론 지금은 Hadoop으로 모두 옮겨가고 있는 중입니다.)
많은 분들이 처리할 데이터 사이즈가 커졌다거고 하는데, 그걸 체감할 수 있는 회사는 몇 되지 않습니다. 다만, 과거에 저장 공간이 부족하고 비용이 높아서 아예 처리 못하던 데이터, 흔히 말해 사용자 로그를 하던 일을 오픈 소스 소프트웨어와 중형급 장비만 가지고도 좀 더 저렴한 값에 할 수 있게 되었다는 게 큰 차이점이죠.
따라서 데이터 분석의 진입 장벽이 크게 낮아진 것은 사실이고 흔히 “스몰 데이터”를 소유하고 있는 중소 기업도 데이터 분석 시장에 눈을 돌릴 수 있으니 마케팅 용어 하나 띄워서 제품을 사게 유혹하는 것이 시장의 생리일 것 같습니다.
오픈 소스가 만든 또 하나의 혁신
여기서 데자뷰가 일어나는데, 과거 유닉스 시장에서 서버를 팔아먹던 업체들이 리눅스라는 걸출한 오픈 소스 운영체제가 나오면서 x86급의 저사양 서버들을 다양한 스타트업과 대형 업체 시장에 진입한 것과 크게 다르지 않습니다. 그 당시 HW 및 SW 시장의 변화의 방아쇠를 당긴 건 바로 인터넷 포털로 대변되는 웹 서비스 시장의 폭발적 성장 덕분이었습니다.
지금도 그 양상은 크게 다르지 않습니다. 구글의 GFS에서 아이디어를 도용(?)해서 만든 Hadoop이라는 오픈 소스 소프트웨어가 있고, 트위터, 페이스북과 같은 일부 소셜 네트워크 서비스로 인한 데이터 폭증이라는 자극제가 있었을 뿐입니다.
이쯤되면 기존의 오픈 소스 소프트웨어 써 보듯이 회사에 남는 x86급 서버를 모아서 Hadoop 돌려 보면 좋겠다고 생각할 수 있는데, 실제로 Hadoop을 돌려보면 소프트웨어 외적인 요소에 너무 민감한 요소가 많습니다. 클라우드 혹은 분산 컴퓨팅 문제에서 흔히 발생하는 네트워크와 장비 등 인프라 운영의 문제와 만나게 되지요.
버즈워드가 되었던 이유는 역시 장사속?
예를 들어, 좀 크다 싶은 데이터를 1GB 망내에서 Map/Reduce를 돌려보면 네트웍이 뻗는 일이 생기기 때문에 10GB 망으로 올려야 하는데 이때 스위치와 네트워크카드(NIC) 비용은 서버 보다 더 비용이 들게 됩니다. 서버 장비도 어느정도 고사양 CPU/대용량 메모리 정도를 갖추어야 관리 비용도 저렴하구요. 그러니 벤더들이 군침을 흘리지 않을 수 없습니다.
게다가 Hadoop 자체가 쉽게 이해하고 돌릴 수 있는 플랫폼이 아니기 때문에 다양한 이용 사례에 적합할 애플리케이션과 구축 업체 및 컨설팅 업체가 마구 튀어나오는 상태입니다. 이미 판은 다 짜여졌고 다들 열심히 달리기만 남았죠.
지금 이야기한 내용이 빅데이터 열풍의 사실상 모든 것입니다. 얼마나 커야 빅데이터냐? 우리 나라에 빅데이터가 있느냐? 뭐 이런 이야기는 전혀 도움이 안되는 이야기라는 것을 아실 겁니다. 그렇다고 넋놓고 있을 수는 없는게 또 현실이죠.
일찍이 팀 오라일리는 웹 2.0을 말하면서 Data is Intel-inside이며, 향후 데이터가 플랫폼이 되는 시대를 예견했고, 모바일 기기 및 SNS의 폭증적 사용으로 인해 정말 그런 시절이 와 버렸거든요. 이 흐름에 몸을 담글지 말지는 결국 여러분의 판단에 달려 있습니다.
더 참고할 추천 자료
- 빅데이터, 세상을 바꾸다 (동영상) by KBS
입문자에게 추천할 각종 빅데이터 분석 사례를 잘 보여준 시시기획 창에서 방영한 다큐멘터리 - [블로터 현장포럼] 빅데이터란 무엇인가? (동영상) by @jaesun_han
IT 종사자라면 한번 볼만한 클라우드 컴퓨팅 전문 기업 NEXR 창업자인 한재선님의 인터뷰 영상 - 빅데이터란 무엇이고 어떻게 해야 할까? 및 빅데이터를 위한 아키텍쳐 및 기술(발표자료) by @babokim
SW적 이해가 있는 클라우드 컴퓨팅에 관한 한 국내 최고 전문가 중에 한분인 김형준님의 글과 발표자료 - 누구나 다 아는 대용량 데이터 분석 기술, 빅데이터 왜 뜨는 걸까? 및 빅데이터의 불편한 진실 by @kimws
실제 사용 의향이 있는 빅데이터 관련 기술을 현장에서 적용 테스트를 해보고 계신 김우승님의 글
더 읽어 볼 글
※ Disclaimer- 본 글은 개인적인 의견일 뿐 제가 재직했거나 하고 있는 기업의 공식 입장을 대변하거나 그 의견을 반영하는 것이 아닙니다. 사실 확인 및 개인 투자의 판단에 대해서는 독자 개인의 책임에 있으며, 상업적 활용 및 뉴스 매체의 인용 역시 금지함을 양해해 주시기 바랍니다. 본 채널은 광고를 비롯 어떠한 수익도 창출하지 않습니다. (The opinions expressed here are my own and do not necessarily represent those of current or past employers. Please note that you are solely responsible for your judgment on checking facts for your investments and prohibit your citations as commercial content or news sources. This channel does not monetize via any advertising.)
선생님께서 만드신 이미지들에 (c) Channy’s Blog 라고 표기하듯이
“Cloud + Big Data” 교차로 이미지 출처도 밝히셨으면 더 좋았을 거 같습니다.
빅데이터에 대한 명쾌한 분석이군요
[…] 빅데이터- 리눅스 열풍과 닮았다? Share this:트위터Facebook이것이 좋아요:좋아하기Be the first to like this. […]