빅데이터, 오픈소스 내재화가 중요

본 글은 한국 IDG가 주최하는 ‘빅데이터 월드 2012에서 Daum의 빅데이터 활용 사례에 대한 발표와 더불어 IT Korea지와 대담 전문입니다.

본 인터뷰 요약본은 빅데이터월드 2012 | 다음 윤석찬 팀장 “오픈소스 내재화 통해 실시간 분석으로에 게재되어 있습니다. 빅데이터 기술에 대한 개인적인 경험과 의견을 정리한 것으로 도움 되시면 좋겠습니다.

좋은 질문과 함께 강의 기회를 주신 한국 IDG께 감사드립니다.

1. “오픈소스 전도사”, “모질라 커뮤니티 리더”, “IT 칼럼리스트”, DNALab 팀장” 등 팀장님을 지칭하는 다양한 호칭이 있습니다. 이를 뒤로 하고, 트위터 계정에는 본인을 “변화와 혁신을 사랑하는 웹 열정가”라 소개 하고 있는데, 특별한 이유가 있는지?

운이 좋게도 호기심이 왕성한 대학생 시절에 웹을 통한 인터넷의 성장기를 보냈다. 당시 학교를 벗어나 웹 기술 커뮤니티에서 다양한 사람을 만나면서 새로운 신세계를 접하였는데, 그 이후 IT 업계에 일하면서 변화에 민감하고 자신을 혁신하지 않으면 이 일을 해나갈 수 없다고 느꼈다. 어떤 일이든지 자신이 하는 일이 가치 있는 일이라고 열정을 가져야만 가능하다.

학생 시절부터 직장인이 된 지금까지 하는 일에 가치를 부여할 만한 일을 계속해서 찾아왔는데, Mozilla와 웹 표준 커뮤니티 참여, 블로그에 글쓰기 그리고 회사에서 다음의 데이터를 개방하고 내외부와 제휴와 협력을 이끌어 나가는 일까지 다 해볼 수 있는 기회를 얻었다. 데이터가 더욱 커지는 현재 상황에서도 더 많은 데이터가 개방되고 재사용되어 나에게 쓸모 없는 것이 다른 사람에게는 가치가 있도록 하는 일에 관심이 많다.

2. 국내 최초로 대학에서 대학생들에게 오픈소스에 대한 이해와 커뮤니티 참여 프로그램을 5년 동안 이어오고 있는데, 이에 대한 열정의 배경은 어디에 있는지 궁금합니다.

오픈 소스 소프트웨어 운동은 우리가 살아가는 삶의 근본적은 근원에서 나왔다. 어른들로부터 사탕 하나라도 서로 나누어 먹도록 배웠고 배워서 남 주자라는 말까지 나올 정도로 우리네 삶과 닮았다. 오픈 소스는 소스 코드를 공개하는 것 이상의 가치가 있는데, SW 개발자로서 우리 삶에 절대적으로 중요한 동기 부여 수단이다. 최근에 SW 전공자가 줄어드는 시점에서 학생들에게 그러한 점을 알려 주고 싶었다. 다행히 회사가 제주로 이전하면서 가까이에 있는 제주대에 학생들과 산학협력을 하면서 이러한 계기를 가질 수 있게 되었다.

2007년부터 시작된 오픈 소스 강의는 단순히 개발과 도구를 가르치는 수준에서 벗어나 실제로 국내의 많은 오픈 소스 커뮤니티에 자원 봉사자를 공급하는 역할도 하고 있다. 최근 들어 국내 여러 대학의 교수님들이 커리큘럼에 관심을 가져 주시고 문의를 하시거나 실제로 유사 과목이 개설되고 있기도 하다.

3. 다음이 가진 데이터 량은 어느 정도입니까? 다음의 데이터 현황에 대해 간단히 설명해 주십시오. 데이터 분석과 관련한 인력과 예산은 어느 정도입니까? 전담 부서가 있습니까? 아니면 여러 부서에 빅데이터 관련 부서가 분산되어 협력하고 있습니까?

다음은 매일 천만 명 이상이 방문하는 웹사이트이다. 메일, 카페, 뉴스, 검색 등 다양한 서비스가 있으며 특히 아고라, 미즈넷, tv팟 같은 사용자 콘텐츠와 국내 최고의 블로그 서비스인 티스토리를 가지고 있다. 방문 로그 사이즈는 압축해서 일간 70TB 정도가 쌓이고 있다. 과거에는 대부분 데이터마이닝팀 및 분석팀에서 이들 데이터를 분석하는 일을 했지만, 최근 Hadoop과 NoSQL 같은 오픈 소스 기반에 데이터 분석 및 저장 스토리지의 성장으로 인해 각 서비스를 다루는 개발팀에서 직접 데이터 분석해 오고 있다.

다음은 원래부터 오픈 소스 기반의 인프라와 웹 개발을 해 왔던 회사이므로 개발자들의 오픈 소스 내재화 속도는 다른 여타 SW 기업보다 훨씬 빠르며 이러한 학습 비용에 대해 투자를 하고 있다. 최근에 비즈니스와 관련된 대용량 분석의 경우, 데이터 중복성 비용을 해결하고자 서버팜을 합치고 이에 대한 노하우를 공유하는 TF 조직이 구성이 되었으나 거의 대부분 개발팀이 자체적으로 분석을 진행하고 있는 점은 크게 바뀌지 않았다.

4. 다음 내부에서 빅 데이터에 관련해 현재 가장 큰 화두 및 도전 과제는 무엇입니까?

최근 소셜 웹 및 모바일 단말이 늘어나면서 사용자의 데이터도 급격히 증가하고 있다. 마이피플 같은 메시징 서비스나 다음 클라우드 같은 대용량 사용자 데이터뿐만 아니라 모바일 Ad@m과 같은 광고 시스템의 월 PV가 150억건이 넘어섰다. 데이터 분석을 통해 광고 수익을 더 올릴 수 있는 각종 추천 알고리즘 도입 및 이를 바로 반영할 수 있는 실시간 데이터 분석 같은 부분이 가장 큰 도전 과제 중 하나이다.

5. 다음에게 ‘빅 데이터’란 어떤 의미입니까? 향후 다음이 빅 데이터를 통해 어떻게 변모할 것으로 예상합니까?

다음은 처음부터 사용자 기반의 데이터 기업이었다. 웹 2.0이 데이터의 중요성에 대해 각인하기 시작했다면, 빅데이터는 이제 데이터를 모아 이를 수익으로 창출하고자 하는 작은 시작에 불과하다. 기존의 비즈니스를 개선하고 데이터 그 자체가 비지니스를 지속 가능하도록 만들 수 있어야 한다고 본다. 그런점에서 빅데이터 시장은 단지 데이터를 많이 모을 수 있는 기업뿐만 아니라 그럴 가능성이 있는 ‘스몰데이터’를 가진 기업에도 기회가 열려 있다고 본다.

6. 비정형 데이터를 처리하기 위해 하둡을 활용하고 있는 것으로 알고 있습니다. 그 외의 오픈소스의 활용도에 대해 알려주십시오.

하둡은 이미 오픈 소스 그 이상으로 이미 플랫폼으로서 위치를 갖춘 것으로 본다. 리눅스가 오늘날 안드로이드를 만든 것처럼 더 많은 응용 프로그램들이 하둡 위에서 올라갈 것으로 예상한다. 따라서 오픈 소스의 활용도는 빅데이터 기술 플랫폼의 생태계가 어떻게 바뀔 것인지에 달려 있을 것이다.

최근 들어서는 오픈 소스의 발길이 닿지 않았던 분석 도구나 시각화 도구로 확대되고 있다. 예를 들어, R이나 D3.JS 같은 것이 그렇다. 무엇보다 대용량 실시간 분석이 중요해짐에 따라 상용 인메모리 솔루션에 필적하는 Storm이나 Dremel 같은 오픈 소스가 나오고 있다.

7. 최근 게시한 블로그 포스팅을 보니 ‘데이터 사이언티스트(Data Scientist)는 기존 데이터 마이너 수준의 업그레이드 측면에서 중요하다지만, 더 중요한 것은 개발자들이 직접 데이터를 분석하는 데이터 개발자(Data Developer)의 확대가 더 중요하다’라고 했습니다. 도전하는 개발자들에게는 도움이 될 이야기 같은데, 그들에게 한 마디 조언을 해준다면?

SW 개발자는 원래 계산적 사고와 분석적 사고를 함께 하도록 훈련 받았다. 따라서, 이 두 가지를 제대로 하고 있다면 빅데이터 기술을 통한 분석에 대해 큰 걱정을 할 필요는 없다. 분석적 사고를 위한 노력이 더 필요하다면 관련해서 좀 더 공부하기를 바란다. 기존 데이터 마이너 보다 더 빠르게 이해할 수 있다. 앞서 계속 강조해 온 대로 ‘오픈 소스 내재화’에 대한 노력을 계속해야 한다. 새로 나온 것을 설치해 보고 써보고 튜닝 해보고 긱(geek)적인 행동을 몸에 익히는 것이 중요하다.

인터넷을 검색해 보면 대용량 테스트 데이터셋은 널려있다. 우리 회사가 오픈 소스를 지원해 주지 않아서 데이터 사이즈가 작아서라는 핑계는 자기 합리화에 불과하다. 자기의 몸값은 자기가 스스로 올리는 것이다.

8. 국내 개발자를 대표하는 한 사람으로서 한국 빅 데이터 시장 성장을 저해하는 가장 큰 요소는 무엇이며, 이를 해결하기 위해 가장 필요한 점은 무엇이라 생각하십니까?

산업 생태계 측면에서는 상용 벤더들의 독식 현상이 심하다는 것이다. SI 업계나 대형 프로젝트들이 외산 벤더에 의존하고 있다. 따라서 공공 프로젝트부터 오픈 소스 기반의 솔루션을 채택하도록 비율로서 강제할 필요가 있다. 미국 연방 정부에서도 오픈 소스 활용을 늘이는 법안을 통과 시킨 적이 있다. 유독 우리나라에만 외산 벤더들의 기술팀 보다 영업팀 많다는 것은 그만큼 산업 생태계가 기술 위주로 움직이지 않고 있다는 증거다.

기업 입장에서는 경영자들의 데이터에 대한 낮은 인식도 문제이다. 우리처럼 작은 시장에 굳이 오픈 소스를 내재화 하는 비용을 들여서 구글이나 페이스북 같은 글로벌 회사들이 쓰는 데이터 플랫폼을 쓸 필요가 있을지 반문한다. 지금 빨리 할 수 있는 상용 벤더의 솔루션을 원하는 데, 데이터는 쌓이면 쌓일수록 커지는 것이고 더 빠르게 성장할 수 있는 기회와 기반을 놓치는 우를 범할 수 있다. SW 개발자 보다는 기업의 인식과 IT 산업 생태계의 변화가 빅데이터 산업에도 영향을 미칠 수 밖에 없다는 생각이다.

강의 자료 전문

여러분의 생각

의견 쓰기

이름* 이메일* 홈페이지(선택)