시맨틱 웹, 2.0으로 거듭나라!

얼마 전 우리 나라 블로거들 사이에 국내 시맨틱 웹 연구의 현황에 대한 논쟁이 있었다. 이 논쟁의 씨앗을 뿌린 ETRI의 전종홍 연구원은 과거 인공 지능(AI)이나 자연어 처리(NLP) 같은 시맨틱 연구자들이 “시맨틱 웹(Semantic Web)”이라는 이름을 빌어 연구를 계속 하면서도 정작 산업적으로 중요한 “웹”이 빠져 있는 국내 연구 실정을 개탄 하면서부터 시작되었다.

…처음에는 늘 시맨틱 웹이라는 이름으로 시작하는 논리가 마지막에 가서는 “웹”은 어디론가 스리슬적 사라지고, 거창하고 복잡한 온톨로지와 추론에 대한 이야기, 그리고 지능 정보 처리에 대한 이야기들만 남는 식이죠… 도대체 “시맨틱 웹”으로 시작한 이야기의 결론에서 우리의 “웹”은 어디에 있습니까 ? 온톨로지만으로 웹을 위해 무엇을 할 수 있습니까? (출처: HolloBlog ‘온톨로지 유감’ 중에서)

전 연구원은 유명 블로거이자 웹 표준 연구자로 필자와 국내 웹 초창기 때부터 인트라넷, 지식 기반(KB) 연구를 지속해 왔으며, ETRI 내에 W3C 한국 사무국을 유치하는데 일조 했을 뿐 아니라 국내외적으로 수년 간 시맨틱 웹에 대한 지속적인 연구해 왔다. 그런 사람이 마치 국내 시맨틱 웹 연구 자체를 부정하는 듯한 이야기를 하는 것이 이상하게 여겨질 수 있다.

시맨틱 웹의 현재 상태
그런데 전 연구원이 말하는 국내 문제를 이해하기 위해서는 해외의 시맨틱 웹 표준 연구 속의 현실도 알 필요가 있다. 1992년 웹을 처음 만들었던 팀 버너스 리는 하이퍼텍스트(HTML)와 HTTP라는 아주 간단한 기술 사양 만으로 정보를 연결하고 기술할 수 있다는 점에서 매우 성공을 거두었다. 그는 나아가 인간뿐만 아니라 기계도 이해할 수 있는 상호 호환성을 위한 시맨틱 웹을 제창 했다. 이것은 정보의 접근 자체에 대한 제악이 없어야 한다는 비전에 근거한다.

이러한 목표를 통해 나온 각종 웹 표준이 XML, Web Services, RDF, OWL, 온톨로지, 추론 엔진 등등이다. 그런데, 온톨로지니 추론이니 하는 말 자체 어감에서 풍기듯 시맨틱 웹의 실제 정의는 기계들간의 소통 수단을 위해 인간이 개입할 여지가 없는 매우 복잡한 기술 사양으로 가고 있는 것이 사실이다. (실제 이러한 용어들을 이해할 필요가 없다.) 이것은 팀 버너스리가 과거 인공 지능을 연구했던 사람들을 W3C에 끌어 들이면서 필연적으로 생겨난 현상이다. 기계가 읽을 수 있는(Machine-readable) 웹이라는 것이 결국은 인공 지능, 기계 학습 등과 같은 방향으로 갈 수 밖에 없기 때문이다.

시맨틱 웹 이야기가 나온지 7년이 지났지만 표준 사양 외에 무슨 산업적 공헌을 했는지 이야기하라고 하면 할말이 없다. 시맨틱 웹 연구자 기술이 미완성이라 부족하다 하고 현업 엔지니어들은 어떻게 써야 할지 모르겠다고 하는 것이 현재 상태다. 이런 이유로 W3C는 작년 부터 시맨틱 웹을 잘 사용하는 사례들을 수집하고 다양한 응용 분야를 찾는 등 고육지책을 거듭하고 있다.

인간 중심(Human-readable) 시맨틱 웹
이런 지리한 기계 중심 시맨틱 웹 연구가 계속 되는 동안 소위 말하는 “문서 중심 혹은 인간 중심 웹”은 매우 비약적인 성공을 거두었다. 많은 사람들이 HTML을 이용하여 웹에 정보를 기술하고 이를 상호간 이용하게 되었다는 것이다. 브라우저 전쟁이라는 암흑시대도 있었지만, 오히려 그 후 웹 표준이 활성화 되고 좀 더 구조적인 문서를 만들어 내려는 웹 표준 홍보 활동도 강해졌다. 그 와중에 웹2.0이라는 트렌드가 이슈화 되었다. 필자는 한 컨퍼런스에서 시맨틱 웹이 바로 웹2.0의 기술적 배경이라고 언급한 바 있다. 그러나 그것은 기계 중심이 아니라 바로 인간 중심(Human-readable) 시맨틱 웹이다.

최근 전 세계적인 유행이 된 블로그 서비스의 가장 큰 특징을 꼽으라고 한다면, RSS(Really Simple Syndication)라는 콘텐트 소통 방식을 사용한다는 것이다. RSS는 과거 넷스케이프의 CDF 또는 포인트 캐스트의 채널과 유사하지만, 컴퓨터 소프트웨어의 일방향성에만 의존한 결과 실패했다면 RSS는 네트웍에 분산된 사람들의 컨텐츠를 소통시켜 주는 이해하기 쉬운 아주 간단한(Really Simple) 사양이었기 때문에 성공했다. RSS는 정보 제공자를 기술하고 항목을 나누어 제공해 주는 읽어 보면 무엇을 제공하는지 사람도 이해할 수 있는 간단한 표준이다. 즉, RSS는 시맨틱 웹의 대표 사양인 정보 표현 프레임웍(RDF)의 2차 산물이다.

시맨틱 웹의 사례를 찾고자 노력했던 W3C 입장에서는 그렇게 간단한 사양이 인기를 끌지는 생각도 못했을 것이다. 시맨틱 웹의 또 다른 시도인 웹서비스(Web Services)도 마찬 가지이다. 구글, 아마존, 이베이 등은 축적한 사용자 데이터를 근간으로 이를 Open API라는 데이터 유통 구조를 만들어 내고 서비스를 플랫폼화 하는 노력을 견지해 왔다. 이 때 사용했던 기술이 바로 사람들이 쉽게 이해할 수 있는 간단한 XML 사양과 HTTP를 이용한 웹 서비스의 구현 이다. 실제 W3C의 표준인 SOAP같은 것은 전체 통신양 중에 5%도 채 되지 않았다. 이들은 모두 인간과 기계 모두가 소통 가능한 시맨틱 웹을 아주 잘 응용한 기술들이다. 현재 웹2.0의 주요 키워드 중 하나인 태깅(Tagging)이나 콘텐트를 기계가 이해하도록 사람이 작성하는 마이크로포맷(Microformat.org) 같은 것도 사람 중심 시맨틱 웹의 예다.

웹2.0의 성공이 주는 교훈은 인간이 이해하기 고도로 복잡한(?) 시맨틱 웹 기술들이 정말 상용화 될 수 있을 것인가 하는 것이다. 왜냐하면, 웹은 필연적으로 사람이 관련되어 있고 사람과 기계가 동시에 읽을 수 있는 기술이어야만 네트웍 효과를 얻어 낼 수 있음이 증명 된 것이기 때문이다. 물론 그러한 시맨틱 웹 기술들이 소프트웨어 산업에 긴요하게 쓰일 수 있을 지는 몰라도 웹이라는 세상에서 쓰이기에는 한계가 분명히 있다. 간단하고 이해하기 쉬운 사양이야 말로 웹에서는 선(善)이다.

기술 발전은 과거에 대한 반성에서 출발해야
2004년 4월 W3C는 웹에서 좀 더 확장된 어플리케이션을 만들기 위한 의견을 청취하는 워크샵을 열었다. 이 워크샵의 쟁점은 오페라/모질라 재단 연합이 발표한 웹어플리케이션 방향에 대한 것이었다. 이들은 HTML과 DOM 등 기존 웹 표준 기술을 활용한 중간 단계의 웹 어플리케이션 표준을 빨리 만들자고 제안했다. 이에 대해 많은 참석자들은 부정적인 반응을 나타냈다. 이런 문제를 다룰 워킹 그룹이 아직 존재하지 않는다는 이유를 달았지만, 이미 W3C는 기존 XML을 기반으로 하는 상호 연동에 더 관심이 많았다.

결국 문제는 엉뚱한 곳에서 터지고 말았다. 그 해, 구글로 부터 시작된 Ajax라고 불리는 웹 어플리케이션 기법이 힘을 얻기 시작한 것이다. Ajax가 웹 서비스 업계로부터 힘을 얻기 시작하자, W3C는 작년에 Rich Web Client Activity를 만들고 2006년 4월 XMLHTTPRequest에 대한 첫 표준 초안을 만들 수 밖에 없게 되었다.

필자는 표준 무용론을 이야기하려는 것은 아니다. 혁신을 위해서는 과거에 대한 반성을 통해 변화해야 한다는 것이다. HTML이나 XML은 SGML의 반성에서 출발했고, RSS는 CDF의 반성에서 출발했다. 언젠가 기계 중심의 시맨틱 웹이 활성화 될 날이 올지도 모르겠지만 기술은 계속적인 자기 부정을 통해 발전할 수 밖에 없다.

지금까지 이야기한 사례들은 국제적인 W3C 활동과 국내 시맨틱 웹 연구자들에게 시사해 주는 바가 크다고 하겠다. 시맨틱 웹 연구자들이 웹이 아닌 시맨틱에만 관심을 기울이면 결국 현실과 괴리될 수 밖에 없다. 웹은 지극히 인간적이고 때문이다. 과거에 대한 반성을 기초로 연구자들이나 산업계 종사자들이 인간 중심의 시맨틱 웹을 그리는 노력을 지속적으로 할 때, 연구를 위한 연구에 매몰 되지 않을 것이다.@

여러분의 생각

의견 쓰기

이름* 이메일* 홈페이지(선택)