Human-readable Semantic Web

얼마 전 Hollobit님이 온톨로지 유감이라는 글을 연재(?) 하신적이 있습니다. 이 토론을 간단히 요약하면 과거 인공 지능(AI)이나 자연어처리(NLP) 같은 시맨틱 연구자들이 “시맨틱 웹”이라는 이름을 빌어 연구를 계속 하면서 정작 중요한 “웹”이 빠져 있는 국내 연구 실정을 개탄하면서 부터 시작되었습니다.

Hollobit님은 저랑 웹 코리아 활동을 할 때 부터 인트라넷, 지식기반(KB) 연구를 비롯해서 W3C 한국 사무국을 유치하고 국내외적으로 수년 간 시맨틱 웹에 대한 지속적인 연구를 해 온 분입니다. 그런 분이 마치 국내 시맨틱 웹 연구 자체를 부정하는 듯한 이야기를 하는 것이 이상할 수도 있습니다.

우선 Hollobit님이 전에 쓰신 시맨틱 웹(Semantic Web) 기술에 대한 회의론들에서 말하는 국제 시맨틱 웹 표준 및 연구 속의 현실을 이해할 필요가 있습니다. 웹을 처음 만들었던 팀 버너스 리는 HyperText(HTML)와 HTTP라는 이해하기 쉬운 간단한 기술 스펙만으로 정보를 연결하고 기술할 수 있다는 점에서 매우 성공을 거두었습니다.

나아가 인간 뿐만 아니라 기계도 이해할 수 있는 상호 호환성을 위한 시맨틱 웹을 제창 했습니다. 이 과정 중에 나온 결과물이 XML, Web Services, RDF, OWL, 온톨로지, 추론 엔진 등등입니다. 그런데, 온톨로지니 추론이니 하는 말 자체 어감에서 풍기듯 시맨틱 웹의 실제 정의는 기계들간의 소통 수단을 위해 인간이 개입할 여지가 없는 매우 복잡한 기술 스펙으로 가고 있는 것이 사실입니다.

이것은 TBL이 인공 지능을 연구했던 사람들을 W3C에 끌어 들이면서 필연적으로 생겨난 현상입니다. Machine-readable Web이라는 것이 결국은 인공 지능, 기계 학습 등과 같은 방향으로 갈 수 밖에 없으니까요.

그런데, 이런 지리한 시맨틱 웹 연구가 계속 되는 동안 소위 말하는 “문서 중심 혹은 인간 중심 웹”은 매우 비약적인 성공을 거두었습니다. 많은 사람들이 HTML을 이용하여 웹에 정보를 기술하고 이를 상호간 이용하게 되었다는 것입니다. 브라우저 전쟁이라는 암흑시대도 있었지만, 오히려 전쟁 후 웹 표준이 활성화 되고 좀 더 구조적인 문서를 만들어 내려는 표준 홍보 활동도 강해졌습니다.

그 와중에 웹2.0이라는 트렌드가 이슈화 되었습니다. 저는 지난 웹2.0 컨퍼런스에서 시맨틱 웹이 바로 웹2.0의 기술적 배경이라고 언급한 바 있습니다. 그러면서 제가 언급한 것으 바로 인간 중심(Human-readable)의 시맨틱 웹입니다.

웹2.0의 대표적인 특징이라고 할 수 있는 블로그를 볼까요? 블로그의 컨텐츠 소통 방식은 바로 RSS에 의한 것입니다. RSS는 과거 넷스케이프의 CDF 또는 포인트 캐스트의 채널과 유사합니다. 그러나, 그것이 기계로 한정된 소프트웨어의 일방향성에서 실패했다면, RSS는 네트웍에 분산된 사람들의 컨텐츠를 소통시켜 주는 이해하기 쉬운 아주 간단한(Realy Simple) 스펙이었기 때문에 성공했습니다.

RSS는 시맨틱 웹의 대표 스펙인 RDF의 2차 산물입니다. 시맨틱 웹의 베스트 프랙티스를 찾고자 다양한 노력을 했던 W3C 입장에서 얼마나 허탈했겠습니까? 시맨틱 웹의 또 다른 시도인 웹서비스(Web Services)도 마찬 가지입니다. 구글, 아마존, 이베이 등은 축적한 사용자 데이터를 근간으로 이를 Open API라는 데이터 유통 구조를 만들어 내고 플랫폼화 하는 노력을 견지해 왔습니다. 이 때 사용했던 기술이 바로 간단한 XML 스펙과 HTTP를 이용한 웹 서비스의 구현 입니다.

거기에 Trackback/Ping이라는 간단한 소통 방식은 Transaction을 대체할 만 합니다. 이들은 모두 인간과 기계 모두가 소통 가능한 시맨틱 웹을 아주 잘 응용한 기술들입니다. 이로서 웹2.0이라는 새로운 장을 열게 되었고, 시맨틱 웹의 가장 훌륭한 베스트 프랙티스가 되었습니다.

문제는 이러한 기술들이 90년대 후반에 나왔던 아주 고전적인 웹 기술들이라는 점입니다. 그것들이 이제야 빛을 발하기 시작하고 있습니다. 그러나, 이러한 성공에 뒤이어 인간이 이해하기 고도로 복잡한(?) 시맨틱 웹 기술들이 상용화 될 수 있을 것인가에는 많은 어려움이 따릅니다.

왜냐하면, 웹은 필연적으로 사람이 관련되어 있고 사람과 기계가 동시에 읽을 수 있는 기술이어야만 네트웍 효과를 얻어 낼 수 있음이 증명 된 것이기 때문입니다. 물론 그러한 시맨틱 웹 기술들이 소프트웨어 산업에 긴요하게 쓰일 수 있을 지는 몰라도 웹이라는 세상에서 쓰이기에는 한계가 분명히 있습니다. 간단하고 이해하기 쉬운 스펙이야 말로 웹에서는 선(善)입니다.

예를 하나 들어 보겠습니다.

2004년 4월 W3C는 웹에서 좀 더 확장된 어플리케이션을 만들 수 있도록 워크샵을 열었습니다. 이 워크샵의 쟁점은 오페라/모질라 재단 연합이 발표한 웹어플리케이션 방향에 대한 것이었는데, 이들은 HTML과 DOM 등 기존 웹 표준 기술을 활용한 중간 단계의 웹 어플리케이션 표준을 빨리 만들자는 제안을 하였습니다. 이에 대해 많은 참석자들은 부정적인 반응을 나타냈죠. 이런 문제를 다룰 워킹 그룹이 아직 존재하지 않는다는 이유를 달았지만, 이미 W3C는 기존 XML을 기반으로 하는 상호 연동에 더 관심이 많았습니다.

결국 일은 엉뚱한 곳에서 터지고 말았습니다. 그 해, 구글로 부터 시작된 Ajax라고 불리는 웹 어플리케이션 기법이 힘을 얻기 시작한 겁니다. 시장에서 Ajax가 힘을 얻자, 결국 W3C는 작년에 Rich Web Client Activity를 통해 기존 웹 표준 기반의 웹 어플리케이션 표준 스펙을 만들 수 밖에 없게 되었습니다.

이런 사례는 W3C 활동과 시맨틱 웹 연구자들에게 시사해 주는 바가 크다고 하겠습니다. 시맨틱 웹 연구자들이 웹이 아닌 시맨틱에만 관심을 기울이면 결국 현실과 괴리될 수 밖에 없습니다. 웹은 지극히 인간적이고 때문입니다. 따라서, 연구자들이 인간 중심의 시맨틱 웹과 웹2.0에서 필요한 아젠다를 그리는 노력을 지속적으로 할 때, 연구를 위한 연구에 매몰 되지 않을 것입니다.

- ;

Disclaimer- 본 글은 개인적인 의견일 뿐 제가 재직했거나 하고 있는 기업의 공식 입장을 대변하거나 그 의견을 반영하는 것이 아닙니다. 사실 확인 및 개인 투자의 판단에 대해서는 독자 개인의 책임에 있으며, 상업적 활용 및 뉴스 매체의 인용 역시 금지함을 양해해 주시기 바랍니다. 본 채널은 광고를 비롯 어떠한 수익도 창출하지 않습니다. (The opinions expressed here are my own and do not necessarily represent those of current or past employers. Please note that you are solely responsible for your judgment on checking facts for your investments and prohibit your citations as commercial content or news sources. This channel does not monetize via any advertising.)

여러분의 생각 (5개)

  1. kebie 댓글:

    얼마전 조엘온 소프트웨어에서 읽었던 “복잡함은 단순화 되지 않으면 쇠퇴한다” 라는구절이 떠오르네요… 복잡함을 단순화한 대표적 인물이 팀 버너스리죠. :)

  2. kebie 댓글:

    아참… 조엘 온 소프트웨어가 아니라.. 조엘이 엄선안 소프트웨어 블로그 베스트 29선 입니다. ^^;

  3. 거부기아찌 댓글:

    결국 현재 이름이 많이 떠돌고 있는 “tagging” 기술이나 microformat도 human readable semantic web이죠. rss나 atom에 대해서는 HTML이라는 간단한 마크업이 어떻게 세상을 바꿨는가라는 관점에서 볼 수 있죠.

    재미있는 것은 모두 어떤 거대한 것을 추진하던 것을 반성하면서 나왔다는 점이죠. HTML이나 XML은 SGML의 반성에서 출발했고, RSS는 CDF의 반성에서 출발하는 식으로 말이죠. 물론 언젠가는 machine-readble semantic web이 될 수 있는 날이 다가올 것입니다. 기술은 그렇게 진화를 할테니까요.

    하지만 모든 기술의 진화는 단계적 부정과 진화를 거듭하면서 발전한다는 것이 과학의 진실이고 아이러니인 것 같습니다. 한순간에 급격한 발전을 얻고 싶어도 얻을 수 없다는 것이죠. :) 결국 오늘날의 시맨틱 웹이 한계에 봉착한 가장 큰 이유는 AI 신봉자들과 온톨로지 만능주의자들 때문이라 생각됩니다.

    특히 웹의 미래에 대한 논의를 몇몇 잘난 AI 신봉자들이나 시맨틱주의자들만이 쥐고 흔들겠다는 생각자체가 잘못된 생각인 것 같습니다.
    참!! 이 코멘트에 열받는 AI 신봉자나 시맨틱주의자들이 계신다면, 그동안 뭘했는지 어떤 결과를 가져왔는지를 결과로 반박해주세요. 말꼬리 붙잡지 말고….

    최근에 내린 제 결론은 하나입니다. AI 신봉자들과 온톨로지 만능주의자들을 떨궈내고 사람들 속으로 들어가야 시맨틱 웹이 그나마 발전할 수 있다는 결론 말이죠. 읍참마속의 심정으로 말이죠.

  4. 하상범 댓글:

    거부기아찌님의 최초 글부터 시작해서 여기까지 오게 되었습니다.

    저는 작년에 시맨틱 웹 기생생물중 한분 밑에서 AI를 전공하고 현재 KT에서 근무하고 있습니다.

    왜그렇게 독설로 사람들 마음에 상처를 주시는지 모르겠네요. 저는 시맨틱 웹을 공부하면서 AI며 온톨로지가 만능이라고 생각한적은 없습니다. 오히려 무거운 짐이 될 수 있겠죠.

    하지만 저는 이렇게 생각합니다.
    학교에서의 연구와는 달리 회사에 오니 철저하게 고객(?) 입장에서 시맨틱 웹에 대한 BM을 고심하게 되면서 제가 공부한 AI와 온톨로지로 현재의 무언가에서 조금의 자동화, 조금의 지능화를 해보자.. 라는 생각을 했습니다.

    물론 이렇게 생각하니 학교에서 해오던 접근과는 다른 접근이 되더군요.

    저는 AI를 전공했지만 현재 위치에서 시맨틱 웹 분야에서 가장 현실적이고 실현 가능한 연구를 하고 있다고 생각합니다. 너무 AI 를 공부한 사람들이 몽상가라는 생각은 말아주세요.

    p.s : 동의하는점은 저 역시 시맨틱 웹을 공부하면서 웹은 배제해오지 않았나 하는 반성을 해봅니다. 사람들 속으로 들어가보니 엉킨 실타레가 풀리는 듯한 느낌이 듭니다.

  5. 참된 시맨틱 “웹”의 모습

    시맨틱웹에서 가장 중요한 것은 물론 “웹”이다. 그리고 웹의 본질을 참 잘도 활용한 모습을 우리는 그동안 “웹 2.0“이라는 것을 통하여 보아왔었다. 따라서 시맨틱 웹은 블로…