Websci09 (4) 결국 데이터 리더쉽

이번 학회를 갔다와서 느낀 점은 무엇 보다 중요한게 ‘데이터 리더쉽(Data Leadership)을 공유’하는 것이라는 생각이 들었습니다.

지금 웹 사이언스의 중요한 리더들은 아직까지는 학계에 있는 선구자들인데 이들에게는 데이터가 없습니다. 물론 연구가 대용량 데이터가 있다고 되는 건 아니고 모델링과 실험이 중요하다는 점은 인정하지만 미시적인 규칙이 거시적인 곳에 적용이 되는 가하는 점이 제대로 나오려면 인터넷 기업이 가진 데이터로서 효용성이 증명이 되어야 할 것입니다.

정보 검색(IR)의 경우도 90년대 중반 수 많은 모델과 알고리즘이 나왔지만 구글의 세르게이 브린과 래리 페이지가 작성한 논문의 페이지 랭크를 기반으로 대용량 엔진으로 적용한 덕분에 급격한 기술적 학문적 성장을 이루었습니다.

그들이 박사학위를 받기 위한 이유인지 어떤지는 몰라도 구글은 그 이후에도 관련 분야의 성과를 계속 학계에 제공했고 이로 인해 많은 발전이 있었죠. (최근 수업을 들으면서 중요 논문을 쭉 보니 그렇더군요.)

트위터, 페이스북, 마이스페이스 등 다양한 스타트업들이 수 많은 정량적 데이터를 가지고 있지만 소셜 모델 혹은 소셜 머신이 가지고 있는 특징을 연구할만한 인력이 없다는 점이 문제인데 다양한 사회학자들과 수학자, 컴퓨터과학자들이 이들 데이터를 모델링하고 거시적 현상을 풀어내는 노력이 진행되어야 웹 사이언스의 미래가 있을 겁니다.

이와 별도로 데이터가 서로 연결(Link)되도록 하는 현재의 노력도 지속될 필요가 있습니다. 링크 데이터(Linked Data)를 통해 시맨틱 웹의 원대한 포부보다는 웹을 문서가 아닌 데이터로 연결하는 원래 취지로 되돌릴 수 있다고 봅니다.

DBPedia.org를 중심으로 한 ‘링크 데이터’ 영역은 웹에서 점점 더 확대되고 있는 상태인데다 오바마 정부 웹사이트가 RDFa를 지원하고 있다는 뒷북에도 다들 환호하더군요. (이제 알았나? 역시 학계는 느려요.)

결국 인문학적 방법론과 수학/공학적 방법론이 합쳐져 어떤 모델이 만들어지고 자체 실험과 회사에서의 실제 대용량 소셜 네트웍에서도 그것이 입증되는 방식으로 학제간 연구가 진행되는게 웹 사이언스의 바람직한 방향이 아닐까 하는 생각이 들었습니다.

그런점 에서 실리콘 밸리와 연관이 깊은 UC 버클리나 스탠포드 같은 학교에 있는 연구자들이 참여하는게 성패가 될 것 같습니다. 코넬대와 Microsoft Research가 공동 연구하고 있는 ORE라는 프로젝트가 있는데 이 성과를 기초로 화학 영역에 적용한 예 같은 것도 좋은 예가 될 것 같습니다.

업계에서 자사의 내부 정보를 외부로 노출하는게 부담이 될 수는 있지만, 연구를 위한 정보는 충분히 공개할 수 있다고 생각합니다. 회사내에서도 그런 요구 사항이 있구요.

다만 서로 필요/충분한 요건을 못찾을 뿐인데 그런 연결 고리를 해야 할 사람이 점점 많아져야 한다고 봅니다. 학교와 업체에 이중적을 가지고 있는 사람들의 노력이 필요하다고 생각 되네요.

여러분의 생각

  1. 데이터를 내놓는 업체가 없다라는 것이 문제죠. ㅎㅎ

    그리고 데이터가 전부(?) 오픈이 되어 데이터간 링크가 구현되기에 앞서, 기업에서의 검증 단계만이라도 있었으면 하는 것이 많은 분들의 바램일 것으로 보입니다. 하지만 이것도 좀 암울 ;;

    그래도 최근에 국내에서 이런 움직임이 미약하지만 조금씩 보이는 것 같아 희망이 보입니다. 뭐 잘은 모르겠지만요. ^^;

의견 쓰기

이름* 이메일* 홈페이지(선택)