디비피디아 데이터 활용에 관한 포스팅 #3

디비피디아 활용에 관한 포스팅 이다. 디비피디아는 위키피디아로부터 구조화된 정보를 추출한 데이터 저장소 이다. 따라서, 위키피디아의 데이터를 상당 부분 포함하고 있다. 전 포스터에서 살펴본 위키피디아의 장점은 아래와 같다.

  • 순서 없는 목록위키피디아엔 사전보다 많은 정보가 들어 있다. 영어의 경우 100만개 이상의 아티클이 존재하고 당신이 알고 싶은 지식은 http://wikipedia.org/wiki/Korea 와 같은 주소에서 “Korea” 부분만 바꿔주면 간단히 접근 가능하다.
  • 순서 없는 목록위키피디아 데이터는 여러 사람들(집단지성)이 지식을 글로 작성 또는 변경하는 것이 가능하다.
  • 순서 없는 목록URL로 손쉽게 접근 가능하고 데이터 업데이트가 즉각 반영되기 때문에 데이터 관리에 신경쓰지 않아도 된다.
  • 순서 없는 목록위키피디아 아티클은 DUMP나 API등으로 제공된다.

why dbpedia?

 

위키피디아는 이런 장점들을 갖고 있으나 우리가 지식으로서 활용하는 질의응답 시스템 과같은 일에서 정확한 답을 얻기엔 부족한 것이 사실이다. 왜냐하면 semi-structured 데이터이기 때문이다. 데이터베이스처럼 select문을 이용해서 select 나이 from person where name=안철수와 같은 질의를 사용할 수 없는것이 가장 큰 단점이다. 이런 문제를 해결하고 데이터 웹의 링크를 위해 디비피디아(http://dbpedia.org)가 나오게 된다.

디비피디아는 위피키디아로부터 구조화된 데이터를 추출하여 Linked Data(RDF) 형식으로 저장한 지식 베이스로서 Linked Data에서 가장 핵심적인 데이터 베이스이다. Linked Data에대해 설명하고 싶으나 매우 길어질 수 있으니 디비피디아 블로그에서는 단편적인 사용법을 위주로 알아보도록 하겠다.

디비피디아, 위키피디아 활용 비교

 

자, 그럼 디비피디아는 위키피디아와 무엇이 같고 다른가에 대해 알아보겠다.

  • http://wikipedia.org/wiki/Seoul
  • http://dbpedia.org/resource/Seoul

둘을 비교해 보면 큰 차이가 없어 보이나 위에서 설명한 ‘구조화된 데이터’ 라는 측면에서 상당히 다르다. 디비피디아는 이름에서도 알 수 있듯이 디비 형태의 구조화된 데이터이다. 정확히 말하면 RDF – Triple형태로 되어 있다. 따라서 아래와 같은 질의 응답이 가능하다. “서울시의 시장은 누구인가?” 이것을 URL Sparql질의어로 표현하면 아래와 같다.

http://dbpedia.org/sparql?query=select * where {<http://dbpedia.org/resource/Seoul> <http://dbpedia.org/ontology/leaderName> ?p}

결과 화면을 보면 아래와 같다. 답으로 박원순 서울 시장 리소스가 나오게 되는데 여기서 중요한건 답변 또한 리소스라는것것이다. 따라서 “서울 시장의 출신 학교는 어디인가?” 라는 질문의 답변을 “서울시장은 누군가?”를 찾은 후 -> “서울시장의 출신 학교는 어디인가?” 로 할 수있다.

이것을 응용하면 “2010년도의 서울시장은 누구인가?”에 대한 답변도 얻을 수 있게된다. activeYearsStartDate 라는 프로퍼티를 이용하면 매우 쉽게 접근이 가능하다.

sparql 질의에 대한 답변 화면

그렇다면 실제 디비피디아 페이지가 어떻게 구성되어있나 확인해 보겠다.

아래는 http://dbpedia.org/resource/Seoul 리소스의 일 부분이다. 서울에 프로퍼티 leaderName이 디비피디아 온톨로지에 의해 정의되어 있다. 페이지에 들어가 보시면 알겠지만 서울 리소스만 70개 이상의 엄청나게 많은 프로퍼티들이 있다. 뿐만 아니라 ‘서울’ 리소스는 다른 리소스에서 탄생 장소, 올림픽 개최지 등의 오브젝트로 사용되므로 실제로는 엄청 많은걸 확인할 수있다.

디비피디아 리소스는 이처럼 구조화된 데이터로 많이 쓰인다. 그 예 중에서도 디비피디아 공식 웹에 소개된 유저가 만든 어플리케이션을 DaylLikeToday를 간략히 살펴보겠다.

오늘 있었던 Event를(전쟁, 인물정보 등) TimeLine형태로 제공하고 또한 해당 정보를 링크해서 공부할 수 있다. 매우 visualization이 잘 되어있어서 재미도 있을 뿐더러 사건 간의 연관 관계를 눈으로 확인하기에 좋은 인터페이스를 제공하고 있다. 디비피디아는 이와같은 데이터 문재 뿐만 아니라 질의 응답시스템, 텍스트 Annotation, 개체명 인식기 등의 기술에 효울적으로 사용됩니다.

위키피디아, 디비피디아는 간단하게 하나의 사전, 데이터베이스라고 생각하면 됩니다. 물론 다르긴 하지만 지식 전달을 위한 데이터의 모음이라는 것이 가장 큰 공통사항이겠네요.