위키피디아 데이터 활용에 대한 포스팅 #1

디비피디아 데이터의 출생지인 위키피디아에 대해 간단하게 알아 보겠습니다.

오늘은 그 첫 칼럼인 “**위키피디아, 왜? 어디에, 무엇때문에 쓰는데**?” 라는 제목으로 써볼까 합니다. 이 질문은 실제로 디비피디아에서도 함께 거론되는 문제입니다. 이 글은 적 관점에서 쓰는 컬럼이니 다른 의견이 있으신 분들의 이해와 지적, 이견 공유 부탁드리겠습니다.

기계를 위한 위키피디아 데이터

지난 4월25일 아침에 일어나 4.24 보궐선거 결과가 궁금해 뉴스를 보았습니다. 안철수 후보가 당선되었더군요. 오호라! 사람이 뉴스를 검색하여 제목과 그 내용을 보고 특정 사실을 알게 되었습니다. 그렇다면 혹시 컴퓨터에게 이 사실을 지식으로 전달하기 위해선 어떻게 해야 할까요?  예를 들어 “4.24 재 보궐선거 노원구 병 당선인은 누구?” 라고 인터넷에 물어봤습니다.

4.24 재보궐선거 노원구 병 당선인 = 안철수

컴퓨터는 어떤 사실을 메모리나 디스크 등에 정보를 저장해 두었어야 ‘예, 주인님! 안철수가 당선되었습니다.’ 이렇게 대답할 수 있습니다. 하지만 이 내용을 개인 컴퓨터 메모리, 하드디스크에만 올린다면 이 지식은 개인 컴퓨터만 갖고 있는 정보가 됩니다.

그러면 개인 컴퓨터만의 지식이 아닌 다수의 사람이 이 지식을 알도록 하고 싶다면 가장 좋은 방법은 바로 여러 사람이 접근할 수 있는 한 곳에 지식을 모아두면 되겠지요. 게다가 그 곳에서 누구나 지식을 생산할 수있다면 (집단지성) 금상첨화일 것입니다. 위키피디아는 이와 같은 특징을 갖고 있습니다.

구체적으로 보기 위해 ‘안철수’ 당선자의 위키피디아 페이지를 살펴볼까요?

당선결과 발표가 하루도 채 지나지 않았는데 안철수 당선자의 당선내용은 물론, 득표율, 득표수, 결과 등 정말 잘 정리가 되어 있네요. 물론 웹으로 되어있기 때문에 사람은 물론 컴퓨터도 안철수 위키페이지를 통해 정보 접근이 가능합니다.

여기서 몇 가지 의문점이 생길 수 있습니다.

위키피디아 데이터 꼭 필요한가요? 믿을만 한가요?

 

첫 번째, 컴퓨터가 웹 검색을 이용해 안철수 당락을 판단할 수 있지 않을까요?

– 예, 맞습니다. 하지만 웹 검색 시 생기는 많은 불필요한 데이터들과 검증되지 않은 데이터들은 사용하기 어렵겠지요.

그러면 위키피디아도 결국 안철수 페이지에서 검색을 해야하지 않나요?

– 이것도 맞습니다. 하지만 여기서 끝나면 위키피디아가 별거 아니겠지요.

위의 역대 선거결과 편집 창으로 들어가 보겠습니다.

어떤가요? 컴퓨터 프로그래밍을 조금만 할 줄 안다면 쉽게 정보를 자료구조에 넣을 수 있겠네요.

위키피디아는 Semi-structured 형태의 데이터이며 Wiki문법 구조를 가지고 있습니다. 그러기 때문에 “안철수->역대선거결과->당락->합격” 과같이 데이터 접근을 할 수 있습니다.

두 번째, 누구나 편집 가능하면 악의적으로 변경할 수 있어서 혼란이 올 것 같은데요?

– 가능합니다. 하지만 위 그림과 같이 “이 글은 정확성과 사실여부를 논의 중입니다” 라는 문구에서 보이듯 위키피디아 문서는 문서ID, 편집 버전 등을 관리하고 여러 사람이 논의하여 사실 여부를 확인합니다. 따라서 잘못된 정보는 시간이 지나면 고쳐지게 됩니다.

그래서 이런 방식으로 위키피디아는 굉장히 방대하고 동시에 제법 정확한 정보를 가지고 있습니다.

위에 보는 안철수 위키페이지의 다른 정보들을 몇 개 볼까요?

이쯤되면 거의 스토커 수준입니다. 가계도는 물론, 친구 관계, 학창시절 내용도 나와있네요.

위의 그림(인포박스)를 보면 아마 프로그래밍 조금 다룰줄 아는 사람은 바로 크로울링해서 데이터를 넣을 수도 있겠습니다.

쉽죠? 결국엔 위키피디아는 사전이 맞습니다. 단, 편집이 가능해서 활용도도 무궁무진한 특별한 사전입니다. 따라서 문서 개수 또한 빠른 속도로 늘어나고 시간이 지날수록 엄청난 지식이 축척됩니다.

위키피디아 데이터 통계

 

마지막으로 아래 그림은 현재 한국어 위키피디아 자료양에 대한 통계 자료입니다.

문서_개수

영어 문서는 자그마치 4백만개나 됩니다. 한국도 23만개로 당당히 23위를 기록하고 있습니다.