일체유심조: Information Retrieval

퍼옴: http://blog.naver.com/hw5773/220654259311

Ch 21. Information Retrieval

고급데이터베이스 / 2016년 1학기

2016.03.14. 10:00

http://blog.naver.com/hw5773/220654259311

번역하기 전용뷰어 보기

Information Retrieval

정보 탐색이란 구조화되지 않은 텍스트 데이터를 찾는 작업임.

21.1 Overview

정보 탐색이란, 사용자가 입력한 키워드에 대해서 적절한 문서를 찾는 것을 의미함.

정보 탐색에서 정보들은 문서의 형태로 되어 있으며, 이는 곧 구조화되어 있지 않고, 연관 스키마가 없다는 것을 의미함.

웹은 편한 인터페이스를 제공하지만, 정보의 급증은 사람들에게 유용한 정보 탐색의 필요성을 가져다 줌. 정보 탐색을 웹을 진정 편리하게 하는 수단이 됨.

전통적인 데이터베이스 시스템과 정보탐색은 차이점이 있음.

1) 전통적인 데이터베이스는 구조화된 데이터를 사용하는데 반해, 정보 탐색은 구조화되지 않은 데이터를 취급함.

2) 정보탐색 시스템에서는 ranking이라든지 키워드 쿼리문을 다룸.

최근의 정보 탐색은 단순히 랭킹 이상의 것을 탐색하여 보여줌.

예를 들어, "New York"이라는 키워드에 대해서 텍스트 뿐 아니라 이미지도 보여주고 지도도 보여주고 함.

21.2 Relevance Ranking Using Terms

만약 전체 문서를 키워드만 가지고 탐색한다면, 문제 크기도 클 뿐더러 불필요한 정보가 들어갈 수 있음. 그러므로 문서의 적절성에 대한 어느정도의 추정이 필요함. 그래서 등장하는 것이 Ranking임.

21.2.1 Ranking Using TF-IDF

(TF는 Term Frequency?)

문서의 적절성을 계산하는 가장 손쉬운 방법은 검색 키워드 t가 문서 d에 나오는 횟수를 사용하여 계산하는 것이다. 이는 해당 키워드가 많이 나올수록 해당 내용과 관련할 문서일 가능성이 높다는 사실을 전제로 한다. 그러나 이 방법에는 다음의 두 가지의 단점이 있다.

1) 단어의 등장 횟수는 문서 길이에 따라 달라질 수 있다. 예컨대, 10줄 짜리 문서에 2번 나오는 것과 100줄 짜리 문서에 5번 나오는 것은 분명 다르다. 절대값은 후자가 더 높지만, 비율로 따지면 전자가 더 높다.

2) 10번 나온다는 것이 1번 나온다는 것에 대해 10배의 적절성을 갖는다고 의미할 수 없다.

TF(d, t) = log (1 + n(d,t)/n(d))

여기서 n(d)는 문서 d에 등장하는 전체 단어 수이고, n(d,t)는 문서 d에 등장하는 단어 t의 개수이다. 이 metric의 측징은 문서의 길이를 고려하고 있다는 점이다. 그러므로, 단어의 등장 개수가 증가하면 적절성도 증가하지만, 단순히 횟수에만 기반하진 않는다. (즉, 단순 비례하진 않는다.)

위 식에 대한 변형은 여러 가지를 생각할 수 있다. 예컨대, t가 title, authors list, keyword에 등장하면 더 적절성이 높다거나, 처음 등장이 문서 뒤가 아니라 문서 앞에 있으면 더 적절성이 높다는 등을 생각할 수 있다.

그러나 대개의 쿼리 Q는 키워드를 두 개 이상 지닌다. 이런 경우, 단순히 TF(d, t)를 합칠 수도 있으나, 이는 그리 좋은 생각이 아니다. 왜냐하면, 예를 들어, "Silberschatz"와 "database"라는 검색어가 있다면, 둘이 같이 있는 것과, "Siberschatz but not database" "database but not Silberschatz" 중에 어는 것이 더 우선순위가 있어야 할까? 당연히 전자이다. 왜냐하면 더 빈도수가 적은 "Silberschatz"가 검색어로 포함되어 있기 때문이다. 그러므로 weight를 주는 것이 합리적인데, 이는

IDF(t) = 1/n(t)

로 정의할 수 있다. 여기서 n(t)는 t가 등장하는 문서의 개수이다.

이렇게 함으로써 적절성 r(d, Q)는,

r(d, Q) = ΣTF(d, t)*IDF(t)

로 정의할 수 있다.

이 방식을 우리는 TF-IDF 라고 한다.

우리는 검색에서 의미없는 "and", "or" 등을 따로 분류하여 검색에 사용하지 않는다. 이러한 단어들을 "stop word"라고 한다.

고려할만한 다른 정보로 근접성(proximity)이 있다. 이는 검색 단어들 사이가 얼마나 가까운가를 측정하는 것이다.

쿼리 Q가 주어졌을때, 정보 탐색 시스템의 업무는 Q에 대한 적절성의 내림 차순으로 리턴한다. 적절한 많은 수의 문서가 있을 것이기 때문에, 정보 탐색 시스템은 일반적으로 높은 적절성이 매겨진 소수의 문서를 반환하고 사용자들이 더 문서를 열람하도록 한다.

21.5 Indexing of Documents

[출처] Ch 21. Information Retrieval|작성자 혀누

일체유심조

2016년 3월 21일 월요일

Information Retrieval

댓글 없음:

댓글 쓰기

전체 페이지뷰

신고하기