2016년 6월 23일 목요일

텍스트 마이닝 (Text Mining)

퍼옴:
http://cseric.cau.ac.kr/new_Cseric/yungoostep/content.asp?idx=903&startpage_view=861&startpage=861&page=1
텍스트 데이터 마이닝 혹은 텍스트 분석이라고도 불리는 텍스트 마이닝은 텍스트로부터 고품질의 정보를 파생하는 과정을 말한다. 고품질의 정보는 일반적으로 통계 패턴 학습과 같은 방법으로 패턴 및 트렌드를 정하는 방법을 통하여 얻을 수 있다. 텍스트 마이닝은 일반적으로 구조화된 데이터의 패턴에서 파생된 입력 텍스트를 설계하는(보통 언어 기능으로부터 파생된 몇 가지를 추가하거나 이외의 것들을 제거하는 구문 분석과 데이터 베이스에 삽입하는 일) 과정을 포함한다. 텍스트 마이닝에서 고품질이라 함은 일반적으로 관련성, 참신성, 흥미도의 조합을 통해 나타낸다. 전형적인 텍스트 마이닝 작업은 텍스트 분류, 텍스트 클러스터링, 개념/엔티티 추출, 세분화된 분류, 정서 분석, 문서 요약, 엔티티 관계 보델링을 포함한다. 텍스트 마이닝은 정보 검색, 단어 빈도 분포를 알아내기 위한 어휘 분석, 패턴 인식, 태그/주석, 정보 추출, 링크 및 결합 분석, 시각화, 예측 분석을 포함하는 데이터 마이닝 기술을 포함하고 있다. 주요 목표는 자연 언어 처리와 분석 방법의 애플리케이션을 통하여 텍스트를 분석할 수 있는 데이터로 변환시켜주는데 있다.
기업에서 생성, 저장, 재사용하는 정보 중 약 1/5만이 활용도가 높은 정형 데이터로 구성되어 있고 나머지 4/5는 워드프로세서, 이메일, 프리젠테이션, 스프레드시트, PDF와 같은 복합 문서와 인터넷 페이지 등 비정형 텍스트 형태로 구성되어 있다. 정형 데이터의 SQL 검색으로부터 시작한 정보 검색은 비정형 데이터를 위한 검색으로 발전하게 되었고 다양한 검색 단말을 이용한 웹 검색으로 발전하였다. 하지만 검색 단말들이 많은 정보를 검색해주기 시작하면서 원하지 않는 정보들 사이에서 유요한 정보를 찾는 문제를 가지게 되었다. 이와 같은 정보 검색 환경에서 유용한 정보를 효과적으로 찾기 위하여 비정형 데이터인 문서로부터 유용한 정보를 추출하고 가공하는 기술이 필요하게 되었다. 대량의 정보를 효과적으로 다루기 위하여 많은 연구가 진행되고 있는데 이 중 데이터베이스에 저장된 자료와 같이 정형화된 데이터로부터 정보를 추출, 가공하는 데이터 마이닝은 이미 실용성을 갖추고 많은 분야에서 널리 사용되고 있지만 디지털 정보의 대부분은 비정형 데이터인데 텍스트 마이닝은 이와 같은 비/반정형 데이터에 대한 자연어 처리 기술과 문서 처리 기술을 적용하여 유용한 정보를 추출, 가공하는 것을 목적으로 하고 있다. 핵심 연구 분야에는 문서 요약, 특성 추출 등이 있다.

< 텍스트 분석 과정 >
  1. 정보 수집 및 식별을 통한 준비 단계: 분석을 위하여 웹, 파일 시스템, 데이터 베이스, 콘텐츠 관리 시스템에서의 텍스트 자료를 수집하거나 식별
  2. 비록 일부 텍스트 분석 시스템은 순수 통계 방법에 스스로를 제한하지만 다른 시스템에서는 음성 태그, 구문 분석과 같이 광범위한 자연어 처리과정을 적용하여 처리한다.
  3. 명명된 엔티티 인식은 명명된 텍스트 기능을 식별하기 위하여 통계적 기술이나 지명 사전을 사용: 사람, 조직, 장소 이름, 주식 시세 표시 기호, 특정 약어 등을 포함. 문맥 단서의 사용은 예를 들어 “Ford”의 경우 전 미국 대통령, 차량 제조업체, 영화 배우, 도로 이름과 같이 다양하게 의미가 존재하는 것과 같이 이렇게 적합한 의미들을 정리해주어야 한다.
  4. 동일 지시성: 명사 구문과 동일한 개체를 참조하는 단어를 식별
  5. 관계, 사실, 이벤트 추출: 텍스트의 엔티티들과 다른 정보들 사이의 연관 관계를 식별
  6. 정서 분석은 안목있는 주관적인 자료와 사고방식의 다양한 형태를 추출하는 것을 포함: 감정, 의견, 분위기, 정서 등. 텍스트 분석 기술은 엔티티, 개념, 주제 수준의 정서를 분석하고 의견 발언자와 의견 객체를 구별하는데 도움을 준다.
  7. 정량 텍스트 분석은 의미나 문체 패턴을 찾아내기 위한 인간의 판단이나 컴퓨터가 추출하는 단어들 사이의 의미론적, 문법적 관계를 이용하는 것과 같은 기술들을 포함하도록 한다.


< 관련 연구 >
문맥 텍스트 마이닝은 시간 및 장소와 같은 문맥 정보를 가지는 텍스트 콜렉션으로부터 화제를 추출하고 서로 다른 문맥에서 주제의 변화를 비교 분석하는 것에 주를 두고 있다. 문서에 설명된 주제는 보통 문서의 문맥과 관련이 있기 때문에 문맥에서 화제를 분석하는 것은 잠재적으로 많은 흥미로운 주제 패턴을 나타낼 수 있다. University of Illinois at Urbana-Champaign에서는 새로운 기존의 모델을 적용할 수 있는 특별한 경우를 통하여 문맥 텍스트 마이닝을 위한 일반적인 확률 모델을 제안하였다. 특히 이들은 문서의 문맥을 모델링하기 위하여 확률 잠재 의미 분석(Probabilistic Latent Semantic Analysis; PLSA)을 확장하여 문맥 확률 잠재 의미 분석(contextual probabilistic latent semantic analysis; CPLSA)이라고 불리는 혼합 모델을 고안하였는데 시간이나 문서가 쓰여진 장소, 어떤 문서나 메타데이터로부터 온 것인지를 나타내는 범위가 다중으로 있을 때 이를 가능케 하도록 하는데 주 목표를 두고 있다. 이를 통하여 시간적 텍스트 마이닝, 시공 텍스트 마이닝, 저자 주제 분석, 교차 수집 비교 분석과 같은 여러 흥미로운 마이닝 작업에 적용할 수 있도록 하였다.
(반)구조화된 텍스트에서 유용한 정보를 발견하는 것과 같은 기존 텍스트 마이닝의 문제점은 오로지 자유로운 자연어 문서가 아닌 구조화된 데이터베이스의 형태에서만 사용할 수 있었다. 이러한 문제를 해결하기 위하여 University of Texas, Austin에서는 흥미로운 관계 수집을 위한 구조화된 데이터로 텍스트를 변환시키기 위하여 학습 정보 추출(Information Extraction; IE) 시스템을 이용하여 DISCOTEX(Discovery from Text Extraction)이라 불리는 텍스트 마이닝을 위한 프레임워크를 개발하였다. 이 프레임워크에서 IE는 중요한 역할을 하는데 이를 위하여 RAPIER(Robust Automated Production of Information Extraction Rules)와 BWI(Boosted Wrapper Induction) 두 방법을 실제 구현에 적용하였으며 이를 통하여 추출된 데이터를 KDD(Knowledge Discovery from Databases) 툴을 이용하여 마이닝하도록 하였다. 이 IE와 KDD 두 가지를 결합하여 사용할 수 있도록 함으로써 전반적인 텍스트 마이닝 성능 향상에 효과가 있음을 보이고 있다.

그림1. IE기반의 텍스트 마이닝 프레임워크
(출처: Text Mining with Information Extraction)
Effective Pattern Discovery for Text Mining IEEE Transactions on, Knowledge and Data Engineering, Volume: 24, Issue: 1
http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5611523
A Mixture Model for Contextual Text Mining University of Illinois at Urbana-Champaign
http://sifaka.cs.uiuc.edu/czhai/pub/kdd06-mix.pdf
Text Mining with Information Extraction University of Texas, Austin
http://www.cs.utexas.edu/~ml/papers/discotex-melm-03.pdf


댓글 없음:

댓글 쓰기