텍스트마이닝
태그 :
- 개념
- - 대용량의 데이터에서 사용자가 관심을 가지는 정보를 찾아내는 프로세스 - 비/반정형 데이터에 대하여 자연어처리 (Natural Language Pro-cessing) 기술과 문서처리 기술을 적용하여 유용한 정보를 추출, 가공하는 기술
I. 텍스트 마이닝(Text Mining)의 정의 및 특징
가. 텍스트 마이닝(Text Mining)의 정의
- 대용량의 데이터에서 사용자가 관심을 가지는 정보를 찾아내는 프로세스
- 비/반정형 데이터에 대하여 자연어처리 (Natural Language Pro-cessing) 기술과 문서처리 기술을 적용하여 유용한 정보를 추출, 가공하는 기술
나. 특징
- 데이터 마이닝이 보통 수량적으로 구조화된 데이터에서 지식을 발견하기 위해 통계적, 기계학습적 알고리즘을 적용하는 기법이라면, 텍스트마이닝은 비 조화된 텍스트 문서에서 정보를 찾아내려는 기법이다.
- 텍스트마이닝은 핵심은 대량의 텍스트로부터 과거에 알려지지 않은 숨겨진 지식을 찾아 내는 것
II. 텍스트 마이닝의 프로세스 및 기술요소
가. 텍스트 마이닝의 프로세스
- 수집된 데이터에서 비구조화된 데이터들(문서, 이메일, 웹페이지)을 대상으로 텍스트 마이닝을 수행하는 프로세스
나. 기술 요소
- 문서요약(Summarization), 문서 분류(Classification), 문서군집(Clustering), 특성추출(Feature extraction) 등이 텍스트 마이닝의 핵심 기술이다.
- 대부분 텍스트 마이닝 기법은 데이터 마이닝 기법에 기반하고 있다.
- 특히 데이터 분석에 사용되는 알고리즘은 데이터 마이닝에서 사용되는 알고리즘과 거의 유사하다.
- 다른점은 데이터마이닝이 데이터베이스에 저장된 잘 구조화된 데이터(structured data) 를 대상으로 마이닝을 수행하는 반면, 텍스트 마이닝은 컴퓨터에 저장되어 있는 문서, 이메일, 웹 페이지를 대상으로 마이닝을 수행한다는 점이 다르다.
III. 텍스트 마이닝 기법
기법 |
내용 |
정보추출 (Information Extraction) |
-일반적인 텍스트 문서로부터 사용자가 원하는 정보를 추출하는 작업 -원하는 정보를 문장의 형식이나 사용자가 이전에 미리 정의한 질의 포맷에 맞추어서 추출 |
문서 분류(Classification) /문서 클러스터링
|
-문서들을 문서의 내용에 따라 구조화 -분서분류 : 키워드에 따라 문서를 분류하는 기법으로서 주어진 키워드 집합에 따라 해당 카테고리로 분류 -문서 클러스터링 : 문서 분석하여 동일내용의 문서들을 묶는 기법 -문서 분류/클러스터링은 문서를 관련된 내용 별로 자동으로 구조화함으로써 사용자가 많은 양의 문서들을 좀 더 편리하게 접근할 수 있게 해줌 |
문서요약 (Summarization) |
정보추출이 해당 문서에서 특정 관심 영역만을 문장 또는 단어의 형태로 추출하려는 시도였다면 문서요약은 좀더 나아가 문서에서 다룬 중요 내용을 글로 요약하려는 시도 |
Web Mining |
-웹마이닝은 텍스트 마이닝 기법을 웹 사이트에 적용하여 사용자들이 좀 더 쉽게 자신이 원하는 정보를 찾게 해주려는 시도 |
Concept linkage |
-각각의 문서들에서 공유되고 있는 의미를 발견하여 사용자에게 제공 |
Question Answering |
-질의응답시스템은 사용자가 자연 언어로 질문을 던지면 시스템이 질문에 대한 대답을 제공해 주는 시스템 |
Topic Tracking |
-사용자 프로필을 기반으로 사용자가 관심있어 하는 문서가 어떤 문서일지를 예측하는 시스템 -시스템은 사용자의 프로필에 따라 사용자가 관심 가질 것으로 예상되는 문서들만을 추출하여 사용자에게 제공 |
Ⅳ. 텍스트 마이닝의 활용분야
1) e-mailing Mangement
- 고객으로 부터 수없이 들어오는 이메일들을 분류하여 해당 담당자에게 보낸다
- 보안이 필요한 기관에서 들어오고 나가는 이메일을 분석, 보안에 저촉되는 것을 걸러내는 역할을 수행
2) Document Mangement
- 대량의 문서들을 여러 의미, 토픽으로 분류하여 색인해 놓음으로써 언제나 적절한 문서를 쉽게 찾을수 있게 한다
3) Market Reserch
- 웹에서 발견되는 단어, 개념, 특징들의 통계 수치로 시장 추세와 수요 등을 판단 한다
4) Business Intelligence gathering
- 기업들이 그들의 시장, 경쟁업체, 비즈니스 환경등에 대한 정보를 얻기 위해, 온라인 텍스트 마이닝의 기능을 갖춘 자동 지능형 웹 크롤러(Automa ted intelligent Web crawlers)들을 사용하고 있다
- 미리 정해진 주제에 대해 뉴스나 정보들을 인터넷에서 자동으로 검색하여 보여주고, 간단한 레포트를 작성해주는 기능