sas text miner - tistory

SASⓇ Text Miner는 어떤 솔루션입니까?

SASⓇ Text Miner는 텍스트 문서로부터 지식을 탐색하고 추출할 수 있는 다양하고 포괄적인 기능을

제공합니다. SASⓇ Text Miner는 텍스트 기반의 데이터를 분류하고, 문서들 간의 연관관계를

파악하며, 파악된 데이터를 클러스터링하거나 텍스트와 구조적 데이터의 통합이 용이한 지능형

포맷으로 변환하여 강력한 예측적 모델링을 지원합니다.

SASⓇ Text Miner가 중요한 이유는 무엇입니까?

SASⓇ Text Miner는 업계 최초로 텍스트 기반의 비구조적 정보를 구조적 데이터와 긴밀하게

통합한 마이닝 솔루션으로, 분석 및 의사결정 역량을 강화할 수 있는 포괄적인 지식을 제공합니다.

SASⓇ Text Miner는 어느 고객을 위한 솔루션입니까?

SASⓇ Text Miner는 방대한 양의 텍스트에서 정보와 아이디어를 추출하고 동향을 파악해야만 하는

모든 사용자들을 위해 설계된 소프트웨어입니다.

텍스트 정보의 숨겨진 가치 포착

SAS Ⓡ Text Miner

Enterprise IntelligencePlatform Customer Intelligence Financial Intelligence Supply Chain Intelligence Risk Intelligence

The power To know®

▒ 텍스트 마이닝과 데이터 마이닝의 통합

오늘날 많은 기업들이 비즈니스 현황을 파악하고 고객에 대한 이해를 높이는데 데이터 마이닝을 이용하고 있습니다. 기업들은

방대한 양의 구조적 데이터를 활용하고 모델링함으로써 숨겨진 정보 패턴과 관계를 파악하고 의사결정자의 정확한 예측능력을

강화하여 경쟁력 우위를 창출할 수 있습니다.

하지만, 실생활에서 만들어지는 데이터는 대부분이 비구조적 데이터입니다. 웹 페이지와 이메일 메시지, 각종 계약서, 고객 피드백,

하자보증 신청서, 특허 정보, 설문조사 답변서, 연구조사 보고서, 이력서, 고객 기록과 경쟁사 정보에 이르기까지 수많은

텍스트 기반의 비구조적 데이터에서 최대의 가치를 도출하기 위해서는 텍스트 정보도 구조적 데이터처럼 자동으로 분석할

수 있어야 합니다.

SASⓇ Text Miner는 방대한 양의 문서에서 중심이 되는 개념이나 주제를 찾아낼 수 있는 다양한 텍스트 처리 툴과 분석

툴을 제공합니다. 자동 클러스터링을 통해 관련된 문서끼리 묶고, 미리 정의된 범주에 따라 텍스트 문서를 분류하고,

텍스트 문서를 구조적 데이터와 결합하여 예측적 모델을 구축할 수 있습니다.

텍스트를 예측 모델에서 사용하여 나타난 결과 예시

about

SASⓇ Text Miner

The power To know®

• 조기 경보 (Early warning)

의학품 사용에 대한 부작용 조기 경보

자동차, 장비 등 제조회사의 불량 조기 경보

예 : TREAD (Transportation Recall Enhancement, Accountability and Document Act : 자동차 리콜 강화법)에 따른 불량 조기 대응

• SKU(Stock Keeping Unit :상품(재고)관리단위)의 분류

예 : HP의 Compaq합병 후 제품 설명자료를 이용하여 제품코드 통합

• 경찰 보고서를 통한 범죄 정보 식별

• 이력서와 입사지원서의 내용 분석 후 해당 직무에 가장 적합한 유자격 지원자를 선별

• 분석 CRM 시스템 안의 고객 이메일을 자동으로 분류하여 담당자에게 신속하게 전달

• 콜 센터 클레임 자료 및 고객 피드백 텍스트를 의미있는 클러스터로 분류하여, 고객 개개인에게 적합한 제품 추천

• 설문조사 응답을 기타 정보와 통합하여 동향을 파악

• 텍스트로 된 진료기록을 평가, 분석하여 임상실험 과정 개선

• 의약 연구자에게 적절한 원료 추천

SASⓇ Text Miner의 적용 분야

▒ 다양한 데이터 형식 지원

아래아한글, Adobe PDF(Portable Document Format), ASCII

확장 포맷, HTML, Microsoft Word 등을 비롯한 다양한 형식의

텍스트에 접근할 수 있기 때문에, 사용자들은 텍스트 기반의 데이터를

텍스트 마이닝이 가능한 SAS data set으로 변환할 수 있습니다.

▒ 여러 언어 지원

자동적인 언어 식별을 통해 영어와 한글, 불어, 독일어, 중국어, 일본어

등에 대해 첨단 텍스트 문장 분석이 제공됩니다. 이외에도,

띄어쓰기와 구두점으로 단어를 구획하는 다른 여러 언어에 대해서도

기본적인 문장 분석 기능이 제공됩니다.

핵심기능

용어 및 문서의 통계량 결과

Decision Tree 입력 변수로 텍스트가 사용되어 예측 모델 생성

about SASⓇ Text Miner

02_03 | SAS® Text Miner

▒ 다양한 텍스트 전처리 기법

텍스트 기반의 데이터를 SAS data set으로 읽어 들인 후, Text Miner는 텍스트

문서에 담겨 있는 중요한 정보를 포착, 추출할 수 있는 포괄적인 텍스트 전처리

기능을 제공합니다.

• 정보로서의 가치가 거의 없거나 전혀 없는 용어를 삭제하는 언어별

디폴트/맞춤형 STOP 리스트

• running과 run, bills와 bill, excluding과 exclude의 경우와 같이 단어의

원형 및 어근을 식별하는 기능

• 문맥에 근거한 문장성분 태그 기능. 가령, " 12번째 행에서"라는 문장에

사용된 '행'은 명사로 인식하는 반면, "의식을 행했다"라는 문장에서

사용된 '행'은 동사로 인식

• '데이터 마이닝', '경쟁사 정보' 등과 같이 2개 이상의 단어로 구성된 개념을

식별하는 명사 그룹 추출 기능

• 사용자정의가 가능한 다중어휘 토큰 (예 : 컵, 홀더, 포인트 앤 클릭)

• 합성어를 둘 이상의 구성요소로 분해하는 기능.(이 기능은 특히 독일어 처럼

간단한 단어들을 여러 개 연결하여 합성어를 형성하는 언어에서 중요합니다.)

▒ 차원 축소 (dimension reduction) 기법

전처리 과정을 통해 행렬로 변환된 텍스트 데이터에 강력한 차원 축소

(dimension reduction) 기법을 적용할 수 있습니다.

• 용어 Rollup 방식은 상위 n개의 가중치 용어를 선택하는 가장 일반적인

차원 축소 기법을 제공합니다.

• SVD(Singular Value Decomposition) 방식은 각 문서를 해당 문서

모음에 가장 적합한 n차원의 부분공간으로 투영합니다. 이 축소된

차원의 공간에서는 문서들이 서로 유사할수록 가까이에 배치되는

경향이 있습니다.

▒ 독특한 클러스터링 알고리즘

차원 축소 기법을 적용한 후, Text Mining 노드는 문서들을 내용에 따라

묶는 클러스터링 기능을 두 가지 제공합니다.

• Expectation-Maximization 클러스터링:EM알고리즘을 사용하여

모든 documents가 각 클러스터에 들어갈 확률을 제공하고 가장

적합한 클러스터로 할당합니다.

• H iera rch ia l 클러스터링 : 각 문서를 분류체계에 따라 묶는 것이

용이합니다. Hierarchial (계층적) 클러스터로 분류된 문서들은 하나의

leaf 클러스터에 속하는 동시에 그 부모(parent) 클러스터에도 속합니다.

위의 두 가지 클러스터링 방법은 모두 각 클러스터를 가장 잘 나타내는

특정적인 용어들의 목록을 제공하기 때문에 사용자는 클러스터의 프로파일을

쉽게 파악할 수 있습니다.

Text Miner는 SASⓇ Enterprise Miner와 긴밀하게 통합되어 있기 때문에,

프로세스 플로우 다이어그램(Process Flow Diagram)에서의 문서 클러스터링에

Enterprise Miner의 Clustering노드와 Self-Organizing Maps노드를

이용할 수 있습니다. 또, 원래의 문서들과 함께 수집된 구조적 데이터(연령,

구매성향 등)를 추가로 사용하여 클러스터의 프로파일을 파악할 수도 있습니다.

▒ 문서 범주화

텍스트가 전처리 과정을 거쳐 문서를 대표하는 수치 표현으로 변환된

후에는 신경망, 메모리 기반의 추론(Memory Based Reasoning), 회귀분석,

의사결정나무(decision tree) 등의 Enterprise Miner 툴을 사용하여 텍스트 문서를

미리 정의된 범주로 분류할 수 있습니다. 여타의 문서 범주화 툴과는 달리,

SAS Ⓡ Text Miner는 추가적인 정량(quantitative)데이터와 정성 (qualitative)데이터를

텍스트 분석 데이터와 결합하여 예측 성능을 개선할 수 있습니다. 마지막으로,

사용자들은 Assessment 노드에서 여러 모델의 성능을 비교하고, 새로운

문서를 범주화할 스코어 코드를 정의할 수 있습니다.

Concept Linking : 관련성이 높은 용어 간의 관계를 도식화해서 보여줍니다.

▶

▒ 대화형 결과 뷰어

Text Miner의 결과 뷰어(results viewer)는 텍스트 마이닝 결과를 문서

테이블, 용어 테이블, 클러스터 표 테이블 등으로 간략하게 요약해서

보여줍니다. 대화형 기능들을 통해 사용자는 다음과 같은 작업을 수행할 수

있습니다.

• 용어 테이블을 용어, 용어 빈도, 문서 번호, 가중치, 용어의 역할에 따라 정렬

• 문서에 대한 full text뷰와 partial text뷰의 전환

• 선택된 문서/용어/클러스터에 대해 가장 유사한 n개의 문서/용어/

클러스터 찾기

• 용어 필터링을 통해 해당 용어가 포함된 문서 및 해당 문서가 포함된

클러스터 보여주기

• 문서에 포함된 모든 용어 및 변경된 클러스터 수를 보여주는 문서

필터링

• 필터링된 클러스터에 포함된 모든 문서 및 해당 문서에 포함된 용어들을

보여주는 클러스터 필터링

• 유지할 용어 및 삭제할 용어 목록 변경

• 선택한 특정 용어들을 동의어로 취급

• 상이한 알고리즘을 사용하여 용어의 가중치 변경

• SVD차원 수 선택

• 각각의 클러스터에 대해 가장 대표적인 상위 n개의 용어 보기

• 하나의 문서/용어 하위집합을 사용하여 클러스터 재조정. 최초의

클러스터링은 노드 런타임이 아닌 결과 뷰어에서 수행되는 경우가

많습니다.

▒ 사용이 간편한 셀프 문서화 인터페이스

Enterprise Miner의 독특한 프로세스 플로우 다이어그램을 기반으로 설계된

그래픽 사용자 인터페이스는 수동 코딩 작업을 자동화하고, 비즈니스 분석

담당자나 통계 전문가의 텍스트 마이닝 시간을 크게 단축시켜줍니다.

프로세스 플로우는 변경, 저장 및 다른 사용자와의 공유가 가능합니다.

▒ 유연한 보고 기능

텍스트 마이닝 프로세스 플로우 다이어그램의 결과는 간략한 HTML

보고서의 형태로 산출할 수 있습니다.

▒ SASⓇ의 강력한 인텔리전스 솔루션

SAS는 텍스트 마이닝 기능을 SAS의 검증된 데이터 마이닝 솔루션인

Enterprise Miner와 통합하여, 업계 최초로 구조적 데이터와 비구조적

데이터를 모두 분석할 수 있는 포괄적인 데이터 마이닝 솔루션을

제공합니다.

about SASⓇ Text Miner

SAS 및 기타 모든 SAS Institute Inc. 제품 또는 서비스 명은 미국 및 다른 국가에 있는 SAS Institute Inc.의 등록 상표 또는 상표입니다. Ⓡ은 미국에 등록되어

있음을 나타냅니다. 그 밖의 상표 및 제품명은 해당 기업의 등록 상표입니다. Copyright ⓒ 2008, SAS Institute Inc. All rights reserved. B200804_TM

www.sas.com/korea한국쌔스소프트웨어(주) 강남구 대치4동 889 - 11 대치빌딩 8 ~ 10층 (우 135 - 839)

SASⓇ Text Miner는 사용이 쉽고 간편한 포인트-앤-클릭 방식의 Enterprise Miner의

프로세스 플로우 환경 내에서 구동이 되기 때문에 사용자는 텍스트 데이터를 마이닝

프로세스에 원활하게 통합할 수 있습니다.

대화형 결과 뷰어는 텍스트 마이닝 결과를 간략하게 요약해서 보여줍니다.

sas text miner - tistory

Documents