watson 한국어서비스 개발과정소개 - ibm · 2017-11-15 · © 2017 ibm corporation...

29
© 2017 IBM Corporation 김대용 과장 IBM Watson Platform Watson 한국어 서비스 개발 과정 소개

Upload: others

Post on 26-May-2020

8 views

Category:

Documents


0 download

TRANSCRIPT

© 2017 IBM Corporation

김대용 과장IBM Watson Platform

Watson 한국어 서비스개발 과정 소개

© 2017 IBM Corporation 2Page

한글이 지원되는 API 소개

한글 지원 API

© 2017 IBM Corporation 3Page

한글 처리 지원Watson Conversation–

Watson Natural Language Classifier–

Watson Language Translator–

Watson Natural Language – Understanding

Watson Knowledge – Studio

Watson – Discovery

Watson Personal – Insight

한글 기반 학습Watson Visual Recognition–

한글 지원 API

한국어 지원

모바일 기기 메시징 플랫폼 로봇 등에 손쉽게챗봇과 가상 에이전트를 구축하여 자연어 대화를지원

쉽고 빠르게 고객 서비스용 챗봇 개발

한국어 지원

언어간 번역기능

한국어 지원

문장과 질문의 의도를 이해하고 정보를 의도에 맞게분류

대화

언어

한국어 지원

데이터 분석을 통해 적합한 정보를 빠르게 검색

뉴스 및 블로그 컨텐츠에서 동향 분석

한국어 지원

자연어를 이해하고 텍스트의 내용 개념 핵심 키워드등을 분석

한국어 지원

특정주제 영역에 대해 왓슨의 자연어 이해 능력을빠르게 증진시키는 학습 지원

한국어 지원

이미지를 식별 및 분류하고 사용자가 직접 추가 훈련을더하여 다양한 산업과 애플리케이션에 응용 가능

디스커버리

이미지음성을 인식해 텍스트로 변환

텍스트를 인식해 음성으로 변환

한국어 지원

텍스트 분석을 통해 글쓴이의 가지 성격 특성가치관 등을 추론

글의 전반적 느낌과 문체를 감지하여 글쓴이의행복함 슬픔 자신감 등의 감정을 파악

감정 음성

© 2017 IBM Corporation 4Page

WatsonConversation

챗봇을– 만들기 위한 서비스

Intent – 학습

사용자의• 의도, 목적

Entity– 구축

대화상의• 인지 대상

System – Entity 지원 (Beta)

시간• / 날짜

화폐•

숫자• / 퍼센트

한글 지원 API

© 2017 IBM Corporation 5Page

WatsonNatural Language Understanding

– 각종 feature 한글 지원

• Metadata

• Categories

• Concepts

• Keywords

• Entities

• Semantic Roles

• Relations

한글 지원 API

© 2017 IBM Corporation 6Page

NLU- Metadata

– 사이트의 메타 정보 인식

• 제목

• 저자

• Feed

• 작성시간

한글 지원 API

© 2017 IBM Corporation 7Page

NLU- Categories- Concepts- Entities- Keywords

– 문서의 분류 인식 (Categories)

• 1000개 이상의 분류 제공

– 문서의 대상 인식

• 주제가 되는 대상(Concepts)

• 특정 대상 (Entities)

– 지명, 인명, 직업, 미디어 등

– Custom model 사용 가능

• 후보 키워드 (Keywords)

한글 지원 API

© 2017 IBM Corporation 8Page

NLU- Categories- Concepts- Entities- Keywords

한글 지원 API

© 2017 IBM Corporation 9Page

NLU- Categories- Concepts- Entities- Keywords

한글 지원 API

© 2017 IBM Corporation 10Page

NLU- Categories- Concepts- Keywords- Entities

한글 지원 API

© 2017 IBM Corporation 11Page

NLU- Sentiment

– 문서 또는 문장의 감정 분석

• 문서 내의 특정 대상 감정분석 지원

한글 지원 API

© 2017 IBM Corporation 12Page

NLU- Semantic Roles

– 문장의 구조화

• 주어

• 목적어

• 동사

– 대상의 주된 의미 파악 가능

– 구조화된 문장을 통하여 검색활용 가능

• 예) 트럼프 대통령과 연관된내용

한글 지원 API

© 2017 IBM Corporation 13Page

WatsonDiscovery Service

– 코그니티브 검색 지원

• 의미 검색

• 타 feature 연계 검색

– 컨텐츠 자연어 기반 분석

한글 지원 API

© 2017 IBM Corporation 14Page

WatsonPersonal Insight

– 사용자의 텍스트를 통한 개성과개인의 사회적 성향 분석

• Big Five (인격특성)

– 솔직함, 성실성, 심리, 기분좋음, 신경질

• Needs (요구)

– 도전, 친밀, 호기심, 흥분, 조화, 발상, 자유, 사랑, 현실성, 자기표현, 안정

• Values (가치)

– 보수성, 변화 개방성, 쾌락주의, 자기 고양 , 자기초월

한글 지원 API

© 2017 IBM Corporation 15Page

학습 방법 및 활용된 데이터 소개

한글 학습 과정

© 2017 IBM Corporation 16Page

• 언어의 특성을고려하여 Feature

생성

• N-gram

• Tokenize

• Annotator

• Language dependent

Feature추출

적절한• 응답 내용을주고 상호작용하였는가를확인하는 단계

적절한• 통계 처리를통한 오류 분석

검증

• 학습에 필요한데이터 수집

• 데이터 전처리(구조화 또는라벨링)

• Soft Labeling

Data 수집

• 더 나은 모델로시스템 개선

• Annotator

유지보수를 통해시스템 개선

개선

• API 별 상응하는모델 생성

• Language

Independent 과정

• Watson Core

모델 생성

© 2017 IBM Corporation 17Page

• 언어의 특성을고려하여 Feature

생성

• N-gram

• Tokenize

• Annotator

• Language dependent

Feature추출

• 적절한 응답 내용을주고 상호작용하였는가를확인하는 단계

• 적절한 통계 처리를통한 오류 분석

검증

• 학습에 필요한데이터 수집

• 데이터 전처리(구조화 또는라벨링)

• Soft Labeling

Data 수집

• 더 나은 모델로시스템 개선

Annotator •

유지보수를 통해시스템 개선

개선

• API 별 상응하는모델 생성

• Language

Independent 과정

• Watson Core

모델 생성

© 2017 IBM Corporation 18Page

학습 데이터수집/준비주로 어떤 데이터가 활용되었는가?

공개된– 데이터 활용

라벨링– 작업 진행

감정•

대상•

성향•

문법•

필요시– Soft-Labeling 활용

학습 방법

© 2017 IBM Corporation 19Page

• 언어의 특성을고려하여 Feature

생성

• N-gram

• Tokenize

• Annotator

• Language dependent

Feature추출

적절한• 응답 내용을주고 상호작용하였는가를확인하는 단계

적절한• 통계 처리를통한 오류 분석

검증

• 학습에 필요한데이터 수집

• 데이터 전처리(구조화 또는라벨링)

• Soft Labeling

Data 수집

• 더 나은 모델로시스템 개선

• Annotator

유지보수를 통해시스템 개선

개선

• API 별 상응하는모델 생성

• Language

Independent 과정

• Watson Core

모델 생성

© 2017 IBM Corporation 20Page

Feature 추출다른 언어와의 차이점?

왜 한글은 별도의 전처리가 필요한가?

– 타언어와 동일한 방식 사용시정확도 저하

– 단어의 변형으로 인한 어려운한글 처리

• 같은 단어의 어미 변화

• 조사의 의미

– 다양한 문법 오류

• 띄어쓰기 오류

• 문법 오류

한글 지원 API

© 2017 IBM Corporation 21Page

한글은 변형이다양하다?

– Weather is good

• 날씨 좋다

• 날씨가 좋네

• 좋은 날씨야

• 날씨가 좋아

• …

– Weather is not good

• 날씨가 안 좋네

• 날씨가 안 좋아

• 날씨가 좋지않아

• 날씨가 좋지않다

• …

한글 지원 API

© 2017 IBM Corporation 22Page

1. 어미 변형– 동사의 변형

• 예약하다

– 예약해

– 예약했다

– 예약할

– 예약한다

• 가다 (going/go/went)

– 간다, 간, 가는, ...

– 가, 가라, 가버려, 가는, 갈,가면 , …

– 갔다, 갔나, 갔지, ..

한글 지원 API

© 2017 IBM Corporation 23Page

2. 잦은 문법 오류띄어쓰기– 오류

예약할• 수 있다 (✔️)

예약• 할 수 있다

예약할수있다•

• …

철자– 오류

해써• (했어)

모르것다• (모르겠다)

안돼• or 안되

한글 지원 API

© 2017 IBM Corporation 24Page

한글 형태소 분석기 (tokenizer)

한글 언어 처리

형태소(形態素 , morpheme)란 : 뜻을 지닌 최소 단위

ABC생명 의 강한 연금보험으로 건강한 노후를 준비하세요

Tokenizer

ABC생명

고유명사

의 강한

조사 형용사

으로

조사

건강한

형용사

노후 준비하세요

명사 동사

연금

명사

보험

명사

조사

© 2017 IBM Corporation 25Page

조사는 무시할까? 어미와는 달리 문맥 파악시 필요

– 조사의 영향

• 관계

– 하늘이 (is)

– 하늘에서 (in)

– 하늘을 (object)

• 문맥

– 기분이 좋다 (긍정)

– 기분이 좋지만 … (긍정&부정)

– 기분이 좋아도 그러면 (부정)

한글 지원 API

© 2017 IBM Corporation 26Page

Tokenizer

형태소

충분한가?

© 2017 IBM Corporation 27Page

어간의 변형타언어와 달리 어간의 잦은 변화

기본형(Lemma)의 인식이 필요

– 어간 변형의 영향

• 어간 : 매

– 맵다 (Spicy)

– 음식이 매워

– 음식이 맵다

– 매다 (tie)– 신발끈을 매다

– 신발끈을 맸다

– 신발끈을 맨 …

• 기본형(Lemma)

– 음식이 매워 : 맵다

– 신발끈을 맸다 : 매다

한글 지원 API

© 2017 IBM Corporation 28Page

한글 형태소 분석기 (tokenizer)

한글 언어 처리

형태소(形態素 , morpheme)란 : 뜻을 지닌 최소 단위Stemming : 변하지 않는 부분(Stem)을 찾아 내는 것 영어 등에 사용Lemmatisation : 기본형(Lemma)을 찾아 내는 것 한글에 적합

아름다워지셨는지도[아름다워 (아름답다) / 지셨(지다) / 는지 / 도]

ABC생명의 강한 연금보험으로 건강한 노후를 준비하세요[ABC생명 / 의 / 강한(강하다) / 연금 / 보험 / 으로 /건강한 (건강하다) / 노후 / 를 / 준비하세요 (준비하다)]

© 2017 IBM Corporation 29Page

언어의• 특성을고려하여 Feature

생성

• N-gram

Tokenize•

Annotator•

Language dependent•

Feature추출

적절한• 응답 내용을주고 상호작용하였는가를확인하는 단계

적절한• 통계 처리를통한 오류 분석

검증

• 학습에 필요한데이터 수집

• 데이터 전처리(구조화 또는라벨링)

• Soft Labeling

Data 수집

• 더 나은 모델로시스템 개선

• Annotator

유지보수를 통해시스템 개선

개선

API • 별 상응하는모델 생성

Language •

Independent 과정

Watson Core•

모델 생성