fact extraction (ideograph)

40
Автоматическое извлечение фактов из текста На примере газетных статей Татьяна Ландо ООО «Идеограф»

Upload: nlpseminar

Post on 05-Dec-2014

7.202 views

Category:

Documents


1 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Fact Extraction (ideograph)

Автоматическое извлечение фактов из текста

На примере газетных статей

Татьяна Ландо ООО «Идеограф»

Page 2: Fact Extraction (ideograph)

Что это такое?

• Fact extraction (text mining) – автоматическое извлечение из текстов новой, заранее неизвестной информации, для построения фактов.

• Примеры фактов:– Установление связей между объектами– Установление свойств объектов– Установление значений параметров

Page 3: Fact Extraction (ideograph)

Зачем это надо?

• Сокращение трудоемкости при обработке текстов в конкретной предметной области. Популярная область применения:– Медицина, биотехнологии.

• Может применяться в: – Поддержка систем принятия решений– Экспертные системы– Базы знаний– Системы документооборота

Page 4: Fact Extraction (ideograph)

Пример: текст

«Евросеть», крупнейшая розничная компания СНГ, объявляет о назначении на пост Вице-президента по маркетингу и рекламе компании Андрея Рукавишникова. Оборот компании «Евросеть», в 2006 году составил 4,62 млрд. долларов.

Page 5: Fact Extraction (ideograph)

Пример: факты

1. отношения между объектамиАндрей Рукавишников - вице-президент по

маркетингу и рекламе компании «Евросеть».

2. свойства объектов«Евросеть» - крупнейшая розничная компания СНГ

3. значение параметровОборот компании «Евросеть» - 4,62 млрд.

долларов за 2006 год.

Page 6: Fact Extraction (ideograph)

Формулировка задачи

• Извлекать факты из газетных текстов.

(Создать базу данных фактов)

• На данном этапе стоят задачи:– Отождествлять имена собственные:

Андрей Рукавишников => человек

«Евросеть» => компания

– Устанавливать связи между ними вице-президент по маркетингу и рекламе =>

=> занимаемая должность

Page 7: Fact Extraction (ideograph)

Существующие проекты

• Яндекс.Новости – пресс-портреты. http://news.yandex.ru/people/

• RCO Fact Extractor http://rco.ru

• Интегрум http://www.integrum.ru/

Page 8: Fact Extraction (ideograph)

Зачем еще одна система?

• Существующие системы построены практически без использования лингвистических технологий.

• Применение лингвистики может– обогатить результаты – сделать их более качественными– придать системе гибкость и расширяемость

Добавляем лингвистику!

Page 9: Fact Extraction (ideograph)

определения

Термин – компонент тройки, т.е.единица

релевантная для системы, в нашем случае:

Имя человека, Название компании, Должность

Элементарный факт -

полностью заполненная тройка

(Человек, Компания, Должность)

должность

компания

человек

Page 10: Fact Extraction (ideograph)

Этапы обработки текста(для любой системы)

• Первичная обработка текста (структурирование)

• Извлечение фактов, с использованием образцов (паттернов)

• Интерпретация результатов

Page 11: Fact Extraction (ideograph)

Этапы работы нашей системы

• Первичная обработка текста– Токенизация – Парсинг

• Извлечение фактов– Идентификация терминов– Построение элементарных фактов

• Интерпретация результатов– Проверка корректности– Запись в базу данных

Page 12: Fact Extraction (ideograph)

Первичная обработка текста

Обязательные компоненты– Токенизация

• Разбивка текста на слова.

– Лемматизация (Нормализация)• приведение слова к начальной (нормальной)

форме

Дополнительные компоненты– Частичный синтаксический анализ– Идентификация терминов

Page 13: Fact Extraction (ideograph)

Токенизация

- Разбивка текста на слова. Маркеры:

- Пунктуация- Пробелы- Цифры

Проблемы:- Дефисное написание Связь-Банк- Использование пунктуации и цифр в именах

собственных заявочный комитет "Сочи-2014"

Page 14: Fact Extraction (ideograph)

Лемматизация

Приведение слова к начальной (нормальной) форме

Основная проблема:- Морфологическая неоднозначность

директора – ед.ч. Р.п. или мн.ч. Им.п

- Способы решения:- Статистический (частотный) - Учет синтаксической информации

Page 15: Fact Extraction (ideograph)

Частичный синтаксический анализ

Частичный разбор предложения, установление грамматических связей между словами

Функции:• Снятие морфологической неоднозначности• Первичная идентификация терминов

Метод:особый формализм для описания естественно-языковых грамматик: AGFL

Page 16: Fact Extraction (ideograph)

AGFLAffix grammar over the finite latticeРаспространяется под свободной

лицензией (GNU GPL)

уже подтверждена перспективность использования (на материале других европейских языков) для представления естественного языка в NLP технологиях

http://www.agfl.cs.ru.nl/links.html (примеры)

Page 17: Fact Extraction (ideograph)

AGFL

Гибкость и устойчивость системы:• работает не только с предложениями, но и

с «сегментами» текста

• может обрабатывать грамматически неверные или неполные предложения

• разрешение неоднозначности за счет сочетания признаков слов.

Page 18: Fact Extraction (ideograph)

AGFL• Двухуровневая контекстно-свободная

порождающая формальная грамматика– Морфология– Синтаксис

• дополнена решеткой признаков с конечным числом значений.

• Признаки:– грамматические категории, – лексико-грамматические разряды частей речи, – любые необходимые формальные характеристики

Page 19: Fact Extraction (ideograph)

AGFL: морфологический модуль

• задается анализ основных частей речи (существительных, глаголов, прилагательных и наречий).

• использует лексикон основ, для которых указаны основные классификационные категории частей речи: – характеристика рода и одушевленности

существительных, – лексико-грамматический разряд прилагательных– схема управления глаголов и т. д.

• дополнительно используется модуль деривации

Page 20: Fact Extraction (ideograph)

AGFL: морфологический модуль

• результат работы – приписанная форме слова частеречная

характеристика и набор значений морфологических категорий(многозначный – в случае омонимии форм )

• встроен в синтаксический модуль– учет локального синтаксического контекста для

снятия омонимии• наличие предлогов • соответствия между значениями грамматических категорий

словоформа пути в конструкции в пути получит не 5 интерпретаций в роли существительного а 2 – П.п. ед.ч. и В.п. мн.ч.

Page 21: Fact Extraction (ideograph)

AGFL: синтаксический модуль

• частотные конструкции словосочетаний,

• частотные схемы построения простых предложений

• отдельные осложняющие конструкции в простом предложении – ряды – причастные обороты – деепричастные обороты

Page 22: Fact Extraction (ideograph)

AGFL: примерДиректора интерпретации:

– Р.п. ед.ч., В.п. ед.ч., Им.п. мн.ч.

В заседании приняли(мн.ч) участие директора(мн.ч) крупнейших компаний Петербурга

Он был назначен на должность (управляет Р.п.) директора(Р.п.) по маркетингу.

Вчера совет акционеров снял(требует В.п.) с должности директора(В.п.) по инвестициям.

Page 23: Fact Extraction (ideograph)

Этапы работы нашей системы

• Первичная обработка текста– Токенизация – Парсинг

• Извлечение фактов– Идентификация терминов– Построение элементарных фактов

• Интерпретация результатов– Проверка корректности– Запись в базу данных

Page 24: Fact Extraction (ideograph)

Идентификация терминов

На основе синтаксических зависимостей между словами делается вывод о том, обозначает ли эта конструкция один термин.

Для имен собственных учитываются так же пунктуация и заглавные буквы, написание латиницей

Page 25: Fact Extraction (ideograph)

Идентификация терминов

1. Поиск опорного элемента• Предикаты

• назначить

• Маркеры классов• Господин• Компания• Должность

2. Наличие в словаре или онтологии

3. Паттерны / регулярные выражения

Page 26: Fact Extraction (ideograph)

Идентификация терминов: пример

Новым директором по финансам и управлению в российском подразделении компании T-Systems назначен Игорь Чупалов

директор по NP(dat)

компания CompanyName

назначен PersonName(Nom)

Page 27: Fact Extraction (ideograph)

Построение элементарных фактов

В реальности: почти неотделимо от предыдущего этапа.

Полный элементарный факт в одном предложении

• Особый предикат • Отсутствие предиката• Особый маркер (временной, глагол

говорения)

Page 28: Fact Extraction (ideograph)

Построение элементарных фактов

• Особый предикат Новым директором по финансам и управлению в российском

подразделении компании T-Systems назначен Игорь Чупалов

• Отсутствие предиката С 1 октября 2007 г. Джонатан Спарроу– генеральный директор Nokia

Siemens Networks в России

• Особый маркер (время, глагол говорения)Президент компании «Евросеть» Алексей Чуйкин отметил: <…>

Page 29: Fact Extraction (ideograph)

Построение элементарных фактов

Сложные ситуации:В предложении содержится неполный факт.

В 1995 году возглавлял отдел маркетинга в компании Rothmans. (Решение: Учет всего абзаца)

В предложении содержится более одного факта.

Ранее г-н Шенделл работал на позиции вице-президента по продажам, а г-н Имс – старшего вице-президента Best Buy (Решение пока не найдено)

Page 30: Fact Extraction (ideograph)

Этапы работы нашей системы

• Первичная обработка текста– Токенизация – Парсинг

• Извлечение фактов– Идентификация терминов– Построение элементарных фактов

• Интерпретация результатов– Проверка корректности– Запись в базу данных

Page 31: Fact Extraction (ideograph)

Проверка корректности

• Осуществляется с помощью онтологии.

• Онтология – формализация некоторой области знаний с помощью концептуальной схемы.

• Иерархия понятий (объектов) и заданные отношения между ними.

• Подробнее через неделю

Page 32: Fact Extraction (ideograph)

Проверка корректности

С января Donald Ims директор Best Buy.– Donald Ims, Best Buy: человек vs компания?

…годовой оборот Best Buy превышает…

Онтология: у компании есть признак «оборот» => Best Buy - компания

C января Х директор компании

=> Donald Ims – человек

Page 33: Fact Extraction (ideograph)

Запись в базу данных

• Запись фактов в базу данных (RDF?)

• Организация поиска по базе данных

должность

штат

компаниячеловек

оборот

Page 34: Fact Extraction (ideograph)

Использованные технологии

• Разработана специальная платформа Ideolog:– Является системой логического вывода, – Полностью создана на основе платформы

Java– Имеет классический набор встроенных

предикатов, который подойдет для решения любых задач логического вывода.

Page 35: Fact Extraction (ideograph)

Использованные технологии

• Ideolog – имеет расширение для работы с

типизированными структурами (TFS). – является полностью расширяемой и может

быть дополнена модулями для решения новых задач

– имеет простой механизм пополнения встроенными предикатами, типами данных и т.п.

– имеет удобную и наглядную графическую среду

Page 36: Fact Extraction (ideograph)

Использованные технологии

Page 37: Fact Extraction (ideograph)

Отличия от остальных систем

• Использование формальной грамматики: – Для снятия морфологической омонимии– Для идентификации терминов

• Использование онтологии

• Не использование статистики и машинного обучения

(планируется на дальнейших стадиях)

Page 38: Fact Extraction (ideograph)

Достоинства

• Работает для отдельных текстов (не нужен массив для составления статистики)

• Легко расширить элементарный факт, подключив, например, учет размера штата или местонахождения компании,

• Есть решение, позволяющее автоматически расширять онтологию (в разработке)

Page 39: Fact Extraction (ideograph)

Спасибо за внимание!

[email protected]

Page 40: Fact Extraction (ideograph)

Полезные ссылки

• http://ideograph.ru ООО «Идеограф»

• http://www.cs.ru.nl/agfl AGFL• http://www.w3.org/TR/owl-features Онтологии и

язык OWL• http://people.ischool.berkeley.edu/~hearst/text-m

ining.html - Статья Марти Херста об извлечении фактов

• http://filebox.vt.edu/users/wfan/text_mining.html Коллекция ссылок по информационному поиску и извлечению фактов