ibm content analytics · 2013. 10. 3. · Внутренние данные Работа с...

Post on 18-Sep-2020

2 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

IBM Content Analytics

Дмитрий Лактионов,

руководитель направления IBM ECM

Задачи по работе с текстовой информацией

1. Сквозной поиск по источникам

2. Выявление закономерностей на

основании анализа текстовых данных

3. Извлечение ключевых фактов из

неструктурированных текстов

3

Lotus Domino

Lotus Connections SharePoint WebSphere Portal

Сквозной поиск по различным информационным системам

IBM ECM

File Systems, and more

Внутренние

данные

Работа с системой Content Analytics

• Система реализует полный цикл анализа текстов

1. Сбор данных

2. Обработка текстов на естественном языке

3. Отображение выявленных тенденций, зависимостей, аномалий и т.п.

• Архитектура системы открыта и результаты работы каждого из этапов могут

быть экспортированы в специализированные системы прогнозирования,

моделирования и визуализации

IBM Content Analytics

Визуализация Сбор данных Анализ

Индекс

1 2 3

Интернет

Пример #1: анализ новостных сайтов

Работа системы Content Analytics

• Суть обработки текста состоит в переходе от информации, содержащейся в

тексте в свободной форме, к структурированным данным, на основе

словарей и структурного анализа текста:

http://rnd.cnews.ru/tech/news/top/inde

x_science.shtml?2012/05/12/489249

Версия для КПК | Распечатать

Авиация и космос

12.05.12, Сб, 16:28, Мск

Компания ATK объявила о

разработке капсулы космического

корабля для ракеты-носителя

Liberty (LV), выполненной из

композитных материалов. Она

станет дешевым средством

доставки астронавтов на борт

МКС.

Источник: CNews

Дата: 12.05.2012

Компании: ATK

Технологии: композитные

материалы

Область применения: космос

Аналитические срезы • В системе Content Analytics

настраиваются аналитические срезы (фасеты), по сути представляющие из себя фильтры.

• Налагая различные фильтры и их комбинации на большой массив документов, аналитик может выделять те или иные явления и их взаимосвязь.

• Фильтры являются интеллектуальными, под каждым из них могут быть скрыты словари, правила обработки текста или функционал модуля классификации

• На последующих слайдах приводятся примеры аналитических срезов, настроенных в целях демонстрации возможностей системы

Источники данных В качестве источников данных

использовались сайты

Интерфакс, РИА Новости и BBC

Срез по источникам данных

Систему реагирует на сигнатуру

страниц с того или иного сайта и

определяет источник

Срез по странам, упоминающимся в тексте

Система реагирует на ключевые

слова: упоминания названий

стран в текстах статей

Срез по годам, упоминающимся в тексте

Для выделения года из текста

использовался анализ текста: «в

2013 году», «к 2010 году» ...

Срез по областям применения

Область применения

определяется по характерной

лексике: пациент, врач, раскопки,

пушка, ракета ...

Ядерные разработки

Во вложенный срез можно

выделить объекты,

представляющие особенный

интерес среди всей группы

Технологии сгруппированы в направления

Все множество технологий можно

сгруппировать в более общие

категории

Результат работы модуля классификации

База знаний была обучена на двух массивах документов: «про ракеты» и

«про реки». Если документ не подпадает ни под одну их этих категорий,

система возвращает значение «неизвестная».

Документов «про реки» найдено

не было.

Потенциал для функционала ГИС

Архитектура системы открытая,

на рисунке как пример показана

интеграция с Google Maps

Выделение корреляций между срезами

После настройки срезов система вычисляет взаимосвязь между ними

и подсвечивает значимые с ее точки зрения сочетания

Отображение взаимосвязей в виде графа

Многоязычный аналитический срез

Аналитические срезы могут

объединять концепции из

документов на разных языках

Пример #2: анализ интернет-форумов

Сбор данных

• Был использован стандартный «искатель» для Интернет, входящий в состав

продукта

Единственная потребовавшаяся

настройка искателя – ввод веб-

адреса сайта

Анализ информации

• Фасеты по городу и продукту, выделяют упоминание

в тексте тех или иных городов и банковских

продуктов

• Фасет «Отношение клиента» реагирует на

появление в тексте положительных или

отрицательных прилагательных.

• Были настроены правила, срабатывающие при

употреблении слов «проблема» и «банкомат» или

«карта» в пределах одного предложения.

• При настройке анализа был сделан акцент на

использование только стандартных средств

продукта. Никакой кастомизации не производилось.

Этап 3. Визуализация

• Появилась возможность оценить частоту обсуждениея проблем с картой или

с банкоматом.

• Эти результаты получены на основе анализа более 11 тысяч документов

Фасет «Продукты»

Фасет «Города»

Фасет «Отношение клиента»

Визуализация связи проблем с городами

Табличное представление связи фасет

Чем ярче цвет, тем больше связь (корреляция) между

фасетами. Нажатие на подсвеченную клетку позволяет

перейти к интересующим документам.

Текст сообщения с жалобой клиента

Текст документа позволяет выявить сбой в

региональной сети банкоматов и недовольство

клиента.

Это сообщение было выделено из 11,5 тысяч

документов.

Дополнительные возможности системы

• Система может выделять регулярные выражения, такие как номера

кредитных карт, телефонов, номера филиалов и т.п.

• Система визуализации Content Analytics реализована на основе открытых

интерфейсов, что позволяет встраивать свои модули визуализации. На одном

из следующих слайдов показано отображение информации из системы на

картах GoogleMaps

• Наряду с неструктурированной информацией CA успешно обрабатывает и

визуализирует структурированные данные. На следующем слайде приведен

пример успешного внедрения CA для выявление финансовых нарушений.

Выявление регулярных выражений

• Обратите внимание на разный формат написания номеров и наличие

мелких различий в написании: с пробелом, без пробела.

• Это иллюстрирует возможность выделения из текста регулярных

выражений: номеров документов, адресов электронной почты, денежных

сумм и т.п.

Интеграция с Google Maps

Другие примеры

34

Анализ обращений клиентов

Мониторинг общественного мнения

35

Пример извлечения фактов из текста

Области применения Content Analytics

• IBM Content Analytics успешно используется для анализа рынка: мнение

широкой аудитории о продуктах и услугах, выявление проблем и оперативное

реагирование на них.

• В кол-центрах CA применяется для анализа проблемных продуктов.

• Также этот продукт широко используется службами безопасности для

оперативного выявления инцидентов.

• Функционал Enterprise Search, входящий в состав продукта, позволяет

осуществлять одновременный сквозной полнотекстовый поиск по десяткам

массивов разнородной текстовой информации

Спасибо!

Дмитрий Лактионов e-mail: r90777@ru.ibm.com

top related