ibm content analytics · 2013. 10. 3. · Внутренние данные Работа с...

38
IBM Content Analytics Дмитрий Лактионов, руководитель направления IBM ECM

Upload: others

Post on 18-Sep-2020

2 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

IBM Content Analytics

Дмитрий Лактионов,

руководитель направления IBM ECM

Page 2: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Задачи по работе с текстовой информацией

1. Сквозной поиск по источникам

2. Выявление закономерностей на

основании анализа текстовых данных

3. Извлечение ключевых фактов из

неструктурированных текстов

Page 3: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

3

Lotus Domino

Lotus Connections SharePoint WebSphere Portal

Сквозной поиск по различным информационным системам

IBM ECM

File Systems, and more

Page 4: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Внутренние

данные

Работа с системой Content Analytics

• Система реализует полный цикл анализа текстов

1. Сбор данных

2. Обработка текстов на естественном языке

3. Отображение выявленных тенденций, зависимостей, аномалий и т.п.

• Архитектура системы открыта и результаты работы каждого из этапов могут

быть экспортированы в специализированные системы прогнозирования,

моделирования и визуализации

IBM Content Analytics

Визуализация Сбор данных Анализ

Индекс

1 2 3

Интернет

Page 5: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Пример #1: анализ новостных сайтов

Page 6: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Работа системы Content Analytics

• Суть обработки текста состоит в переходе от информации, содержащейся в

тексте в свободной форме, к структурированным данным, на основе

словарей и структурного анализа текста:

http://rnd.cnews.ru/tech/news/top/inde

x_science.shtml?2012/05/12/489249

Версия для КПК | Распечатать

Авиация и космос

12.05.12, Сб, 16:28, Мск

Компания ATK объявила о

разработке капсулы космического

корабля для ракеты-носителя

Liberty (LV), выполненной из

композитных материалов. Она

станет дешевым средством

доставки астронавтов на борт

МКС.

Источник: CNews

Дата: 12.05.2012

Компании: ATK

Технологии: композитные

материалы

Область применения: космос

Page 7: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Аналитические срезы • В системе Content Analytics

настраиваются аналитические срезы (фасеты), по сути представляющие из себя фильтры.

• Налагая различные фильтры и их комбинации на большой массив документов, аналитик может выделять те или иные явления и их взаимосвязь.

• Фильтры являются интеллектуальными, под каждым из них могут быть скрыты словари, правила обработки текста или функционал модуля классификации

• На последующих слайдах приводятся примеры аналитических срезов, настроенных в целях демонстрации возможностей системы

Page 8: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Источники данных В качестве источников данных

использовались сайты

Интерфакс, РИА Новости и BBC

Page 9: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Срез по источникам данных

Систему реагирует на сигнатуру

страниц с того или иного сайта и

определяет источник

Page 10: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Срез по странам, упоминающимся в тексте

Система реагирует на ключевые

слова: упоминания названий

стран в текстах статей

Page 11: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Срез по годам, упоминающимся в тексте

Для выделения года из текста

использовался анализ текста: «в

2013 году», «к 2010 году» ...

Page 12: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Срез по областям применения

Область применения

определяется по характерной

лексике: пациент, врач, раскопки,

пушка, ракета ...

Page 13: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Ядерные разработки

Во вложенный срез можно

выделить объекты,

представляющие особенный

интерес среди всей группы

Page 14: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Технологии сгруппированы в направления

Все множество технологий можно

сгруппировать в более общие

категории

Page 15: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Результат работы модуля классификации

База знаний была обучена на двух массивах документов: «про ракеты» и

«про реки». Если документ не подпадает ни под одну их этих категорий,

система возвращает значение «неизвестная».

Документов «про реки» найдено

не было.

Page 16: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Потенциал для функционала ГИС

Архитектура системы открытая,

на рисунке как пример показана

интеграция с Google Maps

Page 17: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Выделение корреляций между срезами

После настройки срезов система вычисляет взаимосвязь между ними

и подсвечивает значимые с ее точки зрения сочетания

Page 18: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Отображение взаимосвязей в виде графа

Page 19: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Многоязычный аналитический срез

Аналитические срезы могут

объединять концепции из

документов на разных языках

Page 20: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Пример #2: анализ интернет-форумов

Page 21: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Сбор данных

• Был использован стандартный «искатель» для Интернет, входящий в состав

продукта

Единственная потребовавшаяся

настройка искателя – ввод веб-

адреса сайта

Page 22: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Анализ информации

• Фасеты по городу и продукту, выделяют упоминание

в тексте тех или иных городов и банковских

продуктов

• Фасет «Отношение клиента» реагирует на

появление в тексте положительных или

отрицательных прилагательных.

• Были настроены правила, срабатывающие при

употреблении слов «проблема» и «банкомат» или

«карта» в пределах одного предложения.

• При настройке анализа был сделан акцент на

использование только стандартных средств

продукта. Никакой кастомизации не производилось.

Page 23: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Этап 3. Визуализация

• Появилась возможность оценить частоту обсуждениея проблем с картой или

с банкоматом.

• Эти результаты получены на основе анализа более 11 тысяч документов

Page 24: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Фасет «Продукты»

Page 25: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Фасет «Города»

Page 26: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Фасет «Отношение клиента»

Page 27: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Визуализация связи проблем с городами

Page 28: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Табличное представление связи фасет

Чем ярче цвет, тем больше связь (корреляция) между

фасетами. Нажатие на подсвеченную клетку позволяет

перейти к интересующим документам.

Page 29: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Текст сообщения с жалобой клиента

Текст документа позволяет выявить сбой в

региональной сети банкоматов и недовольство

клиента.

Это сообщение было выделено из 11,5 тысяч

документов.

Page 30: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Дополнительные возможности системы

• Система может выделять регулярные выражения, такие как номера

кредитных карт, телефонов, номера филиалов и т.п.

• Система визуализации Content Analytics реализована на основе открытых

интерфейсов, что позволяет встраивать свои модули визуализации. На одном

из следующих слайдов показано отображение информации из системы на

картах GoogleMaps

• Наряду с неструктурированной информацией CA успешно обрабатывает и

визуализирует структурированные данные. На следующем слайде приведен

пример успешного внедрения CA для выявление финансовых нарушений.

Page 31: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Выявление регулярных выражений

• Обратите внимание на разный формат написания номеров и наличие

мелких различий в написании: с пробелом, без пробела.

• Это иллюстрирует возможность выделения из текста регулярных

выражений: номеров документов, адресов электронной почты, денежных

сумм и т.п.

Page 32: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Интеграция с Google Maps

Page 33: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Другие примеры

Page 34: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

34

Анализ обращений клиентов

Page 35: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Мониторинг общественного мнения

35

Page 36: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Пример извлечения фактов из текста

Page 37: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Области применения Content Analytics

• IBM Content Analytics успешно используется для анализа рынка: мнение

широкой аудитории о продуктах и услугах, выявление проблем и оперативное

реагирование на них.

• В кол-центрах CA применяется для анализа проблемных продуктов.

• Также этот продукт широко используется службами безопасности для

оперативного выявления инцидентов.

• Функционал Enterprise Search, входящий в состав продукта, позволяет

осуществлять одновременный сквозной полнотекстовый поиск по десяткам

массивов разнородной текстовой информации

Page 38: IBM Content Analytics · 2013. 10. 3. · Внутренние данные Работа с системой Content Analytics • Система реализует полный цикл

Спасибо!

Дмитрий Лактионов e-mail: [email protected]