ibm content analytics · 2013. 10. 3. · Внутренние данные Работа с...
TRANSCRIPT
IBM Content Analytics
Дмитрий Лактионов,
руководитель направления IBM ECM
Задачи по работе с текстовой информацией
1. Сквозной поиск по источникам
2. Выявление закономерностей на
основании анализа текстовых данных
3. Извлечение ключевых фактов из
неструктурированных текстов
3
Lotus Domino
Lotus Connections SharePoint WebSphere Portal
Сквозной поиск по различным информационным системам
IBM ECM
File Systems, and more
Внутренние
данные
Работа с системой Content Analytics
• Система реализует полный цикл анализа текстов
1. Сбор данных
2. Обработка текстов на естественном языке
3. Отображение выявленных тенденций, зависимостей, аномалий и т.п.
• Архитектура системы открыта и результаты работы каждого из этапов могут
быть экспортированы в специализированные системы прогнозирования,
моделирования и визуализации
IBM Content Analytics
Визуализация Сбор данных Анализ
Индекс
1 2 3
Интернет
Пример #1: анализ новостных сайтов
Работа системы Content Analytics
• Суть обработки текста состоит в переходе от информации, содержащейся в
тексте в свободной форме, к структурированным данным, на основе
словарей и структурного анализа текста:
http://rnd.cnews.ru/tech/news/top/inde
x_science.shtml?2012/05/12/489249
Версия для КПК | Распечатать
Авиация и космос
12.05.12, Сб, 16:28, Мск
Компания ATK объявила о
разработке капсулы космического
корабля для ракеты-носителя
Liberty (LV), выполненной из
композитных материалов. Она
станет дешевым средством
доставки астронавтов на борт
МКС.
Источник: CNews
Дата: 12.05.2012
Компании: ATK
Технологии: композитные
материалы
Область применения: космос
Аналитические срезы • В системе Content Analytics
настраиваются аналитические срезы (фасеты), по сути представляющие из себя фильтры.
• Налагая различные фильтры и их комбинации на большой массив документов, аналитик может выделять те или иные явления и их взаимосвязь.
• Фильтры являются интеллектуальными, под каждым из них могут быть скрыты словари, правила обработки текста или функционал модуля классификации
• На последующих слайдах приводятся примеры аналитических срезов, настроенных в целях демонстрации возможностей системы
Источники данных В качестве источников данных
использовались сайты
Интерфакс, РИА Новости и BBC
Срез по источникам данных
Систему реагирует на сигнатуру
страниц с того или иного сайта и
определяет источник
Срез по странам, упоминающимся в тексте
Система реагирует на ключевые
слова: упоминания названий
стран в текстах статей
Срез по годам, упоминающимся в тексте
Для выделения года из текста
использовался анализ текста: «в
2013 году», «к 2010 году» ...
Срез по областям применения
Область применения
определяется по характерной
лексике: пациент, врач, раскопки,
пушка, ракета ...
Ядерные разработки
Во вложенный срез можно
выделить объекты,
представляющие особенный
интерес среди всей группы
Технологии сгруппированы в направления
Все множество технологий можно
сгруппировать в более общие
категории
Результат работы модуля классификации
База знаний была обучена на двух массивах документов: «про ракеты» и
«про реки». Если документ не подпадает ни под одну их этих категорий,
система возвращает значение «неизвестная».
Документов «про реки» найдено
не было.
Потенциал для функционала ГИС
Архитектура системы открытая,
на рисунке как пример показана
интеграция с Google Maps
Выделение корреляций между срезами
После настройки срезов система вычисляет взаимосвязь между ними
и подсвечивает значимые с ее точки зрения сочетания
Отображение взаимосвязей в виде графа
Многоязычный аналитический срез
Аналитические срезы могут
объединять концепции из
документов на разных языках
Пример #2: анализ интернет-форумов
Сбор данных
• Был использован стандартный «искатель» для Интернет, входящий в состав
продукта
Единственная потребовавшаяся
настройка искателя – ввод веб-
адреса сайта
Анализ информации
• Фасеты по городу и продукту, выделяют упоминание
в тексте тех или иных городов и банковских
продуктов
• Фасет «Отношение клиента» реагирует на
появление в тексте положительных или
отрицательных прилагательных.
• Были настроены правила, срабатывающие при
употреблении слов «проблема» и «банкомат» или
«карта» в пределах одного предложения.
• При настройке анализа был сделан акцент на
использование только стандартных средств
продукта. Никакой кастомизации не производилось.
Этап 3. Визуализация
• Появилась возможность оценить частоту обсуждениея проблем с картой или
с банкоматом.
• Эти результаты получены на основе анализа более 11 тысяч документов
Фасет «Продукты»
Фасет «Города»
Фасет «Отношение клиента»
Визуализация связи проблем с городами
Табличное представление связи фасет
Чем ярче цвет, тем больше связь (корреляция) между
фасетами. Нажатие на подсвеченную клетку позволяет
перейти к интересующим документам.
Текст сообщения с жалобой клиента
Текст документа позволяет выявить сбой в
региональной сети банкоматов и недовольство
клиента.
Это сообщение было выделено из 11,5 тысяч
документов.
Дополнительные возможности системы
• Система может выделять регулярные выражения, такие как номера
кредитных карт, телефонов, номера филиалов и т.п.
• Система визуализации Content Analytics реализована на основе открытых
интерфейсов, что позволяет встраивать свои модули визуализации. На одном
из следующих слайдов показано отображение информации из системы на
картах GoogleMaps
• Наряду с неструктурированной информацией CA успешно обрабатывает и
визуализирует структурированные данные. На следующем слайде приведен
пример успешного внедрения CA для выявление финансовых нарушений.
Выявление регулярных выражений
• Обратите внимание на разный формат написания номеров и наличие
мелких различий в написании: с пробелом, без пробела.
• Это иллюстрирует возможность выделения из текста регулярных
выражений: номеров документов, адресов электронной почты, денежных
сумм и т.п.
Интеграция с Google Maps
Другие примеры
34
Анализ обращений клиентов
Мониторинг общественного мнения
35
Пример извлечения фактов из текста
Области применения Content Analytics
• IBM Content Analytics успешно используется для анализа рынка: мнение
широкой аудитории о продуктах и услугах, выявление проблем и оперативное
реагирование на них.
• В кол-центрах CA применяется для анализа проблемных продуктов.
• Также этот продукт широко используется службами безопасности для
оперативного выявления инцидентов.
• Функционал Enterprise Search, входящий в состав продукта, позволяет
осуществлять одновременный сквозной полнотекстовый поиск по десяткам
массивов разнородной текстовой информации
Спасибо!
Дмитрий Лактионов e-mail: [email protected]