instituto superior de engenharia do porto …paf/proj/set2004/web intelligence.pdf · relacionados,...

56
INSTITUTO SUPERIOR DE ENGENHARIA DO PORTO DEPARTAMENTO DE INFORMÁTICA RAMO DE COMPUTADOR E SISTEMAS Projecto 5º Ano I020989 – José Manuel Godinho Oliveira Orientado por Carlos Fernando da Silva Ramos Porto, Setembro de 2004

Upload: phamtuong

Post on 02-Dec-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

INSTITUTO SUPERIOR DE ENGENHARIA DO PORTO

DEPARTAMENTO DE INFORMÁTICA

RAMO DE COMPUTADOR E SISTEMAS

������������������������������������������������������������

Projecto 5º Ano

I020989 – José Manuel Godinho Oliveira

Orientado por Carlos Fernando da Silva Ramos

Porto, Setembro de 2004

WEB INTELLIGENCE ISEP 2004

Pág. 2

Agradecimentos Este trabalho vem concluir mais uma fase da minha vida. Foram dois

anos de esforço, onde aconteceram coisas boas e coisas más. A ajuda de todos aqueles com quem passei este tempo foi preciosa, e

por isso lhes digo: muito obrigado. Quero ainda agradecer ao meu orientador, Eng. Carlos Ramos, a forma

como se empenhou e a disponibilidade que mostrou. Obrigado também à minha mulher pela coragem e apoio que me deu

para enfrentar este desafio. A ela, e ao meu filho, dedico este projecto.

WEB INTELLIGENCE ISEP 2004

Pág. 3

Índice 1. Introdução............................................................................................................. 5

1.1 Breve descrição ............................................................................................. 5 1.2 Estrutura do trabalho ..................................................................................... 5

2. Algumas técnicas usadas ....................................................................................... 6 2.1 Data Mining - Descoberta do conhecimento em bases de dados ..................... 6 2.2 Text Mining - Descoberta do conhecimento em textos................................... 7 2.3 Web Mining .................................................................................................. 9 2.4 Interfaces Inteligentes que se adaptam (Adaptive User Interfaces) ............... 10 2.5 Agentes Inteligentes e Web Agents.............................................................. 11 2.6 Semântica da Web e Ontologias................................................................... 12

3. The Web Intelligence Consortium ....................................................................... 14 3.1 A organização.............................................................................................. 14 3.2 Centros de pesquisa e projectos ................................................................... 15

4. Web Intelligence (WI)......................................................................................... 20 4.1 O que é? ...................................................................................................... 20 4.2 Objectivo..................................................................................................... 21

5. Sistemas e Aplicações mais comuns da WI.......................................................... 26 5.1 Business Intelligence ................................................................................... 26 5.2 E-Technology.............................................................................................. 26 5.3 Intelligent Enterprise Portals........................................................................ 27 5.4 Intelligent Web Information Systems........................................................... 28 5.5 Price Dynamics and Pricing Algorithms ...................................................... 28 5.6 Measuring and Analyzing Web Merchandising and Web-Based Direct Marketing and CRM ............................................................................................... 28

6. Futuro e desafios para a WI................................................................................. 30 6.1 Novas tecnologias........................................................................................ 30 6.2 Recolha e selecção de dados para Data Mining ............................................ 30 6.3 Identificar utilizadores e recolher os seus dados com precisão ..................... 31 6.4 Integração dos vários resultados e tipos de mining....................................... 32 6.5 Privacidade.................................................................................................. 32

7. Ferramentas......................................................................................................... 33 7.1 Web Usage Mining...................................................................................... 33 7.2 Text Mining de páginas web........................................................................ 38 7.3 Web Content Mining ................................................................................... 42 7.4 Web Structure Mining ................................................................................. 43

8. Conclusão ........................................................................................................... 52 9. Dificuldades........................................................................................................ 52 10. Referências...................................................................................................... 53

WEB INTELLIGENCE ISEP 2004

Pág. 4

Índice de Figuras Figura I - Estrutura das técnicas de Web Mining ........................................................... 9 Figura II - Pesquisas na web actualmente .................................................................... 21 Figura III - O Futuro da web ....................................................................................... 22 Figura IV - Áreas envolvidas na WI............................................................................ 23 Figura V - Ecrã principal do Funnel Web Analyzer..................................................... 33 Figura VI - Tabela de análises estatísticas ................................................................... 34 Figura VII - Gráfico de visitantes................................................................................ 34 Figura VIII - Gráfico da distribuição regional ............................................................. 35 Figura IX - Tempos de acesso ao site .......................................................................... 36 Figura X - Gráfico de erros ......................................................................................... 37

Índice de Imagens Imagem 1 - Resultados da pesquisa............................................................................. 38 Imagem 2 - Texto seleccionado no TextAnalyst .......................................................... 39 Imagem 3 - Árvore de palavras relevantes................................................................... 40 Imagem 4 - Palavras relevantes da pesquisa aos resultados......................................... 41 Imagem 5 - Selecção de palavras................................................................................. 41 Imagem 6 - Portal Digesto.net.................................................................................... 42 Imagem 7 - Resultados de um query........................................................................... 44 Imagem 8 - Resultados do crawl ................................................................................ 45 Imagem 9 - Resultados do crawl com nível de profundidade ....................................... 45 Imagem 10 - Resultados ordenados ............................................................................. 46 Imagem 11 - Resultados de submitting........................................................................ 47 Imagem 12 - Resultados do matching......................................................................... 48 Imagem 13 - Resultados da pesquisa com nível 1....................................................... 50 Imagem 14 - Resultados da pesquisa com nível 2........................................................ 51

Índice de Tabelas Tabela 1 - Distribuição dos acessos por regiões........................................................... 35 Tabela 2 - Duração dos acessos ao site ........................................................................ 36 Tabela 3 - URLs falhados............................................................................................ 37

WEB INTELLIGENCE ISEP 2004

Pág. 5

1. Introdução

1.1 Breve descrição

A Internet é sem dúvida a grande responsável pela forma como, nos

dias de hoje, obtemos, tratamos e usamos a informação. No entanto, para além desta ser em grande quantidade, também pode ser apresentada em vários formatos, como por exemplo: documentos distribuídos e inter-relacionados, estruturados ou não, com textos, imagens e sons. Em 1999 Garofalakis [17] e outros previam que a maior parte do conhecimento humano estaria na Internet em 10 anos.

Entretanto, tanto conhecimento só será útil se as pessoas que o procuram o conseguirem encontrar. Embora existam muitos motores de busca, no início de 1998, Bharat e Broder [18] estimaram que, apenas 80% dos 200 milhões de páginas publicadas na Web estavam indexadas nos maiores motores (Altavista, HotBot, Excite e Infoseek).

Este problema demonstra a necessidade da existência de mecanismos de procura de informação na Internet de uma forma inteligente. Foi com este objectivo que apareceu a Web Intelligence. Em 2000, Zhong [19] definiu a WI como um campo de pesquisa que explora a Inteligência Artificial (IA) e a Tecnologia de Informação (TI) avançada para o desenvolvimento de sistemas inteligentes para a Web.

Segundo [31], WI investiga os papéis importantes que estas duas componentes têm sobre a web, preocupando-se com o impacto prático que elas terão na nova e futura geração de produtos, sistemas, serviços e actividades utilizadores na web. É a chave e o campo de investigação mais urgente da tecnologia de informação para o business intelligence.

1.2 Estrutura do trabalho

O trabalho é composto por 9 capítulos. O primeiro capítulo faz uma breve referência à Internet de hoje. O

segundo apresenta algumas técnicas mais usadas na descoberta de conhecimento. O terceiro apresenta a organização que representa e impulsiona a investigação da WI. O quarto capítulo define a própria WI e os seus objectivos. No quinto capítulo, podemos saber quais as áreas de aplicação da WI. No sexto capítulo são discutidos alguns dos desafios futuros da WI. No sétimo capítulo são apresentadas algumas ferramentas experimentadas no âmbito deste projecto. Finalmente, no oitavo e novo capítulo são apresentadas as conclusões e as dificuldades na elaboração do trabalho.

WEB INTELLIGENCE ISEP 2004

Pág. 6

2. Algumas técnicas usadas

Em 2002, Goetzel descreve a web como tendo uma “mente infantil” e acredita que nos próximos 20 anos iremos assistir ao seu crescimento e desenvolvimento para um sistema inteligente, globalmente distribuído, altamente autónomo e “capaz de voar” [30].

Esta secção apresenta as principais técnicas de inteligência artificial

utilizadas, e explica como podem ser aplicadas na Web Intelligence.

2.1 Data Mining - Descoberta do conhecimento em bases de dados

A Descoberta do Conhecimento em bases de dados (KDD) é um

processo não-trivial de identificação de padrões válidos, potencialmente úteis e compreensíveis ao utilizador [20]. A KDD é composta por algoritmos e ferramentas inteligentes que auxiliam as pessoas a analisar grandes volumes de informação para extrair conhecimento útil. Segundo Fayyad [20] Data Mining pode ser definido como a parte do processo de KDD responsável pela extracção de padrões de dados, enquanto que a descoberta do conhecimento é um processo maior, envolvendo também a interpretação dos dados. As principais técnicas de Data Mining são:

• Classificação

Esta técnica tem como objectivo relacionar os elementos com classes pré-existentes, onde é utilizada uma função para mapear os elementos com as classes [20]. As classes devem ser definidas através das suas características.

• Modelos de previsão A técnica de modelos de previsão é semelhante à de classificação, mas em vez de tentar relacionar os elementos com classes, tenta descobrir uma função matemática que descreva o comportamento de um sistema (calcular uns valores em função de outros) [21]. A finalidade é poder prever valores futuros.

• Detecção de desvios Esta técnica utiliza uma função média, representando o comportamento normal de um sistema para avaliar possíveis desvios.

• Clustering Este é o processo inverso da classificação. Nesta técnica não existem classes (não se sabe quais são as classes, quantas são nem quais as suas características), apenas elementos num universo, a partir dos quais se vão definir classes para os enquadrar. O objectivo é identificar grupos de afinidades,

WEB INTELLIGENCE ISEP 2004

Pág. 7

avaliando a similaridade entre os elementos, e agrupá-los [Han96].

• Análise de cluster Esta técnica completa a anterior, na medida em que procura características comuns entre os elementos de cada grupo. Na maioria dos mecanismos o objectivo está em identificar um conjunto de características médias para cada classe [Han96].

• Associação ou correlação Esta é a técnica mais conhecida de Data Mining. Com esta técnica verifica-se se existe alguma influência entre atributos ou valores de atributos [22]. O objectivo é encontrar dependências entre atributos ou valores de atributos através da análise de probabilidades condicionais.

• Análise de séries temporais

Esta técnica procura encontrar padrões na repetição seguida de valores.

• Evolução ou sequência de tempo

As técnicas de evolução ou sequência de tempo tentam encontrar regras de associação ou correlação entre eventos ocorridos em momentos diferentes [22].

2.2 Text Mining - Descoberta do conhecimento em textos

O objectivo do Text Mining é procurar padrões ou tendências em textos de linguagem natural, e analisar textos com objectivos específicos.

Inspirado no Data Mining, que descobre padrões proeminentes de bases de dados altamente estruturadas, o Text Mining pretende extrair conhecimento útil de texto não estruturado ou semi-estruturado. O Text Mining, também conhecido como Text Data Mining ou Knowledge Discovery from Text (KDT) é um campo inter-disciplinar que inclui, mas não é limitado por:

Information Extraction (IE) Natural Language Processing (NLP) and Computational Linguistics (CL) Machine Learning (ML) Information Retrieval (IR) Data Mining (DM) or Knowledge Discovery from Databases (KDD) Knowledge and Information Management Information Visualization O termo “Descoberta do Conhecimento em textos” foi usado pela

primeira vez por Feldman e Dragan em 1995 para designar o processo de extracção de algo de interessante em textos de artigos de revistas e jornais, mensagens de e-mail, páginas Web, etc. Nos dias de hoje, Text Mining e Text Data Mining são usados também com a mesma finalidade [23].

WEB INTELLIGENCE ISEP 2004

Pág. 8

Assim, podemos definir Text Mining como o processo de extrair padrões ou conhecimento, interessantes e não-triviais, a partir de documentos de texto [23]. As principais técnicas de Text Mining são:

• Extracção Esta técnica tem como objectivo encontrar informações específicas dentro de textos [24]. O objectivo desta área é diferente do objectivo do processamento da linguagem natural, uma vez que é mais focado e definido, extraindo tipos específicos de informação [Rillof94]. A técnica procura converter dados não estruturados em informações explícitas, normalmente armazenadas em bases de dados estruturadas.

• Categorização Esta é uma técnica básica. A categorização de textos tem como objectivo associar categorias pré-definidas aos textos [25]. Em geral, os trabalhos de categorização procuram encontrar os temas centrais de um texto.

• Análise de características ou descrição de conceitos

O objectivo é apresentar uma lista com os conceitos principais de um único texto. Geralmente os conceitos são termos ou expressões extraídos por análise estatística.

• Análise linguística Este tipo de abordagem procura descobrir informações analisando frases ao nível léxico, morfológico, sintáctico e semântico.

• Resumos Esta técnica usa as anteriores, mas com mais ênfase na produção de resumos dos textos. Resumir é a generalização das partes mais importantes de um texto [24].

• Associação entre textos Esta técnica tenta relacionar várias descobertas presentes em vários textos.

• Clustering No Text Mining a técnica de clustering é igual à usada no Data Mining, sendo que a única diferença é que a mesma é aplicada sobre palavras ou sobre conceitos. Conceitos permitem trabalhar com sinónimos ou variações lexicais.

WEB INTELLIGENCE ISEP 2004

Pág. 9

2.3 Web Mining

Web Mining é a aplicação das técnicas de Data Mining, Text Mining ou outro processo de Descoberta do Conhecimento na Web.

Os utilizadores podem tirar partido desta técnica para obter informação da Web com mais eficiência. A técnica de Web Mining pode ser dividida em 3 categorias: content mining, usage mining, e structure mining.

Figura I - Estrutura das técnicas de Web Mining

• Content Mining Web content mining descreve o processo automático de procura nas fontes de informação on-line [14], e envolve a extracção de conteúdos de dados na Web. No contexto do Web Mining, web content minig é semelhante às técnicas de Data Mining em bases de dados relacioanis, uma vez que é possível extrair conhecimento semelhante de fontes de dados não estruturadas que existem nos documentos da Web.

• Structure Mining

O objectivo desta categoria é gerar resumos sobre a estrutura de Web Sites e páginas Web. Tecnicamente, web content mining centra-se principalmente na estrutura do próprio documento, enquanto que web structure mining se preocupa em descobrir a estrutura de hyperlinks entre documentos. É com base na topologia dos hyperlinks que web structure mining vai categorizar as páginas web e gerar a informação, como por exemplo a semelhança e relacionamento emtre Web Sites diferentes. Outro dos seus objectivos é identificar documentos mais procurados. A ideia é que um hyperlink de um documento A para um documento B implica que o autor do documento A pensa que o documento B tem informação relevante.

• Usage Mining Web usage mining tenta descobrir informação útil a partir dos logs de utilização de um servidor web. Centra-se principalmente nas técnicas que podem prever o comportamento dos utilizadores, enquanto este navegam na web. M. Spiliopoulou [16]

WEB INTELLIGENCE ISEP 2004

Pág. 10

referiu uma teoria, como uma estratégia possível, para atingir o objectivo como sendo: prever o comportamento do utilizador no site, comparação entre a utilização esperada e a utilização efectiva do Web Site e ajuste do Web Site aos interesses do utilizador. Não há distinções definidas entre esta e as duas categorias anteriores. Durante o processo de preparação dos dados de wen usage mining, a categoria de web content mining e a topologia do web site são usadas como a fonte de informação, o que significa que existe interacção com as duas categorias anteriores. Esta categoria é composta por três fases: pré-processamento, descoberta de padrões e análise desses padrões [15].

Segundo [32] podemos usar web content e web usage mining para

reconfiguração de web sites. A reconfiguração é personalização e recomendação dinâmica do site, baseadas no comportamento do utilizador ao navegar.

2.4 Interfaces Inteligentes que se adaptam (Adaptive User Interfaces)

As interfaces inteligentes são truques de software que melhoram a sua

capacidade de interagir com o utilizador, construindo um modelo baseado na experiência de interacção com o utilizador [28].

As interfaces inteligentes usam técnicas de inteligência artificial para auxiliar os utilizadores, de forma a atingirem mais fácil e rapidamente o objectivo que pretendem.

A interface inteligente tem de ter sempre presente 4 tipos de informações sobre o utilizador:

• Objectivo: estado que ele pretende atingir • Plano: sequência de acções que o levam até ao estado

desejado. Estas acções são actos que a interface vai permitir que o utilizador faça.

• Capacidades: físicas e mentais do utilizador • Comportamento e preferências: forma de interagir

Os objectivos do utilizador podem ser explicitamente declarados (o

mesmo indica ao sistema qual é), ou então inferidos por mecanismos de inteligência do sistema.

Para o segundo caso, podem ser utilizadas técnicas de machine learning, que analisam o comportamento do utilizador, o histórico de navegação e as características do ambiente.

As interfaces inteligentes procuram geralmente estabelecer perfis de utilizadores e classifica-los nesses perfis, de forma a poderem mais facilmente ajuda-los. Isto pode ser conseguido descobrindo-se um perfil comum em grupos de utilizadores.

Outra forma das interfaces inteligentes entenderem as necessidades de um utilizador é interagindo com ele através do diálogo. A inteligência

WEB INTELLIGENCE ISEP 2004

Pág. 11

artificial tem uma área de estudo que é o processamento de Linguagem Natural. Este processamento pode ser feito a nível léxico, sintáctico, semântico ou pragmático.

As diferentes técnicas que compõe esta área podem ser usadas para que a interface inteligente possa entender as informações dadas pelo utilizador ou então para produzir respostas num formato mais compreensível ao mesmo.

Estas interfaces podem ser usadas para as mais variadas tarefas. A Internet é uma das áreas que mais pode beneficiar com este tipo de software. O crescimento da quantidade de informação e serviços na web faz com que seja difícil encontrar e recolher a informação que procuramos. As interfaces inteligentes que se adaptam baseadas na web permitem que os sites tenham interacção com o utilizador de forma personalizada, aumentando a capacidade de navegação do utilizador nos mais variados contextos como por exemplo comércio electrónico, ensino à distância (e-learning) ou trabalho cooperativo [28]. Os sites que se adaptam são habitualmente chamados de adaptive web sites. Estes têm a capacidade de semi-automaticamente melhorar a organização e apresentação da sua informação, aprendendo com a os padrões de acesso dos utilizadores.

2.5 Agentes Inteligentes e Web Agents

Outro aspecto da WI foca o estudo e aplicação de Agentes Inteligentes na web.

A definição de agentes é um assunto sobre o qual não existe um consenso único.

No entanto, segundo [27], os Agentes Inteligentes são sistemas automatizados (hardware ou software), contendo mecanismos de inteligência artificial, capazes de tomar decisões e melhorar o seu desempenho de forma automática.

O objectivo é permitir que a inteligência seja distribuída remotamente ou que indivíduos possam tomar decisões de forma autónoma, aumentando assim a eficiência de sistemas computacionais.

Uma definição comum de agentes inteligentes diz que os mesmos devem ter as seguintes características:

• Autonomia: trabalhar sem intervenção humana • Habilidade social: saber interagir com humanos ou outros

agentes • Capacidade de reacção: poder receber estímulos do ambiente e

responder em tempo útil • Pró-actividade: ter comportamento direccionado a um objectivo,

tomando a iniciativa da acção sem precisar de receber estímulos • Mobilidade: poder mover-se para outros ambientes • Orientado por objectivos: ser capaz de lidar com problemas

complexos. • Continuidade temporal: funcionar continuamente

WEB INTELLIGENCE ISEP 2004

Pág. 12

Existem outras pessoas, nomeadamente as ligadas à área da inteligência artificial, que definem os agentes como sendo algo mais do que aquilo que é definido anteriormente. Estes dizem que um agente tem também as seguintes características:

• Mobilidade: ser capaz de se deslocar pela rede de uma máquina

para a outra • Aprendizagem: ser capaz de alterar o seu comportamento com

base em experiências anteriores • Adaptabilidade: ser capaz de se ajustar aos métodos de trabalho

e preferências do seu utilizador • Agilidade: ser capaz de aproveitar oportunidades não previstas • Colaboração: ser capaz de analisar ordens ou instruções dadas

pelos utilizadores antes de as executar e ter noção de que estes podem cometer erros. O agente deve verificar as instruções a efectuar fazendo questões ao utilizador ou usando um modelo de utilizador pré-definido para resolver problemas deste género.

Quando existem vários Agentes Inteligentes a actuar de forma integrada

e cooperativa, o sistema é chamado de Multi-Agentes. Geralmente, cada agente inteligente possui conhecimentos próprios e diferentes. Estes indivíduos interagem entre si, partilhando informações e conhecimento para resolução de problemas mais complexos, os quais dificilmente seriam resolvidos se os agentes actuassem de maneira isolada.

Na Internet, os agentes inteligentes são designados por Web Agents e servem principalmente para explorar serviços na Web.

Os Web Agents são sistemas complexos que operam na web e nas intranets das organizações. Eles são desenhados para fazer variadas tarefas como caching e routing de informação para pesquisas, categorização, filtragem, monitorização e análise de dados. Na Internet, estes agentes percorrem web sites extraindo dados dos mesmos. Estes dados podem ser depois utilizados por ferramentas de Data Mining.

2.6 Semântica da Web e Ontologias

A web, apesar de ter muitas potencialidades, tem muitas limitações. De entre muitas outras, uma que se destaca é a dificuldade de troca de informações entre as máquinas, devido ao facto da maior parte da informação estar estruturada de forma a ser compreendida pelos humanos.

A semântica da web apareceu com Tim Berners.Lee, o inventor da world wide web, URIs, HTTP e HTML. Existe uma equipa no consórcio W3C a investigar este tema, mas no entanto ele ainda está nos seus primórdios.

Deixando de lado o problema da inteligência artificial em treinar máquinas para ter o comportamento semelhante ao humano, a abordagem da semântica da web desenvolve linguagens que permitam exprimir a informação de uma forma compreensível para as máquinas

Estas linguagens permitem criar conjuntos de informação organizada para que possa ser facilmente processada por máquinas a uma escala

WEB INTELLIGENCE ISEP 2004

Pág. 13

global. Podemos pensar nela como sendo uma forma de representar informação na web, ou como uma base de dados global [13].

Segundo [29], a chave para realização da semântica da web são as ontologias como meio de contextualizar e estruturar o conhecimento. As ontologias aumentam o nível de especificação do mesmo conhecimento, incluindo semântica nos dados, e promovem a sua troca numa forma explícita e compreensível. Ainda segundo [29], a semântica web e as ontologias estão completamente ligadas como uma valiosa plataforma de trabalho para distintas aplicações de negócio como por exemplo comércio electrónico e B2B.

WEB INTELLIGENCE ISEP 2004

Pág. 14

3. The Web Intelligence Consortium

3.1 A organização

O WIC (http://wi-consortium.org/) é uma organização internacional, sem

fins lucrativos, que se dedica à promoção da pesquisa científica e desenvolvimento industrial da área da Web Intelligence, a nível mundial. Tem ainda um papel importante na colaboração entre os centros de pesquisa em WI em todo o mundo. A sua função passa também pela organização de conferências mundiais sobre a área, onde promove mostras tecnológicas. Esta organização publica o livro e o jornal oficiais de WI, newsletters, e é responsável pelo lançamento de novas soluções industriais e standards tecnológicos [31].

As actividades principais do WIC incluem:

• Organizar conferências relacionadas com inteligência na web e em

agentes, a nível internacional e regional, como:

The IEEE/WIC International Conference on Web Intelligence and The IEEE/WIC International Conference on Intelligent Agent Technology patrocinada em conjunto por IEEE Computer Society e o WIC.

The 2003 IEEE/WIC International Joint Conference on Web Intelligence and Intelligent Agent Technology (WI-IAT 2003) Realizada em Outubro de 13-16 de 2003 em Halifax, Canada. (www.comp.hkbu.edu.hk/WI03/ ou www.comp.hkbu.edu.hk/IAT03/ )

The 2004 IEEE/WIC/ACM International Joint Conference on Web Intelligence and Intelligent Agent Technology (WI-IAT 2004) A realizar em Setembro de 20-24 de 2004 em Beijing, China. (www.maebashi-it.org/WI04/ ou www.maebashi-it.org/IAT04/ )

• Publicar os jornais, livros e newsletters sobre web intelligence e agentes inteligentes, como:

Web Intelligence and Agent Systems É um jornal internacional e official do WIC (IOS Press)

Annual Review of Intelligent Informatics (World Scientific) É uma série de publicações oficiais do WIC.

Vários números especiais do WI-IAT foram e serão publicados em jornais internacionais, incluíndo os da IEEE Computer, Computational Intelligence (Blackwell), International Journal of Pattern Recognition and Artificial Intelligence (World Scientific),

WEB INTELLIGENCE ISEP 2004

Pág. 15

Journal of Intelligent Information Systems (Kluwer), Cognitive Systems Research journal (Elsevier), and Knowledge Based Systems (Elsevier).

Vários livros relacionados com WI-IAT foram publicados pelas editoras Springer, World Scientific, e IOS Press.

• Promover as ferramentas, sistemas e standards relacionados com web intelligence e agent intelligence.

• Estabelecer e dar apoio aos centros de pesquisa em WI e empresas

relacionadas com WI-IAT. Em todo o mundo, o WIC tem cerca de 13 centros de pesquisa em todo o mundo, sendo eles:

• WIC-Australia Research Centre • WIC-Beijing Research Centre • WIC-Canada Research Centre • WIC-France Research Centre • WIC-Hong Kong Research Centre • WIC-India Research Centre • WIC-Japan Research Centre • WIC-Korea Research Centre • WIC-Mexico Research Centre • WIC-Poland Research Centre • WIC-Spain Research Centre • WIC-UK Research Centre • WIC-US Research Centre

3.2 Centros de pesquisa e projectos

Alguns centros de pesquisa têm vindo a desenvolver projectos na área

da WI, e apresentaram este ano um relatório sobre as suas actividades nos últimos meses. Todos os projectos são interessantes, mas apenas vou fazer referência a alguns.

WIC-Beijing Research Centre

O WIC de Beijing foi criado em Fevereiro de 2003, e desde então já desenvolveu vários projectos na área de WI.

• Web-based Intelligent Tutoring System

Este projecto visa ajudar os estudantes do liceu a fazerem os seus

trabalhos de casa na área da matemática depois das aulas. O sistema recentemente foi desenhado na versão web, versão esta que permite uma

WEB INTELLIGENCE ISEP 2004

Pág. 16

maior e mais inteligente interacção com os estudantes, a disponibilização suplementar de ferramentas de resolução de problemas, e uma maior rapidez de resposta.

• Web Text Mining Systems

Nesta área, o centro de pesquisa apenas se interessa por dois tipos de

sistemas: classificação de textos na web, e web log mining. Desenvolveram dois sistemas, um de classificação de correio electrónico

e outro de classificação de textos na web. O primeiro é baseado no método de Naive-bayes e pode ser integrado em ferramentas de e-mail, como por exemplo Microsoft Outlook. O segundo, aborda várias técnicas de classificação de texto (Naive-Bayes, VSM, etc) em plataformas de Web Mining. O sistema de web log mining, é baseado nos seus próprios algoritmos de regras de associação.

WIC-Canada Research Centre

• Web-based Support Systems

Os sistemas computorizados de suporte são alvo de estudo neste centro. Muitos sistemas foram sendo estudados ao longo do tempo. Como exemplos disso temos: sistemas de suporte à decisão, sistemas de suporte ao negócio, sistemas de suporte médico, etc. No WIC-Canadá, estes sistemas estão a ser estudados de forma a serem “transportados” para o ambiente da Internet, o que nos faz chegar ao conceito de sistemas de suporte baseados na web. A investigação destes tipos de sistemas é uma evolução natural da investigação já existente. Com o aparecimento das tecnologias web e da Web Intelligence, torna-se obvio que este será uma das áreas onde será necessário investigar.

• Computacional Web Intelligence

A computação inteligente é uma sub-área da Inteligência Artificial que

foca os aspectos computacionais da inteligência e dos sistemas inteligentes. Da mesma forma, Web Intelligence computacional (CWI) estuda o lado computacional da Web Intelligence [34]. O principal objectivo da CWI é estudar as teorias e técnicas da computação e explorar as suas implicações nos sistemas de informação web inteligentes (IWIS). Espera-se que a CWI tenha um grande impacto nos sistemas inteligentes de negócio na web.

WIC-Hong Kong Research Centre

• Adaptative e-Learning Environment Via Collaboration

A importância do e-learning já à muito foi identificada e muitos sistemas on-line já foram construídos. Este projecto em Hong Kong tenta aplicar

WEB INTELLIGENCE ISEP 2004

Pág. 17

filtros colaborativos para extrair informações dos registos do aproveitamento passado dos alunos, de forma a prever alguns exercícios a propor aos mesmos.

• Optimizing Web site Usability

Este projecto tenta combinar o modelo orientado à tarefa de um site e os

dados de navegação de um utilizador num site, de forma a obter um modelo probabilístico relacionado com as tarefas de navegação.

WIC-India Research Centre

• Searching the Web

Com o objectivo de medir a qualidade dos resultados dos motores de busca, foram introduzidos métodos subjectivos, baseados no feedback dos utilizadores. Estas medidas, juntamente com ferramentas de computação, como lógica de fuzzy e algortimos genéticos, são usados para melhorar os resultados produzidos pelos motores de busca. Os dados do feedback dos utilizadores é obtido sem esforços por parte dos mesmos, porque estes são recolhidos com base no comportamento dos utilizadores face aos resultados obtidos.

• Soft computing in web mining

Esta area de invetigação visa a aplicação de lógica de fuzzy em web

page clustering e retorno de informação, redes neuronais para web page clustering e personalização, algoritmos genéticos para optimizar a pesquisa na web e a apresentação de documentos, e análise com rough set para obter informações sobre associação em dados heterogéneos.

WIC-Korea Research Centre

• Intelligente Web Information Extraction

A extracção da informação da web adopta diferentes tecnologias dependendo do tipo dos documentos alvo. Para documentos web semi-estruturados, os esquema wrapper induction tem sido o mais popular. Dois sistemas de extracção de informação da web foram implementados aplicando as técnicas de geração de wrappers: MORPHEUS e XTROS. Morpheus é um sistema de compras on-line que explora a geração de wrappers baseados em heurísticas. Xtros é um extratctor de informação de estado real que adopta técnicas de wrapper baseadas em conhecimento. Ambos os sistemas são aplicados ao domínio do comércio electrónico.

Para os documentos não estrututados, são empregadas técnicas de processamento de linguagem natural. O Posie é um sistema de extracção de informação da web que foi desenvolvido usando múltiplas estratégias de aprendizagem, aprendizagem orientada ao utilizador e aprendizagem

WEB INTELLIGENCE ISEP 2004

Pág. 18

separada do contexto. Este trabalho foi usado com sucesso em domínios como educação continua e oferta de emprego.

• Dialogue-based Web Information Retrieval

Nesta área, os investigadores estão a desenvolver as técnicas de

pergunta-resposta e gestão de diálogos que são aplicadas em information retrieval.

SiteQ é um sistema de pergunta-resposta baseado na tacnologia da linguagem natural em information retrieval. O SiteQ consegue retornar uma resposta exacta para uma pergunta, em vez de uma lista de documentos, por incorporar tecnologias como processamento de linguagem natural, information retrieval, padrões de semântica do léxico, nos recursos linguísticos.

Está a ser desenvolvido outro agente de information retrieval, que interage com sistemas de previsão de informação heterogéneos, como por exemplo sistemas de document retrieval, sistemas FAQ retrieval e sistemas de gestão de bases de dados relacionais. Como complemento, estão também a ser desenvolvidos métodos para integrar os agentes de information retrieval com interfaces de diálogo.

• Semantic Web

Nesta área, existem dois projectos a ser desenvolvidos. O primeiro,

Knowledge-based Distributed Visual Media Retrieval Framawork using Semantic Web, tem como objective recuperar e trocar dados de visual media, que estão distribuídos pela web, aplicando tecnologias Semantic Web na sua representação e recuperação. Estão a ser especialmente desenvolvidas as seguintes tecnologias:

- Padronização de metadados - Classificação sistemática - Construção de ontologias para os dados de visual media - Protocolo de recuperação para pesquisa na web de dados de visual media

Outro projecto que já foi desenvolvido com sucesso é o Semenatic Web

Service Discovery System based on na Enhanced Matchmaking Algorithm. Um motor de busca de serviços web é implementado usando várias técnicas de Semantic Web e bases de dados.

WIC-Mexico Research Centre

• Web Mining and Farming

Neste projecto, os investigadores criaram um conjunto de ferramentas (ferramentas de gestão de conteúdos) e agentes para fazer manutenção de páginas web com o curriculum individual dos investigadores. Cada produto científico é mantido como um registo separado. Um servidor central recolhe

WEB INTELLIGENCE ISEP 2004

Pág. 19

toda a informação das páginas individuais, e cria um índice. O objectivo é extrair a ontologia do curriculum de texto puro. A ideia deste projecto é trabalhar em medidas similares, mas entre documentos científicos.

• Agents in the Web

Partilha de ontologias para serviços web. A tecnologia de agentes está a

ser usada para facilitar o desenvolvimento de ambientes de serviços abertos e dinâmicos, para sistemas baseados na web. As ontologias são a peça fundamental na recuperação do conhecimento, partilha e reutilização de mecanismos usados na web ou pelos agentes.

Agentes para a computação distribuída. Agentes autónomos podem, de forma espontânea, representar utilizadores, serviços web ou dispositivos disponíveis na Internet, o que se torna num meio ubíquo para a partilha de informação. Foi desenvolvida a framework SALSA, que permite implementar agentes simples para sistemas ubicomp. Estes agentes usam uma linguagem de comunicação expressiva baseada em XML, que disponibiliza protocolos para localizar e interagir com serviços web, mesmo quando o utilizador está desligado.

WEB INTELLIGENCE ISEP 2004

Pág. 20

4. Web Intelligence (WI)

4.1 O que é?

Web Intelligence é definida pela comunidade científica como uma nova direcção de investigação e desenvolvimento, que explora as regras fundamentais e o impacto prático da inteligência artificial e das tecnologias de informação para a próxima geração de sistemas, serviços e ambientes baseados na web.

Segundo o [31], e aplicando uma definição simplista, WI explora a IA e as TI na web e Internet. É a chave o campo de investigação mais urgente das TI para o Business Intelligence.

Conceptualmente existem quatro níveis distintos na WI:

• Internet-level (communication, infrastructure, and security protocol)

A Web é vista como uma rede de computadores

– Sistemas de pré-carregamento dos dados da Web • Consiste em processos de aprendizagem adaptativa,

baseados na observação do comportamento dos utilizadores durante a navegação

• Interface-level (multimedia presentation standards)

A Web é vista como um interface de interação Homem-Internet

– Interfaces Web Inteligentes • Representações multimedia personalizadas • Processamento de dados multi-modal

Application-level Ubiquitous computing

and social intelligence utilities

Knowledge-level Information processing and management tools

Interface-level Multi-media presentation

standards

Internet-level Communications,

infrastructure, and security protocols

Support functions

Level-1

Level-2

Level-3

Level-4

Hardware

Application

WEB INTELLIGENCE ISEP 2004

Pág. 21

• Knowledge-level (information processing and management tools) A Web é vista como uma base de dados/conhecimento distribuída

– Este nível desenvolve “semantic markup languages” para representar os conteúdos semânticos da web disponíveis num formato de linguagem entendido pelas máquinas. O objectivo é fazer com que a computação baseada em agentes possa usar esta informação para fazer pesquisa, agregação, classificação, filtragem, gestão e descoberta na web.

• Application-level (ubiquitous computing and social intelligence

environments) A Web é vista como uma base para estabelecer redes sociais que

contêm comunidades de pessoas, organizações ou outras entidades, ligadas por determinadas relações sociais, como por exemplo colaboração em trabalhos, trocas de informação sobre interesses comuns, ou apenas por amizade.

– Social network intelligence ou apenas Social Intelligence – Plataformas Móveis – Acesso web de vários pontos e de vários dispositivos necessita

de personalização adaptativa. As técnicas de WI são usadas aqui para construir modelos dos interesses dos utilizadores, obtendo essa informação através do comportamento e das acções do mesmo.

4.2 Objectivo

Os motores de busca actuais estão maioritariamente desenhados para uso por parte do ser humano. Quando um utilizador faz uma pesquisa obtém uma lista com as páginas mais relevantes sobre o assunto. O utilizador tem então que ver as páginas e extrair delas, de forma “manual”, a informação que lhe interessa. Esta informação tem ainda de ser reunida de diferentes páginas, de maneira a ser extraído o conhecimento necessário.

Figura II - Pesquisas na web actualmente

WEB INTELLIGENCE ISEP 2004

Pág. 22

Por exemplo, se um utilizador quiser planear uma viagem do Porto a

Paris, necessita de pesquisar no motor de busca voos entre Porto e Paris e, da lista encontrada, escolher a página que contém o voo à melhor hora. Depois, precisa de fazer outra pesquisa para poder ter acesso a informações sobre serviços de comboios na França, e será apresentada a página dos serviços de comboios franceses. Dentro deste, é ainda necessário indicar o local de partida e de chegada e a hora, para poder saber quais os comboios e linhas que deve usar.

Isto é muito demorado e não é eficiente porque: 1. temos que localizar os serviços necessários (avião, comboio,

autocarro, etc) 2. preencher vários formulários (sempre com a mesma informação)

para podermos ter informação sobre horários, estações, linhas, etc. No final nada nos garante que a ligação que escolhemos para ir do Porto

a Paris seja a melhor em termos de preço, tempo que iremos demorar, etc.

Espera-se que a web do futuro funcione de maneira diferente.

Figura III - O Futuro da web

A futura web terá semântica associada às páginas, e os motores de

busca serão agentes inteligentes capazes de usar essa mesma semântica para fornecer melhores resultados e serviços baseados na semântica. A tarefa descrita anteriormente poderia ser simplificada por um agente que continha toda a informação sobre o utilizador (onde vive, aeroporto mais próximo, etc.) e percorria a web à procura de serviços e questionava esses mesmos serviços, evitando que o utilizador tivesse que fazer isso.

Definir o esquema semântico da pesquisa (ontologias), automaticamente

produzir as anotações semânticas (NLP, Information Extraction), retornar páginas que usam essas anotações (motores de busca semânticos), fazer a junção das informações dos diferentes locais e produzir serviços capazes de usar a semântica (e.g. agentes) para executar tarefas, está entre os objectivos da WI.

WEB INTELLIGENCE ISEP 2004

Pág. 23

Outro objectivo da WI é combinar várias áreas de forma a conseguir

criar sistemas inteligentes baseados na web.

Estes sistemas de WI podem ser aplicados por exemplo em:

• Business Intelligence • E-Technology (E-Business, E-Commerce, E-Community, E-Finance,

E-Government, E-Learning, E-Publishing, E-Science) • Intelligent Enterprise Portals • Intelligent Web Information Systems • Price Dynamics and Pricing Algorithms • Measuring and Analyzing Web Merchandising • Web-Based Direct Marketing and CRM • Web-Based EDI

A figura seguinte apresenta um esquema das áreas envolvidas nos sistemas inteligentes criados pela aplicação da WI.

Figura IV - Áreas envolvidas na WI

Knowledge Networks and Management

• Digital Library • Information and Knowledge Markets • Knowledge Community Formation and Support • Ontology Engineering • Semantic Web • Visualization of Information and Knowledge • Web-Based Decision Support • Web Regularities and Models

WEB INTELLIGENCE ISEP 2004

Pág. 24

Ubiquitous Computing and Social Network Intelligence

• Competitive Dynamics of Web Sites • Computational Societies and Markets • Dynamics of Information Sources • Reputation Mechanisms • Theories of Small World Web • Ubiquitous Learning Systems • Ubiquitous Web Access • Web-Based Cooperative Work • Web Security, Integrity, Privacy and Trust • Wireless Web Intelligence

Intelligent Human-Web Interaction

• Adaptive Web Interfaces • Multimedia Representation • Multimodal Data Processing • Science and Art of Web Design

Web Information Management

• Data Models for the Web • Integrated Exploration and Exploitation • Internet and Web-Based Data Management • Multi-Dimensional Web Databases and OLAP • Multimedia Information Management • Object Oriented Web Information Management • Personalized Information Management • Semi-Structured Data Management • Use and Management of Metadata • Web-Based Distributed Information Systems

Web Information Retrieval

• Automatic Cataloging and Indexing • Conceptual Information Extraction • Information Retrieval Support Systems • Multi-Linguistic Information Retrieval • Multimedia Retrieval • Multimodal Information Retrieval • Ontology-Based Information Retrieval

Web Agents

• Conversational Systems • E-mail Filtering and Automatic Handling • Global Information Foraging • Information Filtering

WEB INTELLIGENCE ISEP 2004

Pág. 25

• Navigation Guides • Recommender Systems • Remembrance Agents • Resource Intermediary and Coordination Mechanisms • Semantic Web Agents

Web Mining and Farming

• Data Mining and Knowledge Discovery • Learning User Profiles • Multimedia Data Mining • Text Mining • Web-Based Ontology Learning • Web-Based Reverse Engineering • Web Content Mining • Web Farming • Web Log Mining • Web Structure Mining • Web Warehousing

Emerging Web Technology

• Knowledge Grid and Grid Intelligence • Mediators and Middleware • New Web Information Description and Query Languages • Peer-to-Peer Computing • Problem Solver Markup Language (PSML) • Soft Computing (incluíndo redes neuronais, lógica fuzzy, rough sets, e

computação granular) e Uncertainty Management para WI • Web Document Prefetching • Web Inference Engine • Web Intelligence Development Tools • Web Protocols • Wisdom Web

WEB INTELLIGENCE ISEP 2004

Pág. 26

5. Sistemas e Aplicações mais comuns da WI

5.1 Business Intelligence

Business Intelligence (BI) é uma categoria de sistemas de informação de gestão, aplicações e tecnologias, que recolhem, armazenam, analisam e permitem acesso a dados, para ajudar os colaboradores das empresas a melhorar e fundamentar as decisões nos seus negócios. As actividades típicas do BI incluem suporte à decisão, processamento analítico on-line, análise estatística e Data Mining. O termo representa os sistemas que ajudam as empresas a compreender o que faz o seu negócio “girar”, e ajuda a prever o impacto futuro das decisões tomadas no presente.

Estes sistemas têm um papel importante no planeamento estratégico da empresa. Sistemas que exemplificam o BI são: definição de perfis de cliente, análises de mercado, anti-fraude, análises de contactos com clientes, segmentação de mercados, rentabilidade dos produtos, etc.

A WI permite ao BI ir mais além do que a análise e acesso aos dados da empresa.

Em [1] as empresas verificaram que tendo acesso aos conteúdos da Internet, antes que estes chegassem aos meios de comunicação tradicionais, poderiam efectivamente aumentar a sua competitividade. Esta WI inclui a enorme quantidade de informação que anda à deriva na web, como notícias, rumores, especulação e comentários públicos, que podem ter um impacto significativo na reputação, força de vendas e ultimamente nos preços de uma empresa.

Segundo Guy Greese, director de pesquisa do Aberdeen Group, muitas empresas podem tirar vantagens ao adicionar WI ao seu arsenal de informação.

“Indústrias de informação intensiva… precisam de complementar os seus serviços tradicionais de notícias com inteligência baseada na web, para actuarem em novos desenvolvimentos rapidamente”, disse Greese.

5.2 E-Technology (E-Business, E-Commerce, E-Community, E-Finance, E-Government, E-Learning, E-Publishing, E-Science, etc.)

Com o avanço dos computadores e das tecnologias ligadas à Internet, a

descoberta do conhecimento desempenha um papel importante nos sistemas de informação baseados na web. Como o e-business e o e-commerce crescem de forma muito rápida, é possível às empresas armazenar grandes quantidades de informação sobre as vendas. No entanto, isto apenas causa o crescimento desmesurado de informação, o que faz com que haja a necessidade de se criarem formas mais eficientes de se extrair conhecimento útil da mesma. Por outro lado, as pessoas começaram a verificar que o Data Mining poderia não só oferecer conhecimento sobre o comportamento dos clientes, analisando os registos de transacções passadas dos mesmos, mas também ajudar a melhorar a eficiência e qualidade das decisões de gestão a tomar.

WEB INTELLIGENCE ISEP 2004

Pág. 27

Assim, a aplicação de técnicas de Web Mining ao e-business e ao e-commerce têm como objectivo a descoberta de conhecimento novo, mais interessante e útil.

Técnicas de Web Mining ajudaram [8] a entender o perfil dos

compradores de um conjunto de sites de e-commerce. Por exemplo, descobriram que visitantes que gastam grandes quantias (heavy purchasers) pertencem a uma faixa etária mais alta, têm conhecimento do site através de notícias, possuem propriedades e carros de alto valor, visitam áreas específicas do site e repetem a compra 4 vezes ou mais. Também conseguiram descobrir que certos eventos do mundo real aumentam o tráfego em alguns sites (ex: guerras).

[9] utilizou técnicas de Web Mining para entender o comportamento do

utilizador dentro de sites de e-commerce. Descobriu que um utilizador em média visita 10 páginas, gasta 5 minutos no site e gasta 35 segundos entre páginas, enquanto que um comprador em média visita 50 páginas e gasta 30 minutos no site.

5.3 Intelligent Enterprise Portals

Os portais empresariais inteligentes permitem que todas as aplicações, informação e serviços de uma empresa sejam reunidos e apresentados num interface baseado na web. Cada colaborador ou utilizador autorizado poderá ter acesso a toda a informação e serviços que necessita para trabalhar, a partir de qualquer dispositivo capaz de ter acesso à Internet, seja fixo ou móvel.

A rápida integração destes portais no ambiente da empresa, proporciona vantagens económicas consideráveis para as empresas que funcionam de forma descentralizada.

Melhor e mais fácil acesso à informação acelera os processos vitais da empresa, enquanto que a optimização da troca de informação aumenta a cooperação e comunicação da empresa com clientes e parceiros.

A WI pode aqui ajudar a encontrar informações na Internet relacionadas com os assuntos abordados nestes portais.

Os agentes de software tornam mais fácil a procura, captação e disseminação da informação através da Internet [2]. A tecnologia dos agentes inteligentes de software modificaram a forma como a informação é capturada, armazenada, processada, usada e apresentada em portais web [3].

Os agentes inteligentes e móveis possibilitam a acessibilidade e a adaptabilidade do sistema, garantem a monitorização contínua das fontes de informação, preparação da mesma e a sua disponibilização de acordo com os pedidos dos clientes.

WEB INTELLIGENCE ISEP 2004

Pág. 28

5.4 Intelligent Web Information Systems

O interesse da WI centra-se no desenho e implementação de sistemas inteligentes no novo ambiente de Inteligência Artificial baseado na web.

Esta tendência abre caminho ao desenvolvimento de Intelligent Web Information Systems (IWIS) que são caracterizados por “pensar e agir” (como os humanos ou racionalmente).

Existem vários tipos de IWIS, e cada um serve um grupo de utilizadores ou um propósito. Estes sistemas de informação inteligentes baseados na web podem por exemplo analisar os comportamentos dos utilizadores, e em função dos resultados prever os passos que os mesmos vão seguir. Os utilizadores apresentam fortes regularidades no seu modelo de comportamento cognitivo, e portanto nas suas acções [33]. Para sermos mais precisos, segundo [33], num ambiente como a web existem fortes estatísticas sobre a regularidade e os padrões de navegação dos utilizadores. A previsão tenta identificar os mecanismos apropriados que tiram partido destas grandes quantidades de informação deixada pelos utilizadores enquanto navegam.

5.5 Price Dynamics and Pricing Algorithms

Os preços dos produtos tendem a ser temporários, ou seja, são voláteis. A própria volatilidade muda com o tempo, e estas mudanças afectam variáveis de mercado, afectando directamente o valor marginal de armazenamento, afectando uma componente do custo de produção marginal total: o custo da oportunidade de produzir o produto já em vez de esperar por mais informações sobre o preço [6].

Também nesta área a WI dá o seu contributo, traçando perfis de clientes com base em históricos de transacções, de forma a poder fornecer aos algoritmos de cálculo de preços a máxima e mais rigorosa informação.

5.6 Measuring and Analyzing Web Merchandising and Web-Based Direct Marketing and CRM

A WI pode ajudar os profissionais de marketing na difícil tarefa de

entenderem quem são os clientes, como se comportam e quais as suas preferências. Técnicas de Data Mining aplicadas sobre bases de dados de cliente ou de transacções efectuadas pelos mesmos (compras, vendas, operações bancárias, etc.) permitem extrair padrões estatísticos. Por exemplo, pode-se ter uma análise completa das distribuições de valores pelos atributos dos clientes (bairro, cidade, idade, sexo) com a finalidade de entender o perfil do cliente e assim direccionar a publicidade. Podemos também descobrir associações entre produtos adquiridos na mesma compra. Conhecimento como este pode ser utilizado em campanhas para vendas cruzadas (“cross-sales”) ou promoções.

Em especial a técnica de clustering permite encontrar grupos de clientes, de maneira a segmentar o mercado e assim elaborar campanhas específicas para cada segmento. Os clientes também podem ser agrupados

WEB INTELLIGENCE ISEP 2004

Pág. 29

por comportamento (hábitos de compra ou produtos adquiridos). Alguns autores sugerem a utilização de técnicas de clustering de mais alto nível, analisando classes de produtos comprados porque muitas vezes as marcas não se repetem mas sim os tipos de produtos.

Técnicas de Web Mining ajudam a analisar o impacto de campanhas de

marketing on-line, permitindo entender a forma como os utilizadores chegam até as compras, ou seja, de onde vêm (links de motores de busca ou banners de publicidade) e que caminho fazem até comprarem um produto (sequência de páginas visitadas).

Estas técnicas servem também para melhorar a apresentação de páginas muito visitadas.

Técnicas de Data Mining e Web Mining integradas permitem comparar

os comportamentos dos utilizadores que compraram e dos que não compraram, e extrair características comuns entre os que compraram determinado produto ou visitaram determinadas páginas.

[7] afirmam que é possível avaliar a efectividade de um site, por exemplo estudando onde se perdem clientes durante o processo de compra.

A área de marketing também se pode valer das técnicas de WI para

melhorar a publicidade e ajudar a vender produtos. A área de merchandising preocupa-se com a apresentação de produtos.

WEB INTELLIGENCE ISEP 2004

Pág. 30

6. Futuro e desafios para a WI

A Web Intelligence é uma área relativamente nova, que começa agora a ter bastantes investigadores interessados em realizar trabalho nela. A primeira conferência mundial sobre este tema foi em 2001, e desde então muitas pessoas começaram a interessar-se e a desenvolver pesquisas nesta área.

Embora neste momento, ano 2004, a WI já tenha muitas aplicações e já exista um elevado número de projectos, existem ainda alguns desafios a enfrentar.

6.1 Novas tecnologias

A WI tem de se adaptar às novas tecnologias que a cada dia aparecem.

Por exemplo, as comunicações de banda larga permite a melhoria dos métodos fazem análises, uma vez que estes poderão dar respostas em tempo real.

O uso de dispositivos móveis exigirá novos e melhores sistemas com métodos mais eficazes. Embora a “luta” pela existência de standards na indústria seja grande, cada tecnologia tem a sua maneira de interacção, o que exige do sistema inteligente um mecanismo de detecção dos recursos do utilizador e a consequente adaptação ou personalização.

O software “cliente” irá ter também avanços significativos. Estes avanços facilitarão o trabalho do utilizador e irão garantir um maior nível de segurança, uma vez que serão criadas formas de identificação mais seguras (por exemplo, íris, impressão digital, reconhecimento facial, etc.). Numa perspectiva ainda mais futurista, podemos dizer que nessa altura será possível identificar o local exacto para onde o utilizador está a olhar, ou mesmo analisar as expressões faciais e conseguir reconhecer estados de espírito do mesmo. Com o avanço das tecnologias multimédia será possível transmitir pela Internet, para além dos dois sentidos já existentes (visão e audição), os outros sentidos do corpo humano, como o olfacto, gosto e tacto

6.2 Recolha e selecção de dados para Data Mining

Uma instituição bancária descobriu que 5% dos seus clientes, que

aderiram aos serviços pela Internet, tinham nascido na mesma data, dia 1 de Janeiro. A razão deste padrão era simples: os clientes não preenchiam correctamente os formulários de adesão. Alguns utilizadores não gostavam de preencher alguns dados obrigatórios, os quais eram armazenados com os valores por defeito [9].

Este problema torna evidente a necessidade de melhorar a recolha de dados na web. Dados errados ou inconsistentes podem influenciar um processo de WI, e consequentemente gerar resultados incorrectos. Note-se que resultados incorrectos neste caso significa resultados que não espelham a realidade, mas sim o conhecimento que existe nos dados armazenados.

WEB INTELLIGENCE ISEP 2004

Pág. 31

A selecção de dados para realizar WI, também é um dos aspectos em que é necessário ter muito cuidado. Por exemplo, numa empresa de e-commerce foram utilizados os dados das transacções de clientes dos últimos 5 anos. Depois de aplicadas técnicas de WI, descobriu-se que quem compra o produto X também compra o produto Y. Esta regra tinha uma confiança de 80%, ou seja em 80% dos casos em que o cliente comprava o produto X também comprava o produto Y. Numa análise dos mesmos dados, mas desta vez ano a ano, verificou-se que nos primeiros 4 anos a mesma regra tinha confiança de 100%, enquanto que no último ano tinha confiança de 0%. Se o resultado da primeira análise fosse usado para uma campanha de markting, poderíamos estar a adoptar estratégias distorcidas e sem sentido.

A mesma empresa implementou um novo sistema de comércio electrónico via Web, mas para outro ramo de negócio. Passados seis meses da entrada em funcionamento, foi feita uma análise ao volume de vendas. A média de vendas nesses meses foi de 25%, o que ficava muito longe das expectativas. No entretanto, analisando somente o último mês, pôde-se observar que foi pelo sistema via web que foram efectuadas 45% das vendas. A análise somente da média poderia levar a uma frustração ou mesmo à decisão de descontinuar o sistema, o que estaria errado, porque a tendência era o aumento das vendas e o consequente sucesso do novo negócio.

6.3 Identificar utilizadores e recolher os seus dados com

precisão

Um grande desafio na web é conseguir identificar um utilizador. Os dados de um indivíduo ou entidade podem ser solicitados, mas nem

sempre os mesmos estão interessados em fornecê-los. No entanto, mesmo respeitando toda a legislação e direitos de

privacidade dos utilizadores é importante para as organizações saber quem é o utilizador, do que gosta, o que faz, etc. No caso da Internet, a identificação de um utilizador pode facilitá-lo na navegação, através da recomendação de produtos/serviços, personalização do ambiente, ou mesmo evitar que seja necessário pedir ou fornecer informações ao utilizador que ele já tenha dados ou recebidos.

Algumas técnicas sugeridas são o uso de cookies ou a identificação pelo endereço IP da máquina. Estas técnicas levantam duas questões: e se o utilizador mudar de máquina? E se uma máquina for usada por várias pessoas? [10]

As técnicas de WI poderiam ajudar a identificar o utilizador pelo seu comportamento, respeitando sempre o direito à privacidade.

Por exemplo, poder-se-ia observar se as mesmas páginas são vistas no início do dia (ex: notícias e e-mail), se o utilizador chega ao site sempre pelo mesmo caminho (ex: por portal da empresa, pois é o que ele conhece), se uma mesma sequência de páginas seguida à risca (utilizador experiente ou leigo) ou se ele acede através de páginas do meio do site (utilizador que conhece os atalhos).

Além de ser capaz de recolher dados sobre o utilizador, o sistema inteligente deve manter somente dados confiáveis e coerentes, o que

WEB INTELLIGENCE ISEP 2004

Pág. 32

muitas vezes não acontece por causa do utilizador, seja de propósito ou sem intenção. Algumas informações podem ser validadas através de acções concretas, como por exemplo, entrega de um prémio ou produto num endereço. Isto atesta que os dados do endereço do utilizador existem e estão correctos.

6.4 Integração dos vários resultados e tipos de mining

A WI utiliza várias técnicas e métodos de mining (Data minig, Web

Mining, Text Mining). Um melhor desempenho é atingido quando estas abordagens são utilizadas em conjunto. Por exemplo, Web Mining analisa o comportamento dos utilizadores de um site pelo log armazenado no servidor. Seria importante criar uma base de dados com estas informações e ainda acrescentar dados sobre o conteúdo das páginas com técnicas de Text Mining.

Uma técnica simples seria substituir as URL’s por palavras, temas ou conceitos presentes nas páginas web. Além de tudo isto, existem informações sobre o comportamento que não estão no log (por exemplo: compras e transacções bancárias feitas pelo utilizador). Estas informações aparecem por em bases de dados corporativas. Pode ainda acrescentar-se informações relativas à semântica da web (links semânticos e comportamento social).

[11] sugerem criar um Data Webhouse, termo análogo a DataWarehouse. O objectivo é manter todos os dados necessários à inteligência do negócio reunidos numa mesma base de dados e de forma integrada para facilitar a descoberta do conhecimento.

6.5 Privacidade

Um factor que pode inibir o avanço da WI é a questão da privacidade.

Hoje em dia é possível descobrir informações sobre pessoas sem que estas as forneçam. Estas informações são importantes para as empresas. No entanto, as acções de recolha e uso destes dados precisam de ser regidas por direitos e deveres.

Muitas pessoas não querem que os seus dados sejam recolhidos (preferem o anonimato).

Já outras não se importam, mas exigem que os dados não sejam divulgados para outros ou usados para publicidade.

[Schafer2001] sugerem que as empresas e sites divulguem explicitamente as suas políticas de privacidade (que informação está a ser recebida e qual a sua finalidade).

Está em discussão no WWW Consortium (W3C) o protocolo P3P (Platform for Privacy Preferences) que permitirá a negociação automática entre empresas e clientes.

Segundo [10], este protocolo permite aos sites publicarem as suas políticas em formatos capazes de serem lidos e entendidos por outras máquinas. Desta forma, o browser cliente pode ler e comparar estas políticas com as configurações de segurança do utilizador.

WEB INTELLIGENCE ISEP 2004

Pág. 33

7. Ferramentas

Nos capítulos anteriores são referidas várias técnicas usadas pela WI. A maior parte dos exemplos apresentados são puramente teóricos, mas existem algumas implementações destas mesmas técnicas. No âmbito deste projecto trabalhamos com algumas dessas implementações, e é neste capítulo que vamos relatar as experiências.

7.1 Web Usage Mining

Como já foi referido anteriormente, Web Mining é composto por três

áreas diferentes, mas que se complementam. Uma das áreas com mais ferramentas disponíveis é a Web Usage Mining. Existe as mais diversas ferramentas para análise de log dos servidores de páginas web, mas a maior parte delas, até ao momento, apenas fazem uma análise em termos estatísticos. A ferramenta escolhida para experimentar foi o Funnel Web Analyzer.

Para iniciar a experiência, fiz download de alguns logs de utilização de

um site. Sem qualquer tipo de pré-processamento dos dados da minha parte, iniciei a aplicação e pedi uma análise dos ficheiros que tinha feito download.

Figura V - Ecrã principal do Funnel Web Analyzer

Durante alguns segundos a aplicação processa os dados e gera um

relatório, em formato HTML, com os resultados da análise. Para se visualizar esses resultados, basta abrir o ficheiro com um

browser de Internet.

O relatório começa por apresentar alguns dados estatísticos, como outras ferramentas fazem, mas apresenta depois mais detalhe na análise, agrupando inclusive os acessos por várias categorias.

WEB INTELLIGENCE ISEP 2004

Pág. 34

Figura VI - Tabela de análises estatísticas

Uma análise mais detalhada de algumas categorias, permite ver

algumas informações mais interessantes. Categoria Demographics

Esta categoria mostra a origem e comportamento dos visitantes do site, verificando a utilização individual dos mesmos ao longo do tempo.

Figura VII - Gráfico de visitantes

Nesta categoria podemos também ver quais as regiões de localização

dos utilizadores que mais acederam ao site.

WEB INTELLIGENCE ISEP 2004

Pág. 35

Figura VIII - Gráfico da distribuição regional

Tabela 1 - Distribuição dos acessos por regiões

Marketing

Esta categoria também apresenta resultados interessantes. Entre outros, apresenta a “lealdade” do utilizador ao site, tempo de permanência e frequência com que o visitam.

Esta informação é útil para podermos perceber que tipo de conteúdos são mais apropriados para os visitantes e se a estrutura do mesmo é adquada.

WEB INTELLIGENCE ISEP 2004

Pág. 36

Figura IX - Tempos de acesso ao site

No quadro seguinte, podemos ver por exemplo o tempo que os

utilizadores estiveram on-line no site. Pela análise, vemos que a maior parte dos utilizadores navega no site no máximo 4 minutos, o que significa que pode haver algo que não esteja bem na estrutura do mesmo.

Tabela 2 - Duração dos acessos ao site

Diagnostic

A categoria de Diagnostic permite ver erros ocorridos no acesso ao site. Este tipo de informação permite saber quais as zonas do site que por alguma razão estão a dar erros. Esta informação pode ser usada por exemplo para rectificar links quebrados e outros tipos de erros que possam estar a comprometer a integridade e funcionalidade do site.

WEB INTELLIGENCE ISEP 2004

Pág. 37

Figura X - Gráfico de erros

No quadro seguinte podemos ver quais os URLs que falharam, quando

solicitados pelo utilizador. Com a informação do quadro, sabemos facilmente quais os links que poderão não estar a funcionar bem.

Tabela 3 - URLs falhados

A aplicação tem mais categorias, nomeadamente informações sobre os sistemas mais usados no acesso, sites que mais referências têm para o site em análise, etc.

Conclusão

Este tipo de aplicações é muito útil na análise da utilização de um site. Ela permite ver não só os erros existentes no mesmo, mas também quem visita, como o faz, com que aplicações e qual o objectivo da visita. Esta informação é preciosa não só para os administradores dos sites, mas

WEB INTELLIGENCE ISEP 2004

Pág. 38

também para os departamentos de marketing das empresas proprietárias dos mesmos sites.

7.2 Text Mining de páginas web

Existem algumas ferramentas que permitem fazer Text Mining sobre documentos, facilitando a pesquisa dentro do próprio, disponibilizando resumos, palavras mais relevantes, etc. A MegaPuter, empresa que produz ferramentas para descoberta de conhecimento, tem um Add-in para o Internet Explorer que faz análises semânticas, sumários e perguntas em linguagem natural das páginas web encontradas. Enquanto estamos a navegar pelas páginas, o TextAnalyst analisa as mesmas, retornando assim a informação mais importante.

A experiência que fiz foi muito simples. No Google, pesquisei pela frase “lei da protecção dos dados pessoais”.

Imagem 1 - Resultados da pesquisa

Como é natural, os resultados foram muitos. Como o que me

interessava era a versão da lei mais ligada à informática, procurei então no TextAnalyst um resultado que se referisse a informática. A figura a seguir mostra a lista de informações mais importantes obtidas pela aplicação.

WEB INTELLIGENCE ISEP 2004

Pág. 39

Imagem 2 - Texto seleccionado no TextAnalyst

Ao seleccionarmos o texto que nos interessa, o TextAnalyst também

selecciona esse mesmo texto na página web, de forma podermos localizá-lo imediatamente.

Já dentro documento pretendido, o TextAnalyst faz de novo uma

pesquisa, de forma a retornar as informações mais importantes. O TextAnalyst apresenta os resultados das suas pesquisas em dois

painéis distintos. Num painel apresenta a rede semântica, que é usada para navegar pelos conceitos mais importantes do documento. Este painel mostra, de forma hierárquica, uma estrutura dos conceitos mais importantes. Cada conceito tem um número atribuído, de 1 a 100, que indica o grau de importância em relação ao documento inteiro. Quando carregamos num dos conceitos, todas as frases que o contêm aparecem no painel de baixo. Cada frase apresentada está ligada ao documento original, de forma a facilitar a sua localização no mesmo.

WEB INTELLIGENCE ISEP 2004

Pág. 40

Imagem 3 - Árvore de palavras relevantes

Com este tipo de ferramentas podemos também fazer perguntas em linguagem natural. Esse foi o meu próximo passo. Primeiro fiz a pergunta “o que é tratamento informático dos dados?”. O TextAnalyst cria uma estrutura com tópicos, semelhante à rede semântica. Os tópicos pais são os conceitos mais importantes que a nossa pesquisa retornou, e cada frase que contem esse conceito é mostrada no painel de visualização de texto. Cada frase está ligada com a sua localização no texto HTML original, para que seja possível ser destacada tanto no painel como no documento quando fazemos duplo click com o rato sobre a mesma.

WEB INTELLIGENCE ISEP 2004

Pág. 41

Imagem 4 - Palavras relevantes da pesquisa aos resultados

A árvore criada pode ser expandida, e em cada um dos nós podemos

ver que existem mais conceitos com pesos outros pesos. Cada nó filho apresenta um conceito que aparece nas frases onde aparece o nó pai. Um nó filho contém dois pesos. O primeiro indica a importância em relação ao nó pai e o outro em relação ao documento inteiro.

Assim, à medida que vamos descendo na árvore vamos refinando a nossa pesquisa e obtendo conceitos mais completos.

Imagem 5 - Selecção de palavras

Conclusão

As ferramentas do tipo TextAnalyst ajudam os utilizadores a terem um conhecimento mais rápido do conteúdo de um documento, bem como a encontrar mais facilmente os documentos de que precisam. No caso concreto, a ferramenta pode ajudar bastante na pesquisa em páginas com elevada quantidade de texto, e onde apenas algumas coisa nos interessam. Não será necessário ler o documento na integra, bastando apenas fazer algumas pesquisas pelas palavras que mais nos interessam.

WEB INTELLIGENCE ISEP 2004

Pág. 42

7.3 Web Content Mining

Web content mining é um processo automático que vai muito mais além

do que a simples extracção de palavras-chave. Uma vez que os documentos de texto têm uma semântica que não é compreendida pelas máquinas, algumas abordagens sugerem que se faça a reestruturação do conteúdo do documento numa representação que pode ser explorada pelas máquinas. A abordagem mais usual para explorar conteúdos de documentos é usar marcas que fazem mapeamento com um modelo de dados.

Existem duas estratégias para fazer web content mining: aquela que procura directamente os conteúdos dos documentos, e aquela que melhora os conteúdos pesquisados por outras ferramentas, como por exemplo motores de busca.

Nesta área experimentei o Digesto.net da WBSA – Web Intelligence Systems.

Digesto.Net

O Digesto é um portal de busca que faz uso de técnicas de IA para pesquisar conteúdos na web sobre matérias jurídicas.

Imagem 6 - Portal Digesto.net

Este sistema faz buscas em páginas, artigos da lei publicados na

Internet e acórdãos, distribuídos por vários organismos judiciais do Brasil. Podemos experimentar o projecto em www.digesto.net.

WEB INTELLIGENCE ISEP 2004

Pág. 43

7.4 Web Structure Mining

WebQL é uma ferramenta que permite extrair dados de qualquer fonte

de dados digital. Segundo a QL2 Software, empresa produtora, o núcleo do WebQL é uma linguagem de programação que usa uma sintaxe simples para contornar virtualmente qualquer problema de migração de dados. O WebQL é derivada do SQL padrão, mas contem extensões lógicas para poder identificar dados originários de qualquer fonte.

Como o SQL, o WebQL pode trabalhar com dados estruturados, mas o seu principal trunfo é a capacidade de processar dados não estruturados, dados encontrados em páginas web, folhas de cálculo e documentos de texto normais.

O WebQL Studio é uma aplicação com ambiente gráfico, que permite

desenvolver e distribui aplicações baseadas em WebQL. Esta ferramenta pode também ser usada para desenvolver aplicações em Java, .NET e VB6, como veremos mais à frente neste capítulo.

Podemos ter acesso à mesma em www.ql2.com, e utilizá-la por um

período de 30 dias. Infelizmente neste período experimental apenas temos acesso a uma espécie de Query Analyser que permite fazer queries e ver os seus resultados, e usar apenas 1 instância do objecto disponibilizado na API.

As experiências que efectuei com esta ferramenta foram de dois tipos.

Primeiro comecei por usá-la apenas no ambiente gráfico disponibilizado e depois, usando o API disponível para .NET, desenvolvi uma aplicação simples para criar a árvore de links de uma página web.

Experiência 1 – query simples

Na minha primeira experiência, o objectivo era ver a sintaxe da linguagem, pelo que comecei pelo mais simples:

select * from http://www.dei.isep.ipp.pt

O WebQL apresenta quase sempre os resultados de uma forma

estruturada, isto é, devolve uma tabela normal com linhas e colunas. Para o caso, são devolvidos os campos por defeito: url origem, título da página e o seu conteúdo em html. A figura seguinte mostra um exemplo do retorno da query.

WEB INTELLIGENCE ISEP 2004

Pág. 44

Imagem 7 - Resultados de um query

Como já foi dito anteriormente, o WebQL é em tudo semelhante ao SQL,

mas tem algumas extensões que fazem todo o sentido para o meio para onde foi concebido. Uma extensão muito interessante é o crawl. O crawl permite que a query entre pela página fornecida e, a partir daí, comece a testar todos os links que encontre. Teoricamente, o motor de ferramenta analisa a página dada e retorna os seus links, analisando por sua vez cada página apontada por cada link e retornando também os seus links. Este processo é recursivo, podendo por tanto tornar-se quase infinito, dada a dimensão da Internet. No entanto, esta extensão tem um parâmetro que permite parar a recursividade num determinado nível. Chama-se “depth” e pode ser usado de várias maneiras.

Vamos então fazer alguns testes com o “crawl”.

Experiência 2 – a extensão “crawl”

O primeiro objectivo é ver o resultado de um querie simples, para depois podermos definir um nível de profundidade (depth).

Os queries a executar são:

Select * from crawl of http://www.dei.isep.ipp.pt Select * from crawl of http://www.dei.isep.ipp.pt to depth 3

Como já foi dito, o primeiro query vai executar durante muito tempo, teoricamente infinito, até terminarem os links encontrados. O segundo, vai apenas fazer o crawling dos links de primeiro e segundo nível.

As imagens seguintes apresentam os resultados dos queries.

WEB INTELLIGENCE ISEP 2004

Pág. 45

Imagem 8 - Resultados do crawl

Imagem 9 - Resultados do crawl com nível de profundidade

Se analisarmos a imagem 9 vemos que passado algum tempo da query começar a executar, já está a fazer testes em links que não têm nada a ver com a página inicialmente dada, é por isso que dizemos que teoricamente a query não tem fim.

WEB INTELLIGENCE ISEP 2004

Pág. 46

A informação retornada pode servir para bastantes fins, no entanto, se

usarmos alguns campos que o WebQL nos disponibiliza, podemos obter dados com um objectivo bem definido. Por exemplo, vamos substituir as colunas a serem retornadas de * para parent_url, source_url e crawl_depth.

Nesta experiência, o objectivo é saber qual a estrutura de links da página. Depois de alterado o query temos:

select parent_url as url_pai, source_url as link, crawl_depth as nivel

from crawl of http://www.dei.isep.ipp.pt to depth 2 order by crawl_depth

Os resultados obtidos foram os seguintes:

Imagem 10 - Resultados ordenados

Se analisarmos a tabela, podemos ver que na primeira coluna temos

sempre o mesmo url origem. Isto significa que todos os links que aparecem na segunda coluna, são originários do da primeira. Portanto, temos aqui, de forma resumida, a estrutura de links da página www3.dei.isep.ipp.pt.

Se quisermos ir mais longe, podemos aumentar o nível de profundidade

e teremos uma estrutura de links mais abrangente. Por exemplo, vamos alterar o parâmetro to depth de 2 para 3. O que é que vai acontecer? O que vai acontecer é que o nosso query vai retornar os links dos links da página www3.dei.isep.ipp.pt.

Com esta experiência, tentei demonstrar a capacidade que esta

ferramenta tem de fazer web structure mining, e foi com base nisto que desenvolvi uma aplicação simples, da qual irei falar mais tarde.

WEB INTELLIGENCE ISEP 2004

Pág. 47

Experiência 3 – pesquisas múltiplas

Quando fazemos pesquisas sobre determinada matéria na Internet, temos sempre uma dificuldade: saber qual o motor de busca que nos dará melhores resultados. Para a ultrapassar geralmente fazemos pesquisas em todos eles e analisamos os resultados. Com esta terceira experiência quero mostrar uma forma mais ou menos automática de se fazer a pesquisa em todos os motores de busca que quisermos. Para que o objectivo seja cumprido, é necessário recorrermos a outra extensão que a linguagem implementa: o submitting.

Esta opção permite que o WebQL preencha os campos de um formulário HTML encontrado durante o query, com os valores fornecidos pelo utilizador. Por exemplo, se a nossa pesquisa na Internet fosse “isep”, podíamos executar o seguinte comando:

Select * from [ http://www.google.com, http://www.altavista.com ]

submitting values ‘isep’ for * to form 1

Imagem 11 - Resultados de submitting

Os resultados não são nada que nunca se tenha visto antes, isto é, são

simples pesquisas que podemos fazer nos motores de busca, mas com a particularidade de serem feitas automaticamente. O interessante é que sobre os resultados desta query, podemos fazer outra, ou então filtrar a mesma de forma a aparecerem apenas os resultados por que pesquisamos. Por exemplo, se adicionarmos mais alguns motores de busca e filtrarmos por o query pelo texto procurado temos:

WEB INTELLIGENCE ISEP 2004

Pág. 48

select unique html_to_text(CONTENT) as TITULO, url as URL_LINK from links within [http://www.google.com, http://www.altavista.com, http://www.hotbot.com, http://www.lycos.com, http://www.excite.com] submitting values 'isep' for * to form 1 where html_to_text(CONTENT) matching 'isep' or html_to_text(CONTENT) matching 'ISEP'

Imagem 12 - Resultados do matching

Neste momento, fizemos uma pesquisa nos 5 motores de busca ao

mesmo tempo, e seleccionamos apenas os resultados que continham a palavra isep.

Embora as pesquisas directas nos motores nos possam retornar textos com excertos do conteúdo dos sites encontrados, o que permite que nos enquadremos minimamente com os mesmos, esta query pode retornar resultados de todos eles ao mesmo tempo.

Como é evidente, e dado tratar-se apenas de experiências, os

resultados não são apresentados na forma mais amigável para o utilizador. Um software útil poderia ser algo que apresenta-se estes resultados de uma forma gráfica e mais “bonita”.

Esta experiência visa sobretudo mostrar que com algumas ferramentas

de web mining é possível melhorar alguns dos serviços que hoje em dia

WEB INTELLIGENCE ISEP 2004

Pág. 49

existem na Internet, bem como integrar alguns de forma a que se complementem.

Experiência 4 - Web Structure Mining – Desenvolvimento de aplicação

Para finalizar as experiências com esta ferramenta, desenvolvi uma pequena aplicação que permite ver a árvore de links de um determinado site.

O WebQL disponibiliza um API que permite executar queries e obter os

resultados e os logs de execução das mesmas. A plataforma escolhida for VB.NET, embora se possa usar a API com Java, ASP.NET e VB6 também.

A aplicação é muito simples. Tem apenas uma janela, dividida em 4

partes. Do lado esquerdo temos a árvore de links gerada, do lado direito temos um browser e uma caixa de mensagens, onde vão aparecendo os logs de execução. Em cima temos uma barra para colocação do url a pesquisar, um contador que indica o nível de profundidade a que queremos chegar e os botões de iniciar e abortar.

A implementação é simples. O WebQL disponibiliza um namespace

WebQL que tem as classes Script, Runtime e Records. Para se executar um query, é necessário criar um objecto do tipo Script, e depois executar o método CreateRuntime(), que retorna um objecto do tipo RunTime. Neste objecto chama-se o método Start() e o processamento do query começa. Existem eventos próprios no objecto que nos vão dando informação dos estado da execução, bem como das mensagens produzidas durante a mesma. Quando o processamento terminar, é lançado o evento DataReceived() que retorna um conjunto de registos com os dados. É sobre destes dados que são extraídos os resultados. Estes dados vêm no formato de uma tabela, com o número de colunas que foram especificadas no query, e tantas linhas quantos os resultados obtidos.

De seguida vamos ver alguns exemplos de execuções da aplicação para

alguns sites. Na imagem seguinte podemos ver a janela depois de executada uma

query para o site www.cnn.com, com nível de profundidade 1.

WEB INTELLIGENCE ISEP 2004

Pág. 50

Imagem 13 - Resultados da pesquisa com nível 1

No lado esquerdo temos a estrutura de links retornada. Estes são todos

os links possíveis a partir da página inicial do site www.cnn.com. Se aumentarmos o nível de profundidade para 2, verificamos que os queries demoram muito mais tempo a executar, uma vez que é necessário percorrer também os links dos links. A imagem seguinte mostra uma execução com nível de profundidade 2.

WEB INTELLIGENCE ISEP 2004

Pág. 51

Imagem 14 - Resultados da pesquisa com nível 2

A execução deste query demorou 1h 17m. Como é evidente, pelo tempo

que demora, o acesso a esta árvore não pode ser imediato, ou seja, não podemos estar a navegar e pedir a visualização da árvore, pelo menos para páginas como esta. O ideal para casos como este seria ter uma aplicação que executasse o trabalho e guardasse os resultados numa base de dados, para posterior consulta.

O objectivo desta experiência era demonstrar a facilidade com que

WebQL pode ser usado para criar software, e também um exemplo de uma aplicação da área da Web Intelligence. Podemos concluir que com este exemplo confirmamos um pouco a definição de WI: recorrer à IA e TI de forma a aplicá-las na web.

WEB INTELLIGENCE ISEP 2004

Pág. 52

8. Conclusão

Cada vez mais a Internet é um dos principais fornecedores de informação da sociedade em que vivemos. A quantidade de informação é de tal forma grande que se torna quase impossível retirar qualquer conhecimento da mesma, e a existência de semânticas diferentes entre sistemas torna ainda mais complexa a colaboração e troca de informação.

Na tentativa de automatizar os processos de descoberta de conhecimento em grandes repositórios de informação, como é o caso da web, a WI recorre à IA e às TI de forma a aplicá-las nas estruturas da Internet. A WI está a dar passos com a finalidade de desenvolver ferramentas que nos possam ajudar a criar aquilo a que poderemos chamar uma rede inteligente. Uma rede capaz de identificar as necessidades dos utilizadores e organizações e responder de forma rápida e precisa a essas mesmas necessidades.

Neste trabalho foram apresentadas as várias vertentes da WI, os níveis em que se divide, as áreas que utiliza para obter os seus resultados, áreas onde pode ser aplicada de forma a criar mais valias e desafios que terá de enfrentar com a evolução da Internet.

9. Dificuldades

Imediatamente após a apresentação da disciplina de Projecto, e o

aparecimento da primeira lista de temas possíveis, escolhi o meu. Entre os vários temas que foram apresentados, havia alguns sobre os quais tinha muito mais conhecimento, mas escolhi este precisamente por ser algo de novo para mim. Fazer este trabalho foi extremamente interessante, mas ao mesmo tempo difícil. Com o desenrolar do trabalho verifiquei que, embora o conjunto de conceitos fosse algo de novo, havia alguns que já me eram familiares de algumas disciplinas leccionadas no curso.

Uma das dificuldades que encontrei na elaboração do relatório deveu-se à quantidade de informação disponível sobre as várias áreas que compõe a WI. Na Internet existem vários artigos que falam sobre o tema, mas a maior parte da informação, e a mais “valiosa”, encontra-se nos livros dos Proceedings das conferências anuais que o WIC realiza, e nos artigos apresentados em workshops um pouco por todo o mundo. Por exemplo, só tive acesso aos proceedings da conferência de 2004, realizada de 20 a 24 de Setembro, no dia 30 de Setembro, e porque o Eng. Carlos Ramos me emprestou. No entanto penso que a maior dificuldade foi fazer a estruturação do trabalho, saber que áreas deveria abordar e a qual delas devia dar mais destaque. A componente experimental também foi difícil de realizar, principalmente porque a maior parte do software existente é comercializado e não permite o uso a título experimental.

WEB INTELLIGENCE ISEP 2004

Pág. 53

10. Referências [1] Nick Denton, CEO, Moreover The Rise of Web Intelligence May 2001 [2] Ching-Shen James DONG, Grace SauLan LOO Flexible Web-Based Decision Support System Generator (FWDSSG) Utilising Software Agents. Proceedings of the 12th International Workshop on Database and Expert Systems Applications (DEXA’01). [3] Liu J., Zhong N., Yao Y.Y., Ras Z.W. 2003. The Wisdom Web: New Challenges for Web Intelligence (WI). Journal of Intelligent Information Systems [4]Hong Tang Yu Wu J.T. Yao Gouyin Wang Y. Y. Yao

CUPTRSS: A Web-based Research Support System Office of Science and Technology, Institute of Computer Science and Technology Chongqing University of Posts and Telecommunications, China [5]Fjodor Ruzic Web and AI Convergence: Society Intelligence through Web Intelligence Institute for Informatics, Zagreb, Croatia June 2003 [6] Robert S. Pindyck VOLATILITY AND COMMODITY PRICE DYNAMICS Massachusetts Institute of Technology Cambridge, MA August 2002 [7] LEE, J. & PODLASECK, Mark. Visualization and analysis of clickstream data of online stores for understanding web merchandising. Journal of Data Mining and Knowledge Discovery, v.5, n.1/2, Janeiro de 2001. [8] KOHAVI, Ron & BECHER, Jon. E-commerce and clickstream mining tutorial. SIAM International Conference on Data Mining. Abril de 2001. [9] KOHAVI, Ron Mining e-commerce data: the good, the bad and the ugly. Simpósio Internacional de Gestão de Conhecimento e Gestão de Documentos. Curitiba, Agosto 2001

WEB INTELLIGENCE ISEP 2004

Pág. 54

[10] SRIVASTAVA, Jaideep et al Web usage mining: Discovery and applications of usage patterns from Web data. ACM SIGKDD Explorations, Janeiro de 2000 [11] KIMBALL, Ralph & MERZ, Richard. Data Webhouse: construindo o data warehouse para a WEB. Rio de Janeiro: Campus, 2000. [12] SCHAFER, J. Ben et al. E-commerce recommendation applications. Journal of Data Mining and Knowledge Discovery, Janeiro de 2001. [13] Sean B. Palmer The Semantic Web: An Introduction 2001

[14] S.K.Madria, S.S.Bhowmick, W.K.Ng, e E.P.Lim Research issues in Web data mining. Proceedings of Data Warehousing and Knowledge Discovery First International Conference, DaWaK 1999

[15] Yan Wang Web Mining and Knowledge Discovery of Usage Patterns CS 748T Project (Part I) 2000

[16] M. Spiliopoulou Data mining for the Web Proceedings of Principles of Data Mining and Knowledge Discovery Third European conference, PKDD 1999

[17] Garofalakis, Minos N. et al. Data mining and the web: past, present and future. ACM Workshop on Web Information and Data Management Kansas City, 1999

[18] Bharat, Krishna & Broder, Andrei A technique for measuring the relative size and overlap of public Web search engines Conf. on World Wide Web, 1998 (www7.scu.edu.au/programme/fullpapers/1937/com1937.htm)

[19] Zhong, N. et al. Web Intelligence (WI). Proceedings 24th IEEE International Computer, Software and Applications Conference (COMPSAC), 2000

[20] Fayyad, Usama M. et al. From data mining to knowledge discovery: an overview.

WEB INTELLIGENCE ISEP 2004

Pág. 55

Advances in Knowledge Discovery and Data Mining Menlo Park, The MIT Press, 1996

[21] Goebel, Michael and Gruenwald, Le. A survey of data mining and knowledge discovery software tools ACM SIGKDD Explorations, v.1, n.1, 1999. [Han96] Han, Jiawei et al. Intelligente query answering by knowledge discovery techniques. IEEE Transactions on Knowledge and Data Engineering, v.8, n.3, 1996.

[22] Agrawal, Rakesh. Data mining: the quest perspective. EDBT Summer School on Advances in Database Technology Gubbio-Itália, 1995

[23] Tan, Ah-Hwee Text mining: the state of the art and the challenges. Pacific-Asia Workshop on Knowledge Discovery from Advanced Databases Beijing, 1999

[24] Willet, Peter. Recent trends in hierarchic document clustering: a critical review. Information Processing & Management, v.24, n.5, 1988 [25] Yang, Yiming e Liu, Xin A re-examination of text categorization methods ACM-SIGIR Conf. on Research and Development in Information Retrieval Berkeley, 1999

[26] Riloff, Ellen e Lehnert, Wendy Information extraction as a basis for high precision text classification ACM Transactions on Information Systems, v.12, n.3, 1994.

[27] T. Berners-Lee, J. Hendler, O. Lassila The semantic web – a new form of the Web content that is meaningful to computer will unleash a revolution of new possibilities. Scientific American, 2001 (www.sciam.com/print_version.cfm?articleID=00048144-10D2-1C70-84A9809EC588EF21)

[28] Web-based Adaptive User Interfaces: Problems, Methods and Applications Fifth World Multiconference On Systemics, Cybernetics and Informatics July 22-25, 2001 Orlando, Florida USA Sheraton World Resort (http://www.ia.uned.es/~jgb/waui01/)

[29] Nuno Silva e João Rocha Semantic Web Complex Ontology Mapping Proceedings IEEE/WIC International Conference on Web Intelligence 2003 Halifax, Canada 2003

[30] Goertzel, Bem World Wide Brain

WEB INTELLIGENCE ISEP 2004

Pág. 56

The Emergence of Global WI and how it will transform the human race 2002 (http://www,goertzel.org/papers/webart.html)

[31] Web Intelligence Consortium 2003 http://wi-consortium.org/ [33] Juan D. Velasquez, Hiroshi Yasuda, Terumasa Auki Web Site Structure and Content ecomendations Proceedings IEEE/WIC/ACMs International Conference on Web Intelligence 2004 Benjing, China 2004 [34] Web-based Support Systems A Report of the WIC Canada Research Centre Proceedings IEEE/WIC/ACM International Conference on WI 2004