sinapse - a methodology for extraction of knowledge objects based on textual meaning for the...

184
U NIVERSIDADE F EDERAL DE G OIÁS I NSTITUTO DE I NFORMÁTICA J OSÉ MAURO DA S ILVA SINAPSE Uma Metodologia para Extração de Conhecimentos em Objetos Textuais Baseada em Conceito para o Português do Brasil. Goiânia 2007

Upload: jose-mauro-da-silva-msc

Post on 06-Jul-2015

183 views

Category:

Technology


6 download

DESCRIPTION

In the last decades, the great advance of science and technology brought into being countless inventions, as well as new materials, new equipments and methods, and consequently required (or demanded) the continuous creation of new terms (neologisms) related to various specialties. According to the scientific-technological evolution of the languages, the meanings of those terms change continually making it difficult to name suitably the advances and hindering the Knowledge Management. The available textual objects in organizations through writing communication instruments, specially in the Web, have made it possible to work out electronic corpus of technical and scientific texts, and so introduced the possibility of elaborating Terminologies Automatic Extraction methods, of great interest for the Natural Language Processing researchers.

TRANSCRIPT

  • 1. UNIVERSIDADE FEDERAL DE GOISINSTITUTO DE INFORMTICAJOS MAURO DA SILVASINAPSEUma Metodologia para Extrao deConhecimentos em Objetos Textuais Baseadaem Conceito para o Portugus do Brasil.Goinia2007

2. JOS MAURO DA SILVASINAPSEUma Metodologia para Extrao deConhecimentos em Objetos Textuais Baseadaem Conceito para o Portugus do Brasil.Dissertao apresentada ao Programa de PsGraduao do Instituto de Informtica da Universi-dadeFederal de Gois, como requisito parcial paraobteno do ttulo de Mestre em Cincia da Compu-tao.rea de concentrao: Cincia da Computao.Orientador: Prof. Dr. Cedric Luiz de CarvalhoCoOrientadora: Profa. Dra. Ana Paula Labois-sereAmbrsioGoinia2007 3. JOS MAURO DA SILVASINAPSEUma Metodologia para Extrao deConhecimentos em Objetos Textuais Baseadaem Conceito para o Portugus do Brasil.Dissertao defendida no Programa de PsGraduao do Ins-titutode Informtica da Universidade Federal de Gois comorequisito parcial para obteno do ttulo de Mestre em Cin-ciada Computao, aprovada em 02 de Agosto de 2007, pelaBanca Examinadora constituda pelos professores:Prof. Dr. Cedric Luiz de CarvalhoInstituto de Informtica UFGPresidente da BancaProfa. Dra. Ana Paula Laboissere AmbrsioInstituto de Informtica UFGProf. Dr. Eduardo Simes de AlbuquerqueInstituto de Informtica UFGProf. Dr. Ilmrio Reis da SilvaUniversidade Federal de Uberlndia UFU 4. Todos os direitos reservados. proibida a reproduo total ouparcial do trabalho sem autorizao da universidade, do autor e doorientador(a).Jos Mauro da SilvaGraduou-se e especializou-se em Cincia da Computao pela UFG- Universidade Federal de Gois. No perodo de sua graduao, foimonitor no Instituto de Informtica da UFG. Durante o Mestrado,props uma arquitetura conceitual para o Projeto DWeb e publicouartigo cientfico no congresso CollECTOR (Collaborative EletronicCommerce Technology and Research) - Chile. Atualmente desen-volvepesquisas em Descoberta de Conhecimento em Texto, Gestodo Conhecimento e Web Semntica. 5. Dedico este trabalho aos meus pais, Jos Clemente da Silva (inmemoriam) e Orozita Batista da Silva, que apesar da origem humilde,souberam passar a todos os seus filhos os valores da sabedoria, honestidade,humildade e a f em DEUS e Nossa Senhora Aparecida como proposta de lutapela vida. 6. AgradecimentosAo Instituto de Informtica da UFG, pela utilizao de suas depen-dncias,e a todo o seu pessoal, sejam professores ou funcionrios, sempredispostos a cooperar e cujo contato foi indispensvel para a minha formaoacadmica e para a vida.A Dataprev - Empresa de Tecnologia e Informaes da PrevidnciaSocial, pela liberao de horrio para estudos. Aos meus colegas de trabalho,que entenderam a minha difcil caminhada, fico grato pelo apoio.Aos professores Dr. Leandro Krug Wives (UFRGS) e Dra. VivianeMoreira Orengo (UFRGS), pelas inestimveis informaes que sedimentarama base deste trabalho, respectivamente, sobre mapeamento de caractersticastextuais por conceito e o algoritmo RSLP.Aos Profs. Dr. Cedric Luiz de Carvalho e Dra. Ana Paula LaboissireAmbrsio, respectivamente, orientador e co-orientadora, pelas orientaes.Aos meus colegas e amigos do mestrado que, assim como eu, tiveramum grande esforo em conseguir conciliar trabalho, estudo e famlia. Ficograto pela amizade, companheirismo e solidariedade nos momentos difceise nos momentos de alegria e descontrao.Aos colegas e professores Ms. Edison A. M. Morais, Ms. Jnio Csarde Lima, Prof. Dr. Fbio Nogueira de Lucena (UFG) e Prof. D.Sc. Ricardo deAlmeida Falbo (UFES), pelas ontologias e textos para realizao de testes.Aos Profs. Dr. Eduardo Simes de Albuquerque e Ms. Marcio GreyckBatista Dias, pelas cartas de apresentao ao mestrado.Ao meu grande amigo Eng. de Computao Fernando Lemes Povoa,pelo apoio na materializao e enriquecimento de minhas idias, ao qual,tenho especial estima e gratido.A meus irmos Helena Elosa da Silva, Paulo Edison da Silva, LusCarlos da Silva e demais parentes e amigos, pelos incentivos e pacincia nasdiversas ausncias.A DEUS, por tudo. 7. A textura semntica da linguagem hologramtica sua ma-neira:quando nos referimos ao dicionrio de uma lngua, vemosque uma palavra se define por outras palavras, que por sua vez sedefine por outras palavras, e, pouco a pouco, a definio de cadapalavra implica em si a maior parte das palavras dessa lngua.Se lermos um texto, a formao do sentido um processo dial-gico/recorrente: as palavras mais usuais tm vrios sentidos virtu-ais,e a preciso do sentido de uma palavra numa frase depende dosentido das palavras que fazem parte da mesma frase ou do mesmodiscurso; o sentido destas diferentes palavras toma forma em fun-odo sentido global da frase ou discurso, o qual toma forma emfuno do sentido particular das diferentes palavras. Assim, com-preendemosa frase a partir do sentido das palavras ao mesmotempo que o sentido das palavras se cristaliza a partir do queemerge da frase [80].Edgar Morin,La Mthode 3. La Connaissance de la Connaissance/1. 8. Resumoda Silva, Jos Mauro. SINAPSE. Goinia, 2007. 182p. Dissertao deMestrado. Instituto de Informtica, Universidade Federal de Gois.Nas ltimas dcadas, o grande avano da cincia e tecnologia com suas in-venes,novos materiais, equipamentos e mtodos gerou a necessidade decriao de novos termos ligados a diversas especialidades. Associado ao di-namismocientfico-tecnolgico e dinmica natural das lnguas, tais termossofrem constantes alteraes nos seus significados, o que leva a dificuldadespara nomear adequadamente esses avanos, bem como ao agravamento doproblema da Gesto do Conhecimento. A disponibilizao de objetos tex-tuaisem organizaes, atravs de instrumentos de comunicao escrita e, emespecial, disponveis na Web, possibilitou a construo de corpus eletrnicosde textos tcnicos e cientficos, propiciando assim a implementao de mto-dosde Extrao Automtica de Terminologias, os quais, tm sido de grandeinteresse dos pesquisadores de Processamento de Lnguas Naturais. O obje-tivodesse projeto de mestrado foi propor: a) uma metodologia, atravs de umarcabouo computacional, direcionada para extrao de unidades terminol-gicascomplexas presentes em corpora de domnio de conhecimento especfico;b) baseado em conhecimentos estatsticos e lingsticos, analisar estruturastextuais e a descobrir conhecimentos (conceitos) relevantes implcito nos mes-mos;c) organizar este dados em uma estrutura de Matriz Atributo x Valor,possibilitando seu ps-processamento, como por exemplo: agrupamento, inde-xao,visualizao etc. Especificamente, foram analisados corpus de textosdos domnios: Jurdico, Computao, Agropecurio, Astronomia e Climatolo-gia.O mtodo proposto emprega tcnicas tradicionais, porm, com enfoquediferenciado e prope dois mtodos de determinao de importncia baseadono grau de substantivao (absoluto e relativo) de conceitos.PalavraschaveGesto do Conhecimento, Extrao Automtica de Terminologia, Des-cobertade Conhecimento em Texto. 9. Abstractda Silva, Jos Mauro. SINAPSE. Goinia, 2007. 182p. MSc. Disserta-tion.Instituto de Informtica, Universidade Federal de Gois.In the last decades, the great advance of science and technology broughtinto being countless inventions, as well as new materials, new equipmentsand methods, and consequently required (or demanded) the continuous cre-ationof new terms (neologisms) related to various specialities. According tothe scientific-technological evolution of the languages, the meanings of thoseterms change continually making it difficult to name suitably the advancesand hindering the Knowledge Management. The available textual objectsin organizations through writing communication instruments, specially in theWeb, have made it possible to work out electronic corpus of technical and sci-entifictexts, and so introduced the possibility of elaborating TerminologiesAutomatic Extraction methods, of great interest for the Natural LanguageProcessing researchers. The aim of this master degree projects is to propose:a) a methodology through a computational framework, turned to the complexterminological units extractions, from corpora of specific knowledge domain(or field); b) based on linguistic and statistic knowledge, to analyze textualstructure and discovery significant concepts implicit in them; c) to organiza-tionthem in an Attribute x Value Array form, so that they can be post-processed,as for example: clustering, indexing, visualization etc. Specificallywas analyzed text corpus of the domain: Juridical, Computer Science, Tech-nicalof Agriculture and Cattle Raising, Astronomy and Climatology. The pro-posemethod uses traditional techniques but seen from a different point ofview two methods of importance determination, based on concept level subs-tantivation(absolute and relative) are also proposal.KeywordsKnowledge Management, Terminologies Automatic Extraction, Kno-wledgeDiscovery from Text 10. SumrioLista de Figuras 13Lista de Tabelas 141 Introduo 151.1 Problemas 151.1.1 Problemas Especficos 191.1.2 Problema Pesquisado 201.2 Motivao 201.3 Hiptese 221.4 Objetivo 221.4.1 Objetivos Especficos 221.4.2 Restries Relacionadas aos Objetivos 231.5 Metodologia de Estudo e Pesquisa 241.6 Organizao da Dissertao 26I Fundamentao Terica 272 Gesto do Conhecimento 282.1 Viso Geral da Gesto do Conhecimento 282.2 Dado 302.3 Informao 312.3.1 Formalizao do Processo de Comunicao 322.3.2 Comunicao Efetiva 332.3.3 Interferncias no Processo de Comunicao 332.3.4 Informao Relevante 342.4 Uma Abordagem Epistemolgica 352.5 Conhecimento 362.6 Teoria da Criao do Conhecimento Organizacional 372.7 Comunidades Virtuais de Prtica - CoPs 393 Processo de Descoberta de Conhecimento 423.1 Descoberta de Conhecimento em Banco de Dados 423.1.1 Reconhecimento de Padres 433.1.2 Tipos de Padres Descobertos 443.1.3 Tipos de Fontes de Dados 453.2 Descoberta de Conhecimento em Texto 46 11. 4 Pesquisas em rea Relacionadas 504.1 Recuperao de Informaes 504.1.1 Modelos de IR 514.1.2 Avaliao de Sistema IR 524.2 Lingstica Computacional 534.2.1 Processamento de Linguagem Natural 544.2.2 Lingstica de Corpus 55Etiquetagem 554.3 Web Semntica 574.3.1 A Inteligncia 594.3.2 A Interoperabilidade 634.3.3 A Integrao 635 Preparao de Corpus Textuais 655.1 Viso Geral da Preparao de Corpus Textuais 655.2 Pr-processamento do Texto 665.2.1 Itemizao 675.2.2 Filtragem 695.2.3 Conflao 69Lematizao 70Stemming 715.2.4 Seleo de Termos ndices 735.2.5 O Modelo de Espao Vetorial 745.2.6 O Processamento Lingstico 776 Mtodos de Minerao de Texto 796.1 Classificao de Texto 796.1.1 Seleo de Termos ndices 816.1.2 Classificao Naive Bayes 816.1.3 Classificao Nearest Neighbor 826.1.4 rvore de Deciso 836.1.5 Suport Vector Machines 836.2 Agrupamentos 846.3 Extrao de Informaes 856.3.1 Classificao Atravs de Extrao de Informaes 866.3.2 IE Atravs de Modelos Ocultos de Markov 866.3.3 IE Atravs de CRF 867 Ps-processamento do Texto 887.1 Ps-processamento do Texto 888 Extrao de Caractersticas 918.1 Analisando Conceitos 918.2 Uma Viso Terminolgica 948.3 Os Percursos Onomasiolgico e Semasiolgico 94 12. 9 Pesquisas Relacionadas Extrao de Caractersticas 969.1 Anlise das Pesquisas Relacionadas 969.2 Trabalhos Relacionados 979.3 Os Desafios Implcitos 108II Desenvolvimento e Resultados 11210 Projeto DWeb 11310.1 O Projeto DWeb e a Web Semntica 11310.1.1 Requisitos Para o Projeto DWeb 11410.1.2 Princpios Bsicos do Projeto DWeb 11510.2 Servios Bsicos e Mdulos DWeb 11611 Prottipo Proposto 11711.1 Uma Viso Grfica do SINAPSE 11811.2 Uma Viso Conceitual do SINAPSE 12211.2.1 Classes Gramaticais Restritas 12211.2.2 Estratgia de Soluo 124Identificao de Itens Lexicais 124Identificao de Itens Terminolgicos 125Domnio de Conhecimento 128Lngua Portuguesa 129Carter Esquivo das Lnguas 129Seleo de Termos mais Importantes 130Anlise de Importncia de Conceitos 131Mecanismo de Clculo do ndice de Importncia de Conceito13311.2.3 Processo de Descoberta de Conhecimento 13611.2.4 Textos de Qualquer Tamanho 13611.2.5 Mapeamento por Conceito 13611.3 Metodologia SINAPSE 13812 Resultados 14512.1 Estratgias de Testes 14512.2 Ferramentas de Testes 14712.3 Estatsticas de Descoberta de Conhecimento 14812.4 Estatsticas de Determinao da Importncia do Conceitos 15313 Concluses 15613.1 Possveis Aplicaes 15713.2 Contribuies Especficas 15913.2.1 Artigos Publicados como Autor ou Co-autor 16013.3 Limitaes deste Trabalho 16113.4 Trabalhos Futuros 161Referncias Bibliogrficas 163 13. A Tabelas Stemming RSLP 173A.1 Tabelas de Regras para Stemming: RSLP 173B Memria de Clculo 179C Matriz Atributo x Valor 182 14. Lista de Figuras4.1 Arquitetura Padro do W3C para a Web Semntica. [14] 584.2 Componentes da Inteligncia, segundo Sternberg [92]. 604.3 Componentes de Agentes Racionais, segundo Russell e Nor-vig[91]. 6111.1 Viso Grfica de Alto Nvel do SINAPSE. 11911.2 Viso Grfica da Metodologia SINAPSE. 12011.3 Diagrama de classes do SINAPSE. 12211.4 Estrutura dos Conceitos. 13712.1 Comparativo Entre Stemming SINAPSE x RSLP. 14812.2 Representao do Numrica do Texto Analisado. 14912.3 Comparativo Conceitos Por Domnio. 15012.4 Taxa de pertinncia entre domnios cruzados. 15112.5 Nvel Geral de Indeterminao de Classes Gramaticais. 15212.6 Grau de substantivao absoluta do conceito - ISA 15412.7 Comparativo dos ndices ISA x ISR. 155 15. Lista de Tabelas4.1 Conjunto Mnimo de Etiquetas - Eagles 569.1 Ferramentas EAT por linha de pesquisa 1099.2 Ferramentas EAT por Idioma de atuao 1109.3 Ferramentas EAT e seus Nveis de Anlise Lingstica. 1109.4 Ferramentas EAT de Fundamentao Estatstica 11111.1 Matriz de Candidatos a Conceitos do SINAPSE 12711.2 Ontologias Usadas no Teste do SINAPSE 12811.3 Tabela de Exemplo de ndice ISA 144A.1 Regras para a Reduo do Plural 173A.2 Regras para Reduo do Feminino 174A.3 Regras para a Reduo do Advrbio 174A.4 Regras para Reduo Aumentativo-Diminutivo 174A.5 Regras para Reduo de Vogais 175A.6 Regras para Reduo de Substantivo 175A.7 Regras para Reduo de Substantivo (continuao) 176A.8 Regras para Reduo de Verbos 177A.9 Regras para Reduo de Verbos (Continuao) 178B.1 Textos em Domnios Adequados 179B.2 Textos em Domnios Cruzados 179B.3 Somatrio do Grau de Indeterminao 180B.4 ndices de Substantivao ISA e ISR 180B.5 Experimento Geral SINAPSE 181C.1 Matriz Atributo x Valor : Segurana Computacional 182C.2 Matriz Atributo x Valor : Aquecimento Global 182C.3 Matriz Atributo x Valor : Corpos Celestes 183C.4 Matriz Atributo x Valor : Aquecimento Global 183C.5 Matriz Atributo x Valor : Doenas do Gado 183 16. CAPTULO 1IntroduoOs ambientes atuais das organizaes so caracterizados pelas incer-tezas,mudanas contnuas e necessidades de inovaes. Alm disso, os pro-blemasrelacionados ao processo de globalizao agrava ainda mais o cenrioorganizacional atual. Este aspecto dinmico, fora as organizaes a se ade-quarem,em termos de estrutura e rotinas de trabalho, na busca por melhoresprticas, idias inovadoras, sinergias criativas e processos de descoberta; algoque, segundo alguns autores, no pode ser obtido da informao, por melhorque seja a sua gesto, e sim, pelo uso efetivo de conhecimento oriundo de di-versasfontes, sendo o mesmo considerado como uma vantagem competitiva esustentvel [38], [65].Em meados dos anos 90 surgiu um novo melhoramento organizacionalbaseado no KM (Knowledge Management ou Gesto do Conhecimento), que a confluncia entre a rea de Tecnologia da Informao e Administrao. Ini-cialmente,KM foi visto como uma forma inovadora para a solucionar diversosproblemas organizacionais, criando o que foi referenciada por Peter Druckercomo sociedade do conhecimento [49], [81]. Entretanto, na prtica, muito doque foi chamado de Knowledge Management no passou de IM (InformationManagement ou Gesto de Informaes) [38], onde, os melhoramentos ficaramrestritos captura, codificao e armazenamento de informaes [65], e, nes-tasiniciativas pode-se destacar a ocorrncia de problemas, alguns dos quaisso discutidos a seguir.1.1 ProblemasNesta Seo, apresenta-se um conjunto de problemas relacionados aKM e observados nas reas da Cincia da Computao, Comunicao e Gestode Pessoas. Na rea de Cincia da Computao: 17. 1.1 Problemas 16 Problema da confuso entre dado, informao e conhecimento -no que diferem e o que significam - gerou iniciativas tecnolgicascom resultados insatisfatrios. O sucesso ou fracasso organizacionalmuitas vezes pode depender de se saber de qual deles - dado,informao e conhecimento - se precisa, com qual se pode contar e oque se pode fazer com cada um deles, bem como entender o que so eo processo de transio entre cada um deles essencial realizaobem sucedida do trabalho ligado ao conhecimento [38]; Problema da diversidade de aplicaes computacionais que execu-tamas mais diversas funes de negcio, sem considerar os aspec-tosinterdisciplinares em alguns escopos de atuao. Pode-se citaro tratamento lxico, sinttico, semntico e pragmtico sobre os con-tedosdas informaes que trafegam pelas mesmas, estudado em:lingstica computacional, processamento de linguagem natural edescoberta de conhecimento em texto, que visam, minimizar os pro-blemasdo vocabulrio [20]. Entre os quais, as ambigidades quepodem acontecer mediante a ocorrncia de sinonmia1, homonmia2etc. Tais problemas so bastante evidentes emsistemas CSCW3 [62](Computer-Supported Cooperative Work ou Trabalho CooperativoSuportado por Computador) [20]. Problema da perda de conhecimento tcito utilizado nos diver-sosprocessos, atividades, procedimentos e tarefas organizacionais,quando da evaso de recursos de conhecimento, especficos de umapessoa, sem o devido registro e controle [38], [81]; Problema da arquitetura de algumas aplicaes para KM, existen-tesno mercado, que focam os aspectos estticos do conhecimento,ignorando os seus principais aspectos (dinmicos), quais sejam: ex-perincia,verdade fundamental, complexidade, normas prticas eintuio, discernimento, valores e crenas [38];1Problema relacionado ao fato de existirem diferentes palavras capazes de expressar amesma idia.2Problemas relacionado ao fato de existirem palavras similares que expressam idias ouobjetos diferentes.3De uma forma genrica, o CSCW uma rea cientfica interdisciplinar que estuda a formacomo o trabalho em grupo pode ser suportado por tecnologias de informao e comunicao, deforma a melhorar o desempenho do grupo na execuo das suas tarefas. O CSCW enquadra-senum domnio cientfico interdisciplinar, envolvendo diversas reas cientficas: SistemasDistribudos, Comunicao Multimdia, Telecomunicaes, Cincia da Computao, Cinciada Informao, Psicologia, Percepo e Teoria Scio-Organizacional. 18. 1.1 Problemas 17 Problema da ambigidade terminolgica, ocasionada pela falta dedefinio explcita de contexto nas aplicaes computacionais [18].O contexto ou domnio de conhecimento deve ser delimitado e es-pecificadode forma explcita, atravs de algum tipo de estruturaformal, de maneira a minimizar os problemas relacionados s am-bigidadesterminolgicas [20]; O problema da identificao e explorao de conhecimento tcitoque pode comprometer o uso efetivo do conhecimento de formacompleta (tcito e explcito) dentro da organizao [81]; O problema da no integrao das aplicaes em nvel corporativo,crucial para ambientes organizacionais distribudos, pois, podemacarretar diversas dificuldades no que tange aos aspectos gerenci-ais,em especial, os relacionados a KM; O problema da manipulao semntica das informaes transaci-onadasentre e atravs de aplicaes computacionais que, na suamaioria, atinge, no mximo, o nvel de tratamento lxico, ignorandoos demais nveis de entendimento em atos comunicativos, quais se-jam,sinttico, semntico e pragmtico; O problema da sobrecarga de informao4 [111] ocorrida durantea recuperao de informaes armazenadas por falta de estrutura,organizao e acesso aos conhecimentos, atravs de mecanismosque contemplem os aspectos semnticos que tal instrumento exige; Na rea de Comunicao: Problema da captura e organizao de conhecimento (tcito) [81],atravs de diversos instrumentos de comunicao escrita, quais se-jam:memorandos, ofcios, polticas empresariais, normas, instru-esde procedimentos, pareceres, resolues, bem como, ferramen-tasde comunicao eletrnicas tradicionais, quais sejam: e-mail5,4A sobrecarga de informao se refere dificuldade de selecionar informaes relevantesem processos de busca em sistema IR [57].5Ferramenta de comunicao onde a informao enviada imediatamente a uma ou maispessoas, realizando a comunicao de acordo com a convenincia do remetente, permitindoao receptor ler a mensagem quando e como achar mais conveniente, ou seja, trata-se de umaferramenta de comunicao assncrona. 19. 1.1 Problemas 18chat6, frum7, brainstorming eletrnico8, etc. Problema da diversidade de vocabulrio organizacional, segundoalguns autores, no processo de interao9 homem e computador aspessoas tendem a usar termos diferentes para descrever conceitossimilares o que pode acarretar entendimentos dbios de certassituaes; Problema da reteno dos conhecimentos de pessoas em fase deaposentadoria e aposentveis10 ou em processo de desligamento dasorganizaes; Problema do uso excessivo de papel e a dificuldade de manipul-losem atos comunicativos; Na rea de Gesto de Pessoas: Problema da dificuldade de acesso ao conhecimento de mais altaqualidade na organizao; Problema cultural e de poder em relao ao conhecimento organiza-cional; Problema da captura dos fatores intangveis do conhecimento, ouseja o know-how; Problema do aprendizado organizacional; Problema do preparo psicopedaggico para a transferncia de co-nhecimentosorganizacionais; Problemas relacionados escolha de ferramenta usuais de trans-fernciae registro do conhecimento (narrativas, mestre-aprendiz,CoP e mentoring11);6Ferramenta de comunicao que vai desde um simples bate-papo, entrevista online at atransmisso de eventos e suporte ao cliente e se caracteriza por ser sncrona.7Ferramenta de comunicao onde qualquer pessoa pode enviar sua contribuio e secomunicar com um grupo. Para a criao e envio de mensagens pode-se utilizar o correioeletrnico ou outras ferramentas para esse fim. Atualmente uma das ferramentas deintranet mais usadas para colaborao e compartilhamento.8O Brainstorming foi desenvolvido pelo publicitrio Alex Osborn nos anos 40, foi rapida-menteincorporado na linguagem das empresas. Trata-se da mais conhecida tcnica de gera-ode idias, notadamente eficaz, quando usada adequadamente, existindo na modalidadepresencial ou eletrnica [68]9refere-se as modalidades de comunicao sncrona e assncrona.10Refere-se as pessoas que esto aptas a requerer suas aponsentadorias.11Refere-se a uma tcnica utilizada em gesto do conhecimento para auxiliar na captura deconhencimento. 20. 1.1 Problemas 19 Problema da falta de conhecimento, bem como a redundncia deesforos devido esta falta de conhecimento;Este conjunto de problemas, que esto relacionados Gesto do Co-nhecimentoem ambientes organizacionais, em uma anlise mais aprofun-dada,remete-se a um conjunto menor de problemas, porm, de abragnciamais geral. Estes problemas mais abrangentes aponta para a investigao deprocessos de descoberta de conhecimento em textos, especificamente para oPortugus do Brasil, baseado em mtodo(s) e/ou tcnica(s) que aprimore(m)os mtodos e tcnicas atuais. Tais problemas podem ser observados na Seo(1.1.1), a seguir.1.1.1 Problemas EspecficosCastellv e outros [19], apresentam alguns problemas neste nvel.Estes, observam que apesar dos estudos sobre automao de extrao determinologia, estes ainda apresentam os seguintes problemas: Identificao de termos complexos, isto , determinao de onde umafrase terminolgica comea e onde termina; Reconhecimento de termos complexos, isto , decidir se os constituintesdiscursivos so uma frase terminolgica ou uma unidade livre; Identificao da natureza de uma unidade lexical, isto , saber se umaunidade lexical em um texto especializado tem natureza terminolgicaou linguagem de uso geral; Apropriar-se de uma unidade terminolgica para obter o vocabulrio(isto deve ser orientado para soluo do ponto de vista de automao).Perini [87] aponta ainda, problemas relacionados lingstica, afir-mandoo seguinte: No existe critrio seguro que permita saber, em certos casos, onde ter-minaumitemlxico e onde comea outro. Tal afirmao entra emconcor-dnciacom o primeiro item dos problemas relacionados anteriormentepor Castellv [19]. Ainda segundo Perini, esse problema surge quando setem casos de homonmia ou polissemia, observando que no se sabecomo distingir casos de polissemia de casos de homonmia. Por exem-plo:frente a uma forma como folha, como decidir se se trata de um itemlxico com dois significados (polissemia) ou de dois itens lxicos que 21. 1.2 Motivao 20se pronunciam e escrevem da mesma maneira (homonmia). Ainda se-gundoele, o lxico fica indefinido, implicando dessa forma, em dificulda-desde determinao de traos lingsticos (algo que necessrio fazerpara estabelecer a importncia relativa das classes gramaticais das pa-lavras).Assim, pode-se resumir os problemas a serem tratados no mbitodesta dissertao conforme explanado na Seo (1.1.2), a seguir.1.1.2 Problema PesquisadoEsta dissertao pretende tratar dos problemas relacionados identi-ficaode itens lexicais que, por natureza, devem ser itens terminolgicosde um domnio de conhecimento especfico da lngua portuguesa e, aomesmo tempo, minimizar ou solucionar o carter esquivo das lnguas naseleo de termos mais importantes a serem utilizados para o processode descoberta de conhecimento em textos de qualquer tamanho.Os problemas expostos nesta Seo (1.1) motivaram o contedo destetrabalho.1.2 MotivaoAs organizaes criam e manipulam grandes quantidades de infor-maesna forma de documentos, especificamente, informaes codificadas naforma de textos. Segundo Tan [101], cerca de 80% das informaes organi-zacionais,esto em formato textual. Estas informaes so disponibilizadas(construdas) atravs de instrumentos de comunicao escrita, quais sejam:memorandos, ofcios, polticas empresariais, normas, instrues de procedi-mentos,pareceres jurdicos, resolues, bem como, ferramentas de comuni-caoeletrnica tradicionais, tambm conhecidas como Sistemas de Mensa-gens12,quais sejam: e-mail, chat, frum, brainstorming eletrnico, etc., tam-bmso constitudas por informaes textuais. Assim, uma das motivaesdesta dissertao a realizao de tratamento computacional de informaesneste formato (textual) cuja a fonte da informao seja os sistemas de mensa-gensorganizacionais.12Os Sistemas de Mensagens so processos de comunicao onde duas ou mais pessoastransmitem e/ou recebem mensagens atravs de um sistema completo ou parcialmentecompartilhado de sinais, smbolos e comportamentos. Os sistemas mais modernos manipulamalm de mensagens, grficos, imagens, sons e vdeos, podendo ser sncronas ou asscronas. 22. 1.2 Motivao 21Outra motivao desta dissertao contribuir para a construo doProjeto DWeb13 (detalhado na Seo 10.1). Neste caso, a motivao se dna contribuio para materializao da arquitetura conceitual proposta emrelatrio tcnico [98], a qual prev a construo de um ambiente com suportea KM baseado em CoPs, que tem como requisito fundamental o tratamento demensagens textuais de forma a extrair conhecimento neles contido.Finalmente, a terceira motivao contribuir atravs de desenvolvi-mentode tcnicas de extrao de caractersticas que gere uma Matriz Atri-butox Valor (exemplos no Apndice C). Esta matriz deve dar suporte aps-processamento (como por exemplo: agrupamentos, indexao, visualiza-oetc.) de documentos textuais para o Portugus do Brasil.A lngua Portuguesa, originria do Latim, se origina da famlia daslnguas Indo-europias14, e falada atualmente em todos os continentes [33],[41]: Europa: Portugal continental, arquiplago dos Aores e a ilha da Ma-deira; frica: arquiplago de Cabo Verde, ilha de So Tom e Prncipe e, nocontinente, Angola, Guin-Bissau e Moambique; sia: Goa, Damo, Dio, Ceilo e Macau; Oceania: metade ocidental da ilha de Timor; Amrica: Brasil.Neste contexto, deve-se observar, que o Portugus a quinta lingua-gemem nmero de falantes nativos no mundo, totalizando, conforme pesquisarecente, em torno de 210 milhes de falantes nativos e outros 15 milhes depessoas que usa como segunda lngua. Dessa forma, em relao populaomundial fica atrs apenas dos seguintes idiomas: Mandarim, Hindu, Ingls eEspanhol [104], [85].Tais fatos justificam e motivam a orientao deste trabalho paraeste idioma. Alm disso, conforme observado durante a pesquisa em relaoao tema proposto, existe uma carncia substancial de tais tcnicas para oPortugus. A grande maioria dos trabalhos so orientados para o Ingls eFrancs (melhores detalhes na Seo 9) [35].13Refere-se a um projeto de pesquisa em andamento no INF/UFG.14Como exemplo pode-se citar: Snscrito, Armnio, Teutnico, Baltoeslvico, Celta, Grego eLatim. 23. 1.3 Hiptese 22Baseado nestas motivaes, pode-se propor uma hiptese de pesquisacientfica como se pode obervar a seguir.1.3 HipteseEsta dissertao pretende provar a seguinte hiptese no contexto, dalngua portuguesa: possvel obter classes gramaticais restritas15 de palavras sem o usode analizadores morfossintticos16.Esta hiptese deve se orientar pelos objetivos desta dissertao, comose pode ver a seguir.1.4 ObjetivoO objetivo geral desta dissertao :Desenvolver uma metodologia, baseada em conceitos, que aprimorequalitativamente e quantitativamente as tcnicas atuais de obteno de ve-torescaractersticos, para formao de uma Matriz Atributo x Valor dosconhecimentos descobertos em textos na lngua portuguesa para domnios deconhecimento especficos.Observao: pode-se visualizar exemplos deMatriz Atributo x Valorno Apndice C.1.4.1 Objetivos EspecficosOs objetivos especficos deste trabalho so: Verificar a exeqibilidade de algoritmos de Stemming como ferramentade obteno de classes gramaticais pela operao reversa de formao depalavras da lngua portuguesa do Brasil; Construir um framework17 direcionado para tratamento semntico demensagens textuais visando a aquisio de conhecimentos tcitos em15Refere-se as classes gramaticais: advrbio, substantivo e verbo.16Tambm refernciados como analizadores gramaticais, POS (Part-of-speech ou Parte doDiscurso) tagging. Refere-se marcao da classe gramatical (substantivo, verbo, adjetivoetc) de cada palavra.17No desenvolvimento do software, um framework ou arcabouo uma estrutura desuporte definida em que um outro projeto de software pode ser organizado e desenvolvido.Um framework pode incluir programas de suporte, bibliotecas de cdigo, linguagens descript e outros softwares para ajudar a desenvolver e juntar diferentes componentes de um 24. 1.4 Objetivo 23ambientes organizacionais estruturados em CoPs (Comunidades Virtu-aisde Prtica) e orientados para a Gesto do Conhecimento para a ln-guaportuguesa; Organizar os conhecimentos descobertos em fontes textuais de informa-esno estruturadas atravs de KR (Knowledge Representation ou Re-presentaodo Conhecimento) [39] utilizando-se de tcnicas ligadas lingstica e estatstica, de forma a possibilitar posterior processamen-tos,quais sejam: agrupamento, indexao, visualizao possibilitandoacesso facilitado a tais conhecimentos, objetivando a sua estruturaopara KM.Estes objetivos, possivelmente, implicaro em algumas restriesquanto ao framework em relao ao tipo de aplicao proposto como se podever a seguir.1.4.2 Restries Relacionadas aos ObjetivosOs objetivos geral e especficos sofrero algumas restries devidoaos tipos de aplicaes computacionais que se beneficiaro dos servios dedescoberta de conhecimento emtexto providos pelo framework proposto. Entreos tipos de aplicao, propostos inicialmente, pode-se citar: chat, forum e e-mail.As restries so as seguintes: Tempo: todas as aplicaes so de funcionamento em linha, onde, otempo de resposta ao usurio muito importante. Desta forma, asoperaes de pr-processamento devero ser suficientemente rpidaspara no comprometer a qualidade dos servios prestados. Da mesmaforma, as interaes com os usurios devem ser bastante trabalhadaspara no prejudicar o resultado final. Tamanho: o Corpus18, em geral, poder ser de pequeno tamanho. As-sim,a anlise estatstica fica limitada ao clculo da quantia de vezesprojeto de software. Frameworks so projetados com a inteno de facilitar o desenvolvimentode software, habilitando designers e programadores a gastarem tempo determinando asexigncias do software do que com detalhes tediosos de baixo nvel do sistema [102].18Segundo Sardinha [93], corpus um conjunto de dados lingsticos (pertencentes ao usooral ou escrito da lngua ou a ambos), sistematizados segundo determinados critrios, sufici-entementeextensos em amplitude e profundidade, de maneira que sejam representativos datotalidade do uso lingstico ou de algum de seus mbitos, dispostos de tal maneira que pos-samser processados por computador, com a finalidade de propiciar resultados vrios e teispara a descrio e anlise. 25. 1.5 Metodologia de Estudo e Pesquisa 24que os termos relevantes aparecem. Sendo este quantitativo um valormuito pequeno de palavras de um Corpus, que poder gerar dificuldadesquando da ocorrncia de termos denominados Hapax Legomena19 [93]. Lingstica: as operaes relacionadas anlise lingstica devem serlimitadas em relao ao custo computacinal. Por exemplo: os nveis deanlise morfolgica, sinttica, semntica e pragmtico discursivo podemser computacionalmente muito caros para este tipo de processamento.A busca pelos objetivos definidos (datalhados anteriormente na Seo1.4) iniciou-se atravs de uma metodologia de estudo aprentada na Seo 1.5,a seguir.1.5 Metodologia de Estudo e PesquisaA metodologia de estudo foi realizada em duas partes. Inicialmente,realizou-se uma pesquisa na rea de Web Semntica (foco inicial pretendido),que culminou na proposio de uma arquitetura conceitual para o ProjetoDWeb [98] (detalhado na Seo 10.1). Nesta etapa, observou-se o carater inter-disciplinarda Web Semntica, ligando a esta conceitos como inteligncia,interoperao e integrao. Neste ponto, foi realizada uma extensa pes-quisae leitura de bibliografia e documentos complementares, principalmente,nas sub-reas: Inteligncia Artificial: Agentes Racionais, Ontologias, Thesauros, Processamento de Lin-guagemNatural, Palavra, Significado, Contexto, Minerao deTexto, Minerao de Texto na Web, Extrao de Conhecimento, Re-cuperaode Informaes e Mecanismos de Busca de Informaes. Lingstica Computacional: Corpus Lingsticos, Tratamento de Ambigidades e Atos de Fala. Engenharia de Software: Engenharia de Software Orientada a Agentes. Banco de Dados:19Hapax Legomena refere-se a termos pouco freqntes [93]. 26. 1.5 Metodologia de Estudo e Pesquisa 25 Integrao de Fontes Heterogneas de Informaes, Biblioteca Di-gitale Indexao Semntica de Informaes. Cincia da Informao: Documento; Comunidades Virtuais de Prtica e Automao de Processos de Negcio.A segunda parte da pesquisa relaciona-se, especificamente, com os ob-jetivosdesta dissertao, o qual, se buscou delinear o escopo atravs de pes-quisasadicionais, especificamente: KDD (Knowledge Discovery in Databaseou Descoberta de Conhecimento em Banco de Dados), KDT (KnowledgeDiscovery from Text ou Descoberta de Conhecimento em Textos) (ambos de-talhadosna Seo 3), Lingstica Computacional (detalhada na Seo 4.2) eTerminologia (detalhada na Seo 8).Aps extensa pesquisa e leitura dessa bibliografia, obteve-se umanoo do estado da arte relativo ao tema proposto. Dessa forma, foramidentificados os mtodos, ferramentas e problemas ainda no solucionados.Assim, pressupe-se que um dos problemas encontrados est relacionado identificao e seleo de termos para representar documentos. Pode-secitar os seguintes exemplos: composio de termos ndice em sistemas IR,composio de descritores em processos de agrupamento, composio dens em processos de visualizao atravs de grafos etc. Desta forma, pode-seobter alguma forma de otimizar este processo, principalmente, na fase depr-processamento, que composta de diversos sub-processos, o que, podecomprometer substancialmente os custos cumputacionais.Visando a construo do Projeto DWeb (detalhado na Seo 10.1),buscou-se a implementao de tratamentos de mensagens textuais, de formaa lhes agregar o processo de descoberta de conhecimento em seus contedos,bem como possibilitar a sua organizao atravs da tcnica de CA (ClusteringAnalisys ou Anlise de Agrupamento), indexao, visualizao, etc. Dessa ma-neira,visando atender um dos requisitos do Projeto DWeb [98], que , Propi-ciara gesto de conhecimento orientada a comunidades virtuais deprtica [55]; (melhor detalhado na Seo 10.1.1), projetou-se um Prottipocom vistas a implementar e testar tais sub-processos.Finalmente, foram analisados os resultados da metodologia propostae o texto desta dissertao foi elaborado e organizado conforme a estruturaapresentada a seguir. 27. 1.6 Organizao da Dissertao 261.6 Organizao da DissertaoEste trabalho est estruturado em duas partes, onde:A Parte I trata da fundamentao terica, onde se faz uma revisobibliogrfica sobre descoberta de conhecimento, a qual a base para siste-masde extrao automtica de terminologias. Dessa forma, esta Parte estestruturada nos seguintes Captulos:Gesto do Conhecimento (2), Processo de Descoberta de Co-nhecimento(3), Pesquisas em rea Relacionadas (4), Preparaode Corpus Textuais (5), Mtodos de Minerao de Texto (6), Ps-processamentodo Texto (7), Extrao de Caractersticas (8) e Pesqui-sasRelacionadas Extrao de Caractersticas (9).A Parte II a partemais importante deste texto. Nela, so expostos osargumentos que iro sustentar e dar fora tese proposta e os resultados dapesquisa. Dessa forma, apresenta-se uma soluo tecnolgica adotada nestetexto e est estruturada nos seguintes captulos:Projeto DWeb (10), Prottipo Proposto (11), Resultados (12) eConcluses (13). 28. Parte IFundamentao Terica 29. CAPTULO 2Gesto do ConhecimentoNeste Captulo, apresentada uma abordagem introdutria sobreGesto do Conhecimento, focando especialmente em um conjunto bsico deconceitos sobre processos de descoberta de conhecimento em objetos textu-ais.O Captulo divide a exposio em cinco Sees, quais sejam, Viso Geralda Gesto do Conhecimento (2.1) Dado, Informao e Conhecimento(2.2), Uma Abordagem Epistemolgica (2.4), Teoria da Criao do Co-nhecimentoOrganizacional (2.6) e Comunidades Virtuais de Prtica -CoPs (2.7).2.1 Viso Geral da Gesto do ConhecimentoNas ltimas dcadas do sculo XX, ocorreu uma profunda transfor-maonos paradigmas econmicos mundiais. O velho preceito: terra, capitale trabalho cedeu lugar ao novo combustvel da economia - o conhecimento[49], [81], [38]. Neste contexto, as organizaes esto se conscientizando deque o potencial tecnolgico no s pode incrementar o trabalho do conhe-cimento,como o fato de que esse potencial s poder ser explorado se elasentenderem realmente como o conhecimento desenvolvido e compartilhado[38].O conhecimento comeou a ser desenvolvido pelo homem desde a pr-histria,o que confirmado a partir de achados arqueolgicos [44]. Porm,o seu compartilhamento s pde ser melhor evidenciado a partir do adventoda escrita, fenmeno revolucionrio para as sociedades orais, em 3000 a.C. naMesopotmia, pelo povo babilnico [60].Este compartilhamento foi potencializado, atravs de inovaes tec-nolgicasdos processos comunicativos, em especial, a partir da criao daimprensa por Gutenberg [49], que possibilitou a comunicao de um paramuitos e que vigorou at o sculo XX [54]. 30. 2.1 Viso Geral da Gesto do Conhecimento 29Atualmente, uma nova revoluo surge com a comunicao de mui-tospara muitos ou de todos para todos, viabilizada pelos avanos tecnol-gicosdas ltimas dcadas, em especial a Internet, em particular a Web1, pos-sibilitandouma nova dimenso de comunicao, bem como um novo mtodode compartilhamento de conhecimento, disponibilizado por diversas fontes dosaber humano. Como aprimoramento da Web atual, surge a Web Semntica(melhor detalhado na Seo 4.3), cuja proposta possibilitar o entendimentosemntico do ponto de vista do software, que apresenta-se como uma das maisrecentes contribuies para este processo [15].Apesar das evolues dos processos comunicativos, as organizaestm encontrado dificuldades na busca por processos que minimizem ou re-solvamos problemas relacionados a KM (melhor detalhado na Seo 1.1), deforma a se manterem competitivas frente s inmeras necessidades de inova-o[38].Segundo a APQC (acrnimo do termo em ingls, American Produc-tivityand Quality Center), citado em [71], o termo Gesto do Conhecimentopode ser definido da seguinte forma:Definio 1 (Gesto do Conhecimento) um processo sistemtico de co-nectarpessoas com pessoas, e pessoas com o conhecimento que elas precisampara agir eficazmente e criar novo conhecimento. As iniciativas de gesto doconhecimento visam melhorar o desempenho de uma organizao e das pes-soasque nela trabalham, por meio da identificao, captura, validaoe transferncia de conhecimento. O objetivo no simplesmente comparti-lharconhecimento, embora este seja um subproduto valioso do processo.Um dos aspectos fundamentais relacionado a KM nas organizaes o tratamento dos documentos e dos fluxos informacionais que, em essncia,transportam dados, informaes e conhecimentos. Segundo Tan [101], cercade 80% das informaes organizacionais trafegam no formato textual.Assim, o tratamento computacional, aplicado sobre objetos textuais nabusca por conhecimento em organizaes, cria novos horizontes com relao aestes, tais como: identificao, preservao, aquizio, utilizao, dissemina-o,em fim, possibilita a minimizao do problema da KM.Para que este objetivo organizacional acontea necessrio criar me-canismose processos que facilitem o manuseio do conhecimento, principal-mente,no que tange ao tratamento semntico dos objetos textuais que trans-1Refere-se a verso multimdia da Internet. 31. 2.2 Dado 30portam os conhecimentos organizacionais. Para tanto, se faz necessrio o en-tendimentoacerca do conhecimento, bem como a distino entre estes, dadose as informaes, como se pode observar na Seo 2.2 a seguir.2.2 DadoPara Valdemar Setzer, dado uma seqncia de smbolos quantifi-cveis.Nesta viso, um texto passa a ser um dado. Ele sugere ainda quea informao pode ser caracterizada mas no pode ser definida, declarandono ser possvel processar informao diretamente em um computador semque a mesma seja antes reduzida a dado. Finalmente, argumenta que co-nhecimento uma abstrao interior, pessoal, de alguma coisa que foi ex-perimentadapor algum. Nesta argumentao o conhecimento no pode serdescrito totalmente, mas, possvel conceitu-lo em termos de informao[95].Pode-se observar, em [95], que existe a prevalena da viso epistemo-lgicado realismo de Aristteles (melhor detalhada na Seo 2.4), na qualo conhecimento fruto exclusivo da experimentao.Wives [111] argumenta que, do ponto de vista computacional, dado tudo aquilo que fornecido como entrada para ser processado, enquanto,informao tudo que este processo retorna como sada. Dessa forma, nohaveria distino, em processos computacionais, para dado, informao ouconhecimento, onde cada um desses, assumindo o papel de entrada serdenominado dado.Uma definio mais formal para dado pode ser encontrada em Da-venport[38] e Abel [2], onde se tem, repectivamente:Definio 2 (Dado - Davenport) Dados so conjuntos de fatos distintos eobjetivos, relativos a eventos [38].Definio 3 (Dado - Abel) Representao simblica de um objeto ou infor-maodo domnio sem consideraes de contexto, significado ou aplicao [2].Nesta tlima definio se faz uso do termo domnio que definidopor Abel [2], como se segue:Definio 4 (Domnio - Abel) Qualquer conjunto relativamente circuns-critode atividades [2]. 32. 2.3 Informao 31Dessa maneira, o dado objetivo e carece de significado de paratransform-los em informaes, que mais til para o ser humano. Con-formeargumentado por Peter Drucker, citado em [38], informaes so dadosdotados de pouca relevncia. Dessa forma, se faz necessria a agregao devalores, atravs de mtodos especificados em Davenport [38], como se podever a seguir: Contextualizao: sabe-se qual a finalidade dos dados coletados. Categorizao: conhece-se as unidades de anlise ou componentesessenciais dos dados. Clculo: os dados podem ser analisados matematicamente ou estatsti-camente. Correo: os erros so eliminados dos dados. Condensao: os dados podem ser resumidos para uma forma maisconcisa.Assim, aps a aplicao de um ou mais desses mtodos pode-se obtera informao, que melhor detalhada na Seo 2.3 a seguir.2.3 InformaoNesta dissertao, umas das bases conceituais sobre informao aviso na qual se ancora os modelos mecanicistas (ou fsicos) de comunicao[97], oriundos da Teoria da Informao de Claude Shannon e outros [96] ecitado em [54], que define informao como:Definio 5 (Informao - Claude Shannon) O que acrescenta algo auma representao [...] Recebemos informao quando o que conhecemos semodifica. Informao aquilo que logicamente justifica alterao ou reforo deuma representao ou estado de coisas. As representaes podem ser explci-tascomo num mapa ou proposio, ou implcitas como no estado de atividadeorientada para um objetivo do receptor.Nesta abordagem, o conceito de informao visto como algo que umagente receptor recebe, atravs de uma mensagem, de um agente emissorem um processo de comunicao (melhor detalhado na Seo 2.3.1). E asua medida de representatividade ou importncia dada pela entropia22Refere-se importncia de um dado termo em um domnio de conhecimento especfico[66], oriundo da Teoria da Informao de Claude Shannon e outros [96]. 33. 2.3 Informao 32(melhor detalhada na Seo 5.2.4), que define a medida da importncia deuma palavra no contexto de um dado domnio [66].Em contraposio ao modelo de Claude Shannon, Dretske citado em[81], argumenta que uma teoria genuna da informao seria uma teoria so-breo contedo de mensagens, e no uma teoria sobre o modelo do qual essecontedo incorporado. Nesta dissertao, busca-se a descoberta por conheci-mentosemmensagens textuais emprocessos comunicativos, embora passveisde problemas3 (melhor detalhado na Seo 1.1), tais processos possibilitamuma forma de tratar estas mensagens em diversos nveis lingsticos e/ou es-tatsticos.A informao um fluxo de mensagens, enquanto o conhecimento criado por esse prprio fluxo de informao, ancorado nas crenas e compro-missosde seu detentor. Assim, o conhecimento est relacionado com a aohumana [81].O problema da comunicao entre os seres humanos trata do processode transferncia de informao entre estes e, dessa forma, tem uma forte re-laode como esta tramita em processos comunicacionais. A formalizao dosprocessos comunicativos, apresentados na Seo 2.3.1 e adaptado de Russelle Norvig [91], permite um melhor entendimento do conceito de informao,como se pode ver a seguir.2.3.1 Formalizao do Processo de ComunicaoDefinio 6 (Processo de Comunicao) Um evento de comunicao t-pico,em um contexto O, um conjunto de processos, onde um emissor E emiteuma mensagem M usando palavras W, passando o pensamento P e a informa-oI, de modo a informar o receptor R sobre algo.O contexto O delimita o escopo onde ocorre o evento de comunicaoem termos de conhecimento de mundo do emissor CME e receptor CMR e suasrespectivas ontogenias OE e OR. Os conhecimentos de mundo CME e CMRdefinem os conhecimentos de senso comum de cada participante do eventode comunicao. As ontogenias OE e OR, segundo Humberto Maturana [76],formam o conjunto de todas as modificaes que o ser vivo capaz de sofrere que depende de sua estrutura inicial e condiciona suas interaes com omeio. Em um dado evento de comunicao, o emissor E e o receptor R estoenvolvidos nos seguintes processos:3Refere-se a ocorrncia de fenmenos durante atos comunicativos, como por exemplo,ambigidade etc. 34. 2.3 Informao 33 Inteno: o emissor E decide que existe uma mensagem M a ser infor-madaao receptor R.2 Gerao: o emissor E codifica a mensagem M em uma forma (como porexemplo: vocal ou escrita) atravs de um canal C, de tal maneira que oreceptor R possa, no contexto O, deduzir o significado ou algo prximoao que deseja o emissor E. Neste processo de transmisso de mensagem,podem ocorrer rudos K provocados por este canal C. Sntese: o emissor E produz uma instncia W das palavras W. Percepo: o receptor R percebe a realizao fsica de W como We adecodifica como W2. Anlise: o receptor R deduz que W2 tem significados possveis S1, ..., Sn.O processo de anlise se divide em: interpretao (anlise) sinttica,interpretao semntica e interpretao pragmtica. Eliminao de Ambigidades: o receptor R deduz que o emissor Epretendia transmitir o significado Si (onde, i = 1, ..., n e o caso ideal Si = M). Dessa forma, a comunicao funciona por que o receptor Rfaz o trabalho de concluir qual interpretao aquela que o emissorE provavelmente pretendia transmitir. O termo provavelmente estrelacionado ao fato de que as ambigidades so inerentes ao processo decomunicao e que deve passar por algum processo de desambigizao. Incorporao: o receptor R decide acreditar em Si (ou no), bem comopercebe o pensamento P e a informao I do emissor E.2.3.2 Comunicao EfetivaA comunicao efetiva ocorre quando a mensagem recebida W2 peloreceptor R igual ou similar mensagem M enviada pelo emissor E em suaforma original e com os seus atributos: pensamento P e informao I.2.3.3 Interferncias no Processo de ComunicaoO processo de comunicao pode ser comprometido pela ocorrncia dedistores que alterem o contedo da mensagem M. Estas distores podemocorrer devido a vrios fatores. O primeiro fator a ocorrncia de rudosK proveniente do canal C, os quais devem sofrer tratamento no sentido deminimizar as distores finais da mensagem M. 35. 2.3 Informao 34Alm disso, os conhecimentos de mundo do emissor CME podem serdiferentes dos conhecimentos de mundo do receptor CMR, o que pode acar-retarerros de interpretao semntica (sentido) e interpretao pragmtica(contexto) durante o processo de comunicao. O ideal que conhecimentos demundo do emissor CME e do receptor CMR sejam iguais ou similares, refle-tindoum domnio de conhecimento nico ou seja, o mesmo contexto. Em ou-traspalavras, o evento de comunicao, idealmente, deve utilizar uma nicafonte de conhecimentos de senso comum.Um ltimo caso que pode ocorrer e, provavelmente o mais difcil de secontornar os seus efeitos, so as discrepncias naturais entre as ontogeniasOE e OR. Como a maioria dos processos de comunicao construdos peloser humano ocorrem atravs de componentes genricos, a individualizaodas experincias fica comprometida. Uma forma de solucionar, ou pelo menosminimizar o problema em eventos de comunicao, atravs de processos comcapacidades adaptativas e de individualizao por meio do uso de perfis dosparticipantes emissor E e receptor R para cada contexto O.A busca por conhecimento em processos comunicativos deve, neces-sariamente,envolver os diversos paradigmas existentes, quais sejam: mode-losfsicos, modelos psicolgicos, modelos sociolgicos, modelos antropolgicos,modelos semiolgicos e modelos sistmicos [97]. Assim, possvel aproveitaras melhores caractersticas (ou nmero de variveis que intervm nessa fun-ohumana) de cada um, objetivando a aquisio do conhecimento. Dessaforma, tenta-se agregar valor busca por informaes, em especial, as infor-maesrelevantes como se pode ver a seguir.2.3.4 Informao RelevanteApesar da alta disponibilidade de informaes naWeb atual, nem todainformao obtida em processos de busca so relevantes. Na busca por infor-maes,existem fatores que atuam para formar a relevncia das informa-esmediante necessidade de informao de um determinado usurio.Para Stefano Mizarro, citado em [111], informao relevante aquelaque o usurio precisa para satisfazer sua necessidade de informao emdeterminado momento. Ela deve estar no contexto e momento que o usurionecessita dela. Ou seja, o que relevante em um determinado momento podeno ser em outro.Dessa forma, pode-se definir a relevncia de uma informao como: 36. 2.4 Uma Abordagem Epistemolgica 35Definio 7 (Informao Relevante) Seja InfRev um conjunto de infor-maesrelevantes. Seja NI uma necessidade de informao definida por umafuno e seus argumentos U, representando um usurio, O o contexto de uso eT o momento (tempo) de ocorrncia da necessidade de informao, que dadapela frmula a seguir InfRev = NI(U,O, T).Um conjunto de informaes relevantes cria as condies para a ob-tenode conhecimentos. Uma abordagem sobre conhecimento, em uma visoepistemolgica, dada na Seo 2.4, a seguir.2.4 Uma Abordagem EpistemolgicaA epistemologia estuda os fundamentos filosficos do conhecimento.Neste contexto, Ikujiro Nonaka e Hirotaka Takeuchi [81], em relao a epis-temologiaocidental tradicional, enfatiza a natureza absoluta, esttica e nohumana do conhecimento. Esta epistemologia baseada, normalmente, emproposies da lgica formal (como por exemplo, lgica de predicados de pri-meiraordem). Os referidos autores, argumentam ainda, que consideram o co-nhecimentocomo um processo humano dinmico de justificar a crena pessoalcom relao verdade.Ainda segundo Ikujiro Nonaka e Hirotaka Takeuchi [81], a epistemo-logiaocidental pode ser particionada em duas correntes: racionalismo e em-pirismo.No racionalismo, a aquisio do conhecimento ser atravs de ra-ciocniodedutivo, da qual a Matemtica seu principal representante. Ela secaracteriza pela existncia de conhecimento a priori. As suas argumentaesse referem a conceitos, leis e teorias. Entre seus principais defesores, estoPlato (doutrina designada por idealismo) e Descartes.No empirismo, a aquisio do conhecimento ser atravs de induo,via experincias sensoriais. Seu principal representante a Cincia Expe-rimental.Suas argumentaes se referem s experincias sensoriais. Entreseus principais defensores esto Aristteles (doutrina que fundamenta o con-ceitode realismo.) e Locke [81]. Na viso empirista de Piaget, citado em [2],o conhecimento oriundo das experincias tiradas do meio por estmulos sen-sriossem uma organizao interna.No contexto desta dissertao, a qual direcionada para extraode conhecimentos em objetos textuais, quando se faz esta extrao baseadaem conhecimentos lingsticos, os fundamentos epistemolgicos tambm soparticionados nestas duas correntes, como se pode ver a seguir. 37. 2.5 Conhecimento 36Assim como em outras reas, a Lingstica tambm sofre influncia decorrentes epistemolgicas distintas. Para Johns citado em [93], a Lingsticade Corpus trabalha dentro de um quadro conceitual voltado para a abordagemempirista e visualiza a linguagem como um sistema probabilstico. Nestecontexto, a viso emprica exercida pela primazia em relao aos dados, emgeral, sob forma de corpus.Para McEnergy e outros, citado em [93], essa posio empirista se-gueum vertente contrria corrente racionalista da linguagem, ou seja, deuma maneira geral o conhecimento provm de princpios estabelecidos a pri-ori.Nesta corrente, o estudo lingstico fundamenta-se na introspeco comoforma de verificar modelos de funcionamento da linguagem e seu processa-mentocognitivo.Os dois principais representantes da corrente empirista e da correnteracionalista na rea de conhecimentos lingsticos so, respectivamente, Hal-liday(probabilidade) e Noam Chomsky (possibilidade) [93]. No contexto destadissertao, considera-se as duas vises filosficas complementares e busca-seprincpios de ambas na descoberta por conhecimentos em objetos textuais emorganizaes, como se pode ver na Seo 2.5 a seguir.2.5 ConhecimentoO conhecimento o objeto da Gesto do Conhecimento e da Engenha-riade Conhecimento que busca captur-lo, muito embora, a compreenso doseu significado seja ainda controverso [2].O conhecimento pode ser formalmente definido conforme se pode ob-servarem Davenport [38] e Fischler e Firschein, citados em [64], respectiva-mente:Definio 8 (Conhecimento - Davenport) Conhecimento uma misturafluida de experincia condensada, valores, informao contextual e insigh ex-perimentado,a qual proporciona uma estrutura para a avaliao e incorpo-raode novas experincias e informaes. Ele tem origem e aplicado namente dos conhecedores. Nas organizaes, ele costuma estar embutido no sem documentos ou repositrios, mas tambm em rotinas, processos, prticas enormas organizacionais.Definio 9 (Conhecimento - Fischler e Firschein) Conhecimento se re-fere informao armazenada ou a modelos utilizados por uma pessoa ou 38. 2.6 Teoria da Criao do Conhecimento Organizacional 37mquina para interpretar, prever e responder apropriadamente ao mundo ex-terior.Segundo Abel [2], o conhecimento possui um componente descritivo,ou esttico, ou seja, como o ser humano identifica e organiza os conceitos noseu modelo mental (melhor compreendido pelos pesquisadores de Cincia daCongnio e Inteligncia Artificial), e um componente dinmico, que descrevecomo as descries so aplicadas na soluo de problemas, ainda permanecepobremente explicado. Alm disso, pode-se classific-lo de acordo como ostipos de informaes com as quais constroem o corpo do conhecimento, quaissejam: conhecimento declarativo, procedural, semntico, episdico e meta-conhecimento.Nesta dissertao considera-se a teoria a seguir.2.6 Teoria da Criao do Conhecimento Orga-nizacionalA Teoria da Criao do Conhecimento Organizacional foi propostapor Ikujiro Nonaka e Hirotaka Takeuchi em [81]. Esta teoria central paraeste trabalho e, devido a isto, esta Seo inteiramente dedicada ao seuentendimento e na modelagem de uma estrutura conceitual para a Gestodo Conhecimento em organizaes.Segundo esta teoria, a viso filosfica do ocidente, que tratada peladiviso cartesiana sujeito (conhecedor) e objeto (conhecido), deu origem a umaviso de organizao baseada unicamente no conhecimento explcito4, cujanica forma de criar conhecimento atravs de processamento de informaesde fora para dentro das organizaes, no levando em considerao a criaode conhecimento organizacional de dentro para fora, que pode explicar ainovao, e possibilita a redefinio de problemas e solues recriando omeio.Para explicar a inovao, esta teoria, define sua prpria epistemolo-gia,a qual centrada na distino entre conhecimento tcito e explcito. Damesma forma, para explicar o conhecimento organizacional, em oposio aoconhecimento individual, esta teoria cria a sua prpria ontologia, preocupadacom os nveis de criao de conhecimento (individual, grupal, organizaci-onale interorganizacional).4Refere-se ao conhecimento registrado em algum formato. Pode-se citar como exemplo,livros, artigos etc. 39. 2.6 Teoria da Criao do Conhecimento Organizacional 38Michael Polanyi - o primeiro filsofo a articular o conceito de conheci-mentotcito versus explcito [38] - citado em [81], distingue a categorizao doconhecimento explcito e tcito. Assim, o conhecimento explcito sistemati-zado,normalmente, em termos de palavras e nmeros, podendo ser facilmentecomunicado e compartilhado sob a forma de dados brutos, frmulas cientficas,procedimentos ou princpios codificados.Ainda segundo Polanyi, o conhecimento tcito altamente pessoal edifcil de formalizar e articular, o que dificulta o seu compartilhamento. Pode-secitar: insights5 e palpites subjetivos. O conhecimento tcito possui um ele-mentotcnico e um elemento cognitivo. O elemento tcnico, abrange as habi-lidadescapturadas como know-how. O elemento cognitivo, centra-se nos mo-delosmentais que so, modelos de mundo que os seres humanos estabeleceme manipulam atravs de analogias. So profundamente vinculados s aese experincias (modelos mentais, esquemas, crenas e percepes) [81]. Estetipo de conhecimento modela a forma como se percebe o mundo.Na dimenso ontolgica desta teoria, o conhecimento s criado peloindivduo, porm, ampliado na organizao atravs de processos interativosque vai do nvel indivdual, grupal, organizacional at o interorganizacional.Na dimenso epistemolgica desta teoria, os conhecimentos tcitose explcitos no so entidades separadas. O pressuposto desta teoria queo conhecimento humano criado e expandido desta interao social entreconhecimento tcito e explcito e particionado em quatro tipos de converso: Socializao: o processo de compartilhamento de experincias atra-vsda converso de conhecimento tcito em conhecimento tcito, comopor exemplo, na interao mestre-aprendiz por meio da observao, imi-taoe prtica. Esta converso caracteriza-se pela dificuldade de umindivduo se projetar no raciocnio de outro. Externalizao: um processo de articulao do conhecimento tcitoem conhecimento (conceito) explcito. Este processo permite a criaode conhecimento explicitado atravs de metforas, analogias, conceitos,hipteses e modelos. Para Emig, citado em [81], a escrita uma forma deconverter o conhecimento tcito em conhecimento explcito e, no contextodesta dissertao, um ponto chave a ser tratado atravs de umaferramenta de EAT - Extrao Automtica de Terminologia (melhordetalhado no Captulo 11) na descoberta de conhecimentos.5Refere-se ao know-how desenvolvido pelas pessoas. 40. 2.7 Comunidades Virtuais de Prtica - CoPs 39 Combinao: um processo de sistematizao de conceitos em um sis-temade conhecimento, envolvendo conjuntos diferentes de conhecimen-tos.Os indivduos combinam e trocam conhecimentos atravs de do-cumentos,reunies, conversas telefnicas e atravs de processos com-putacionais.Neste processo, em especial os computacionais, tambm possvel o uso de ferramenta EAT, principalmente em instrumentos decomunicao escrita de forma automatizada, durante o registro de in-formaestextuais armazenadas em banco de dados, em ferramentasde comunicao eletrnica tradicionais (tais como, e-mail, chat, forum,brainstorming eletrnico, etc.). Internalizao: o processo de incorporao do conhecimento ex-plcitoem conhecimento tcito normalmente estimulado por algumaforma de treinamento. Esta internalizao pode se dar atravs de mo-delosmentais ou know-how compartilhado, experincia atravs da so-cializao,externalizao, combinao. Neste caso uma ferramenta deEAT ajuda, de forma indireta, quando da construo de bases de conhe-cimentoexplcito.Estes quatro tipos de converso de conhecimento: socializao (co-nhecimentocompartilhado), externalizao (conhecimento conceitual), combi-nao(conhecimento sistmico) e internalizao (conhecimento operacional)atravs do tempo formam a denominada Espiral do Conhecimento. Nela,o conhecimento tcito constitui a base do conhecimento organizacional. Oconhecimento tcito, atravs desses quatro modos (epistemolgicamente6),nos diversos nveis (ontologicamente7), onde se parte, em uma Espiral doConhecimento, no nvel de indivduo, sees, departamentos, organizaescom o intuito de criar conhecimento organizacional. Neste caso, pode-se mode-lartais agrupamentos atravs de Comunidades Virtuais de Prtica, ou seja,CoPs, como se pode ver na Seo 2.7 a seguir.2.7 Comunidades Virtuais de Prtica - CoPsO termo CoPs (Communities of Practice ou Comunidades de Prtica)foi cunhado em 1991 por Jean Lave e Etienne Wenger durante a explorao6Refere-se aos quatro modos de converso do conhecimento: Socializao, Externalizao,Combinao e Internalizao.7Refere-se aos nveis individual, grupo, organizao e interorganizaes. 41. 2.7 Comunidades Virtuais de Prtica - CoPs 40de aprendizado situado, que o aprendizado atravs de prticas de trabalho[65].Segundo Teixeira [55], o advento da Internet como meio de comuni-caogil, flexvel e de baixo custo, foi o fato propulsor da adoo, em largaescala, das comunidades virtuais. Destaca ainda, que estes grupos foram or-ganizadosutilizando-se das tecnologias de e-mail, chats e websites para secomunicarem, onde, profissionais de reas especficas passaram a trocar in-formaesrelevantes sobre o seu dia-a-dia, ou seja, as suas melhores pr-ticas(tais como, experincias, histrias, ferramentas etc.) e as formas comoestruturam seus processos, alm de compartilhar solues para seus proble-masmais comuns [43].Emuma CoP, os conceitos (como por exemplo, pessoas, artefatos, even-tos,etc.) e propriedades (como por exemplo, estilo, material etc.) com interes-sescomuns (como por exemplo, comrcio, educao, cultura, medicina, compu-taoetc.) modelam os conhecimentos de uma comunicadade. Em ambientesorganizacionais, pode ser visualizado como: indivduo, grupo, organizaes einterorganizaes.Estas comunidades tm em comum alguma identificao e conheci-mentosformalizados (como por exemplo, ontologias etc.) que so utilizadospara criar recursos de informao (ex: documentos, dados etc.) [22], [72], [16].Tais informaes explcitas e as ontologias modelam os conhecimentos ex-plcitosdestas comunidades. A interao entre os conhecimentos tcitose conhecimentos explcitos (conforme definido na Seo 2.6 anteriormente)criam a possibilidade de Gesto de Conhecimento organizacional.Para Etienne Wenger, citado em [65], o desenvolvimento e dissemi-naode comunidades habilitadas para resolver problemas dependente deum compartilhamento consistente de repertrio de rotinas, gestos, artefatos,vocabalurrio e entendimento de comunidade.Nesta dissertao, o vocabulrio que participa da definio de umaCoP [98], representado pelo vocabulrio controlado, materializado atravsde ontologias escritas em OWL (melhor detalhado na Seo 4.3). Este con-juntoestruturado de conhecimento representa a linguagem e um vocabulriocontrolado sobre o qual o processo de descoberta de conhecimento ocorre emobjetos textuais na busca por compreend-los.Para Edgar Morin [80], compreende-se uma frase a partir do sentidodas palavras, ao mesmo tempo que o sentido das palavras se cristaliza a partirdo que emerge da frase. Alm disso, recorre-se ao contexto para esclarecero sentido do texto atravs de uma dialgica recorrente: palavras, texto e 42. 2.7 Comunidades Virtuais de Prtica - CoPs 41contexto.Ainda segundo Edgar Morin, a computao cerebral se desenvolveem um processo de anlise (decomposio, isolamento e distino), con-vergepara a sntese (reunio, hierarquizao, centralizao e globalizao),multiplicando-se pela linguagem [80].Para Davenport [38], um aspecto importante para a transferncia deconhecimento a utilizao de uma linguagem comum entre os participantes(denotando aqui os jarges tcnicos ou termos tcnicos especializados - melhordetalhado na Seo 8.2).Davenport argumenta ainda que uma das melhores formas de trans-ferirconhecimento tcito atravs de narrativas (em linguagem natural,segundo Chen [20]), normalmente, expressas em formato textual escrito de-nominadahistria de guerra, disponibilizada para anlise e compreeno dosconhecimentos registrados [38].Assim, nesta dissertao procura-se pela descoberta de conhecimentoem objetos textuais8 com a finalidade de subsidiar a Gesto do Conhecimentoem ambientes organizacionais partindo-se de princpios apresentados nesteCaptulo. No Captulo 3, a seguir, apresentam-se conceitos e tcnicas aplic-veisa processos de descoberta de conhecimento.8Instrumentos de comunicao escrita, quais sejam: memorandos, ofcios, polticas empre-sariais,normas, instrues de procedimentos, pareceres, resolues, bem como, ferramentasde comunicao eletrnicas tradicionais, quais sejam: e-mail, chat, frum, brainstorming ele-trnico,banco de idias, etc. 43. CAPTULO 3Processo de Descoberta deConhecimentoNeste Captulo, apresentada uma reviso bibliogrfica acerca depesquisas relacionadas a processos de descoberta de conhecimento em meioscomputacionais. A exposio est dividida em duas Sees, quais sejam,Descoberta de Conhecimento em Banco de Dados (3.1) e Descobertade Conhecimento em Textos (3.2).3.1 Descoberta de Conhecimento em Banco deDadosA extrao de conhecimento escondido em registros de DB (Data-Base ou Banco de Dados) um problema comum em praticamente toda reade cincia, tanto em Engenharia quanto em Negcios, e objeto de estudocentral de disciplinas clssicas, como por exemplo a Estatstica e o Aprendi-zadode Mquina. Uma grande quantidade de mtodos de minerao tm sidodesenvolvidos para resolver este tipo de problema [3].Segundo Wives [112], a descoberta de conhecimento, na rea de Ci-nciada Computao, surgiu na Inteligncia Artificial, a qual, entre outrosobjetivos, se preocupava com a aquisio e armazenamento de conhecimento.Com o advento dos DBMS (Data Base Management System ou Siste-masde Gerenciamento de Banco de Dados) [70], os pesquisadores de Sistemasde Informao, ou mais especificamente os pesquisadores em Banco de Dados,passaram a investigar novas formas de tratar informaes armazenadas embancos de dados. Assim, investiga-se maneiras de se obter informaes impl-citascom base em informaes explcitas, carecendo porm, de novos proces-sospara a sua obteno e anlise [111]. 44. 3.1 Descoberta de Conhecimento em Banco de Dados 43Uma das tcnicas oriundas das pesquisas em Bancos de Dados, nabusca por informaes implcitas, deu origem a novos processos e ferramentasque realizavam anlises sobre os dados armazenados neste tipo de estruturade dados. Dentre estas ferramentas, pode-se citar, as ferramentas OLAP(Online Analytical Processing ou Processamento Analtico On-line)1 e osconceitos de DW (Data Werehouses ou Armazns de Dados)2 [112].No topo desse processo de evoluo tecnolgica, em relao rea deBanco de Dados, se encontra o desenvolvimento da vertente referenciada comoKDD (Knowledge Discovery from Database ou Descoberta de Conhecimentoem Banco de Dados). O termo KDD, de acordo com Fayyad e outros [53], podeser definido como:Definio 10 (KDD - Fayyad) KDD ou Descoberta de Conhecimento emBanco de Dados o processo de identificao de padres vlidos, novos, po-tencialmenteteis e compreensveis embutidos nos dados.Para que o processo de KDD possa ser iniciado, faz-se necessria aanlise de objetos de Banco de Dados na busca por estes padres.3.1.1 Reconhecimento de PadresSegundo Simon Haykin [64], os seres humanos so bons reconhecedo-resde padres. Tal processo ocorre, na maioria das vezes, de forma impercep-tvele natural, como se pode observar nos cenrios exemplificados a seguir: Reconhecer um rosto familiar aps envelhecimento; Identificar uma pessoa pela voz em uma ligao telefnica ruim; Distinguir o estado de um alimento pelo cheiro que exala.O reconhecimento de padres formalmente definido como o processopelo qual um padro/sinal recebido atribudo a uma classe dentre um1 uma abordagem tecnolgica para gerar respostas rpidas a consultas analticas de na-turezatipicamente dimensional. A tecnologia OLAP parte de uma categoria mais abran-gente,BI, que tambm inclui DW ou Data Warehouse, que por sua vez inclui ETC (ExtraoTransformao e Carga)) e Data Mining. Aplicaes tpicas de OLAP so relatrios de neg-cios,marketing, relatrios gerenciais, Business Performance Management (BPM), budgetinge previso, relatrios financeiros e reas similares [63].2O Data Warehouse possibilita a anlise de grandes volumes de dados, coletados dossistemas transacionais (OLTP). So as chamadas sries histricas que possibilitam umamelhor anlise de eventos passados, oferecendo suporte s tomadas de decises presentese a previso de eventos futuros [63]. 45. 3.1 Descoberta de Conhecimento em Banco de Dados 44nmero predeterminado de classes (categorias) [64]. Como se pode observarnos exemplos anteriores, onde, o rosto, a voz e o cheiro so atribudos a classes(categorias) especficas que permitiram reconhecer a que padres pertenciam,respectivamente, as classes: rosto familiar, uma pessoa e o estado (qualidade)do alimento.Apesar da aparente naturalidade e simplicidade com que o ser hu-manoreconhece padres, a sua implementao emmeios computacionais poderequerer processos bastante complexos. Uma forma de realizar tais trata-mentoscomputacionais atravs da utilizao de tcnicas de ARN (ArtificialNeural Network ou Redes Neurais Artificiais)3.Uma ARN reconhece padres passando inicialmente por uma etapade treinamento. Nesta etapa, um conjunto de padres de entrada apresen-tadorepetidamente classe (categoria) qual cada padro pertence. Em umasegunda etapa, apresenta-se a ARN novos padres no vistos anteriormente,mas que pertencem s categorias j apresentadas para que a ARN os classifi-quecom base em mtodos estatsticos.O reconhecimento de padres somente representa conhecimento casoseja facilmente compreendido pelo ser humano, til e novo.Em sistemas IR, so utilizados os seguintes tipos de padres lings-ticos:palavra, prefixos, sufixos, substrings, expresses regulares e padresextendidos [5]. No contexto desta dissertao, um padro um conjunto decaractersticas morfolgicas que ocorre em um segmento de texto.O reconhecimento de padres utilizado em processos de mineraode dados, conforme se pode ver a seguir.3.1.2 Tipos de Padres DescobertosSegundo Han[63], as tarefas (funcionalidades) de DM (Data Miningou Minerao de Dados) podem ser classificadas em: descritivas ou prediti-vas.As tarefas (funcionalidades) de minerao descritivas caracteriza as pro-priedadesgerais de um DB (DataBase ou Banco de Dados). As tarefas (funci-onalidades)de minerao preditiva executa inferncias sobre os dados atuais(correntes) de maneira a criar predies. As funcionalidades de DM e tipos depadres so descritas a seguir: Descrio Classe/Conceito: estas descries podem ser derivadas de:3Simon Haykin define uma rede neural um processador paralelo e distribudo consti-tudode unidades de processamento simples, que tm a propenso natural para armazenarconhecimento experimental e torn-lo disponvel para uso [64]. 46. 3.1 Descoberta de Conhecimento em Banco de Dados 45 caracterizao de dados, atravs de sumarizao originados de clas-sesalvo; discriminao de classes alvo com um conjunto de classes compara-tivas; caracterizao e descriminao de dados. Anlise de Associao: a descoberta de regras de associao mos-trandocondies atributo-valor que freqentemente esto juntas emgrupos de dados; Predio e Classificao: o processo de encontrar um conjunto demodelos (ou funes) que descreve ou distingue classes ou conceitos, como propsito de habilitar o uso de modelos para previso de classes deobjetos cujo rtulo da classe desconhecido; Anlise de Agrupamentos: um mtodo capaz de analisar uma sriede objetos com o objetivo de identificar correlaes (semelhanas) ecaractersticas comuns (similaridades) entre eles [111];A descoberta de conhecimento utiliza-se da captura de padres e podeser aplicada a diversos tipos de fontes de dados, como se pode ver a seguir.3.1.3 Tipos de Fontes de DadosSegundo Jiawei Han, as tcnicas de DM podem ser aplicadas a qual-quertipo de repositrio de informao, sendo que, deve-se respeitar as dife-rentesparticularidades de cada tipo de repositrios de informaes [63], assimtem-se: DBMS (Database Management System ou Sistema de Gerenciamento deBanco de Dados); DW (Data Warehouses ou Armazns de Dados); TsDB (Transactional Database ou Banco de Dados Transacional); OODB (Object-Oriented Databases ou Banco de Dados Orientados Objetos); ORDB (Object-Relational Databases ou Banco de Dados Objeto Relacio-nal); SDB (Spatial Databases ou Banco de Dados Espacial); TDB (Temporal Databases ou Banco de Dados Temporais); 47. 3.2 Descoberta de Conhecimento em Texto 46 TSDB (Time-Series Databases ou Banco de Dados de Sries Temporais); TxDB (Text Databases ou Banco de Dados Textuais); MDB (Multimedia Databases ou Banco de Dados Multimdia); LDB (Lagacy Databases ou Banco de Dados Legado); WWW (World Wide Web ou Teia de Amplitude Mundial);Como se pode observar possvel aplicar tcnicas de KDD a diversostipos de dados, entre os quais, os dados textuais.3.2 Descoberta de Conhecimento em TextoPara Wives, com o advento e popularizao da Internet e seus servi-os,quais sejam: e-mails, chats, news-groups, pginas Web, iniciou-se umagerao de um grande contingente de informaes no estruturadas e semi-estruturadas.A existncia de tais corpora possibilitou o surgimento de umanova rea de descoberta de conhecimento intitulada: KDT (Knowledge Disco-veryfrom Texts ou Descoberta de Conhecimento em Textos) [111].Neste contexto, a descoberta de conhecimento apresenta-se como umaevoluo da rea de Recuperao de Informaes, a qual teve como conseqn-ciaa rea de Descoberta de Conhecimento em Textos. Dessa maneira, comestas tecnologias no se procura por informaes nos textos, e sim, por conhe-cimentosteis e novos. Ainda segundo Wives e outros [112], pode-se destacaras seguintes formas de descobertas de conhecimento em texto: Descoberta tradicional aps extrao: nesta abordagem, os dados soextrados dos textos e formatados em bases de dados estruturadas com oauxlio de tcnicas de Extrao de Informaes; Descoberta por extrao de passagens: uma tcnica que se situa entrea Recuperao de Informaes por Passagem e Extrao de Informaes; Descoberta por anlise lingstica: nesta abordagem as regras e infor-maespodem ser descobertas atravs de anlises lingsticas em nvellxico, morfolgico, sinttico e semntico; Descoberta por anlise de contedo: nesta abordagem investiga-se ostextos e apresenta-se ao usurio informaes sobre o seu contedo; Descoberta por sumarizao: nesta abordagem utiliza-se tcnicaslingsticas e extrao por passagem para criar sumrios; 48. 3.2 Descoberta de Conhecimento em Texto 47 Descoberta por associao entre passagens: este tipo de tcnica buscaencontrar automaticamente conhecimento e informaes relacionadasno mesmo texto ou em textos diferentes; Descoberta por lista de conceitos-chave: esta abordagem se baseia naidia de que o significado de um texto no determinado por sua leituralinear, mas sim, por uma anlise do conjunto de elementos lxicos maisimportantes (palavras-chave); Descoberta de estruturas de textos: esta abordagem se baseia na deter-minaoda estrutura do texto para entender o seu significado; Descoberta por clustering (agrupamento ou aglomerados): procura-seseparar automaticamente elementos em classes que so identificadasdurante o processo (no h classes pr-definidas); Descoberta por descrio de classes de textos: esta abordagem baseia-seno fato de se ter uma classe de documentos textuais (j agrupados) euma categoria associada a esta classe, procura-se encontrar as principaiscaractersticas destas classes, as quais, possam identific-las de formaque os usurios possam disting-las das demais classes; Descoberta por recuperao de informaes: nesta abordagem os siste-masIR, em sua operao tradicional, contribuem para que os usuriosaprendam novos conhecimentos; Descoberta por associao entre textos: nesta abordagem procura-serelacionar as caractersticas presentes em vrios textos diferentes; Descoberta por associao entre caractersticas: nesta abordagemprocura-se tipos de informaes presentes em textos aplicando-se tcni-casde correlao estatstica (KDD); Descoberta por hipertextos: nesta abordagem, a descoberta explorat-riae experimental; Descoberta por manipulao de formalismos: nesta abordagem, utiliza-sede manipulao simblica para inferir novos conhecimentos; Descoberta por combinao de representaes: nesta abordagem os tex-tosantes de serem combinados, passam por um processo de representa-ointerna (dois textos); Descoberta por comparao de modelos mentais: nesta abordagem,procura-se representar documentos textuais e o estado de conhecimentodo usurio (modelo mental) atravs de um formalismo padro, para, logoem seguida compar-los. 49. 3.2 Descoberta de Conhecimento em Texto 48A descoberta de conhecimentos em objetos textuais pode ser feitaatravs do uso de conhecimentos lingsticos, estatsticos ou ambos (melhordetalhado na Seo 9). O Aprendizado estatstico se insere num contexto cujalinha de pesquisa chamada de emprica (melhor detalhado na Seo 2.4),uma vez que se baseia em exemplos j prontos e se aprende como lidar comaqueles ainda no vistos [17].Para Loh e outros [74], a tcnica de descoberta de conhecimento importante para quem trabalha com um grande volume de informaes,ajudando pessoas a descobrir conhecimento til e novo, geralmente implcito,minimizando a sobrecarga de informaes.Uma das formas de se descobrir conhecimento baseando-se emconceitos (melhor detalhado na Seo 8), os quais evitam o problema dovocabulrio, permitindo analisar dependncias entre fenmenos do mundoreal e no entre caractersticas do modelo de representao adotado. Osconceitos so extrados dos textos atravs de algum mtodo de classificaoque analisa estatisticamente as palavras presentes nos textos, feito de formaautomtica desde que se disponha de alguma ontologia previamente definida[74].O problema do vocabulrio, segundo Hsinchun Chen [20], origina-sedo fato de que as pessoas, em ambientes CSCW (Computer-SuportedCooperative Work ou Trabalho Cooperativo Suportado por Computador), ten-dema usar diferentes termos para descrever um conceito similar dependendode seus conhecimentos anteriores, treinamentos e experincias. Tais tendn-cias,esto relacionadas a problemas de HCI (Human-Computer Interactionsou Interao Humana por Computador). Esta pluraridade terminolgica podelevar a problemas de intercmbio de idias, o que dificulta o compartilha-mentoe comunicao de informaes.Ainda segundo Chen, necessria a criao de metodologias de inte-raoorientadas ao vocabulrio. Ele argumenta a existncias de estratgias,tais como, unlimited aliasing, proposto por Furnas e outros e dicionrio dedomnio especfico proposto por Bates e citados em [20]. Assim, ele propeuma soluo para o problema do vocabulrio4, uma abordagem baseada emconceitos. Nesta abordagem, ele apresenta o seguinte: Identificao do Vocabulrio: o mais popular meio de comunicao atravs da linguagem natural. Assim, em colaboraes em linha pode-seaproveitar as sadas textuais para revelar o vocabulrio utilizado pelos4Refere-se s diferenas de vocabulrio em comunicaes sncronas e assncronas. 50. 3.2 Descoberta de Conhecimento em Texto 49diferentesmembros, bemcomo criar e compartilhar o espao de conceitoscom todos os membros dos grupos. Para tanto, utiliza-se de tcnicasde Inteligncia Artificial, especificamente, processamento em linguagemnatural em um domnio de conhecimento especfico. Ligao de Similaridades do Vocabulrio: indexao automtica detextos baseada em conceito proveniente da tcnica proposta por Salton,conhecida como VSM (Vector Space Model ou Modelo de Espao Veto-rial.).Nesta tcnica, identifica-se, tipicamente, a importncia de termosatravs de clculo de tf (term frequency ou freqncia de termo no docu-mento),df (document frequency ou freqncia do termo no conjunto dedocumentos.) e idf (inverse document frequency ou freqncia inversa dotermo no conjunto de documentos, ou seja, os termos menos freqentesnos documentos so os mais importantes.). Esta abordagem baseia-se naanlise de agrupamentos e uma exteno de SVM (melhor detalhadona Seo 6.1.5) para a gerao do espao de conceito. Os pesos estatsti-cosentre termos indica a sua forte relevncia ou associao. Atravessar o espao do conceito: quando um membro encontrarum problema de vocabulrio durante a colaborao, ele deve consultar,atravs de navegadores, o espao de conceito e identificar o vocabulriorelevante para uso.Dentre estas formas de descoberta de conhecimento, as tcnicas deKDT, conhecimentos de Lingstica (melhor detalhado na Seo 4.2) e Termi-nologia(melhor detalhado na Seo 8), estruturadas de acordo com tcnicasdescritas no Captulo (5), sero o objeto desta dissertao.De uma forma geral, as definies simplificadas apresentadas nestaSeo tm por finalidade disponibilizar um equacionamento do problema dacompreenso do conhecimento, e desta forma, subsidiar e fornecer direespara o processamento do conhecimento atravs de mecanismos artificiais.No objetivo desta dissertao considerar todas as facetas de como os sereshumanos percebem e organizam internamente a realidade e as utilizam nabusca de soluo de problemas.Para haver um melhor entendimento dos conceitos descritos o Cap-tulo4, a seguir so descritas algumas pesquisas desenvolvidas ou em desen-volvimentoem reas relacionadas. 51. CAPTULO 4Pesquisas em rea RelacionadasEste Captulo trata de um grupo de reas (ou disciplinas) de conheci-mentoque tem uma forte relao com a descoberta de conhecimento em texto,seja provendo ou recebendo subsdios tecnolgicos (conhecimento). Inicia-seuma abordagem pela rea de Recuperao de Informaes (4.1), em se-guida,so tambm abordadas a rea de Lingstica Computacional (4.2)com as suas subreas: Processamento de Linguagem Natural (4.2.1) eLingstica de Corpus (4.2.2). Finalmente, referenciada uma das maisrecentes reas relacionada a este contexto, que , a Web Semntica (4.3)como se pode ver nas Sees a seguir.4.1 Recuperao de InformaesO termo IR (Information Retrieval ou Recuperao de Informao)foi criado por Calvin Moore em meados de 1948 e 1950, sendo um campo depesquisa interdisciplinar, baseado em muitas reas. Por sua abrangncia eleno muito bem compreendido, sendo, freqentemente, abordado sob umaou outra perspectiva. Ele est posicionado na juno de muitos campos jestabelecidos, tais como: Psicologia Cognitiva, Arquitetura da Informao,Projeto da Informao, Comportamento da Informao Humana, Lingstica,Semitica, Cincia da Informao, Cincia da Computao, Biblioteconomia eEstatstica [5].A rea de IR refere-se classe de sistemas automticos de recupera-ode informao que permite encontrar documentos relevantes em virtudede uma necessidade de informao de um usurio. Em outras palavras, area da Cincia da Computao que preocupa com a seleo, num universode documentos disponveis, do conjunto de documentos relevantes para umanecessidade especfica de informao do usurio. Nos ltimos anos, a comuni-dadede pesquisadores est confrontada com um novo e estimulante desafio: 52. 4.1 Recuperao de Informaes 51a concepo e concretizao de solues para um espao de informao gigan-tesco,dinmico e heterogneo como a Internet.Baeza-Yates [5] define formalmente modelos IR focando a abordagemquantitativa, como:Definio 11 (Modelos IR) Ummodelo de recuperao de informao umaqudrupla [D,Q,F,R(qi, dj)] onde:1. D um conjunto composto de vises lgicas (ou representaes) para odocumento na coleo;2. Q um conjunto composto de vises lgicas (ou representaes) para asnecessidades de informaes. Tais representaes so conhecidas comoconsultas;3. F um arcabouo para modelar representaes de documentos, pergun-tas,e seus relacionamentos;4. R(qi, dj) uma funo de ranking que associa um nmero real com umaconsulta qi 2 Q e uma representao do documento di 2 D. Tal rankingdefine uma ordenao entre os documentos no que diz respeito consultaqi.Os modelos IR categorizam-se, na tica das tarefas executadas pe-losusurios, em trs classes, quais sejam: Pesquisa, Filtragem e Navegao.Dessa forma, a tarefa de Pesquisa interativa mediante a necessidade deinformao, que espordica e baseada em uma consulta. A Filtragem ba-seadaem configuraes onde as necessidades de informaes so de carterpermanente e baseadas em perfis de usurios. Finalmente, a Navegao interativa onde a necessidade de informao do tipo indefinida e a formula-o baseada no percurso [5]. Tais sistemas seguem modelos definidos para asua construo, como se pode ver a seguir.4.1.1 Modelos de IROs modelos de IR podem ser categorizados em quantitativos e din-micos.Na taxonomia dos modelos quantitativos tem-se: os modelos clssicos,compostos pelos modelos booleanos, vetoriais e probabilsticos. No modelo bo-oleano,os documentos e as consultas so representados por conjuntos de ter-mosndices baseados na teoria de conjuntos. No modelo vetorial, documentose consultas so representados como vetores em um espao t-dimensional em 53. 4.1 Recuperao de Informaes 52um modelo algbrico. No modelo probabilstico, os documentos e as consultasso representados com base na teoria de probabilidade.No decorrer do tempo, modelos alternativos aos modelos clssicos fo-rampropostos. Foram propostas a teoria dos conjuntos difusos e o modelobooleano extendido. Foram propostas as abordagens algbricas: vetor gene-ralizado,indexao semntica latente e as redes neurais. Finalmente, forampropostas as abordagens probabilsticas: redes de inferncia e redes de opi-nio.Entre os modelos IR categorizados como dinmicos pode-se citar:os sistema especialistas, as redes neurais e os algoritmos genticos. Umadas principais utilidades de tais modelos a possibilidade de adaptao deinteresses, ou seja, esta linha segue a abordagem orientada a usurios [54].Independente do modelo tecnolgico adotado necessrio realizarmedies ou avaliaes de resultados conforme se pode observar a seguir.4.1.2 Avaliao de Sistema IRExiste um conjunto substancial de mtricas para a aferir a eficcia1 eeficincia2 de sistema IR. Cleverdon citado em [42] apresentou seis quantida-desmensurveis para avaliar a competncia de sistemas IR:1. A importncia do corpus (coleo), ou seja, a relevncia dos documentosde interesse para o conjunto de todos os usurios;2. A forma de apresentao de resultados;3. O esforo e tempo consumido pelos usurios para obteno de respostasdesejadas (sobrecarga de informao) [111];4. O tempo de atraso (diferena entre o momento da solicitao e daresposta);5. A cobertura (proporo de material devolvido com relao ao relevanteexistente);6. A preciso3 (a proporo de material devolvido que relevante);1Ser eficaz significa devolver respostas corretas.2Ser eficiente significa responder com rapidez de acordo com os recursos computacionaisenvolvidos.3Em engenharia, cincia, indstria e estatstica, preciso o grau de variao de resulta-dosde uma medio. No o mesmo que exatido que se refere a conformidade com o valorreal. 54. 4.2 Lingstica Computacional 53Assim, os itens 1,2 e 3 se preocupam com a utilidade e facilidade deuso; o item 4 se preocupa com a eficincia e os itens 5 e 6 se preocupam com aeficcia, ou seja o correto funcionamento do sistema IR. De uma forma geral,admite-se que, quanto mais eficaz for o sistema, maior ser a satisfao dousurio, ou seja, a idia intuitiva obter o mximo de documentos possveis(mxima cobertura) mas com o mnimo de documentos irrelevantes (mximapreciso).A relao entre sistemas IR e as pesquisas relacionadas descobertade conhecimento se deve, principalmente, ao fato de que a rea de IR buscapor: utilidade, facilidade de uso, eficincia e eficcia na concepo de siste-masIR atuando sobre documentos textuais. Estas atribuies carregam umalto nvel de subjetividade que, certamente, poder ser enriquecida com astcnicas de descoberta de conhecimento em texto (ou KDT - Knowledge Dis-coveryfrom Text), principalmente, na introduo de tcnicas de identificaode conceitos (conhecimento) na formao de termos ndices agregando-lhestratamento semntico.4.2 Lingstica ComputacionalA lingstica computacional um campo interdisciplinar (ou multidis-ciplinar)para tratamento da lngua natural com base em conhecimentos esta-tsticose/ou com base em regras da linguagem (padres lingsticos) de umaperspectiva computacional. Pesquisas recentesmostramque a lngua humana muito mais complexa do que se pensou previamente, assim, os lingistascomputacionais trabalham freqentemente como membros de equipes inter-dis