thiago meirelles ventura dissertacao pgfa

Upload: mahelvson-chaves

Post on 30-Oct-2015

15 views

Category:

Documents


0 download

DESCRIPTION

Dissertação de climatologia

TRANSCRIPT

  • UNIVERSIDADE FEDERAL DE MATO GROSSOINSTITUTO DE FSICA

    PROGRAMA DE PS-GRADUAO EM FSICA AMBIENTAL

    PREENCHIMENTO DE FALHAS DE DADOSMICROMETEOROLGICOS UTILIZANDO

    TCNICAS DE INTELIGNCIA ARTIFICIAL

    Thiago Meirelles Ventura

    Prof.a Dr.a Claudia Aparecida Martins

    Cuiab-MT, Maro de 2012

  • UNIVERSIDADE FEDERAL DE MATO GROSSOINSTITUTO DE FSICA

    PROGRAMA DE PS-GRADUAO EM FSICA AMBIENTAL

    PREENCHIMENTO DE FALHAS DE DADOSMICROMETEOROLGICOS UTILIZANDO

    TCNICAS DE INTELIGNCIA ARTIFICIAL

    Thiago Meirelles Ventura

    Dissertao apresentada ao Programa de Ps-Graduao em Fsica Ambiental da UniversidadeFederal de Mato Grosso, como parte dos requisi-tos para obteno do ttulo de Mestre em FsicaAmbiental.

    Prof.a Dr.a Claudia Aparecida Martins

    Cuiab-MT, Maro de 2012

  • UNIVERSIDADE FEDERAL DE MATO GROSSOINSTITUTO DE FSICA

    PROGRAMA DE PS-GRADUAO EM FSICA AMBIENTAL

    FOLHA DE APROVAO

    TTULO: PREENCHIMENTO DE FALHAS DE DADOS MICROMETEO-ROLGICOS UTILIZANDO TCNICAS DE INTELIGNCIA ARTIFICIAL

    AUTOR: THIAGO MEIRELLES VENTURA

    Dissertao de Mestrado defendida e aprovada em 09 de maro de 2012, pela co-misso julgadora:

  • V468pVentura, Thiago Meirelles

    Preenchimento de Falhas de Dados MicrometeorolgicosUtilizando Tcnicas de Inteligncia Artificial. / Thiago MeirellesVentura. Cuiab: UFMT, 2012.

    73 fls.Dissertao - Mestrado em Fsica Ambiental - UFMT.Orientadora: Profa. Dra. Claudia Aparecida Martins

    1. Preenchimento de Falhas. 2. Dados Micrometeorolgicos.3. Redes Neurais Artificiais. 4. Algoritmos Genticos.5. Seleo de Atributos. I. Ttulo.

    CDU 53:504

  • Dedicatria

    Aos meus pais, Muriacy e Virgnia, que sempre deram prioridade aos meus estudos. minha esposa, Rosngela, que sempre est ao meu lado.

    Deus por ter me proporcionado todas as graas em minha vida.

  • Agradecimentos

    Aos meus pais eu agradeo por todo carinho e ateno que sempre me deram, portodas as lies durante a minha vida e por todo apoio que me do nos estudos.

    A minha esposa Rosngela por caminhar junto comigo, tanto nos bons momen-tos quanto nos momentos difceis. Muito obrigado por me dar foras em seguirem frente nesses novos desafios e por tudo que tem feito por mim.

    Aos meus irmos que servem de exemplo para mim. Ao meu amigo Adriano Crestani Campos pela ajuda e pacincia nesse perodo

    do mestrado.

    A professora Claudia Aparecida Martins pela pacincia e compreenso durantea orientao desta dissertao. Aprendi muito nesse processo e espero continuaraprendendo nos prximos projetos.

    Ao professor Josiel Maimone de Figueiredo por me indicar esse mestrado e pelaajuda neste projeto e em todos os outros anteriores.

    Aos membros do grupo de pesquisa de Tratamento de Bases Ambientais (TABA)pelo esforo coletivo, possibilitando que este trabalho fosse possvel.

    Ao professor Nelcileno Virgilio de Souza Araujo pela ateno durante a gradua-o e pelo incentivo durante a ps-graduao.

    Ao professor Jos de Souza Nogueira que, junto sua esposa professora MartaCristina de Jesus Albuquerque Nogueira, fazem do PPGFA um timo programade ps-graduao. Tenho orgulho de ter feito o meu mestrado neste programa.

    Ao meu colega Allan Gonalves de Oliveira pela grande ajuda nas disciplinas domestrado, na escrita dos artigos e no desenvolvimento desse trabalho.

    A todos os meus colegas de mestrado que, juntos, enfrentamos dificuldades edesafios durante essa fase importante em nossas vidas.

    E por fim, a todos os outros professores, tcnicos e alunos do PPGFA que, diretaou indiretamente, ajudaram em meus estudos.

  • Epgrafe

    Quando voc entende as leis da fsica, tudo possvel.Sheldon Cooper

  • Sumrio

    Dedicatria v

    Agradecimentos vi

    Epgrafe vii

    RESUMO 1

    ABSTRACT 2

    1 Introduo 31.1 Problemtica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31.2 Justificativa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41.3 Objetivo geral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51.4 Objetivos especficos . . . . . . . . . . . . . . . . . . . . . . . . . . 51.5 Contextualizao do trabalho . . . . . . . . . . . . . . . . . . . . . . 61.6 Organizao do trabalho . . . . . . . . . . . . . . . . . . . . . . . . 8

    2 Fundamentao Terica 102.1 Dados micrometeorolgicos . . . . . . . . . . . . . . . . . . . . . . 102.2 Mtodos para preenchimento de falhas . . . . . . . . . . . . . . . . . 122.3 Redes neurais artificiais . . . . . . . . . . . . . . . . . . . . . . . . . 14

    2.3.1 Estrutura de uma RNA . . . . . . . . . . . . . . . . . . . . . 142.3.2 Trabalhos relacionados com RNA . . . . . . . . . . . . . . . 16

    2.4 Algoritmos genticos . . . . . . . . . . . . . . . . . . . . . . . . . . 172.4.1 Funcionamento de um algoritmo gentico . . . . . . . . . . . 182.4.2 Trabalhos relacionados com AG . . . . . . . . . . . . . . . . 21

    3 Materiais e Mtodos 233.1 A base de dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 233.2 Metodologia proposta . . . . . . . . . . . . . . . . . . . . . . . . . . 25

    3.2.1 Preparao dos dados . . . . . . . . . . . . . . . . . . . . . . 263.2.2 Determinando a configurao da RNA com AG . . . . . . . . 293.2.3 Treinamento da RNA . . . . . . . . . . . . . . . . . . . . . . 32

    viii

  • 3.2.4 Preenchimento dos valores ausentes . . . . . . . . . . . . . . 333.3 Ambiente de programao . . . . . . . . . . . . . . . . . . . . . . . 343.4 Avaliao de desempenho . . . . . . . . . . . . . . . . . . . . . . . . 35

    4 Resultados e Discusso 364.1 Resultados obtidos . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    4.1.1 Resultado do preenchimento de falhas para temperatura . . . 374.1.2 Resultado do preenchimento de falhas para saldo de radiao . 394.1.3 Resultado do preenchimento de falhas para fotoperodo . . . . 414.1.4 Resultado do preenchimento de falhas para umidade . . . . . 424.1.5 Resultado do preenchimento de falhas para insolao . . . . . 44

    4.2 Anlise estatstica dos resultados . . . . . . . . . . . . . . . . . . . . 46

    5 Consideraes Finais 48

    Bibliografia 51

    A Cdigo do Algoritmo Gentico 60

    B Cdigo da Rede Neural Artificial 71

    ix

  • Lista de Tabelas

    1 Descrio dos atributos na base de dados . . . . . . . . . . . . . . . . 242 Amostra de dados obtidos pelos equipamentos micrometeorolgicos . 283 Nmero de exemplos sinalizados como invlidos para a fase de testes

    e nmero de exemplos reservados para a fase de treinamento em cadasimulao realizada . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

    4 Resultados encontrados pelo AG nos testes realizados da temperatura(T) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    5 Resultados encontrados pelo AG nos testes realizados do saldo de ra-diao (Qn) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39

    6 Resultados encontrados pelo AG nos testes realizados do fotoperodo(N) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

    7 Resultados encontrados pelo AG nos testes realizados da umidade (UR) 428 Resultados encontrados pelo AG nos testes realizados da insolao

    (INSOL) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 449 Erro mdio absoluto para cada simulao realizada . . . . . . . . . . 4610 Valores do desvio padro para cada simulao realizada . . . . . . . . 46

    x

  • Lista de Figuras

    1 Sistema EnvRP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    2 Pluvimetro aps sofrer ao ambiental (DIAS, 2007) . . . . . . . . . 113 Estrutura de uma rede neural artificial (HAYKIN, 2000) . . . . . . . . 154 Ciclo de vida de um algoritmo gentico . . . . . . . . . . . . . . . . 185 Exemplo de um indivduo de 10 bits armazenando 3 parmetros . . . 186 Processo do operador crossover no algoritmo gentico . . . . . . . . 197 Processo do operador mutao no algoritmo gentico . . . . . . . . . 20

    8 Etapas da metodologia proposta para preenchimento de falhas . . . . 259 Diagrama da sequncia de passos necessrios para realizar o preenchi-

    mento de falhas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2710 Representao do indivduo no AG . . . . . . . . . . . . . . . . . . . 3011 Ilustrao do preenchimento de um valor ausente utilizando a RNA

    treinada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3312 Ambiente de programao do Matlab . . . . . . . . . . . . . . . . . . 34

    13 Valores dos coeficientes de correlao para temperatura . . . . . . . . 3814 Valores comparativos entre os valores esperados e os valores obtidos

    pela RNA nos dados de temperatura . . . . . . . . . . . . . . . . . . 3815 Valores dos coeficientes de correlao para saldo de radiao . . . . . 4016 Valores comparativos entre os valores esperados e os valores obtidos

    pela RNA nos dados de saldo de radiao . . . . . . . . . . . . . . . 4017 Valores dos coeficientes de correlao para fotoperodo . . . . . . . . 4118 Valores comparativos entre os valores esperados e os valores obtidos

    pela RNA nos dados de fotoperodo . . . . . . . . . . . . . . . . . . 4219 Valores dos coeficientes de correlao para umidade . . . . . . . . . . 4320 Valores comparativos entre os valores esperados e os valores obtidos

    pela RNA nos dados de umidade . . . . . . . . . . . . . . . . . . . . 4321 Valores dos coeficientes de correlao para insolao . . . . . . . . . 4522 Valores comparativos entre os valores esperados e os valores obtidos

    pela RNA nos dados de insolao . . . . . . . . . . . . . . . . . . . . 4523 Erro mdio absoluto de todas as simulaes realizadas . . . . . . . . 47

    xi

  • RESUMO

    VENTURA, T. M. Preenchimento de falhas de dados micrometeorolgicos utilizandotcnicas de inteligncia artificial. 2012. 73f. Dissertao (Mestrado em Fsica Ambi-ental), Instituto de Fsica, Universidade Federal de Mato Grosso, Cuiab, 2102.

    Dados reais relacionados a fenmenos climatolgicos so obtidos, geralmente, utili-zando equipamentos como sensores. A captao destes dados est sujeita a falhas einfluncias externas que geram dados invlidos no conjunto de informaes geradas.Tcnicas matemticas e computacionais so comumente usadas com o objetivo de pre-encher essas falhas nos dados. Este trabalho apresenta uma abordagem computacionalque utiliza tcnica de redes neurais, combinada com algoritmos genticos, aplicada adados reais com o objetivo de preencher falhas (valores ausentes) em sries de tempe-ratura, saldo de radiao, fotoperodo, umidade e insolao em uma regio de cerradono estado de Mato Grosso. Para avaliar os resultados, foram analisados o coeficientede correlao entre os dados reais e os dados estimados, o erro mdio absoluto e odesvio padro dos dados, e foi constatado um bom resultado nessas anlises.

    Palavras-chave: preenchimento de falhas; dados micrometeorolgicos; redes neuraisartificiais; algoritmos genticos; seleo de atributos.

    1

  • ABSTRACT

    VENTURA, T. M. Gap filling of micrometeorological data using techniques of artifi-cial intelligence. 2012. 73f. Dissertation (Master in Environmental Physics), Instituteof Physics, Federal University of Mato Grosso, Cuiab, 2102.

    Real data related to climatological phenomena are usually obtained using equipmentlike sensors. The capture of this data is subject to failures and external influences thatgenerate invalid data in the set of generated information. Mathematical and computati-onal techniques are commonly used in order to fill these data gaps. This work presentsa computational approach that uses neural networks technique, combined with geneticalgorithms applied to real data with the objective of filling the gaps in a series of tem-perature, radiation balance, photoperiod, humidity and insolation in an area of MatoGrossos Cerrado. To evaluate the results, the correlation coefficient of the real dataand the estimated data, the mean absolute error and the standard deviation of the datawere analyzed, and a good result was observed in these analysis.

    Keywords: gap filling; micrometeorological data; artificial neural networks; geneticalgorithms; selection of attributes.

    2

  • Captulo 1

    Introduo

    1.1 Problemtica

    Em empresas privadas, rgos governamentais ou instituies acadmicas, os dadostm um grande valor, porque so os dados que representam toda informao dentrode tais unidades, possibilitando que decises sejam tomadas baseada na anlise dessesdados, produtos sejam criados ou modelagens de fenmenos fsicos sejam representa-dos. Por essas razes que s vezes os dados de uma unidade so considerados comoum patrimnio da organizao.

    Dados relacionados observao de fenmenos reais geralmente so denominadosdados cientficos (PFALTZ, 2007). Este tipo de dado pode ser, por exemplo, o his-tograma de uma imagem mdica, dados oriundos de satlites ou resultados de umasimulao. Normalmente, esses dados tem uma maior complexidade em sua estrutura,e seus valores podem representar fenmenos do ambiente real gerando uma grandequantidade de dados/informao.

    Para compreender fenmenos climticos no sentido de ajudar em reas como agri-cultura e planejamento urbano, necessrio o estudo das variveis climticas envolvi-das, muitas vezes representadas por dados cientficos. Nessa rea de estudo, os dadosgeralmente so obtidos por diversos equipamentos, como os sensores, que fazem a lei-tura de uma ou mais variveis durante o seu funcionamento, os quais, normalmente,ficam ligados durante 24 horas por dia, gerando uma grande quantidade de dados.

    Alm da grande quantidade de dados, uma caracterstica que dificulta a anlise dosdados cientficos que os sensores so instalados em estaes micrometeorolgicasque esto ao ar livre e, consequentemente, sujeitos s condies naturais do meio am-biente. A ao de animais prximos aos equipamentos e fortes mudanas no tempopodem atrapalhar as leituras dos sensores, causando falhas no armazenamento dos da-dos. Alm do mais, os sensores so aparelhos eletrnicos e esto sujeitos a falhas.

    3

  • 1.2. Justificativa 4

    Sendo assim, as condies naturais do meio ambiente e problemas tcnicos podeminterferir na leitura e armazenamento dos dados observados.

    Quando a leitura das variveis climticas no feita de maneira automtica, ne-cessrio que um observador anote as medidas captadas pelos equipamentos. Entre-tanto, problemas diversos podem ocorrer impedindo que o observador realize algumaleitura dos equipamentos em determinado horrio do dia, provocando falha na leiturados dados.

    Assim, apesar de ser possvel obter uma grande quantidade de dados, coletados pordiversos sensores e/ou pesquisadores, durante um longo perodo de tempo, provvelque alguns dos dados coletados sejam invlidos (dados com valores incorretos ou au-sentes), ocorridos no processo de leitura e/ou armazenamento. Isso gera dificuldadespara anlise e modelagem desses dados, pois os resultados sero obtidos baseados emsries de dados que no foram armazenadas de forma precisa.

    No contexto do Programa de Ps-Graduao em Fsica Ambiental (PPGFA) daUniversidade Federal de Mato Grosso (UFMT), grande parte do trabalho pesquisado baseado em dados ambientais coletados a partir de sensores. Nos trabalhos desenvol-vidos, comum a presena de falhas em dados micrometeorolgicos, sendo necessrioa utilizao de mtodos para preencher valores ausentes gerados por falhas nas sriesde dados.

    Portanto, necessrio o desenvolvimento e aplicao de mtodos que possam fa-cilitar o preenchimento dessas falhas nos dados de estaes micrometeorolgicas vi-sando analisar e modelar dados que representam fenmenos do mundo real.

    1.2 Justificativa

    Em um cenrio ideal, os dados obtidos de sensores deveriam ser lidos e armazenadoscom exatido. Entretanto, deve se ter o cuidado de pr-processar os dados coletadosque sero utilizados a fim de localizar dados incorretos ou nulos, antes de processar,modelar e analisar dados que representam fenmenos reais.

    Em um processo de anlise de dados, quando dados invlidos ou com valores au-sentes so encontrados, deve-se decidir se os mesmos sero removidos completamenteou se ser utilizado algum mtodo para preencher os valores invlidos. Normalmente,um procedimento bastante utilizado a mdia dos valores nos dados, das leituras queforam obtidas antes e depois da falha, substituindo o valor invlido ou faltante pelamdia obtida. Contudo, esse um mtodo simples que pode apresentar caractersticascomo: a srie de dados j no ir representar completamente a realidade e, tambm,a possibilidade de, caso uma srie contnua de dados conter erros, no ser possvel

  • 1.3. Objetivo geral 5

    a utilizao deste mtodo, j que so necessrias leituras prximas para preencher afalha.

    Para tentar minimizar essas caractersticas indesejveis, e estimar um valor maisprximo do valor real, uma alternativa a utilizao de tcnicas computacionais paraauxiliar na estimativa de valores no preenchimento de falhas. Esto sendo bastanteutilizadas algumas tcnicas da rea de Inteligncia Artificial (IA) que visa aprendero comportamento padro de uma srie de dados. Segundo Sellitto (2002), IA umarea de conhecimento que oferece modelos de apoio deciso e ao controle com baseem fatos reais e conhecimentos empricos e tericos, mesmo que apoiados em dadosincompletos. Algumas tcnicas bastante utilizadas nesse contexto so, por exemplo,as Redes Neurais Artificiais (RNA) e os Algoritmos Genticos (AG).

    RNAs tem sido aplicadas em vrios campos da engenharia e modelagem ambiental,por exemplo. RNAs tem a vantagem de usar funes no lineares que possam estimara sada, a partir de alguns valores de entrada depois de treinada usando uma amostrade dados.

    Dessa forma, utilizar mtodos que possam automatizar o processo de preenchi-mento de falhas de maneira que represente valores mais prximos possvel do valorreal, um desafio tanto para as pesquisas do PPGFA quanto da comunidade cientficaem geral. O desenvolvimento de uma ferramenta capaz de preencher falhas em sriesde dados, resultar em uma maior consistncia nos dados, permitindo interpretaes emodelagens mais precisas e, consequentemente, auxiliando na anlise dos resultadosimportantes para a comunidade.

    1.3 Objetivo geral

    O objetivo deste trabalho consiste no preenchimento de falhas em dados obtidos emestaes micrometeorolgicas, visando anlise de fenmenos ambientais, utilizandotcnicas de redes neurais em conjunto com algoritmos genticos.

    1.4 Objetivos especficos

    Para alcanar o objetivo geral deste trabalho, foi necessrio definir e atingir os seguin-tes objetivos especficos:

    Obter, estudar e pr-processar os dados coletados por equipamentos de estaesmicrometeorolgicas.

  • 1.5. Contextualizao do trabalho 6

    Investigar a tcnica de algoritmos genticos aplicada a dados ambientais e naotimizao de redes neurais.

    Investigar a tcnica de redes neurais artificiais aplicada a variveis climatolgi-cas.

    Especificar e desenvolver um algoritmo gentico para definir parmetros de redesneurais artificiais.

    Definir e implementar uma rede neural artificial para estimar valores no preen-chimento de falhas.

    Realizar a integrao entre o algoritmo gentico e a rede neural artificial.

    Avaliar o desempenho dos resultados obtidos.

    1.5 Contextualizao do trabalho

    Este trabalho, vinculado ao Programa de Ps-Graduao em Fsica Ambiental, se in-sere no contexto maior do Grupo de Pesquisa denominado Tratamento de Bases Am-bientais (TABA), que se dedica a aplicar tcnicas computacionais para tratamento,armazenamento e anlise de dados ambientais (OLIVEIRA et al., 2010).

    O Grupo de Pesquisa TABA se dedica atualmente no desenvolvimento de um ambi-ente para anlise e armazenamento inteligente de dados de sries temporais aplicadosa variveis micrometeorolgicas, utilizando tcnicas de inteligncia artificial, bancode dados, engenharia de software e estatstica, entre outras. O ambiente que est emdesenvolvimento, tem como base a investigao e a elaborao de uma arquiteturabaseada em componentes de software buscando flexibilidade no desenvolvimento eaperfeioamento do ambiente.

    Esse ambiente em desenvolvimento denominado de Environmental ResourcePlanning (EnvRP) e utiliza conceitos relacionados com Enterprise Resource Planning(ERP), no qual um banco de dados robusto utilizado de forma que as informaessejam todas inter-relacionadas e bem mapeadas, buscando-se eficincia no armazena-mento e recuperao dos dados. O ERP possui caracterstica de um sistema integradoe uma arquitetura aberta, viabilizando a operao com diversos sistemas operacionais,banco de dados e plataformas de hardware (JESUS; OLIVEIRA, 2007).

    Dessa forma, no EnvRP haver uma centralizao e integrao das informaesem uma nica base de dados. Isso ir permitir que os dados sejam analisados de forma

  • 1.5. Contextualizao do trabalho 7

    mais adequada, pois o tratamento uniformizado para todas as manipulaes, per-mitindo que seja feito melhor controle de qualidade dos resultados das anlises (OLI-VEIRA, 2011).

    O sistema EnvRP (Figura 1) tem a finalidade de facilitar a extrao de informaesreferentes a dados ambientais. Para tanto, foram planejados mdulos dentro do sistemageral envolvendo tcnicas computacionais de inteligncia artificial, banco de dados eestatstica. Esses mdulos so descritos a seguir.

    A Obteno dos dados

    1. Coleta de dados: A obteno dos dados a serem utilizados pelo sistema feita por sensores localizados em estaes micrometeorolgicas. Cadasensor tem as suas prprias caractersticas e pode gerar tipos diferentes dedados a cada leitura.

    2. Dados digitais (.DAT): Os sensores podem obter dados a cada frao desegundo dependendo de sua configurao. Em todo caso, esses dados soenviados para outro equipamento que responsvel pelo armazenamentoem campo. De tempo em tempo, os dados armazenados nesse equipa-mento so transformados em arquivos digitais (extenso .DAT) os quais ossistemas operacionais tradicionais possuem a capacidade de ler.

    B Armazenamento e consulta dos dados

    3. Importao no SGBD: Mesmo tendo os dados em forma digital a partirdos arquivos .DAT, ainda no vivel realizar consultas para extrair infor-maes desses dados. Assim, se faz necessrio uma importao em umsistema de gerenciamento de banco de dados (SGBD).

    4. Consulta rpida e fcil: Este procedimento pode ser realizado desde o mo-mento que os dados j esto no banco de dados ou depois que o tratamentodos dados seja executado. O objetivo aqui que o usurio possa recupe-rar de maneira fcil e rpida as informaes contidas no SGBD atravs defiltros de consulta.

    5. Exportao dos dados: Caso o usurio queira trabalhar os dados em outroambiente, esse procedimento pode ser executado e os dados sero transfor-mados para um outro formato de arquivo.

    C Tratamento dos dados

  • 1.6. Organizao do trabalho 8

    6. Limpeza dos dados: Trata de uniformizar os dados, ou seja, fazer comque as variveis do mesmo tipo tenham a mesma unidade. Tambm deresponsabilidade desta etapa identificar os dados invlidos.

    7. Preenchimento de falhas: Com a etapa anterior finalizada, o sistema iden-tifica quais dados devem ser substitudos. Esta etapa tem como objetivoutilizar tcnicas da inteligncia artificial e estatstica, entre outras, para pre-encher valores invlidos.

    8. Deteco de padres: Com a quantidade de dados coletados fica difcil atarefa de observar relaes entre as informaes. Na etapa de deteco depadres o prprio sistema tentar descobrir padres dos dados.

    Figura 1: Sistema EnvRP

    Este trabalho est situado no mdulo C, mais especificamente no item 7, ou seja, naetapa de preenchimento de falhas. Mais detalhes do mdulo A e do mdulo B podemser consultados em Oliveira et al. (2011).

    1.6 Organizao do trabalho

    Este trabalho est organizado da seguinte forma:

  • 1.6. Organizao do trabalho 9

    Captulo 2: Este captulo apresenta os conceitos bsicos necessrios para o de-senvolvimento deste trabalho. So apresentadas informaes sobre os dados deestaes micrometeorolgicas, conceitos sobre rede neural artificial e sobre osalgoritmos genticos.

    Captulo 3: Descreve os dados micrometeorolgicos utilizados no preenchi-mento de falhas, a metodologia proposta, o ambiente de programao utilizadona implementao do trabalho e a anlise estatstica dos resultados encontrados.

    Captulo 4: Neste captulo so mostrados os resultados obtidos no preenchi-mento de falhas de diversas simulaes por meio de coeficientes de correlaoentre os dados reais e os dados estimados, erro mdio absoluto e desvio padro.

    Captulo 5: Apresenta as concluses e as possibilidades de trabalhos futuros.

  • Captulo 2

    Fundamentao Terica

    As condies climticas do meio ambiente esto adquirindo cada vez mais importnciano cenrio mundial, principalmente porque no incio deste novo milnio, as emissesdecorrentes das atividades humanas cada vez mais comprometem a vida neste planeta(HEWITT, 2003).

    Diversas reas de pesquisa estudam as condies climticas, uma delas a mete-orologia. A meteorologia o ramo da cincia que lida com a atmosfera terrestre eos processos fsicos que ocorrem nele (AHRENS, 2004). Por ser uma rea extensa deestudo ela pode ser divida em sub-reas, como a macro, meso ou a micrometeorologia.

    A macrometeorologia o estudo dos fenmenos de macroescala. Os movimentosde macroescala tem uma escala de comprimento horizontal da ordem de 1000 km oumaior, limitado pela circunferncia da Terra, e escala de tempo de um dia ou mais.Na vertical, os movimentos de macroescala podem se estender por toda a troposfera(BUSK, 2008). J a mesometeorologia se refere ao estudo dos sistemas atmosfricos dedimenses intermdias entre as dos fenmenos observados s escalas local e sinp-tica (ATKINSON, 1981). E a micrometeorologia tem como principal objeto de estudoo ambiente de vida da humanidade (FOKEN, 2008).

    Dados micrometeorolgicos, rea de interesse deste trabalho, so obtidos usandoequipamentos que esto em campo realizando leituras do ambiente.

    2.1 Dados micrometeorolgicos

    O funcionamento de equipamentos responsveis por medir elementos meteorolgicospassam por sensores e os dados so armazenados em sistemas de aquisio de dados,chamados de Datalogger (NEVES, 2011).

    Entretanto, como comentado, nem sempre os dados so armazenados com sucesso. normal encontrar falhas nos dados coletados por sensores e estas falhas podem sig-

    10

  • 2.1. Dados micrometeorolgicos 11

    nificar a ausncia de um valor ou o armazenamento incorreto de um valor. No casode um valor incorreto ser gravado, a identificao da falha mais difcil, j que paraisso necessrio um conhecimento maior sobre a varivel climtica que o valor repre-senta para que seja possvel perceber que o valor est incoerente com a situao que seencontra a srie de dados.

    As falhas nos dados podem acontecer por diversos fatores. Em Dias (2007) soapresentados alguns destes fatores, como deteriorao por fatores ambientais ou des-ligamento dos equipamentos por falta de energia. Na Figura 2 apresentado umequipamento sendo afetado por uma ao da natureza no qual vrios insetos entraramdentro do equipamento prejudicando o seu funcionamento.

    Figura 2: Pluvimetro aps sofrer ao ambiental (DIAS, 2007)

    Como dito anteriormente, uma das consequncias quando os equipamentos sofremalguns destes problemas o erro no armazenamento dos dados. Nos casos em que hausncia de valores em uma srie de dados deve-se fazer uma escolha entre ignoraros perodos com dados incorretos ou aplicar alguma tcnica para preencher os valorescom falhas.

    Alguns trabalhos mostram o tratamento de dados ausentes. No trabalho de Capis-trano (2007) foi determinado um valor mnimo e mximo para o dado que estava sendotrabalhado e, assim, retirou-se os dados que estavam fora desse limite. O mtodo uti-lizado para preencher os dados retirados foi fazer uma repetio do dado anterior aoretirado. importante ressaltar que esse tipo de tratamento s foi possvel ser utilizadoporque essa operao no influenciava no estudo do respectivo trabalho.

    Em Pal (2008) observado que h vrios valores ausentes na srie de dados pes-quisada, assim como dados incoerentes em comparao aos dados obtidos em perodos

  • 2.2. Mtodos para preenchimento de falhas 12

    prximos. Neste trabalho as falhas encontradas tiveram os seus registros ignorados,trabalhando apenas com os dados vlidos.

    No trabalho realizado por Gallon (2005) foi constatado a ausncia de dados emdiversos perodos por causa de falhas nos equipamentos. Em alguns casos havia falhasenglobando um ms inteiro. Uma parte dos dados em diversos meses teve que serdescartada, dificultando a anlise dos dados.

    O nmero de dados das sries no trabalho de Mariano (2005) foi limitado devidos falhas encontradas por causa das condies de campo e de manuteno dos equipa-mentos. Nesse trabalho, essas falhas podem ser de algumas horas ou de vrios dias, oque impossibilitou que quatro anos no pudessem ser analisados por causa das falhascontnuas. Quando o perodo tinha poucas falhas, foi utilizado a mdia entre o dadoanterior e posterior falha para preencher o valor ausente. No entanto observado queesse mtodo apenas aceitvel quando no h uma grande sequncia de falhas na sriede dados.

    Como pode ser visto, comum a ocorrncia de falhas em sries de dados micro-meteorolgicos. Pode ser observado tambm que a soluo utilizada para resolver esseproblema normalmente o descarte dos registros com falhas ou o preenchimento comtcnicas simples, como a repetio ou mdia de dados prximos. Entretanto, a utiliza-o de mtodos simples prejudica o desempenho do trabalho porque os dados deixamde representar com preciso as condies do ambiente no momento em que foram fei-tas as leituras. Por outro lado, h mtodos mais complexos que preenchem as falhas demaneira mais precisa.

    2.2 Mtodos para preenchimento de falhas

    Um dos mtodos utilizado para preenchimento de falhas a imputao mltipla (Mul-tiple Imputation, MI). MI uma tcnica de Monte Carlo em que o valor ausente substitudo por m > 1 valores simulados, onde m tipicamente pequeno, como valoresentre 3 e 10 (SCHAFER, 1999). Fazer as operaes do mtodo de MI no uma tarefafcil, ento foram criados diversos sistemas para automatizar esse processo. Em Ortone Ipsitz (2001) comentado sobre vrios sistemas para facilitar o uso deste mtodo,como: Solas, Sas, S-Plus, Mice, dentre outros.

    Inicialmente, o MI foi proposto para preencher falhas em questionrios de pes-quisa, mas atualmente tambm utilizado em outros tipos de sries de dados. Notrabalho de Hui (2004) foi usado esse mtodo para preencher falhas em medidas doequipamento de eddy covariance, que faz leituras sobre a troca de gs carbnico, va-por dgua e calor entre uma superfcie vegetada e a atmosfera. J em Nunes, Kluck e

  • 2.2. Mtodos para preenchimento de falhas 13

    Fachel (2009) foi utilizado o mtodo para dados epidemiolgicos.Em Falge et al. (2001) so comparados outros mtodos de preenchimento de falhas,

    como a variao mdia diurna (mean diurnal variation, MDV) e o look-up tables. Nomtodo MDV, o valor ausente substitudo pela mdia calculado a partir dos valoresobtidos nos dias adjacentes (KATO et al., 2006), sendo utilizado em dados meteorolgi-cos como em Hu et al. (2009) e em Alavi, Warland e Berg (2006).

    A abordagem do mtodo look-up tables consiste em criar uma tabela com os va-lores de fluxos, com base nos valores correspondentes dos parmetros externos (porexemplo, temperatura do solo, precipitao, umidade do solo, etc.), e preencher as fa-lhas de acordo com essa tabela. A determinao dos parmetros relevantes e seus valo-res crticos um passo crucial para essa tcnica ser bem sucedida (MISHUROV; KIELY,2011). Pesquisas como as de Rodrigues, Pita e Mateus (2005), Wilson e Baldocchi(2001) e Shao et al. (2011) utilizaram esse mtodo.

    No trabalho de Moffat et al. (2007) foram comparadas algumas variaes de tcni-cas de preenchimento de falhas em um mesmo conjunto de dados. Dentre elas esta-vam tcnicas do tipo de regresso no-linear (RNL) e de dual unscented Kalman filter(UFK). As RNL so baseadas em parmetros de equaes no-lineares que expressam(semi-)relaes empricas entre o fluxo pesquisado e as variveis ambientais, comotemperatura e luz. O UKF um mtodo de estimativa recursivo de predio e correoatravs do qual os dados de medio so usados para atualizar continuamente o modelo(GOVE; HOLLINGER, 2006).

    Tcnicas computacionais tambm esto sendo utilizadas no preenchimento de fa-lhas, como, por exemplo, as tcnicas de inteligncia artificial, redes neurais artificiais,algoritmos genticos e lgica fuzzy.

    Em Ooba et al. (2006) foi desenvolvido uma combinao das tcnicas de algorit-mos genticos e redes neurais artificiais para preencher falhas em dados de fluxo decarbono. Foi feito tambm uma comparao dos resultados de sua aplicao com ummtodo convencional que usa equaes com parmetros que foram determinados pormeio de regresso no-linear. Os resultados mostraram que a combinao das tcnicasutilizadas teve uma maior preciso comparado ao mtodo convencional testado.

    Este trabalho utiliza uma metodologia semelhante a que foi proposta por Ooba etal. (2006). No entanto, importante salientar que a maioria das implementaes dastcnicas de preenchimento de falhas so orientadas para o tipo de dado especfico emrelao ao problema que se deseja resolver. Isso acontece porque esses mtodos ne-cessitam ter o conhecimento a priori do comportamento da varivel que ser ajustadapara ter um bom desempenho. Levando em considerao esse fator, neste trabalhoa metodologia utilizada para preenchimento de falhas de dados micrometeorolgicos

  • 2.3. Redes neurais artificiais 14

    trabalha, independentemente, da varivel climtica a ser corrigida. A tcnica utilizadanesta metodologia so as redes neurais artificiais em conjunto com algoritmos genti-cos.

    2.3 Redes neurais artificiais

    Segundo Russell e Norvig (2004), um neurnio uma clula no crebro cuja principalfuno coletar, processar e disseminar sinais eltricos. Acredita-se que a capacidadede processamento de informaes do crebro emerge principalmente de redes de taisneurnios. Baseado nesse conceito, surgiu a ideia da tcnica de redes neurais artificiais(RNA), que uma das reas de pesquisa de inteligncia artificial (IA).

    A RNA composta por unidades de processamento chamadas neurnios, cada umdeles gera um sinal que uma funo genrica no-linear da soma dos sinais rece-bidos pela unidade. Fontes de sinais recebidos so especificadas por meio de cone-xes. Neurnios recebem os sinais provenientes de fontes idnticas, compreendendoum grupo de neurnios denominada camada. Cada sinal recebido por um neurnio pr-processado por meio de um parmetro de ponderao multiplicativo chamado depeso. A definio dos valor dos pesos da rede, de modo a otimizar um critrio, dependedas sadas da rede, e esse processo chamado de treinamento da rede (AGARWAL,1997).

    As RNAs tm sido utilizadas com sucesso para modelar relaes envolvendo s-ries temporais complexas (HAYKIN, 2000). RNAs podem ser consideradas como umapoderosa tcnica de reconhecimento de padres em anlises de dados ambientais e cli-matolgicos em relao aos processos biolgicos (BELGRANO; MALMGREN; LINDAHL,2001). A maior vantagem das RNAs sobre os mtodos convencionais que no reque-rem informao detalhada sobre os processos fsicos do sistema a ser modelado, sendoeste descrito explicitamente na forma matemtica (SUDHEER; GOSAIN; RAMASASTRI,2003).

    2.3.1 Estrutura de uma RNA

    Na Figura 3 ilustrada a estrutura de uma RNA. Os sinais de entradas x1, ...xm sodefinidos pelos valores contidos na base de dados. Esses valores serviro de insumopara calcular o valor do sinal de sada yk da rede neural, ou seja, a resposta ao pro-blema que a RNA foi treinada para solucionar. Os pesos wk1, ...wkm de uma RNA soutilizados no clculo da funo de ativao. Segundo Moayed e Shell (2010), os pesossero ajustados baseados no erro entre o valor estimado e o valor atual da sada durantea fase de treinamento.

  • 2.3. Redes neurais artificiais 15

    Figura 3: Estrutura de uma rede neural artificial (HAYKIN, 2000)

    A juno aditiva possui o propsito de somar todos os sinais de entrada ponde-rados pelos pesos sinpticos de cada neurnio. O valor de bk funciona aumentandoou diminuindo a influncia do valor da entrada para a ativao do neurnio; j a fun-o de ativao funciona restringindo a amplitude de sada de determinado neurnio eadicionando no-linearidade ao modelo (ZANETTI et al., 2008).

    Uma RNA pode ter vrias camadas ocultas, que so as camadas posicionadas entrea camada de entrada e a camada de sada. Em cada uma delas pode ter vrios neurnios.O nmero certo de camadas ocultas e neurnios varia de problema para problema.Entretanto, esses valores podem ser baseados no Teorema de Kolmogorov-Nielsen,apresentato por Kovcs (1996) onde:

    "Dada uma funo contnua arbitrria f : [0,1]n Rm, f (x) = y, existe sempre,para f , uma implementao exata com uma rede neural de trs camadas, sendo a

    camada de entrada um vetor de dimenso n, a camada oculta composta por 2n+ 1neurnios, e a camada de sada com m neurnios representando as m componentes do

    vetor y".

    Alm dos componentes apresentados, faz parte tambm de uma rede neural o al-goritmo de treinamento. Para Fausett (1994), o algoritmo de treinamento consiste dosprocedimentos que modificam os pesos em uma rede neural, ou seja, o algoritmode treinamento que vai determinar a busca no espao de estados possveis para a redeneural encontrar uma soluo para o problema.

    Normalmente a fase de treinamento da RNA consiste em utilizar cerca de 70% dosdados para formar um conjunto de dados, chamado de conjunto de treinamento. Esteconjunto utilizado inmeras vezes, no qual a cada utilizao os pesos so atualizadosat que o erro gerado alcance um nvel aceitvel para este conjunto de dados. O restantedos dados, cerca de 30%, servir para verificar o desempenho do treinamento realizado.

  • 2.3. Redes neurais artificiais 16

    2.3.2 Trabalhos relacionados com RNA

    RNAs so utilizadas nas mais diversas reas da cincia. Em Fausett (1994) so mos-trados casos do seu uso em processamento de sinais, controle maquinrio, reconheci-mento de padres, reconhecimento de fala, rea mdica, rea de negcio, dentre outros. comum a utilizao da tcnica de RNA em pesquisas na rea ambiental, sendo elaspara previso, estimativa ou preenchimento de falhas.

    Em Panella, Rizzi e Martinelli (2003) foram estudadas RNAs para melhorar a pre-ciso em previses de sequncia de dados ambientais, se concentrando em sries comcomportamento catico, como o nvel de oznio e rudo, o que torna mais difcil a pre-viso. Utilizaram a rede neural baseada no modelo de mistura Gaussiano, com o algo-ritmo de treinamento denominado SHEM, que segundo Holtgrewe, Sanders e Schulz(2010) um algoritmo muito rpido. Foram obtidos bons resultados, mostrando-semelhor que outros mtodos de previso para esse tipo de dado.

    Em Tsukahara, Jensen e Caramori (2010) RNAs foram utilizadas para o preen-chimento de falhas em sries horrias de dados meteorolgicos do estado do Paran-Brasil. Foi utilizada uma RNA do tipo Multi Layer Perceptron, com algoritmo deaprendizagem Resilient, com uma nica camada oculta com quarenta e quatro neur-nios. O trabalho utilizava os dados de onze estaes meteorolgicas, no qual as falhasde uma estao eram preenchidas com base nos valores das outras dez estaes. ARNA conseguiu gerar bons resultados, mas a dependncia da existncia de outras es-taes meteorolgicas um ponto negativo.

    No trabalho de Deswal e Pal (2008) utilizado uma RNA para estimar a evapora-o de um local. Foram utilizados dados de temperatura do ar, velocidade do vento,horas de sol por dia, umidade relativa e, para avaliar os resultados obtidos, a prpriaevaporao. Os resultados foram comparados com mtodos de regresso linear e re-gresso liner mltipla, e o uso de RNA foi considerado uma melhor alternativa emrelao aos outros mtodos.

    J em Jain, Nayak e Sudheer (2008), foi aplicada a tcnica de RNA tambm paraestimar valores de evapotranspirao. H uma dificuldade na medio de evapotrans-pirao porque requer um maior conhecimento de vrias variveis climticas e o usode equipamentos especiais. Neste trabalho essa dificuldade foi contornada pelo uso deuma RNA, com a qual foi possvel estimar com preciso a evapotranspirao de umlocal mesmo utilizando poucas variveis climticas.

    Na Seo 2.3.1 foi visto que a estrutura de uma RNA possui diversos parmetros,podendo ser configurada de vrias formas diferentes. E para cada conjunto de dadosh uma melhor configurao da RNA para resolver o problema que lhe foi proposto.Entretanto, achar essa melhor configurao no uma tarefa fcil. Nos trabalhos cita-

  • 2.4. Algoritmos genticos 17

    dos, provavelmente houve a necessidade de testar vrias combinaes de parmetrosat achar uma configurao aceitvel para resolver cada problema, exigindo muito es-foro. Neste trabalho proposta a aplicao da tcnica de RNA para preenchimentode falhas em diversos tipos de dados. Para tanto, foi utilizada a tcnica de algoritmosgenticos para estimar os parmetros de uma RNA, criando uma abordagem para quea configurao da RNA seja feita de forma automatizada.

    2.4 Algoritmos genticos

    Algoritmos Genticos (AGs), inicialmente propostos por John Holland em 1975, sobaseados no princpio da seleo natural de Charles Darwin, fundamentando-se na afir-mao de que, os indivduos mais adaptados tm maior chance de sobreviver e gerardescendentes (LACERDA; CARVALHO, 1999). AGs so mtodos estocsticos de buscade um timo global, no qual os indivduos mais aptos tendem a sobressair (ASSUMP-O et al., 2011).

    Segundo Goldberg (1989), os AGs apresentam algumas caractersticas que os tor-nam diferentes dos mtodos tradicionais de busca e otimizao. Em Correia (2003)so detalhadas algumas destas diferenas:

    No trabalham diretamente com o domnio do problema, mas com representa-es dos seus elementos;

    Executam a busca em um conjunto de candidatos (populao) e no apenas emum;

    No tem conhecimento especfico do problema, utilizam apenas uma funo queavalia se um indivduo bom ou no;

    Utilizam basicamente regras probabilsticas.

    Uma populao um grupo de indivduos, no qual cada indivduo tem um valoradaptativo associado, que propagado em uma nova gerao utilizando o princpioDarwiniano de reproduo e sobrevivncia (KOZA, 1995).

    De acordo com Michalewicz (1994), o princpio bsico dos AGs consiste em fazerevoluir um conjunto de solues iniciais (populao) para uma soluo tima. O AGinicia selecionando aleatoriamente certo nmero de indivduos, que so possveis so-lues para o problema, dentro do espao de busca. Estes so avaliados em relao capacidade de resolver o problema, e essa capacidade expressa numericamente pelaavaliao do indivduo, por meio de uma funo objetivo. Com base na aptido dos in-divduos, uma nova populao formada fazendo uso de operadores probabilsticos de

  • 2.4. Algoritmos genticos 18

    seleo. No final, o indivduo que est mais apto a resolver o problema consideradocomo uma soluo, dentro de um erro aceitvel.

    2.4.1 Funcionamento de um algoritmo gentico

    Na Figura 4 mostrado o ciclo de vida de um algoritmo gentico. Primeiramente, umapopulao de indivduos, que um conjunto de possveis solues, criada aleatoria-mente. O indivduo, segundo Sheikh, Raghuwanshi e Jaiswal (2008), um conjunto deparmetros da soluo codificado em uma cadeia de nmero, representando um pontono espao da busca. Normalmente, os indivduos so codificados em uma cadeia bin-ria, para facilitar as operaes genticas.

    Figura 4: Ciclo de vida de um algoritmo gentico

    Na Figura 5 pode ser visualizado um exemplo de indivduo armazenando os va-lores de trs parmetros em sua forma binria, no qual o primeiro parmetro 110,representando o valor 6, o segundo parmetro 1000, representando o valor 8, e oterceiro parmetro 101, ou seja, 5 no valor decimal.

    Figura 5: Exemplo de um indivduo de 10 bits armazenando 3 parmetros

    Depois que a populao foi criada, cada indivduo ser avaliado pela funo ob-jetivo. A funo objetivo responsvel por descrever o quo bom um indivduoem cada gerao (TANG; LEE, 2006), ou seja, esta funo que vai informar ao algo-

  • 2.4. Algoritmos genticos 19

    ritmo gentico se aquela soluo representada pelo indivduo uma boa soluo parao problema em questo.

    Quando todos os indivduos forem avaliados, possvel verificar se a execuo doalgoritmo gentico pode parar. Critrios de parada: i) nmero mximo de geraesfoi alcanado ou ii) um ou mais indivduos da populao representem uma soluovlida para o problema (possua um erro mnimo aceitvel). Se nenhum dos critriosde parada foi atingido, alguns indivduos na populao so selecionados e iniciadauma nova gerao desta populao.

    Durante a seleo dos indivduos pode ser realizado um procedimento de elitismo,para no permitir que indivduos melhores sejam expulsos da populao em favor deindivduos piores (LAUMANNS; ZITZLER; THIELE, 2000). O elitismo responsvel porpropagar propositalmente uma parte dos melhores indivduos para a prxima gerao,conservando assim bons materiais genticos.

    Os indivduos que no foram selecionados para a prxima gerao so descartadosda populao. Os restantes so utilizados em operadores genticos para gerar novosindivduos. Os operadores genticos utilizados so crossover e mutao.

    Zhang, Gao e Lou (2007) descrevem o funcionamento do crossover da seguinteforma: duas partes de materiais genticos so escolhidas aleatoriamente de dois indi-vduos (pais), depois, dois novos indivduos (filhos) so gerados trocando essas partessorteadas. No final, so obtidos dois novos indivduos, sendo um com a parte inicialdo primeiro pai e a parte final do segundo pai, e o outro com a parte final do primeiropai e a parte inicial do segundo pai. Esse processo mostrado na Figura 6.

    Figura 6: Processo do operador crossover no algoritmo gentico

    Por fim, o operador de mutao, segundo Zhou, Cheng e Zuo (2008), pode criarum novo indivduo alterando um de seus materiais genticos, conforme mostrado na

  • 2.4. Algoritmos genticos 20

    Figura 7, que no caso, o bit com valor 0 foi alterado para o valor 1. No entanto, a fimde preservar a estabilidade do algoritmo, a probabilidade de mutao deve ser pequena.

    Figura 7: Processo do operador mutao no algoritmo gentico

    Aps todos esses passos, uma nova gerao da populao foi formada, a qual sernovamente avaliada, reiniciando o ciclo do algoritmo gentico. Essa sequncia conti-nuar at que um dos critrios de parada seja alcanado.

    O Pseudocdigo 1 representa a lgica do funcionamento de um AG.

    Pseudocdigo 1: Lgica de um AG1: Gerar populao aleatria2: Enquanto no for atingido o critrio de parada3: Para cada indivduo da populao4: Decodificar o indivduo5: Avaliar o indivduo com a funo objetivo6: Armazenar a sua avaliao7: Fim Para8: Se nenhum indivduo atingiu o erro mnimo Ento9: Obtm uma nova gerao da populao

    10: Aplicar elitismo11: Aplicar crossover12: Aplicar mutao13: Fim Se14: Fim Enquanto15: Apresentar os indivduos mais aptos (solues para o problema)

    Na primeira linha gerada uma populao de indivduos, no qual cada indivduo codificado pelos parmetros, dependendo do problema a ser resolvido. Em seguida, dado incio a um ciclo de operaes que s ir parar quando um resultado satisfatriofor alcanado. Estas operaes consistem em avaliar cada indivduo para verificar seos parmetros que o mesmo armazena fornecem uma boa soluo para o problema.

    Na linha 3 iniciado uma iterao entre cada indivduo da populao. Como os pa-rmetros dos indivduos esto codificados, necessrio uma decodificao para trans-

  • 2.4. Algoritmos genticos 21

    formar novamente os parmetros em valores possveis de serem calculados e compa-rados (linha 4). Com os parmetros decodificados, possvel aplicar a funo objetivopara avaliar o indivduo (linha 5). Em seguida, a avaliao gerada pela funo obje-tivo armazenada para que futuramente possa ser comparada com os erros dos outrosindivduos (linha 6).

    Na linha 8 verificado se no houve nenhum caso em que um indivduo atingiu oerro mnimo aceitvel pelo problema. Se isso aconteceu, uma nova gerao geradacom base nos operadores genticos (linhas 9 a 12).

    Com uma nova gerao, teoricamente mais evoluda, o processo realizado no-vamente voltando para a linha 2, reiniciando o ciclo at que um ou mais indivduosestejam aptos para serem as solues do problema ou seja atingido o nmero mximode ciclos. Quando isso acontecer sero apresentados tais indivduos (linha 15).

    2.4.2 Trabalhos relacionados com AG

    Assim como as RNAs, os algoritmos genticos tambm so utilizados em diversasreas. O trabalho de Forrest (1993) exemplifica algumas reas em que o AG foi utili-zado, como, por exemplo, otimizao de funo, problemas de ordenao, programa-o automtica e modelos para processos dinmicos.

    possvel utilizar o AG em conjunto com outras tcnicas, como as redes neuraisartificiais. Em Hervs, Algar e Silva (2000) mostrado que o uso de AG e RNA semostrou til fazendo correes de variao de temperatura. Nesse caso, o AG determi-nava o nmero de entradas da RNA obtendo um resultado melhor do que comparadocom um mtodo paramtrico no-linear.

    Os AGs podem determinar toda a estrutura de uma RNA, como tambm apenasuma parte de sua configurao. Um exemplo desse caso o trabalho de Lin, Chiu eTsai (2006), no qual o algoritmo gentico era responsvel apenas por determinar osmelhores pesos na configurao da rede neural. Os outros parmetros eram determina-dos pelo conhecimento prvio do autor ou por meio de testes.

    Em Tarca, Grandjean e Larachi (2002) tambm foi utilizada a combinao de AGe RNA na rea da qumica. Nesse trabalho, as combinaes das variveis em questoeram inmeras, tornando muito demorado a resoluo do problema utilizando apenasRNA. Ento foi utilizada a combinao com o AG para acelerar a busca por uma so-luo desse problema combinatrio, diminuindo o processamento que durava semanaspara apenas algumas horas. O AG foi responsvel por determinar a melhor configura-o das camadas da RNA.

    Schaffer, Whitley e Eshelman (1992) realizaram um estudo sobre os principaispontos na combinao de AG e RNA, no qual foi visto que essa combinao pode fazer

  • 2.4. Algoritmos genticos 22

    com que a RNA auxilie o desenvolvimento do AG, assim como o AG pode auxiliar acriao da RNA. No caso do AG dando apoio RNA, podem ser definidas quais asentradas sero utilizadas na RNA, bem como a definio da sua prpria arquitetura. Jno caso da RNA apoiando o AG, normalmente so definidos os indivduos iniciais dapopulao. O trabalho conclui que o uso de AG para auxiliar uma RNA uma reapromissora no sentido de ter um retorno rpido de resultados em relao ao esforoaplicado e, por isso, tem sido aplicada com sucesso para vrios problemas do mundoreal.

    Com base nesses trabalhos percebe-se que a combinao entre algoritmo genticoe rede neural artificial possvel e est sendo aplicada com sucesso. Assim, nestetrabalho, com objetivo de preencher dados com falhas, o AG ser utilizado para de-terminar os principais parmetros da RNA. Alm disso, poder determinar tambmquais entradas disponveis sero utilizadas na RNA, j que neste caso h a possibili-dade de algumas entradas prejudicarem o desempenho da RNA. Mais detalhes sobre ouso dessas tcnicas ser visto na Seo 3.2.2.

  • Captulo 3

    Materiais e Mtodos

    Como foi dito anteriormente, uma srie de dados obtida de estaes micrometeorolgi-cas pode conter vrios tipos de erros. Estes erros podem ser ocasionados por problemasnos instrumentos presentes nas estaes, condies ambientais ou at mesmo falha hu-mana. Essa situao pode comprometer anlise de fenmenos que se baseiam nessesdados, sendo necessrio corrigir, de alguma forma, esses erros.

    Este trabalho tem o intuito de utilizar uma metodologia computacional com o ob-jetivo de substituir dados invlidos por valores estimados utilizando tcnicas de inte-ligncia artificial. De forma geral, a metodologia proposta consiste em obter dadoscoletados de estaes micrometeorolgicas; definir e aplicar o algoritmo gentico paraconfigurar uma rede neural, selecionando os principais atributos que sero utilizadosno clculo do preenchimento de falhas; treinar a RNA; executar a RNA para estimar ovalor que substituir o dado invlido; e analisar os resultados encontrados.

    3.1 A base de dados

    Os dados utilizados neste trabalho foram coletados na Estao Agroclimatolgica Pa-dre Ricardo Remetter, localizada em uma fazenda experimental (latitude: -15,78;longitude: -56,07; altitude: 140 metros) da Universidade Federal de Mato Grosso(UFMT). A fazenda est situada no municpio de Santo Antnio de Leverger na Bai-xada Cuiabana, Mato Grosso, Brasil, distante aproximadamente 28 quilmetros dacapital Cuiab.

    Esta estao fornece dados sobre temperatura do ar, umidade relativa, precipitao,velocidade do vento, radiao global, dentre outras variveis climticas. Os dados queesta estao gerou foram utilizados em diversos trabalhos de pesquisas do Programa dePs-Graduao em Fsica Ambiental da UFMT (NOVAIS, 2011; SEIXAS, 2009; NETO,2007; FONSECA, 2008).

    23

  • 3.1. A base de dados 24

    O perodo que os dados foram coletados corresponde 1 de janeiro 31 de de-zembro de 2006, totalizando 365 dias. Para cada dia foi realizada a leitura dos equipa-mentos da estao agroclimatolgica, armazenando ao todo 40 medidas representandovrias variveis climticas.

    Na Tabela 1 so descritos os atributos que foram selecionados para anlise, numprimeiro momento. Na tabela so mostrados o nome do atributo, a sua descrio e ointervalo dos valores armazenados para cada atributo, normalmente um nmero inteiroou decimal. No entanto, nem todos os atributos so necessrios para serem utilizadosna execuo da metodologia proposta. Houve uma necessidade de realizar um pr-processamento nesses dados antes de execut-la, como apresentado na Seo 3.2.1.

    Tabela 1: Descrio dos atributos na base de dadosAtributo Descrio Intervalo dos ValoresDia Dia juliano 1 - 365P12 Presso atmosfrica do ar na altura 12 9371 - 10072P18 Presso atmosfrica do ar na altura 18 9872 - 10028P24 Presso atmosfrica do ar na altura 24 9885 - 10039P Presso atmosfrica do ar mdia 974,73 - 1004,27Tem12 Temperatura com bulbo seco na altura 12 14,2 - 31,8Tem18 Temperatura com bulbo seco na altura 18 19,9 - 38,6Tem24 Temperatura com bulbo seco na altura 24 17,2 - 32,2Tbu12 Temperatura com bulbo mido na altura 12 11,0 - 26,7Tbu18 Temperatura com bulbo mido na altura 18 13,7 - 27,8Tbu24 Temperatura com bulbo mido na altura 24 13,4 - 27,4TX Temperatura do ar mxima 20,8 - 38,8TN Temperatura do ar mnima 11,1 - 26,1T Temperatura com bulbo seco mdia 17,24 - 30,88Tbu Temperatura com bulbo mido mdia 13,02 - 27,0UR12 Umidade relativa do ar na altura 12 36 - 100UR18 Umidade relativa do ar na altura 18 15 - 99UR24 Umidade relativa do ar na altura 24 37 - 100UR Umidade relativa do ar mdia 35,75 - 99Prec Precipitao 0 - 75,5Evapo Evaporao 2 - 147INSOL Insolao 0,1 - 118V12 Velocidade do vento na altura 12 4 - 9V18 Velocidade do vento na altura 18 4 - 9V24 Velocidade do vento na altura 24 2 - 7V Velocidade do vento mdia 4 - 8Qn Saldo de radiao 2,09 - 14,18N Fotoperodo 10,95 - 12,83

    Os instrumentos instalados na rea de estudo deste trabalho so (CARRILHO, 2011):

    Saldo radimetro NR LITE (Kipp e Zonen Delft, Inc., The Netherlands)

  • 3.2. Metodologia proposta 25

    Piranmetros LI-200X-L (Campbell Scientific, Inc., USA)

    Sensores quantum LI50 190SB-L (Campbell Scientific, Inc., USA)

    Termohigrmetros HMP 45AC (Vaisala, Inc., Helsinki, Finland)

    Anemmetros de conchas 03101-L Wind Sentry Anemometer (RM Young, Inc.,USA)

    Anemmetro de concha e medidor da direo do vento 03002-L Wind SentrySet (RM Young, inc., USA)

    Placa de fluxo de calor HFP01 (Rukseflux, Inc., The Netherlands)

    Reflectmetro CS616 Soil Misture Sensor (Campbell Scientific, Inc., USA)

    Radimetro Infravermelho de Preciso SI-111 (Precision Infrared Radiometer -Campbell Scientific, Inc., USA)

    Pluvimetro de bscula TR-525M Rainfall Sensor (Texas Eletronics, Inc., USA)

    Dataloggers CR 1000 (Campbell Scientific, Inc., USA)

    Placa multiplexadora AM16/32a-ST-SW (Campbell Scientific, Inc., USA)

    3.2 Metodologia proposta

    Neste trabalho, a metodologia proposta para preenchimento de falhas em dados micro-meteorolgicos leva em considerao os valores mensurados por outros sensores nomesmo momento que ocorreu a falha. Ou seja, para preencher a falha de um sensorque mede o saldo de radiao, por exemplo, sero considerados os valores mensuradosda temperatura, insolao e velocidade do vento, naquele mesmo instante.

    Para tanto, a partir dos dados coletados pela estao micrometeorolgica, seroidentificadas quais variveis climticas esto relacionadas com o sensor que falhou emsua leitura e, posteriormente, ser calculado o valor ausente, com base nessas variveisclimticas. Na Figura 8 so mostradas as etapas da metodologia proposta.

    Figura 8: Etapas da metodologia proposta para preenchimento de falhas

  • 3.2. Metodologia proposta 26

    Inicialmente, os dados devem ser pr-processados para que seja possvel distinguirentre o sensor que deve ser restaurado com os sensores que ajudaro nesse processo.

    O segundo passo consiste em determinar os valores dos parmetros de treinamentoque sero utilizados na RNA, utilizando AG, e verificar quais sensores esto relacio-nados com o sensor que sofreu a falha.

    Aps a especificao dos parmetros da rede, a terceira fase realiza o treinamentoda RNA, que tem o objetivo de preencher as falhas do sensor escolhido. Com a RNAtreinada, ser possvel utiliz-la para estimar os valores dos dados com falhas, para quepossam ser preenchidos.

    Para ilustrar esse procedimento, o funcionamento da metodologia proposta podeser visto de forma mais detalhada na Figura 9. Nela so mostrados os principais passosutilizados no preenchimento de falhas de dados micrometeorolgicos.

    Primeiramente alguns dados sem falhas so utilizados pelo AG com o intuito defazer com que o sistema entenda os padres dos dados. Assim, o AG ir determinar amelhor configurao para a RNA que preencher as falhas. Durante o processamentodo AG, sero criadas vrias RNAs de acordo com as configuraes armazenadas nosindivduos gerados pelo prprio AG.

    Cada RNA ser avaliada utilizando os dados inseridos no AG para verificar se talconfigurao boa para o preenchimento de falhas. Isso feito comparando o resultadoestimado pela RNA com o valor real medido pelos sensores, por isso a importncia deiniciar o AG com uma srie de dados sem falhas. No final da execuo do AG umindivduo ser selecionado como o mais apto da populao, isso significa que o seucontedo representa a melhor configurao da RNA para o preenchimento de falhasdestes dados.

    A RNA criada de acordo com as configuraes do indivduo mais apto, ser utili-zada para o preenchimento de falhas da srie de dados. Depois, possvel execut-latendo como entrada os dados que possuem falhas em seus registros. No final da exe-cuo da RNA todos os dados invlidos sero substitudos por valores estimados pelaRNA, preenchendo todas as falhas.

    Nas sees a seguir, sero apresentados detalhes de cada fase dessa metodologia, apreparao dos dados, determinao da configurao da RNA, treinamento da RNA e,finalmente, o preenchimento de falhas.

    3.2.1 Preparao dos dados

    A etapa de preparao dos dados responsvel por pr-processar a base de dados demaneira que se possa trabalh-los de maneira adequada. necessrio escolher quaisatributos da base sero utilizados, j que o processamento demanda muito esforo,

  • 3.2. Metodologia proposta 27

    Figura 9: Diagrama da sequncia de passos necessrios para realizar o preenchimentode falhas

  • 3.2. Metodologia proposta 28

    e deixar dados irrelevantes na base poderia aumentar o tempo de processamento. Aescolha dos atributos geralmente realizada por um especialista capaz de identificarquais variveis climticas esto relacionadas.

    Um ponto importante nesta etapa verificar se todos os valores das sries de dadosesto no formato numrico. Tanto o AG quanto a RNA trabalham melhor com dadosnumricos, ento se houver algum atributo na srie de dados que apresente valoresno formato alfabtico, estes devem ser codificados em nmeros antes de inser-los naarquitetura e decodificados depois dos resultados finais, retornando ao seu formatooriginal.

    Na Tabela 2 apresentada uma amostra de como ficou a base de dados aps essepr-processamento. Assim, o conjunto de dados utilizado nesse trabalho contm dadosque representam um ano com 365 dias (exemplos) e os seguintes atributos: as pressoatmosfrica (P), temperatura mdia (T), umidade relativa do ar (UR), insolao (IN-SOL), velocidade mdia do vento (V), fotoperodo (N) e saldo de radiao (Qn). Nototal permaneceram sete atributos.

    Tabela 2: Amostra de dados obtidos pelos equipamentos micrometeorolgicosP T UR INSOL V N Qn

    991,9 27,7 79,8 85 8 11,99 10,42992,3 26,9 84,8 63 7,66 11,98 9,16992,0 26,5 86,5 51 7,33 11,96 8,35992,2 26,1 89,0 26 6,66 11,95 6,88993,0 24,7 98,3 7 5,66 11,93 5,81992,5 25,8 87,0 33 6,66 11,92 7,29994,3 26,0 86,0 40 7 11,90 7,58

    O prximo passo dividir a base de dados em um conjunto de treinamento e umconjunto de teste. O conjunto de treinamento serve para o AG e a RNA aprenderemos padres das sries de dados e, com isso, encontrar um modelo que possa preencheras falhas quando necessrio. J o conjunto de teste servir para verificar se a RNAaprendeu corretamente os padres das sries de dados, validando sua configurao.

    Para anlise dos resultados foram realizadas vrias simulaes diferentes, maisespecificamente cinco maneiras diferentes. O objetivo foi verificar o desempenho dametodologia proposta quando houvesse poucos dados que apresentassem falhas e, deforma crescente, quando houvesse vrias falhas na srie de dados.

    Na primeira simulao apenas 5% dos dados foram aleatoriamente selecionadoscomo dados invlidos. Isso quer dizer que esses 5% foram utilizados na fase de testes,no qual o sistema no tinha conhecimento sobre qual o valor correto para o respectivosensor. Os outros 95% serviram para a fase de treinamento, ou seja, dados que sousados para aprender os padres presentes nas sries de dados. A mesma abordagem

  • 3.2. Metodologia proposta 29

    foi utilizada nas demais simulaes, para 10%, 20%, 30% e, por fim, 40% represen-tados como dados invlidos. Na Tabela 3 so apresentadas as informaes das cincosimulaes.

    Tabela 3: Nmero de exemplos sinalizados como invlidos para a fase de testes e n-mero de exemplos reservados para a fase de treinamento em cada simulao realizada

    Quantidade de exemplosSimulao % Falhas com Falhas para Treinamento

    1 5 18 3472 10 36 3293 20 73 2924 30 109 2565 40 146 219

    3.2.2 Determinando a configurao da RNA com AG

    Nesta etapa determinada a configurao da RNA responsvel pelo preenchimentode valores em dados com falhas. O algoritmo gentico ser utilizado para determi-nar quais sensores sero utilizados para preencher as falhas (seleo de atributos) edeterminar os parmetros para o treinamento da RNA.

    possvel que na entrada de dados existam diversos tipos de sensores diferentes,cada um com milhares de medidas de uma varivel climtica. interessante que o AGselecione previamente quais sensores esto relacionados com o sensor que ocasionouo erro a fim de evitar duas situaes:

    Dados de um sensor, que no tenha relao direta com o sensor a ser ajustado,gere falsos padres entre os dados, causando um baixo desempenho no preen-chimento dos valores com falha.

    Aumento do volume de dados no processamento da RNA e, assim, aumento dotempo de processamento da mesma.

    Com relao aos parmetros da RNA, o AG ir testar vrios valores diferentes coma inteno de obter a melhor combinao dos parmetros de acordo com os dadosutilizados no treinamento. Neste trabalho, o AG determinar os seguintes parmetrosda RNA:

    Funo de ativao da camada oculta e da camada de sada: funo responsvelpor fornecer o valor de sada de um neurnio para a prxima camada.

    Algoritmo de treinamento: procedimento que escolhe o algoritmo que determinacomo a rede neural deve ser treinada.

  • 3.2. Metodologia proposta 30

    Taxa de aprendizagem: parmetro que determina a velocidade do aprendizadoda rede neural, sendo que um valor muito alto pode causar oscilaes durante otreinamento e dificultar a aprendizagem da RNA.

    Taxa de momentum: parmetro que tambm est relacionado com a velocidadedo aprendizado, que considera as mudanas nas interaes anteriores da buscapara diminuir a instabilidade no treinamento.

    Um ponto importante em um algoritmo gentico a forma que os indivduos desua populao so estruturados. Como visto na Seo 2.4.1, os indivduos armazenamem sua estrutura parmetros que representam uma possvel soluo para o problema.

    O nmero de bits influencia no nmero de combinaes possveis que o AG podegerar. Quanto maior o nmero de combinaes, maior so as chances de ter um indi-vduo com a soluo ideal para o problema a ser solucionado. Entretanto, o nmero decombinaes possveis proporcional ao tempo de processamento para achar uma boasoluo. Por isso necessrio haver um balanceamento do nmero de bits que cadaparmetro ter armazenado nos indivduos.

    Neste trabalho, os indivduos do AG foram codificados por 18 bits, ilustrados naFigura 10, na qual representam:

    Figura 10: Representao do indivduo no AG

    (a) e (b): Funo de ativao da camada oculta (a) e funo de ativao da camada desada (b).

    Neste caso, dois bits foram reservados para cada camada, possibilitando que qua-tro tipos de funo de ativao possam ser escolhidas para cada uma. As qua-tro funes de ativao selecionadas foram escolhidas por serem utilizadas comfrequncia na literatura. As funes de ativao utilizadas so (MATHWORKS,2011):

    Linear transfer function (bits 10)

    purelin(n) = n (1)

  • 3.2. Metodologia proposta 31

    Log sigmoid transfer function (bits 01)

    logsig(n) =1

    1+ en(2)

    Hyperbolic tangent sigmoid transfer function (bits 00)

    tansig(n) =2

    (1+ e2n)1 (3)

    Saturating linear transfer function (bits 11)

    satlin(n) =

    0, se n 0n,se 0 n 11, se 1 n

    (4)

    (c): Algoritmo de treinamento.

    Tambm foram reservados dois bits para representar o algoritmo de treinamento,podendo ento ser selecionados quatro algoritmos de treinamento. As quatroopes de algoritmo de trinamento utilizados neste trabalho foram selecionadospor j se saber que tais algoritmos so eficazes com estes tipos de dados. Osalgoritmos de treinamento utilizados so (MATHWORKS, 2011):

    Gradient descent backpropagation (bits 10): atualiza os valores dos pesose do limiar baseado na direo negativa do gradiente. Uma limitao queo resultado pode convergir para um ponto de mnimo local.

    Levenberg-Marquardt backpropagation (bits 01): atualiza os valores dospesos e do limiar de acordo com o algoritmo de Levenberg-Marquardt(LM). Segundo (LOURAKIS, 2005), o algoritmo de LM pode ser pensadocomo uma combinao mais acentuada do mtodo de Gauss-Newton. Avantagem desse algoritmo de treinamento que ele muito rpido, apesarde consumir muita memria.

    Resilient backpropagation (bits 00): atualiza os valores dos pesos e dolimiar com base no algoritmo do prprio nome. Segundo Chen e Su (2010), um algoritmo de primeira ordem e seu tempo e escalas de requisito dememria mudam linearmente com o nmero de parmetros, o que bomse estiver trabalhando com muitos parmetros.

    Gradient descent with momentum and adaptive learning rate backpropa-gation (bits 11): alm de levar em considerao o gradiente para atualizaros valores dos pesos e do limiar, considera tambm a taxa de momentum.

  • 3.2. Metodologia proposta 32

    (d) e (e): Taxa de aprendizado (d) e taxa de momentum (e).

    Para essas taxas foram reservados trs bits, possibilitando que os seus valoresvariem de 0,1 a 0,8.

    (f) - (k): Sensores.

    Para cada sensor foi reservado um bit indicando se o mesmo deve ou no serutilizado no preenchimento de falhas. Por exemplo, se o sensor de temperaturaestiver sendo sinalizado pelo bit (h), e este bit estiver com o valor 1, significaque o sensor de temperatura deve ser utilizado. Se estiver sinalizado como 0,significa que este sensor deve ser ignorado.

    Um detalhe importante que quando o EnvRP for implementado utilizando estametodologia, ser possvel fazer com que tanto as funes de ativaes quanto os algo-ritmos de treinamento sejam parametrizados. Ou seja, haver a possibilidade de que acada execuo do sistema possam ser testados tipos diferentes de funes de ativaoou algoritmos de treinamento, havendo uma maior liberdade para a sua escolha. Outrosparmetros tambm podero ser modificados a cada execuo, como, por exemplo, onmero de ciclos mximo do AG ou de iteraes da RNA, que atualmente esto fixosem 100 e 400, respectivamente.

    Outra questo importante de um algoritmo gentico a sua funo objetivo. Nessecaso essa funo calculada da seguinte forma. Primeiramente uma RNA criadautilizando os parmetros definidos no indivduo a ser avaliado. Posteriormente a RNA treinada e seu desempenho avaliado. Quanto melhor o desempenho da RNA, maisapto o indivduo avaliado.

    Quando a populao de indivduos atinge um erro aceitvel, o AG deixa de serexecutado e o resultado apresentado mostrando as melhores combinaes de sensorese parmetros da rede neural, que poder preencher as falhas encontradas.

    3.2.3 Treinamento da RNA

    A RNA treinada de acordo com a configurao obtida pelo AG. Logo, ser o AG queespecifica qual funo de ativao da camada oculta, funo de ativao da camada desada, algoritmo de treinamento, taxa de aprendizagem e taxa de momentum que seroatribudas arquitetura da RNA.

    No caso do nmero de neurnios da RNA, foi utilizado o teorema de Kolmogorov-Nielsen, citado na Seo 2.3.1. O n representa o nmero de neurnios na camada deentrada. Assim, a RNA utilizada nas simulaes deste trabalho tem no mximo n = 6(nmero de sensores), e contm no mximo 2n+1 = 13 neurnios na camada oculta.

  • 3.2. Metodologia proposta 33

    Esse valor pode ser menor, j que o nmero de entradas pode ser reduzido caso sejadetectado que no h necessidade do uso de algum sensor.

    A RNA ento tem todos os parmetros configurados e, assim, possvel execut-lainiciando o treinamento. A RNA ter como entrada o conjunto de dados separadospara o treinamento e, depois de vrios ciclos de processamento, o resultado da RNAidentificar o quo apta est a estrutura para resolver o problema proposto de preen-chimento de falha. Com a rede treinada, ela est pronta para que o preenchimento dedados com falhas seja iniciado.

    3.2.4 Preenchimento dos valores ausentes

    O processo nesta fase consiste em informar RNA quais os valores dos outros sensoresno mesmo momento que ocorreu a falha em questo, como mostrada na Figura 11.

    Figura 11: Ilustrao do preenchimento de um valor ausente utilizando a RNA treinada

    No exemplo da Figura 11, a medida do sensor de temperatura no foi armazenadacom sucesso, causando uma falha. Para resolver isso, todas as outras medidas, dosoutros sensores, no mesmo momento que houve a falha foram enviadas para a RNAtreinada. Esta, por sua vez, com base nos valores informados, consegue estimar o valorda temperatura que deveria ser armazenado e, assim, preenchendo o valor ausente.

    Esse procedimento foi utilizado para preencher uma nica falha. Mas a partir domomento que a RNA est treinada, ela pode ser executada em quantas falhas foremnecessrias, desde que a falha seja da mesma srie de dados. Caso a falha seja de outrasrie de dados, a RNA deve ser novamente treinada para que aprenda os padres dessanova srie de dados.

    Vale ressaltar que, para preencher uma falha no so utilizadas medidas dos outrossensores em um momento diferente de quando ocorreu a falha, porque so utilizadosapenas valores do mesmo momento que ocorreu a falha. Isso significa que mesmo se

  • 3.3. Ambiente de programao 34

    houver uma sequncia de falhas consecutivas, como por exemplo 5 dias seguidos defalhas, a metodologia proposta neste trabalho conseguiria tratar esse problema. Esse um ponto que se diferencia de outras metodologias, que normalmente utilizam dadosprximos falha para substituir o valor invlido, impossibilitando que tenha uma boapreciso em falhas sequenciais.

    3.3 Ambiente de programao

    A implementao tanto do algoritmo gentico quanto da rede neural artificial foi desen-volvida utilizando o ambiente de programao do software Matlab (MATLAB, 2011),utilizando a verso R2010a. Na Figura 12 mostrada a sua interface.

    Figura 12: Ambiente de programao do Matlab

    O Matlab um ambiente que contm uma linguagem de alto desempenho, prin-cipalmente para as operaes matemticas que precisam de um processamento maior.Ele foi planejado para obter resultados rpidos para as operaes mais complexas, que o caso dos procedimentos realizados com os algoritmos genticos e as redes neuraisartificiais.

    Tanto o algoritmo gentico quanto a rede neural artificial foram programados nesseambiente, sendo que a RNA utilizou um componente chamado Neural Network Tool-box. A Neural Network Toolbox prov ferramentas para projeto, implementao, vi-sualizao e simulao de uma rede neural (BEALE; HAGAN; DEMUTH, 2011).

  • 3.4. Avaliao de desempenho 35

    Agregando os fundamentos de algoritmo gentico e redes neurais pesquisados, noambiente de programao Matlab, foi possvel desenvolver a metodologia propostapara o preenchimento de falhas em dados micrometeorolgicos.

    No Apndice A pode ser visto o cdigo fonte da implementao do algoritmo ge-ntico, assim como suas funes auxiliares para codificar e decodificar um indivduo.No Apndice B mostrado o cdigo fonte da rede neural artificial.

    3.4 Avaliao de desempenho

    A validao estatstica da estimativa do modelo foi baseada nos erros individuais (ei) decada estimativa, mostrado na Eq. (5), onde Pi(i = 1,2, ...,n) so os valores estimadose Oi(i = 1,2, ...,n) so os valores reais (WILLMOTT; MATSUURA, 2005).

    ei = PiOi (5)

    Com o erro individual de cada estimativa, calculado o desempenho do modelousando do Mean Absolute Error (MAE), mostrado na Eq. (6), no qual a diferena damdia pode ser alternativamente descrita pela raiz quadrada mdia do erro (WILLMOTT,1982). Segundo Willmott, Matsuura e Robeson (2009), essa a melhor forma deavaliao para modelos ambientais, devido principalmente a presena de outliers, ouseja, dados discordantes comparados ao restante da srie de dados (PIRES A. M., 1999),e dados com desvio de normalidade.

    MAE =

    [n1

    i=n

    i=1|e1|2

    ](6)

    Alm da avaliao pelo erro mdio absoluto, foi obtido o desvio padro de cadasimulao para assegurar se o preenchimento de falhas teve uma boa preciso. SegundoAssumpo et al. (2010), o desvio padro a maneira mais comum de medir a variaoem um conjunto de amostras, quanto menor o desvio padro, menor o erro entre elas.Em Santos et al. (2007) mostrado como deve ser feito o clculo do desvio padro (),representado na Eq. (7).

    =

    ni=1 (Ki K)2

    n1 (7)

    Onde Ki os valores estimados e K o valor esperado dado pela Eq. (8).

    K =n

    i=1

    Kin

    (8)

  • Captulo 4

    Resultados e Discusso

    Para analisar o desempenho da metodologia proposta foram realizadas diversas simu-laes de preenchimento de falhas sobre os dados apresentados na Seo 3.1, paraos valores de cada sensor . Como citado na metodologia, primeiramente houve umapreparao dos dados, resultando em uma base semelhante mostrada na Tabela 2, de-pois houve o processamento do AG e, posteriormente, o processamento da RNA parapreencher as falhas na srie dos dados.

    Nas sees a seguir so detalhados os resultados do AG, da RNA e da anlise es-tatstica para as simulaes realizadas dos sensores de temperatura, saldo de radiao,fotoperodo, umidade e insolao.

    4.1 Resultados obtidos

    Para cada simulao usando os sensores, so mostrados os melhores resultados encon-trados pelo AG, no qual:

    f1: funo de ativao utilizada para a camada oculta.

    f2: funo de ativao utilizada para a camada de sada.

    train: algoritmo de treinamento.

    lr: taxa de aprendizado.

    mc: taxa de momentum.

    s: simboliza o uso dos sensores.

    As funes de ativaes disponveis foram a Saturating linear transfer function(satlin), Linear transfer function (purelin), Hyperbolic tangent sigmoid transfer func-tion (tansig) e Log sigmoid transfer function (logsig). Os algoritmos de treinamento

    36

  • 4.1. Resultados obtidos 37

    possveis foram o Resilient backpropagation (trainrp), Gradient descent backpropa-gation (traingd), Levenberg-Marquardt backpropagation (trainlm) e Gradient descentwith momentum and adaptive learning rate backpropagation (traingdx).

    O s simboliza os sensores, no qual st , ss, s f , su, si, sv e sp representam, respectiva-mente: temperatura, saldo de radiao, fotoperodo, umidade relativa do ar, insolao,velocidade mdia do vento e presso atmosfrica, e informam se o sensor foi utilizadona entrada da RNA.

    Nos preenchimento de falhas realizados, houve um tempo de processamento quedurou entre uma a quatro horas para cada simulao.

    4.1.1 Resultado do preenchimento de falhas para temperatura

    Na Tabela 4 mostrado o resultado do AG para as simulaes de temperatura.

    Tabela 4: Resultados encontrados pelo AG nos testes realizados da temperatura (T)% Falhas f1 f2 train lr mc sp su si sv s f ss

    5 tansig tansig trainrp 0,5 0,1 s s s s10 satlin tansig traingd 0,2 0,4 s s s s s s20 tansig tansig trainrp 0,2 0,7 s s s s s30 logsig purelin trainrp 0,1 0,2 s s s40 tansig purelin trainrp 0,1 0,1 s s s s

    Por exemplo, na simulao com 5% de dados com falhas, a arquitetura da RNA definida com as funes de ativao Hyperbolic tangent sigmoid transfer function(tansig) na camada oculta e na camada de sada, o algoritmo de treinamento Resili-ent backpropagation (trainrp), uma taxa de aprendizado 0,5, uma taxa de momentum0,1 e tendo como entrada as medies de umidade relativa do ar (su), insolao (si),fotoperodo (s f ) e saldo de radiao (ss).

    interessante observar que com 10% de falhas, foi utilizado como entrada os valo-res de todos os sensores e com 30% foram necessrios apenas trs sensores: umidade,fotoperodo e saldo de radiao. O sensor de presso atmosfrica foi utilizado apenasna simulao de 10% de falhas.

    Os coeficientes de correlao entre os valores medidos e os valores estimados pelaRNA para os dados de temperatura so apresentados na Figura 13. Os valores mostramque h forte correlao entre os valores medidos e estimados.

    Como era previsto, a maior correlao encontrada foi para o teste com 5% de falhase o pior para o teste com 40% de falhas, j que no primeiro caso h um maior nmerode exemplos para o treinamento, enquanto no ltimo caso h um menor nmero deexemplos para treinamento e um grande nmero de exemplos para o preenchimento defalhas.

  • 4.1. Resultados obtidos 38

    Figura 13: Valores dos coeficientes de correlao para temperatura

    Figura 14: Valores comparativos entre os valores esperados e os valores obtidos pelaRNA nos dados de temperatura

  • 4.1. Resultados obtidos 39

    A simulao com 5% teve correlao de 0,97, j a simulao com 10% teve umresultado de aproximadamente 0,95. As simulao de 20% e 30% tiveram um resultadosemelhante em 0,93. E de 40%, com a menor correlao, 0,92, porm, relativamenteprximos aos anteriores.

    O grfico mostrado na Figura 14 faz um comparativo entre o valor medido peloequipamento de temperatura (sem falhas) com os valores obtidos usando a metodolo-gia proposta neste trabalho. Pelo grfico pode ser observado que com apenas 5% defalhas na srie de dados, o comportamento obtido pela metodologia aplicada muitoeficiente. Com o aumento da quantidade de falhas na srie de dados essa eficincia di-minui. importante observar que mesmo com 40% dos dados faltantes, a metodologiateve um desempenho satisfatrio no preenchimento das falhas.

    4.1.2 Resultado do preenchimento de falhas para saldo de radia-o

    Para os testes com os dados de saldo de radiao, so mostrados os melhores resultadosencontrados pelo AG para cada teste realizado, na Tabela 5.

    Tabela 5: Resultados encontrados pelo AG nos testes realizados do saldo de radiao(Qn)

    % Falhas f1 f2 train lr mc sp st su si sv s f5 tansig tansig traingd 0,3 0,8 s s s10 tansig purelin trainrp 0,8 0,5 s s s20 satlin purelin trainlm 0,1 0,1 s s s s s30 satlin purelin trainrp 0,6 0,2 s s s s s40 satlin purelin trainlm 0,1 0,1 s s s s s

    Pode ser observado que o sensor de velocidade do vento (sv) no foi utilizado emnenhuma simulao de preenchimento de falhas no saldo de radiao. Isso pode acon-tecer porque, provavelmente, no foi encontrado relaes entre esses sensores. Logo,significa que tais sensores no so necessrios para preencher as falhas.

    Para esses testes de preenchimento de falhas, os coeficientes de correlao entre osvalores medidos e os valores estimados pela RNA so apresentados na Figura 15. Paraeste sensor o resultado foi melhor que o anterior no preenchimento de falhas.

    Pode ser observado que em todas as simulaes houve uma correlao maior que0,99. No grfico mostrado na Figura 16 h uma comparao do valor mensurado peloequipamento em campo relativo ao saldo de radiao com os valores estimados.

  • 4.1. Resultados obtidos 40

    Figura 15: Valores dos coeficientes de correlao para saldo de radiao

    Figura 16: Valores comparativos entre os valores esperados e os valores obtidos pelaRNA nos dados de saldo de radiao

  • 4.1. Resultados obtidos 41

    4.1.3 Resultado do preenchimento de falhas para fotoperodo

    Na Tabela 6 so mostrados os melhores resultados encontrados pelo AG para cada testerealizado com os dados do fotoperodo.

    Tabela 6: Resultados encontrados pelo AG nos testes realizados do fotoperodo (N)% Falhas f1 f2 train lr mc sp st su si sv ss

    5 tansig tansig trainrp 0,5 0,1 s s s10 satlin tansig trainlm 0,3 0,2 s s20 satlin purelin trainrp 0,6 0,2 s s30 tansig purelin trainrp 0,4 0,5 s s s40 satlin purelin trainrp 0,6 0,2 s s s s s

    No resultado deste AG, em duas simulaes foram utilizados apenas dois sensorespara a entrada da RNA. Na simulao de 10% foram selecionados os sensores de inso-lao (si) e saldo de radiao (ss), e na de 20% os sensores de umidade (su) e insolao(si).

    No caso do preenchimento de falhas para o fotoperodo, so apresentados na Fi-gura 17 os coeficientes de correlao entre os valores medidos e os valores estimados.

    Figura 17: Valores dos coeficientes de correlao para fotoperodo

    Nas correlaes do fotoperodo possvel notar que houve uma regularidade na efi-ccia do preenchimento de falhas, sendo que os valores dos coeficientes de correlaoficou entre 0,971 e 0,984.

  • 4.1. Resultados obtidos 42

    Na Figura 18 mostrada a comparao entre os valores mensurados e os valoresestimados.

    Figura 18: Valores comparativos entre os valores esperados e os valores obtidos pelaRNA nos dados de fotoperodo

    4.1.4 Resultado do preenchimento de falhas para umidade

    Na Tabela 7 so mostrados os melhores resultados encontrados pelo AG para cada testerealizado com os dados de umidade.

    Tabela 7: Resultados encontrados pelo AG nos testes realizados da umidade (UR)% Falhas f1 f2 train lr mc sp st si sv s f ss

    5 satlin purelin trainrp 0,1 0,1 s s s s10 satlin purelin trainrp 0,3 0,1 s s s s s20 tansig tansig trainrp 0,7 0,4 s s s s s30 satlin tansig traingdx 0,4 0,6 s s s s s40 satlin purelin trainrp 0,1 0,1 s s s s s

    O sensor de presso atmosfrica (sp) no foi utilizado em nenhuma simulao.Em compensao, praticamente todos os outros sensores foram utilizados em todasas simulaes, com exceo do sensor de temperatura (st) que no foi utilizado nasimulao de 5% de falhas.

  • 4.1. Resultados obtidos 43

    Figura 19: Valores dos coeficientes de correlao para umidade

    Figura 20: Valores comparativos entre os valores esperados e os valores obtidos pelaRNA nos dados de umidade

  • 4.1. Resultados obtidos 44

    Na Figura 19 mostrado que no sensor de umidade tambm houve um bom de-sempenho no preenchimento das falhas.

    O menor coeficiente de correlao dos dados de umidade foi de 0,91, e por incr-vel que parece na simulao com menos falhas (5%). Os valores dos coeficientes decorrelao variaram de 0,912 a 0,956 possvel observar na Figura 20 a comparaoentre os valores mensurados e os valores estimados dos dados de umidade.

    4.1.5 Resultado do preenchimento de falhas para insolao

    Por fim, na Tabela 8 so mostrados os resultados do AG com relao aos dados deinsolao.

    Tabela 8: Resultados encontrados pelo AG nos testes realizados da insolao (INSOL)% Falhas f1 f2 train lr mc sp st su sv s f ss

    5 logsig tansig trainrp 0,5 0,7 s s s s10 satlin tansig trainrp 0,6 0,5 s s s s s20 tansig tansig trainrp 0,7 0,4 s s s s30 satlin purelin trainrp 0,3 0,7 s s s s s40 satlin purelin traingd 0,2 0,6 s s s s s

    O sensor de presso atmosfrica (sp) mais uma vez foi pouco utilizado (apenas nasimulao de 10% de falhas). importante ressaltar que a no seleo de um sensorno significa que a varivel climtica representada por este sensor no est relacionadacom os dados do sensor que est sendo preenchido, significa que, neste caso, paraos dados utilizados, a metodologia no precisou de seus valores para estimar o valorausente.

    Da mesma forma que nos outros sensores, na simulao do sensor de insolaohouve bons resultados como pode ser visto na Figura 21.

    Assim como nos dados referentes temperatura, houve uma maior correlao noteste com 5% de falhas, diminuindo a eficcia com o aumento das falhas. A compara-o entre os valores mensurados e os valores estimados dos dados de insolao podemser vistos na Figura 22.

    Pode ser observado que em sries de dados com poucas falhas (5%) ou em sries dedados com muitas falhas (40%) a metodologia utilizada conseguiu atingir os objetivospropostos. Considerando todas as simulaes apresentadas, os valores de coeficientede correlao variaram de 0,912 a 0,995.

  • 4.1. Resultados obtidos 45

    Figura 21: Valores dos coeficientes de correlao para insolao

    Figura 22: Valores comparativos entre os valores esperados e os valores obtidos pelaRNA nos dados de insolao

  • 4.2. Anlise estatstica dos resultados 46

    4.2 Anlise estatstica dos resultados

    Como mencionado na Seo 3.4, foi feito o clculo do Erro Mdio Absoluto (MeanAbsolute Error) para as estimativas realizadas. Na Tabela 9 mostrado o valor doMAE para cada simulao.

    Tabela 9: Erro mdio absoluto para cada simulao realizadaMAE

    Falhas Temperatura Saldo de radiao Fotoperodo Umidade Insolao5% 0,57 0,39 0,57 3,33 5,0510% 0,68 0,34 0,11 2,94 5,2620% 0,77 0,30 0,11 2,92 6,2030% 0,68 0,33 0,09 3,88 8,0040% 0,77 0,33 0,11 4,12 8,25

    Os valores do MAE indicam resultados satisfatrios para os testes realizados. im-portante lembrar que o valor do MAE est relacionado unidade da varivel envolvida.No caso da temperatura, podemos dizer que o erro da estimativa est em 0,57 C paramais ou para menos no momento de preencher as falhas na simulao de 5%, o que um valor baixo considerando que o intervalo de valores da temperatura nestes dados de 17,24 a 30,88 C. A mesma ideia pode ser aplicada para as outras simulaes.

    Outro ponto que deve ser observado que nas simulaes de 40% h pouca di-ferena no valor do MAE, o que significa que a metodologia proposta tem um bomdesempenho inclusive com grandes quantidades de falhas. Na Figura 23 so mostra-dos os valores do erro mdio absoluto das simulaes realizadas de cada sensor.

    Tambm foi analisado o desvio padro dos dados para cada simulao, mostradona Tabela 10.

    Tabela 10: Valores do desvio padro para cada simulao realizada

    Falhas Temperatura Saldo de radiao Fotoperodo Umidade Insolao5% 1,90 3,32 1,90 9,94 29,4910% 2,01 3,13 0,60 9,09 27,5520% 2,10 3,19 0,64 12,58 27,5530% 2,19 3,21 0,67 11,87 26,9740% 2,13 3,06 0,66 11,85 27,07

    Nos testes realizados, a diferena entre o valor real (medido em campo) e o valorestimado raramente maior do que o desvio padro calculado para cada simulao,mostrando que a estimativa gerada pela metodologia est tendo um bom desempenhono preenchimento de falhas. Alm disso, com base nos resultados encontrados nos

  • 4.2. Anlise estatstica dos resultados 47

    Figura 23: Erro mdio absoluto de todas as simulaes realizadas

    coeficientes de correlao e nos MAEs para as variveis climticas utilizadas, pode serdito que a eficcia da metodologia proposta foi validada.

    Os resultados tambm esto sendo validados por especialistas do domnio e traba-lhos comparativos com outras tcnicas esto sendo analisadas.

  • Captulo 5

    Consi