classification of diaphorina citri into microscopy...

6
Classification of Diaphorina citri into Microscopy Images Jos´ e Leonardo dos Santos Melo, Michele F´ ulvia Angelo os-Graduac ¸˜ ao em Computac ¸˜ ao Aplicada (PGCA) Departamento de Tecnologia (DTEC) Universidade Estadual de Feira de Santana (UEFS) odulo 3, Av. Transnordestina, s/n – Novo Horizonte 44.036-900 – Feira de Santana – BA – Brasil Email: [email protected], [email protected] Marcelo Pedreira de Miranda Fundo de Defesa da Citricultura (FUNDECITRUS) Av. Dr. Adhemar Pereira de Barros, 201 – Vila Melhado 14807-040 – Araraquara – SP – Brasil Email: [email protected] Abstract—This paper presents approaches to classification of microscopy images of the insect Diaphorina citri, distinguishing it from other insects commonly found in citrus regions of the state of ao Paulo, Brazil. In addition, comparisons were made between the approaches used. Extractors of local features invariant to rotation and scale (ORB, SIFT and SURF) were used in different approaches of bag-of-features. Then these features were classified with KNN and linear SVM. The results showed that the SURF extractor, bag-of-features with 300 dimensions by class and SVM classifier had an average accuracy of 94% and the KNN with SURF extractor and general bag-of-features with 300 dimensions had the best accuracy on the final test set, generalizing to 95%. KeywordsCitriculture, Yellow Sticky Traps, Diaphorina citri, Huanglongbing (HLB), Classification of Digital Images, Machine Learning. I. I NTRODUC ¸˜ AO O Brasil ocupa a posic ¸˜ ao de maior produtor mundial de laranja e na safra de 2013/14 a produc ¸˜ ao brasileira foi de 17.340 toneladas, aproximadamente 34,22% de toda a produc ¸˜ ao mundial. No consumo da laranja, o Brasil tamb´ em se destacou durante o mesmo per´ ıodo, com 5.788 toneladas, sendo o segundo maior consumidor do mundo [1]. O PIB do setor citr´ ıcola do ano de 2009, no qual a produc ¸˜ ao de laranja se insere, foi de US$ 6,5 bilh˜ oes e o faturamento da cadeia produtiva foi de US$ 14,6 bilh˜ oes, o que mostra a importˆ ancia desse setor para o agroneg´ ocio brasileiro [2]. A produc ¸˜ ao brasileira de suco de laranja, na safra 2013/14, correspondeu a 57,05% de toda produc ¸˜ ao mundial, 95,82% dessa produc ¸˜ ao foi exportada e o Brasil teve uma participac ¸˜ ao de 78,60% no mercado mundial. A regi˜ ao de produc ¸˜ ao citr´ ıcola de destaque do pa´ ıs ´ e o “cintur˜ ao citr´ ıcola brasileiro” e est´ a localizado nos estados de S˜ ao Paulo, Paran´ a e Triˆ angulo Mineiro. Existem diversos estados brasileiros produzindo essa fruta, mas o estado de S˜ ao Paulo ´ e a maior regi˜ ao produtora de laranja de mundo [1]. Das doenc ¸as que surgiram na citricultura mundial e brasileira, o Greening, tamb´ em chamado de Huanglongbing (HLB), ´ e a doenc ¸a que mais preocupa os citricultores e pesquisadores dessa ´ area, pela velocidade que ela se propaga e por provocar severos sintomas. Bact´ erias Candidatus Liberib- acter causam o HLB, as plantas doentes n˜ ao tem resistˆ encia gen´ etica para combatˆ e-lo e o inseto psil´ ıdeo dos citros asi´ atico, Diaphorina citri Kuwayama, ´ e o principal transmissor no estado de S˜ ao Paulo, ou seja, ´ e o seu inseto vetor [1]–[4]. O controle recomendado, na atualidade, envolve a erradicac ¸˜ ao de plantas doentes, o plantio de mudas livres da doenc ¸a e o controle do inseto vetor [5]. Armadilhas adesivas amarelas s˜ ao usadas para a captura do psil´ ıdeo dos citros asi´ atico adulto. Elas s˜ ao presas aos citros e permanecem expostas em pomares por alguns dias. Ap´ os o per´ ıodo de exposic ¸˜ ao, elas s˜ ao levadas para centros de pesquisa. Nesses locais, os psil´ ıdeos dos citros asi´ aticos cap- turados s˜ ao contados manualmente e, ent˜ ao, s˜ ao estimadas as populac ¸˜ oes desse inseto nas regi˜ oes de onde essas armadilhas foram retiradas [6], [7]. Automatizar a classificac ¸˜ ao de psil´ ıdeos dos citros asi´ aticos, Diaphorina citri Kuwayama, ´ e uma etapa importante para possibilitar a criac ¸˜ ao de sistemas computacionais que realizem a contagem autom´ atica desses insetos em armadilhas adesivas amarelas. Sendo assim, com base no problema apresentado, este trabalho tem como objetivo aplicar e comparar t´ ecnicas de classificac ¸˜ ao autom´ atica em imagens de insetos Diaphorina citri, distinguindo-os de outros insetos que possam ser cap- turados por armadilhas adesivas amarelas, atrav´ es de imagens de microscopia extra´ ıdas dessas armadilhas. II. TRABALHOS RELACIONADOS No trabalho de Larios et al. [8] foi utilizada uma abordagem de bolsa de caracter´ ısticas para automatizar a identificac ¸˜ ao taxonˆ omica de larvas da ordem Plecoptera. 263 dessas larvas foram coletadas em riachos de Willamette e Cas- cade Range, pr´ oximo a Oregon nos Estados Unidos. Aproxi- madamente 10 imagens foram obtidas para cada esp´ ecie. Essas imagens foram examinadas manualmente e todas as imagens que proporcionavam uma vis˜ ao dorsal dos insetos, dentro de 30 graus vertical, foram selecionadas para an´ alise. As ima- gens foram classificadas atrav´ es de um processo que envolve: Identificac ¸˜ ao de regi˜ oes de interesse, representac ¸˜ ao dessas car- acter´ ısticas como vetores SIFT (Scale-Invariant Feature Trans- form), transformac ¸˜ ao dos vetores SIFT em um histograma de caracter´ ısticas detectadas e a classificac ¸˜ ao do histograma por 332

Upload: donhu

Post on 01-Dec-2018

221 views

Category:

Documents


0 download

TRANSCRIPT

Classification of Diaphorina citri into MicroscopyImages

Jose Leonardo dos Santos Melo, Michele Fulvia AngeloPos-Graduacao em Computacao Aplicada (PGCA)

Departamento de Tecnologia (DTEC)Universidade Estadual de Feira de Santana (UEFS)

Modulo 3, Av. Transnordestina, s/n – Novo Horizonte44.036-900 – Feira de Santana – BA – Brasil

Email: [email protected], [email protected]

Marcelo Pedreira de MirandaFundo de Defesa da Citricultura (FUNDECITRUS)

Av. Dr. Adhemar Pereira de Barros, 201 – Vila Melhado14807-040 – Araraquara – SP – BrasilEmail: [email protected]

Abstract—This paper presents approaches to classification ofmicroscopy images of the insect Diaphorina citri, distinguishing itfrom other insects commonly found in citrus regions of the state ofSao Paulo, Brazil. In addition, comparisons were made betweenthe approaches used. Extractors of local features invariant torotation and scale (ORB, SIFT and SURF) were used in differentapproaches of bag-of-features. Then these features were classifiedwith KNN and linear SVM. The results showed that the SURFextractor, bag-of-features with 300 dimensions by class and SVMclassifier had an average accuracy of 94% and the KNN withSURF extractor and general bag-of-features with 300 dimensionshad the best accuracy on the final test set, generalizing to 95%.

Keywords—Citriculture, Yellow Sticky Traps, Diaphorina citri,Huanglongbing (HLB), Classification of Digital Images, MachineLearning.

I. INTRODUCAO

O Brasil ocupa a posicao de maior produtor mundialde laranja e na safra de 2013/14 a producao brasileira foide 17.340 toneladas, aproximadamente 34,22% de toda aproducao mundial. No consumo da laranja, o Brasil tambemse destacou durante o mesmo perıodo, com 5.788 toneladas,sendo o segundo maior consumidor do mundo [1].

O PIB do setor citrıcola do ano de 2009, no qual a producaode laranja se insere, foi de US$ 6,5 bilhoes e o faturamentoda cadeia produtiva foi de US$ 14,6 bilhoes, o que mostra aimportancia desse setor para o agronegocio brasileiro [2].

A producao brasileira de suco de laranja, na safra 2013/14,correspondeu a 57,05% de toda producao mundial, 95,82%dessa producao foi exportada e o Brasil teve uma participacaode 78,60% no mercado mundial. A regiao de producao citrıcolade destaque do paıs e o “cinturao citrıcola brasileiro” e estalocalizado nos estados de Sao Paulo, Parana e TrianguloMineiro. Existem diversos estados brasileiros produzindo essafruta, mas o estado de Sao Paulo e a maior regiao produtorade laranja de mundo [1].

Das doencas que surgiram na citricultura mundial ebrasileira, o Greening, tambem chamado de Huanglongbing(HLB), e a doenca que mais preocupa os citricultores epesquisadores dessa area, pela velocidade que ela se propaga epor provocar severos sintomas. Bacterias Candidatus Liberib-acter causam o HLB, as plantas doentes nao tem resistencia

genetica para combate-lo e o inseto psilıdeo dos citros asiatico,Diaphorina citri Kuwayama, e o principal transmissor noestado de Sao Paulo, ou seja, e o seu inseto vetor [1]–[4].

O controle recomendado, na atualidade, envolve aerradicacao de plantas doentes, o plantio de mudas livres dadoenca e o controle do inseto vetor [5].

Armadilhas adesivas amarelas sao usadas para a capturado psilıdeo dos citros asiatico adulto. Elas sao presas aoscitros e permanecem expostas em pomares por alguns dias.Apos o perıodo de exposicao, elas sao levadas para centros depesquisa. Nesses locais, os psilıdeos dos citros asiaticos cap-turados sao contados manualmente e, entao, sao estimadas aspopulacoes desse inseto nas regioes de onde essas armadilhasforam retiradas [6], [7].

Automatizar a classificacao de psilıdeos dos citrosasiaticos, Diaphorina citri Kuwayama, e uma etapa importantepara possibilitar a criacao de sistemas computacionais querealizem a contagem automatica desses insetos em armadilhasadesivas amarelas.

Sendo assim, com base no problema apresentado, estetrabalho tem como objetivo aplicar e comparar tecnicas declassificacao automatica em imagens de insetos Diaphorinacitri, distinguindo-os de outros insetos que possam ser cap-turados por armadilhas adesivas amarelas, atraves de imagensde microscopia extraıdas dessas armadilhas.

II. TRABALHOS RELACIONADOS

No trabalho de Larios et al. [8] foi utilizada umaabordagem de bolsa de caracterısticas para automatizar aidentificacao taxonomica de larvas da ordem Plecoptera. 263dessas larvas foram coletadas em riachos de Willamette e Cas-cade Range, proximo a Oregon nos Estados Unidos. Aproxi-madamente 10 imagens foram obtidas para cada especie. Essasimagens foram examinadas manualmente e todas as imagensque proporcionavam uma visao dorsal dos insetos, dentro de30 graus vertical, foram selecionadas para analise. As ima-gens foram classificadas atraves de um processo que envolve:Identificacao de regioes de interesse, representacao dessas car-acterısticas como vetores SIFT (Scale-Invariant Feature Trans-form), transformacao dos vetores SIFT em um histograma decaracterısticas detectadas e a classificacao do histograma por

332

um conjunto de arvores de modelo logıstico. Foram aplicadostres algoritmos de deteccao de regioes: Hessian-affine, Kadire PCBR (Principal Curvature-Based Region). A construcaodo livro de codigo (Codebook) foi realizada atraves de GMM(Gaussian Mixture Model). Os autores afirmam que seu de-tector PCBR supera os outros dois descritores e mostram umaacuracia de classificacao de 82% para quatro classes e 95%para tres classes.

No trabalho de Samanta e Ghosh [9] foi criado um sistemapara a classificacao de insetos usando CFS (Correlation-based Feature Selection) e IBPLN (Incremental Back Prop-agation Learning Network). Foi criado um banco de imagensconcentrando-se sobre oito maiores pragas (insetos) registradasem diferentes jardins de cha de distritos da India. O bancopossui 609 imagens pertencentes a oito classes descritas por 11atributos. A classificacao foi realizada utilizando redes neuraisartificiais. O estudo demonstrou que o CFS pode ser usado paraa reducao do vetor de caracterısticas e a combinacao do CFS eIBPLN pode ser usada em outros problemas de classificacao.

No trabalho de Mundada e Gohokar [10] foi criado umsistema para detectar moscas brancas e pulgoes em culturasinfectadas, dentro de estufas. Imagens da folha infectada foramcapturadas por cameras e processadas previamente usandotecnicas de processamento de imagens tais como conversao deescala de cores RGB (Red Green Blue) para escala de cinzae filtragem para melhoria das imagens. Na extracao de carac-terısticas foram consideradas uma variedade de propriedadesde regiao e de matriz de covariancia cinza. Alguns exemplosde propriedades extraıdas sao: entropia, media, desvio padrao,contraste, energia, correlacao e excentricidade. A classificacaofoi realizada com o uso de SVM (Support Vector Machine). Osautores afirmam que o prototipo do sistema proveu deteccaorapida de pragas e teve o mesmo nıvel de desempenho queuma abordagem manual classica.

No trabalho de Venugoban e Ramanan [11] foi criadoum sistema de classificacao de imagens de pragas (insetos)presentes em plantacoes de arroz. Foram usadas caracterısticasbaseadas em gradientes atraves da abordagem de bolsa decaracterısticas. Imagens de 20 classes desses insetos foramobtidas a partir do Google e fotografias cedidas pela Fac-uldade de Agricultura, Universidade de Jafna, Sri Lanka. Aimagens foram classificadas por um sistema que envolveuidentificacao de regioes de interesse, representacao dessasregioes como descritores SURF ou SIFT, criacao de Codebookse classificacao dessas caracterısticas com SVM linear. Alemdisso, caracterısticas HOG (Histogram of Oriented Gradient)foram extraıdas e classificadas. O algoritmo Nearest Neighborfoi utilizado na comparacao com o SVM. Os resultadosmostraram que o descritor HOG superou os descritores SIFTe SURF. A combinacao de SURF e HOG, quando classifica-dos com SVM linear, resultou em aproximadamente 90% deacuracia.

III. MATERIAL E METODOS

O desenvolvimento do trabalho foi dividido em 4 eta-pas: a “Aquisicao e Validacao do Banco de Imagens”, a“Rotulagem de Amostras e Extracao de Caracterısticas”, a“Criacao dos Livros de Codigo e das Bolsas de Caracterısticas”e a “Classificacao das Amostras”, conforme apresentada na

Figura 1. Nas subsecoes a seguir sao descritas cada uma destasetapas.

Figura 1. Etapas da metodologia utilizada.

A. Aquisicao e Validacao do Banco de Imagens

A aquisicao das imagens foi realizada pelo Fundo de De-fesa da Citricultura (FUNDECITRUS), instituicao de pesquisa,que, no perıodo entre janeiro e abril de 2015, coletou mais de700 armadilhas adesivas amarelas que estavam posicionadasem diversas regioes citrıcolas do estado de Sao Paulo, Brasil.

Em laboratorio, com a utilizacao de uma camera fotografica(Olympus SC30) acoplada a um microscopio (Olympus SZ61)e luminaria de led (LED 72T) (Figura 2) , foram reunidas379 imagens do Diaphorina citri (Figura 3) e 379 imagens deoutros insetos (Figura 4) que sao, geralmente, capturados emarmadilhas adesivas amarelas nessas regioes, formando assimum banco de imagens com uma representativa amostragem daregiao citrıcola paulista.

Figura 2. Equipamento de aquisicao das imagens e armadilhas adesivasamarelas.

Figura 3. Algumas amostras do banco de imagens do Diaphorina citri.

O equipamento utilizado para essa aquisicao foi ajustadocom uma ampliacao de imagem fixa de 0.67x e uma distanciafocal variavel que possibilitasse o enquadramento de um insetopor imagem, independente do seu tamanho na armadilha.

333

Figura 4. Algumas amostras do banco de imagens dos outros insetos.

Na medida em que as imagens eram adquiridas, as mes-mas eram separadas em dois diretorios nomeados como “Di-aphorina” e “Outros”. Isso possibilitou que os pesquisadoresda FUNDECITRUS, especialistas no objeto de estudo, real-izassem uma separacao das imagens desse banco em duasclasses.

Uma vez que o trabalho de aquisicao e separacao deimagens foi concluıdo, foram realizadas verificacoes de in-tegridade do banco de imagens com a finalidade de ratificara inexistencia de imagens repetidas ou a inexistencia deimagens separadas de forma incorreta, devido a eventuais erroshumanos. Para a analise de imagens repetidas foi executado umprocedimento computacional para a comparacao de imagens,todas comparadas contra todas. E, para a analise de imagensseparadas de forma incorreta foram inspecionadas cuidadosa emanualmente cada imagem dos dois diretorios, mais de umavez. No resultado dessas verificacoes nao foram encontradasimagens repetidas ou imagens em diretorios incorretos.

Antes de dar inıcio a etapa de extracao de caracterısticas,todas as imagens utilizadas foram recortadas de forma aaproximar suas laterais do corpo dos insetos. Esse proced-imento computacional foi realizado para reduzir a area defundo da imagem e, consequentemente, diminuir a captura deinformacao ruidosa presente nesses locais.

B. Rotulagem de Amostras e Extracao de Caracterısticas

Foram gerados procedimentos computacionais, na forma descripts implementados na linguagem de programacao python,para a rotulagem das amostras de imagens, extracao de carac-terısticas dessas amostras, criacao de bolsas de caracterısticase suas classificacoes.

Na rotulagem, esses procedimentos realizaram a leitura dasimagens nos diretorios “Diaphorina” e “Outros” e, como re-sultado, geraram arquivos contendo as informacoes dos rotulosdessas imagens e dos seus enderecos de armazenamento. Comorotulos, o numero 0 (zero) foi atribuıdo a classe “Outros” e onumero 1 (um) foi atribuıdo a classe “Diaphorina”.

Em seguida, foram executadas rotinas para a extracaode caracterısticas invariantes a rotacao e escala. Para isso,foram utilizados os algoritmos de extracao de caracterısticasORB (Oriented FAST and Rotated BRIEF) [12], SIFT (Scale-Invariant Feature Transform) [13] e SURF (Speeded Up Ro-bust Features) [14], presentes na biblioteca de visao com-putacional OpenCV. Esses algoritmos foram executados emsuas configuracoes de parametros padrao, exceto por umamodificacao no parametro “nfeatures” dos algoritmos ORBe SIFT, ajustado o seu valor para 1000000. O ajuste per-mitiu que esses algoritmos extraıssem um maior numero decaracterısticas nas imagens utilizadas, comportamento que econfigurado por padrao no algoritmo SURF dessa biblioteca.

Foi criado um procedimento computacional isolado paracada algoritmo de extracao de caracterısticas utilizado e cada

um desses procedimentos executou as tarefas de: ler os ar-quivos contendo os enderecos das imagens, carregar cadaimagem na memoria, converte-la para a escala de cinza, extrairsuas caracterısticas e salvar em arquivo o resultado dessasextracoes, indexando-as de acordo com seus devidos rotulos.

Para evitar resultados de classificacao tendenciosos, osarquivos resultantes das extracoes de caracterısticas, mantendoa indexacao de seus respectivos rotulos, foram misturados deforma pseudo-aleatoria, 5 vezes. Essa “mistura” nas amostras efeita da mesma forma para todos os procedimentos de extracaode caracterısticas utilizados, tornando assim as classificacoesdas caracterısticas dos extratores comparaveis.

C. Criacao dos Livros de Codigo e das Bolsas de Carac-terısticas

Na etapa de criacao de livros de codigo (Codebooks) ebolsas de caracterısticas (Bag-of-Features) [15], as amostrasde extracoes de caracterısticas geradas, com seus respectivosrotulos, foram divididas em duas partes: 80% das amostrasforam utilizadas para a geracao de cada livro de codigoe 20% das amostras foram reservados para testes finais declassificacao. Tanto o conjunto de 80% das amostras quanto oconjunto de 20% foram divididos de forma que cada parte con-tivesse 50% dos rotulos positivos (Classe 1) e 50% dos rotulosnegativos (Classe 0), ou seja, as amostras foram divididas deforma estratificada.

O recurso de mistura e estratificacao de amostras (“Strat-ified Shuffle Split”) utilizado esta disponıvel na bibliotecade aprendizagem de maquina python Scikit-Learn [16]. Oparametro “Random State”, muito comum em diversos algo-ritmos no Scikit-Learn, e utilizado para evitar a aleatoriedadena execucao de muitos de seus algoritmos. O valor desseparametro pode ser qualquer numero do tipo inteiro escolhidoa criterio de quem utiliza algum algoritmo presente nessabiblioteca. Nessa pesquisa, e sempre atribuıdo o valor 1234para esse parametro por questoes de padronizacao, em todosos algoritmos que o suportam.

Os livros de codigo foram criados usando o algoritmode aprendizagem de maquina nao-supervisionada Mini BatchK-Means, uma variacao do algoritmo K-Means que usaamostragem randomica de instancias em cada iteracao. O MiniBatch K-Means converge mais rapidamente para seus agru-pamentos, mas suas distorcoes nos grupos aprendidos podemser maiores que no K-Means. Na pratica, os resultados saosimilares e essas distorcoes sao aceitaveis quando a velocidadede execucao do algoritmo e um importante requisito do sistemade visao computacional projetado [17], [18].

A quantidade de agrupamentos configurada no Mini BatchK-Means foi de 300 e esse valor de agrupamento permaneceufixo durante os experimentos para possibilitar comparacoesadequadas. Alem disso, a fixacao do numero de agrupamentosreduz o numero de analises necessarias devido a extensaode combinacoes de parametros possıveis proporcionada pelavariacao desses grupos.

Essa opcao por 300 agrupamentos se baseou no exemplode implementacao bem sucedida de livro de codigo e bolsade caracterısticas descrito na obra denominada “MasteringMachine Learning with scikit-learn” [17].

334

Foram criados tres tipos distintos de implementacao delivro de codigo. No primeiro, foi criado um livro de codigogeral, que engloba tanto as caracterısticas do Diaphorina citriquanto as caracterısticas dos outros insetos, agrupando essascaracterısticas em 300 conjuntos. No segundo, foi criado umlivro de codigo somente com caracterısticas do Diaphorinacitri, distribuıdas em 300 grupos. E, no terceiro, foi criado umlivro de codigo com 300 agrupamentos de caracterısticas paracada classe, totalizando 600 agrupamentos.

Uma vez que os livros de codigo foram gerados, bolsasde caracterısticas foram criadas, uma por amostra, tanto parao conjunto de 80% quanto para o conjunto de 20% dasamostras. Nos casos das bolsas de caracterısticas geral ecom caracterısticas somente do Diaphorina citri, o vetor decaracterısticas resultante, por amostra, e de 300 dimensoes.Porem, na bolsa de caracterısticas por classe, o vetor decaracterısticas resultante e de 600 dimensoes, 300 por classe.

D. Classificacao das Amostras

As bolsas de caracterısticas geradas e seus respectivosrotulos foram utilizados como entrada para os procedimentoscomputacionais de classificacao. Os algoritmos de classificacaoescolhidos foram Support Vector Machine (SVM) e K NearestNeighbor (KNN). O SVM foi escolho devido a sua amplautilizacao em abordagens bens sucedidas de classificacao deimagens [19]–[21]. O KNN foi escolhido por ser um algoritmosimples, uma maneira efetiva de classificar dados e ter sidoaplicado com sucesso na classificacao de imagens [22], [23].

O algoritmo KNN foi executado nas configuracoes deparametros padrao do Scikit-Learn, com valor do parametro Kigual a 5. O algoritmo SVM, tambem em suas configuracoespadrao, teve o valor do parametro C igual a 1.

O nucleo (kernel) de SVM escolhido foi o linear. Essaescolha deveu-se a simplicidade de classificacao desse nucleoe a diminuicao do numero de analises comparativas que seriamnecessarias pelo uso de outros nucleos.

As bolsas de caracterısticas de cada extrator (ORB, SIFT eSURF) foram classificadas tanto com KNN quanto com SVM,nas tres abordagens de bolsa de caracterısticas utilizadas.

O conjunto de treinamento (80%) foi dividido novamentepara possibilitar o processo de validacao cruzada. Nessavalidacao o conjunto de treinamento foi particionado, de 50formas distintas, em 80% para aprendizagem de modelo e20% para validacao de modelo, de forma pseudo-aleatoria eestratificando as amostras (50% por classe).

Por fim, o conjunto de treinamento completo (80%) foiusado no aprendizado do modelo e, em seguida, utilizado napredicao do conjunto de testes (20%) que foi reservado parauma analise final de generalizacao do modelo.

A Figura 5 apresenta de forma detalhada as etapas do pro-cesso de classificacao das amostras, partindo do banco de im-agens particionado, estratificado e rotulado ate a classificacaoe geracao dos resultados.

IV. RESULTADOS E DISCUSSAO

Os resultados de classificacao foram mensurados pelamedia aritmetica das acuracias de 50 iteracoes de validacaocruzada. O calculo da acuracia e dado pela formula:

ACC = TP+TNTP+TN+FP+FN

Figura 5. Etapas detalhadas do processo de classificacao e geracao deresultados.

Onde TP (True Positive) representa o numero declassificacoes corretas para a classe positiva (verdadeiro-positivo), TN (True Negative) e o numero de classificacoescorretas para a classe negativa (verdadeiro-negativo), FP (FalsePositive) e o numero de classificacoes incorretas para a classenegativa (falso-positivo) e FN (False Negative) e o numero declassificacoes incorretas para a classe positiva (falso-negativo).

A Tabela I apresenta os resultados para a abordagem debolsa de caracterısticas com caracterısticas gerais de todos osinsetos, a Tabela II apresenta os resultados para a abordagemde bolsa de caracterısticas criada com caracterısticas apenas doinseto Diaphorina citri e a Tabela III apresenta os resultadospara a abordagem com duas bolsa de caracterısticas concate-nadas, onde cada bolsa representa informacoes de uma dasclasses. Nessas tabelas, as linhas representam os diferentesextratores de caracterısticas usados e as colunas mostram aacuracia media com seu desvio padrao e a acuracia alcancadasobre o conjunto de teste final, para os classificadores KNN eSVM.

Em todas as tres tabelas de resultados, o extrator decaracterısticas SURF teve medias de acuracia e acuracias sobreo conjunto final superiores, seguido pelo extrator SIFT e, emultimo lugar, o extrator ORB.

Em relacao as abordagens de bolsa de caracterısticas uti-lizadas, uma pequena melhoria de aproximadamente 1% nasmedias de acuracia da abordagem “Geral” para a “Diaphorina”e da “Diaphorina” para a “Duas Classes” foi percebida, emalguns casos. Porem, em relacao a minimizacao de esforcocomputacional empregado, simplicidade de implementacaoe menor dimensionalidade de caracterısticas amostradas, aabordagem que implementa apenas caracterısticas do insetoDiaphorina citri e a escolha adequada.

O classificador SVM teve melhores medias de acuracia paraos extratores SIFT e SURF nas tres abordagens de bolsa de

335

caracterısticas testadas (Tabelas I, II e III) e para o ORB naabordagem de bolsa de caracterısticas por classe (Tabela III).O classificador KNN teve melhores medias de acuracia para oextrator ORB nas abordagens de bolsa de caracterısticas gerale somente com caracterısticas do Diaphorina citri (Tabela I eII). Em relacao ao conjunto de testes final, o KNN generalizoumelhor para os extratores ORB e SURF e o SVM generalizoumelhor para o extrator SIFT.

TABELA I. ACURACIA DOS CODEBOOKS “GERAL” COM VALIDACAOCRUZADA (50X).

Codebook Geral - 300 CaracterısticasKNN K=5 KNN Teste Final SVM C=1 SVM Teste Final

ORB 75% (+/- 6%) 76% 72% (+/- 7%) 74%

SIFT 83% (+/- 6%) 82% 89% (+/- 5%) 87%

SURF 91% (+/- 5%) 95% 92% (+/- 4%) 88%

TABELA II. ACURACIA DOS CODEBOOKS “DIAPHORINA” COMVALIDACAO CRUZADA (50X).

Codebook Diaphorina - 300 CaracterısticasKNN K=5 KNN Teste Final SVM C=1 SVM Teste Final

ORB 75% (+/- 6%) 77% 72% (+/- 8%) 76%

SIFT 84% (+/- 6%) 86% 90% (+/- 5%) 87%

SURF 92% (+/- 4%) 91% 93% (+/- 4%) 89%

TABELA III. ACURACIA DOS CODEBOOKS “DUAS CLASSES” COMVALIDACAO CRUZADA (50X).

Codebook Duas Classes - 600 (300 x 2) CaracterısticasKNN K=5 KNN Teste Final SVM C=1 SVM Teste Final

ORB 76% (+/- 6%) 76% 77% (+/- 6%) 74%

SIFT 85% (+/- 6%) 86% 92% (+/- 5%) 88%

SURF 91% (+/- 5%) 93% 94% (+/- 4%) 91%

O resultado utilizando extrator SURF, bolsas de carac-terısticas com 300 dimensoes por classe e classificador SVMcom valores de parametros padrao (C igual a 1) teve a media deacuracia de 94%. O KNN (K igual a 5) com extrator SURF ebolsa de caracterısticas geral com 300 dimensoes teve a melhoracuracia sobre o conjunto de testes final, generalizando bemcom uma acuracia de 95%.

V. CONCLUSOES

Este artigo apresentou uma analise comparativa daclassificacao do inseto Diaphorina citri, em imagens demicroscopio, utilizando os algoritmos de aprendizagemde maquina supervisionada KNN e SVM linear. Nessaclassificacao, foram utilizadas abordagens de bolsa de car-acterısticas compostas por caracterısticas locais invariantes arotacao e escala (ORB, SIFT e SURF). A bolsa de carac-terısticas com 300 dimensoes por classe, extrator SURF eSVM teve a promissora media de acuracia de 94%. Emboraa abordagem de bolsa de caracterısticas gerada apenas comcaracterısticas do inseto Diaphorina citri, extrator SURF eSVM tenha resultado em 93% de media de acuracia, ela euma escolha interessante em termos de reducao do tempo deexecucao do processo de classificacao, pois possui significati-vamente uma menor quantidade de caracterısticas necessarias

a criacao de seu livro de codigo. O algoritmo SVM obtevemedias de acuracia superiores na maioria dos testes.

Em etapa seguinte desta pesquisa, sera analisado o com-portamento do desempenho de classificacao em funcao davariacao numero de nucleos utilizados nos livros de codigo.Alem disso, estrategias de selecao de modelo para essesalgoritmos de aprendizagem de maquina serao executadas natentativa de melhorar as acuracias dos classificadores. Para oalgoritmo SVM, serao utilizados nucleos diferentes e variacoesno parametro C e gamma. No KNN, variacoes no parametroK serao analisadas.

Futuros testes acrescentarao resultados de classificacao ref-erentes a dois novos algoritmos de extracao de caracterısticas,semelhantemente invariantes a rotacao e escala.

O desempenho de classificacao em abordagens de bolsasde caracterısticas e sensıvel a existencia de ruıdos [15]. Entao,sera desenvolvido de um procedimento computacional querealize uma adequada segmentacao dos insetos nas imagens, oque pode levar a melhores resultados.

VI. AGRADECIMENTOS

Ao Fundo de Defesa da Citricultura (FUNDECITRUS)pela disponibilizacao das imagens dos insetos e pelacolaboracao tecnico-cientıfica, a Empresa Brasileira dePesquisa Agropecuaria (EMBRAPA), unidade Mandioca eFruticultura, pela colaboracao tecnico-cientıfica e a Fundacaode Amparo a Pesquisa do Estado da Bahia (FAPESB) peloapoio financeiro.

REFERENCIAS

[1] M. Mendes, Agrianual 2015: Anuario da Agricultura Brasileira. In-forma Economics FNP, 2015.

[2] M. F. Neves, V. Trombin, P. Milan, F. Lopes, F. Cressoni, and R. Kalaki,“O retrato da citricultura brasileira,” CitrusBR, 2010.

[3] D. C. Teixeira, C. Saillard, S. Eveillard, J. L. Danet, P. I. da Costa, A. J.Ayres, and J. Bove, “’candidatus liberibacter americanus’, associatedwith citrus huanglongbing (greening disease) in sao paulo state, brazil.”International Journal of Systematic and Evolutionary Microbiology,vol. 55, no. Pt 5, pp. 1857–1862, 2005.

[4] A. R. Agnelli, “Potencial de agentes indutores de resistencia para o con-trole da bacteria candidatus liberibacter asiaticus em plantas cıtricas,”Master’s thesis, Fundo de Defesa da Citricultura - FUNDECITRUS,2011.

[5] J. Belasque Junior, A. Bergamin Filho, R. B. Bassanezi, J. C. Barbosa,N. G. Fernandes, P. T. Yamamoto, S. A. Lopes, M. A. Machado, R. P.Leite Junior, A. J. Ayres et al., “Base cientıfica para a erradicacao deplantas sintomaticas e assintomaticas de huanglongbing (hlb, greening)visando o controle efetivo da doenca,” Tropical Plant Pathology, vol. 34,no. 3, pp. 137–145, 2009.

[6] I. Sala, “Avaliacao do tempo de exposicao em armadilha adesiva amarelae das condicoes de armazenamento de adultos de diaphorina citri nadeteccao de candidatus liberibacter asiaticus,” Master’s thesis, Fundode Defesa da Citricultura, 2011.

[7] J. M. C. d. Oliveira, “Diaphorina citri e candidatus liberibacter spp:Associacao que coloca em risco a citricultura baiana.” 2013.

[8] N. Larios, H. Deng, W. Zhang, M. Sarpola, J. Yuen, R. Paasch,A. Moldenke, D. A. Lytle, S. R. Correa, E. N. Mortensen et al.,“Automated insect identification through concatenated histograms oflocal appearance features: feature vector generation and region detectionfor deformable objects,” Machine Vision and Applications, vol. 19,no. 2, pp. 105–123, 2008.

[9] R. Samanta and I. Ghosh, “Tea insect pests classification based on arti-ficial neural networks,” International Journal of Computer EngineeringScience (IJCES), vol. 2, no. 6, 2012.

336

[10] R. G. Mundada and V. Gohokar, “Detection and classification of pestsin greenhouse using image processing,” IOSR Journal of Electronicsand Communication Engineering, vol. 5, no. 6, pp. 57–63, 2013.

[11] K. Venugoban and A. Ramanan, “Image classification of paddy fieldinsect pests using gradient-based features,” International Journal ofMachine Learning and Computing, vol. 4, no. 1, 2014.

[12] E. Rublee, V. Rabaud, K. Konolige, and G. Bradski, “Orb: an efficientalternative to sift or surf,” in Computer Vision (ICCV), 2011 IEEEInternational Conference on. IEEE, 2011, pp. 2564–2571.

[13] D. G. Lowe, “Distinctive image features from scale-invariant keypoints,”International journal of computer vision, vol. 60, no. 2, pp. 91–110,2004.

[14] H. Bay, T. Tuytelaars, and L. Van Gool, “Surf: Speeded up robustfeatures,” in Computer vision–ECCV 2006. Springer, 2006, pp. 404–417.

[15] C.-F. Tsai, “Bag-of-words representation in image annotation: A re-view,” International Scholarly Research Notices, vol. 2012, 2012.

[16] F. Pedregosa, G. Varoquaux, A. Gramfort, V. Michel, B. Thirion,O. Grisel, M. Blondel, P. Prettenhofer, R. Weiss, V. Dubourg, J. Vander-plas, A. Passos, D. Cournapeau, M. Brucher, M. Perrot, and E. Duch-esnay, “Scikit-learn: Machine learning in Python,” Journal of MachineLearning Research, vol. 12, pp. 2825–2830, 2011.

[17] G. Hackeling, Mastering Machine Learning with scikit-learn. PacktPublishing Ltd, 2014.

[18] D. Scikit-learn, “Comparison of the k-means and mini batch k-meansclustering algorithms,” http://scikit-learn.org/stable/auto examples/cluster/plot mini batch kmeans.html, 2014, accessado: 2015-04-30.

[19] O. Boiman, E. Shechtman, and M. Irani, “In defense of nearest-neighbor based image classification,” in Computer Vision and PatternRecognition, 2008. CVPR 2008. IEEE Conference on. IEEE, 2008,pp. 1–8.

[20] S. Chaplot, L. Patnaik, and N. Jagannathan, “Classification of magneticresonance brain images using wavelets as input to support vector ma-chine and neural network,” Biomedical Signal Processing and Control,vol. 1, no. 1, pp. 86–92, 2006.

[21] I. Kotsia and I. Pitas, “Facial expression recognition in image sequencesusing geometric deformation features and support vector machines,”Image Processing, IEEE Transactions on, vol. 16, no. 1, pp. 172–187,2007.

[22] P. Harrington, Machine learning in action. Manning Publications Co.,2012.

[23] I. Hmeidi, B. Hawashin, and E. El-Qawasmeh, “Performance of knnand svm classifiers on full word arabic articles,” Advanced EngineeringInformatics, vol. 22, no. 1, pp. 106–111, 2008.

337All in-text references underlined in blue are linked to publications on ResearchGate, letting you access and read them immediately.