a distribute approach for classifying anuran species based on their calls

Juan Gabriel ColonnaEduardo Freire Nakamura

Instituto de Computação (Icomp)Universidade Federal do Amazonas (UFAM)

Classificação de Anuros usando Rede de Sensores Sem Fio

Projeto ANURAObjetivo: Determinar estresse ecológico usando como indicador as variações das populações de anuros.

Sensíveis às mudançasdo ecossistema

Detecção do som

Lima, A.P.; Erdtmann, L.K.; Ferrão, M., Costeira, J.M.; Oliveira, A.S.; Oliveira, D.M.S. 2012. SAPOTECA: biblioteca de sons e vídeos de anuros amazônicos. CENBAM, Manaus, Amazonas, Brasil.

Leptodactylus hylaedactylus

A. andreae

Rhinella major

Reconhecimento de áudio

Método: Coeficientes Mel e SVM ou k-NN.

Problemas: detecção e reconhecimento

Redes de sensores

Trade-off: processamento vs transmissão

Cenário 1 Cenário 2

Cenário 3

Colaboração e fusão● Propriedade colaborativa

da rede● Fusão: média,

votação, etc.

NAKAMURA, E. F. ; LOUREIRO, A. A. F. ; FRERY, A. C. . Information Fusion for Wireless Sensor Networks: Methods, Models, and Classifications. ACM Computing Surveys, v. 39, p. 9/1-9/55, 2007.

Trabalhos relacionados

Vantagem: imunidade aos ruídos, classificador simplesDesvantagem: clusttering (sincronização, escolha de k, descartar clustter), gerar combinações de saída.

RIBAS, A. D. ; COLONNA, J. G. ; FIGUEIREDO, C. M. S. ; NAKAMURA, E. F. . Similarity Clustering for Data Fusion in Wireless Sensor Networks Using k-Means. In: International Joint Conference on Neural Networks, 2012, Brisbane. Proceedings of the 2012 International Joint Conference on Neural Networks (IJCNN 2012), 2012. p. 488-494.

Err=ErrP+β∗ErrS

1+β

O problema da Confusão

● Padrões de sinal misturados● Ruídos● Outros animais● Espécies que não estão na base

Scinax ruberDendropsophus minutus

Objetivo e HipótesesObjetivo: Elaborar um método de fusão e rejeição que melhore a acurácia de classificação em cenários distribuídos

● H1: A técnica de rejeição diminui os erros de

classificação.

● H2: Usar um comitê de sensores é melhor que usar

somente um sensor.

MétodoMétodo:1. Cada sensor detecta e classifica;2. Os vetores de probabilidades a posteriori são transmitidos ao líder;3. O líder aplica uma votação;4. Calcula-se a entropia do vetor de probabilidades a posteriori;5. Aplica-se uma regra de decisão.

Classificadores1. kNN (k=3) (98.2%)2. Árvore (94.6%)3. Naive Bayes (93.6%)4. Discriminant analysis

D(i , j)=√(x i−μ j)T S j

−1(x i−μ j)

Distância de Mahalanobis

Probabilidade a posteriori

q j=p(x i∣μ j , S j)π j

● Se as Sj de cada grupo são iguais então usamos funções discriminantes lineares

● Senão usamos funções discriminantes quadráticas

log (q j)=−12

Di , j2

+ log (π j)+c0

log (q j)=−12

Di , j2

+ log(π j)−12

log∣S j∣+c0

http://www.mathworks.com/help/stats/discriminant-analysis.html

Regras de Votação

Comitê de sensores == Conjunto de Classificadores

● Cenário: Dado um vetor de características desconhecido x, cada classificador produz as probabilidades a posteriori para as M classes, sendo P

j(w

i|x), i=1...M e j=1...L

● Objetivo: Combinar as probabilidades a posteriori para melhorar a probabilidade final P(w

i|x)

● Voto majoritário

● Voto majoritário ponderado (power):

● Regra geométrica:

● Regra aritmética:

lc={L2+1 par

L+12

impar

Pw=1N∑ x2

maxwi∏j=1

L

P j (wi∣x)

P(wi∣x)=1L∑j=1

L

P j (w i∣x)

Theodoridis, S. and Koutroumbas, K. Pattern Recognition, 4th.

Método de Rejeição

Exemplo:

[0 0 . . . 1 . . 0 0] Entropia: -0*log

2(0) . . . -1*log

2(1) = 0

[0 0,25 . . . 0,75 . . 0 0] Entropia: -0,25*log

2(0,25) - 0,75*log

2(0,75) = -0,8

[0 0,5 . . . 0,5 . . 0 0] Entropia: -0,5*log

2(0,5) – 0,5*log

2(0,5) = -1 (rejeitar)

Nota: O método de rejeição permite transformar o problema de classificação em um problema bi-classe.

h=−pi∑ pi

Experimentos✔ Um clustter de 4 sensores formando um grid

perturbado separados 5[m] + N~(0,0.1),✔ Tamanho da área 10x10 [mts],✔ 9 Espécies diferentes,✔ Ruído aditivo gaussiano N~(0,0.1),✔ Modelo de atenuação equ.(1)

com alfa = 0.10 dB/m, ✔ Modelo de combinação

linear de sílabas equ.(2)

Equação1

atte=1

10α

d i

20

α=Absorção Atmosférica(dB /m)

di=distância (m)

Equação 2

Snew=α1∗S1+α2 S2

S1=sílabadaespécie1S2=sílabadaespécie2

http://www.csgnetwork.com/atmossndabsorbcalc.html

Resultados para um sensor

Erro da espécie 1 antes de rejeitar = 0,52Erro da espécie 2 antes de rejeitar = 0,68

Erro da espécie 1 após rejeitar = 0,37

AUC_sensor1_discriminant = 0.5566AUC_sensor1_naive = 0.5395

Resultados para um sensor

previsão

Conf Não Conf

Conf10677

TP4397 FN

Não Conf

8730 FP

6196TN

Matriz de confusão da entropia limiar = 0,1Erro = 0.43Precisão = TP / (TP+FP) = 0.55Revocação = TP / (TP+FN) = 0.7F1 = 0.6Kappa = 0.23

Matriz de confusão da entropia limiar = 0,2Erro = 0.45Precisão = TP / (TP+FP) = 0.55Revocação = TP / (TP+FN) = 0.55F1 = 0.55Kappa = 0.1

previsão

ConfNão Conf

Conf 8412TP

6662FN

Não Conf

6860FP

8066TN

*Nota: objetivo futuro penaliza FN → 0

Resultados do comitê de sensores

O ganho após a rejeição

Ganho=erro antes de rejeitar−erro após rejeitar

Comportamento dos FNnot fn=lim

fn→0

tp+ fp+tntp+ fp+tn+ fn

≃1

ROC – Método discriminanteAUC: é uma medida de quão bem o limiar de entropia pode detectar um cenário confuso.

http://www.medcalc.org/manual/roc-curves.php

AUC_sensor1_discriminant = 0.5566AUC_geometric_discriminant = 0.5884

AUC_sensor1_naive = 0.5395AUC_majority_weighted_naive = 0.5742

Conclusões

● O método de classificação de Naive Bayes produz resultados que variam proporcionalmente ao limiar da entropia (correlação +) com custo de classificação menor;

● O ganho na taxa de acerto ao usar votação comparada com somente um sensor foi no máximo 5%, sendo pouco significante;

● Os ganho produzidos deveram-se mais ao efeito da rejeição do que à votação;

● Futuramente usar uma matriz de custos para reduzir os FN.

● Futuramente aplicar Stqacking

StackingTime taken to build model: 6.48 seconds

=== Stratified cross-validation ====== Summary ===Correctly Classified Instances 29407 98.0233 %Incorrectly Classified Instances 593 1.9767 %Kappa statistic 0.9605Mean absolute error 0.0464Root mean squared error 0.1401Relative absolute error 9.2837 %Root relative squared error 28.0186 %Coverage of cases (0.95 level) 99.6367 %Mean rel. region size (0.95 level) 59.8617 %Total Number of Instances 30000

=== Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class 0.967 0.007 0.993 0.967 0.980 0.961 0.996 0.995 1 0.993 0.033 0.968 0.993 0.980 0.961 0.996 0.993 0Weighted Avg. 0.980 0.020 0.981 0.980 0.980 0.961 0.996 0.994

=== Confusion Matrix === a b <-- classified as 14579 495 | a = 1 98 14828 | b = 0

a distribute approach for classifying anuran species based on their calls

Education