a distribute approach for classifying anuran species based on their calls

22
Juan Gabriel Colonna Eduardo Freire Nakamura Instituto de Computação (Icomp) Universidade Federal do Amazonas (UFAM) Classificação de Anuros usando Rede de Sensores Sem Fio

Upload: ufam-universidade-federal-do-amazonas

Post on 05-Jul-2015

341 views

Category:

Education


1 download

DESCRIPTION

Classificação distribuida de anuros usando redes de sensores sem fio.

TRANSCRIPT

Page 1: A Distribute Approach for Classifying Anuran Species Based on Their Calls

Juan Gabriel ColonnaEduardo Freire Nakamura

Instituto de Computação (Icomp)Universidade Federal do Amazonas (UFAM)

Classificação de Anuros usando Rede de Sensores Sem Fio

Page 2: A Distribute Approach for Classifying Anuran Species Based on Their Calls

Projeto ANURAObjetivo: Determinar estresse ecológico usando como indicador as variações das populações de anuros.

Sensíveis às mudançasdo ecossistema

Detecção do som

Lima, A.P.; Erdtmann, L.K.; Ferrão, M., Costeira, J.M.; Oliveira, A.S.; Oliveira, D.M.S. 2012. SAPOTECA: biblioteca de sons e vídeos de anuros amazônicos. CENBAM, Manaus, Amazonas, Brasil.

Leptodactylus hylaedactylus

A. andreae

Rhinella major

Page 3: A Distribute Approach for Classifying Anuran Species Based on Their Calls

Reconhecimento de áudio

Método: Coeficientes Mel e SVM ou k-NN.

Problemas: detecção e reconhecimento

Page 4: A Distribute Approach for Classifying Anuran Species Based on Their Calls

Redes de sensores

Trade-off: processamento vs transmissão

Cenário 1 Cenário 2

Cenário 3

Page 5: A Distribute Approach for Classifying Anuran Species Based on Their Calls

Colaboração e fusão● Propriedade colaborativa

da rede● Fusão: média,

votação, etc.

NAKAMURA, E. F. ; LOUREIRO, A. A. F. ; FRERY, A. C. . Information Fusion for Wireless Sensor Networks: Methods, Models, and Classifications. ACM Computing Surveys, v. 39, p. 9/1-9/55, 2007.

Page 6: A Distribute Approach for Classifying Anuran Species Based on Their Calls

Trabalhos relacionados

Vantagem: imunidade aos ruídos, classificador simplesDesvantagem: clusttering (sincronização, escolha de k, descartar clustter), gerar combinações de saída.

RIBAS, A. D. ; COLONNA, J. G. ; FIGUEIREDO, C. M. S. ; NAKAMURA, E. F. . Similarity Clustering for Data Fusion in Wireless Sensor Networks Using k-Means. In: International Joint Conference on Neural Networks, 2012, Brisbane. Proceedings of the 2012 International Joint Conference on Neural Networks (IJCNN 2012), 2012. p. 488-494.

Err=ErrP+β∗ErrS

1+β

Page 7: A Distribute Approach for Classifying Anuran Species Based on Their Calls

O problema da Confusão

● Padrões de sinal misturados● Ruídos● Outros animais● Espécies que não estão na base

Scinax ruberDendropsophus minutus

Page 8: A Distribute Approach for Classifying Anuran Species Based on Their Calls

Objetivo e HipótesesObjetivo: Elaborar um método de fusão e rejeição que melhore a acurácia de classificação em cenários distribuídos

● H1: A técnica de rejeição diminui os erros de

classificação.

● H2: Usar um comitê de sensores é melhor que usar

somente um sensor.

Page 9: A Distribute Approach for Classifying Anuran Species Based on Their Calls

MétodoMétodo:1. Cada sensor detecta e classifica;2. Os vetores de probabilidades a posteriori são transmitidos ao líder;3. O líder aplica uma votação;4. Calcula-se a entropia do vetor de probabilidades a posteriori;5. Aplica-se uma regra de decisão.

Page 10: A Distribute Approach for Classifying Anuran Species Based on Their Calls

Classificadores1. kNN (k=3) (98.2%)2. Árvore (94.6%)3. Naive Bayes (93.6%)4. Discriminant analysis

D(i , j)=√(x i−μ j)T S j

−1(x i−μ j)

Distância de Mahalanobis

Probabilidade a posteriori

q j=p(x i∣μ j , S j)π j

● Se as Sj de cada grupo são iguais então usamos funções discriminantes lineares

● Senão usamos funções discriminantes quadráticas

log (q j)=−12

Di , j2

+ log (π j)+c0

log (q j)=−12

Di , j2

+ log(π j)−12

log∣S j∣+c0

http://www.mathworks.com/help/stats/discriminant-analysis.html

Page 11: A Distribute Approach for Classifying Anuran Species Based on Their Calls

Regras de Votação

Comitê de sensores == Conjunto de Classificadores

● Cenário: Dado um vetor de características desconhecido x, cada classificador produz as probabilidades a posteriori para as M classes, sendo P

j(w

i|x), i=1...M e j=1...L

● Objetivo: Combinar as probabilidades a posteriori para melhorar a probabilidade final P(w

i|x)

● Voto majoritário

● Voto majoritário ponderado (power):

● Regra geométrica:

● Regra aritmética:

lc={L2+1 par

L+12

impar

Pw=1N∑ x2

maxwi∏j=1

L

P j (wi∣x)

P(wi∣x)=1L∑j=1

L

P j (w i∣x)

Theodoridis, S. and Koutroumbas, K. Pattern Recognition, 4th.

Page 12: A Distribute Approach for Classifying Anuran Species Based on Their Calls

Método de Rejeição

Exemplo:

[0 0 . . . 1 . . 0 0] Entropia: -0*log

2(0) . . . -1*log

2(1) = 0

[0 0,25 . . . 0,75 . . 0 0] Entropia: -0,25*log

2(0,25) - 0,75*log

2(0,75) = -0,8

[0 0,5 . . . 0,5 . . 0 0] Entropia: -0,5*log

2(0,5) – 0,5*log

2(0,5) = -1 (rejeitar)

Nota: O método de rejeição permite transformar o problema de classificação em um problema bi-classe.

h=−pi∑ pi

Page 13: A Distribute Approach for Classifying Anuran Species Based on Their Calls

Experimentos✔ Um clustter de 4 sensores formando um grid

perturbado separados 5[m] + N~(0,0.1),✔ Tamanho da área 10x10 [mts],✔ 9 Espécies diferentes,✔ Ruído aditivo gaussiano N~(0,0.1),✔ Modelo de atenuação equ.(1)

com alfa = 0.10 dB/m, ✔ Modelo de combinação

linear de sílabas equ.(2)

Equação1

atte=1

10α

d i

20

α=Absorção Atmosférica(dB /m)

di=distância (m)

Equação 2

Snew=α1∗S1+α2 S2

S1=sílabadaespécie1S2=sílabadaespécie2

http://www.csgnetwork.com/atmossndabsorbcalc.html

Page 14: A Distribute Approach for Classifying Anuran Species Based on Their Calls

Resultados para um sensor

Erro da espécie 1 antes de rejeitar = 0,52Erro da espécie 2 antes de rejeitar = 0,68

Erro da espécie 1 após rejeitar = 0,37

AUC_sensor1_discriminant = 0.5566AUC_sensor1_naive = 0.5395

Page 15: A Distribute Approach for Classifying Anuran Species Based on Their Calls

Resultados para um sensor

previsão

Conf Não Conf

Conf10677

TP4397 FN

Não Conf

8730 FP

6196TN

Matriz de confusão da entropia limiar = 0,1Erro = 0.43Precisão = TP / (TP+FP) = 0.55Revocação = TP / (TP+FN) = 0.7F1 = 0.6Kappa = 0.23

Matriz de confusão da entropia limiar = 0,2Erro = 0.45Precisão = TP / (TP+FP) = 0.55Revocação = TP / (TP+FN) = 0.55F1 = 0.55Kappa = 0.1

previsão

ConfNão Conf

Conf 8412TP

6662FN

Não Conf

6860FP

8066TN

*Nota: objetivo futuro penaliza FN → 0

Page 16: A Distribute Approach for Classifying Anuran Species Based on Their Calls

Resultados do comitê de sensores

Page 17: A Distribute Approach for Classifying Anuran Species Based on Their Calls

Resultados do comitê de sensores

Page 18: A Distribute Approach for Classifying Anuran Species Based on Their Calls

O ganho após a rejeição

Ganho=erro antes de rejeitar−erro após rejeitar

Page 19: A Distribute Approach for Classifying Anuran Species Based on Their Calls

Comportamento dos FNnot fn=lim

fn→0

tp+ fp+tntp+ fp+tn+ fn

≃1

Page 20: A Distribute Approach for Classifying Anuran Species Based on Their Calls

ROC – Método discriminanteAUC: é uma medida de quão bem o limiar de entropia pode detectar um cenário confuso.

http://www.medcalc.org/manual/roc-curves.php

AUC_sensor1_discriminant = 0.5566AUC_geometric_discriminant = 0.5884

AUC_sensor1_naive = 0.5395AUC_majority_weighted_naive = 0.5742

Page 21: A Distribute Approach for Classifying Anuran Species Based on Their Calls

Conclusões

● O método de classificação de Naive Bayes produz resultados que variam proporcionalmente ao limiar da entropia (correlação +) com custo de classificação menor;

● O ganho na taxa de acerto ao usar votação comparada com somente um sensor foi no máximo 5%, sendo pouco significante;

● Os ganho produzidos deveram-se mais ao efeito da rejeição do que à votação;

● Futuramente usar uma matriz de custos para reduzir os FN.

● Futuramente aplicar Stqacking

Page 22: A Distribute Approach for Classifying Anuran Species Based on Their Calls

StackingTime taken to build model: 6.48 seconds

=== Stratified cross-validation ====== Summary ===Correctly Classified Instances 29407 98.0233 %Incorrectly Classified Instances 593 1.9767 %Kappa statistic 0.9605Mean absolute error 0.0464Root mean squared error 0.1401Relative absolute error 9.2837 %Root relative squared error 28.0186 %Coverage of cases (0.95 level) 99.6367 %Mean rel. region size (0.95 level) 59.8617 %Total Number of Instances 30000

=== Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class 0.967 0.007 0.993 0.967 0.980 0.961 0.996 0.995 1 0.993 0.033 0.968 0.993 0.980 0.961 0.996 0.993 0Weighted Avg. 0.980 0.020 0.981 0.980 0.980 0.961 0.996 0.994

=== Confusion Matrix === a b <-- classified as 14579 495 | a = 1 98 14828 | b = 0