a distribute approach for classifying anuran species based on their calls
DESCRIPTION
Classificação distribuida de anuros usando redes de sensores sem fio.TRANSCRIPT
Juan Gabriel ColonnaEduardo Freire Nakamura
Instituto de Computação (Icomp)Universidade Federal do Amazonas (UFAM)
Classificação de Anuros usando Rede de Sensores Sem Fio
Projeto ANURAObjetivo: Determinar estresse ecológico usando como indicador as variações das populações de anuros.
Sensíveis às mudançasdo ecossistema
Detecção do som
Lima, A.P.; Erdtmann, L.K.; Ferrão, M., Costeira, J.M.; Oliveira, A.S.; Oliveira, D.M.S. 2012. SAPOTECA: biblioteca de sons e vídeos de anuros amazônicos. CENBAM, Manaus, Amazonas, Brasil.
Leptodactylus hylaedactylus
A. andreae
Rhinella major
Reconhecimento de áudio
Método: Coeficientes Mel e SVM ou k-NN.
Problemas: detecção e reconhecimento
Redes de sensores
Trade-off: processamento vs transmissão
Cenário 1 Cenário 2
Cenário 3
Colaboração e fusão● Propriedade colaborativa
da rede● Fusão: média,
votação, etc.
NAKAMURA, E. F. ; LOUREIRO, A. A. F. ; FRERY, A. C. . Information Fusion for Wireless Sensor Networks: Methods, Models, and Classifications. ACM Computing Surveys, v. 39, p. 9/1-9/55, 2007.
Trabalhos relacionados
Vantagem: imunidade aos ruídos, classificador simplesDesvantagem: clusttering (sincronização, escolha de k, descartar clustter), gerar combinações de saída.
RIBAS, A. D. ; COLONNA, J. G. ; FIGUEIREDO, C. M. S. ; NAKAMURA, E. F. . Similarity Clustering for Data Fusion in Wireless Sensor Networks Using k-Means. In: International Joint Conference on Neural Networks, 2012, Brisbane. Proceedings of the 2012 International Joint Conference on Neural Networks (IJCNN 2012), 2012. p. 488-494.
Err=ErrP+β∗ErrS
1+β
O problema da Confusão
● Padrões de sinal misturados● Ruídos● Outros animais● Espécies que não estão na base
Scinax ruberDendropsophus minutus
Objetivo e HipótesesObjetivo: Elaborar um método de fusão e rejeição que melhore a acurácia de classificação em cenários distribuídos
● H1: A técnica de rejeição diminui os erros de
classificação.
● H2: Usar um comitê de sensores é melhor que usar
somente um sensor.
MétodoMétodo:1. Cada sensor detecta e classifica;2. Os vetores de probabilidades a posteriori são transmitidos ao líder;3. O líder aplica uma votação;4. Calcula-se a entropia do vetor de probabilidades a posteriori;5. Aplica-se uma regra de decisão.
Classificadores1. kNN (k=3) (98.2%)2. Árvore (94.6%)3. Naive Bayes (93.6%)4. Discriminant analysis
D(i , j)=√(x i−μ j)T S j
−1(x i−μ j)
Distância de Mahalanobis
Probabilidade a posteriori
q j=p(x i∣μ j , S j)π j
● Se as Sj de cada grupo são iguais então usamos funções discriminantes lineares
● Senão usamos funções discriminantes quadráticas
log (q j)=−12
Di , j2
+ log (π j)+c0
log (q j)=−12
Di , j2
+ log(π j)−12
log∣S j∣+c0
http://www.mathworks.com/help/stats/discriminant-analysis.html
Regras de Votação
Comitê de sensores == Conjunto de Classificadores
● Cenário: Dado um vetor de características desconhecido x, cada classificador produz as probabilidades a posteriori para as M classes, sendo P
j(w
i|x), i=1...M e j=1...L
● Objetivo: Combinar as probabilidades a posteriori para melhorar a probabilidade final P(w
i|x)
● Voto majoritário
● Voto majoritário ponderado (power):
● Regra geométrica:
● Regra aritmética:
lc={L2+1 par
L+12
impar
Pw=1N∑ x2
maxwi∏j=1
L
P j (wi∣x)
P(wi∣x)=1L∑j=1
L
P j (w i∣x)
Theodoridis, S. and Koutroumbas, K. Pattern Recognition, 4th.
Método de Rejeição
Exemplo:
[0 0 . . . 1 . . 0 0] Entropia: -0*log
2(0) . . . -1*log
2(1) = 0
[0 0,25 . . . 0,75 . . 0 0] Entropia: -0,25*log
2(0,25) - 0,75*log
2(0,75) = -0,8
[0 0,5 . . . 0,5 . . 0 0] Entropia: -0,5*log
2(0,5) – 0,5*log
2(0,5) = -1 (rejeitar)
Nota: O método de rejeição permite transformar o problema de classificação em um problema bi-classe.
h=−pi∑ pi
Experimentos✔ Um clustter de 4 sensores formando um grid
perturbado separados 5[m] + N~(0,0.1),✔ Tamanho da área 10x10 [mts],✔ 9 Espécies diferentes,✔ Ruído aditivo gaussiano N~(0,0.1),✔ Modelo de atenuação equ.(1)
com alfa = 0.10 dB/m, ✔ Modelo de combinação
linear de sílabas equ.(2)
Equação1
atte=1
10α
d i
20
α=Absorção Atmosférica(dB /m)
di=distância (m)
Equação 2
Snew=α1∗S1+α2 S2
S1=sílabadaespécie1S2=sílabadaespécie2
http://www.csgnetwork.com/atmossndabsorbcalc.html
Resultados para um sensor
Erro da espécie 1 antes de rejeitar = 0,52Erro da espécie 2 antes de rejeitar = 0,68
Erro da espécie 1 após rejeitar = 0,37
AUC_sensor1_discriminant = 0.5566AUC_sensor1_naive = 0.5395
Resultados para um sensor
previsão
Conf Não Conf
Conf10677
TP4397 FN
Não Conf
8730 FP
6196TN
Matriz de confusão da entropia limiar = 0,1Erro = 0.43Precisão = TP / (TP+FP) = 0.55Revocação = TP / (TP+FN) = 0.7F1 = 0.6Kappa = 0.23
Matriz de confusão da entropia limiar = 0,2Erro = 0.45Precisão = TP / (TP+FP) = 0.55Revocação = TP / (TP+FN) = 0.55F1 = 0.55Kappa = 0.1
previsão
ConfNão Conf
Conf 8412TP
6662FN
Não Conf
6860FP
8066TN
*Nota: objetivo futuro penaliza FN → 0
Resultados do comitê de sensores
Resultados do comitê de sensores
O ganho após a rejeição
Ganho=erro antes de rejeitar−erro após rejeitar
Comportamento dos FNnot fn=lim
fn→0
tp+ fp+tntp+ fp+tn+ fn
≃1
ROC – Método discriminanteAUC: é uma medida de quão bem o limiar de entropia pode detectar um cenário confuso.
http://www.medcalc.org/manual/roc-curves.php
AUC_sensor1_discriminant = 0.5566AUC_geometric_discriminant = 0.5884
AUC_sensor1_naive = 0.5395AUC_majority_weighted_naive = 0.5742
Conclusões
● O método de classificação de Naive Bayes produz resultados que variam proporcionalmente ao limiar da entropia (correlação +) com custo de classificação menor;
● O ganho na taxa de acerto ao usar votação comparada com somente um sensor foi no máximo 5%, sendo pouco significante;
● Os ganho produzidos deveram-se mais ao efeito da rejeição do que à votação;
● Futuramente usar uma matriz de custos para reduzir os FN.
● Futuramente aplicar Stqacking
StackingTime taken to build model: 6.48 seconds
=== Stratified cross-validation ====== Summary ===Correctly Classified Instances 29407 98.0233 %Incorrectly Classified Instances 593 1.9767 %Kappa statistic 0.9605Mean absolute error 0.0464Root mean squared error 0.1401Relative absolute error 9.2837 %Root relative squared error 28.0186 %Coverage of cases (0.95 level) 99.6367 %Mean rel. region size (0.95 level) 59.8617 %Total Number of Instances 30000
=== Detailed Accuracy By Class === TP Rate FP Rate Precision Recall F-Measure MCC ROC Area PRC Area Class 0.967 0.007 0.993 0.967 0.980 0.961 0.996 0.995 1 0.993 0.033 0.968 0.993 0.980 0.961 0.996 0.993 0Weighted Avg. 0.980 0.020 0.981 0.980 0.980 0.961 0.996 0.994
=== Confusion Matrix === a b <-- classified as 14579 495 | a = 1 98 14828 | b = 0