Table Of ContentDisen˜o y Evaluacio´n de Algoritmos para
Detectar Vocalizaciones de Aves en Registros
Sonoros
Juan Sebastia´n Ulloa
por
Pontificia Universidad Javeriana
Facultad de Ingenier´ıa
Ingenier´ıa Electro´nica
Cali
Octubre 2012
Disen˜o y Evaluacio´n de Algoritmos para
Detectar Vocalizaciones de Aves en Registros
Sonoros
Juan Sebastia´n Ulloa
por
Trabajo de grado presentado como requisito parcial para optar al t´ıtulo de
Ingeniero Electr´onico
Director
Dr. Herna´n Dar´ıo Ben´ıtez
Pontificia Universidad Javeriana
Facultad de Ingenier´ıa
Ingenier´ıa Electro´nica
Cali
Octubre 2012
´
Indice general
´Indice de figuras
IV
Lista de Abreviaciones
VI
1. Introduccio´n 1
1.1. Relevancia del estudio en relaci´on con la
biodiversidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2. Contribuci´on de este proyecto . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Esquema del manuscrito . . . . . . . . . . . . . . . . . . . . . . . . . 5
2. Base teo´rica: biolog´ıa 6
2.1. La comunicacio´n acu´stica en las aves . . . . . . . . . . . . . . . . . . 6
2.1.1. Anatom´ıa del ´organo vocal . . . . . . . . . . . . . . . . . . . . 6
2.1.2. Las vocalizaciones de aves . . . . . . . . . . . . . . . . . . . . 7
2.2. Pa´ramo y bosque alto-andino . . . . . . . . . . . . . . . . . . . . . . 9
3. Registros sonoros del IAvH 11
3.1. Base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
3.1.1. Equipo de grabaci´on . . . . . . . . . . . . . . . . . . . . . . . 12
3.1.2. Selecci´on de audio . . . . . . . . . . . . . . . . . . . . . . . . 12
3.1.3. Homogenizaci´on de los datos . . . . . . . . . . . . . . . . . . . 13
3.2. Vocalizaci´on de aves en los registros . . . . . . . . . . . . . . . . . . . 14
3.2.1. Frecuencia cuasi-constante . . . . . . . . . . . . . . . . . . . . 14
3.2.2. Frecuencia modulada . . . . . . . . . . . . . . . . . . . . . . . 15
3.2.3. Pulso en banda ancha . . . . . . . . . . . . . . . . . . . . . . 15
3.3. Ruido ambiental e interferencias . . . . . . . . . . . . . . . . . . . . . 16
3.3.1. Ruido ambiental . . . . . . . . . . . . . . . . . . . . . . . . . 16
3.3.2. ‘Clicks’ y ‘pops’ . . . . . . . . . . . . . . . . . . . . . . . . . . 18
i
3.3.3. Voz humana . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
4. Caracter´ısticas en sen˜ales de audio 21
4.1. Procesamiento de corto plazo en sen˜ales de audio . . . . . . . . . . . 21
4.2. Caracter´ısticas frecuenciales . . . . . . . . . . . . . . . . . . . . . . . 22
4.2.1. Centroide espectral . . . . . . . . . . . . . . . . . . . . . . . . 22
4.2.2. Spectral Rolloff . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2.3. Spectral Flux . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
4.2.4. Entrop´ıa Espectral . . . . . . . . . . . . . . . . . . . . . . . . 24
4.2.5. Ancho de banda . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.2.6. Frecuencia pico . . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.2.7. Spectral Flatness . . . . . . . . . . . . . . . . . . . . . . . . . 24
4.3. Caracter´ısticas temporales . . . . . . . . . . . . . . . . . . . . . . . . 25
4.3.1. Energ´ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
4.3.2. Tasa de cruce por cero . . . . . . . . . . . . . . . . . . . . . . 26
5. Algoritmos de deteccio´n 27
5.1. Estado del Arte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.1.1. Umbral de energ´ıa . . . . . . . . . . . . . . . . . . . . . . . . 27
5.1.2. M´aquinas de aprendizaje . . . . . . . . . . . . . . . . . . . . . 28
5.1.3. Template matching . . . . . . . . . . . . . . . . . . . . . . . . 28
5.2. Constant False Alarm Rate (CFAR) . . . . . . . . . . . . . . . . . . . 29
5.3. Red Neuronal Artificial . . . . . . . . . . . . . . . . . . . . . . . . . . 30
5.3.1. Modelo general de la red . . . . . . . . . . . . . . . . . . . . . 31
5.3.2. M´etodo de entrenamiento . . . . . . . . . . . . . . . . . . . . 31
5.3.3. Ajuste de para´metros . . . . . . . . . . . . . . . . . . . . . . . 32
5.4. Template Matching (TM) . . . . . . . . . . . . . . . . . . . . . . . . 33
5.4.1. El espectrograma . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.4.2. La plantilla . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
5.4.3. Procesamiento de la sen˜al de salida . . . . . . . . . . . . . . . 35
5.5. Filtro pasabanda . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35
6. Pruebas y resultados 38
6.1. Modelo de pruebas . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
6.2. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40
6.2.1. Pruebas sin filtro . . . . . . . . . . . . . . . . . . . . . . . . . 41
6.2.2. Adici´on de filtro FIR . . . . . . . . . . . . . . . . . . . . . . . 45
ii
6.2.3. Tiempo de ejecucio´n . . . . . . . . . . . . . . . . . . . . . . . 50
6.3. Discusio´n de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . 50
7. Conclusiones y trabajos futuros 53
7.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
7.2. Trabajos futuros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
Ap´endices 56
A. Grabaciones del IAvH 57
B. Especificaciones del equipo de grabaci´on 59
Bibliograf´ıa 60
iii
´
Indice de figuras
2.1. Mecan´ısmo de produccio´n de sonido en las aves (Fagerlund, 2004) . . 7
2.2. Las divisiones jer´arquicas de las vocalizaciones de aves: silaba, frase
y canto (o llamado). Canto de Atlapetes pallidinucha. . . . . . . . . . 9
3.1. Ejemplo de (a) estructura cao´tica de vocalizacio´nes superpuestas y
(b) vocalizaciones separadas . . . . . . . . . . . . . . . . . . . . . . . 13
3.2. Ejemplo de vocalizaci´on con frecuencia constante. Especie: Acropter-
nis orthonyx. Frecuencia: 2-3kHz . . . . . . . . . . . . . . . . . . . . . 15
3.3. Ejemplo de vocalizaci´on compuesta por varias s´ılabas que modulan
en frecuencia. Especie: Anairetes agilis. Frecuencia: 3.5kHz-8.5kHz . . 15
3.4. Ejemplo de vocalizacio´n en pulsos de banda ancha. Especie: Cinny-
certhia unirufa. Frecuencia: 1-12kHz . . . . . . . . . . . . . . . . . . . 16
3.5. Cuatro gra´ficas espec´ıficas de ana´lisis exploratorio para una muestra
deruidoambiente.1.Esquinasuperiorderecha,secuenciadeamplitud
delasmuestraseneltiempo.2.Esquinasuperiorizquierda,dispersi´on
de las muestras. 3. Esquina inferior derecha, histograma. 4. Esquina
inferior derecha, gr´afico de probabilidad normal. . . . . . . . . . . . . 17
3.6. Ejemplo de ruido ambiental. . . . . . . . . . . . . . . . . . . . . . . . 18
3.7. Ejemplo de click . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.8. Ejemplodeunainterferenciaproducidaporelmovimientodelmicro´fono 19
3.9. Ejemplo de voz humana . . . . . . . . . . . . . . . . . . . . . . . . . 20
4.1. Ejemplo de valores obtenidos de Spectral Centroid en una sen˜al que
contiene vocalizaciones de aves e interferencia de tipo I2 . . . . . . . 22
4.2. Ejemplo de valores obtenidos de Spectral Rolloff en una sen˜al que
contiene una vocalizaci´on de un ave y ruido ambiente. . . . . . . . . . 23
4.3. Ejemplo de valores obtenidos del pico de frecuencia en una sen˜al que
contiene una vocalizaci´on de un ave y voz humana yuxtapuestas. . . . 25
iv
5.1. Diagrama de flujo del algoritmo CFAR . . . . . . . . . . . . . . . . . 30
5.2. Modelo de la red perceptron multicapa implementada. . . . . . . . . 31
5.3. Validaci´on cruzada de cinco a cien neuronas con incrementos de cinco
unidades. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
5.4. Diagrama del algoritmo template matching . . . . . . . . . . . . . . . 34
5.5. Comparacio´nderesultadosobtenidosenlacorrelacio´nconeltemplate
artificial y con el template natural. . . . . . . . . . . . . . . . . . . . 35
5.6. Respuesta impulsional (a) y respuesta en frecuencia (b) del filtro FIR
disen˜ado por muestreo en frecuencia. . . . . . . . . . . . . . . . . . . 37
6.1. Esquema de la elaboraci´on de sen˜ales para la Prueba I. A una sen˜al
con vocalizaciones de aves se le agrega ruido ambiente a diferentes
niveles para obtener diferentes valores de SNR. . . . . . . . . . . . . . 39
6.2. Esquema de la elaboracio´n de las sen˜ales para la Prueba II. Se toma
una sen˜al con vocalizaciones de aves y se le agregan interferencias. . . 40
6.3. Prueba Ia. Resultados en curva ROC (a,b y c) y diagrama de barras
(d). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
6.4. Prueba IIa. Resultados en curva ROC (a) y diagrama de barras (b). . 43
6.5. Prueba Ib. Resultados en curva ROC (a,b y c) y diagrama de barras
(d). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44
6.6. Prueba IIb. Resultados en curva ROC (a) y diagrama de barras (b). . 45
6.7. Prueba Ia-FIR. Resultados en curva ROC (a, b y c) y diagrama de
barras (d). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
6.8. Prueba IIa-FIR. Resultados en curva ROC (a) y diagrama de barras
(b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
6.9. Prueba Ib-FIR. Resultados en curva ROC (a, b y c) y diagrama de
barras (d). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
6.10.Prueba IIb-FIR. Resultados en curva ROC (a) y diagrama de barras
(b). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
v
Lista de Abreviaciones
AUC Area Under the Curve
CFAR Constant False Alarm Rate
DFT Discrete Fourier Transform
FFT Fast Fourier Transform
FIR Finite Impulse Response
IAvH Instituto Alexander von Humboldt
RMS Root mean square
RNA Red Neuronal Artificial
ROC Receiver Operating Characteristic
SNR Signal-to-noise ratio
TM Template Matching
vi
Agradecimientos
Este proyecto no habr´ıa sido posible sin la ayuda de muchas personas. En primer
lugar, quiero darle las gracias a Hern´an Ben´ıtez por haberme acompan˜ado incon-
dicionalmente de principio a fin durante este largo proceso de aprendizaje. Paula
Caycedo me abri´o las ventanas al mundo de la bioacu´stica y los paisajes sonoros.
Jaime Parra y Mauricio Orozco ayudaron a construir las bases fundamentales del
proyecto. Patricia Chaco´n, mi madre, por la incalculable ayuda recibida en este pro-
yecto.SaraKeen,quiensiemprecontesto´amisinterminablescorreosconinformacio´n
precisa y detallada. Mi primo Juan Fernando Correa me apoy´o en la idea de desdi-
bujar la so´lida l´ınea que se ha trazado entre la ingenier´ıa y otras ´areas de estudio.
Algunos bi´ologos que contribuyeron sustancialmente con sus ideas y conocimiento
son Gustavo Kattan, Fernando Montealegre y Wilmar Bolivar.
´
Quiero adema´s dar un especial agradecimiento a la Fundaci´on Alejandro Angel
Escobar por financiar parte de este proyecto y al Instituto Humboldt por proveer
las indispensables grabaciones de campo.
Finalmente, quiero agradecer a mi familia por el apoyo brindado en mis estudios.
Abstract
Bird monitoring based on avian sound analysis provide valuable information for science
and conservation efforts. In Colombia, the Alexander von Humboldt Institute (IAvH) will
perform an acoustic monitoring study on the moorland and high Andean forest, which
includes over 500 hours of recordings. Due to the large amount of information, a great
challenge of the project is to develop automated systems for data analysis. The purpose
of this study is to compare the performance of different signal processing techniques to
detect bird vocalizations on field recordings.
Three signal detection algorithms were selected and adapted: an energy threshold de-
tector, a neural network (9 acoustic features) and a template matching approach (spectro-
gramcross-correlation).Furthermore,abandpassfilterwasimplementedbetween1and10
kHz. From a database provided by the IAvH, 433 audio samples were extracted, 335 bird
vocalizations and 98 interference sounds. 80% of the samples were selected for training
and algorithm development, and 20% were used for testing purposes. Tow different tests
were designed, the first was focused on estimating the sensitivity of the algorithms, and
the second to analyze their specificity.
Regarding the sensitivity test, the results showed that by varying signal-to-noise ratio
from 30dB to 0dB, the best algorithm was the template matching with only 7.9% of
decrease on its performance, while the energy threshold algorithm showed 31.5% and the
neural network 49.5%. On the specificity test, the performance was evaluated comparing
theresultsbetweenacleansignalandasignalalteredbyinterferences.Theneuralnetwork
showed to be the more robust against interferences with a decrease of only 2.3% on the
results, followed by the template matching with 4.6% and the last algorithm by far was
the energy threshold with 58.2%. By adding the bandpass filter, the results of the energy
thresholdandtheneuralnetworkimprovedsubstantially.Onaverage,thethresholdenergy
performance improved by 29.7% and the neural network a 17.7%. However, the template
matching had almost the same results by including the filter, it improved 1.9%.
The energy threshold with the filter shown to be a good starting point for analyzing
the signals of the moor and the high-Andean forest, where interference is scarce. The
cross-correlation is an interesting alternative for being robust and is a method to be used
in stereotyped singing birds. Finally, the neural network technique, being more susceptible
to ambient noise, is not recommended for the IAvH studies. Thus, this comparative study
shows the advantages and disadvantages of each algorithm. Moreover, it clarifies how to
develop a robust module to both ambient noise and interferences.
Keywords: bird vocalization, acoustic field recordings, bioacoustics, digital filters, signal
detection.
Description:de 30dB a 0dB, el mejor algoritmo fue el template matching al presentar una .. por descargar gran cantidad de energıa en un lapso breve de tiempo