Table Of ContentAlgoritmo de Discretizacio´n
de Series de Tiempo Basado en Entrop´ıa y su Aplicacio´n
en Datos Colposc´opicos
Daniel Alejandro Garc´ıa L´opez
Departamento de Inteligencia Artificial
Universidad Veracruzana
Revisores:
Dr. H´ector Gabriel Acosta Mesa,
Dr. Nicandro Cruz Ram´ırez,
Dr. Efr´en Mezura Montes.
UNIVERSIDAD VERACRUZANA
Algoritmo de Discretizacio´n
de Series de Tiempo Basado en Entrop´ıa y su Aplicacio´n
en Datos Colposc´opicos
T E S I S
que para obtener el grado de
Maestro en Inteligencia Artificial
presenta:
Daniel Alejandro Garc´ıa L´opez
Director de Tesis:
Dr. H´ector Gabriel Acosta Mesa
Septiembre 2007
Agradecimientos
A mi madre, mi padre y mis hermanos: Joan, Miguel y Gilberto, por su apoyo constante
y por sus incontables ensen˜anzas y valores.
A mi abuela Rosa(Q.E.P.D) por su amor y carin˜o que me brind´o para seguir adelante
y que junto a mi abuelo Sau´l me ensen˜aron valores de vida.
A todos mis t´ıos por todo el apoyo y carin˜o que me brindaron aun en momentos dif´ıciles.
En especial a Leticia, Imelda, Sau´l que son como mis segundos mis padres.
A mis primos en especial a David, Sara, Francisco y Alejandra por el apoyo moral para
culminar esta carrera.
A mi entran˜able amigo Marcos por su amistad sincera e incondicional.
A mis compan˜eros de generacio´n y amigos:
Karina, Wulfrano, Rosibelda, Carlos, Gustavo por su amistad y comprensio´n durante
toda la carrera.
A mi director de tesis: Dr. Acosta por su gu´ıa y aportaciones para la investigaci´on de
esta tesis.
A los revisores del documento:Dr. H.G. Acosta Mesa, Dr. N. Cruz Ram´ırez y Dr. E.
Mezura Montes, por sus valiosos comentarios para la mejora de ´esta tesis.
A Jos´e L. Llaguno por sus valiosas aportaciones para la redaccio´n de esta tesis.
A todos mis maestros de la MIA que me brindaron sus conocimientos y experiencia. En
especial a la M.C.C. Ang´elica Vega y Dr. Negrete por ser ma´s que mis profesores en esta
etapa de mi vida.
Al Consejo Nacional de Ciencia y Tecnolog´ıa (CONACyT), por la beca econ´omica para
la continuacio´n en el programa de maestr´ıa con numero de registro 203282.
iii
Resumen
La miner´ıa de datos en series de tiempo es relativamente una nueva sub-a´rea de Des-
crubrimiento de Conocimiento en Bases de Datos(por sus siglas en ingl´es KDD), en la cual
la dimensi´on temporal de los datos introduce nuevos retos en las tareas de clasificaci´on y
agrupamiento(clustering). Las grandes cantidades de informacio´n que contienen las bases
de datos temporales requieren de una eficiente representaci´on, no so´lo que reduzcan la di-
mensionalidad, sino tambi´en que preserve la informacio´n relevante para una clasificacio´n
eficiente.
Varios enfoques han sido propuestos para representar datos temporales de forma discre-
ta, sin embargo, en su mayor´ıa esta´n orientados a la compresi´on, m´as que a la maximizacio´n
de la informaci´on. En esta tesis, se propone un nuevo algoritmo de discretizacio´n llamado
EBLA3. La idea b´asica de EBLA3 es minimizar la entrop´ıa de los patrones temporales
sobre sus etiquetas de clase, encontrando un m´ınimo nu´mero de intervalos, con el cual la
base de datos completa pueda ser discretizada. Al mismo tiempo se encuentra el nu´mero
de segmentos y rangos en que pueden agruparse los segmentos de tiempo, conservando la
informacio´n relevante. Una gran diferencia con respecto a otros enfoques es que EBLA3
automa´ticamente encuentra el taman˜o y nu´mero de intervalos requeridos para la discreti-
zacio´n.
El desempen˜o de EBLA3 es evaluado en 20 bases de datos de series de tiempo y com-
parado frente a un algoritmo de discretizaci´on eficiente llamado SAX. Tambi´en es utilizado
en una aplicacio´n particular: en series de tiempo obtenidas de ima´genes colposc´opicas. Los
resultados obtenidos de las diferentes bases de datos de series de tiempo muestran que la
representacio´n EBLA3 obtiene menor tasa de error en la clasificaci´on que la representacio´n
SAX utilizando los valores de para´metros encontrados por EBLA3, las pruebas fueron reali-
zadas con el clasificador k-vecinos ma´s cercanos con el m´etodo de estimacio´n de la precisio´n
leave-one-out cross validation.
iv
Una ventaja de EBLA3 sobre la representacio´n SAX es que EBLA3 no requiere de espe-
cificar el taman˜o de alfabeto, ni el taman˜o de palabra ya que est´e es calculado automa´tica-
mente.Paraseriesdetiempoobtenidasdeim´agenescolposco´picaslarepresentacio´nEBLA3
logro´porcentajes de precisi´on, sensibilidad y especificidad muy similares a la representacio´n
continua en el espacio de color de escala de gris normalizado. Estos resultados muestran
que la representaci´on EBLA3 es una buena opci´on para la clasificacio´n eficiente de series de
tiempo en este dominio, con la ventaja de reducir el ca´lculo durante la clasificaci´on, la in-
formacio´n relevante queda compactada, permitiendo reducir el espacio de almacenamiento
para futuras instancias que requieran clasificarse, todo ello sin requerir a priori del taman˜o
de alfabeto y palabra como lo es para la representacio´n SAX.
v
´
Indice general
P´agina
Agradecimientos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iii
Resumen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . iv
Tabla de Contenido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . vi
´Indice de Tablas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . ix
´Indice de Figuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . xi
PRIMERA PARTE: Introduccio´n y definici´on de EBLA3
1. Introduccio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.1. Propuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.2. Justificacio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3. Estructura de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
2. Marco de Referencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
2.1. Bases de datos de series de tiempo . . . . . . . . . . . . . . . . . . . . . . 9
2.2. Representaciones de series de tiempo . . . . . . . . . . . . . . . . . . . . . 10
2.3. Representaciones de series de tiempo no adaptativas . . . . . . . . . . . . . 11
2.3.1. Piecewise Aggregate Approximation(PAA) . . . . . . . . . . . . . . 11
2.4. Representaciones de series de tiempo adaptativas . . . . . . . . . . . . . . 12
2.4.1. Representaciones simb´olicas de series de tiempo . . . . . . . . . . . 12
2.5. Discretizacio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.5.1. M´etodos de discretizacio´n supervisados y no supervisados . . . . . . 17
2.5.2. M´etodos de discretizacio´n global y local . . . . . . . . . . . . . . . 17
2.5.3. Discretizaci´on en series de tiempo . . . . . . . . . . . . . . . . . . . 18
2.6. M´etodos de cla´sificaci´on supervisados en aprendizaje autom´atico . . . . . . 19
2.6.1. k-Vecinos M´as Cercanos . . . . . . . . . . . . . . . . . . . . . . . . 19
´
2.6.2. Arboles de Decisio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
vi
2.6.3. Na¨ıve Bayes simple . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
2.7. Medidas de distancia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.8. M´etodos de Estimacio´n de la precisi´on . . . . . . . . . . . . . . . . . . . . 27
2.8.1. Holdout . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.8.2. k-fold Cross-Validation . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.8.3. Leave-one-out cross-validation . . . . . . . . . . . . . . . . . . . . . 28
2.9. Extraccio´n de caracter´ısticas . . . . . . . . . . . . . . . . . . . . . . . . . . 29
3. Definicio´n del algoritmo EBLA3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.1. Medida de Utilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
3.2. Reduccio´n de la dimensionalidad . . . . . . . . . . . . . . . . . . . . . . . 35
3.3. Temple del algoritmo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.4. Descripcio´n del algoritmo EBLA3 . . . . . . . . . . . . . . . . . . . . . . . 40
3.5. Ca´lculo del porcentaje de compresio´n . . . . . . . . . . . . . . . . . . . . . 44
4. Resultados experimentales de EBLA3 . . . . . . . . . . . . . . . . . . . . . . . . 47
4.1. Propiedades de las bases de datos . . . . . . . . . . . . . . . . . . . . . . . 47
4.2. Clasificacio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.3. Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49
4.4. Discusio´n del experimento . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
SEGUNDA PARTE : Aplicaci´on de EBLA3 datos colposc´opicos
5. Aplicacio´n particular de EBLA3 . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.1. Colposcop´ıa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.1.1. Sensibilidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.1.2. Especificidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2. Funci´on dina´mica de respuesta acetoblanca . . . . . . . . . . . . . . . . . . 55
5.3. Adquisicio´n de las im´agenes colposco´picas . . . . . . . . . . . . . . . . . . 55
5.4. Espacios de color . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
5.5. Espectro electromagn´etico . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
5.6. Descripcio´n de las pruebas . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
vii
5.7. Presentacio´n de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
5.8. Discusio´n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
6. Conclusiones y trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.1. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
6.2. Trabajo futuro . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
Referencias . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
Ap´endice A: Supervised Discretization Algorithm for Time Series . . . . . . . . . . 89
Ap´endice B: Entropy Based Linear Approximation Algorithm for Time Series Dis-
cretization . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 96
viii
´
Indice de Tablas
4.1. Propiedades de las bases de datos . . . . . . . . . . . . . . . . . . . . . . . 48
5.1. Representaciones con ma´s altos porcentajes de sensibilidad y especificidad
reportados en [30] . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.2. Propiedades de las bases de datos de las series de tiempo de las ima´genes
colposco´picas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
5.3. Alfabeto y palabra encontrado por EBLA3 para cada una de las bases de
datos de las series de tiempo de im´agenes colposc´opicas . . . . . . . . . . . 62
5.4. Porcentajes de precisi´on, sensibilidad y especificidad obtenidos con EBLA3 y
SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el espacio de color: escala
de gris con las series de tiempo normalizadas(FDRA ) . . . . . . 63
Normalizado
5.5. Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3
y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el espacio de color:
escala de gris con las series de tiempo suavizado con el modelo polinomial y
normalizada . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
5.6. Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3
y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente R del
espacio de color RGB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
5.7. Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3
y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente G del
espacio de color RGB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
5.8. Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3
y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente B del
espacio de color RGB . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
ix
5.9. Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3
y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente Y del
espacio de color YUV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 68
5.10.Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3
y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente U del
espacio de color YUV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
5.11.Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3
y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente V del
espacio de color YUV . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
5.12.Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3
y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente L del
espacio de color CIELab . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
5.13.Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3
y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente a del
espacio de color CIELab . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
5.14.Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3
y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) en el componente b del
espacio de color CIELab . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73
5.15.Porcentajes de precisio´n, sensibilidad y especificidad obtenidos con EBLA3
y SAX con KNN, ID3 y Na¨ıve Bayes simple(NB) sobre FDRA obtenidas de
ima´genes colposco´picas tomadas en la longitud de onda 525nm . . . . . . . 74
5.16.Tabla de comparacio´n de resultados reportados en [30] y los obtenidos por
EBLA3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
5.17.Condensado del desempen˜o de EBLA3 en datos colposco´picos . . . . . . . 78
x
Description:parado frente a un algoritmo de discretización eficiente llamado SAX. También es utilizado SAX utilizando los valores de parámetros encontrados por EBLA3, las pruebas fueron reali- zadas con el .. utilizando el conjunto de datos de entrenamiento(lınea continua), utilizando un conjunto de