Table Of ContentALGORITMOS GENÉTICOS APLICADOS A
LA CATEGORIZACIÓN AUTOMÁTICA DE
DOCUMENTOS
TESIS DE GRADO EN INGENIERIA
INFORMATICA
FACULTAD DE INGENIERIA
UNIVERSIDAD DE BUENOS AIRES
TESISTA: Sr. Eugenio YOLIS
DIRECTOR: Prof. Dr. Ramón GARCIA-MARTINEZ
Laboratorio de Sistemas Inteligentes
ABRIL 2003
ALGORITMOS GENÉTICOS APLICADOS A LA
CATEGORIZACIÓN AUTOMÁTICA DE DOCUMENTOS
TESIS DE GRADO EN INGENIERIA INFORMATICA
Laboratorio de Sistemas Inteligentes
FACULTAD DE INGENIERIA
UNIVERSIDAD DE BUENOS AIRES
Sr. Eugenio Yolis Dr. Ramón García Martínez
Tesista Director
ABRIL 2003
Resumen
La categorización automática de documentos ha estado recibiendo creciente
atención debido al incremento en la cantidad de información disponible en forma
electrónica y a la necesidad cada vez mayor de encontrar la información buscada en un
tiempo mínimo. Si bien existen numerosos algoritmos para categorizar documentos,
todos ellos evaluan un subconjunto pequeño del espacio de posibles soluciones. Estea
tesis presenta un algoritmo genético adaptado al problema de categorización de
documentos. El algoritmo propuesto introduce 5 nuevos operadores, diseñados
específicamente para la resolución del problema de categorización. Los resultados
obtenidos demuestran que el algoritmo genético logra explorar el espacio de búsqueda
más amplia y eficientemente que los algoritmos previos tomados como referencia.
Palabras clave: Categorización Automática de Documentos, Algoritmos Genéticos,
Computación Evolutiva
Abstract
Automatic document clustering has been receiving increasing attention due to
the growing amount of information available in digital formats, and the importance of
finding the information required faster every day. Even though several clustering
algorithms have been developed, all of them evaluate just a small part of the solution
space. This paper presents an adaption of a genetic algorithm to the document clustering
problem. This new algoritm introduces 5 new operators, designed specifically for the
problem being solved. The obtained results show that the genetic algorithm achieves a
wider and more efficient exploration of the solution space than the previously developed
algoritms that were taken as reference.
Keywords: Automatic Document Clustering, Genetic Algorithms, Evolutionary
Computation
ALGORITMOS GENÉTICOS APLICADOS A LA CATEGORIZACIÓN AUTOMÁTICA DE DOCUMENTOS
Indice
CAPÍTULO 1...............................................................................................................................................................7
INTRODUCCIÓN......................................................................................................................................................7
1.1 CATEGORIZACIÓN AUTOMÁTICA DE DOCUMENTOS......................................................................................8
1.1.1 La Hipótesis del Agrupamiento.............................................................................................................8
1.1.2 Aplicaciones..............................................................................................................................................9
1.2 NATURALEZA COMBINATORIA DEL PROBLEMA DE CATEGORIZACIÓN.....................................................10
1.3 ALGORITMOS GENÉTICOS...............................................................................................................................11
1.4 OBJETIVO DE LA TESIS....................................................................................................................................11
1.5 ESTRUCTURA DE LA TESIS..............................................................................................................................12
CAPÍTULO 2.............................................................................................................................................................15
ESTADO DEL ARTE..............................................................................................................................................15
2.1 CATEGORIZACIÓN DE OBJETOS......................................................................................................................16
2.2 REPRESENTACIÓN VECTORIAL.......................................................................................................................16
2.2.1 Definición del “centroide” de un grupo............................................................................................17
2.2.2 Reducción de la dimensionalidad del espacio de términos............................................................18
2.2.2.1 Reducción de palabras a su raíz.........................................................................................................18
2.2.2.2 Remoción de términos poco discriminantes......................................................................................19
2.3 MEDIDAS DE SEMEJANZA...............................................................................................................................20
2.4 MÉTODOS PARA CATEGORIZAR DOCUMENTOS............................................................................................23
2.5 MÉTODOS DE CATEGORIZACIÓN INTRÍNSECOS............................................................................................24
2.5.1 Métodos Jerárquicos.............................................................................................................................24
2.5.1.1 Enlace simple (“single link”).............................................................................................................27
2.5.1.2 Enlace completo (“complete link”)....................................................................................................28
2.5.1.3 Enlace promedio (“average link”)......................................................................................................28
2.5.1.4 Método de Ward.................................................................................................................................29
2.5.1.5 Resumen de características................................................................................................................29
2.5.2 Métodos particionales...........................................................................................................................30
2.5.2.1 Selección inicial de los representantes...............................................................................................31
2.5.2.2 Criterios de optimización...................................................................................................................32
2.5.2.3 Algoritmos de optimización...............................................................................................................35
2.5.2.4 Resumen de características................................................................................................................37
2.6 EL ALGORITMO “BISECTING K-MEANS”......................................................................................................38
2.6.1 Algoritmo “Bisecting K-Means con refinamiento”..........................................................................39
Eugenio Yolis INDICE 1
ALGORITMOS GENÉTICOS APLICADOS A LA CATEGORIZACIÓN AUTOMÁTICA DE DOCUMENTOS
2.7 INTRODUCCIÓN A LOS ALGORITMOS GENÉTICOS.......................................................................................39
2.7.1 Representación.......................................................................................................................................42
2.7.2 Generación de la población inicial.....................................................................................................44
2.7.3 Función de adaptación..........................................................................................................................44
2.7.4 Selección..................................................................................................................................................45
2.7.4.1 Selección basada en el ranking..........................................................................................................45
2.7.4.2 Selección por ruleta............................................................................................................................46
2.7.4.3 Selección por torneo...........................................................................................................................47
2.7.5 Reproducción..........................................................................................................................................48
2.7.5.1 Cruza monopunto...............................................................................................................................49
2.7.5.2 Cruza multipunto................................................................................................................................49
2.7.5.3 Cruza uniforme..................................................................................................................................50
2.7.6 Mutación..................................................................................................................................................51
2.7.7 Inserción de los hijos en la población................................................................................................51
2.7.7.1 Se generan tantos cromosomas como elementos en la población......................................................51
2.7.7.2 Se generan más cromosomas que elementos en la población............................................................52
2.7.7.3 Se generan menos cromosomas que elementos en la población........................................................52
2.7.8 Criterios de terminación del algoritmo genético..............................................................................53
2.7.8.1 Criterio de convergencia de identidad...............................................................................................53
2.7.8.2 Criterio de convergencia de aptitud...................................................................................................53
2.7.8.3 Criterio de cantidad de generaciones.................................................................................................53
CAPÍTULO 3.............................................................................................................................................................55
DESCRIPCIÓN DEL PROBLEMA...................................................................................................................55
3.1 LA BÚSQUEDA EN EL ESPACIO DE SOLUCIONES...........................................................................................55
3.1.1 Problemas de los algoritmos actuales................................................................................................55
3.2 UTILIZACIÓN DE ALGORITMOS GENÉTICOS..................................................................................................57
3.2.1 Representación y operadores de cruza...............................................................................................58
3.2.2 Uso del conocimiento del dominio......................................................................................................58
CAPÍTULO 4.............................................................................................................................................................61
SOLUCIÓN PROPUESTA....................................................................................................................................61
4.1 ADAPTACIONES EXISTENTES..........................................................................................................................61
4.1.1 Representación.......................................................................................................................................61
4.1.1.1 Numeración de grupo.........................................................................................................................61
4.1.1.2 Representación por matriz.................................................................................................................62
4.1.1.3 Permutación con separadores.............................................................................................................62
4.1.1.4 Permutaciónes con búsquedas locales................................................................................................63
4.1.2 Generación de la población inicial.....................................................................................................64
4.1.3 Función de adaptación..........................................................................................................................64
2 INDICE Eugenio Yolis
ALGORITMOS GENÉTICOS APLICADOS A LA CATEGORIZACIÓN AUTOMÁTICA DE DOCUMENTOS
4.1.4 Selección..................................................................................................................................................64
4.1.5 Cruza........................................................................................................................................................64
4.1.5.1 Cruza monopunto y multipunto.........................................................................................................64
4.1.5.2 Cruza basada en las aristas.................................................................................................................66
4.1.6 Mutación..................................................................................................................................................67
4.2 ALGORITMO PROPUESTO................................................................................................................................67
4.2.1 Representación.......................................................................................................................................67
4.2.2 Estructura del cromosoma....................................................................................................................68
4.2.3 Generacion de la población inicial.....................................................................................................68
4.2.4 Funcion de adaptación..........................................................................................................................69
4.2.5 Seleccion..................................................................................................................................................69
4.2.6 Cruza........................................................................................................................................................70
4.2.6.1 Cruza Pasa Grupo...............................................................................................................................70
4.2.6.2 Análisis del operador Cruza Pasa Grupo...........................................................................................72
4.2.7 Mutación..................................................................................................................................................73
4.2.7.1 Mutación RefinarKM.........................................................................................................................73
4.2.7.2 Mutación Refinar Selectivo...............................................................................................................74
4.2.7.3 Mutación Join.....................................................................................................................................74
4.2.7.4 Mutación Split....................................................................................................................................75
4.2.8 Inserción de los hijos en la población................................................................................................75
4.2.9 Tamaño de la población........................................................................................................................76
4.2.10 Criterio de terminación.......................................................................................................................76
4.2.11 Algoritmo “Genético con refinamiento”.........................................................................................77
CAPÍTULO 5.............................................................................................................................................................79
PRUEBA EXPERIMENTAL................................................................................................................................79
5.1 CONJUNTO DE DATOS UTILIZADO..................................................................................................................79
5.2 VARIABLES A OBSERVAR................................................................................................................................81
5.2.1 Variables independientes......................................................................................................................81
5.2.2 Variables dependientes.........................................................................................................................82
5.2.2.1 Similitud promedio............................................................................................................................82
5.2.2.2 Entropía..............................................................................................................................................83
5.2.2.3 Cantidad de operaciones....................................................................................................................85
5.3 REALIZACIÓN DE LOS EXPERIMENTOS..........................................................................................................86
5.3.1 Metodología utilizada............................................................................................................................86
5.3.1.1 Experimentos variando la cantidad de grupos...................................................................................86
5.3.1.2 Experimentos variando la cantidad de documentos...........................................................................87
5.3.2 Parámetros utilizados por el algoritmo genético.............................................................................88
5.4 RESULTADOS....................................................................................................................................................89
5.4.1 Experimentos variando la cantidad de grupos.................................................................................89
Eugenio Yolis INDICE 3
ALGORITMOS GENÉTICOS APLICADOS A LA CATEGORIZACIÓN AUTOMÁTICA DE DOCUMENTOS
5.4.2 Experimentos variando la cantidad de documentos........................................................................93
5.5 ANÁLISIS DE LOS RESULTADOS......................................................................................................................96
CAPÍTULO 6.............................................................................................................................................................97
CONCLUSIONES....................................................................................................................................................97
RESPUESTA A LAS CUESTIONES PLANTEADAS....................................................................................................97
REFERENCIAS.....................................................................................................................................................101
APÉNDICE 1..........................................................................................................................................................109
DETERMINACIÓN DE PARÁMETROS PARA EL ALGORITMO...................................................109
A1.1 PARÁMETROS A DETERMINAR..................................................................................................................109
A1.1.1 generacionesMáximo.......................................................................................................................109
A1.1.2 poblacionTamaño.............................................................................................................................109
A1.1.3 torneoTamaño...................................................................................................................................109
A1.1.4 torneoProbMejor..............................................................................................................................110
A1.1.5 cruzaPasaGrupoProbMejor...........................................................................................................110
A1.1.6 mutacionRefinarKMProb................................................................................................................110
A1.1.7 mutacionRefinarSelectivoProb......................................................................................................110
A1.2 METODOLOGÍA UTILIZADA.......................................................................................................................110
A1.3 RESULTADOS...............................................................................................................................................112
A1.3.1 generacionesMáximo.......................................................................................................................112
A1.3.2 poblacionTamaño.............................................................................................................................113
A1.3.3 torneoTamaño...................................................................................................................................115
A1.3.4 torneoProbMejor..............................................................................................................................116
A1.3.5 cruzaPasaGrupoProbMejor...........................................................................................................117
A1.3.6 mutacionRefinarKMProb................................................................................................................118
A1.3.7 mutacionRefinarSelectivoProb......................................................................................................119
APÉNDICE 2..........................................................................................................................................................121
ANÁLISIS ESTADÍSTICO DE LOS RESULTADOS................................................................................121
A2.1 PRUEBA DE HIPÓTESIS ESTADÍSTICAS......................................................................................................121
A2.2 EL TEST DE WILCOXON PARA LA COMPARACIÓN DE MEDIAS DE MUESTRAS APAREADAS..............123
A2.2.1 Introducción......................................................................................................................................123
A2.2.2 Descripción del test..........................................................................................................................123
A2.3 APLICACIÓN DEL TEST A LOS RESULTADOS............................................................................................125
A2.3.1 Similitud promedio...........................................................................................................................126
A2.3.1.1 “Bisecting K-Means con refinamiento” contra “Genético”..........................................................126
4 INDICE Eugenio Yolis
Description:Palabras clave: Categorización Automática de Documentos, Algoritmos This paper presents an adaption of a genetic algorithm to the document clustering [Citeseer] (un sitio que se dedica a la publicación on-line de bibliografía . recursos de hardware sobre los cuales se realizaron las pruebas