Table Of ContentSISTEMA DE GENERACIÓN,
ADMINISTRACIÓN Y
CONSULTA DE UNA LIBRERÍA DIGITAL
DE
DOCUMENTOS PARA UN PORTAL WEB
Ing. Isabel Andrea Mahecha Nieto
Universidad Nacional de Colombia
Facultad de Ingeniería
Departamento de Ingeniería de Sistemas e Industrial
Bogotá, Colombia
2011
SISTEMA DE GENERACIÓN,
ADMINISTRACIÓN Y
CONSULTA DE UNA LIBRERÍA DIGITAL
DE
DOCUMENTOS PARA UN PORTAL WEB
Ing. Isabel Andrea Mahecha Nieto
Tesis presentada como requisito parcial para optar al título de:
Magister en Ingeniería de Sistemas y Computación
Directora:
Ph.D. Elizabeth León Guzmán
Línea de Investigación:
Minería de Documentos y Librerías Digitales
Grupo de Investigación:
Grupo de Investigación en Minería de Datos - MIDAS
Universidad Nacional de Colombia
Facultad de Ingeniería
Departamento de Ingeniería de Sistemas e Industrial
Bogotá, Colombia
2011
A mis padres Carmenza y Jairo
A mis hermanas Laura y Sara
A mi abuelita Carmen
Agradecimientos
Gracias a todas las personas que estuvieron conmigo a lo largo de este camino, siempre los
llevaré en mi corazón.
A mis padres, por creer en mí y por su amor infinito.
Laura y Sara Mahecha por su colaboración y su cariño fraterno.
Un especial agradecimiento a todas los integrantes del Laboratorio de Investigación en
Sistemas Inteligentes – LISI, por sus enseñanzas, su compañía y su amistad.
A la profesora Elizabeth León por su orientación y conocimiento.
Agradezco a todos los profesores de la Maestría en Ingeniería de Sistemas y Computación,
que dejaron en mí su conocimiento, consejo y sabiduría.
A mis amigos, por su apoyo incondicional: Alix Rojas, Ana María Rodríguez, Camilo
Pino, Daniel Restrepo, David Becerra, Iván Mendoza, José Moreno, Juan Carlos Galeano,
Juan Carlos Mendivelso, Mario Linares, Miguel Dussán, Wilson Soto y Yamile Jaime,
Jesús Burbano por sus valiosos aportes en lo conceptual, lo técnico y lo personal.
Juan David Cruz, gracias por tu presencia en momentos que necesité de tus palabras y de
tú compañía.
To Kevin M., thank you for showing me your world and being in my way.
RESUMEN
SISTEMA DE GENERACIÓN, ADMINISTRACIÓN Y CONSULTA DE UNA LIBRERÍA
DIGITAL DE DOCUMENTOS PARA UN PORTAL WEB
por
ING. ISABEL ANDREA MAHECHA NIETO
MSc. en Ingeniería de Sistemas y Computación
UNIVERSIDAD NACIONAL DE COLOMBIA
Director: Ing. Elizabeth León Guzmán. PhD.
Los portales web son grandes repositorios de información desorganizada. Muchas veces mantener una
políticadepublicacióndedocumentosesdifícil,yfinalmentecadapartedelaorganizaciónpublicasus
documentosenlugaresdistintosenunaestructuradecarpetasparticular.Elaccesoalosdocumentosse
vuelvetediosoporquelaspersonasquenecesitanundocumentoenparticularcasisiempredesconocen
suubicación.Yapesardeloshiper-vínculosentredocumentos,muchasveceseltextoqueidentificael
enlace no es suficiente para identificar el documento al que hace referencia. Por su parte, las librerías
digitales se enfocan en laorganización de lainformación através de colecciones que permiten agrupar
documentos similares lo cual agiliza el proceso de búsqueda de documentos específicos a quienes los
consultan. La creación de librerías digitales se ha convertido en una opción económica y ágil, para
la organización de documentos sobre diferentes temáticas, almacenados en diversos formatos (texto,
audio, imagen, vídeo) en los sitios web.
En este trabajo de tesis, se propone un sistema de administración de librerías digitales web de docu-
mentos que es capaz de: 1) recuperar e indexar documentos publicados en un portal web, 2) generar
unaestructuradelibreríadigitaly3)clasificarypermitirlaconsultadelosdocumentosatravésdeuna
interfaz de navegación. La recuperación e indexación se hace a través de un sistema de recuperación
de información. El agrupamiento de los documentos se hace a través de un componente de minería
de texto que contiene herramientas para el preprocesamiento de los documentos, y un algoritmo de
agrupamiento conceptual. La interfaz de usuario se compone de dos vistas principales, la interfaz de
navegaciónyunmódulodeadministración.Lainterfazdenavegaciónestácompuestaporunárbolde
categorías y un grafo que relaciona las diferentes categorías entre sí a través de los documentos que
pertenecen a cada una de ellas. La interfaz de administración permite el acceso a los parámetros del
sistema para la ejecución de los procesos de indexación y agrupamiento de los documentos.
Elcasodeestudiopropuestoparaprobarelprototipofueronlosportalesubicadosdentrodeldominio
web de la Universidad Nacional de Colombia, el cual ofrece el escenario de una organización con
múltiples servidores.
Palabras Clave: Minería de documentos web, Recuperación de información, Portales web, Librerías
digitales.
ABSTRACT
GENERATION SYSTEM, MANAGEMENT AND SEARCH OF A DIGITAL LIBRARY
OF DOCUMENTS FOR A WEBSITE
by
ING. ISABEL ANDREA MAHECHA NIETO
MSc. en Ingeniería de Sistemas y Computación
UNIVERSIDAD NACIONAL DE COLOMBIA
Advisor: Ing. Elizabeth León Guzmán. PhD.
Web portals are great repositories of information disorganized. Many times maintain a policy of
publishingdocumentsisdifficult,andeventuallyeachpartoftheorganizationpublishesitsdocuments
indifferentplacesinaparticularfolderstructure. Accesstodocumentsbecomestediousforthosewho
need a particular document is almost always unknown their location. And although the hyperlinks
between documents, often the text that identifies the link is not sufficient to identify the referenced
document. For its part, digital libraries focus on the organization of information through libraries
that allow you to group similar documents which streamlines the process of searching for specific
documentstothosewhoconsultthem. Thecreationofdigitallibrarieshasbecomeaneconomicaland
flexible for the organization of documents on various topics, stored in various formats (text, audio,
image, video).
In this thesis a management system web digital library of documents is proposed. This system is
able to: 1) retrieving and indexing documents on a website, 2) generating a digital library structure
based on the content of the web documents and 3) classifying and allowing navigation of the web
documents. Theindexingandretrievalofthewebdocumentsisdonethroughasystemofinformation
retrieval extended of the Nutch utility. For generating the structure of the digital library and future
classifications,thedocumentsaregroupingthroughatextminingtechniques,thesystemusestoolsfor
preprocessing such as a Lucene, and a conceptual clustering algorithm called LINGO. For exploring
andnavigatingthedocuments,thesystemprovidesauserinterfacethatiscomposedbyacategorytree
andagraphthatrelatesthedifferentcategorieswitheachotherthroughthedocuments. Additionally,
thesystemhasandamanagementinterfacethatallowssettingthesystemparametersfortheprocesses
of indexing and clustering documents.
The system of the web digital library proposed was applied to a web site located within the National
University of Colombia, which has an environment with multiple servers.
Keywords: Document web mining, Information retrieval, Websites, Digital libraries.
Contenido
Resumen ii
Abstract iii
Contenido vi
Lista de Figuras xi
Lista de Tablas xii
Lista de Algoritmos xiii
Glosario xiv
1 INTRODUCCIÓN 1
1.1 DESCRIPCIÓN DEL PROBLEMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2 OBJETIVOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.1 Objetivo General . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.2.2 Objetivos Específicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
1.3 ALCANCES Y LIMITACIONES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.4 CONTRIBUCIONES. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
1.5 PUBLICACIONES . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.6 ESTRUCTURA DEL DOCUMENTO DE TESIS . . . . . . . . . . . . . . . . . . . . . 4
2 ESTADO DEL ARTE EN LIBRERÍAS DIGITALES DE DOCUMENTOS 5
2.1 LIBRERÍA DIGITAL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
2.1.1 Componentes Básicos de una Librería Digital . . . . . . . . . . . . . . . . . . . 6
2.1.2 Librería Digital Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2.1.3 Sistemas de Software para Creación de Librerías Digitales Web . . . . . . . . . 8
2.2 MODELOS PARA CREACIÓN DE LIBRERÍAS DIGITALES . . . . . . . . . . . . . 9
2.2.1 Modelos Preliminares . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.2 Modelo Formal: Plataforma 5S . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.2.1 Flujos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.2.2 Estructuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2.3 Espacios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
2.2.2.4 Escenarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.2.2.5 Sociedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 SISTEMAS DE RECUPERACIÓN DE INFORMACIÓN WEB . . . . . . . . . . . . . 11
2.3.1 Rastreador Web . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
2.3.2 Análisis de Formato . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.3.3 Índice de Documentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14
vi
2.3.3.1 Tries . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.3.2 Archivos de firmas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.3.3 Índice Invertido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.3.3.4 Representación de índices invertidos . . . . . . . . . . . . . . . . . . . 16
2.3.3.5 Modelo de espacio vectorial . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3.3.6 Medidas para encontrar la relación de términos y documentos . . . . 17
2.3.3.7 Matriz de términos y documentos . . . . . . . . . . . . . . . . . . . . 18
2.3.3.8 Latent Semantic Indexing . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.4 Procesador de Consultas de Usuario . . . . . . . . . . . . . . . . . . . . . . . . 20
2.3.5 Interfaz de Usuario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3.6 Motor de Búsqueda Nutch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
2.4 PREPROCESAMIENTO AUTOMÁTICO DE DOCUMENTOS . . . . . . . . . . . . 25
2.4.1 Análisis Léxico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.2 Corrección de Ortografía. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4.3 Eliminación de Stop Words . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4.4 Identificación de Lenguaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4.5 Stemming y Lematización . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
2.4.6 Procesamiento de Lenguaje Natural . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5 AGRUPAMIENTO DE DOCUMENTOS . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.5.1 Medidas de Similitud . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29
2.5.2 Suffix Tree Clustering . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31
2.5.3 Semantic Online Hierarchical Clustering . . . . . . . . . . . . . . . . . . . . . . 31
2.5.3.1 Frases completas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5.3.2 Conjuntos continuos . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5.4 LINGO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33
2.5.4.1 Preprocesamiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
2.5.4.2 Extracción de frases frecuentes . . . . . . . . . . . . . . . . . . . . . . 35
2.5.4.3 Inducción de las etiquetas de conjunto . . . . . . . . . . . . . . . . . . 35
2.5.4.4 Descubrimiento del contenido de los conjuntos . . . . . . . . . . . . . 35
2.5.4.5 Formación final de los conjuntos . . . . . . . . . . . . . . . . . . . . . 35
3 MODELO DE LIBRERÍA DIGITAL DE DOCUMENTOS PARA UN PORTAL
WEB 36
3.1 IDENTIFICACIÓN DE NECESIDADES DE USO . . . . . . . . . . . . . . . . . . . . 36
3.1.1 Sociedades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
3.1.2 Escenarios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1.3 Espacios . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1.4 Flujos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1.5 Estructuras . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37
3.1.6 Esquema 5S para LiD-UN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2 DISEÑO DEL SISTEMA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38
3.2.1 Diseño Lógico del Sistema . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 39
3.2.1.1 Sistema de recuperación de información . . . . . . . . . . . . . . . . . 39
3.2.1.2 Componente de minería de texto . . . . . . . . . . . . . . . . . . . . . 41
3.2.1.3 Interfaz de usuario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.2.2 Proceso de Funcionamiento del Sistema . . . . . . . . . . . . . . . . . . . . . . 45
3.2.3 Arquitectura Funcional del Sistema. . . . . . . . . . . . . . . . . . . . . . . . . 46
3.2.4 Modelo físico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
3.2.5 Escenarios de Uso . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 48
3.2.5.1 Instalar e iniciar el sistema para primer uso . . . . . . . . . . . . . . 48
3.2.5.2 Registrar el usuario administrador . . . . . . . . . . . . . . . . . . . 49
3.2.5.3 Autenticar usuario administrador . . . . . . . . . . . . . . . . . . . . 51
vii
3.2.5.4 Finalizar sesión de usuario administrador . . . . . . . . . . . . . . . . 51
3.2.5.5 Mostrar interfaz de configuración . . . . . . . . . . . . . . . . . . . . 52
3.2.5.6 Crear índice de documentos . . . . . . . . . . . . . . . . . . . . . . . 52
3.2.5.7 Actualizar índice de documentos . . . . . . . . . . . . . . . . . . . . . 52
3.2.5.8 Ver detalles del índice de documentos actual . . . . . . . . . . . . . . 53
3.2.5.9 Eliminar índice de documentos . . . . . . . . . . . . . . . . . . . . . 53
3.2.5.10 Agrupar documentos para identificar etiquetas de los grupos de docu-
mentos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
3.2.5.11 Etiquetar documentos con la categoría a la que pertenecen . . . . . . 54
3.2.5.12 Mostrar interfaz de consulta . . . . . . . . . . . . . . . . . . . . . . . 55
3.2.5.13 Consultar árbol de categorías . . . . . . . . . . . . . . . . . . . . . . 55
4 APLICACIÓN, VALIDACIÓN Y ANÁLISIS DE RESULTADOS 56
4.1 EVALUACIÓN DE COMPONENTES DEL MODELO. . . . . . . . . . . . . . . . . . 56
4.1.1 Evaluación del Sistema de Recuperación de Información . . . . . . . . . . . . . 56
4.1.1.1 Método de evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . 56
4.1.1.2 Parámetros de evaluación . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.1.1.3 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59
4.1.2 Evaluación del Componente de Minería de Texto . . . . . . . . . . . . . . . . . 61
4.1.2.1 Método de evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
4.1.2.2 Parámetros de evaluación . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.1.2.3 Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4.2 EVALUACIÓN DE USABILIDAD DE LA LIBRERÍA DIGITAL WEB LID-UN . . . 65
4.2.1 Aspectos de usabilidad evaluados . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.2.2 Instrumento de evaluación de usabilidad . . . . . . . . . . . . . . . . . . . . . . 66
4.2.3 Método de evaluación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2.3.1 Población . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
4.2.3.2 Librería digital de evaluación . . . . . . . . . . . . . . . . . . . . . . . 67
4.2.3.3 Infraestructura utilizada . . . . . . . . . . . . . . . . . . . . . . . . . 68
4.2.3.4 Resultados de la evaluación de usabilidad . . . . . . . . . . . . . . . . 68
5 CONCLUSIONES Y TRABAJO FUTURO 75
5.1 MODELO PROPUESTO . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
5.2 HALLAZGOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
5.3 TRABAJOS FUTUROS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
Bibliografía 78
Índice alfabético 86
A MANUAL DE USUARIO 87
A.1 Requerimientos de hardware . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
A.2 Requerimientos de software . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87
A.3 Ejecución del robot (crawler) del buscador Nutch . . . . . . . . . . . . . . . . . . . . . 90
A.4 Configuración del buscador Nutch . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 94
A.5 Generación del archivo de entrada para el proceso de agrupamiento de documentos . . 98
A.6 Ejecución del proceso de agrupamiento de documentos . . . . . . . . . . . . . . . . . . 100
A.7 Interfaz de navegación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100
B POLÍTICADESEGURIDADPARAUSODEMOTORESDEBÚSQUEDAEN
LOS PORTALES WEB DE LA UNIVERSIDAD NACIONAL DE COLOMBIA 104
B.1 Política de seguridad propuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
viii
B.2 Estándar propuesto . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
B.3 Mejor práctica . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
B.4 Guía propuesta . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105
C ARTÍCULO“ANEXPLORATORYSTUDYOFOPENSOURCESEARCHEN-
GINES: EVALUATION OF SUPPORTABILITY, USABILITY, FUNCTIONA-
LITY AND PERFORMANCE”. 108
ix
Description:SISTEMA DE GENERACIÓN, ADMINISTRACIÓN Y CONSULTA DE UNA LIBRERÍA DIGITAL DE DOCUMENTOS PARA UN PORTAL WEB Ing. Isabel Andrea Mahecha Nieto Tesis presentada como