Table Of ContentCIENCIA DE LA COMPUTACIÓN
_________________________________________________________
Procesamiento automático del español
con enfoque en recursos léxicos grandes
P
ROCESAMIENTO AUTOMÁTICO DEL ESPAÑOL
CON ENFOQUE EN RECURSOS LÉXICOS
GRANDES
Alexander Gelbukh y Grigori Sidorov
Centro de Investigación en Computación
Instituto Politécnico Nacional
México (cid:127) 2006
PRIMERA EDICIÓN: 2006
Todos los derechos reservados. Queda prohibida la reproducción total o parcial,
por cualquier medio, sin el permiso expreso del editor.
Publicación realizada con el apoyo de CONACyT, proyecto R40219-A.
D.R. © 2006 INSTITUTO POLITÉCNICO NACIONAL
Dirección de Publicaciones
Tresguerras 27, 06040, DF
ISBN 970-36-0264-9
Impreso en México / Printed in Mexico
Serie Ciencia de la Computación
La colección Ciencia de la Computación, editada por el Centro
de Investigación en Computación (CIC) del Instituto Politécnico
Nacional (IPN), con la colaboración de la Universidad Nacional
Autónoma de México y el Fondo de Cultura Económica, presenta
los trabajos de destacados especialistas mexicanos y extranjeros.
De esta forma, la obra editorial, del CIC —que incluye las
revistas Computación y Sistemas y Research in Computing
Science, memorias de congresos internacionales, catálogos de
soluciones y esta colección de libros, entre otros—, reafirma el
compromiso de asegurar altos estándares académicos y de
productividad científica, vinculación y orientación al trabajo, así
como desarrollo de habilidades y destrezas en la formación de
recursos humanos.
La colección está dirigida a estudiosos del campo de la
computación y tiene la finalidad de que éstos actualicen y
refuercen su información en esta dinámica área del conocimiento.
Es una herramienta de trabajo y consulta en sus investigaciones y
labores de enseñanza. Así, se consolida uno de los trabajos
fundamentales de la comunidad científica, que es la difusión y
promoción de la ciencia.
Consideramos que todos y cada uno de los libros de esta
colección deberán estar presentes en la biblioteca de todo
profesional en computación y áreas afines que crea que el estudio y
la actualización son esenciales para impulsar el desarrollo personal
y de nuestro país; un buen apoyo para ello, es esta colección, que
tiene como características relevantes su originalidad y excelente
calidad.
P
RÓLOGO
El Laboratorio de Lenguaje Natural, fundado por los autores de
este libro, Alexander Gelbukh y Grigori Sidorov, fue el primer grupo
dedicado exclusivamente a la lingüística computacional en
Hispanoamérica. Surgió en México, en el Centro de Investigación en
Computación del Instituto Politécnico Nacional, hace casi nueve
años.
El objetivo —y reto— del Laboratorio ha consistido en unir la
lingüística y los avances de la tecnología computacional. Su misión
consiste en “enseñar” a las computadoras el lenguaje humano, lograr
que la máquina entienda no sólo las palabras y el discurso de manera
literal, sino incluso intentar que descifre los matices y gradaciones de
la lengua. No es una tarea fácil, pero los resultados han sido positivos
y representan grandes avances para la investigación. Al mismo
tiempo se han abierto caminos mucho más sencillos y prácticos en el
análisis del propio lenguaje.
El ser humano aprende la lengua de forma natural y —como le
sirve para relacionarse con el resto de la gente y para explicar su
realidad— se familiariza con ella de manera casi intuitiva.
Generalmente no necesitamos de un gran esfuerzo mental para
expresarnos a través del lenguaje: lo hacemos espontáneamente
porque estamos habituados a las convenciones que hacen falta para
comunicarnos y entendernos.
La computadora no es como el ser humano, sino —como dicen
Gelbukh y Sidorov— un “siervo tonto”, al que se debe enseñar de
manera distinta. La máquina no puede intuir ni actuar de manera
espontánea, porque no conoce más realidad que la que nosotros
podemos introducir en su “cerebro”. Depende completamente del ser
humano y de lo que uno ponga en ella. Por eso resulta muy
complicado enseñarle el lenguaje, ya que requiere de esfuerzos
enormes. La complicación aumenta más todavía cuando se trata de
que la computadora interprete el discurso más allá de su estricto
sentido literal.
viii Prólogo
No obstante, durante este complicado proceso, el investigador se
enriquece. Al ir llenando los vacíos en el conocimiento de la
computadora, tiene la oportunidad de profundizar aún más en su
propio conocimiento de la lengua y la lingüística. Al mismo tiempo
—de manera inevitable— renueva, amplía e incluso precisa sus dudas
ante el conflicto de tener que resolver problemas que pudieron no
parecerlo con anterioridad.
Afortunadamente, a pesar de lo difícil que puede ser “enseñarle” a
la máquina, una vez que ésta ha “aprendido” se convierte en una
herramienta invaluable. Esto se muestra, por ejemplo, en la forma en
que puede facilitar el trabajo del lingüista gracias a su gran capacidad
de memoria y de análisis. Estas y otras tareas que antes hubieran
requerido muchas horas de trabajo y muchas personas, pueden ser
realizadas ahora en unos instantes, gracias a los avances de los
procesos de cómputo.
Este libro habla precisamente de los progresos que han logrado los
autores en la formación de grandes corpus —a partir de la Internet,
por ejemplo— y en el análisis de textos muy amplios —como
diccionarios—; de los recursos que han elaborado y de los planes que
tienen para que los resultados se obtengan cada vez con mayor
precisión y sencillez. Por eso me permito expresar sin reservas mi
reconocimiento a la perseverancia que muestran. Su empeño, sin
duda, ha dado frutos. Además, en estas páginas no sólo se encontrará
investigación original en el campo del uso y construcción de recursos
léxicos: el libro también introduce al lector en los métodos
característicos de la lingüística computacional, en sus diversos
enfoques y en sus muchas tareas, por lo que posee una indudable
utilidad didáctica.
Raúl Ávila
Í
NDICE GENERAL
PREFACIO ֹ 1
Capítulo 1 Introducción 3
PARTE I PROBLEMAS GENERALES DEL PROCESAMIENTO
DE LENGUAJE NATURAL 13
Capítulo 2 Tareas y aplicaciones de PLN 15
Capítulo 3 Niveles de lenguaje y su reflejo en PLN 59
Capítulo 4 Problemas del uso de diccionarios en PLN 73
PARTE II APLICACIONES DEL PLN CON RECURSOS LÉXICOS
GRANDES 97
Capítulo 5 Análisis morfológico automático basado en
un diccionario de raíces 99
Capítulo 6 Análisis sintáctico automático basado en un diccionario
de patrones de manejo 119
Capítulo 7 Resolución de correferencia con un diccionario
de escenarios 133
Capítulo 8 Recuperación de documentos con comparación semántica
suave 145
Capítulo 9 Comparación de los coeficientes de las leyes de Zipf y
Heaps en diferentes idiomas 157
PARTE III CONSTRUCCIÓN DE RECURSOS LÉXICOS
PARA EL PLN 171
Capítulo 10 Compilación automática del corpus léxica y
morfológicamente representativo 173
Capítulo 11 Construcción automática del diccionario de colocaciones
basándose en un análisis sintáctico automático 185
Capítulo 12 Evaluación automática de la calidad de los diccionarios
explicativos 199
Capítulo 13 Detección automática de las primitivas semánticas 207
BIBLIOGRAFÍA 221
ÍNDICE ANALÍTICO 237