Table Of Content

CIENCIA DE LA COMPUTACIÓN _________________________________________________________ Procesamiento automático del español con enfoque en recursos léxicos grandes P ROCESAMIENTO AUTOMÁTICO DEL ESPAÑOL CON ENFOQUE EN RECURSOS LÉXICOS GRANDES Alexander Gelbukh y Grigori Sidorov Centro de Investigación en Computación Instituto Politécnico Nacional México (cid:127) 2006 PRIMERA EDICIÓN: 2006 Todos los derechos reservados. Queda prohibida la reproducción total o parcial, por cualquier medio, sin el permiso expreso del editor. Publicación realizada con el apoyo de CONACyT, proyecto R40219-A. D.R. © 2006 INSTITUTO POLITÉCNICO NACIONAL Dirección de Publicaciones Tresguerras 27, 06040, DF ISBN 970-36-0264-9 Impreso en México / Printed in Mexico Serie Ciencia de la Computación La colección Ciencia de la Computación, editada por el Centro de Investigación en Computación (CIC) del Instituto Politécnico Nacional (IPN), con la colaboración de la Universidad Nacional Autónoma de México y el Fondo de Cultura Económica, presenta los trabajos de destacados especialistas mexicanos y extranjeros. De esta forma, la obra editorial, del CIC —que incluye las revistas Computación y Sistemas y Research in Computing Science, memorias de congresos internacionales, catálogos de soluciones y esta colección de libros, entre otros—, reafirma el compromiso de asegurar altos estándares académicos y de productividad científica, vinculación y orientación al trabajo, así como desarrollo de habilidades y destrezas en la formación de recursos humanos. La colección está dirigida a estudiosos del campo de la computación y tiene la finalidad de que éstos actualicen y refuercen su información en esta dinámica área del conocimiento. Es una herramienta de trabajo y consulta en sus investigaciones y labores de enseñanza. Así, se consolida uno de los trabajos fundamentales de la comunidad científica, que es la difusión y promoción de la ciencia. Consideramos que todos y cada uno de los libros de esta colección deberán estar presentes en la biblioteca de todo profesional en computación y áreas afines que crea que el estudio y la actualización son esenciales para impulsar el desarrollo personal y de nuestro país; un buen apoyo para ello, es esta colección, que tiene como características relevantes su originalidad y excelente calidad. P RÓLOGO El Laboratorio de Lenguaje Natural, fundado por los autores de este libro, Alexander Gelbukh y Grigori Sidorov, fue el primer grupo dedicado exclusivamente a la lingüística computacional en Hispanoamérica. Surgió en México, en el Centro de Investigación en Computación del Instituto Politécnico Nacional, hace casi nueve años. El objetivo —y reto— del Laboratorio ha consistido en unir la lingüística y los avances de la tecnología computacional. Su misión consiste en “enseñar” a las computadoras el lenguaje humano, lograr que la máquina entienda no sólo las palabras y el discurso de manera literal, sino incluso intentar que descifre los matices y gradaciones de la lengua. No es una tarea fácil, pero los resultados han sido positivos y representan grandes avances para la investigación. Al mismo tiempo se han abierto caminos mucho más sencillos y prácticos en el análisis del propio lenguaje. El ser humano aprende la lengua de forma natural y —como le sirve para relacionarse con el resto de la gente y para explicar su realidad— se familiariza con ella de manera casi intuitiva. Generalmente no necesitamos de un gran esfuerzo mental para expresarnos a través del lenguaje: lo hacemos espontáneamente porque estamos habituados a las convenciones que hacen falta para comunicarnos y entendernos. La computadora no es como el ser humano, sino —como dicen Gelbukh y Sidorov— un “siervo tonto”, al que se debe enseñar de manera distinta. La máquina no puede intuir ni actuar de manera espontánea, porque no conoce más realidad que la que nosotros podemos introducir en su “cerebro”. Depende completamente del ser humano y de lo que uno ponga en ella. Por eso resulta muy complicado enseñarle el lenguaje, ya que requiere de esfuerzos enormes. La complicación aumenta más todavía cuando se trata de que la computadora interprete el discurso más allá de su estricto sentido literal. viii Prólogo No obstante, durante este complicado proceso, el investigador se enriquece. Al ir llenando los vacíos en el conocimiento de la computadora, tiene la oportunidad de profundizar aún más en su propio conocimiento de la lengua y la lingüística. Al mismo tiempo —de manera inevitable— renueva, amplía e incluso precisa sus dudas ante el conflicto de tener que resolver problemas que pudieron no parecerlo con anterioridad. Afortunadamente, a pesar de lo difícil que puede ser “enseñarle” a la máquina, una vez que ésta ha “aprendido” se convierte en una herramienta invaluable. Esto se muestra, por ejemplo, en la forma en que puede facilitar el trabajo del lingüista gracias a su gran capacidad de memoria y de análisis. Estas y otras tareas que antes hubieran requerido muchas horas de trabajo y muchas personas, pueden ser realizadas ahora en unos instantes, gracias a los avances de los procesos de cómputo. Este libro habla precisamente de los progresos que han logrado los autores en la formación de grandes corpus —a partir de la Internet, por ejemplo— y en el análisis de textos muy amplios —como diccionarios—; de los recursos que han elaborado y de los planes que tienen para que los resultados se obtengan cada vez con mayor precisión y sencillez. Por eso me permito expresar sin reservas mi reconocimiento a la perseverancia que muestran. Su empeño, sin duda, ha dado frutos. Además, en estas páginas no sólo se encontrará investigación original en el campo del uso y construcción de recursos léxicos: el libro también introduce al lector en los métodos característicos de la lingüística computacional, en sus diversos enfoques y en sus muchas tareas, por lo que posee una indudable utilidad didáctica. Raúl Ávila Í NDICE GENERAL PREFACIO ֹ 1 Capítulo 1 Introducción 3 PARTE I PROBLEMAS GENERALES DEL PROCESAMIENTO DE LENGUAJE NATURAL 13 Capítulo 2 Tareas y aplicaciones de PLN 15 Capítulo 3 Niveles de lenguaje y su reflejo en PLN 59 Capítulo 4 Problemas del uso de diccionarios en PLN 73 PARTE II APLICACIONES DEL PLN CON RECURSOS LÉXICOS GRANDES 97 Capítulo 5 Análisis morfológico automático basado en un diccionario de raíces 99 Capítulo 6 Análisis sintáctico automático basado en un diccionario de patrones de manejo 119 Capítulo 7 Resolución de correferencia con un diccionario de escenarios 133 Capítulo 8 Recuperación de documentos con comparación semántica suave 145 Capítulo 9 Comparación de los coeficientes de las leyes de Zipf y Heaps en diferentes idiomas 157 PARTE III CONSTRUCCIÓN DE RECURSOS LÉXICOS PARA EL PLN 171 Capítulo 10 Compilación automática del corpus léxica y morfológicamente representativo 173 Capítulo 11 Construcción automática del diccionario de colocaciones basándose en un análisis sintáctico automático 185 Capítulo 12 Evaluación automática de la calidad de los diccionarios explicativos 199 Capítulo 13 Detección automática de las primitivas semánticas 207 BIBLIOGRAFÍA 221 ÍNDICE ANALÍTICO 237

Procesamiento automático del español con enfoque en recursos léxicos grandes PDF

255 Pages·1.928 MB·Spanish

by Gelbukh A., Sidorov G.

#Computers #Cybernetics: Artificial Intelligence

Checking for file health...

Save to my drive

Quick download

Download

Download Procesamiento automático del español con enfoque en recursos léxicos grandes PDF Free - Full Version

by Gelbukh A., Sidorov G.| 255 pages| 1.928| Spanish

Download Procesamiento automático del español con enfoque en recursos léxicos grandes by Gelbukh A., Sidorov G. in PDF format completely FREE. No registration required, no payment needed. Get instant access to this valuable resource on PDFdrive.to!

Free Download PDF

About Procesamiento automático del español con enfoque en recursos léxicos grandes

No description available for this book.

Detailed Information

Author:	Gelbukh A., Sidorov G.
ISBN:	1740191
Pages:	255
Language:	Spanish
File Size:	1.928
Format:	PDF
Price:	FREE

Download Free PDF

Safe & Secure Download - No registration required

Why Choose PDFdrive for Your Free Procesamiento automático del español con enfoque en recursos léxicos grandes Download?

100% Free: No hidden fees or subscriptions required for one book every day.
No Registration: Immediate access is available without creating accounts for one book every day.
Safe and Secure: Clean downloads without malware or viruses
Multiple Formats: PDF, MOBI, Mpub,... optimized for all devices
Educational Resource: Supporting knowledge sharing and learning

Frequently Asked Questions

Is it really free to download Procesamiento automático del español con enfoque en recursos léxicos grandes PDF?

Yes, on https://PDFdrive.to you can download Procesamiento automático del español con enfoque en recursos léxicos grandes by Gelbukh A., Sidorov G. completely free. We don't require any payment, subscription, or registration to access this PDF file. For 3 books every day.

How can I read Procesamiento automático del español con enfoque en recursos léxicos grandes on my mobile device?

After downloading Procesamiento automático del español con enfoque en recursos léxicos grandes PDF, you can open it with any PDF reader app on your phone or tablet. We recommend using Adobe Acrobat Reader, Apple Books, or Google Play Books for the best reading experience.

Is this the full version of Procesamiento automático del español con enfoque en recursos léxicos grandes?

Yes, this is the complete PDF version of Procesamiento automático del español con enfoque en recursos léxicos grandes by Gelbukh A., Sidorov G.. You will be able to read the entire content as in the printed version without missing any pages.

Is it legal to download Procesamiento automático del español con enfoque en recursos léxicos grandes PDF for free?

https://PDFdrive.to provides links to free educational resources available online. We do not store any files on our servers. Please be aware of copyright laws in your country before downloading.

The materials shared are intended for research, educational, and personal use in accordance with fair use principles.