Table Of ContentUniversidad Te¶cnica Federico Santa Mar¶‡a
Departamento de Informa¶tica
Valpara¶‡so { Chile
ALGORITMO ROBUSTO DE APRENDIZAJE
PARA EL MODELO MEZCLA DE EXPERTOS
Tesis entregada como requerimiento parcial
para optar al grado acad¶emico de
¶
MAGISTER EN CIENCIAS DE LA INGENIERIA
¶
INFORMATICA
y al t¶‡tulo profesional de
¶
INGENIERO CIVIL EN INFORMATICA
por
Romina D¶ebora Torres Torres
Comisio¶n Evaluadora:
Dr. H¶ector Allende Olivares (Gu¶‡a, UTFSM)
Dr. Horst von Brand (UTFSM)
Dr. Max Chaco¶n Pacheco (USACH)
14 DE NOVIEMBRE 2003
Universidad Te¶cnica Federico Santa Mar¶‡a
Departamento de Informa¶tica
Valpara¶‡so { Chile
TITULO DE LA TESIS:
ALGORITMO ROBUSTO DE APRENDIZAJE PARA EL MODELO
MEZCLA DE EXPERTOS
AUTOR:
ROMINA DE¶BORA TORRES TORRES
Tesis presentada como requerimiento parcial para optar al grado acad¶emico
deMagister en Ciencias de la Ingenier¶‡a Inform¶aticayalt¶‡tuloprofesional
de Ingeniero Civil en Inform¶atica de la Universidad T¶ecnica Federico Santa
Mar¶‡a.
Dr. H¶ector Allende Olivares
Profesor Gu¶‡a
Dr. Horst von Brand
Profesor Correferente
Dr. Max Chaco¶n Pacheco
Profesor Externo
14 de Noviembre 2003, Valpara¶‡so, Chile.
ii
Para mi Madre, Rodrigo, Jan y Kevin
iii
Agradecimientos
La culminacio¶n de esta tesis es gracias al esfuerzo de muchas personas, es un trabajo
dedicado a todo aquel que ha son~ado alguna vez entender una millon¶esima parte de la
complejidad del cerebro para aplicarla a la resolucio¶n de problemas que no poseen soluciones
deterministas, con tiempos no polinomiales, y que en deflnitiva nos indican cua¶les son los
obsta¶culos para nuestra propia evolucio¶n. No siento que el terminar mi tesis signiflca que
he cerrado mi etapa como estudiante pues no existe tiempo suflcientemente extenso para
satisfacer la bu¶squeda de respuestas del ser humano.
Quisiera agradecer a mi familia por darme la posibilidad de estudiar, y en especial a mi
madre, Gloria Torres D¶‡az, por todo esfuerzo que realizo¶ por hacer mis suen~os realidades, por
su amor incondicional y por hacer de m¶‡ una persona con deseo de superacio¶n constante y en
este momento una profesional exitosa. Su soporte y apoyo en los buenos y malos momentos
fueron factores claves en mi desarrollo. Quisiera agradecer a mi t¶‡a Margarita Torres D¶‡az,
por su credibilidad incluso en aquellos momentos que dude de mi capacidad y en especial
por su carin~o y conflanza. Quisiera dar gracias a Rodrigo Salas Fuentes, por todo su apoyo
durante mi carrera y culminacio¶n de ¶esta, y su paciencia durante el t¶ermino de mi tesis. A
mi amiga Caroll Meyer, quien siempre ha estado a mi lado cuando ma¶s lo he necesitado.
QuisieraagradeceralDr.H¶ectorAllende,miprofesorgu¶‡a,porsuamistad,sabiosconsejos
entregadosyporsuarduotrabajoenlacreacio¶ndeestetrabajo,alDr.ClaudioMoraga,quien
siempre estuvo presente y disponible, y quien gracias a su experiencia y amabilidad, hizo
grandes aportes a esta tesis. Gracias a mi profesor Dr. Horst von Brand por su amistad, y sus
conocimientos entregados durante mi formacio¶n. Y en general a todos aquellos que hicieron
posible el desarrollo de mi amor a la Investigacio¶n.
Quisieraagradeceramiscompan~erosdetrabajodeMotorolaValpara¶‡soporsugranamis-
tad y compan~erismo. En especial quisiera agradecer la motivacio¶n que me entrego¶ Gabriel
Far¶‡as, sus valorables consejos y por dar visibilidad a mis metas.
Mis mas grandes agradecimientos al Departamento de Informa¶tica de la Universidad
T¶ecnica Federico Santa Mar¶‡a, a mis profesores, funcionarios y amigos, Hubert Hofimann,
Mar¶‡a Cristina Rifi, Horst von Brand, H¶ector Allende, Carlos Castro, Cecilia Reyes, Luis
iv
Hevia, Sra. Lidia Ya¶n~ez, Sra. Pabla Valdebenito, Ignacio y tantos ma¶s. Quisiera dar gracias
en general, a todos mis compan~eros de generacio¶n, independiente de su continuacio¶n en la
carrera, por los recuerdos que quedara¶n para siempre en mi corazo¶n, por la amistad y por
aquellas flestas de primer an~o inolvidables.
Misma¶ssincerosagradecimientosatodosaquellosquieneshicieronposiblelaculminacio¶n
de mi trabajo de tesis y a todo aquel que de una u otra manera creyo¶ en m¶‡.
Valpara¶‡so, Chile Romina Torres
v
Resumen
El Modelo de Mezcla de Expertos (ME) pertenece a la clase Redes Neuronales Artifl-
ciales Modulares (MANN) frecuentemente utilizadas en problemas donde se conoce que el
espacio de entrada esta¶ estratiflcado y aplicado en diversos campos como: reconocimiento y
clasiflcacio¶n de patrones, procesamiento de ima¶genes, reconocimiento de voz, prediccio¶n de
series de tiempo, entre otras. El modelo ME es caracterizado como un modelo de probabil-
idad conocido como Modelos Mixtos, en que se tiene informacio¶n a priori de que los datos
no obedecen una u¶nica distribucio¶n sino a dos o ma¶s distribuciones mezcladas en diferentes
proporciones. El modelo ME consiste en dos tipos de redes: redes expertas que compiten por
aprenden diferentes aspectos de un problema y una red de agregacio¶n que arbitra la com-
petencia y aprende a asignar diferentes regiones del espacio de datos a diferentes expertos
locales cuya topolog¶‡a parece ser la ma¶s apropiada. La regla de aprendizaje combina aspec-
tos competitivos y asociativos y esta¶ disen~ada para favorecer la competencia entre expertos
locales, que permiten dividir el espacio ’automa¶ticamente’ en subregiones manejadas en lo
posible por un u¶nico experto local.
El aprendizaje del modelo ME puede ser visto como un problema de estimacio¶n de
para¶metros, que consiste en maximizar la funcio¶n de verosimilitud mediante t¶ecnicas de
optimizacio¶n como el gradiente descendente. Debido a que ¶este es incapaz de aprovechar la
estructura modular de la arquitectura, se utiliza el algoritmo de Ma¶xima Expectacio¶n (EM)
que es un m¶etodo iterativo para aproximar num¶ericamente los estimadores ma¶ximo veros¶‡mil
(ML).
Sin embargo, el aprendizaje es sensible a la presencia de datos estad¶‡sticos at¶‡picos
degradando el rendimiento de los algoritmos. En esta tesis se propone robustiflcar el al-
goritmo EM para el modelo ME, obteniendo un algoritmo elegante, eflciente, de ra¶pida
vi
convergencia debido a que aprovecha la modularidad del modelo (baja interferencia destruc-
tiva), y a la vez insensible a los datos at¶‡picos (acotando el impacto de ellos en la obtencio¶n
de los estimadores pero sin eliminarlos). Para¶esto se utiliza una generalizacio¶n del estimador
ma¶ximo veros¶‡mil conocido como M-estimadores.
En la fase de prueba se seleccionan problemas reales y con presencia de datos at¶‡picos
pertenecientes a la serie de problemas esta¶ndares DELVE y PROBEN1, para mostrar que el
algoritmo Robusto de Ma¶xima Expectacio¶n para Mezcla de Expertos (REM-ME) muestra
mejoras signiflcativas con respecto a los m¶etodos cla¶sicos.
Palabras Claves: Redes Neuronales Artiflciales Modulares, Modelos de Mezcla, Modelo
Mezcla de Expertos, M-estimadores, Algoritmo de Ma¶xima Expectacio¶n.
vii
Abstract
The model of Mixture of Experts (ME) belongs to the class of Modular Artiflcial Neural
Network(MANN)oftenusefulinproblemswhereitisknownthattheinputspaceisstratifled
and broadly applied in several flelds such as Pattern Recognition, Pattern Classiflcation,
Image Processing, Speech Recognition, Time Series Prediction, to mention a few. The ME
model can be characterized as a probability model known as a conditional mixture density
model, in which there is a priori information that the data do not obey just one distribution
but two or more distribution mixed in difierent proportions. The model ME consists in two
type of networks: experts networks that compete to learn several aspects of the problem and
a gating network that mediates that competition and learns to assign difierent regions of the
data space to difierent local experts whose topology is most appropriate to it. The learning
rule combines aspects of competitive and associative learning and it is designed to encourage
competition among local experts that allows automatic partitioning of the input space into
sub-regions each of which is handled by a single local expert.
The learning process of the Model ME can be seen as a parameter estimation problem,
that consists in maximize the likelihood function through optimization techniques, for in-
stancethedescendentgradient.Becauseitisnotcapabletotakeadvantageofthemodularity
of the architecture, it is common to use the Maximization Expectation algorithm, which is
an iterative algorithm that numerically approximates the maximum likelihood estimators.
However the learning process is sensitive to the presence of statistic outliers ruining the
performance of the algorithms. In this thesis, we propose robustify the EM algorithm for
the ME model, obtaining an elegant and e–cient algorithm, which present fast convergence
becauseittakesadvantageofthemodularityofthemodel,andalsoinsensitivetothestatistic
outliers (bounds its impact but without flltering them out). We use a generalization of the
maximum likelihood estimator known as M-estimators.
viii
In the testing phase we select real and highly contaminated problems from the DELVE
and PROBEN1 benchmarks, to show that the Robust Expectation Maximization algorithm
for Mixture of Experts (REM-ME) compared with classical training methods improve signi-
flcatively the performance.
Keywords: Modular Artiflcial Neural Networks, Mixture Models, Mixture of Experts
model, M-estimator, Expectation Maximization Algorithm.
ix
Tabla de Contenidos
Agradecimientos IV
Resumen VI
Abstract VIII
Tabla de Contenidos X
Lista de las Tablas XIII
Lista de las Figuras XV
Abreviaciones y Notacio¶n XVII
1. Introduccio¶n 1
1.1. Motivacio¶n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Alcance y Contribucio¶n de esta Tesis . . . . . . . . . . . . . . . . . . . . . . 9
1.3. Organizacio¶n de esta Tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2. Arquitecturas Modulares 13
2.1. Redes Neuronales Biolo¶gicas . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
2.2. Aprendizaje . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
2.3. Redes Neuronales Artiflciales . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.1. Una neurona artiflcial . . . . . . . . . . . . . . . . . . . . . . . . . . 18
2.3.2. Redes Neuronales multicapas . . . . . . . . . . . . . . . . . . . . . . 20
2.4. Modularidad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.4.1. Modularidad en el cerebro . . . . . . . . . . . . . . . . . . . . . . . . 26
2.4.2. Redes Neuronales Mu¶ltiples y Modulares . . . . . . . . . . . . . . . . 28
3. Modelos de Mezcla Finita 30
3.1. Introduccio¶n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.2. Especiflcacio¶n de los Modelos de Mezcla . . . . . . . . . . . . . . . . . . . . 31
x
Description:of the architecture, it is common to use the Maximization Expectation benchmarks, to show that the Robust Expectation Maximization algorithm.