Table Of ContentProblema de ensamblado de fragmentos de ADN
resuelto mediante metaheur(cid:237)sticas y paralelismo
Presentada para cumplir con los
requerimientos del grado de
DOCTOR EN CIENCIAS DE LA COMPUTACI(cid:211)N
en la
UNIVERSIDAD NACIONAL DE SAN LUIS
SAN LUIS, ARGENTINA
Autor:
Gabriela F. Minetti
Asesores:
Dr. Enrique Alba
Dr. Mario Guillermo Leguizam(cid:243)n
⃝c Gabriela F. Minetti, 2011
5 de octubre de 2011
Los abajo (cid:28)rmantes certi(cid:28)can que han le(cid:237)do y recomiendan a la Facultad de Ciencias
F(cid:237)sico, MatemÆticas y Naturales aceptar la tesis titulada (cid:16)Problema de ensamblado de frag-
mentos de ADN resuelto mediante metaheur(cid:237)sticas y paralelismo(cid:17) por D. Gabriela F. Mi-
netti en cumplimiento parcial de los requerimientos para el grado de Doctor en Ciencias de
la Computaci(cid:243)n.
Fecha:
Asesor Cient(cid:237)(cid:28)co:
Dr: Enrique Alba
Co-Asesor Cient(cid:237)(cid:28)co:
Dr: Guillermo Leguizamn
A mi hija, mi esposo y mis padres.
Agradecimientos
Este trabajo de tesis doctoral ha signi(cid:28)cado mucho esfuerzo, compromiso y trabajo de
mi parte y, tambiØn, de muchas personas que desde su lugar han contribuido a la concreci(cid:243)n
de este objetivo en mi vida. Es por eso que quiero darles mi mÆs sincero agradecimiento a
todas ellas. Empezando por una persona que, casi sin conocerme, me brind(cid:243) desinteresada-
mente su conocimiento, experiencia, gu(cid:237)a y dedicaci(cid:243)n, ‰GRACIAS Enrique! Siguiendo por
la persona que me brind(cid:243) todo su apoyo, paciencia y dedicaci(cid:243)n para que pudiera comenzar
este camino hace algunos aæos y luego recorrerlo con Øxito, ‰GRACIAS Guillermo! TambiØn
quiero agradecer a Gabriel Luque por su colaboraci(cid:243)n y gu(cid:237)a en gran parte de este trabajo.
Tampoco pueden faltar en este reconocimiento mis compaæeros de trabajo, con quienes
compart(cid:237)muchashorasdelabor,discut(cid:237)ideaseintercambiØopinionesenunambientedisten-
dido y agradable. Caro, Hugo, Alina, Naty, Fernando y Carlos GRACIAS por acompaæarme
y escucharme durante todo este proceso. Extiendo mi agradecimiento sincero a Paco que
tan atenta y expeditivamente atendi(cid:243) mis requerimientos de disponibilidad de mÆquinas.
Desde lo mÆs profundo de mi coraz(cid:243)n quiero agradecer a toda mi familia que siempre
estuvo cerca m(cid:237)o para alentarme, ayudarme y hacerme este duro camino un poco mÆs fÆcil.
Especialmente a mis padres y a mi esposo, que estuvieron junto a m(cid:237) apoyÆndome y brin-
dÆndome todo su amor. Pero aœn mÆs profundo es mi agradecimiento a mi hija, quien cada
d(cid:237)a colma mi alma de paz y felicidad con su amor y candidez. ‰GRACIAS ANTO!
Por œltimo, debo mi reconocimiento a las instituciones que permitieron el desarrollo de
estetrabajo:laFacultaddeIngenier(cid:237)adelaUNLPamdondediariamentedesarrollomilabor,
la Universidad de MÆlaga por los recursos cedidos para desarrollar la parte experimental y
la AGENCIA por concederme una beca de doctorado.
˝ndice general
1. Introducci(cid:243)n 1
1.1. Antecedentes y Motivaciones . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2. Objetivos y fases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
1.3. Contribuciones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.4. Organizaci(cid:243)n de la tesis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
I Fundamentos de esta tesis 11
2. BioinformÆtica y el problema de ensamblado de fragmentos 13
2.1. Introducci(cid:243)n al dominio de ADN . . . . . . . . . . . . . . . . . . . . . . . . . 14
2.2. Clasi(cid:28)caci(cid:243)n de los principales problemas de optimizaci(cid:243)n en BioinformÆtica . 17
2.2.1. Secuencias gen(cid:243)micas y prote(cid:243)micas . . . . . . . . . . . . . . . . . . . 17
2.2.2. Identi(cid:28)caci(cid:243)n de genes . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
2.2.3. Identi(cid:28)caci(cid:243)n del per(cid:28)l de la expresi(cid:243)n genØtica . . . . . . . . . . . . . 21
2.2.4. Otros problemas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
2.3. Problema de ensamblado de fragmentos de ADN (FAP) . . . . . . . . . . . . 22
2.3.1. Descripci(cid:243)n del problema . . . . . . . . . . . . . . . . . . . . . . . . . 25
2.3.2. Trabajos relacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
2.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3. Algoritmos ensambladores 31
3.1. Metaheur(cid:237)sticas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
3.1.1. De(cid:28)nici(cid:243)n formal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
iii ˝NDICE GENERAL
3.1.2. Principales conceptos en comœn de las metaheur(cid:237)sticas . . . . . . . . . 39
3.1.2.1. Representaci(cid:243)n . . . . . . . . . . . . . . . . . . . . . . . . . . 40
3.1.2.2. Funci(cid:243)n objetivo . . . . . . . . . . . . . . . . . . . . . . . . . 42
3.1.3. Clasi(cid:28)caci(cid:243)n de las metaheur(cid:237)sticas . . . . . . . . . . . . . . . . . . . . 43
3.1.3.1. Metaheur(cid:237)sticas basadas en trayectoria . . . . . . . . . . . . . 43
3.1.3.2. Metaheur(cid:237)sticas basadas en poblaci(cid:243)n . . . . . . . . . . . . . 47
3.1.4. Metaheur(cid:237)sticas h(cid:237)bridas . . . . . . . . . . . . . . . . . . . . . . . . . . 50
3.1.4.1. Clasi(cid:28)caci(cid:243)n de las metaheur(cid:237)sticas h(cid:237)bridas . . . . . . . . . . 51
3.1.5. Metaheur(cid:237)sticas paralelas . . . . . . . . . . . . . . . . . . . . . . . . . 56
3.1.5.1. Modelo paralelo a nivel del algoritmo . . . . . . . . . . . . . 57
3.1.5.2. Modelo paralelo a nivel de la iteraci(cid:243)n . . . . . . . . . . . . . 59
3.1.5.3. Modelo paralelo a nivel de la soluci(cid:243)n . . . . . . . . . . . . . 60
3.2. Ensambladores de uso comœn . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.2.1. PHRAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60
3.2.2. Familia CAP (Contig Assembly Program) . . . . . . . . . . . . . . . . 61
3.2.3. Celera Assembler . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61
3.2.4. Otros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 62
3.3. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
4. Algoritmos metaheur(cid:237)sticos bÆsicos de partida 65
4.1. Metaheur(cid:237)sticas basadas en trayectoria . . . . . . . . . . . . . . . . . . . . . . 65
4.1.1. Enfriamiento Simulado . . . . . . . . . . . . . . . . . . . . . . . . . . . 65
4.1.2. Bœsqueda de vecindario variable . . . . . . . . . . . . . . . . . . . . . 71
4.1.3. Bœsqueda local guiada . . . . . . . . . . . . . . . . . . . . . . . . . . . 74
4.2. Metaheur(cid:237)sticas basadas en poblaci(cid:243)n . . . . . . . . . . . . . . . . . . . . . . . 76
4.2.1. Algoritmos evolutivos . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
4.2.1.1. Algoritmos genØticos . . . . . . . . . . . . . . . . . . . . . . . 82
4.3. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
iv ˝NDICE GENERAL
II Resoluci(cid:243)n del problema de ensamblado usando metaheur(cid:237)sticas 85
5. Algoritmos propuestos: partes comunes en su diseæo 87
5.1. Representaci(cid:243)n de la soluci(cid:243)n . . . . . . . . . . . . . . . . . . . . . . . . . . . 88
5.2. Funci(cid:243)n de evaluaci(cid:243)n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.3. Generaci(cid:243)n de semillas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
5.4. Biblioteca MALLBA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90
5.5. Instancias de FAP usadas en la literatura . . . . . . . . . . . . . . . . . . . . 93
5.6. Caracter(cid:237)sticas comunes del diseæo experimental . . . . . . . . . . . . . . . . . 94
5.7. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95
6. Resoluci(cid:243)n de FAP usando metaheur(cid:237)sticas basadas en trayectoria 97
6.1. Resoluci(cid:243)n de FAP mediante ISA y PALS . . . . . . . . . . . . . . . . . . . . 98
6.1.1. AnÆlisis de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
6.1.2. Discusi(cid:243)n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
6.2. Resoluci(cid:243)n de FAP mediante FVNS y CVNS . . . . . . . . . . . . . . . . . . 104
6.2.1. AnÆlisis de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 107
6.2.2. Discusi(cid:243)n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112
6.3. Comparaci(cid:243)n con otros ensambladores . . . . . . . . . . . . . . . . . . . . . . 112
6.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
7. Resoluci(cid:243)n de FAP usando metaheur(cid:237)sticas basadas en poblaci(cid:243)n 115
7.1. Resoluci(cid:243)n de FAP mediante GA2o , GA2o , GAG y GAG . . . . . . 116
50 100 50 100
7.1.1. AnÆlisis de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 122
7.1.2. Discusi(cid:243)n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 129
7.2. Resoluci(cid:243)n de FAP mediante GA+VNS . . . . . . . . . . . . . . . . . . . . . 130
7.2.1. AnÆlisis de resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
7.2.2. Discusi(cid:243)n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 137
7.3. Comparaci(cid:243)n con otros ensambladores . . . . . . . . . . . . . . . . . . . . . . 138
7.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139
v ˝NDICE GENERAL
III Resoluci(cid:243)n de instancias complejas del problema de ensamblado
de fragmentos 143
8. Resoluci(cid:243)n de instancias de mayor tamaæo 145
8.1. Generaci(cid:243)n de un nuevo conjunto de instancias . . . . . . . . . . . . . . . . . 147
8.2. Resoluci(cid:243)n de instancias de mayor tamaæo mediante ISA, PALS, GAG y SAX149
50
8.2.1. AnÆlisis de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 151
8.3. Comparaci(cid:243)n con otros ensambladores . . . . . . . . . . . . . . . . . . . . . . 155
8.4. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156
9. Resoluci(cid:243)n de instancias con ruido en los datos 159
9.1. Simulaci(cid:243)n de ruido durante la secuenciaci(cid:243)n . . . . . . . . . . . . . . . . . . 161
9.2. Simulaci(cid:243)n de ruido en la fase de superposici(cid:243)n . . . . . . . . . . . . . . . . . 162
9.3. Simulaci(cid:243)n de ruido durante el cÆlculo del (cid:28)tness . . . . . . . . . . . . . . . . 163
9.4. Resoluci(cid:243)n de instancias ruidosas mediante ISA, PALS, GAG y SAX . . . . 164
50
9.4.1. AnÆlisis de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 165
9.4.1.1. Comparaci(cid:243)ndelcomportamientoalgor(cid:237)tmicoenlastresfuen-
tes de ruido . . . . . . . . . . . . . . . . . . . . . . . . . . . . 167
9.4.1.2. AnÆlisisdeinstanciascondiferentesintensidadesderuidoen
la matriz de solapamiento . . . . . . . . . . . . . . . . . . . . 172
9.5. Comparaci(cid:243)n con otros algoritmos . . . . . . . . . . . . . . . . . . . . . . . . 177
9.6. Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179
10.Resoluci(cid:243)n de instancias con ruido en los datos usando paralelismo 181
10.1.Medidas de rendimiento . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
10.2.Resoluci(cid:243)n de instancias ruidosas mediante PH-PALS . . . . . . . . . . . . . . 185
10.2.1. AnÆlisis de Resultados . . . . . . . . . . . . . . . . . . . . . . . . . . . 189
10.3.Comparaci(cid:243)n con otros algoritmos . . . . . . . . . . . . . . . . . . . . . . . . 193
10.4.Conclusiones . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
Description:mentos de ADN resuelto mediante metaheurísticas y paralelismo por D. Proceedings of the IEEE Conference of Systems, Man and Cybernetics,