Table Of Content

Uso de algoritmos de aprendizaje automático aplicados a bases de datos genéticos RosarioGagoUtrera MásteruniversitarioenBioinformáticayBioestadística Consultor:PauAndrioBalado Juniode2017 Esta obra está sujeta a una licencia de Reconocimiento-NoComercial- SinObraDerivada 3.0 España de CreativeCommons Ficha del trabajo final Títulodeltrabajo: Uso de algoritmos de aprendizaje automático aplicados a bases de datos genéticos Nombredelautor: RosarioGagoUtrera Nombredelconsultor: PauAndrioBalado Fechadeentrega: 06/2017 Titulación: MásteruniversitarioenBioinformáticayBioestadística ÁreadelTrabajoFinal: ProgramaciónparalaBioinformática Idiomadeltrabajo: Castellano Palabrasclaves: MachineLearning,SNP,HapMap Resumen Lacantidaddedatosbiológicosdisponibleparasuanálisissehamultiplicadoexponencialmentealolargo delaúltimadécada,ysigueaumentandoaunritmovertiginoso.Ahorasedisponededatosdenaturaleza muyvariada,porejemplo:secuenciasdeADN,simulacionesdedinámicadeproteínas,informaciónsobre nivelesdeexpresión... Amedidaquecrecenennúmeroyvariedadlainformacióndisponibletambiénsevadificultandoelproceso paraconseguirextraerinformaciónútildeella,sehacenecesariorecurriraprocedimientosautomatizados queintentenayudarenlatareadeanalizarlosdatos. Este trabajo se ha centrado en unos datos concretos del proyecto de HapMap, acotados a nivel de cromosoma,ytrabajandocondatosdeSNPscomunes. Sobreestosdatosseharealizadounestudiocomparativodediferentestécnicasdeaprendizajeautomático con el propósito de determinar cuáles proporcionan mejores resultados, partiendo desde la optimización de la representación de los datos computacionalmente y llegando hasta la comparación de los resultados obtenidos. III Abstract Thequantityofbiologicaldataavailablehasmultiplicatedexponentiallyduringthelastdecade,andkeeps on increasing very rapidly. Now, data of various kinds are available, such as: DNA sequences, protein dynamicsimulations,expressionlevelsinformation... Astheinformationavailablegrowsinnumberandvariety,theprocessofobtainingusefullinformationout ofitgetsalsomorecomplicatedandautomatedprocedurestoanalysethedatabecomenecessary. ThisworkhasfocusedonsomespecificdatafromtheHapMapproject,enclosedinachromosomeselected, andworkingwithSNPscommondata. A study to determine the best way of representing them to treat them with Machine Learning techniques has been carried out. The way of optimising the computational treatment has also been searched for. Somealgorithmshavebeentrainedcomparingtheperformanceobtainedfromeachofthemandtheresults obtainedhavebeencompared. V Índice general Fichadeltrabajofinal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . III Abstract . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . V Índicedefiguras XI Índicedetablas XIII 1. Introducción 1 1.1. ContextoyJustificacióndelTrabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1.1. Descripcióngeneral . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.1.2. JustificacióndelTFM . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1 1.2. ObjetivosdelTrabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2.1. Objetivosgenerales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.2.2. Objetivosespecíficos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.3. Enfoqueymétodoseguido . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 1.4. PlanificacióndelTrabajo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.4.1. Tareas . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3 1.4.2. Calendario . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 1.4.3. Hitos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.5. Brevesumariodeproductosobtenidos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 1.6. Brevedescripcióndelosotroscapítulosdelamemoria . . . . . . . . . . . . . . . . . . . . . . . 6 2. ElproyectoHapmap.Preparacióndelosdatos 9 2.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2. ElproyectoHapMap . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2.1. Nocionesiniciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 2.2.2. Conceptosrelacionados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 2.2.3. Fases . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10 VII PoblaciónanalizadaFaseII . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.3. Preparacióndelosdatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.3.1. Seleccióndelosdatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.3.2. Obtencióndelosdatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 2.3.3. Formatodelosficheros . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 Ficherosdedatosdelcromosoma15 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 2.3.4. Transformacióndelosdatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 SeleccióndelosdatosSNPscomunes . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Reordenacióndelosdatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13 Codificacióndelainformación . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.4. Detallestécnicos.Implementación. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 2.4.1. EllenguajePython . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 EvolucióndellenguajePython . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15 2.4.2. Organizaciónyestructuradelcódigo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16 Ficherodeconfiguración . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Utilidades . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 Procesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18 2.4.3. Eldirectoriodedatos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19 2.5. Optimizacióndelrendimientodelproceso. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.5.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.5.2. Estimacióninicialdetiempos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20 2.5.3. Primeraetapadeoptimización.Optimizacióndecódigo . . . . . . . . . . . . . . . . . . 21 2.5.4. Segundaetapadeoptimización.Paralelismo . . . . . . . . . . . . . . . . . . . . . . . . . 21 ThreadsenPython.GIL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21 SubprocesosenPython . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22 3. AplicacióndealgoritmosdeMachineLearning 23 3.1. Introducción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2. Machinelearning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2.1. Nocionesiniciales . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.2.2. Problemasdeapredizajeautomático . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23 3.3. Seleccióndealgoritmos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24 3.3.1. Aprendizajesupervisado.Algoritmosdeclasificación . . . . . . . . . . . . . . . . . . . . 24

Description:

La cantidad de datos biológicos disponible para su análisis se ha es un subcampo de las ciencias de la computación y una rama de la inteligencia bench_k_means(KMeans(init='k-means++', n_clusters=n_digits, n_init=10),

Uso de algoritmos de aprendizaje automático aplicados a bases de datos genéticos PDF

79 Pages·2017·1.81 MB·Spanish

by Gago Utrera, Rosario

Checking for file health...

Save to my drive

Quick download

Download

Download Uso de algoritmos de aprendizaje automático aplicados a bases de datos genéticos PDF Free - Full Version

by Gago Utrera, Rosario| 2017| 79 pages| 1.81| Spanish

Download Uso de algoritmos de aprendizaje automático aplicados a bases de datos genéticos by Gago Utrera, Rosario in PDF format completely FREE. No registration required, no payment needed. Get instant access to this valuable resource on PDFdrive.to!

Free Download PDF

About Uso de algoritmos de aprendizaje automático aplicados a bases de datos genéticos

Detailed Information

Author:	Gago Utrera, Rosario
Publication Year:	2017
Pages:	79
Language:	Spanish
File Size:	1.81
Format:	PDF
Price:	FREE

Download Free PDF

Safe & Secure Download - No registration required

Why Choose PDFdrive for Your Free Uso de algoritmos de aprendizaje automático aplicados a bases de datos genéticos Download?

100% Free: No hidden fees or subscriptions required for one book every day.
No Registration: Immediate access is available without creating accounts for one book every day.
Safe and Secure: Clean downloads without malware or viruses
Multiple Formats: PDF, MOBI, Mpub,... optimized for all devices
Educational Resource: Supporting knowledge sharing and learning

Frequently Asked Questions

Is it really free to download Uso de algoritmos de aprendizaje automático aplicados a bases de datos genéticos PDF?

Yes, on https://PDFdrive.to you can download Uso de algoritmos de aprendizaje automático aplicados a bases de datos genéticos by Gago Utrera, Rosario completely free. We don't require any payment, subscription, or registration to access this PDF file. For 3 books every day.

How can I read Uso de algoritmos de aprendizaje automático aplicados a bases de datos genéticos on my mobile device?

After downloading Uso de algoritmos de aprendizaje automático aplicados a bases de datos genéticos PDF, you can open it with any PDF reader app on your phone or tablet. We recommend using Adobe Acrobat Reader, Apple Books, or Google Play Books for the best reading experience.

Is this the full version of Uso de algoritmos de aprendizaje automático aplicados a bases de datos genéticos?

Yes, this is the complete PDF version of Uso de algoritmos de aprendizaje automático aplicados a bases de datos genéticos by Gago Utrera, Rosario. You will be able to read the entire content as in the printed version without missing any pages.

Is it legal to download Uso de algoritmos de aprendizaje automático aplicados a bases de datos genéticos PDF for free?

https://PDFdrive.to provides links to free educational resources available online. We do not store any files on our servers. Please be aware of copyright laws in your country before downloading.

The materials shared are intended for research, educational, and personal use in accordance with fair use principles.