DATA ANALYTICS EFEB0092
10-10-2020
Capítulo 1 Introducción
El objetivo de este apunte es ser un material de apoyo para los estudiantes que cursan el ramo de Data Analytics - EFEB0092. Este material tiene un enfoque práctico, que les servirá para realizar el desarrollo de sus trabajos de investigación.
La idea inicial de este apunte nace de la poca documentación existente en español para el lenguaje R y los problemas que tuvieron los alumnos que cursaron el ramo con anteioridad.
1.1 Lo que aprenderás
Este libro pretende ser un paso a paso para el aprendizaje de análisis de datos utilizando el Lenguaje R. Para el desarrollo de este libro se recopilaron y desarrollaron diversas fuentes de información, con ejemplos y fuentes de datos, lo que permite al lector aprender desde como instalar el software hasta implementar modelos predictivos en Machine Learning.
El siguiente diagrama muestra a modo general el proceso que seguiremos en el libro:
Figura 1.1: Proceso de programación
El punto de partida es la importación de los datos a R, estos se pueden presentar en diversos formatos como CSV, EXCEL o TXT.
En cuanto a la limpieza de los datos esta se refiere a que los dataset en el mundo real son complejos, con problemas en sus campos por ejemplo cuando existen datos vacíos o datos que presenta algún tipo de anomalías.
La transformación es el proceso en donde una vez consolidado en un sólo dataframe o tibble se procede a realizar operaciones o modificaciones, por ejemplo agregar una variable calculada desde operaciones de otras variables.
El proceso de EDA (análisis exploratorio de datos) y visualización permite encontrar insights relevantes para la toma de decisiones del negocio. Una buena visualización permite visualizar aspectos relevantes de los datos o hará surgir nuevas preguntas. También esta técnica te entrega guias acerca de si estás haciendo las preguntas equivocadas o si necesitas recolectar datos diferentes.
Para finalizar el modelamiento permite a través de los datos y de su historia generalizar y generar predicciones para eventos futuros. Se revisarán tanto técnicas supervisadas como no supervisadas.
1.2 ¿Cómo está organizado este libro?
Este libro se divide en cinco capítulos, partiendo desde la instalación del software, conceptos básicos, manejo de datos hasta temáticas más avanzados como visualizaciones y modelamiento.
El primero capítulo describe conceptos básicos sobre R y sobre programación en general. El segundo capítulo detalla conceptos más aplicados del lenguaje, junto con los tipos y estructuras de datos más utilizadas. En tercer capítulo se describen las bibliotecas principales para manejo de datos con sus principales funciones. El cuarto capítulo se centra en la exploración de los datos tanto a través de datos como visualizaciones. Para finalizar con un capítulo que describe distintas técnicas de aprendizaje de máquina o machine learning.
1.3 Referencia
Para la elaboración de este libro se utilizaron las fuentes oficiales de R con el siguiente enlace:
En cuanto a la elaboración del capítulo 5 “Machine Learning” los ejemplos fueron extraídos del libro “Machine Learning” de Hefin L.Rhys , y la explicación fue complementada con el siguiente link:
https://www.r-bloggers.com/2019/10/support-vector-machines-with-the-mlr-package/
Y los clasificadores del capítulo fueron extraídos del siguiente enlace:
https://mlr.mlr-org.com/articles/tutorial/integrated_learners.html