Repositorio de materia Análisis de Datos de la Carrera de Especialización en Inteligencia Artificial de FIUBA.
Docente: Lic. Nicolás Eduardo Horro
-
Temario:
- Introducción al análisis de datos (presentación).
- Taller de nivelación de herramientas de SW (hands-on).
- GIT. Modelo de datos. Comandos útiles (presentación/jamboard).
- Conda. Manejo de ambientes virtuales. Gestión de paquetes (sesión interactiva).
- Python con conceptos de Ingeniería de SW (sesión interactiva).
- Numpy (sesión interactiva, opcional).
- Pandas (sesión interactiva).
- Resolución de TP1 en clase (sesión interactiva).
-
Ejercicios
Docente: Dr. Ing. Pablo Briff.
Temario:
- Variables aleatorias.
- Función de distribución de probabilidad.
- Función de distribución conjunta y marginal.
- Distribuciones condicionales.
- Esperanza.
- Varianza.
- Funciones generadoras de momentos.
- Estadísticas de orden k.
- Teorema central del límite.
- Variables aleatorias especiales.
- Distribución de Bernoulli y Binomial.
- Distribución uniforme.
- Distribución Chi-cuadrado.
- Distribución t de Student.
- Introducción al análisis de datos.
- Media y varianza muestral.
- Medidas de tendencia central.
- Medidas de variabilidad.
- Regla empírica.
- Estimación de desvío estándar con rango.
- Diagramas de Box and Whiskers.
Docente: Dr. Ing. Pablo Briff.
Temario:
- Repaso de estimación de intervalo.
- Repaso de tests estadísticos.
- Repaso de test de hipótesis.
- Tipos de errores.
- Ensayo unilateral.
- Test de hipótesis con varianza desconocida.
- Valor p (p-value) y puntaje z (z-score).
- Test estadísticos.
- Test de independencia de Pearson.
- Test de t de Student de 2 muestras.
- Análisis de varianza (ANOVA) unidireccional.
- Entropía.
- Definición.
- Entropía como información promedio.
- Propiedades.
- Entropía conjunta y condicional.
- Divergencia de KL e información Mutua.
- Entropía cruzada.
- Información mutua.
Docente: Lic. Nicolás Eduardo Horro.
- Temario:
- Introducción al análisis de datos ([presentación - parte 1](./clase4/Apuntes/Clase 4. Preparación de datos - Parte1.pdf)).
- Taller de preparación de datos.
- Introducción a la preparación de datos.
- Caracterización de las variables.
- Técnicas de imputación univariada y multivariada.
- Codificación de variables categóricas.
- Transformación de variables.
- Discretización.
- Tratamiento de valores extremos (outliers).
- Escalado de variables de entrada (feature scaling).
- Integración de las técnicas anteriores en cadenas de procesamiento con SKLearn.
- Presentación de trabajo integrador.
Docente: Dra. Magdalena Bouza
Temario:
- Métodos de selección de features. [Presentación]("./clase5/Apuntes/05 - Selección de features.pdf").
- Métodos de filtrado
- Coeficiente de correlación de Pearson.
- Coeficiente de Spearman
- Información mutua
- ANOVA
- Coeficiente de correlación de Kendall
- Kruskall-Wallis / Información mutua
- Test de
$\Chi^2$
- Métodos embebidos
- Métodos wrapper
- Embedded
- Métodos de filtrado
- Ejemplos
Docente: Dra. Magdalena Bouza
Temario:
- Métodos de reducción de dimensiones. [Presentación]("./clase6/Apuntes/06 - Reducción de dimensiones.pdf").
- Análisis de componentes principales (PCA)
- Descomposición de valores singulares (SVD)
- Ejemplos
Docentes: Dra. Magdalena Bouza, Lic. Nicolás Eduardo Horro.
Temario:
- Introducción a la ingeniería de variables.
- Caso de estudio:
- Ingeniería de features de tiempo y frecuencia.
- Desarrollo del modelo completo y exportación.
- Desarrollo y despliegue de modelos.
- Conceptos de SW para armado de cadenas de procesamiento complejas.
- Ejemplo de despliegue con microservicios: aplicación de detección de fraude.
- Links a trabajos en grupo de slack
Librerías (aportes de alumn@s recomendados y/o utilizados en TP integrador) que complementan temas vistos en clase:
- dtale: librería para análisis exploratorio inicial.
- boruta-py: implementación scikit-learn de algoritmo Boruta selección de features.
- Imbalanced learn: librería para tratamiento de datos desbalanceados: incluye SMOTE, etc.
- Feature engine: librería que implementa la mayoría de los métodos de ingeniería de features vistos en la clase 4.
- Geopy: librería para trabajar con datos geográfico en pythos.