Giter Club home page Giter Club logo

ceia_add2021's Introduction

Análisis de Datos 2021

Repositorio de materia Análisis de Datos de la Carrera de Especialización en Inteligencia Artificial de FIUBA.

Clases

Clase 1. Introducción al análisis de datos y herramientas

Docente: Lic. Nicolás Eduardo Horro

  • Temario:

    • Introducción al análisis de datos (presentación).
    • Taller de nivelación de herramientas de SW (hands-on).
      • GIT. Modelo de datos. Comandos útiles (presentación/jamboard).
      • Conda. Manejo de ambientes virtuales. Gestión de paquetes (sesión interactiva).
      • Python con conceptos de Ingeniería de SW (sesión interactiva).
      • Numpy (sesión interactiva, opcional).
      • Pandas (sesión interactiva).
    • Resolución de TP1 en clase (sesión interactiva).
  • Ejercicios

Clase 2. Conceptos básicos de análisis de datos.

Docente: Dr. Ing. Pablo Briff.

Presentación

Temario:

  • Variables aleatorias.
    • Función de distribución de probabilidad.
    • Función de distribución conjunta y marginal.
    • Distribuciones condicionales.
    • Esperanza.
    • Varianza.
    • Funciones generadoras de momentos.
    • Estadísticas de orden k.
    • Teorema central del límite.
  • Variables aleatorias especiales.
    • Distribución de Bernoulli y Binomial.
    • Distribución uniforme.
    • Distribución Chi-cuadrado.
    • Distribución t de Student.
  • Introducción al análisis de datos.
    • Media y varianza muestral.
    • Medidas de tendencia central.
    • Medidas de variabilidad.
    • Regla empírica.
    • Estimación de desvío estándar con rango.
    • Diagramas de Box and Whiskers.

Ejercicios

Clase 3. Conceptos de estadística y teoría de la información

Docente: Dr. Ing. Pablo Briff.

Presentación

Temario:

  • Repaso de estimación de intervalo.
  • Repaso de tests estadísticos.
    • Repaso de test de hipótesis.
    • Tipos de errores.
    • Ensayo unilateral.
    • Test de hipótesis con varianza desconocida.
    • Valor p (p-value) y puntaje z (z-score).
  • Test estadísticos.
    • Test de independencia de Pearson.
    • Test de t de Student de 2 muestras.
    • Análisis de varianza (ANOVA) unidireccional.
  • Entropía.
    • Definición.
    • Entropía como información promedio.
    • Propiedades.
    • Entropía conjunta y condicional.
  • Divergencia de KL e información Mutua.
    • Entropía cruzada.
    • Información mutua.

Ejercicios

Clase 4. Taller de preparación de datos

Docente: Lic. Nicolás Eduardo Horro.

  • Temario:
    • Introducción al análisis de datos ([presentación - parte 1](./clase4/Apuntes/Clase 4. Preparación de datos - Parte1.pdf)).
    • Taller de preparación de datos.
      • Introducción a la preparación de datos.
      • Caracterización de las variables.
      • Técnicas de imputación univariada y multivariada.
      • Codificación de variables categóricas.
      • Transformación de variables.
      • Discretización.
      • Tratamiento de valores extremos (outliers).
      • Escalado de variables de entrada (feature scaling).
      • Integración de las técnicas anteriores en cadenas de procesamiento con SKLearn.
    • Presentación de trabajo integrador.

Clase 5. Selección de features

Docente: Dra. Magdalena Bouza

Temario:

  • Métodos de selección de features. [Presentación]("./clase5/Apuntes/05 - Selección de features.pdf").
    • Métodos de filtrado
      • Coeficiente de correlación de Pearson.
      • Coeficiente de Spearman
      • Información mutua
      • ANOVA
      • Coeficiente de correlación de Kendall
      • Kruskall-Wallis / Información mutua
      • Test de $\Chi^2$
    • Métodos embebidos
    • Métodos wrapper
    • Embedded
  • Ejemplos

Clase 6. Reducción de dimensiones

Docente: Dra. Magdalena Bouza

Temario:

  • Métodos de reducción de dimensiones. [Presentación]("./clase6/Apuntes/06 - Reducción de dimensiones.pdf").
    • Análisis de componentes principales (PCA)
    • Descomposición de valores singulares (SVD)
  • Ejemplos

Clase 7. Taller de ingeniería de features y despliegue de modelos.

Docentes: Dra. Magdalena Bouza, Lic. Nicolás Eduardo Horro.

Temario:

  • Introducción a la ingeniería de variables.
  • Caso de estudio:
    • Ingeniería de features de tiempo y frecuencia.
    • Desarrollo del modelo completo y exportación.
  • Desarrollo y despliegue de modelos.
    • Conceptos de SW para armado de cadenas de procesamiento complejas.
    • Ejemplo de despliegue con microservicios: aplicación de detección de fraude.

Clase 8. Evaluación / exposición de trabajos

Recursos de interés

Librerías (aportes de alumn@s recomendados y/o utilizados en TP integrador) que complementan temas vistos en clase:

  • dtale: librería para análisis exploratorio inicial.
  • boruta-py: implementación scikit-learn de algoritmo Boruta selección de features.
  • Imbalanced learn: librería para tratamiento de datos desbalanceados: incluye SMOTE, etc.
  • Feature engine: librería que implementa la mayoría de los métodos de ingeniería de features vistos en la clase 4.
  • Geopy: librería para trabajar con datos geográfico en pythos.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.