Giter Club home page Giter Club logo

aprendizaje-estadistico's Introduction

EST-25134: Aprendizaje Estadístico

https://github.com/agarbuno/aprendizaje-estadistico/actions/workflows/docker.yml/badge.svg https://img.shields.io/docker/pulls/agarbuno/aprendizaje.svg?logo=docker https://img.shields.io/docker/image-size/agarbuno/aprendizaje/notas.svg?logo=docker https://img.shields.io/github/languages/top/agarbuno/aprendizaje-estadistico.svg?logo=r https://img.shields.io/github/languages/code-size/agarbuno/aprendizaje-estadistico.svg?logo=r https://zenodo.org/badge/297475197.svg

Contenido

Introducción

Este es el repositorio con el contenido del curso en Aprendizaje Estadístico ofrecido a estudiantes de semestres avanzados en las licenciaturas de matemáticas aplicadas, ciencia de datos, actuaría, economía, etc.

Objetivo

El Aprendizaje Estadístico trata de cómo establecer reglas de asociación al observar un conjunto de datos. En este curso estudiaremos las ideas fundamentales detrás de las técnicas de aprendizaje modernas e incorporaremos conceptos familiares de estadística. El libro de texto será cite:James2021 y lo complementaremos con el enfoque de cite:Kuhn2013. Se estudiarán, además, técnicas estadísticas modernas aplicadas a modelado predictivo por medio de lecturas que acompañaran el curso.

El libro de texto será:

  • James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). An introduction to statistical learning. Springer, New York, NY. Second Edition.

Nos apoyaremos de:

  • Kuhn, M., Johnson K. (2013). Applied predictive modeling. Springer, New York, NY.

El curso, además, utilizará distintas herramientas computacionales para brindar al estudiante un marco de trabajo reproducible. Al final del curso, lxs estudiantes tendrán las competencias para trabajar en proyectos de código abierto en ambientes reproducibles de trabajo.

Esto se logrará en el curso al utilizar herramientas de código abierto: R como lenguaje de programación y GitHub como gestor de entrega y avance de tareas y trabajos.

El curso está pensando para cursarse después de haber acreditado Estadística Matemática (o equivalente). Sin embargo, se aprovechará mejor si se lleva a la par junto con Estadística Aplicada II (o equivalentes).

Temario

El temario para el semestre de primavera 2022 se puede encontrar aqui. Este es un plan preliminar que está sujeto al avance del curso a lo largo del semestre.

¿De qué se trata el curso?

El material que estudiaremos será sobre modelos predictivos desde el punto de vista estadístico. Dicho de otra forma, no será un curso de Machine Learning algorítmico. Nos concentraremos en las conexiones entre modelos predictivos y principios estadísticos que le dan sustento.

Recursos

El contenido actual de esta iteración del curso se encuentra en la rama: spring-2023. La estructura del repositorio se muestra a continuación donde tenemos a grandes razgos:

.
├── docs       # Handouts con las notas de clase (pdf).
├── images     # Material visual de apoyo (png).
├── notas      # Material fuente de las notas (eMacs).
├── renv       # Archivos de estructura de ambiente (R).
└── rscripts   # Codigo de R para seguir la clase.

5 directories

Ambiente de trabajo

El curso es agnóstico al lenguaje de programación. Sin embargo, las notas y el material estará construido a partir de R. En particular utilizaremos tidymodels como herramienta de programación dentro de R pues ofrece una ambiente unificado de distintas librerías enfocadas en modelos predictivos. Además, es una herramienta que representa muy bien la filosofía del curso.

El ambiente de trabajo está configurado para tener un espacio reproducible. Es decir, independiente del sistema operativo unificaremos versiones para poder trabajar. Esto lo logramos con las siguientes herramientas (las menciono pero no espero que tengan familiaridad, a lo largo del curso veremos cómo utilizarlas).

Ambiente de desarrollo gráfico integrado (IDE)

Se sugiere utilizar Rstudio Visual Studio Code para poder trabajar en sus proyectos y sus tareas. En particular, el material de clase será editado en GNU Emacs a través de orgfiles (archivos con sufijo .org) pero pueden ser visualizados en Github.

Configuración R

Utilizaremos renv para mantener actualizada las herramientas de R junto con el contenido del curso. En la carpeta notas se encuentran los archivos de requerimientos (renv.lock) con el que podrán usar los archivos que se vayan decantando en la carpeta rscripts. Aún asi, la configuración se irá construyendo en los ejercicios de tarea que vayamos utilizando en el curso.

Nota: Es necesario tener instalada la versión 4.2.1 de R para tener la mejor compatibilidad con el código del curso.

Gestión de librerías de R: renv

Se recomienda escribir en el archivo ~/.Renviron la siguiente línea lo cual mantendrá el cache de renv en un lugar centralizado

RENV_PATHS_ROOT=~/.renv

Ambiente Dockerizado

Mi idea de ambiente computacional es el que se puede reproducir en cualquier sistema operativo. Para esto Docker es la herramienta ideal y el uso de los Codespaces de GitHub ha resultado increíble para una solución dentro de un ámbito educativo.

Para la imagen agarbuno/aprendizaje consideren que:

  1. El tag notas basado en una distribución linux en una emulación con un procesador Intel, tiene la configuración mínima necesaria para poder reproducir el ambiente de cómputo para poder ejecutar el material del curso

Esto no les puede decir mucho, pero básicamente con el combo Docker + Visual Code Studio, ¡tod@s tenemos la misma computadora para trabajar! 🥲. Y si lo quieren correr en la nube entonces: Docker + Visual Code Studio + Github Codespaces 🥲 $× 1078$.

Importante: No espero que sepan reproducir ustedes la configuración del ambiente de trabajo. Si les interesa podemos organizar una sesión para discutir esto a profundidad. Lo importante es que lo sepan utilizar en su computadora o en un explorador de internet. Esto es, que pueden utilizarlo para las prácticas del curso.

aprendizaje-estadistico's People

Contributors

agarbuno avatar celj avatar jbsolorzano avatar jpsanchezizq avatar legorretta avatar majosedcast avatar mantisorquida avatar manuelgg97 avatar pablomtzm9 avatar paucarretero avatar payro13 avatar santiagopayro avatar sruizvelf avatar tonantzin-real avatar

Stargazers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

Watchers

 avatar  avatar  avatar  avatar  avatar  avatar  avatar  avatar

aprendizaje-estadistico's Issues

Dimensión VC

Vale la pena mencionar:

  • Conceptos de saturación con separadores lineales
  • Referencias a Abu-Mustafa y Vapnik.

Tipos de variables

Noté problemas con variables categóricas en roles de atributos y respuestas. Incorporar a notas introductorias.

Notación

Agregar a sección de notación:

  • [ ] Valores esperados con sub-índices.

Recommend Projects

  • React photo React

    A declarative, efficient, and flexible JavaScript library for building user interfaces.

  • Vue.js photo Vue.js

    🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.

  • Typescript photo Typescript

    TypeScript is a superset of JavaScript that compiles to clean JavaScript output.

  • TensorFlow photo TensorFlow

    An Open Source Machine Learning Framework for Everyone

  • Django photo Django

    The Web framework for perfectionists with deadlines.

  • D3 photo D3

    Bring data to life with SVG, Canvas and HTML. 📊📈🎉

Recommend Topics

  • javascript

    JavaScript (JS) is a lightweight interpreted programming language with first-class functions.

  • web

    Some thing interesting about web. New door for the world.

  • server

    A server is a program made to process requests and deliver data to clients.

  • Machine learning

    Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.

  • Game

    Some thing interesting about game, make everyone happy.

Recommend Org

  • Facebook photo Facebook

    We are working to build community through open source technology. NB: members must have two-factor auth.

  • Microsoft photo Microsoft

    Open source projects and samples from Microsoft.

  • Google photo Google

    Google ❤️ Open Source for everyone.

  • D3 photo D3

    Data-Driven Documents codes.