Mario Graff ([email protected], [email protected])
Sabino Miranda ([email protected])
Daniela Moctezuma ([email protected])
Eric S. Tellez ([email protected])
El alumno será capaz de crear modelos de texto multilenguaje aplicables a grandes volúmenes de información. Sobre estos modelos, el alumno será capaz de aplicar algoritmos de aprendizaje supervisado para diferentes dominios de aplicación, como por ejemplo, clasificadores de polaridad, determinar la autoría basado en el texto, determinar la temática de un texto, entre otras.
- Introducción
- Motivación (análisis de sentimientos, detección de predadores, spam, género, edad, autoría en general, marketing, prestigio, etc)
- Estado del arte (competencias)
- Uso de herramientas: $\mu$TC, Python, numpy, nltk, sklearn
- Representación vectorial del texto
- Normalización
- Tokenización (n-words, q-grams, skip-grams)
- Pesado de texto (TFIDF)
- Medidas de similitud
- Aprendizaje supervisado
- Modelo general de aprendizaje; Entrenamiento, test, score (accuracy, recall, precision, f1)
- Máquinas de soporte vectorial (SVM)
- Programación genética (EvoDAG)
- Distant supervision
- $\mu$TC
- Pipeline de transformaciones
- Optimización de parámetros
- Clasificadores
- Uso del $\mu$TC
- Aplicaciones
- Análisis de sentimientos
- Determinación de autoría
- Clasificación de noticias
- Spam
- Género y edad
- Conclusiones