Ce projet vise à entraîner un modèle de classification de texte sur la base de tweets afin d'analyser le sentiment principal qui s'en dégage. Pour entraîner et choisir un modèle pertinent, j'ai utilisé le framework mlflow qui permet de tracker et comparer les expérimentations successives pour retenir le meilleur modèle. L'interface pour tester les prédictions du modèle a été développée sur streamlit qui est mon favori du moment.
├── LICENSE
├── README.md
├── data <- conservée en local uniquement
├── mlruns <- Expérimentations MLFLOW et modèles retenus pour déploiement
├── notebooks <- Notebooks d'exploration et de tests
├── requirements.txt <- The requirements file for reproducing the analysis environment, e.g.
│ generated with `pip freeze > requirements.txt`
├── src <- Source code for use in this project.
│ ├── __init__.py <- Makes src a Python module
│ ├── features <- Scripts de séparation des données d'entraînement et tests │ │
│ ├── models <- Scripts d'entraînement des modèles trackés avec MLFlow
│ ├── streamlit <- Scripts de création de l'app sur Streamlit
- Optimisation des hyperparamètres (Optuna)
- Containerisation Docker
Project based on the cookiecutter data science project template. #cookiecutterdatascience