- код решения
- предсказания на тестовой выборке
- лемматизированные данные, разбитые на train, val и test
Максимальный auc_roc на валидации: 0.97
Лучший результат был получен при векторизации лемматизированных текстов CountVectorizer и классификации LogisticRegression, другие комбинации способов векторизации и кластеризации на графике: