Генеративная модель перефразировки коротких текстов: реплик в диалогах, строк стихов. Она разработана и поддерживается для использования в проектах чатбота и генеративной поэзии.
На huggingface.co выложена публичная версия датасета: inkoziev/paraphrases.
Вы можете использовать этот датасет для обучения своих моделей, про необходимости дополняя его другими открытыми русскоязычными данными по перефразировкам, например из датасета cointegrated/ru-paraphrase-NMT-Leipzig.
Код обучения: train_paraphraser_with_gpt2doublehead.py. В нем используется класс transformers.GPT2DoubleHeadsModel с дополнительной классификационной головой. В обучащих данных есть примеры неправильных перефразировок (см. поле "distractors" в сэмплах), которые используются в данной схеме файнтюна. Кроме того, из обучения исключается исходная фраза-затравка, чтобы модель не переобучалась на этих данных.
Натренированная модель на huggingface: inkoziev/paraphraser.
Код с примером вызова модели: run_paraphraser_with_gpt2doublehead.py.
Модель для оценки близости двух коротких текстов: inkoziev/sbert_synonymy
Репозиторий с кодом тренировки модели: paraphrase_reranker.