Repositorio destinado a la propuesta de Mentoría: "Detección Automática de Plagio", para la Diplomatura de Ciencia de Datos, Aprendizaje Automático y sus Aplicaciones, Cohorte 2023
Detección Intrínseca de Plagio
Se descargar el dataset de:
- https://zenodo.org/record/3250095#.YifVtXrMLIU
- Se crea una carpeta denominada "intrinsic", dentro de la carpeta "intrinsic-plagiarism", y se copian (y descomprimen) los archivos en dicha carpeta.
- Se crea una carpeta denominada "corpus" dentro de la carpeta "intrinsic-plagiarism".
- Luego debemos dirigirnos a la carpeta intrinsic y seguir la siguiente ruta: \pan-plagiarism-corpus-2011\intrinsic-detection-corpus\suspicious-document
En dicha carpeta se encuentran carpetas (part1, part2, ..., part_10) con los documentos .txt y sus respectivos .xml.
Se debe correr el script copiar-corpus.py para copiar todos esos archivos en una misma carpeta (carpeta corpus)
- ¿Cuáles son las características específicas de los textos que indican la presencia de plagio intrínseco?
- ¿Cómo se puede identificar el plagio intrínseco de manera más precisa y eficiente utilizando técnicas de procesamiento de lenguaje natural y aprendizaje automático?
- ¿Cómo se pueden diseñar algoritmos de detección de plagio intrínseco que sean más efectivos y precisos independientemente del idioma?
- ¿Cómo se pueden prevenir el plagio intrínseco en la enseñanza y la producción de textos académicos y científicos?
- ¿Cómo se pueden detectar y prevenir el plagio intrínseco en la producción de textos en el mundo laboral y profesional?