Un Enfoque a los Tokens Iniciales de las Capas de Atención para Detectar Cambios de Autor en Textos Multi-autor.
DOI:
https://doi.org/10.18687/LACCEI2024.1.1.109Palabras clave:
Author changes, Natural Language Processing, Transformers, Embeddings of initial tokens.Resumen
La detección de cambios de autor es crucial en un entorno donde múltiples personas han aportado al mismo contenido, siendo esencial para garantizar la transparencia y originalidad de un documento, beneficiando a múltiples áreas como la académica y científica. El objetivo de esta investigación es detectar dónde se produce el cambio de autor en documentos multi-autor, donde se propone un modelo basado en la arquitectura Transformers utilizando los modelos pre-entrenados DeBERTa y mDeBERTa. En el proceso experimental, extraemos los embeddings de los tokens iniciales de las capas del modelo y aplicamos aprendizaje por transferencia para ajustarlos. Validamos nuestro enfoque utilizando un dataset de textos en inglés tomado de PAN CLEF 2023, evaluando su eficacia y rendimiento. Los resultados muestran F1-scores de 0.9721 y 0.9647 para DeBERTa y mDeBERTa, respectivamente, validando que ambos tienen una alta precisión en la detección de cambios de autor en textos multi-autor. DeBERTa se destaca ligeramente por encima de mDeBERTa. La propuesta demuestra que la extracción de embeddings y el posterior fine-tuning en ambos modelos, son altamente efectivos para la detección precisa de cambios de autor en documentos multi-autor.Descargas
Publicado
2024-04-09
Número
Sección
Articles
Licencia
Derechos de autor 2024 LACCEI

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.
Cómo citar
Espin-Riofrio, C., Tenempaguay-Borja, J., Montenegro-Arellano, J., Mendoza Morán, V., Santos Díaz, L., & Montejo-Ráez, A. (2024). Un Enfoque a los Tokens Iniciales de las Capas de Atención para Detectar Cambios de Autor en Textos Multi-autor. LACCEI, 1(10). https://doi.org/10.18687/LACCEI2024.1.1.109