Un Enfoque a los Tokens Iniciales de las Capas de Atención para Detectar Cambios de Autor en Textos Multi-autor.

Authors

  • César Espin-Riofrio Universidad de Guayaquil - (EC), Ecuador
  • Jenniffer Tenempaguay-Borja Universidad de Guayaquil - (EC), Ecuador
  • Jhonn Montenegro-Arellano Universidad de Guayaquil - (EC), Ecuador
  • Verónica Mendoza Morán Universidad de Guayaquil - (EC), Ecuador
  • Lilia Santos Díaz Universidad de Guayaquil - (EC), Ecuador
  • Arturo Montejo-Ráez Universidad de Jaén - (ES)

DOI:

https://doi.org/10.18687/LACCEI2024.1.1.109

Keywords:

Author changes, Natural Language Processing, Transformers, Embeddings of initial tokens.

Abstract

La detección de cambios de autor es crucial en un entorno donde múltiples personas han aportado al mismo contenido, siendo esencial para garantizar la transparencia y originalidad de un documento, beneficiando a múltiples áreas como la académica y científica. El objetivo de esta investigación es detectar dónde se produce el cambio de autor en documentos multi-autor, donde se propone un modelo basado en la arquitectura Transformers utilizando los modelos pre-entrenados DeBERTa y mDeBERTa. En el proceso experimental, extraemos los embeddings de los tokens iniciales de las capas del modelo y aplicamos aprendizaje por transferencia para ajustarlos. Validamos nuestro enfoque utilizando un dataset de textos en inglés tomado de PAN CLEF 2023, evaluando su eficacia y rendimiento. Los resultados muestran F1-scores de 0.9721 y 0.9647 para DeBERTa y mDeBERTa, respectivamente, validando que ambos tienen una alta precisión en la detección de cambios de autor en textos multi-autor. DeBERTa se destaca ligeramente por encima de mDeBERTa. La propuesta demuestra que la extracción de embeddings y el posterior fine-tuning en ambos modelos, son altamente efectivos para la detección precisa de cambios de autor en documentos multi-autor.

Downloads

Published

2024-04-09

How to Cite

Espin-Riofrio, C., Tenempaguay-Borja, J., Montenegro-Arellano, J., Mendoza Morán, V., Santos Díaz, L., & Montejo-Ráez, A. (2024). Un Enfoque a los Tokens Iniciales de las Capas de Atención para Detectar Cambios de Autor en Textos Multi-autor. LACCEI, 1(10). https://doi.org/10.18687/LACCEI2024.1.1.109

Most read articles by the same author(s)