Embeddings de Tokens Iniciales de Modelos Basados en BERT para Identificar Texto Escrito por Humano o Generado Automáticamente
DOI:
https://doi.org/10.18687/LACCEI2024.1.1.108Keywords:
Natural Language Processing, Transformers, Embeddings of initial tokens, human or machine.Abstract
Los notables avances en los modelos de generación de texto han expandido significativamente su aplicabilidad en una amplia variedad de campos. Resulta difícil identificar si un texto ha sido escrito por humano o generado automáticamente, debido a la capacidad de estos modelos para imitar el estilo, la coherencia y la expresión humana. En esta investigación, se propone un método de Deep Learning enfocado al Procesamiento de Lenguaje Natural (PLN) para identificar el origen de un texto. Se basa en la extracción de los embeddings de los tokens iniciales de las doce capas ocultas de modelos Transformers basados en BERT. Se utilizó el dataset proporcionado en la tarea AuTexTification de IberLEF 2023, con textos extraídos de diferentes dominios, en idioma inglés y español. El modelo DeBERTa se utilizó para los textos en inglés y mDeBERTa para los textos en español. Con Optuna se automatizó la búsqueda de los hiperparámetros óptimos para el entrenamiento final, realizando fine-tuning de cada modelo para su posterior predicción y evaluación. Los resultados de evaluación del modelo propuesto fueron excelentes, mientras que los de predicción no lo fueron tanto, siendo un punto interesante para la discusión y análisis de la propuesta.Downloads
Published
2024-04-09
Issue
Section
Articles
License
Copyright (c) 2024 LACCEI

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.
How to Cite
Espin-Riofrio, C., Ramos-Ramírez, L., Camacho-Villalva, H., Preciado-Maila, D. K., Charco, J. L., & Montejo-Ráez, A. (2024). Embeddings de Tokens Iniciales de Modelos Basados en BERT para Identificar Texto Escrito por Humano o Generado Automáticamente. LACCEI, 1(10). https://doi.org/10.18687/LACCEI2024.1.1.108