Embeddings de Tokens Iniciales de Modelos Basados en BERT para Identificar Texto Escrito por Humano o Generado Automáticamente

Authors

  • César Espin-Riofrio Universidad de Guayaquil - (EC), Ecuador
  • Luis Ramos-Ramírez Universidad de Guayaquil - (EC), Ecuador
  • Holger Camacho-Villalva Universidad de Guayaquil - (EC), Ecuador
  • Débora K. Preciado-Maila Universidad de Guayaquil - (EC), Ecuador
  • Jorge L. Charco Universidad de Guayaquil - (EC), Ecuador
  • Arturo Montejo-Ráez Universidad de Jaén - (ES)

DOI:

https://doi.org/10.18687/LACCEI2024.1.1.108

Keywords:

Natural Language Processing, Transformers, Embeddings of initial tokens, human or machine.

Abstract

Los notables avances en los modelos de generación de texto han expandido significativamente su aplicabilidad en una amplia variedad de campos. Resulta difícil identificar si un texto ha sido escrito por humano o generado automáticamente, debido a la capacidad de estos modelos para imitar el estilo, la coherencia y la expresión humana. En esta investigación, se propone un método de Deep Learning enfocado al Procesamiento de Lenguaje Natural (PLN) para identificar el origen de un texto. Se basa en la extracción de los embeddings de los tokens iniciales de las doce capas ocultas de modelos Transformers basados en BERT. Se utilizó el dataset proporcionado en la tarea AuTexTification de IberLEF 2023, con textos extraídos de diferentes dominios, en idioma inglés y español. El modelo DeBERTa se utilizó para los textos en inglés y mDeBERTa para los textos en español. Con Optuna se automatizó la búsqueda de los hiperparámetros óptimos para el entrenamiento final, realizando fine-tuning de cada modelo para su posterior predicción y evaluación. Los resultados de evaluación del modelo propuesto fueron excelentes, mientras que los de predicción no lo fueron tanto, siendo un punto interesante para la discusión y análisis de la propuesta.

Downloads

Published

2024-04-09

How to Cite

Espin-Riofrio, C., Ramos-Ramírez, L., Camacho-Villalva, H., Preciado-Maila, D. K., Charco, J. L., & Montejo-Ráez, A. (2024). Embeddings de Tokens Iniciales de Modelos Basados en BERT para Identificar Texto Escrito por Humano o Generado Automáticamente. LACCEI, 1(10). https://doi.org/10.18687/LACCEI2024.1.1.108

Most read articles by the same author(s)