Embeddings de Tokens Iniciales de Modelos Basados en BERT para Identificar Texto Escrito por Humano o Generado Automáticamente

César Espin-Riofrio; Luis Ramos-Ramírez; Holger Camacho-Villalva; Débora K. Preciado-Maila; Jorge L. Charco; Arturo Montejo-Ráez

doi:10.18687/LACCEI2024.1.1.108

Embeddings de Tokens Iniciales de Modelos Basados en BERT para Identificar Texto Escrito por Humano o Generado Automáticamente

Authors

César Espin-Riofrio Universidad de Guayaquil - (EC), Ecuador
Luis Ramos-Ramírez Universidad de Guayaquil - (EC), Ecuador
Holger Camacho-Villalva Universidad de Guayaquil - (EC), Ecuador
Débora K. Preciado-Maila Universidad de Guayaquil - (EC), Ecuador
Jorge L. Charco Universidad de Guayaquil - (EC), Ecuador
Arturo Montejo-Ráez Universidad de Jaén - (ES)

DOI:

https://doi.org/10.18687/LACCEI2024.1.1.108

Keywords:

Natural Language Processing, Transformers, Embeddings of initial tokens, human or machine.

Abstract

Los notables avances en los modelos de generación de texto han expandido significativamente su aplicabilidad en una amplia variedad de campos. Resulta difícil identificar si un texto ha sido escrito por humano o generado automáticamente, debido a la capacidad de estos modelos para imitar el estilo, la coherencia y la expresión humana. En esta investigación, se propone un método de Deep Learning enfocado al Procesamiento de Lenguaje Natural (PLN) para identificar el origen de un texto. Se basa en la extracción de los embeddings de los tokens iniciales de las doce capas ocultas de modelos Transformers basados en BERT. Se utilizó el dataset proporcionado en la tarea AuTexTification de IberLEF 2023, con textos extraídos de diferentes dominios, en idioma inglés y español. El modelo DeBERTa se utilizó para los textos en inglés y mDeBERTa para los textos en español. Con Optuna se automatizó la búsqueda de los hiperparámetros óptimos para el entrenamiento final, realizando fine-tuning de cada modelo para su posterior predicción y evaluación. Los resultados de evaluación del modelo propuesto fueron excelentes, mientras que los de predicción no lo fueron tanto, siendo un punto interesante para la discusión y análisis de la propuesta.

Downloads

Published

2024-07-27

Issue

Vol. 1 No. 10 (2024): LACCEI 2024

Section

Articles

Copyright

View LACCEI official copyright policy

License

This work is licensed under a Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License.

LACCEI retains copyright of all published articles under the terms of its copyright transfer agreement. As the copyright holder, LACCEI distributes the articles to the public under the Creative Commons Attribution-NonCommercial-ShareAlike 4.0 International License (CC BY-NC-SA 4.0).

How to Cite

Espin-Riofrio, C., Ramos-Ramírez, L., Camacho-Villalva, H., Preciado-Maila, D. K., Charco, J. L., & Montejo-Ráez, A. (2024). Embeddings de Tokens Iniciales de Modelos Basados en BERT para Identificar Texto Escrito por Humano o Generado Automáticamente. LACCEI, 1(10). https://doi.org/10.18687/LACCEI2024.1.1.108

Download Citation

Embeddings de Tokens Iniciales de Modelos Basados en BERT para Identificar Texto Escrito por Humano o Generado Automáticamente

Authors

DOI:

Keywords:

Abstract

Downloads

Published

Issue

Section

Copyright

License

How to Cite

Most read articles by the same author(s)

Copyright

License

Information

Language

ISSN