Mostrar el registro sencillo del ítem

dc.contributor.advisorMejía Delgadillo, Gonzalo Enrique
dc.contributor.authorArdila Barbosa, David Camilo
dc.contributor.authorCarrillo Aranda, Dairo Javier
dc.contributor.authorLadino Perdomo, Vladimir
dc.date.accessioned2024-06-06T20:32:08Z
dc.date.available2024-06-06T20:32:08Z
dc.date.issued2023-10-23
dc.identifier.urihttp://hdl.handle.net/10818/60271
dc.description87 páginases_CO
dc.description.abstractGenerative language models have instigated a disruptive shift spanning across various sectors (OpenAI, 2022). These changes concurrently pose a challenge to the study of authorship, as generative models do not hold copyright, for two reasons. Firstly, they are not human entities to assume responsibility, and secondly, due to the nature of their training corpus (OpenAI, 2022), raising special significance within the academic context. In this study, we explore two experimental approaches for the binary classification of text generated by a Language Model (LM) and a human. These approaches are based on the field of stylometry and the feature extraction techniques employed in Natural Language Processing (NLP). To this end, a silver standard corpus or dataset was compiled from various sources, ensuring class balance. The dataset is composed of documents with distinct linguistic structures (fables, stories, essays, news reports, tweets, and poems) to diversify the vocabulary and the grammatical structure therein. The experimental approaches involve text classification via parameterization using TF-IDF, embedding, and feature extraction, proposing a taxonomy for the classification of linguistic features used in the classification process. These experimental approaches corroborate the findings of the existing literature (Fröhling y Zubiaga, 2021) (Dou y cols., 2021). Classification models such as decision trees, random forests, adaboost, and support vector classifiers (SVC), employed in LMs, and taking lexicogrammatical features as input, tend to outperform those based on statistical distributions like TF-IDF and vectorization approaches such as embedding. This superiority is likely due to their resistance to overfitting in the presence of exclusionary vocabulary within the corpus.en
dc.description.abstractLos modelos generativos de lenguaje han planteado un cambio disruptivo en áreas que abarcan diferentes sectores (OpenAI, 2022), estos cambios a su vez suponen un reto en el estudio de la autoría, pues los modelos de generación no tienen derechos de autor, ya que, no es un ser humano para asumir la responsabilidad y segundo por la naturaleza del corpus de su entrenamiento (OpenAI, 2022), lo que supone una especial relevancia en el contexto académico. En este trabajo se abordan dos líneas experimentales para la clasificación binaria de texto generado por un LLM y un humano, líneas que son abordadas desde el área de la estilometría y la extracción de características utilizadas en NLP. Para esto se recopila un corpus o data set silver standar de diferentes fuentes y clases balanceadas. Este data set es compuesto por documentos con estructuras lingüísticas distintas (fábulas, cuentos, ensayos, noticias, tweets y poemas) para diversificar el vocabulario, y la estructura gramatical de los mismos. Como líneas experimentales se toma la clasificación por parametrización del texto con tf-idf, embedding y extracción de características, proponiendo una taxonomía para la clasificación de las características lingüísticas usadas en la categorización. Estas líneas experimentales corroboran resultados de la literatura (Fröhling y Zubiaga, 2021) (Dou, Forbes,Koncel-Kedziorski, Smith, y Choi, 2021), en los cuales modelos de clasificación como decision tree, random forest, adaboost, svc, usados en llm, y cuyo input son características lexo gramaticales, funcionan mejor que los basados en distribuciones estadísticas como tf-idf y de vectorización, como el embedding, pues son propensos a un sobre ajuste, dada la presencia de vocabulario excluyente en el corpus.es_CO
dc.formatapplication/pdfes_CO
dc.language.isospaes_CO
dc.publisherUniversidad de La Sabanaes_CO
dc.rightsAttribution-NonCommercial-NoDerivatives 4.0 Internacional*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/*
dc.subject.otherProcesamiento de Lenguaje Natural
dc.subject.otherAlgoritmos clasificación
dc.subject.otherLLM, Taxonomía de textos
dc.subject.otherEstilometría
dc.subject.otherAtribución de Autoría
dc.subject.otherChatGPT
dc.titleDETEL Identificación de textos elaborados por LLMes_CO
dc.typemaster thesises_CO
dc.type.hasVersionpublishedVersiones_CO
dc.rights.accessRightsopenAccesses_CO
thesis.degree.disciplineFacultad de Ingenieríaes_CO
thesis.degree.levelMaestría en Analítica Aplicadaes_CO
thesis.degree.nameMagíster en Analítica Aplicadaes_CO


Ficheros en el ítem

Thumbnail

Este ítem aparece en la(s) siguiente(s) colección(ones)

Mostrar el registro sencillo del ítem

Attribution-NonCommercial-NoDerivatives 4.0 InternacionalExcepto si se señala otra cosa, la licencia del ítem se describe como Attribution-NonCommercial-NoDerivatives 4.0 Internacional