Variables socioeconómicas que inciden en el desempeño en las Pruebas Saber 11: Una aproximación usando Redes Neuronales
Visualizar/ Abrir
Enlaces del Item
URI: http://hdl.handle.net/10818/59456Compartir
Estadísticas
Ver as estatísticas de usoMétricas
Catalogación bibliográfica
Apresentar o registro completoData
2023-10-27Resumo
Este trabajo presenta los resultados de un proyecto de aprendizaje de máquinas realizada en la base de datos "Saber 11 - 2019". El conjunto de datos comprende más de 500,000 observaciones, que abarcan más de 80 atributos. Entre estas variables se destacan atributos como "ESTU_GENERO" (género del estudiante) y "FAMI_EDUCACIONPADRE" (nivel de educación del padre). El objetivo de este estudio es observar cuáles son las variables socioeconómicas que más inciden en el desempeño de los estudiantes en las pruebas Saber 11, 2019.
La etapa de preprocesamiento de datos implica el manejo de valores faltantes y la codificación de variables categóricas utilizando mapeos y técnicas de embeddings. Las variables numéricas se normalizan utilizando técnicas de estandarización. Luego se construye un modelo de red neuronal utilizando PyTorch, que incorpora capas de embeddings para variables categóricas, capas totalmente conectadas, funciones de activación (ReLU) y capas de dropout para disminuir los riesgos de sobreajuste.
Los hiperparámetros se ajustan para garantizar un rendimiento óptimo. La tasa de aprendizaje se establece en 0,0003, el weight decay es de 0,0003 y la tasa de dropout es 0,1. El modelo se entrena para 1000 épocas utilizando un tamaño de lote de 128. Se emplean el optimizador de Adam y la función de pérdida de error cuadrático medio (MSE), con recorte de gradiente y técnicas de early stopping para mejorar la estabilidad del entrenamiento. Las métricas de evaluación, incluido la raíz del error cuadrático medio (RMSE) y el error absoluto medio (MAE), se calculan para evaluar el rendimiento del modelo.