Missing value imputation in a data matrix using the regularised singular value decomposition
View/ Open
Item Links
URI: http://hdl.handle.net/10818/62948Visitar enlace: https://pubmed.ncbi.nlm.nih.go ...
ISSN: 2215-0161
DOI: 10.1016/j.mex.2023.102289
Compartir
Statistics
View Usage StatisticsBibliographic cataloging
Show full item recordDate
2023-11Abstract
Algunas técnicas de análisis estadístico pueden requerir matrices de datos completas, pero un problema frecuente en la construcción de bases de datos es la recolección incompleta de información por diferentes razones. Una opción para abordar el problema es estimar e imputar los datos faltantes. Este trabajo describe una forma de imputación que mezcla regresión con aproximaciones de rango inferior. Para mejorar la calidad de las imputaciones, se propone una generalización que reemplaza la descomposición en valores singulares (SVD) de la matriz por una SVD regularizada en la que el parámetro de regularización se estima mediante validación cruzada. Para evaluar el desempeño de la propuesta, se utilizaron diez conjuntos de datos reales de ensayos multientorno. Se crearon valores faltantes en cada conjunto en cuatro porcentajes de valores faltantes no aleatorios y luego se consideraron tres criterios para investigar la efectividad de la propuesta. Los resultados muestran que el método regularizado resulta muy competitivo cuando se lo compara con el método original, superándolo en varios de los escenarios considerados. Al ser un sistema muy general, su aplicación se puede extender a todas las matrices de datos multivariantes. •Se modifica el método de imputación mediante la inclusión de un algoritmo computacional estable y eficiente que reemplaza el criterio clásico de mínimos cuadrados de SVD por un criterio penalizado. Esta penalización produce vectores y valores propios suavizados que evitan problemas de sobreajuste, mejorando el rendimiento del método cuando la penalización es necesaria. El tamaño de la penalización puede determinarse minimizando uno de los siguientes criterios: los errores de predicción, el estadístico de similitud de Procrustes o los ángulos críticos entre subespacios de componentes principales.
Collections to which it belong
- Facultad de Ingeniería [506]