@misc{10818/58675, year = {2022}, url = {http://hdl.handle.net/10818/58675}, abstract = {This paper describes strategies to reduce the possible effect of outliers on the quality of imputations produced by a method that uses a mixture of two least squares techniques: regression and lower rank approximation of a matrix. To avoid the influence of discrepant data and maintain the computational speed of the original scheme, pre-processing options were explored before applying the imputation method. The first proposal is to previously use a robust singular value decomposition, the second is to detect outliers and then treat the potential outliers as missing. To evaluate the proposed methods, a cross-validation study was carried out on ten complete matrices of real data from multi-environment trials. The imputations were compared with the original data using three statistics: a measure of goodness of fit, the squared cosine between matrices and the prediction error. The results show that the original method should be replaced by one of the options presented here because outliers can cause low quality imputations or convergence problems. • The imputation algorithm based on Gabriel's cross-validation method uses two least squares techniques that can be affected by the presence of outliers. The inclusion of a robust singular value decomposition allows both to robustify the procedure and to detect outliers and consider them later as missing. These forms of pre-processing ensure that the algorithm performs well on any dataset that has a matrix form with suspected contamination.}, abstract = {"Este artículo describe estrategias para reducir el posible efecto de los valores atípicos en la calidad de las imputaciones producidas por un método que utiliza una combinación de dos técnicas de mínimos cuadrados: regresión y aproximación de rango inferior de una matriz. Para evitar la influencia de datos discrepantes y mantener la velocidad computacional del esquema original, se exploraron opciones de preprocesamiento antes de aplicar el método de imputación. La primera propuesta es utilizar previamente una descomposición robusta de valores singulares, la segunda es detectar valores atípicos y luego tratar los valores atípicos potenciales como faltantes. Con los métodos propuestos, se llevó a cabo un estudio de validación cruzada sobre diez matrices completas de datos reales provenientes de ensayos multiambientales y se compararon las imputaciones con los datos originales mediante tres estadísticos: una medida de bondad de ajuste, el coseno al cuadrado entre matrices y el error de predicción Los resultados muestran que el método original debe ser reemplazado por una de las opciones presentadas aquí porque los valores atípicos pueden causar imputaciones de baja calidad o problemas de convergencia. • El algoritmo de imputación basado en el método de validación cruzada de Gabriel utiliza dos técnicas de mínimos cuadrados que pueden verse afectadas por la presencia de valores atípicos. La inclusión de una descomposición robusta en valores singulares permite tanto robustecer el procedimiento como detectar valores atípicos y considerarlos posteriormente como faltantes. Estas formas de preprocesamiento garantizan que el algoritmo funcione bien en cualquier conjunto de datos que tenga una forma matricial con sospecha de contaminación".}, publisher = {MethodsX}, keywords = {Valores propios}, keywords = {Vectores propios}, keywords = {Descomposición robusta de valores singulares}, keywords = {Valores faltantes}, keywords = {AI computacional interactiva}, keywords = {EsquemaValidación cruzada}, keywords = {Interacción genotipo por entorno}, title = {Missing value imputation using least squares techniques in contaminated matrices}, title = {Imputación de valores faltantes utilizando técnicas de mínimos cuadrados en matrices contaminadas}, doi = {10.1016/j.mex.2022.101683}, author = {Garcia Peña, Marisol and Arciniegas Alarcón, Sergio and Krzanowski, Wojtek J.}, }