New multiple imputation methods for genotype-by-environment data that combine singular value decomposition and Jackknife resampling or weighting schemes
Nuevos métodos de imputación múltiple para datos de genotipo por entorno que combinan la descomposición de valores singulares y el remuestreo Jackknife o esquemas de ponderación
Enlaces del Item
URI: http://hdl.handle.net/10818/51109Visitar enlace: https://reader.elsevier.com/re ...
DOI: 10.1016/j.compag.2020.105617
Compartir
Estadísticas
Ver as estatísticas de usoCatalogación bibliográfica
Apresentar o registro completoData
2020Resumo
Missing data is a common phenomenon in agronomy and many other fields of research. Data imputation, in which the missing elements of a data matrix are replaced by plausible values, is one possible way to tackle this problem. In this paper, we consider the case of two-way data tables, e.g. phenotypic traits observed in multi-location plant trials with genotypes in the rows and environments in the columns. Two new methodologies for multiple imputation in genotype-by-environment interaction data tables, and in general two-way data tables, that combine singular value decomposition and either jackknife resampling or weighting strategies, are proposed. The proposed methods are compared with competing methods available in the literature for data imputation, by considering Monte Carlo simulations and a real data application. Two-way data tables with a given main effects and interaction structure are simulated and different percentages of observations are removed in order to obtain the three widely used missing data mechanisms: missing at random, missing completely at random, and missing not at random. The imputation methods under consideration are then applied to the incomplete two-way-data tables and comparisons are made via prediction errors and variances between imputations. The best results were obtained by the proposed multiple imputation weighted versions of the eigenvector method, which outperformed the classical method in all the considered scenarios. La falta de datos es un fenómeno común en agronomía y en muchos otros campos de investigación. La imputación de datos, en la que los elementos faltantes de una matriz de datos se reemplazan por valores plausibles, es una forma posible de abordar este problema. En este artículo, consideramos el caso de las tablas de datos de doble entrada, p. rasgos fenotípicos observados en ensayos de plantas en múltiples ubicaciones con genotipos en las filas y ambientes en las columnas. Se proponen dos nuevas metodologías para la imputación múltiple en tablas de datos de interacción genotipo-por-ambiente y, en general, tablas de datos bidireccionales, que combinan descomposición de valores singulares y estrategias de ponderación o remuestreo jackknife. Los métodos propuestos se comparan con los métodos de la competencia disponibles en la literatura para la imputación de datos, considerando simulaciones de Monte Carlo y una aplicación de datos reales. Se simulan tablas de datos bidireccionales con efectos principales y estructura de interacción dados y se eliminan diferentes porcentajes de observaciones para obtener los tres mecanismos de datos perdidos ampliamente utilizados: perdidos al azar, perdidos completamente al azar y perdidos no al azar. Los métodos de imputación considerados se aplican luego a las tablas de datos bidireccionales incompletas y se realizan comparaciones mediante errores de predicción y varianzas entre imputaciones. Los mejores resultados se obtuvieron con las versiones ponderadas de imputación múltiple propuestas del método de vectores propios, que superaron al método clásico en todos los escenarios considerados.
Palabras clave
Ubicación
Computers and Electronics in Agriculture
Colecciones a las que pertenece
- Facultad de Ingeniería [506]