METODOLOGÍA
Los datos perdidos en estudios de investigación ¿son realmente datos perdidos?
Dr. Pablo Durán*
* Comité Editorial de Archivos Argentinos de Pediatría.
La pérdida de datos en
investigación es siempre una
realidad y un problema a considerar
Es inevitable en todo estudio de investigación,
independientemente de su diseño
metodológico, la pérdida o no disponibilidad
de una proporción variable de
los datos correspondientes a los sujetos
seleccionados.
Estos datos faltantes pueden involucrar
desde algunas de las variables de
algunos de los sujetos seleccionados hasta
la totalidad de los datos de algunos de
los individuos seleccionados.
En estudios retrospectivos basados en
registros preexistentes (por ejemplo, historias
clínicas) es común que en varios
registros no conste alguno de los datos
requeridos. El desconocimiento o el no
recuerdo por parte del respondente de
algunos de los datos requeridos constituye
otro de los motivos que frecuentemente
lleva a la pérdida de datos. En otros
casos no es posible obtener algunos datos,
por ejemplo, resultados de determinaciones
bioquímicas, por no contar con
el consentimiento del paciente para la
toma de la muestra de sangre pero sí para
responder al cuestionario o por dificultades
técnicas (muestra insuficiente, contaminación
de cultivo, etc.).
Finalmente, en aquellos diseños muestrales
con selección nominal que no permiten
reemplazos, la negativa a participar
implica la pérdida de la totalidad de
los datos.
Los datos perdidos, según sus características
y proporción, pueden afectar en
forma importante tanto la precisión como
la validez de las estimaciones a alcanzar.
¿En qué medida los datos perdidos
pueden afectar los resultados?
La precisión se ve afectada por la reducción
del número total de casos o de una
o más variables, en tanto que la validez se
verá afectada debido a los posibles sesgos
que pueden determinar la pérdida de valores
en sujetos con características comunes
(por ejemplo, debido a una mayor frecuencia
de negativas en el grupo de condiciones
socioeconómicas más elevadas).
El tratamiento de posibles datos perdidos,
con el fin de reducirlos o caracterizarlos,
debe considerarse fundamentalmente
en tres momentos del desarrollo de
todo estudio de investigación: a) durante
la etapa de diseño, mediante la adición al
tamaño muestral mínimo requerido de
una proporción variable de sujetos que
permita compensar las posibles pérdidas
de datos o sujetos, evitando de este modo
el no alcanzar el tamaño muestral requerido;
b) durante la etapa de recolección de
datos, mediante un adecuado monitoreo
de la calidad de los datos que permita
recuperar datos perdidos. El tercer momento,
una vez recolectados los datos, si
bien no permite reducir el impacto sobre
la precisión y validez, permitirá valorar la
medida en que ambos se ven afectados
por la pérdida de datos. Este momento
corresponde al proceso de análisis de consistencia
de los datos y valores perdidos,
que debe formar parte de todo estudio,
antes de la estimación de los estadísticos
que permitan dar respuesta a los objetivos
definidos.
¿Cómo valorar esta situación?
El análisis de datos perdidos implica
principalmente valorar su proporción y características
para las variables de resultado
principales y la posible presencia de sesgos
en la distribución de valores perdidos.
Si bien algunos paquetes estadísticos
cuentan con módulos que permiten analizar
valores perdidos a partir de series de
datos, la metodología básica no requiere
de procesamientos sofisticados.
Con el fin de ejemplificar las características
de la valoración de datos perdidos, se
seleccionó aleatoriamente una muestra de
registros a partir de una base de datos del
Sistema Informático Perinatal. La muestra
incluyó 1.000 registros y las variables incluidas
fueron edad materna, edad gestacional
en la primera consulta prenatal, edad gestacional
al momento del parto, ganancia de
peso materno durante la gestación, peso al
nacer, índice de masa corporal (IMC) pregestacional
y años de educación materna.
A partir de la base original se conformó una segunda base de datos eliminando algunos
de los valores de las diferentes variables.
La Tabla 1 presenta, para cada una de las
variables mencionadas, el porcentaje de datos
perdidos y el número de valores extremos.
Este primer aspecto permite valorar
que, aun cuando el número total de registros
es de 1.000, el número de registros con datos
varía entre 996 (edad materna) y 739 (edad
gestacional en la primera consulta). La valoración
de valores extremos es tan importante
como la de datos perdidos, ya que funcionalmente
se comportan como datos perdidos. El
análisis de valores extremos excede los alcances
del presente trabajo; sin embargo, es
relevante tener en cuenta que una vez identificados,
debe valorarse la necesidad de que
sean excluidos del análisis de los datos, perdiéndose,
por lo tanto, tales datos.
TABLA 1. Número de casos con datos completos, con dato faltante y
valores extremos de variables seleccionadas a partir de datos simulados
Una vez cuantificados los datos perdidos,
es necesario valorar en quiénes se presentan
los datos faltantes. En el ejemplo antes
mencionado se observó que en quienes el
dato sobre peso al nacer estaba disponible, la
frecuencia de bajo nivel de instrucción fue de
13,2%, en tanto que fue de 56,3% en el grupo
con dato faltante. Esta observación pone de
manifiesto que en términos del nivel de instrucción
materna, los registros con datos de
peso al nacer están sesgados con respecto al
total de los casos.
La identificación de la cantidad y características
de los casos con datos perdidos es
importante, pero muchas veces no es suficiente
para mejorar la precisión o validez de
las estimaciones. Existen diferentes metodologías
que permiten reemplazar matemáticamente
los datos perdidos por valores calculados
a partir del resto de los valores como,
por ejemplo, mediante regresión o mediante
el método EM (expectación-maximización).
En la Tabla 2 se comparan valores medios y
frecuencia de peso al nacer y bajo nivel de
instrucción materna en la base de datos completa,
la base con datos perdidos y aquellas con
valores estimados mediante dos métodos.
TABLA 2. Comparación entre estimadores obtenidos mediante diferentes métodos de imputación
Si bien la estimación de valores perdidos puede resultar un procedimiento sencillo si se cuenta con el programa estadístico adecuado, la elección de los procedimientos para el manejo de datos incompletos constituye una tarea compleja. La precisión de las estimaciones varía según el método utilizado y según la distribución y características de los valores perdidos. Las limitaciones en la imputación de datos han sido ampliamente consideradas en la bibliografía; en muchos casos es preferible no realizar imputaciones o bien, en diseños longitudinales en los que se cuenta con múltiples valoraciones en un mismo individuo, la imputación a partir de otros datos del mismo individuo se valora como la forma más adecuada.
Independientemente del camino
a tomar para su resolución,
todo trabajo debe cuantificar y
caracterizar los casos con datos perdidos
En resumen, antes del tratamiento de los
datos es imprescindible valorar la proporción
y características de los datos perdidos,
además de presentar en todo informe científico
una descripción detallada del total de
casos seleccionados y las pérdidas registradas
en relación con el total de casos, así
como para cada una de las variables que se
presentan. Las imputaciones pueden realizarse,
pero considerando que pueden igualmente
conducir a estimaciones sesgadas. La
imputación a partir de datos de los propios
individuos en momentos diferentes o métodos
de imputación múltiple constituyen
métodos que brindan estimaciones más razonables.
Sin embargo, es necesario ser cauteloso
en el momento de decidir su implementación.
BIBLIOGRAFÍA CONSULTADA
- Rothman KJ, Greenland S. Modern Epidemiology.
Philadelphia: Lippincott-Raven Publishers, 1998.
- SPSS Missing Value Analysis. Chicago, IL: 7.5. SPSS
Inc., 1997.
- Engels JM, Diehr P. Imputation of missing longitudinal
data: a comparison of methods. J Clin Epidemiol
2003; 56:968-76.