INTRODUCCIÓN
El síndrome coronario agudo (SCA) incluye un grupo heterogéneo de pacientes con evolución clínica variable. 1 Las guías clínicas recomiendan utilizar el score desarrollado a partir del Global Registry of Acute Coronary Events (SG) para su estratificación de riesgo 2,3, ya que la presencia de elevación del ST no significó un predictor adicional luego de tener en cuenta la desviación del ST en su conjunto. 4
El SG fue desarrollado entre 1999 y 2001 en una cohorte prospectiva multinacional de 14 países (dos centros eran de Argentina) que incluyó 11389 pacientes con SCA, para predecir la mortalidad intrahospitalaria (MIH). A tal fin, se diseñó un modelo de regresión logística con 8 variables predictoras y se evaluó la calibración con la prueba de Hosmer-Lemeshow (H-L) (p = 0,77) y con el gráfico de mortalidad estimada y observada, de acuerdo a deciles de riesgo predicho. El modelo presentó una adecuada discriminación, con un área bajo la curva (ABC) de 0,83. Se construyó un puntaje para estimar el riesgo individual de MIH, sin establecer categorías de riesgo (1-372 puntos). Dicho puntaje fue validado en 3972 pacientes enrolados a posteriori en el citado registro y en 12142 pacientes del ensayo GUSTO-IIb (Global Use of Strategies to Open Occluded Coronary Arteries Iib), en el que no había registro de paro cardiorrespiratorio reanimado al ingreso (PCR). 4
La existencia de variaciones geográficas en las características de los pacientes, los factores de riesgo, las conductas terapéuticas y el acceso a los recursos, así como los cambios evolutivos en el tratamiento del SCA, hacen necesaria la validación de los puntajes de riesgo en las poblaciones en que serán utilizados. En este sentido, cuantos más estudios de validación demuestren la utilidad del modelo, mayor será la probabilidad de que este sea adecuado, aun en poblaciones en las que no fue evaluado. 1,5,6
Dada la heterogeneidad y pobre calidad metodológica observada en los estudios de desarrollo y validación de modelos predictivos, en el año 2015 se publicó la guía TRIPOD (Transparent Reporting of a multivariable prediction model for Individual Prognosis or Diagnosis), esta enfatiza la necesidad de un enfoque más integral en la evaluación de la calibración, a través de diferentes técnicas que brindan información complementaria. Hay dos herramientas fundamentales que deben utilizarse en los modelos de predicción de riesgo: una de ellas es el ABC, que permite discriminar entre sujetos que presentarán el evento y quienes no lo presentarán; la otra es la calibración, que evalúa si los riesgos estimados concuerdan con la frecuencia observada del evento. Es común observar en la literatura modelos de predicción de riesgo evaluados únicamente a través del ABC. 7,8,9,10,11
El objetivo de este trabajo fue evaluar si el score Grace (SG) predice adecuadamente la MIH en pacientes con SCA ingresados en la unidad coronaria del Hospital de Agudos Dr. Juan A. Fernández (grupo de validación, GV), de acuerdo con la metodología propuesta por la guía TRIPOD.
MATERIAL Y MÉTODOS
Se realizó un estudio observacional retrospectivo de cohorte para la validación del modelo multivariable del GRACE para predecir la MIH en pacientes con diagnóstico de SCA internados en el Hospital de Agudos Dr. Juan A. Fernández entre el 1 de enero de 2001 y el 30 de junio de 2016 en forma consecutiva. Los datos se obtuvieron de las epicrisis computarizadas y de las historias clínicas. El estudio fue aprobado por el Comité de Ética en Investigación Hospitalaria. Se excluyeron los pacientes con diagnóstico de SCA secundario, posangioplastia y postcirugía de revascularización miocárdica. Se utilizó la tercera definición de infarto 12 y el marcador para diagnóstico fue la troponina I en todos los casos. La evidencia sobre el cálculo de tamaño muestral en estudios de validación es limitada y empírica. Se sugiere un mínimo de 100 eventos y 100 no eventos. 7 Se estimó un tamaño muestral mínimo de 1866 pacientes con una MIH de 5,56%.
Se cuantificó la presencia de datos faltantes en las variables predictoras y el evento. Se implementó una estrategia de imputación múltiple con regresión normal multivariada (MCMC, Monte Carlo basado en cadenas iterativas de Markov). A fin de comparar la casuística de las cohortes de derivación y de validación, se informó la distribución de las características de los pacientes en ambas poblaciones.
Se calculó el predictor lineal del modelo del GRACE para MIH según la ecuación publicada en el artículo de Granger y colaboradores 13 (coeficientes beta e intersección originales): logit(p) −7,7035 + edad * 0,0531 + frecuencia cardíaca * 0,0087 − presión arterial sistólica * 0,0168 + creatinina basal * 0,1823 + clase KK * 0,6931 + paro cardiorrespiratorio al ingreso * 1,4586 + marcadores cardíacos elevados al ingreso * 0,4700 + desviación del ST * 0,8755. A las últimas tres variables se les asignó valor de 1 o 0, según su presencia o ausencia, respectivamente. La probabilidad de MIH se calculó con la fórmula: 1/(1+e-predictor lineal). El SG se calculó según el nomograma de Granger. 13 Se evaluó su asociación con la MIH en el GV a través de un modelo de regresión logística.
Análisis estadístico
La precisión pronóstica del modelo (validación) se evaluó a través de sus componentes: calibración y discriminación. Se utilizaron los coeficientes originales del modelo o el predictor lineal, ya que estos brindan información más precisa que el puntaje de ellos derivado. 5,14
Calibración: se utilizó la prueba de H-L (valor esperado de p > 0,05). 15 Se confeccionó el cinturón de calibración, que grafica la relación entre las probabilidades estimadas y la proporción observada del evento con su intervalo de confianza del 95%, calculado a través de una regresión polinomial. El estadístico se basa en una prueba de likelihood ratio (valor esperado de p > 0,05) 16. Además, se implementó el método de recalibración logística a partir de la construcción de un modelo de regresión logística con el evento y el predictor lineal original como única variable independiente. Se obtiene así la pendiente de calibración b, cuyo valor ideal es 1 y refleja la media del efecto de los factores predictivos en el resultado. Si b es menor que 1 (p < 0,05), los riesgos estimados son muy optimistas (muy bajos para pacientes de bajo riesgo y muy altos para pacientes de alto riesgo). Si b es mayor que 1 sucede lo opuesto, los coeficientes originales son cercanos a 0, indica baja varianza y alto sesgo (poco ajuste). Se evaluó la calibración general o intersección a (b = 1). Para ello se agregó al modelo previo el predictor lineal fijado a la unidad (offset) (asume la hipótesis de precisión óptima de los predictores). De esta forma se evalúa la desviación sistemática (sesgo) de las predicciones. Si a (b = 1) es mayor que 0, el promedio de riesgos está sobreestimado y lo contrario ocurre si a (b = 1) es menor que 0. Este tipo de falta de calibración suele implicar diferencias en la incidencia del evento entre la población de derivación y la de validación, que no es explicada por diferencias en la distribución de los valores de las variables predictoras. 9,17,18,19,20
Se realizó el gráfico de validación que combina la representación de la MIH observada versus la probabilidad estimada según deciles de riesgo, la curva suave no paramétrica Loess (regresión polinómica ponderada) 5,21 y la pendiente de calibración. La capacidad discriminativa se evaluó a través del ABC. Se consideró adecuada en valores mayores de 0,70; pobre entre 0,51 y 0,70; y no informativa con valor ≤ 0,50.
Se realizó un análisis de subgrupos según el tipo de SCA. Los datos fueron analizados en STATA MP13.
RESULTADOS
Entre enero de 2001 y junio de 2016 se internaron 2138 pacientes con SCA en la unidad coronaria del Hospital Dr. Juan A. Fernández, de los cuales 35 fueron SCA secundarios y se excluyeron del estudio. Se analizaron 2104 pacientes, la MIH de esta cohorte fue del 5,56% (n = 117). Hubo datos faltantes para los predictores frecuencia cardíaca (0,19%), presión arterial sistólica (0,19%) y creatinina (1,28%), que imposibilitaron el cálculo del SG en 33 pacientes. Se asumió que la falta de datos fue al azar (no completamente al azar). Se realizó imputación múltiple con regresión normal multivariada de Monte Carlo basado en cadenas iterativas de Markov (MCMC), con 5 imputaciones (convergencia en la imputación 4). En el modelo de imputación se incluyeron los predictores del SG, la MIH y la variable asociada a la falta de datos (con fecha anterior a 2010). Se realizaron diagnósticos del modelo de imputación.
Se compararon las características de la población que dio origen al SG (en adelante, cohorte G) con las del GV (Tabla 1). La MIH fue mayor en el GV. En cuanto a los predictores, no se observaron diferencias en frecuencia cardíaca, presión arterial sistólica, creatinina ni edad. Aunque la prevalencia de pacientes mayores de 75 años fue superior en la cohorte G (27,1% vs. 16,3%), la prevalencia de desviación del ST fue similar en ambas cohortes, pero a expensas del supradesnivel del ST en el GV, lo que indica un diagnóstico final de mayor gravedad en cuanto a tipo de SCA. Esto concuerda con la mayor prevalencia de elevación de marcadores y PCR en el GV.
Las proporciones se expresan en porcentajes (IC95%); las variables continuas se expresan en mediana (IQ 25-75) o media (± DS), según corresponda.
IC: insuficiencia cardíaca; IAM: infarto agudo de miocardio; ATC: angioplastia coronaria; CRM: cirugía de revascularización miocárdica; FC: frecuencia cardíaca; TAS: tensión arterial sistólica; PCR: paro cardiorrespiratorio reanimado; CCG: cinecoronariografía; AI: angina inestable.
La presencia de insuficiencia cardíaca al ingreso fue el único predictor de gravedad que resultó levemente mayor en la cohorte G. Dicha población presentó mayor número de factores de riesgo coronarios y enfermedad coronaria conocida, posiblemente por subregistro en nuestra población. La evolución intrahospitalaria fue peor en la cohorte G, con mayor insuficiencia cardíaca y recurrencia isquémica, las cuales pueden atribuirse a la menor cantidad de angioplastias coronarias practicadas (debido a la época); aun así, la MIH fue menor en esa cohorte. El diagnóstico predominante fue el de angina inestable (AI) en la cohorte G y de infarto agudo de miocardio (IAM)-ST en el GV. En la cohorte GV, el SG presentó asociación estadísticamente significativa con la MIH, con un OR de 1,03 (IC95%: 1,027-1,036, p < 0,001) en el análisis univariado.
Se evaluó la calibración del modelo de predicción. La prueba de H-L mostró diferencias estadísticamente significativas (p = 0,014), lo que indicó falta de acuerdo entre las probabilidades estimadas de MIH por el SG y la observada en el GV. En la Figura 1 se aprecia que la probabilidad fue subestimada, principalmente en los deciles de riesgo intermedio y alto. La curva suave Loess muestra también subestimación de riesgo desde probabilidades estimadas mayores del 3%. El cinturón de calibración también presentó diferencias estadísticamente significativas entre estimados y observados (p = 0,004), con subestimación de riesgos en las probabilidades estimadas del 3% al 13% (Figura 2).
En el contexto del modelo de recalibración logística, la calibración general a (b = 1) presentó un valor mayor que 0 (0,36), estadísticamente significativo (p = 0,0012). Esto indica un promedio de aproximadamente 40% más de casos que los predichos (odds de MIH:e0,36 = 1,43). La diferencia en la frecuencia de MIH puede ser consecuencia de variables no incluidas en el modelo o que asumen diferente distribución; casuísticas más graves generan falta de calibración sistemática. La pendiente de calibración b fue de 0,91 con prueba de Wald no significativa (p = 0,16), lo que indica que la media del efecto de los predictores fue similar entre la cohorte G y el GV. Por lo tanto, en el GV se observa subestimación promedio de riesgos estimados, específicamente, en las probabilidades entre 3% y 13%. La escala entre las probabilidades estimadas fue adecuada y sin diferencias significativas en la magnitud del efecto de los predictores. El ABC de 0,87 (IC95%: 0,83-0,90) indicó buena discriminación.
En el análisis de subgrupos, el subgrupo de pacientes SCA-ST presentó mayor utilización de ATC primaria y menor uso de trombolíticos en el GV con mayor MIH. En el subgrupo SCA-no ST, el porcentaje de ATC también fue mayor en el GV, aunque con igual MIH (Tabla 2).
Información tomada de referencias 4, 5 y 32. Se indica la mediana de la edad (IC95%).
IAM: infarto agudo de miocardio; CCG: cinecoronariografía; ATC: angioplastia coronaria; CRM: cirugía de revascularización miocárdica.
En el subgrupo SCA-ST (n = 851), la prueba de H-L y el cinturón de calibración presentaron diferencias estadísticamente significativas entre observados y predichos (p = 0,0003 y p = 0,002, respectivamente). Ambos muestran subestimación de riesgos. El cinturón de calibración indica subestimación de riesgos entre las probabilidades del 5% y 23% y coincide con la curva suave Loess. En concordancia, la calibración general a (b = 1) fue mayor que 0 (0,45; p = 0,001). La pendiente de calibración b fue 0,90 (p = 0,26). El ABC fue adecuada (0,87; IC95%: 0,83-0,90). Por lo tanto, en este subgrupo también se observó falta de calibración, con promedio de riesgos de MIH subestimados por el modelo que originó el SG en el GV, específicamente, en las probabilidades entre 5% y 23% (Figura 3).
En el subgrupo SCA-no ST (n = 1253), la prueba de H-L y el cinturón de calibración no indican diferencias estadísticamente significativas entre observados y predichos (p = 0,21 en ambos). Es posible que esto se deba a falta de poder suficiente, ya que solo hubo 35 eventos en este subgrupo. La curva suave Loess se muestra cerca de la bisectriz, cambiando de dirección en probabilidades que superan el último decil de riesgo. Tanto la calibración general como la pendiente de calibración no fueron significativas a (b = 1): 0,21; p = 0,25 y b: 0,84, p = 0,16). La discriminación fue adecuada, con ABC de 0,81 (IC95%: 0,74-0,88). En este subgrupo, el modelo en el que se apoya el SG mostró adecuada calibración y discriminación en el GV. La caída en la capacidad discriminativa respecto de otros grupos puede atribuirse a la presencia de riesgos menos extremos (Figura 3).
DISCUSIÓN
De 14 estudios de validación previamente publicados 8,9,14,22,23,24,25,26,27,28, 3 indicaron falta de calibración para MIH en el SCA. Uno de ellos se realizó con una cohorte que participó de la población de derivación del modelo SG. 1 Otro estudio presentó una prueba de H-L inadecuada, que consideraron irrelevante debido a un exceso de poder. 29 Otro estudio con tamaño muestral inadecuado informó falta de calibración en pacientes con SCA-no ST. 30 Un estudio argentino multicéntrico, que excluyó pacientes con angina inestable y no dispuso de tamaño muestral adecuado, informó adecuada calibración, con tendencia a la subestimación en deciles de riesgo intermedio. 31 Se debe tener en cuenta la posibilidad de sesgo de publicación de estudios con falta de calibración.
El modelo en el que se apoya el SG presenta una menor precisión pronóstica en la población del GV para predecir MIH en el SCA, a expensas de la subestimación de riesgos en las probabilidades del 3% al 13%. Se debe considerar que la MIH observada fue mayor con respecto a la cohorte G. La adecuada pendiente de calibración (b = 0,91; p = 0,16) indica que no hubo optimismo y no se observaron diferencias significativas al comparar los efectos de los predictores entre ambas poblaciones.
Los problemas de calibración suelen ser multifactoriales. Nuestro ámbito corresponde a un hospital público universitario en un país en vías de desarrollo, y es frecuente observar que los pacientes tienen dificultades para el acceso al sistema de salud y para adherir a tratamientos de prevención. Esto puede determinar que, al momento del ingreso por una patología aguda, los pacientes presenten más comorbilidades que en otras poblaciones y no tengan conocimiento de ellas. En este trabajo no se puede descartar que exista una diferencia basal de riesgo entre la cohorte G y el GV sobre la base de los predictores no incluidos en el modelo. En la población del GV se observó una casuística más grave, con mayor prevalencia de IAM-ST, marcadores positivos, PCR y MIH.
Cabe considerar que durante el desarrollo del modelo pronóstico del SG, la presencia de supradesnivel del ST al ingreso no agregó información pronóstica a la desviación del ST en su conjunto. 4 A pesar de ello, en este estudio se observaron diferencias en la calibración de los subgrupos según el tipo de SCA. Se observó falta de calibración en el subgrupo IAM-ST. En cambio, el subgrupo SCA-no ST presentó adecuada calibración en todas las pruebas realizadas. En este último grupo, la MIH observada coincidió con la reportada en la cohorte G. En ambos subgrupos, la pendiente de calibración fue adecuada. El SCA-no ST es de especial importancia debido a su heterogeneidad y a la necesidad de estimar en forma adecuada el riego individual del paciente, para definir el uso de fármacos más agresivos y estrategias invasivas tempranas.
A pesar de que el SG subestima riesgos en el GV, se considera que proporciona información pronóstica relevante, ya que la magnitud del efecto de los predictores fue concordante en ambas poblaciones y las probabilidades de MIH estimadas se mantuvieron en escala entre sí. Por lo tanto, se considera que el SG es clínicamente relevante, aunque se sugiere su actualización con la metodología propuesta por las guías TRIPOD (recalibración logística).
Limitaciones
Como limitaciones del estudio, se debe considerar que fue retrospectivo y unicéntrico. Además, abarca un período mayor de 10 años, durante el cual el tratamiento del SCA y la disponibilidad de recursos fue cambiando. El análisis por subgrupos no cuenta con el tamaño muestral adecuado. No se dispone de información sobre el tratamiento médico implementado, lo que dificulta la comparación entre poblaciones.