INTRODUCCIÓN
La insuficiencia cardíaca (IC) es un enfermedad con alta prevalencia a nivel mundial asociada a una morbilidad considerable, altos costos y mal pronóstico a mediano plazo. Debido a esto, la evaluación del riesgo de la IC es importante para la toma de decisiones clínicas. Las guías de IC de la American College of Cardiology Foundation / American Heart Association (ACCF/AHA) mencionan la utilidad de los scores validados para estimar el riesgo de mortalidad en pacientes hospitalizados con IC (clase IIa, nivel de evidencia B). 1 No obstante, una reciente evaluación crítica sobre la utilidad de estos scores concluyó que su aplicación en la práctica clínica sigue siendo limitada. 2
En la IC aguda, existen scores de riesgo con múltiples variables de uso clínico, con áreas bajo la curva ROC (Receiver Operating Characteristic) que oscilan entre 0,59 y 0,80 al evaluar la mortalidad por cualquier causa durante el primer año. 3,4,5,6,7,8,9,10,11,12,13,14 La evaluación de estos modelos, basada en cohortes de validación externa, mostró áreas ROC de 0,69-0,81 para el GWTG-HF (Get With the Guidelines-Heart Failure), 15,16,17,18 0,690,70 para el EFFECT (Enhanced Feedback for Effective Cardiac Treatment), 19,20 0,64-0,68 para el ADHERE (Acute Decompensated Heart Failure National Registry) 18,19) y 0,74 para el OPTIMIZE-HF (Organized Program to Initiate Lifesaving Treatment in Hospitalized Patients with Heart Failure), 21) con evidencia en la mayoría de ellos de una calibración adecuada.
Una revisión sistemática sobre modelos de predicción en IC identificó 117 scores que incluyen 249 variables diferentes, siendo los niveles de urea y el sodio en sangre los predictores más importantes. 22 La predicción de la mortalidad fue mejor en los registros prospectivos, los cuales utilizaron una mayor cantidad de variables clínicas. En esta revisión, el área ROC promedio de todos los modelos en conjunto fue 0,66, con 0,71, 0,68 y 0,63 para aquellos que predecían mortalidad, hospitalización por IC o ambos, respectivamente.
Dado que la predicción de la mortalidad en pacientes con IC sigue siendo sólo moderadamente exitosa, se han propuesto algoritmos de inteligencia artificial para evaluar el riesgo en situaciones agudas. Recientemente, un modelo basado en aprendizaje profundo (deep learning) alcanzó un área ROC de 0,88 y 0,79 al predecir la mortalidad intrahospitalaria y a 12 meses por IC aguda 16. A pesar de los resultados anteriores, otro estudio contemporáneo demostró que si bien los algoritmos de aprendizaje automático superaron a la regresión logística para predecir los reingresos a 30 días por IC descompensada, las mejoras fueron solo marginales, con áreas ROC entre 0,61 y 0,78, obteniendo el método de aprendizaje profundo y un algoritmo Naïve Bayes los mejores resultados. 23,24,25,26
El objetivo del trabajo fue desarrollar y validar un modelo basado en algoritmos de redes neuronales (RN) destinado a mejorar el rendimiento de los modelos tradicionales para predecir la mortalidad a corto y mediano plazo (30 días, 6 meses y al año) de pacientes con IC aguda.
MATERIAL Y MÉTODOS
Se analizó una base de datos con 483 pacientes ingresados en forma prospectiva con diagnóstico de IC aguda en la Unidad Coronaria de un hospital de comunidad de la Ciudad de Buenos Aires, durante el período comprendido entre junio 2005-junio 2019. La base de datos completa incluía 181 variables; entre ellas, datos demográficos, de laboratorio, de imágenes, de tratamiento y de seguimiento. De estas, solo se utilizaron 25 variables para calcular cinco modelos de riesgo de IC aguda destinados a predecir la mortalidad a 30 días, 6 meses y al año.
Los modelos de predicción usados en el análisis fueron: EFFECT 4, ADHERE 3, GWTG-HF 5, 3C-HF 7 y ACUTE-HF 8. En la Tabla 1 se muestran las variables incluidas en cada cálculo. Dos modelos, el ESCAPE (Evaluation Study of Congestive Heart Failure and Pulmonary Artery Catheterization Effectiveness) 6 y el OPTIMIZE-HF 10,13,21 fueron excluidos del estudio debido a la ausencia de datos completos en nuestra base, como los valores de BNP al alta utilizados en el puntaje de riego ESCAPE, y en el caso del OPTIMIZE-HF, debido a que en dicho estudio los pacientes tenían que estar tratados con milrinona por inestabilidad hemodinámica durante 48-72 hs. El punto final primario fue la mortalidad por todas las causas a 30 días (intrahospitalaria), 6 meses y al año.
Variables | EFFECT | GWTG-HF | ADHERE | 3C-HF | ACUTE-HF |
---|---|---|---|---|---|
Edad | X | X | X | X | |
Frecuencia cardíaca | X | ||||
Frecuencia respiratoria | X | ||||
Clase III-IV (NYHA) | X | ||||
Presión arterial sistólica | X | X | X | ||
Hipertensión | X | ||||
Urea | X | X | X | ||
Creatinina | X | X | |||
Sodio | X | X | |||
Enf. Cerebrovascular* | X | X | |||
Demencia | X | ||||
EPOC | X | X | |||
Cirrosis Hepática | X | ||||
Cáncer | X | ||||
Hemoglobina/anemia | X | X | |||
Raza Negra | X | ||||
DBT (daño órgano blanco) | X | ||||
Insuficiencia renal crónica | X | ||||
Fibrilación auricular | X | ||||
No beta bloqueante | X | ||||
No IECA | X | ||||
FEVI baja | X | X | |||
Enf. valvular Grave** | X | X | |||
Ventilación no invasiva | X | ||||
Hospitalización previa | X |
*Incluye accidente cerebrovascular y ataque isquémico transitorio.
**Incluye insuficiencia mitral moderada.
Enf: Enfermedad EPOC: enfermedad pulmonar obstructiva crónica. DBT: diabetes. IECA: Inhibidores del sistema renina angiotensina. FEVI: fracción de eyección ventricular izquierda.
De los 25 predictores incluidos en los cinco modelos tradicionales se excluyó la variable “raza negra” y los otros 24 se utilizaron para testear en tres modelos basados en algoritmos RN: perceptrón multicapa (PMC) de una y dos capas ocultas, y una red de función de base radial (FBR).Para lograr dicho objetivo, la base de datos se dividió en 2 grupos: 70% para el testeo de los algoritmos RN y 30% para la validación. Un algoritmo RN es un tipo especial de regresión no lineal que presenta múltiples valores de mínimos locales; por lo tanto, cada vez que se ejecute el algoritmo de entrenamiento (training), este convergerá en un modelo diferente. Para elegir el mejor modelo, el entrenamiento se repitió 50 veces para cada modelo RN. Simultáneamente, cada vez que se probaron los modelos en la cohorte de validación, se registraron la precisión, el área ROC, el valor predictivo negativo (VPN) y el valor predictivo positivo (VPP). Solo se seleccionaron los modelos RN que mostraron el mejor poder de discriminación a fin de compararlos con las predicciones de las cinco modelos tradicionales.
Todos los modelos basados en algoritmos RN tipo PMC fueron implementados con el método de estandarización de las covariables en la capa de entrada, funciones de activación de tangente hiperbólica en capas ocultas, una función de activación softmax en la capa de salida y una función de error de entropía cruzada (cross-entropy error function). El modelo de FBR fue implementado también con el método de estandarización de las covariables en la capa de entrada, una función de activación de Gaussiana o softmax en la capa oculta, una función de activación “identidad” en la capa de salida y una función de error de suma de cuadrados (sum of squares error function).
Análisis estadístico
Las variables categóricas se expresaron como frecuencias absolutas y porcentajes, mientras que las variables continuas como media, desviación estándar o mediana y rango intercuartílico (RIC). Se utilizó la prueba de bondad de ajuste de Kolmogorov-Smirnov para analizar las distribuciones normales. La comparación estadística de las áreas ROC con sus respectivos intervalos de confianza del 95% se realizó con la prueba de De Long. La calibración se evaluó con el método de chi² de Hosmer-Lemeshow. Todos los modelos fueron también comparados con respecto a sus variables predictoras mediante la realización de un análisis de conglomerados jerárquicos, a fin de identificar subgrupos que compartían los mismos predictores. El análisis estadístico y el modelado de RN se realizaron con el software IBM SPSS 23.0 Statistics (IBM Corporation, Armonk, NY). Para la comparación de Areas bajo la Curva ROC se utilizó el test de De Long, utilizando el programa MEDCALC versión 20.015. Se consideró estadísticamente significativo un valor de p ≤0,05.
RESULTADOS
Las características basales de la población del estudio utilizadas para los cálculos de los modelos tradicionales y para los algoritmos RN (testeo y validación) se muestran en la Tabla 2.
Variables | n (%) | |
---|---|---|
Edad en años (media ± DE) | 78 ± 11,1 | |
Sexo masculino | 279 (57,8) | |
Disnea clase funcional III-IV (NYHA) | 90 (18,6) | |
Hipertensión | 438 (90,7) | |
Diabetes | 102 (21,1) | |
Etiología | ||
Isquémica | 169 (35,0) | |
Hipertensiva | 123 (25,5) | |
Enfermedad valvular | 96 (19,9) | |
Otras etiologías | 95 (19,7) | |
Insuficiencia renal crónica | 78 (16,1) | |
Accidente cerebrovascular | 58 (12,0) | |
Enfermedad pulmonar crónica | 77 (15,9) | |
Anemia | 77 (15,9) | |
Fibrilación auricular | 239 (49,5) | |
Insuficiencia mitral moderada/grave | 75 (15,5) | |
Ventilación no invasiva | 286 (59,2) | |
Demencia | 36 (4,6) | |
Cáncer | 71 (14,7) | |
Tratamiento beta bloqueante | 239 (49,5) | |
Tratamiento con IECA | 149 (30,8) | |
Urea en sangre en mg% (mediana y RIC) | 51 (38-71) | |
Hemoglobina en g% (media ± DE) | 12,9±3,9 | |
Creatinina sérica en mg% (media ± DE) | 1,3±0,96 | |
Sodio plasmático en mEq/L (media ± DE) | 136±10,1 | |
Presión sistólica al ingreso en mmHg (mediana y RIC) | 142 (130-160) | |
Frecuencia cardiaca (lpm) al ingreso (media ± DE) | 91±25 | |
Frecuencia respiratoria por min (media ± DE) | 19±2 | |
Fracción de eyección de ventriculo izquierdo % (mediana y RIC) | 52 (35-60) |
DE: desvíación estándar. RIC: rango intercuartilo. IECA: Inhibidores de la enzima convertidora de angiotensina
La figura 1 muestra las curvas ROC y la tabla 3 resume el desempeño de los modelos de predicción de mortalidad a 30 días, 6 meses y un año para pacientes con insuficiencia cardíaca. En término de discriminación a 30 días, fueron mejores el score EFFECT que el ACUTE-HF (De Long p = 0,041) y el score 3C-HF que el ACUTE- HF (p = 0,047). A los 6 meses y al año de seguimiento, el score EFFECT superó al ADHERE (p = 0,011 y p = 0,003, respectivamente), mientras que el score EFFECT (p <0,001 y p <0,001), el GWTGHF (p = 0,001 y p = 0,006) y el 3C-HF (p = 0,001 y p = 0,002) superaron al score ACUTE-HF, respectivamente en los mismos períodos de tiempo.
EFFECT | GWTG-HF | ADHERE | 3C-HF | ACUTE-HF | |
---|---|---|---|---|---|
Mortalidad a 30 días: | |||||
Area bajo curva ROC | 0,68 | 0,66 | 0,59 | 0,67 | 0,54 |
IC 95% | 0,59-0,77 | 0,58-0,74 | 0,51-0,68 | 0,59-0,75 | 0,44-0,63 |
Hosmer-Lemeshow (2 | 9,68 | 10,0 | 3,10 | 12,3 | 16,7 |
grados de libertad | 8 | 8 | 2 | 8 | 6 |
Valor p | 0,289 | 0,262 | 0,212 | 0,138 | 0,011 |
Mortalidad a 6 meses: | |||||
Area bajo curva ROC | 0,69 | 0,68 | 0,58 | 0,67 | 0,53 |
IC 95% | 0,63-0,75 | 0,62-0,74 | 0,52-0,64 | 0,61-0,73 | 0,47-0,60 |
Hosmer-Lemeshow (2 | 6,05 | 6,55 | 2,93 | 5,59 | 9,84 |
grados de libertad | 8 | 8 | 2 | 8 | 6 |
Valor p | 0,641 | 0,586 | 0,231 | 0,693 | 0,132 |
Mortalidad al 1 año: | |||||
Area bajo curva ROC | 0,69 | 0,66 | 0,57 | 0,67 | 0,56 |
IC 95% | 0,64-0,74 | 0,61-0,72 | 0,51-0,63 | 0,62-0,72 | 0,51-0,62 |
Hosmer-Lemeshow (2 | 4,65 | 11,8 | 3,03 | 2,98 | 6,68 |
grados de libertad | 8 | 8 | 2 | 8 | 6 |
Valor p | 0,794 | 0,163 | 0,220 | 0,936 | 0,352 |
Con respecto a los algoritmos de RN, los mejores resultados se obtuvieron con el PMC de dos capas ocultas (arquitectura de capas 24-9-7-2). Las características de este modelo de RN se muestran en la Figura 2, y el rendimiento de este algoritmo se resume en la Tabla 4.
Exactitud (IC95%) | Área ROC (IC95%) | VPN (IC95%) | VPP (IC95%) | |
---|---|---|---|---|
Mortalidad a 30 días: | ||||
PMC con dos capas ocultas arquitectura: 24-9-7-2 | 92,9% | 0,82 | 93,2% | 66,7% |
(90,5-95,3%) | (0,79-0,85) | (90,9-95,6%) | (28,9-100%) | |
Mortalidad a 6 meses: | ||||
PMC con dos capas ocultas arquitectura: 24-9-7-2 | 87,7% | 0,87 | 89,1% | 78,6% |
(84,7-90,8%) | (0,84-0,90) | (85,9-92,2%) | (67,8-89,3%) | |
Mortalidad a 1 año: | ||||
PMC con dos capas ocultas arquitectura: 24-9-7-2 | 84,4% | 0,85 | 85,6% | 78,9% |
(81,0-87,8%) | (0,81-0,88) | (81,9-89,2%) | (69,8-88,1%) |
IC95%: intervalo de confianza del 95%. ROC:receiver operating characteristic. PMC: perceptrón multicapa. VPN:valor predictivo negativo. VPP: valor predictivo positivo.
En términos de discriminación, los algoritmos RN superaron a todos los modelos tradicionales (De Long p <0,001) para mortalidad de todas las causas a 30 días, 6 meses y al año, respectivamente. Con respecto al resto de los algoritmos RN, las áreas ROC variaron entre 0,81 y 0,82, y 0,75 y 0,78 para el PMC de una capa oculta y el modelo basado en FBR, respectivamente para los mismos períodos de tiempo. (Figura 3)
La “importancia estandarizada independiente” (independent normalized importance) de las variables para el algoritmo RN se muestra en la Figura 4. Para este algoritmo, los factores más influyentes en orden descendente que obtuvieron ≥50% de “importancia estandarizada” para predecir la mortalidad a 30 días fueron: creatinina y urea sérica, hemoglobina, frecuencia respiratoria, concentración de sodio, edad y presión arterial sistólica. Además de estas variables, la clase III-IV de la NYHA y la demencia se asociaron con mayor mortalidad a 6 meses, y la frecuencia cardíaca y la disfunción renal crónica con la mortalidad al año.
Finalmente, se realizó un análisis de conglomerados jerárquico sobre las variables de predicción de todos los scores, a fin de identificar subgrupos de modelos con características similares. Los subgrupos creados se presentan en el dendrograma de la Figura 5 que muestra el vínculo promedio entre los scores. Basado en este dendrograma, el algoritmo RN mostró más similitudes con los scores ADHERE, EFFECT y GWTG-HF. Cuando sólo se consideraron en el análisis los factores más influyentes que obtuvieron una puntuación ≥50% para “importancia estandarizada”, el algoritmo RN compartió el 100% de los predictores con el ADHERE, el 64% de los predictores de EFFECT y el 57% de GWTG-HF.
DISCUSIÓN
En el presente estudio, el modelo basado en el algoritmo RN superó a los modelos tradicionales en la predicción de la mortalidad a corto y mediano plazo en pacientes con IC aguda. El modelo de PMC de dos capas ocultas no solo mejoró estadísticamente la discriminación global, sino que también mantuvo un buen desempeño con respecto a los VPN y VPP hasta el año de seguimiento. Este punto es fundamental, ya que la mayoría de los algoritmos de RN tienden a mejorar sus resultados basándose principalmente en un aumento del VPN en lugar del VPP. Si bien solo se utilizaron los mismos 24 predictores incluidos en alguno de los 5 modelos tradicionales para el entrenamiento y la validación los algoritmos RN, este nuevo enfoque metodológico fue suficiente para mejorar en forma significativa la predicción de los resultados.
Entre las 24 variables, las más influyentes para predecir mortalidad a corto y mediano plazo en los algoritmos RN fueron la creatinina y urea sérica, la hemoglobina, la frecuencia respiratoria, la concentración de sodio, la edad y la presión arterial sistólica al ingreso. Además de estas variables, la clase funcional III-IV de la NYHA y la demencia se asociaron con mayor mortalidad a 6 meses, y la frecuencia cardíaca y la disfunción renal crónica con la mortalidad al año.
Los algoritmos RN han sido criticados en múltiples oportunidades por ser considerados como una “caja negra” con capacidad limitada para identificar las posibles relaciones causales. En el presente estudio identificamos los factores más influyentes a través de los valores de importancia estandarizada. El análisis de importancia de las variables predictoras independientes calcula los pesos de cada una de ellas en el algoritmo RN a través de un análisis de sensibilidad sobre la base del testeo de la muestra. Además, como resultado del análisis de conglomerados jerárquico se determinaron las similitudes y relaciones entre el algoritmo RN y el resto de los scores de predicción.
Una mejora en la exactitud de la predicción sería útil para los pacientes con IC, y principalmente para aquellos con un peor pronóstico, que podrían beneficiarse con un tratamiento más dirigido, agresivo y con seguimiento más cercano. Además, estos scores mejorados podrían ayudar al diseño de los ensayos clínicos facilitando la elección de aquella población con una mayor tasa potencial de eventos. Hasta ahora, la mayoría de los estudios demostraron que la predicción de la mortalidad y, en particular la de hospitalización en pacientes con IC sigue teniendo un éxito limitado, sin diferencias significativas en el valor de discriminación entre pacientes con IC crónica o aguda. Una revisión sistemática que hizo referencia al poder de discriminación de los scores de riesgo en IC, demostró que 69 de 117 modelos no presentaban validación externa. Estos modelos probablemente sobrestimaron la capacidad de predicción al utilizar una validación interna basada en el método bootstrap. 22 Es esperable que estos últimos modelos reporten áreas ROC más altas que los estudios con modelos validados en una población de pacientes diferente. De manera similar, los estudios de cohortes y prospectivos generalmente generan áreas ROC más altas que los modelos basados en análisis retrospectivos. Las áreas ROC de nuestro modelo de predicción fueron 0,82 y 0,85 para la mortalidad a 30 días y al año respectivamente, resultados similares a los obtenidos por Kwon et al. 16) quienes utilizaron un algoritmo basado en aprendizaje profundo (ROC: 0,88 y 0,79 para el mismo período de seguimiento, respectivamente). Además, el algoritmo RN de Kwon superó a otros métodos de aprendizaje automático como la regresión logística, random forest, support vector machine (máquinas de vector soporte) y las redes bayesianas. Hasta donde sabemos, sólo existen otros cuatro estudios que utilizaron algoritmos de RN o métodos tradicionales de aprendizaje automático en pacientes con IC, pero en estos casos se evaluaron las readmisiones a 30 días en lugar de la mortalidad por todas las causas. 23,24,25,26 Recientemente, una técnica de aprendizaje automático que utiliza Support Vector Machines (SVM) con núcleo Gaussiano se usó para validar un nuevo y simple modelo capaz de predecir la mortalidad a corto y largo plazo en pacientes con IC aguda. Sin embargo, este score de seis factores denominado HANBAH (acrónimo de hemoglobin, age, sodium, blood urea nitrogen, atrial fibrillation, and high-density lipoprotein) solo alcanzó un área ROC de 0,75 en su mejor desempeño. 27 Teniendo en cuenta que uno de nuestros algoritmos RN del tipo FBR fue equivalente a una SVM con núcleo Gaussiano, nuestros valores de área ROC entre 0,75 y 0,78 fueron similares a los obtenidos con la puntuación HANBAH.
Como se mencionó previamente, en general en la literatura médica, los métodos de inteligencia artificial han demostrado que, aunque la mayoría de sus modelos se desempeñan con mejor nivel de discriminación y exactitud con respecto a los scores tradicionales, también suelen mostrar niveles altos de VPN y bajos de VPP. Una mayor exactitud en la predicción de la mortalidad hospitalaria y a mediano plazo luego de una admisión por IC aguda, es importante para identificar a las personas de alto riesgo que necesitarían recibir tratamiento y atención intensificada. Pero el riesgo individual podría calcularse mejor mediante scores suficientemente precisos que muestren valores de VPP más altos, en vez de valores altos de VPN. En aquellas condiciones médicas de baja incidencia de resultados adversos o eventos, la precisión general de los modelos de predicción de riesgo puede exagerarse con un VPN alto, aunque existan valores bajos de VPP. En consecuencia, los mejores modelos deberían basarse especialmente en el VPP y en la sensibilidad. En el presente estudio, el algoritmo de RN mostró altos niveles de precisión con un VPP aceptable entre 67% y 79%, aproximadamente.
A diferencia del enfoque estadístico convencional, el algoritmo RN no requiere de la preselección de variables significativas, ya que los factores menos importantes se ignoran automáticamente en el proceso de ajuste del modelo. Además, este modelo no limita el número de predictores de entrada, y puede utilizar toda la información disponible de una base de datos sin pérdida potencial. Sin embargo, en el presente estudio guiamos la selección de variables basados solo en los predictores incluidos en scores anteriores. Si bien se utilizaron las mismas variables de entrada, la mejora del rendimiento puede explicarse porque los algoritmos RN pueden detectar relaciones no lineales entre variables independientes y dependientes más allá del alcance de la regresión logística.
Existen algunas limitaciones del presente estudio. Primero, aunque se pudieron identificar las variables más importantes en las que se basó la predicción del algoritmo RN, y las relaciones entre este nuevo modelo y los scores tradicionales por medio del dendrograma, el algoritmo RN sigue siendo de alguna forma una “caja negra”, ya que no podemos interpretar el enfoque usado para clasificar el riesgo de los pacientes en forma individual. En segundo lugar, este modelo de predicción se desarrolló con un número limitado de variables extraídas de una base de datos de un solo centro. En tercer lugar, las variables candidatas para los modelos predictivos de insuficiencia cardíaca se seleccionaron originalmente a partir de variables clínicas extraídas de estudios publicados anteriormente, en los que se realizaron múltiples análisis de regresión logística para eliminar aquellos factores no asociados con la mortalidad a corto y mediano plazo. En consecuencia, se debe considerar que las variables de entrada utilizadas en el actual algoritmo RN han sido guiadas al menos por un análisis previo de regresión logística. Esta paradoja podría generar algún sesgo al comparar los rendimientos entre el algoritmo RN y los scores tradicionales basados en regresiones logísticas.
Finalmente, se debe considerar que la falta de un set de prueba mas allá de la parcelación de entrenamiento y validación, puede conllevar a una sobreestimación de los resultados.
CONCLUSIONES
El presente trabajo estudió la utilidad de las RN para predecir la mortalidad hospitalaria y a mediano plazo en pacientes con IC aguda. Mediante el uso de los predictores individuales incluidos en los 5 scores tradicionales (EFFECT, ADHERE, GWTG-HF, 3C-HF y ACUTE-HF) como variables de entrada de las RN, se demostró que el algoritmo basado inteligencia artificial fue más preciso y tuvo un mejor poder de discriminación que los scores mencionados. El análisis basado en RN constituye un modelo alternativo que mejora los resultados de los enfoques tradicionales.