Extracto
Antecedentes
Desde artículos más publicados que comparan el rendimiento de neuronal artificial red (ANN) modelos y modelos de regresión logística (LR) para predecir el carcinoma hepatocelular (HCC) los resultados utilizan un único conjunto de datos, la cuestión esencial de la validez interna (reproducibilidad) de los modelos no se ha abordado. Los fines de estudio para validar el uso de ANN modelo para predecir la mortalidad hospitalaria en pacientes sometidos a cirugía de HCC en Taiwán y para comparar la exactitud predictiva de ANN con la del modelo de RL.
Metodología /Principales conclusiones
los pacientes que se sometieron a una cirugía HCC durante el período de 1998 a 2009 se han incluido en el estudio. Este estudio comparó retrospectivamente 1.000 pares de modelos de RNA LR y en base a los datos clínicos iniciales de 22,926 pacientes de cirugía HCC. Para cada par de modelos de RNA y LR, el área bajo la curva de funcionamiento del receptor (AUROC) característicos, las estadísticas de Hosmer-Lemeshow (H-L) y el índice de precisión se calcularon y compararon mediante pruebas t pareadas. También se realizó un análisis global de sensibilidad para evaluar la importancia relativa de los parámetros de entrada en el modelo del sistema y la importancia relativa de las variables. En comparación con los modelos de RL, los modelos de RNA tenían una mejor tasa de precisión en 97,28% de los casos, una mejor H-L estadística en 41,18% de los casos, y una mejor curva de AUROC en 84,67% de los casos. volumen cirujano fue el parámetro más influyente (sensible) que afectan a la mortalidad hospitalaria seguido por edad y duración de la estancia.
Conclusiones /Importancia
En comparación con el modelo convencional LR, el modelo ANN en el estudio fue más preciso en la predicción de la mortalidad hospitalaria y tenía índices de rendimiento global superior. Otros estudios de este modelo pueden considerar el efecto de una base de datos más detallado que incluye las complicaciones y los resultados del examen clínico, así como datos de los resultados más detallados
Visto:. Shi HY, Lee KT, Lee HH, Ho WH, Sun DP, Wang JJ, et al. (2012) Comparación de los Artificial red neuronal y de regresión logística modelos predictivos de la mortalidad intrahospitalaria después de la cirugía del cáncer primario del hígado. PLoS ONE 7 (4): e35781. doi: 10.1371 /journal.pone.0035781
Editor: William B. Coleman, Universidad de Carolina del Norte Facultad de Medicina, Estados Unidos de América
Recibido: 5 de Enero, 2012; Aceptado: March 21, 2012; Publicado: 26 Abril 2012
Derechos de Autor © 2012 Shi et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo fue apoyado en parte por el Consejo Nacional de Ciencia, Taiwán, República de China, bajo los números de subvención NSC 99 hasta 2320-B-037-026-MY2 y NSC 99 a 2314-B-037-069-MY3. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito. No se recibió financiación externa adicional para este estudio
Conflicto de intereses:. Los autores han declarado que no existen intereses en competencia
Introducción
El carcinoma hepatocelular (HCC) es frecuente en las regiones. de Asia, el Mediterráneo y África del Sur. En Taiwán, un virus de la hepatitis B (VHB) y la región epidemia del virus de la hepatitis C (VHC), HCC es la causa principal de muerte por cáncer en los hombres [1]. La incidencia de carcinoma hepatocelular también ha aumentado tanto en el Estados Unidos y el Reino Unido en las últimas dos décadas [1] - [3]. El pronóstico suele ser triste, y las terapias curativas son conocidas solamente quirúrgica, es decir, la resección hepática o trasplante de hígado. Además, los pacientes porcentuales con indicaciones apropiadas para la cirugía son relativamente pequeños [2]. En los últimos años, los estudios de tratamiento quirúrgico para el CHC y otras enfermedades han intentado desarrollar modelos para predecir el resultado quirúrgico [4] - [6]. Sin embargo, los modelos de predicción de resultados con una precisión aceptable han sido difíciles de desarrollar [7].
Las redes neuronales artificiales (RNA) son sistemas complejos no lineales y flexibles con propiedades que no se encuentran en otros sistemas de modelado. Estas propiedades incluyen un rendimiento robusto en el tratamiento de patrones de entrada ruidosos o incompletos, alta tolerancia a fallos, y la capacidad de generalizar a partir de los datos de entrada [8], [9]. Aunque muchos RNAs se han desarrollado diferentes, una característica común es un grupo interconectado de nodos en múltiples capas, en la que los nodos de entrada y nodos de salida tienen correlatos clínicos [10]. nodos ocultos, que se conectan a las entradas y salidas, permitir que las interacciones no lineales entre las variables de entrada y no tienen en el mundo real se correlaciona. Los nodos están conectados por enlaces, cada uno de los cuales tiene un peso asociado. Esta red está "entrenado" por la exposición a las entradas emparejados con salidas conocidas, y el aprendizaje se produce cuando los pesos entre los nodos se modifican de acuerdo a la retroalimentación [8] - [10]. La potencia de cálculo de una RNA se deriva de la naturaleza distribuida de las conexiones. Una vez que se formó un modelo, salidas de predicción pueden ser generados a partir de los registros nuevos [8] - [10].
comparaciones anteriores de regresión logística (RL) y modelos de RNA para predecir los resultados de la cirugía HCC han mostrado importantes deficiencias [ ,,,0],11], [12]. En primer lugar, pocos han utilizado datos longitudinales durante más de dos años. En segundo lugar, los datos utilizados en la mayoría de los estudios han sido para las poblaciones de pacientes con CHC en los Estados Unidos o en los países en desarrollo Organización para la Económicos (OCDE) Cooperación y, que pueden diferir sustancialmente de las de Taiwán. En tercer lugar, no hay estudios han considerado las diferencias de grupo en otros factores como la edad, el género y el tratamiento no quirúrgico. Por último, ya que los artículos más publicados que comparan el rendimiento de los modelos de RNA y modelos de RL para la predicción de los resultados de HCC utilizan sólo un único conjunto de datos, la cuestión esencial de la validez interna (reproducibilidad) de los modelos no se ha abordado.
Por lo tanto, el objetivo principal de este estudio fue validar el uso de modelos de RNA para predecir la mortalidad hospitalaria en pacientes sometidos a cirugía de HCC. El objetivo secundario fue comparar la predicción de resultados entre los modelos de RNA y LR.
Materiales y Métodos
Declaración de Ética
En este estudio se analizaron las solicitudes de datos administrativos obtenidos de la Oficina de Nacional de Taiwán Seguro de salud (BNHI). Debido a que el BNHI es el único pagador en Taiwán, el conjunto de datos BNHI era presuntamente la fuente de datos más completa y fiable para el estudio. Los sujetos de este estudio fueron reclutados mediante la revisión de los datos mensuales de descarga paciente a conocer por el BNHI. Por otra parte, la base de datos contiene un registro de las instalaciones médicas contratadas, un registro de médicos certificados y los resúmenes mensuales de todas las reclamaciones de pacientes hospitalizados. Debido a que se trataba de datos secundarios agregados sin identificación personal, este estudio fue exentos de revisión a fondo por la junta de revisión interna. El protocolo de estudio se ajusta a las normas éticas de acuerdo con la Declaración de Helsinki publicado en 1964. Además, el requisito del consentimiento por escrito o verbal de los pacientes de este estudio fue la vinculación de datos renunciado.
Población de estudio
la muestra incluyó a todos los pacientes con diagnóstico de neoplasia maligna de hígado y vías biliares intrahepáticas (códigos ICD-9-CM 155.XX) durante los años 1998-2009 (n = 148,018). Después de excluir los casos distintos de los que habían recibido la hepatectomía parcial (ICD-9-CM código de procedimiento 50,22) o lobectomía hepática (ICD-9-CM código de procedimiento 50.3), se mantuvieron 24.748 casos. Los pacientes con neoplasia maligna secundaria y no especificadas (códigos ICD-9-CM-196.XX 199.XX), neoplasia maligna de los conductos biliares intrahepáticos (código ICD-9-CM 155.1), o neoplasma maligno del hígado que no sea una primaria o también fueron excluidos neoplasia secundaria (código ICD-9-CM 155.2), que dejó una muestra de 22,926 sujetos elegibles con tumores malignos de hígado primario que habían recibido hepatectomıas durante el período de estudio.
posibles factores de confusión
las características de los pacientes analizados y características del hospital de la población de estudio fueron: edad, sexo, comorbilidad, el volumen del hospital, el volumen de cirujano, duración de la estancia (lOS), y la supervivencia en el hospital. Co-morbilidad se estimó mediante el índice de Charlson co-morbilidad (CCI) [13]. Para cada hospital o el cirujano, el volumen de HCC se definió mediante el cálculo del porcentaje de cirugías de HCC en total de cirugías realizadas por el hospital o el cirujano correspondiente durante el período de estudio. En concreto, el volumen de HCC para un hospital o cirujano se clasificó como baja, media, alta y muy alta si el número de cirugías HCC realizadas por el hospital o el cirujano durante un año determinado en el período de estudio comprendió & lt; $ & gt; \\ trama = "rg1" & lt; $ & gt; 25%, 26% ~ 50%, 51% ~74%, y & lt; $ & gt; \\ raster = "rg2" & lt; $ & gt; 75%, respectivamente, de los procedimientos quirúrgicos totales realizado por el hospital o el cirujano de ese año.
el desarrollo del modelo LR
el conjunto de datos se dividió aleatoriamente en un conjunto de entrenamiento de 18.341 casos (el 80% del conjunto de datos global) y una prueba de conjunto de 4.585 casos (20% del conjunto de datos global). El conjunto de entrenamiento se utilizó para construir el modelo de RL. La edad, el género, la CCI, el volumen del hospital, el volumen de cirujano y LOS fueron las variables independientes, y el resultado (muerte /supervivencia) fue la variable dependiente. entonces el modelo de RL fue probada usando el conjunto de datos de prueba. Estos pasos (división aleatoria de conjunto de datos y el análisis de regresión teniendo en cuenta las mismas variables) se repitieron 1.000 veces para obtener 1.000 pares de formación y conjuntos de datos de prueba (80% y 20% del conjunto de datos original, respectivamente), que se han guardado para su posterior procesamiento por el red neuronal
Desarrollo de la ANN modelo
la RNA utilizado en este estudio fue un estándar de la red de alimentación directa de propagación hacia atrás neuronal con tres capas:. una capa de entrada, una capa oculta y una capa de salida. La red perceptrón multicapa (MLP) es una herramienta emergente para el diseño de clases especiales de las redes de alimentación directa en capas [14]. Su capa de entrada consta de nodos de origen, y su capa de salida se compone de neuronas; estas dos capas se conectan a la red que el mundo exterior. Además de estas dos capas, el MLP por lo general tiene una o más capas de neuronas que se refiere a las neuronas como ocultos debido a que no son directamente accesibles. Las neuronas ocultas extraer características importantes contenidos en los datos de entrada.
Un MLP se suele entrenado por un algoritmo de retropropagación (BP) con las fases de avance y retroceso [14]. El algoritmo de aprendizaje BP es fácil de implementar, y su complejidad lineal en los pesos sinápticos de la red hace que sea computacionalmente eficiente. Para una eficiencia óptima de aprendizaje, las neuronas se activan generalmente con ambas funciones anti-simétricas (por ejemplo, la función tangente hiperbólica) y funciones no simétricas (por ejemplo, función logística). La siguiente técnica de validación cruzada se usa para optimizar el momento en que una sesión de entrenamiento de la red MLP "se detiene". En primer lugar, un subconjunto de estimación de los ejemplos se utiliza para el entrenamiento del modelo, y uno subconjunto de validación se utiliza para evaluar el rendimiento del modelo. La red neuronal se optimiza el uso de un conjunto de datos de entrenamiento. Un conjunto de datos de prueba independiente se utiliza para detener la formación de mitigar exceso de montaje. El ciclo de formación se repite hasta que el error de la prueba ya no disminuye [15], [16].
El análisis estadístico
La unidad de análisis en este estudio fue la persona paciente quirúrgico HCC. El análisis de los datos se llevó a cabo en varias etapas. En primer lugar, las variables continuas se realizarán las pruebas de significación estadística por un análisis de varianza (ANOVA), y las variables categóricas se analizaron mediante análisis exacto de Fisher. Se realizaron análisis univariados para identificar predictores significativos (p & lt; 0,05). En segundo lugar, el poder discriminatorio de los modelos se analizó utilizando el área bajo las curvas ROC (AUROCs). Aquí, el poder discriminatorio refiere a la capacidad de un modelo para distinguir a aquellos que murieron a causa de los que sobrevivieron. Un modelo perfectamente discriminar asignaría una mayor probabilidad de muerte de los pacientes que fallecieron a los pacientes que sobrevivieron. En tercer lugar, la calibración relativa de los modelos se compararon mediante la Hosmer-Lemeshow (H-L) estadística para estudiar la exactitud predictiva de los modelos en todo el rango de severidad. El H-L estadística es una única medida resumen de calibración y se basa en una comparación de la mortalidad observada y estimada en pacientes agrupados por mortalidad estimada [17]. Cuanto menor sea el H-L estadística, mejor será el ajuste. Por lo tanto, un modelo perfectamente calibrado debe tener un valor de H-L de cero. Por último, se realizó un análisis de sensibilidad para evaluar la importancia de las variables en los modelos empotrados. Para simplificar el proceso de formación, se introdujeron variables clave, y se excluyeron las variables innecesarias. También se realizó un análisis de sensibilidad para evaluar la importancia relativa de los parámetros de entrada en el modelo del sistema y para clasificar la importancia de las variables. La sensibilidad mundial de las variables de entrada en contra de la variable de salida se expresó como la relación entre el error de red (suma de los cuadrados de los residuos) con una entrada dada omitido al error de la red con la entrada incluido. Una relación de 1 o menor indica que la variable disminuye el rendimiento de la red y debe ser eliminado
X
1, la edad.; X
2, el género; X
3, Charlson índice de comorbilidad; X
4, el volumen del hospital; X
5, volumen cirujano; X
6, duración de la estancia; IB, el sesgo capa de entrada; HB, el sesgo de capa oculta.
Por cada 1000 pares de modelos de RNA y modelos de RL (entrenado y probado en los mismos conjuntos de datos), estos índices (índice de exactitud, AUROC y Estadística HL) se calcula y compara mediante pruebas t pareadas
el software STATISTICA 10.0 (StatSoft, Tulsa, OK) se utilizó para construir los modelos de RNA y modelos de RL de la relación entre los predictores identificados y variables significativas seleccionados (p & lt; 0,05)..
resultados
la Tabla 1 muestra las características del paciente y las características del hospital del estudio. La edad media de la población estudiada fue de 58,6 años (desviación estándar 12,7), y el 73,7% de los pacientes eran de sexo masculino. La tasa de mortalidad hospitalaria global fue del 97,3%. El CCI media en la población de estudio fue de 3,6 (desviación estándar 1,6). La Tabla 2 muestra los coeficientes de mortalidad hospitalaria obtenido para el conjunto de entrenamiento en el modelo de RL. La mortalidad intrahospitalaria tenía una asociación negativa significativa con la edad, el sexo masculino, CCI y LOS (p & lt; 0,05), sino una asociación positiva significativa con el volumen del hospital y el volumen cirujano (p & lt; 0,05).
Basa-ANN
La enfoques utilizan redes de 3 capas y los pesos relativos de las neuronas para predecir la mortalidad hospitalaria. El modelo MLP incluye 6 entradas (es decir, la edad, el género, CCI, el volumen del hospital, el volumen de cirujano, y LOS), Neuron 1 sesgo en la capa de entrada, 3 neuronas ocultas, 1 sesgo neuronas en la capa oculta, y 1 neurona de salida ( Figura 1). Las funciones de activación de sigmoide logística y la tangente hiperbólica se utilizan en cada neurona de la capa oculta y la capa de salida, respectivamente.
La Tabla 3 muestra que ANN superado de LR en términos de discriminación, la calibración y la precisión (punto de corte 0.5). En comparación con LR, Ann tuvo una tasa de precisión superior en 97.28% de los casos, una estadística HL superior en 41.18% de los casos, y una curva ROC superior en 84.67% de los casos.
El conjunto de datos de entrenamiento se también se utiliza para calcular los coeficientes de sensibilidad variable (VSR) para el modelo ANN. La tabla 4 muestra los valores para el VSR (mortalidad intrahospitalaria) variable de resultado en relación con el género, la edad, el CCI, el volumen del hospital, el volumen de cirujano y LOS. En el modelo ANN, el volumen fue el cirujano (sensible) parámetro más influyente que afecta a la mortalidad hospitalaria seguido de edad y LOS. Todos los valores de VSR en exceso de 1, lo que indica que la red realiza mejor cuando se consideraron todas las variables.
La Tabla 5 compara el modelo ANN y el modelo LR en términos de sensibilidad, especificidad, valor predictivo positivo (VPP) , valor predictivo negativo (VPN), la tasa de precisión, y la curva ROC. Juntos, estos valores confirmado que el modelo ANN tenía una sensibilidad superior (78,40% frente a 62,64%), especificidad (94,57% frente a 91,92%), PPV (84,22% frente a 76,65%), VAN (96,91% frente a 87,18%), la tasa de precisión ( 95,93% frente a 84,47%) y la curva ROC (0,82 frente a 0,73).
Discusión
La comparación de los modelos de predicción en este estudio mostraron que la exactitud en la predicción de la mortalidad hospitalaria fue significativamente mayor en el modelo de ANN que en el modelo LR (p & lt; 0,001). A nuestro entender, este estudio es el primero en utilizar una base de datos a nivel nacional basado en la población para entrenar y probar una red neuronal para predecir el resultado de la cirugía HCC. El modelo de red neuronal se comparó con los resultados reales y con un modelo de RL construido utilizando las mismas entradas. Dado un número limitado de insumos clínicos y una medida de resultado específica, el modelo ANN tuvo mejores resultados que el modelo de RL.
Mientras que otros modelos de predicción han utilizado datos de un solo centro médico, el modelo de predicción en este estudio se construyó utilizando los datos del registro nacional de la BNHI Taiwán. Por lo tanto, se da una mejor visión de conjunto de los resultados actuales de la cirugía HCC en una región epidémica VHB y VHC. En comparación con los datos obtenidos por los estudios de series de un solo centro, los datos de estudios de registro proporcionan una mejor visión de conjunto de prácticas en grandes poblaciones, evitando el sesgo de referencia o sesgo que refleja las prácticas de los cirujanos individuales o instituciones [18], [19].
Debido a que las RNA utilizan un enfoque dinámico de análisis de riesgo de mortalidad, que pueden modificar su estructura interna en relación con un objetivo funcional por el cómputo de abajo hacia arriba (es decir, mediante el uso de los datos propios para generar el modelo). A pesar de que no pueden hacer frente a los datos que faltan, las RNA puede manejar simultáneamente numerosas variables mediante la construcción de modelos con referencia a los valores atípicos y las interacciones no lineales entre las variables [8] - [10]. Mientras que los métodos estadísticos convencionales revelan parámetros que son importantes sólo para la población en general, las RNA incluyen parámetros que son significativos a nivel individual, incluso si no son significativos para la población en general. A diferencia de otras pruebas estadísticas estándar, las RNA también puede manejar la complejidad, incluso cuando el tamaño de la muestra es pequeño e incluso cuando la relación entre las variables y los registros se desequilibra [8] - [10]. Es decir, las RNA evitan el problema de dimensionalidad. El conjunto de datos grande y homogéneo en este estudio permitió la formación de red robusta porque todas las variables clínicas han mostrado impactos potenciales sobre la mortalidad en los modelos anteriores LR [7], [20].
Chen et al. ANN mostró que combinado con el algoritmo genético puede identificar variables clínicas significativas y puede predecir con precisión las concentraciones de tacrolimus en sangre en pacientes con trasplante de hígado [21]. En una comparación de modelos de RNA y LR para la predicción de la cirrosis en pacientes con hepatitis C crónica, Cazzaniga et al. también mostraron que los RNAs son ligeramente más precisa y más reproducible [20]. Recientemente, Cucchetti et al demostraron que ANN es más precisa que LR convencional para identificar el grado del tumor y la invasión vascular HCC microscópico basado en variables preoperatorias y es preferible LR para la adaptación de la gestión clínica [5].
El enfoque ANN desarrollado en este estudio se extiende el intervalo de predicción del modelo LR mediante la sustitución de las funciones de identidad con funciones de activación no lineales. El enfoque es aparentemente superiores a la regresión lineal para describir sistemas. Las redes neuronales pueden ser entrenados con datos adquiridos en diversos contextos clínicos y se puede considerar la experiencia local, las diferencias raciales, y otras variables con efectos inciertos sobre el resultado clínico [8] - [10]. El análisis no se limita a los parámetros clínicos. Otras variables podrían ser probados para su uso en la mejora de la exactitud predictiva del modelo. La arquitectura ANN propuesto también puede incluir más de una variable dependiente y se puede llevar a cabo una transformación no lineal entre las variables dependientes. Los estudios futuros pueden evaluar cómo otras características o características clínicas del paciente afecta a la arquitectura propuesta.
A lo largo de este estudio basado en la población en todo el país, el mejor predictor de la mortalidad hospitalaria fue del volumen de cirujano, que era consistente con los resultados de otros informes que los cirujanos de alto volumen consistentemente logran resultados superiores de la hepatectomía para el CHC [22], [23]. Por lo tanto, sus estrategias de tratamiento deben ser analizados y emulados cuidadosamente. Si la mortalidad hospitalaria se considera un punto de referencia, el volumen de cirujano, que es un predictor importante de la evolución postoperatoria, es crucial. Claramente, los resultados de los procedimientos quirúrgicos dependen no sólo de manejo del paciente, sino también de la habilidad y experiencia de los cirujanos individuales. Mientras tanto, los cirujanos de alto volumen en los hospitales de alto volumen tienen más probabilidades de lograr buenos resultados en los pacientes, ya que son asistidos por equipos altamente cualificados y de atención interdisciplinaria [22], [23].
Este estudio tiene varias limitaciones que son inherentes a cualquier análisis de bases de datos de gran tamaño. En primer lugar, el cuadro clínico obtenido en este análisis de los datos de reclamaciones no es tan preciso como el de un análisis prospectivo de los datos de los ensayos clínicos debido a posibles errores en la codificación de los diagnósticos primarios y modalidades quirúrgicas. En segundo lugar, no se evaluaron las complicaciones asociadas con los procedimientos quirúrgicos HCC, lo que limita la validez de la comparación. Por último, sólo modelos de RNA LR y se utilizaron para predecir la mortalidad hospitalaria después de la cirugía HCC. La base de datos no puede ser utilizado para predecir otros resultados como la calidad de vida informada por el paciente. Sin embargo, dada la robusta magnitud de los efectos y la significación estadística de los efectos observados en este estudio, estas limitaciones no es probable que comprometer los resultados.
En conclusión, en comparación con el modelo convencional LR, el modelo de ANN en este estudio fue más preciso en la predicción de la mortalidad hospitalaria y tenía índices de rendimiento global superior. El análisis global de sensibilidad también mostró que el volumen cirujano fue el mejor predictor de la mortalidad en el hospital después de la cirugía HCC. Los predictores analizados en este estudio podrían ser tratadas por profesionales de la salud durante las consultas de atención de la salud preoperatorios y postoperatorios con HCC candidatos para la cirugía de educarlos en el curso esperado de los resultados de recuperación y de salud. Otros estudios de este modelo pueden considerar el efecto de una base de datos más detallado que incluye las complicaciones y los resultados del examen clínico, así como datos de los resultados más detallados. Con suerte, el modelo se convertirá en una herramienta coadyuvante eficaz toma de decisiones clínicas.