Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: Computer-Aided Diagnosis de pulmón en etapa temprana el cáncer basadas en Data

PLOS ONE: Computer-Aided Diagnosis de pulmón en etapa temprana el cáncer basadas en Data

longitudinal y equilibrado
Extracto

Antecedentes

El cáncer de pulmón es una de las formas más comunes de cáncer que resultan en más de un millón de muertes al año en todo el mundo. Por lo general, el problema se puede abordar mediante el desarrollo de métodos de diagnóstico más discriminativos. En este trabajo, se utilizó el diagnóstico asistido por ordenador para facilitar la predicción de las características de los nódulos pulmonares solitarios en la TC de los pulmones para diagnosticar el cáncer de pulmón en etapa temprana.

Métodos

La minoría sintética exceso técnica de muestreo (SMOTE) se utilizó para dar cuenta de los datos en bruto con el fin de equilibrar el conjunto de datos de entrenamiento originales. características texturales-transformación Curvelet, junto con 3 características demográficas de los pacientes, y 9 rasgos morfológicos fueron utilizados para establecer una máquina de vectores de soporte (SVM) modelo de predicción. Los datos longitudinales como el conjunto de datos de prueba se utilizó para evaluar el rendimiento de la clasificación de la predicción de cáncer de pulmón en etapa temprana.

Resultados

Uso de la SMOTE como un procedimiento de tratamiento previo, los datos de entrenamiento original equilibrada con una relación de maligno a los casos benignos de 01:01. Precisión basado en cruzada de evaluación para el desequilibrio de datos y los datos equilibradas original de 80% y 97%, respectivamente. Sobre la base de las características texturales Curvelet-transformación y otras características, el modelo de predicción SVM tuvo un buen rendimiento de clasificación para el cáncer de pulmón en estadio temprano, con un área bajo la curva de las SVM de 0,949 (P & lt; 0,001). característica de textura (desviación estándar) mostraban casos benignos tenían un cambio mayor en el período de seguimiento de casos malignos.

Conclusiones

Con las características texturales extraídos de una transformación Curvelet y otros parámetros, una sensible máquinas de vectores soporte modelo de predicción puede aumentar la tasa de diagnóstico para el cáncer de pulmón en etapa temprana. Este esquema puede ser utilizado como una herramienta auxiliar para diferenciar entre los cánceres de pulmón en etapa temprana benignos y malignos en las imágenes de TC

Visto:. Sun T, R Zhang, Wang J, Li X, Guo X (2013) Informática el diagnóstico de -Aided en etapa temprana del cáncer de pulmón basa en datos longitudinales y equilibrado. PLoS ONE 8 (5): e63559. doi: 10.1371 /journal.pone.0063559

Editor: Michael Gormley, Thomas Jefferson University, Estados Unidos de América

Recibido: noviembre 20, 2012; Aceptado: 3 Abril de 2013; Publicado: 15 de mayo de 2013

Derechos de Autor © 2013 Sun et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Financiación:. Este era apoyado por el Fondo de Ciencias Naturales de China (Número de serie: 81172772); el Fondo de Ciencias Naturales de Pekín (Número de serie: 4112015); y el Programa Académico de Desarrollo de Recursos Humanos en instituciones de educación superior bajo la jurisdicción del municipio de Pekín (Número de serie: PHR201007112). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción

el cáncer de pulmón, una de las muertes más comunes relacionados con el cáncer, da cuenta de 1,1 millones de muertes al año en todo el mundo [1]. Aunque se ha prestado atención a las predicciones etapa temprana y el diagnóstico, el pronóstico sigue siendo muy pobre, con tasas de supervivencia a cinco años que van desde el 54% para la etapa I del 10% para el estadio III [2]. Esto pone de relieve la necesidad de un proceso de predicción en etapa temprana fiable que puede prolongar la vida de los pacientes. Digital tomografía computarizada (TC) es actualmente ampliamente utilizado para el cáncer de pulmón en las prácticas clínicas. Sin embargo, en las imágenes de TC, el cáncer de pulmón suele aparecer como nódulo pulmonar solitario (NPS), y comparten similitudes con las de algunas enfermedades benignas [3]. Por definición, el nódulo pulmonar solitario (NPS) es un único bien circunscrita opacidad, esférica,, radiográficos que mide & lt; = 3 cm de diámetro y está rodeado completamente por el pulmón ventilado. No hay atelectasia asociada, la ampliación hiliar o derrame pleural.

Con el desarrollo de la ciencia y la tecnología, el diagnóstico asistido por ordenador (CAD) se ha convertido en una herramienta auxiliar. Para nuestro conocimiento, usando métodos informatizados automatizados, tales como el análisis de imágenes de textura, para predecir el cáncer de pulmón se ha informado ampliamente [4] - [9]. Camino et al. [4] extrae características morfológicas, superficie y textura de 256 nódulos pulmonares, y establecieron un análisis discriminante lineal. Un método de diagnóstico neuronal basada en red asistido por ordenador de diagnóstico de nódulos pulmonares mediante la combinación de características y morfometría de perfusión para predecir las características de los nódulos pulmonares solitarios fue introducido por Yeh et al. [5]. En otro estudio, McCarville et al. [6] recogieron 81 nódulos pulmonares, se basa en hallazgos de la TC difieran naturaleza benignas y malignas de los nódulos pulmonares en pacientes pediátricos, mientras que Wang et al. [7] se utiliza la matriz de co-ocurrencia nivel de gris y el modelo multinivel para predecir las características de los nódulos pulmonares. Lee et al. [8] utilizó un enfoque de dos etapas para la selección de características de construcción del conjunto clasificador para facilitar la predicción de las características de los nódulos pulmonares. Zhu et al. [9] se presenta un método para buscar y seleccionar características de textura de los nódulos pulmonares solitarios (SPN) detectadas por tomografía computarizada (TC) y evaluar el funcionamiento de máquinas de vectores soporte (SVM) clasificadores basados ​​en la diferenciación benigna de SPN malignos. Sin embargo, de estos métodos, ninguno de ellos ha destinado para predecir el cáncer de pulmón en estadio temprano mediante análisis de textura, a pesar del hecho de que es fundamental para prolongar la vida de pacientes con cáncer de pulmón resecando con prontitud al cáncer en sus primeras etapas.

En el estudio anterior, que acaba de utilizar varias características morfológicas (como el modelo de la Clínica Mayo y el modelo VA) o las características texturales de predecir las características de los nódulos. En este trabajo, las máquinas de vectores soporte (SVMs) fueron elegidos como modelo de predicción, utilizando un conjunto completo de características texturales extraídos por Curvelets de imágenes de TC, las características demográficas de los pacientes, y las características morfológicas de predecir el cáncer de pulmón en estadio temprano, lo que parece [15] como SPN. A nuestro entender, esta es la primera vez que se utilizó el análisis de la textura para predecir el cáncer de pulmón en estadio temprano y es una tarea útil.

Materiales

Los datos adoptadas en este documento se obtuvo a partir un estudio de cohortes. El estudio de cohorte se estableció en 2009 e implementado en 4 hospitales. La decisión sobre la inclusión y la exclusión de pacientes se basó en los resultados de los diagnósticos finales. La información contenida en las imágenes de TC se accede por radiólogos 8; Mientras tanto, los conflictos en la interpretación final de las imágenes de TC se resolvieron mediante discusión consenso. Un total de 360 ​​casos fueron obtenidos de este estudio de cohorte. 317 casos (317/360) sólo tenían un tiempo de exploración de CT, en el que el paciente sólo se escanea una vez, y el diagnóstico final de los casos benignos y malignos se determinó por cualquiera de una operación o una biopsia. 33 casos (33/360) tenían al menos dos tomografías computarizadas con un período de seguimiento de 1 mes hasta 2 años (pacientes fueron seguidos hasta los diagnósticos finales estaban disponibles), y el diagnóstico final de los casos benignos y malignos se determinó por cualquiera una operación o una biopsia. 10 (10/360) de los casos fueron excluidos debido a la falta de un diagnóstico final.

Las tomografías computarizadas se obtuvieron utilizando un escáner de TC helicoidal de 64 cortes (GE /Luz de ultra velocidad Sistema CT99, EE.UU.) con un tubo tensión de 120 kV y una corriente de 200 mA. El grosor y la reconstrucción intervalos de reconstrucción para la exploración de rutina fueron 0.625 mm. Los datos se reconstruyó con una matriz de 512 × 512. Con el fin de eliminar algunos otros tejidos (tales como músculo, vasos y hueso), todos los SPN en las imágenes de TC fueron segmentados manualmente para obtener una región de interés (ROI), y las características texturales se extrajeron ROI por ROI. La región de cultivo [10] algoritmo, una herramienta popular para la segmentación de imágenes, se utiliza para eliminar los píxeles de fondo.

Los datos de entrenamiento incluyeron 317 casos, que sólo tuvieron un tiempo de exploración de CT. Un total de 10.108 regiones de interés fueron compradas a 317 pacientes, con el retorno de la inversión de 3131 benignos de los 106 pacientes (58 hombres y 48 mujeres) y 6977 ROI maligna de 211 pacientes (125 varones, 86 mujeres). Los detalles son los siguientes (Ver Tabla 1). Se utilizó los datos de entrenamiento para establecer un modelo de predicción SVM.

Un total de 33 casos llevó al menos dos tomografías computarizadas y el conjunto de datos no incluye imágenes de SPN de la última tomografía computarizada de cada caso. La razón por la cual los datos de prueba excluidos de la última tomografía computarizada de cada caso es que los radiólogos podrían hacer diagnósticos clínicos basados ​​en la última tomografía computarizada cualquiera que sea correcta o incorrecta y que los datos restantes de las imágenes SPN CT que eran difíciles de diagnosticar por los radiólogos se utilizaron para probar el rendimiento de un modelo de predicción para el cáncer de pulmón en etapa temprana. Estos datos se resumen en la Tabla 2.

Métodos

un conjunto de características texturales extraídos por Curvelets de CT ROI, parámetros demográficos y las características morfológicas fueron utilizados como datos de entrada para establecer una SVM modelo de predicción. Como hecho de que un paciente tiene varias regiones de interés, por lo que se utilizó la tasa de malignidad como la variable para dibujar una curva ROC. La tasa de malignidad se definió como:. (1)

Declaración de Ética

Este estudio se realizó con la aprobación ética (Comité de Ética del Hospital de Xuanwu, Capital Medical University, Documento de Aprobación NO [2011] 01 ). consentimiento por escrito fue dado por los pacientes.

Minoritarios sintético Técnica Sobre-muestreo (SMOTE)

Los datos adquiridos de los hospitales era desequilibrada (la proporción de casos benignos de malignos en los datos de entrenamiento era 02:01). Esos datos utilizando para la clasificación causaron un sesgo en la formación de los clasificadores y resultaron en menor sensibilidad durante la detección en los ejemplos de la clase minoritaria [11]. Si se ha utilizado los datos desequilibrada en este estudio de investigación, los resultados tendrían una alta sensibilidad y baja especificidad, que son resultados indeseables.

Un método de pre-procesamiento de datos utilizado para dar cuenta de los datos desequilibrada consta de las siguientes dos categorías [12 ]: bajo-muestreo de la clase mayoritaria y sobre-muestreo de la clase minoritaria. Sub-muestreo se aplican métodos para eliminar algunos patrones de clase mayoritaria de formación para reequilibrar los conjuntos de datos, mientras que el muestreo excesivo métodos se utilizan para formar una nueva muestra de la clase minoritaria. Algunos investigadores prefieren los métodos de muestreo excesivo de métodos bajo-muestreo, ya que el uso de menores de los métodos de muestreo corre el riesgo de la pérdida de información de clase de la mayoría.

La minoría sintética sobre-muestreo de la técnica (SMOTE) [13] es uno de esos exceso método de muestreo. Su idea principal es formar nuevas muestras de la clase minoritaria interpolando entre varios ejemplos de la clase minoritaria que se encuentran juntos. En el SMOTE, en vez de duplicar orientada meros datos, la clase es positivo, muestra a lo largo de la creación de instancias de síntesis en el espacio de características formado por los casos positivos. Para todos los ejemplos minoría, su k (que se establece en 5 en SMOTE) vecinos más cercanos de la misma clase se calculan, a continuación, algunos ejemplos son seleccionados al azar de acuerdo a la tasa de muestreo excesivo. Después de eso, nuevos ejemplos de síntesis se generan a lo largo de la línea que separa el ejemplo minoría y seleccionados vecinos más cercanos.

Textura Extracción

La textura es una característica fundamental de las imágenes digitales, ya que por lo general refleja la estructura de los objetos dibujados. extracción de características de imagen es un paso importante en las técnicas de procesamiento de imágenes.

La transformación Wavelet, un método de extracción de características de textura, proporciona una resolución múltiple y no redundante representación de señales con una capacidad de reconstrucción exacta, precisa y forma una y marco uniforme para el análisis de espacio-frecuencia. Aunque Wavelets funcionan muy bien para objetos con singularidades de puntos, que no son adecuados para la representación de singularidad 1D [14] - [15]. En 2000, Candes y Donoho [16] desarrollaron el Curvelet, un tipo de Wavelets de segunda generación. Como una extensión del marco de análisis multiescala Wavelet, Curvelets pueden tratar eficazmente con singularidades en señales lineales 2D [14]. La transformación Curvelet se define como una herramienta eficaz para la búsqueda de curvas en múltiples niveles de resolución. Varios estudios utilizando transformaciones Curvelet en el procesamiento de imágenes han demostrado que las transformaciones Curvelet dan mejores resultados [17] - [19]

Sobre la base de la transformación Curvelet, se extrajeron imagen CT catorce características texturales de los nódulos pulmonares:. La entropía, Mean , Correlación, Energía, homogeneidad, Desviación Estándar, probabilidad máxima, Inverse Momento Diferencia, Tendencia de clústeres, inercia, Sum-media, Diferencia-media, suma-entropía, y la diferencia-entropía. Como pre-proceso para la clasificación, una transformación Curvelet produce una representación de los nódulos pulmonares de imágenes de TC a través de la descomposición de varios niveles escala. Los tres coeficientes matrices Curvelet escalas '(la capa gruesa, la capa de detalle, y la capa fina) se eligieron como candidatos. ROI imágenes se descomponen en 34 sub-bandas, lo que resulta en la extracción de 476 características texturales de cada ROI.

Estudio de los parámetros clínicos

Tres parámetros demográficos (edad, hábitos de género y tabaquismo) se obtuvieron de la historia clínica. 9 rasgos morfológicos (incluyendo cambios sustanciales, la densidad de la SPN, la presencia de espículas, cavernas, vacuolas, lobulado, calcificación y vidrio molido en el SPN, y zona) fueron reportados por radiólogos experimentados acuerdo con los SPN.

Predicción Modelo

según lo sugerido por un gran cuerpo de literatura hasta la fecha, las máquinas de vectores de soporte pueden ser considerados buenos algoritmos de clasificación en algunos campos de investigación [20] - [22]. En un estudio previo, los mismos resultados se demostraron por nuestro grupo [23].

La máquina de vectores de soporte (SVM) se describe como un clasificador popular basada en el principio de minimización del riesgo estructural. En comparación con otros clasificadores, la SVM tiene como objetivo encontrar el hiperplano que maximiza la distancia desde el hiperplano a los ejemplos más cercanos en cada clase. Dado un conjunto de vectores de entrenamiento (l en total) que pertenece a separar las clases, denota el
i Gráficos vectoriales de entrada º y es la salida deseada correspondiente. El clasificador margen máxima busca encontrar un hiperplano para separar los datos de entrenamiento. En los posibles hiperplanos, sólo uno maximiza el margen (la distancia entre el hiperplano y el punto de datos más cercano de cada clase). Los vectores de soporte indican los puntos que se encuentran en la frontera de margen. La solución a la clasificación viene dada por la función de decisión: (2)

¿Dónde está el multiplicador de Lagrange positivo, es los vectores de soporte (en total), y es la función de la convolución del núcleo de la decisión la función.

R software 2.14.0 se utilizó para poner en práctica las máquinas de vectores de soporte y el SMOTE. El kernel de función de base radial fue utilizado como el núcleo de las SVM en este estudio.

Resultados

SMOTE de pre-procesamiento de la serie de datos desequilibrado

La distribución de 3 demográfica parámetros se muestran en la Tabla 3. Los datos de entrenamiento originales incluyen imágenes de 3131 ROIs benignos y malignos 6977 ROIs, con una relación de maligno a los casos benignos de 02:01. Utilizando el SMOTE como un procedimiento de tratamiento previo, los nuevos datos, incluyendo la textura de textura, parámetros demográficos y las características morfológicas se generó, y los datos de entrenamiento final incluyó observaciones de 9393 ROI benignos y malignos 9393 ROI.

resultados de predicción

con el fin de probar el modelo SVM basado en datos balanceados si era sensible al cáncer de pulmón, se utilizaron dos métodos:. 10 veces cruzar a la evaluación y la nueva evaluación de los datos de pruebas

Precisión basa en 10 veces cruzar a la evaluación de los datos originales no balanceadas y los datos equilibrada fue del 80% y 97%, respectivamente. Se comprobó que el algoritmo SMOTE aumentaría considerablemente el rendimiento del modelo de predicción.

33 casos (17 casos malignos, benignos 16 casos) fueron elegidos como los datos de prueba para evaluar el rendimiento de clasificación para el cáncer de pulmón en estadio temprano . El modelo de predicción SVM se estableció con éxito utilizando 488 características texturales. Se analizó la información sobre los casos, y la tasa de malignidad (Fórmula 1) fue adoptado como la variable independiente para dibujar curvas ROC, con los resultados presentados en la figura 1. El área bajo la curva de la SVM fue 0,949 (
P Hotel & lt; 0,001, la precisión fue de 15/17 casos malignos, 14/16 para casos benignos). Este resultado se resume en la Tabla 2. Para los datos de prueba en este estudio, todos los casos tenían un diagnóstico CT antes de las operaciones y los resultados se muestran en la Tabla 2. Los diagnósticos de TC de 33 casos eran potencialmente malignos que indica que, si bien a través de un período de seguimiento el tiempo es bastante difícil de tomar una decisión clínica clara.

también se ha evaluado en el cambio de las características texturales entre la primera tomografía computarizada y la última tomografía computarizada basada en el conjunto de datos de prueba. Hemos encontrado la característica de textura Curvelet (desviación estándar) tenía una gran diferencia entre los casos benignos y malignos. La figura 2 muestra el cambio en la tendencia de la característica de textura (desviación estándar) de valor medio.

Discusión

En la actualidad, las tasas de incidencia y mortalidad por cáncer de pulmón han clasificado en primer lugar entre los diversos tumores . El uso de escáneres CT es común en la práctica clínica para distinguir entre los SPN benignos y tumores malignos. Un meta-análisis [24] encontró que tiene una sensibilidad agrupada de 0,57 (intervalo de confianza del 95%, 0,49 a 0,66) y una especificidad agrupada de 0,82 (intervalo de confianza del 95%, 0,77 a 0,86) para el cáncer de pulmón mediante tomografía computarizada. Todas las investigaciones anteriores se centraron en el cáncer de pulmón, y no en el cáncer de pulmón en etapa temprana. Por lo tanto, la sensibilidad y especificidad para el cáncer de pulmón en etapa temprana podrían ser más pobres. Sobre la base de la práctica clínica, una alta proporción de pacientes con enfermedades benignas sospechosas que no podía excluir una posible malignidad requeriría nuevas investigaciones o cirugía, lo que aumentaría la carga sobre los pacientes. diagnóstico de la tecnología asistida por ordenador (CAD) ha vuelto más frecuente en la asistencia a los radiólogos hacer diagnósticos. A nuestro entender, las investigaciones en el análisis de imágenes SPN discutir la predicción de las características del cáncer de pulmón mediante el análisis de textura, no los cánceres de pulmón en etapa temprana que tienen valor clínico más significativo. En este estudio, los datos longitudinal se utiliza como datos de prueba para evaluar el rendimiento de la clasificación del modelo de predicción SVM para el cáncer de pulmón en etapa temprana. El área bajo la curva de la SVM fue 0,949 (
P
& lt; 0,001), y el modelo tiene competencia potencial para predecir cáncer de pulmón en etapa temprana. Literatura relacionada aún no ha sido reportado.

Los datos obtenidos de los hospitales no es equilibrado. Utilizando los datos no balanceados puede causar una menor especificidad en la predicción de los casos benignos. En este estudio, la SMOTE, un método de sobre-muestreo, se utilizó como el procedimiento de pre-procesamiento para equilibrar los datos, y la clasificación de rendimiento (precisión) del modelo de predicción tenido una gran mejora de 80% a 97%. Por lo tanto, la SMOTE es un método útil para tener en cuenta los datos desequilibradas y puede mejorar la capacidad de los modelos.

Se han desarrollado varios métodos para la extracción de las características texturales de imágenes. Uno de los métodos más populares es un Wavelet que está siendo ampliamente utilizado en el procesamiento de imágenes médicas [14] - [15]. En comparación con Wavelets, transformaciones Curvelet pueden proporcionar representaciones estables, eficientes y casi óptimas de objetos lisos que tienen discontinuidades a lo largo de las curvas lisas [14]. Como una característica fundamental de las imágenes digitales, características texturales suelen reflejar la estructura microscópica de los objetos dibujados, con vistas a las características macroscópicas de los casos. En este trabajo, las características texturales extraídos por Curvelets, además de las características del paciente 3 y 9 rasgos morfológicos que se aplicaron para describir las características macroscópicas de los tejidos, se utilizaron como variables de entrada para establecer un modelo de predicción SVM. Este esquema es sensible al cáncer de pulmón en estadio temprano y por lo tanto puede aumentar la tasa de precisión del diagnóstico.

En este estudio, hemos encontrado la característica de textura Curvelet, Desviación Estándar, tenía una gran diferencia entre los casos benignos y malignos. Aunque todos los casos no tienen la misma fecha de la TAC previa, la característica de textura (desviación estándar) de los casos benignos tenido un aumento evidente de la primera tomografía computarizada para la última tomografía computarizada en la mayoría de los casos, pero fue relativamente constante en casos malignos. Este resultado podría ser útil como una pista para encontrar un biomarcador para el cáncer de pulmón.

En 33 casos, la exploración CT promedio por caso fue de 3,2 veces. La media, mediana, rango intercuartil y la desviación estándar del tiempo de seguimiento fue de 6,9, 2,0, 8,0 y 11,0 meses, respectivamente. Si el método utilizado en este documento puede ser utilizado en la práctica clínica para ayudar a los radiólogos para la toma de decisiones, el tiempo para diagnósticos acortará en 6,9 meses y ahorrar el costo de 2.2 tomografías computarizadas (en Beijing, China, el costo de 2,2 exploraciones de CT se trata de 1.000 RMB). Sobre la base de un meta-análisis [25], el coste económico directo para los pacientes con cáncer de pulmón es diferente, que van desde 18,019.4 RMB por persona para la Etapa I del 3,2534.0 RMB por persona para la Etapa IV RMB por persona en China y está aumentando año tras año. carga mental de los pacientes y el coste económico indirecto también son importantes. China es uno de los países con la mayor tasa de suicidios entre los pacientes de cáncer en el mundo. Por lo tanto, si el régimen introducido en este estudio se utiliza en la práctica clínica, se puede reducir la carga económica y mental de los pacientes y prolongar el tiempo de pacientes con cáncer de pulmón. Las arquitecturas de la SVM y Curvelets son simples, corregirse fácilmente, y son apropiados para el diseño de software. Podría ser utilizado en la práctica radiológica diaria debido a su ventaja en el futuro no muy lejos.

Hay, sin embargo, las limitaciones que participan en este estudio. El intervalo de tiempo entre la primera tomografía computarizada y la última tomografía computarizada es diferente en todos los pacientes.

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]