Extracto
Cerca del 30% en estadio I cáncer de pulmón de células no pequeñas (NSCLC) de los pacientes sometidos a resección se repita. Se requieren marcadores pronósticos robustos para manejar mejor las opciones de terapia. El propósito de este estudio es desarrollar y validar una nueva firma de expresión de genes que pueden predecir la recurrencia del tumor de la etapa I NSCLC pacientes. Cox se realizó un análisis de regresión de riesgos proporcionales para identificar genes relacionados con recurrencia y un modelo parcial de regresión de Cox se utilizó para generar una firma genética de recidiva en la formación de conjuntos de datos -142 etapa adenocarcinomas de pulmón I sin tratamiento adyuvante del Desafío Consorcio del Director. Cuatro conjuntos de datos independientes de validación, incluyendo GSE5843, GSE8894, y otros dos conjuntos de datos proporcionados por la Clínica Mayo y la Universidad de Washington, se utilizaron para evaluar la precisión de la predicción mediante el cálculo de la correlación entre el riesgo de puntuación de estimarse a partir de la expresión génica y el tiempo de supervivencia libre de recurrencia real y AUC de análisis ROC dependiente del tiempo. También se realizaron análisis de supervivencia basada en las vías. 104 probesets correlacionados con recurrencia en la formación de datos. Ellos están enriquecidos en la adhesión celular, la apoptosis y la regulación de la proliferación celular. Una firma la expresión de 51 genes fue identificada para distinguir pacientes propensos a desarrollar la recurrencia del tumor (Dxy = -0.83, P & lt; 1e-16) fue confirmada y esta firma en cuatro conjuntos de datos independientes con AUC & gt; 85%. Múltiples vías, incluyendo la migración transendotelial de leucocitos y la adhesión celular están altamente correlacionados con la supervivencia libre de recidiva. La firma genética es altamente predictivo de recurrencia en pacientes con CPCNP en estadio I, el cual tiene importantes implicaciones pronósticas y terapéuticas para el futuro manejo de estos pacientes
Visto:. Lu Y, Wang L, Liu P, P Yang, Usted M (2012) Firma de expresión génica predice la recurrencia postoperatoria en la Etapa I de células no pequeñas cáncer de pulmón pacientes. PLoS ONE 7 (1): e30880. doi: 10.1371 /journal.pone.0030880
Editor: William C. S. Cho, Hospital Queen Elizabeth, Hong Kong
Recibido: 3 de diciembre de 2011; Aceptado: December 28, 2011; Publicado: 23 Enero 2012
Derechos de Autor © 2012 Lu et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo fue apoyada por los Institutos nacionales de Salud de subvención 1R01CA129533-01A1 (MI), el fondo de un más sano Wisconsin (YL) y un fondo del Departamento de Medicina de Laboratorio y Patología, Clínica Mayo (LW). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
el cáncer de pulmón sigue siendo la principal causa de muerte por cáncer en hombres y mujeres en los Estados Unidos, aunque los resultados terapéuticos han mejorado gradualmente. En 2010, se estimaba que había 222,520 nuevos casos de cáncer de pulmón diagnosticados y sólo el 15% de los que estarán vivos después de 5 años [1]. cáncer de pulmón de células no pequeñas (NSCLC) constituye aproximadamente el 85% de todos los cánceres de pulmón, con carcinoma de células pequeñas que constituyen el 15% restante. Acerca de 25% a 30% de pacientes con NSCLC tiene enfermedad en estadio I y recibir intervención quirúrgica sola. A pesar de someterse a cirugía curativa, más del 25% de los pacientes con CPCNP en estadio I morirán de la enfermedad recurrente dentro de los cinco años [2], [3]. La quimioterapia adyuvante basada en cisplatino en estadio I-III NSCLC mejora modestamente la supervivencia después de la resección quirúrgica [4], [5], [6]. Cáncer y Leucemia Grupo B (CALGB) 9633, un estudio de fase III que comparó la terapia adyuvante con carboplatino /paclitaxel versus cirugía sola para el estadio completamente resecado IB NSCLC, mostró un significativo beneficio en la supervivencia a la terapia adyuvante después de 2,8 años de seguimiento medio [7 ], pero no después de 4,5 años de seguimiento [8]. factores clínicos fiables o moleculares de pronóstico, así como directrices para el tratamiento de la etapa I NSCLC recurrente no han sido bien dilucidado. Debido a la heterogeneidad en las tasas de recurrencia entre los pacientes de cáncer con la misma etapa, es fundamental para aislar una firma molecular fiable en los tumores que podrían ser utilizados para identificar aquellos que son propensos a desarrollar la enfermedad recurrente y que por lo tanto beneficiarse de la terapia adyuvante. Por otra parte, la identificación de los genes y las vías moleculares críticos para el desarrollo de la metástasis podría conducir a avances en la terapéutica.
Los avances en la genómica humana y la proteómica han generado listas de biomarcadores candidatos con los valores clínicos potenciales. perfiles de expresión génica se ha utilizado para caracterizar el pronóstico en el cáncer de pulmón, en su mayoría mediante la supervivencia global (OS) en lugar de la recurrencia del tumor como un punto [9] final [10], [11], [12], [13], [14, ]. Sin embargo, los genes relacionados con la supervivencia identificados carecían de coherencia entre estos estudios, probablemente debido a muestras limitadas de pacientes, la heterogeneidad de la enfermedad, y /o factores técnicos, tales como diferencias en plataformas de microarrays y muestra de procesamiento. La integración de los datos de microarrays de múltiples estudios para aumentar el tamaño de la muestra es una promesa para el desarrollo de pruebas de pronóstico más robustas. por tanto, se realizó un meta-análisis de siete conjuntos de datos para la búsqueda de genes expresados diferencialmente relacionados con el tiempo de supervivencia global [15] y ha identificado un patrón de expresión de 64 genes que es altamente predictivo de sistema operativo de la etapa I NSCLC pacientes. Nuestros resultados indican que la expresión génica firmas son útiles para predecir la supervivencia del cáncer de pulmón en estadio I, y meta-análisis de microarrays de datos aumenta el poder estadístico para detectar los genes expresados diferencialmente relacionados con la supervivencia.
En la investigación de la eficacia de adyuvante terapia, OS es considerado como el punto final estándar de oro. Sin embargo, la desventaja de OS es que requiere un seguimiento prolongado. Recientemente, varios estudios se exploró la supervivencia libre de enfermedad (DFS) como un posible punto final alternativo de sistema operativo. Algunas evidencias habían ofrecido para el uso de DFS como un sustituto para el sistema operativo en el cáncer colorrectal, cáncer de mama y cáncer de estómago [16]. En estos estudios, la correlación de Pearson entre la SG a 5 años y 3 años DFS fue de 0,97 y la correlación de Spearman fue de 0,92; de correlación de Pearson entre las proporciones de riesgo para la SG y SLE fue de 0,85 y la correlación de Spearman fue de 0,87.
En este estudio, se llevó a cabo un meta-análisis de datos de microarrays de diferentes instituciones para desarrollar y validar un nuevo gen de expresión firma que puede predecir con exactitud la recurrencia del tumor de la etapa I NSCLC pacientes. La firma identificada tiene potencial para perfeccionar la práctica clínica en los pacientes con CPCNP gestión.
Métodos
Recogida de datos
Consorcio El desafío del director para la clasificación molecular de pulmón Adencarcinoma ( "Desafío Consorcio del director") recoge más de 300 muestras de pulmón adenocacinoma de cuatro instituciones (HLM, Michigan, DFCI, y MSKCC) junto con los datos clínicos pertinentes [17]. En nuestro estudio hemos utilizado un total de 142 muestras de pacientes con adencarcinoma de pulmón en estadio I, que no recibieron quimioterapia adyuvante o radioterapia, como muestras de entrenamiento para identificar una firma de expresión genética para la supervivencia libre de recurrencia. Los datos fueron descargados de https://array.nci.nih.gov/caarray/project/details.action?project.experiment.publicIdentifier=jacob-00182.
Other cuatro conjuntos de datos independientes (2-5) conjuntos de datos se utilizaron como muestras de prueba para la validación de la firma identificada. 2 conjunto de datos incluye 46 etapas adenocarcinomas de pulmón I. 3 conjunto de datos incluía tanto a los adenocarcinomas y carcinomas de células escamosas con 64% de 138 muestras de tumores de etapa I. Es importante saber si nuestra firma desarrollado es aplicable a otros subtipo de cáncer tales como carcinomas de células escamosas o no. Conjunto de datos 2 y 3 fueron descargados de la base de datos GEO (GSE5843 y GSE8894). 4 conjunto de datos se ha generado por la Mayo Clinic e incluyó 54 CPCNP en estadio I en los no fumadores, y la mayoría de ellos eran adenocarcinomas. 5 conjunto de datos fue generada por nuestro propio grupo de la Universidad de Washington, que se utilizó para identificar nuestra firma de 64 genes para la supervivencia global (los datos se han depositado en la base de datos GEO GSE6253) [15]. Todos los pacientes en estos conjuntos de validación no se les dio la quimioterapia adyuvante o radioterapia.
PRISMA 2009 diagrama de flujo con respecto a la selección de conjunto de datos se muestra en la Figura S1. Los detalles de la información clínica de los sujetos en cada conjunto de datos se describen en la Tabla 1. El punto final fue tiempo hasta la recurrencia, que se define como el tiempo desde la resección quirúrgica para la primera evidencia de recurrencia del tumor (local, regional o distante). Los pacientes fueron censurados a partir del análisis de recurrencia en el primero de los siguientes puntos de tiempo: la muerte, el desarrollo de la segunda NSCLC primario, o el último contacto médico. Las plataformas de microarrays de Affymetrix Hu133A involucradas incluyen (conjunto de datos 1), Hu133plus2 (conjunto de datos 3), matriz HG_U95Av2 (conjunto de datos 5), 22 K Operon del Genoma Humano Oligo Set v2.1 (http://www.operon.com) (conjunto de datos 2) y DASL ensayo Illumina (conjunto de datos 4).
Tratamiento de datos
a pesar de que la formación de datos es de un estudio, se recogieron y se perfilan en cuatro instituciones diferentes de las muestras. Las diferencias sistemáticas en la expresión génica de estas instituciones pueden ser notables, lo que comprometería la integridad de los datos de diferentes laboratorios. Se utilizó el método de discriminación de distancia ponderados (DWD) (https://genome.unc.edu/pubsup/dwd/index.html) para identificar y ajustar las desviaciones sistemáticas que estaban presentes dentro de este conjunto de datos de microarrays. El método DWD corrige las desviaciones sistemáticas en los lotes, microarrays mediante la búsqueda de un hiperplano de separación entre los dos lotes y el ajuste de los datos mediante la proyección de los diferentes lotes en el plano DWD, encontrando el lote significa, y después de restar el plano DWD multiplicado por este medio [ ,,,0],18].
El análisis estadístico
Identificar los genes expresados diferencialmente relacionados con la recurrencia.
multivariado de riesgos proporcionales de Cox análisis de regresión (ajustado por edad, sexo y la etapa del cáncer) con 10.000 remuestreo bootstrap se realizaron para cada gen usando todas las 142 muestras del conjunto de datos 1. La asunción de riesgos proporcionales de estas variables se investigó mediante el examen de los residuos de Schoenfeld a escala. La etapa de género y el cáncer de variables categóricas muestra una desviación significativa de la asunción de riesgos proporcionales y por lo tanto se tomaron como estratos en los modelos de regresión. Los genes se clasifican de acuerdo con las frecuencias de arranque de P & lt; 0,01 para su expresión de genes en modelos de regresión. a continuación, se realizó un análisis de enriquecimiento GO plazo de estos genes expresados diferencialmente utilizando la base de datos para anotación, y Visualización Integrada y Descubrimiento (DAVID) de recursos de bioinformática (http://david.abcc.ncifcrf.gov/home.jsp). Los análisis estadísticos similares se detallan en un estudio anterior [15].
Definir una firma de expresión genética para la recurrencia.
El siguiente análisis de supervivencia también se basa en todas las 142 muestras en el conjunto de datos 1 . se llevó a cabo el método de regresión de Cox parcial para construir componentes de predicción [19]. Estos componentes fueron utilizados en el modelo de Cox para la construcción de modelos de predicción de la supervivencia libre de recurrencia de los pacientes con cáncer. Los principales componentes fueron elegidos en el modelo para maximizar la correlación de rangos Dxy Somers. Las puntuaciones de riesgo se calcularon, en donde representa el número de genes; representa el coeficiente estimado del gen TH; representar niveles de expresión génica del gen TH en todas las muestras, en donde es tamaño de la muestra y es el nivel de expresión génica del gen de la muestra. Todas las muestras se clasificaron en grupos de alto y bajo riesgo de acuerdo con las puntuaciones de riesgo. Los pacientes con puntuaciones de riesgo menor que cero tener potencialmente supervivencia sin recurrencia a largo plazo y con más de cero tienen una supervivencia libre de recidiva a corto plazo después de la resección quirúrgica. Para elegir un subconjunto apropiado de los genes de la firma, se llevó a cabo un procedimiento de selección hacia adelante para optimizar la expresión génica distintiva: 1) aumentar un gen cada vez basada en el rango de los genes que se identificaron en la rutina de carga por encima de los análisis; 2) realizar el análisis de regresión de Cox parcial y obtener la precisión de la predicción mediante el subconjunto seleccionado de los genes; y 3) repita los pasos 1 y 2 hasta que se maximiza la precisión de la predicción. La precisión de la predicción (capacidad de discriminación) fue evaluada por Somers Dxy rango de correlación de la puntuación de riesgo estimado y el tiempo de supervivencia real. Somers 'Dxy está relacionado con el C-índice por Dxy = 2 (C-0,5). C está funcionando el receptor correspondiente característico (ROC) área de la curva, que es una representación gráfica de los pares de resultados falsos positivos de la prueba (especificidad) y resultados de la prueba positivos verdaderos (sensibilidad) para las realizaciones de una prueba cuantitativa.
para identificar una firma genética robusta predicción de tiempo hasta la recurrencia, dejar fuera de una validación cruzada (LOOCV) se utilizó. Brevemente, se realizaron 142 iteraciones del procedimiento de selección hacia adelante por encima de manera que cada muestra se dejó a cabo una vez con un conjunto de genes en relación con el tiempo hasta la recurrencia calcula en cada iteración. La frecuencia de los genes que se producen en las firmas se clasificaron para identificar los genes que consistentemente y con firmeza, correlacionado con el resultado. Los genes que pasaron el criterio conjunto (frecuencia & gt; 50%). Se seleccionaron a formar parte de la firma final
Para evaluar el rendimiento predictivo de la firma genética propuesta, se empleó el análisis ROC dependiente del tiempo para datos censurados y área bajo la curva (AUC) como nuestros criterios para evaluar las predicciones de recurrencia. Las funciones de sensibilidad y especificidad en función del tiempo se definen como: y. El (t) correspondiente curva ROC para cualquier tiempo t se define como la trama de {sensibilidad (c, t)} frente a {1 - especificidad (c, t)}, con punto de corte c variable. X es la covarianza y D (t) es el indicador de evento (aquí, la recurrencia) en el tiempo t. El área bajo la curva, AUC (t), se define como el área bajo la curva ROC (t). Un estimador del vecino más cercano para que la función de distribución de dos variables se utiliza para estimar estas probabilidades condicionales que representan el posible censura [20]. AUC se puede utilizar como una medida de la precisión del marcador de diagnóstico; cuanto mayor es el AUC, mejor es el modelo de predicción. AUC = 0,5 indica que no hay capacidad de predicción, mientras que el AUC = 1 representa el rendimiento de predicción perfecta. Los análisis de supervivencia de Kaplan-Meier se llevaron a cabo después de que las muestras se clasificaron en dos grupos de riesgo. Las diferencias del riesgo de recurrencia entre los dos grupos de riesgo se evaluaron utilizando la prueba de log rank de Mantel-Haenszel. El área más grande entre los dos grupos de riesgo y su valor p menor asociado de la prueba de log rank de Mantel-Haenszel implican un mejor modelo de clasificación. Somers Dxy rango de correlación de la puntuación de riesgo estimado y el tiempo de supervivencia real también se calcularon.
validar la firma en cuatro conjuntos de datos de microarrays independientes.
Después se definió la firma, que lo evaluó en cuatro independientes conjuntos de datos (es decir, conjuntos de datos 2-5). Los datos de expresión de genes en la firma se utilizaron para calcular la puntuación de riesgo de cada muestra en los conjuntos de datos independientes. Tenga en cuenta que el número de genes utilizados para estimar la puntuación de riesgo eran diferentes debido a las diferentes plataformas de microarrays utilizados en la formación de datos y las pruebas de datos. La regresión de Cox se Parcial hecho de nuevo para cada conjunto de datos para obtener el coeficiente estimado de cada gen con el fin de calcular la puntuación de riesgo para cada muestra. Somers Dxy rango de correlación de la puntuación de riesgo estimado y el tiempo de supervivencia de bienes se calcularon y se realizaron análisis ROC dependiente del tiempo para cada conjunto de datos de prueba.
Identificar las vías significativas relacionadas con la recurrencia.
parcial de regresión de Cox método también se realizó para cada vía KEGG. Las puntuaciones de riesgo se calcularon utilizando los conjuntos de genes en cada vía. Todas las muestras se clasificaron en grupos de alto y bajo riesgo de acuerdo con las puntuaciones de riesgo. Las diferencias en el riesgo de recurrencia entre los dos grupos de riesgo se evaluaron utilizando la prueba de log rank de Mantel-Haenszel. Los valores de p inferior a 10
-4 estaban empleo para definir las vías significativas.
Todos los análisis de datos se llevaron a cabo utilizando el paquete estadístico R (www.r-project.org).
Resultados
genes expresados diferencialmente asociados con la recurrencia
Para identificar una expresión genética de la recurrencia del tumor, que analizaron un conjunto de entrenamiento de 142 adencarcinomas etapa I de pulmón de Desafío Consorcio del director, incluyendo 70 con enfermedad en estadio IA (T1N0M0) y 72 con estadio IB (T2N0M0). Ninguno de the142 pacientes en el análisis se administra la quimioterapia adyuvante o radioterapia. Multivariado de riesgos proporcionales de Cox análisis de regresión con los enfoques de remuestreo bootstrap se realizaron para cada gen para determinar si se asoció significativamente con la recurrencia del cáncer. Se identificaron 104 probesets de 98 genes conocidos con frecuencias de arranque mayor que 80% de su expresión génica en modelos de regresión (Tabla S1). Dieciocho probesets se asociaron con buen resultado (cociente de riesgos instantáneos & lt; 1,0), es decir, los pacientes con expresiones más altas de estos genes tienden a tener más larga supervivencia libre de recidiva. Por el contrario, los otros 86 probesets se asociaron con mal resultado (cociente de riesgos instantáneos & gt; 1,0), es decir, el aumento de expresión de estos genes dan lugar a más corto de supervivencia libre de recurrencia de pacientes en estadio I. GO término análisis de enriquecimiento de estos genes expresados diferencialmente indicó un tercio de los genes que hemos identificado están potencialmente implicados en las vías conocidas relacionadas con el cáncer. Entre ellos,
B4GALT1, CELSR1, CLDN4, CLDN9, COL2A1, ALCAM, ICAM4, MUC5AC y THBS1
están relacionadas con la adhesión celular;
NLRP2
,
CGB, LUC7L3, ELMO2, EIF2AK2, IFI6, MUC5AC, NFKBIL1, PPT1, PACS2, RHOT1, THBS1
están relacionados con la apoptosis; y
CLEC11A, B4GALT1, BMP2, EIF2AK2, FABP3, FGFR2, ING1, picor, MUC5AC, NFKBIL1, THBS1, TCF3
están relacionados con la regulación de la proliferación celular.
La identificación de un gen para la firma recurrencia en el conjunto de entrenamiento
a continuación, se trató de identificar un conjunto manejable y robusto de los genes cuya expresión podría ser utilizado para predecir los tumores primarios sean recurrentes. Se empleó un análisis parcial de regresión de Cox con licencia de uno de las cruzadas a cabo la validación de la formación de datos de 142 pacientes en estadio I. En cada una validación cruzada, hemos identificado una firma genética que da la más alta precisión de la predicción y los genes introducidos registrados en la firma identificada. Luego contó la frecuencia de los genes presentes en todos los conjuntos de validación cruzada. Los genes con una frecuencia & gt; 50% fueron seleccionados para comprender la firma final (Tabla 2). Por último, las puntuaciones de riesgo fueron estimados para cada una de las 142 muestras en la formación de datos utilizando los datos de expresión de estos 51 genes. Sobre la base de las puntuaciones de riesgo, clasificamos estos pacientes en grupos de alto y bajo riesgo y realizaron análisis de supervivencia de Kaplan-Meier en estas muestras estratificadas. Como se muestra en la Fig. 1, la supervivencia libre de recurrencia fue significativamente diferente entre los grupos de alto y bajo riesgo, según lo definido por las puntuaciones de riesgo utilizando los datos de expresión (P & lt; 1e-16). Kaplan-Meier de supervivencia no podían distinguir entre una peor supervivencia en estadio IB del estadio IA (P = 0,38). Para evaluar su rendimiento predictivo, se calculó el área más dependiente del tiempo bajo la curva ROC, ya sea en base a información de los estadios o las puntuaciones de riesgo estimado de los pacientes (fig. 1C). El enfoque estratificado basado en la expresión de un rendimiento mucho mejor que el método de estadificación patológica. Nuestro enfoque logra AUC cerca de 90%, mientras que el modelo de Cox con los resultados de la información en la etapa muy bajos AUC. & Lt; 60%
(A) de Kaplan-Meier de supervivencia para dos grupos de pacientes en estadio IA o IB. Las curvas de supervivencia (B) de Kaplan-Meier para los dos grupos de pacientes definidos por tener positivo (alto riesgo) o negativos escalas de riesgo (bajo riesgo) de la supervivencia libre de recurrencia. Las puntuaciones de riesgo se estimaron con 15 componentes principales basados en el modelo usando 51 genes relacionados con la supervivencia libre de recidiva. (C) El área bajo la curva (AUC) de análisis de ROC dependiente del tiempo para modelos de supervivencia basadas en la información o datos de expresión etapa 51-gen respectivamente. El tiempo se indica en meses en el eje x, la supervivencia acumulada se indica en el eje y. Las marcas, los pacientes cuyos datos fueron censurados en el último seguimiento.
La validación de la firma recurrencia en conjuntos de pruebas independientes
Para determinar si la firma de 51 genes podrían predecir los pacientes propensos a desarrollar recurrencia tumoral en muestras independientes, se aplicó a cuatro conjuntos de datos independientes (Tabla 1). En concreto, una puntuación de riesgo para cada paciente se calculó sobre la base de los niveles de expresión de la firma de 51 genes; mal resultado se definió como la puntuación de riesgo & gt; 0 y buen resultado se definió como la puntuación de riesgo & lt; 0. Cox de riesgos proporcionales de modelado se usa para clasificar a los pacientes en cada uno de los conjuntos de datos de prueba. La precisión de la predicción de la característica de recurrencia fue determinada mediante el AUC de análisis ROC dependiente del tiempo y de Somers Dxy rango de correlación entre la puntuación de riesgo estimado y el tiempo de supervivencia real.
Clínica Mayo conjunto de datos incluye 54 nunca habían fumado con CPCNP en estadio I, y la mayoría de los cuales eran adenocarcinomas. Las puntuaciones de riesgo estimado por la expresión de 46 genes que se presentan en DASL ensayo Illumina tienen una alta correlación con el tiempo de supervivencia real (Dxy = -0,853). AUC de análisis ROC dependiente del tiempo es aproximadamente un 88% usando las puntuaciones de riesgo y el 57% utilizando la información de fase. pacientes con mal resultado predicho tenían una significativamente peor supervivencia libre de recidiva (log-rank
P
= 4.37e-6) (Fig. 2A). En el GSE5843 pruebas de conjunto de datos con I adenocarcinoma 46 etapa, el gen firma tiene una precisión global del 86% y las puntuaciones de alto riesgo pronosticados se asociaron significativamente con el más corto de tiempo observado hasta la recurrencia (log-rank p = 7e-9; Fig. 2B) . Por el contrario, la exactitud de la predicción de la recurrencia utilizando la información de escenario solo es del 66%.
análisis de supervivencia de Kaplan-Meier se realizó en baja (
completa línea roja
) y alta (
a trazos azul línea de
) riesgo de los grupos de pacientes definidos por el clasificador 51-gen. AUC para los modelos de supervivencia basados en la etapa (
línea discontinua roja
) o clasificador 51-gen (
línea de negro completo
), también se comparó. La prueba GSE8894 conjunto de datos no disponemos de información disponibles etapa y todos los pacientes en el conjunto de datos son WUSTL etapa IB. Así que el tiempo dependiente ROC utilizando la información de fase en estos dos conjuntos de datos no se pudo calcular; todo ello en 0.5 en su lugar. Las marcas, los pacientes cuyos datos fueron censurados en el último seguimiento.
Sólo 32 de 51 genes en la característica de recurrencia están disponibles en la generación temprana de microarrays de Affymetrix U95A utilizado en el conjunto de datos de pruebas WUSTL. A pesar de representación incompleta, la firma hemos identificado todavía tiene un buen rendimiento con las AUC alrededor de 85% en la predicción de la recurrencia. El análisis de Kaplan-Meier confirmado que el grupo de alto riesgo predicho tiene un tiempo significativamente más corto hasta la recurrencia que el grupo de bajo riesgo (p = 7.36e-5) (Fig. 2C).
GSE8894 es la prueba más grande conjunto de datos, incluyendo 62 adenocarcinomas y 76 carcinomas de células escamosas. Se evaluó el desempeño de sus firmas, en la predicción de la supervivencia libre de recurrencia en los adenocarcinomas y carcinomas de células escamosas por separado. modelo de Cox con las puntuaciones de riesgo estimados por los datos de expresión dan un buen rendimiento predictivo (Dxy = -0,706) con las AUC de más del 85% para el adenocarcinoma (Fig. 2D). En los carcinomas de células escamosas, se obtuvo un poco menos predictivos AUC, pero el grupo de alto riesgo previsto todavía tenía un tiempo significativamente más corto hasta la recurrencia (Dxy = -0.678 y P = 3.48e-7, Fig. S2).
vías significativas con relación a la recurrencia
supervivencia basada en las vías análisis identificó 97 KEGG vías significativas pronósticos relacionados con la recidiva (p & lt; 10
-5, el cuadro S2). La Tabla 3 enumera las 30 principales vías importantes, incluyendo múltiples vías importantes relacionados con el cáncer, tales como moléculas de adhesión celular, la vía de señalización Jak-Stat, p53 vía de señalización, vía de señalización MAPK, vía de señalización Wnt, vía de señalización mTOR y la vía de señalización de ErbB. Los genes expresados diferencialmente asociados con la recurrencia identificados por nuestro análisis de supervivencia también fueron enriquecidos en proceso biológico de la adhesión celular.
Discusión
Una de las principales limitaciones de los indicadores pronósticos clínicos actuales es su incapacidad para predecir qué pacientes con enfermedad en estadio temprano desarrollará recurrencia de la enfermedad. Hemos descrito previamente una firma de 64 genes de la supervivencia global en la etapa I NSCLC capaz de predecir los resultados en muestras independientes [15]. En este estudio, hemos tratado de determinar si existía una firma comparable en la etapa I adenocarcinomas para predecir la supervivencia libre de recurrencia en el cáncer de pulmón. El uso de microarrays de datos de cáncer de pulmón en estadio I a partir de Desafío Consorcio del Director, hemos desarrollado, además, una nueva expresión de genes de la firma de predicción de la recurrencia de la etapa I NSCLC pacientes. Se utilizó muestras de cuatro instituciones en el Desafío Consorcio del Director como la formación de datos para identificar una firma de expresión genética de recurrencia del cáncer de pulmón. Para reducir la heterogeneidad de la enfermedad y los efectos de confusión de los tratamientos, se utilizó un total de 142 de la etapa I adencarcinomas pulmonares pacientes sin quimioterapia adyuvante o radiación terapia como las muestras de entrenamiento (Tabla 1). Para integrar los datos de expresión génica de las cuatro instituciones, se aplicó el método DWD para eliminar las diferencias sistemáticas que estaban presentes dentro de este conjunto de datos. Posteriormente, se identificaron 104 genes cuya expresión se correlaciona con la supervivencia libre de recidiva. Como era de esperar, la composición de la ontología de genes de estos genes tiene relevancia biológica de recurrencia de la enfermedad, tales como la adhesión celular, la apoptosis y la proliferación celular.
El uso de un procedimiento de selección hacia adelante basado en el modelo de regresión de Cox parcial, hemos identificado un 51 -Gene la firma de 104 genes expresados diferencialmente. La firma identificada es altamente predictiva de recidiva tumoral en pacientes con adenocarcinomas de pulmón en estadio I. Uno de los problemas potenciales en el desarrollo de una firma predictivo es el modelo sobreajuste a la formación de datos. Esto puede resultar en una firma que refleja las características de las muestras de entrenamiento y no se puede predecir con exactitud el resultado en muestras independientes. Para evitar el sobreajuste del modelo, se utilizó más de una sola licencia a cabo el procedimiento de validación cruzada para generar la firma genética de recurrencia en la formación de datos. En consecuencia, también es crítica para validar la firma de predicción en conjuntos de datos independientes. Por lo tanto, hemos aplicado nuestro firma en cuatro conjuntos de datos independientes para evaluar su rendimiento de predicción. En general, nuestra firma es altamente predictivo de los cuales los pacientes con adenocarcinomas de pulmón en estadio I se desarrollará recurrencia de la enfermedad y que alcanza más del 85% en el AUC a través de diferentes conjuntos de datos independientes. El criterio establecido GSE8894 incluía tanto a los adenocarcinomas y carcinomas de células escamosas; El 36% de las muestras se avanzó pacientes en etapa. Un estudio reciente demostró que la recurrencia del cáncer de pulmón depende del subtipo histológico en el estadio IA cáncer no microcítico de pulmón de células, con tasas más altas se presentaron en los pacientes con carcinomas escamosos no [21]. Curiosamente, la firma de 51 genes también fue altamente predictivo de la supervivencia libre de recurrencia de los carcinomas de células escamosas en el conjunto de datos GSE8894 aunque se derivó inicialmente de la etapa I adenocarcinoma.
Los genes expresados diferencialmente identificados en el presente estudio pueden realizar nuevos conocimientos sobre los objetivos y tratamiento de la recurrencia de la enfermedad en estadio I terapéuticos en tumores de pulmón. Entre ellos, se dirige a FBXW7 mTOR para la degradación y coopera con PTEN en la supresión de tumores [22]. El grupo de baja expresión FBXW7 mostró un pronóstico significativamente peor que en el grupo de alta expresión en pacientes con cáncer de colon [23]. Su expresión más baja también se asociaron con una menor supervivencia libre de recidiva en los adenocarcinomas de pulmón en estadio I (Tabla S1). Otro candidato interesante es FGFR2, que es uno de los receptores de tirosina quinasa transmembrana que participan en la señalización mediante la interacción con la familia del factor de crecimiento de fibroblastos (FGF). La familia del factor de crecimiento de fibroblastos (FGF), que incluye importantes factores de regulación del crecimiento y diferenciación celular, se ha encontrado para estar involucrado en el desarrollo embrionario, la angiogénesis y la tumorigénesis. Se ha sugerido que FGFR2 juega un papel importante en la tumorigénesis del cáncer gástrico. Nos pareció que el aumento de la expresión de FGFR2 se asocia con un peor pronóstico de los pacientes con cáncer de pulmón en estadio I. Un inhibidor de FGFR de nuevo desarrollo de molécula pequeña de acción, Ki23057, puede competir con ATP para el sitio de unión en la quinasa [24]. Será interesante ver si un inhibidor de este tipo puede mejorar el pronóstico de los pacientes en quienes se prevén estar en un alto riesgo de recurrencia con la firma de expresión genética. Además, también hemos identificado tres factores de empalme SFRS2IP, SFRS14 y SFRS18 asociados con la evolución de la enfermedad. Los tres factores de empalme son miembros de la familia arginina /serina-rica y digna de estudio adicional.
Nuestra supervivencia basada en las vías análisis encontró que la migración de leucocitos transendotelial, procesamiento de proteínas en moléculas de adhesión celular retículo endoplasmático y (CAM) son las tres principales vías KEGG altamente correlacionados con la supervivencia libre de recidiva (Fig. S3). No es una sorpresa que estas tres vías están significativamente relacionados con la recurrencia. Los leucocitos atraviesan el endotelio que reviste la vasculatura iniciada por la señalización chemokine- y la molécula de adhesión intracelular inducida que controla la adhesión, la difusión, y la motilidad. Al mismo tiempo, los leucocitos adherentes activan el endotelio, la manipulación de la barrera para promover su transmigración en los tejidos subyacentes [25]. CAM son guardianes de la migración de leucocitos transendotelial. células endoteliales expresión CAMs intercelular se correlaciona negativamente con el potencial metastásico en cáncer de pulmón [26]. L1 molécula de adhesión celular (L1CAM) tiene un potencial valor pronóstico en los tumores neuroendocrinos pulmonares. Los pacientes con alta expresión de L1 tienen un mayor riesgo de recurrencia en comparación con aquellos con la expresión L1 baja [27]. El retículo endoplásmico (ER) es un orgánulo esencial que interviene en muchas funciones celulares, incluyendo el plegamiento de proteínas y secreción. El ER desempeña un papel vital en el control de calidad de proteínas celulares mediante la extracción y degradar proteínas que no se doblan o ensamblan en complejos nativos correctamente, es decir, la degradación asociada a la sala de emergencias (ERAD) para asegurar que sólo correctamente plegada y ensamblada proteínas son transportados a sus destinos finales . El ER es también un orgánulo importante para el oxígeno y los nutrientes de detección como las células se adaptan a su microambiente. La respuesta de la proteína desplegada (UPR) es una respuesta al estrés celular relacionado a la sala de emergencias.