Extracto
Antecedentes
Varios estudios han informado de la expresión génica firmas que predicen el riesgo de recurrencia en pacientes III de cáncer colorrectal (CCR) en estadio II y con un mínimo solapamiento de miembros de genes y la relevancia biológica definida. El objetivo de este estudio fue investigar temas biológicos que subyacen a estas firmas, para inferir los genes de importancia potencial mecanicista al fenotipo recurrencia CRC y para probar si los modelos de pronósticos exactos se pueden desarrollar utilizando genes mecánicamente importantes.
métodos y las conclusiones
Hemos investigado ocho publicados CRC expresión génica firmas y no encontró la convergencia funcional en el análisis de enriquecimiento de ontología de genes. El uso de un enfoque basado en el paseo aleatorio, hemos integrado estas firmas y datos de mutaciones somáticas a disposición del público en una red de interacción proteína-proteína y inferimos 487 genes que estaban bases moleculares candidato plausible para el fenotipo recurrencia CRC. Nombramos a la lista de 487 genes de una firma NEM, ya que integra la información de la red, la expresión y mutación. La firma mostró enriquecimiento significativo en cuatro procesos biológicos estrechamente relacionados con la fisiopatología del cáncer y proporciona una buena cobertura de los oncogenes conocidos, supresores tumorales, y las vías de señalización relacionadas con el CRC. Un modelo de pronóstico de supervivencia máquinas de vectores soporte basada en firmas NEM fue entrenado utilizando un conjunto de datos de expresión de genes de microarrays y probado en un conjunto de datos independiente. Las puntuaciones basadas en modelos mostraron una concordancia del 75,7% con los datos reales de supervivencia y se separaron los pacientes en dos grupos con diferente significativamente la supervivencia libre de recaída (
p
= 0,002). Resultados similares se obtuvieron con formación y las pruebas invertidos conjuntos de datos (
p
= 0,007). Por otra parte, la quimioterapia adyuvante se asoció significativamente con la supervivencia prolongada de los pacientes de alto riesgo (
p
= 0,006), pero no es beneficioso para los pacientes de bajo riesgo (
p = 0,491
).
Conclusiones
La firma NEM no sólo refleja CRC biología, sino también informa el pronóstico del paciente y la respuesta al tratamiento. Por lo tanto, el método de integración de datos basada en red proporciona una convergencia entre la pertinencia biológica y utilidad clínica en el desarrollo firma genética
Visto:. Shi M, Beauchamp RD, Zhang B (2012) A basadas en red Informa expresión genética pronóstico y tratamiento de pacientes con cáncer colorrectal. PLoS ONE 7 (7): e41292. doi: 10.1371 /journal.pone.0041292
Editor: Valerie W. Hu, The George Washington University, Estados Unidos de América
Recibido: March 3, 2012; Aceptado 19 de junio de 2012; Publicado: 23 de julio 2012
Derechos de Autor © 2012 Shi et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo con el apoyo de los NIH (http://www.nih.gov/) concede GM088822, CA069457, DK052334, y el apoyo de la Vanderbilt Ingram Cancer Center de soporte subvención CA068485 y el cáncer gastrointestinal SPORE subvención CA095103. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
el cáncer colorrectal (CCR) es la tercera causa principal de la mortalidad mundial del cáncer [1]. De acuerdo con etapas definidas por el Comité Conjunto sobre el Cáncer (AJCC), las tasas de supervivencia a 5 años son el 93,2% para el estadio I, el 82,5% en el estadio II, el 59,5% para el estadio III, y el 8,1% para los pacientes en estadio IV CRC [2] . La quimioterapia adyuvante (CTX) para pacientes en estadio III CRC ha demostrado beneficio en la supervivencia; Sin embargo, 42-44% de los pacientes tratados con cirugía sola no se repetirá en 5 años [3]. Por otra parte, aunque los ensayos clínicos individuales a menudo no han podido demostrar los beneficios de CTX adyuvante para los pacientes en estadio II, aproximadamente el 20% de los pacientes en estadio II se repetirá dentro de los 5 años. Por lo tanto, es crucial desarrollar un método preciso para estratificar los pacientes en estadio II y III CRC por el riesgo de recurrencia de manera que adyuvante CTX se puede administrar a pacientes de alto riesgo, mientras que los pacientes de bajo riesgo pueden renunciar a estos tratamientos tóxicos para evitar el daño potencial como así como la carga financiera.
sobre la base de la comparación directa de los datos de microarrays de tumores altamente agresivos y menos agresivos CRC, varios estudios han informado de la expresión génica firmas que predicen el riesgo de recurrencia en la etapa II y III pacientes de CRC [4] , [5], [6], [7], [8], [9], con un mínimo de superposición de sus listas de genes [10]. La falta de concordancia es una observación común en los estudios de expresión génica de la firma [11], que plantea dudas sobre sus implicaciones clínicas [12]. Sin embargo, los modelos de pronóstico en base a varios CRC firmas de expresión génica se han validado en cohortes de pacientes independientes [6], [7], [8]. Por otra parte, un estudio inicial en el cáncer de mama se ha demostrado que aparentemente distintas firmas pueden mostrar un acuerdo significativo en la predicción de los resultados [13]. Se ha sugerido que las diferentes firmas pueden compartir temas biológicos comunes que no son evidentes en el nivel de genes individuales [12]. Por lo tanto, la vía y los métodos basados en la red se han desarrollado en un intento de revelar los mecanismos biológicos pronóstico concordante apuntalamiento entre distintas firmas de expresión génica en el cáncer de mama y el cáncer de próstata [14], [15], [16], [17].
Búsqueda de temas biológicos comunes que subyacen a la expresión génica firmas disminuidos preocupaciones anteriores sobre la validez biológica de los genes de la firma [18]. Sin embargo, el hecho es que las firmas de genes determinados por el análisis de datos supervisada están fuertemente influenciadas por el subgrupo de pacientes utilizados para la selección de genes, y la pertenencia a un determinado gen en dicha firma no es indicativo de la importancia de ese gen en la patología del cáncer [19 ]. Debido a que diferentes combinaciones de genes pueden ser seleccionados para construir modelos de predicción de manera similar precisas [20], una cuestión intrigante, pero sin respuesta es si la limitación de espacio genómico de genes importantes puede producir mecánicamente modelos de pronósticos exactos. Una respuesta positiva a esta pregunta conducirá a una mejor convergencia entre significado biológico y pronóstico clínico, que a su vez dar una idea de la novela dirigida estrategias terapéuticas.
En este trabajo se estudiaron los temas biológicos que subyacen a la expresión de genes CRC publicado firmas. Mediante la integración de genes firmas de expresión y los datos de mutación somática en una red de interacción proteína-proteína, se muestra que el fenotipo recurrencia CRC implica la desregulación de múltiples procesos biológicos, y cada firma única capturado unos pocos genes en estos procesos. Sobre la base de estas observaciones, la hipótesis de que una expresión firma genética con genes mecánicamente importantes inferidas de análisis de red puede representar mejor la biología subyacente y puede dar lugar a modelos de pronóstico con un mejor rendimiento. Con este fin, hemos desarrollado modelos de supervivencia Apoyo Vector Machine (SSVM) utilizando dos conjuntos de datos independientes sobre la base de dicha firma y transversal probado su rendimiento. Los resultados demuestran que nuestro modelo puede predecir con precisión CRC recurrencia. Por otra parte, la estratificación del paciente en base a riesgo previsto de recurrencia proporciona información útil con respecto a la adyuvante CTX beneficio para los pacientes de CRC.
Métodos
Publicado Expresión Génica CRC Firmas
A través de revisión de la literatura Manual en los artículos publicados entre 2000 y 2010, se identificaron a partir de siete documentos [4], [5], [6], [7], [8], [9], [21] ocho firmas de expresión de genes que son capaces de separar etapa pacientes II y /o III etapa de CRC en subgrupos de bajo riesgo y de alto riesgo. La firma en Jorissen et al. [22] no se incluyó debido a que los conjuntos de datos de expresión de genes utilizados para derivar la firma que se utilizaron para el desarrollo de modelos y la evaluación en el estudio actual. Las ocho firmas incluyeron un total de 208 genes.
genes mutados en el CCR
El uso de la base de datos CanProVar [23] (http://bioinfo.vanderbilt.edu/canprovar), que recupera 549 genes con mutaciones somáticas observados en muestras de CRC.
humano interacción proteína-proteína red
los datos de interacción de proteínas se descargaron y se integran a partir BioGrid, menta, HPRD, Reactome, DIP y la menta en el año 2010, como descrito anteriormente [24]. La red de interacción de proteínas incluyó 94,066 interacciones entre proteínas 11.521
Los oncogenes y genes supresores de tumores
oncogenes conocidos y genes supresores de tumores fueron descargados de CancerGenes [25] y GLAD4U (http:. //Bioinfo. vanderbilt.edu/glad4u). Para cada herramienta, se recuperaron dos listas de genes utilizando la consulta y términos oncogén supresor de tumores, respectivamente.
Expresión génica conjuntos de datos
Dos conjuntos de datos de expresión génica de los tumores colorrectales primarios (GSE17536 [8] y GSE14333 [22]) fueron descargados de la base de datos de Ómnibus GEO () Expresión génica. muestras de fase I y fase IV fueron excluidos de este estudio. GSE14333 incluido algunas de las muestras de GSE17536, los cuales fueron retirados de GSE14333 en este estudio. La información clínica y patológica de los dos conjuntos de datos se muestra en la Tabla 1. Ambos conjuntos de datos se generaron en el Affymetrix U133 Plus 2,0 array. CEL archivos para los conjuntos de datos se normalizaron mediante el análisis MultiChip (RMA) algoritmo robusto [26] tal como se aplica en el Bioconductor. Los conjuntos de datos se procesaron por separado para asegurar su independencia. identificadores de conjunto de la sonda (ID) fueron asignadas a los símbolos de genes basados en la cartografía proporcionada por la base de datos GEO. Se eliminaron los conjuntos de sonda mapeado en el que múltiples genes. Cuando hay varios conjuntos de sonda se correlacionan con el mismo gen, la sonda fija fue seleccionado con el mayor rango intercuartílico (RIC), debido a su alta variación entre muestras. Para hacer que el nivel de expresión comparable a través de los genes, los valores de expresión de cada gen se estandarizaron utilizando una transformación Z-score. En este estudio, cada conjunto de datos se utilizó como
La priorización basada en la red
Se utilizó una versión modificada de formación-set a su vez y modelos de pronóstico desarrollados se ensayaron frente a otro conjunto de datos. de nuestro algoritmo NetWalker publicado previamente [24] para integrar datos de firmas de expresión y mutación somática a disposición del público en una red de interacción proteína-proteína con el fin de identificar los genes que pueden revestir importancia mecanicista a la recurrencia fenotipo CRC (Figura 1). Netwalker se basa en el paseo aleatorio con la técnica de reinicio [27]. Teniendo en cuenta una red y comienzan probabilidades para cada nodo que representa información previa sobre su importancia relativa, el algoritmo calcula una puntuación final de prioridad para cada nodo sobre la base de las probabilidades de estado estacionario. paseo aleatorio con reinicio se define formalmente como la siguiente ecuación: donde
r
es la probabilidad de reinicio,
W
es la matriz de adyacencia columna normalizada del gráfico de la red, y
p
t
es un vector de tamaño igual al número de nodos en el gráfico donde el
i-ésimo elemento
mantiene la probabilidad de estar en el nodo
I
al paso de tiempo
t
.
Publicado firmas de expresión de genes y datos de mutación somática fueron asignadas a una red de interacción proteína-proteína. A través de la integración de la información de la mutación, expresión, y la Red, una firma NEM se obtuvo utilizando el algoritmo NetWalker basado en el paseo aleatorio con la técnica de reinicio. Se evaluó la relevancia biológica de la firma basada en la información funcional que incluye ontología de genes, los genes del cáncer conocidos y vías de señalización. relevancia clínica de la firma se evaluó mediante el desarrollo de un modelo de supervivencia SVM basado en un conjunto de datos de expresión génica y las pruebas en un conjunto de datos independiente de la precisión en el pronóstico y predicción de respuesta al tratamiento.
A pesar de nuestros cesionarios de aplicación anteriores una probabilidad de inicio igual a todos los nodos de semillas, esta versión modificada permite diferentes probabilidades de inicio para los nodos de semillas. En este estudio, hemos creado las probabilidades de inicio para todos los genes en función de su participación en las firmas de expresión de genes y la lista de genes mutados. peso total igual se le dio a los datos de expresión genética y mutación de datos. Por gen de datos firma la expresión, se le dio relativamente mayor peso a los genes implicados en múltiples firmas. Para los datos de mutación, se le dio relativamente mayor peso a los genes con más variantes. Iniciar la probabilidad de gen
i gratis () se define formalmente como la siguiente ecuación: donde
s
i
es el número de CRC firmas de expresión génica en el que el gen
i
es un miembro,
m
i
es el número de variantes de mutaciones conocidas en muestras de CRC en CanProVar para el gen de
i
, y
n
es el número total de los genes en la red de interacción de proteínas.
para el algoritmo NetWalker, la probabilidad de reinicio se ajustó a 0,5 y la convergencia se determinó por dónde está la probabilidad de gen
i
en el
t
ª iteración.
para evaluar la significación estadística de las puntuaciones de cada gen, hemos construido 1000 conjuntos de probabilidades de inicio azar permutada y generó 1.000 conjuntos de puntuaciones aleatorias. Para cada gen en la red, un
valor de p
locales se estimó comparando el resultado real de las puntuaciones al azar del mismo gen, y un
global de valor p
se estimó comparando el resultado real a la puntuación de azar de todos los genes [24]. Los genes con tanto local como global
p
los valores inferiores a 0,05 fueron considerados como genes importantes. Nombramos a la lista de genes importantes NEM una firma, ya que integra la información de la red, la expresión y mutación.
A modo de comparación, también se realizó la priorización de red que utiliza las probabilidades de inicio asignado basándose únicamente en datos de la firma de la expresión génica o mutación de datos, respectivamente, con las correspondientes listas de genes importantes nombradas como NE firma o la firma NM.
gene Ontología enriquecimiento análisis
gene Ontología (GO) de enriquecimiento de análisis se realizó utilizando WebGestalt [28]. El método por defecto múltiples pruebas de corrección "Benjamini & amp; Hochberg "se utilizó para el cálculo FDR. Para dar cuenta de la estructura anidada GO dependiente, WebGestalt presenta categorías GO enriquecido en un Dirigido acíclicos Gráfico (DAG) para facilitar la rápida identificación de los principales temas biológicos enriquecidos no redundante. Se realizó una investigación manual de la DAG enriquecido y se informaron los términos más representativos para cada rama.
Desarrollo y Evaluación de SSVM Modelo
Una implementación de la R survsvm disponible en el paquete survpack [29 ], [30] se empleó para el desarrollo del modelo SSVM, y se utilizó la función del núcleo de Gauss. La aplicación de SSVM tiene dos parámetros c y σ, donde c es el coste de error en la secuencia predicha de eventos y σ es el parámetro del kernel de Gauss. En este estudio, dejamos que cada uno de estos parámetros varían entre el conjunto de candidatos {10
-5, 10
-4, 10
-3, 10
-2, 10
-1 , 10
0, 10
1, 10
2, 10
3, 10
4, 10
5} para formar diferentes combinaciones de parámetros. se utilizó y se repite la validación cruzada de cinco veces cinco veces para identificar los parámetros optimizados de acuerdo con el valor C-índice (ver más abajo para una descripción). Después se evaluó el modelo SSVM plenamente desarrollado en base a los parámetros óptimos en el conjunto de datos independiente, donde una puntuación basada en SSVM fue derivado para cada paciente.
Análisis de supervivencia
La asociación entre la puntuación basada en SSVM y el pronóstico real de los pacientes se evaluó mediante los valores de C-índice, las curvas de supervivencia de Kaplan-Meier y el log-rank test. El índice C es una probabilidad de la concordancia entre predicho y observado la supervivencia, con C-index = 0,5 para las predicciones aleatorias y C-index = 1 para un modelo perfectamente discriminador. las curvas de supervivencia de Kaplan-Meier estándar se generaron para los grupos de pacientes formados en base a las puntuaciones de SSVM, y la diferencia en la supervivencia entre los grupos se evaluaron estadísticamente mediante la prueba de log-rank.
Resultados
Análisis de enriquecimiento con error Revelar convergencia funcional de las firmas
Hemos investigado 8 CRC firmas de expresión génica (Tabla 2). Siete de las 8 firmas fueron desarrollados en base a la comparación de los tumores recurrentes y no recurrentes, en el que algunos estudios incluyen tumores de todas las etapas, mientras que otros incluyen sólo los tumores de etapas seleccionadas. El estudio de Smith et al. [8] de datos de tumores humanos con los datos de modelos de líneas celulares de ratón CRC en el desarrollo de Servicios Integrados. El estudio de Barrera et al. [21] utilizó mucosa no neoplásica de pacientes en estadio II en lugar de los tumores. La
t-test
y sus variantes se utilizan para la selección de la firma en la mayoría de los estudios, y se emplearon diferentes técnicas de aprendizaje de máquina para la construcción de modelos de pronóstico. A pesar de la diferencia técnica en los procedimientos experimentales y computacionales, todos los modelos de pronóstico fueron capaces de separar la fase II y /o III pacientes en grupos de bajo riesgo y de alto riesgo. Varios modelos han sido validados en una cohorte independiente de pacientes de la utilizada para la firma y el modelo de desarrollo.
De acuerdo con informes anteriores [10], encontramos un mínimo de superposición entre estas firmas de expresión génica a nivel de genes individuales (Figura 2 ). Para probar si estas firmas convergen en procesos biológicos comunes, se realizó la ontología de genes (GO) de enriquecimiento de análisis para cada firma utilizando WebGestalt. Sólo dos firmas mostraron enriquecen los procesos biológicos en el nivel de significación de Tasa de Falso Descubrimiento (FDR) inferior a 0,01 (Figura 2). Signature_3 se enriquece en "la elongación de la traducción" (9 genes, FDR = 3.21e-12) y Signature_5 se enriquece en "proceso del sistema inmunológico" (9 genes, FDR = 0,001) y la "señalización célula-célula" (6 genes, FDR = 0,0067). resultados de enriquecimiento de firmas 3 y 5 sugirieron que las diferentes firmas podrían estar asociados con diferentes mecanismos biológicos. Por otra parte, la falta de concordancia funcional para otras firmas indicó que diferentes genes en una firma podrían representar temas biológicos distintos y, posiblemente, el ruido. A fin de probar si los temas biológicos comunes podrían ser identificados mediante la combinación de todas las firmas, se realizó un análisis de enriquecimiento para los 208 genes en las 8 firmas. procesos biológicos enriquecidos identificados incluyeron "la elongación de la traducción" (10 genes, FDR = 4.0E-4) y "decidualization" (4 genes, FDR = 0,0049). El primero fue, obviamente, principalmente el resultado de signature_3. Por lo tanto, el análisis de enriquecimiento no pudo revelar la convergencia funcional de los CRC firmas de expresión génica. Curiosamente, los estudios anteriores aunque informaron amplia concordancia entre los procesos biológicos capturados por diferentes firmas de pronóstico de cáncer de mama, un estudio reciente [31] firmas de pronóstico comparar dos máquina de aprendizaje de cáncer de mama basado sólo se encuentra concordancia estadísticamente significativa en la proliferación celular.
Cada círculo representa un patrón de expresión génica con el número entre paréntesis indica el tamaño de la firma. Las llamadas enriquecidas anotar los procesos biológicos, número de genes implicados en los procesos y las correspondientes tasas de falsos descubrimiento de la importancia de enriquecimiento.
Mecanismos comunes integrativa Análisis de la red identificados Respaldo a CRC recurrencia
estudios previos sugieren que los genes conocidos por estar asociados con el mismo fenotipo de la enfermedad tienden a estar cerca uno del otro en una red de interacción proteína-proteína [27], [32]. Además, Chen et al. [16] demostraron que la firma genes del cáncer son más propensos a estar cerca de oncogenes conocidos y supresores de tumor en una red de interacción proteína-proteína. Por lo tanto, hemos utilizado un enfoque basado en la red para integrar estas firmas en la red de interacción proteína-proteína en un intento de identificar los genes que pueden revestir importancia mecanicista al fenotipo recurrencia CRC. Además de la alteración de la expresión génica, las mutaciones somáticas en los genes mecánicamente importantes también pueden conducir al mismo fenotipo. Por lo tanto, se recogieron más de 549 genes con mutaciones somáticas en el CRC de la base de datos CanProVar [23] para mejorar el análisis de la red utilizando el algoritmo NetWalker [24]. Ambas listas de genes de la firma y la lista de genes mutados incluyen genes mecánicamente importantes (por ejemplo, mutaciones del conductor y efectores) y otros genes (mutaciones de pasajeros y epifenómenos por ejemplo). Por otra parte, algunos genes importantes mecánicamente podrían faltar en estas listas. El algoritmo NetWalker infiere genes de importancia potencial mecanicista basado en el supuesto de que estos genes son propensos a formar racimos firmemente conectados mientras que otros tienden a ser distribuidos al azar en la red. Uso de los genes de la firma y los genes mutados como "semillas", el algoritmo calcula una puntuación para cada gen en la red en base a su proximidad general a todos los genes de semillas, donde la proximidad se mide por la similitud de paseo aleatorio [27]. Para evaluar la significación estadística de los resultados, se construyó 1000 conjuntos de semillas aleatorias y generará 1000 series de puntajes al azar. Para cada gen, se estimó un
valor de p
local basada en todos las partituras aleatorias del mismo gen y un
valor de p for global basado en las puntuaciones al azar para todos los genes. A
valor p for global significativo indica la importancia global del gen con respecto a las semillas de entrada, mientras que un
p
valor local significativo asegura que el significado no es simplemente debido a la topología de la red [24 ]. Un total de 487 genes con tanto local como global
p
los valores inferiores a 0,05 fueron considerados como genes importantes, incluyendo 464 de las listas originales y 23 añadido por el algoritmo (Figura 3A). Nombramos a la lista de 487 genes de la firma NEM, ya que integra la información de la red, la expresión y mutación. La lista incluía los genes relacionados con el CRC bien conocidos, incluyendo APC, CTNNB1, KRAS, TP53, BRAF, entre otros. También incluía los genes con importancia desconocida, pero el potencial de recurrencia CRC. Una lista completa de los genes de la firma NEM y sus
valores de p ¿Cuáles son disponibles en la Tabla S1. Para probar la robustez del método con respecto a las diferentes listas de firmas de expresión génica de entrada, retiramos cada firma la expresión de las semillas, de uno en uno, y generamos 8 NEM-7 firmas (llamada así porque se utilizan sólo 7 de los 8 disponible gen firmas de expresión). Estos experimentos alteraron el número total de genes firma la expresión de entrada de 4% (cuando se eliminó signature_1) a 28% (cuando signature_2 se eliminó). el coeficiente de dados entre los NEM-7 firmas y la firma original NEM varió de 0,88 a la 0,96, con una media de 0,93, lo que sugiere alta robustez del método.
(A) La superposición entre las firmas de expresión génica publicados ( 208 genes), genes mutados (549 genes), y la firma NEM (487 genes). (B) El porcentaje de oncogenes y genes supresores de tumor en los publicados firmas de expresión génica (a), los genes mutados (b), y la firma NEM (c), como anotado por CancerGenes. genes (c) el porcentaje de oncogenes y genes supresores de tumores en las firmas de expresión génica publicados (a), mutado (b), y la firma NEM (c), como anotado por GLAD4U.
GO de enriquecimiento de análisis de la firma NEM identificó cuatro principales procesos biológicos con un enriquecimiento significativo (Tabla 3), incluyendo "transducción de señales" (186 genes, FDR = 7.07e-11), "proliferación celular" (71 genes, FDR = 3.03e-8 ), "muerte celular programada" (75 genes, FDR = 1.83e-9), y el "proceso de desarrollo" (158 genes, FDR = 3.98e-9). Aunque estos procesos son amplios y no necesariamente específica del cáncer, que son consistentes con las características del cáncer [33]. A excepción de Signature_1, todas las demás firmas de expresión incluyen un pequeño número de genes en todos o algunos de estos procesos biológicos (Tabla 3). Por otra parte, todos estos procesos biológicos fueron significativamente enriquecido en todos los NEM-7 firmas.
A continuación, se calcularon las proporciones de los oncogenes conocidos y genes supresores de tumores en la unión de la expresión génica firmas publicados, la lista de genes mutación somática, y la firma NEM, basado en las anotaciones de dos recursos diferentes, y CancerGenes GLAD4U. Debido a que muchos de los oncogenes conocidos y genes supresores de tumores están identificados en función de la mutación somática, no fue sorprendente que la lista de genes mutación somática tuvo un mayor porcentaje de estos genes que las firmas de expresión génica. Sin embargo, fue interesante ver que la firma NEM tuvo el porcentaje más alto de los oncogenes conocidos y genes supresores de tumores (Figura 3, B-C). Para entender mejor la implicación de los genes NEM firma en las vías específicas de cáncer, les asigna a la vía mapa cáncer curada por KEGG. Como se muestra en la Figura S1, la lista de genes asigna a casi todas las vías relacionadas con el cáncer, con un claro enriquecimiento en la vía de señalización Wnt, la vía de señalización de TGF-beta, y la vía de señalización de ErbB, las vías más importantes que están desreguladas en el CCR [34]. En resumen, la firma NEM mostró enriquecimiento significativo en cuatro procesos biológicos estrechamente relacionados con la fisiopatología del cáncer y proporciona una buena cobertura de los oncogenes conocidos, supresores de tumores, y las vías de señalización relacionadas con el CRC, lo que demuestra una alta relevancia para CRC biología.
los modelos de pronóstico basado en la firma NEM Efectivamente pronósticos CRC recurrencia
Para probar si la firma NEM con genes funcionalmente centradas en redes importantes pueden predecir la recurrencia CRC, hemos desarrollado modelos de pronóstico utilizando estos genes como características y evalúa el rendimiento de la modelos de cohortes de pacientes independientes.
en primer lugar, hemos entrenado un modelo de pronóstico SSVM utilizando el conjunto de datos de expresión génica GSE17536 y probaron su rendimiento en un conjunto de datos independientes establecidas GSE14333. Entre los 487 genes en la firma NEM, sólo los 467 genes en el conjunto de datos fueron utilizados para entrenar el modelo. validación cruzada de cinco veces y se utilizó repitió 5 veces para optimizar los parámetros para el algoritmo de SSVM, y se desarrolló un modelo completo basado en el conjunto completo de datos utilizando los parámetros óptimos. Para las pruebas en GSE14333, las puntuaciones SSVM se calcularon para las muestras individuales, con una puntuación más alta indica un mayor riesgo y menor tiempo de supervivencia. Las puntuaciones SSVM calculados y los datos reales de supervivencia mostraron un 75,7% de concordancia (C-index = 0,757). Sobre la base de las puntuaciones de SSVM, los pacientes fueron separados en dos grupos, un grupo de "bajo riesgo", con puntuaciones por debajo de la mediana y un grupo de "alto riesgo", con puntuaciones por encima de la mediana. Como se muestra en la Figura 4A, el grupo de alto riesgo tenían significativamente peor supervivencia libre de recaída (hazard ratio [HR], 7,47; intervalo de confianza del 95% [IC]: 1,64 a 34,0; p = 0,002) que el grupo de bajo riesgo. La supervivencia libre de recidiva a los 3 años fue del 96,9% para el grupo de bajo riesgo en comparación con el 69,3% para el grupo de alto riesgo.
curvas de supervivencia de Kaplan-Meier para los subgrupos de pacientes identificados en GSE14333 utilizando modelos desarrollados en base a GSE17536 con diferentes conjuntos de genes. (A) La firma NEM basado en el análisis de red con los nodos de semillas incluyendo 208 genes en las firmas publicados y 549 genes mutados, n = 487; (B) La firma NE sobre la base de análisis de red con los nodos de semillas incluyendo 208 genes en las firmas publicados, n = 546; (C) Los genes de la firma NM basados en el análisis de la red con los nodos de semillas que incluye 549 genes mutados, n = 435; (D) la unión de 208 genes en las firmas publicados y 549 genes mutados, N = 753; (E) 208 genes en las firmas publicados, n = 208; (F) 549 genes mutados de CanProVar, N = 549.
curvas de supervivencia de Kaplan-Meier para los subgrupos de pacientes identificados en GSE17536 utilizando modelos desarrollados en base a GSE14333 con diferentes conjuntos de genes. (A) La firma NEM basado en el análisis de red con los nodos de semillas incluyendo 208 genes en las firmas publicados y 549 genes mutados, n = 487; (B) La firma NE sobre la base de análisis de red con los nodos de semillas incluyendo 208 genes en las firmas publicados, n = 546; (C) Los genes de la firma NM basados en el análisis de la red con los nodos de semillas que incluye 549 genes mutados, n = 435; (D) la unión de 208 genes en las firmas publicados y 549 genes mutados, N = 753; (E) 208 genes en las firmas publicados, n = 208; (F) 549 genes mutados de CanProVar, N = 549.
Un estudio reciente sugiere que la mayoría de expresión de genes firmas al azar se asociaron significativamente con el resultado del cáncer de mama [35]. Por lo tanto, repetimos nuestro análisis utilizando 10 conjuntos de genes seleccionados al azar 487. Cuando los modelos entrenados en GSE17536 fueron probados en GSE14333, consiguieron una mediana índice C de 0,546 y un valor P media de 0,568. Por lo tanto, no parecen firmas de genes al azar para trabajar en el CCR pronóstico
.
Una consideración es que los 487 genes podrían ser demasiados para la aplicación clínica práctica. Por lo tanto, hemos probado diferentes valores de corte en el proceso de priorización basada en la red para alterar el número de genes seleccionados. El uso de diferentes
p puntos de corte de valor
incluyendo 0,005, 0,01 y 0,1, se identificaron 45, 105 y 810 genes, respectivamente. El uso de parámetros seleccionados en base a los resultados de la validación cruzada, tres modelos fueron desarrollados en SSVM GSE17536 y probados en GSE14333 respectivamente. Como se muestra en la Figura S2, el funcionamiento del modelo 810 gen era comparable a la del modelo 487 gen, mientras que los modelos de genes 105 y 45 mostraron poco poder de predicción. Por lo tanto, lo que reduce aún más el espacio genómico parece problemático, posiblemente debido a la complejidad subyacente de la CRC.
(A) de Kaplan-Meier de supervivencia para los pacientes de alto riesgo en GSE17536 y GSE14333, con (CTX) y sin ( NO CTX) adyuvante CTX; (B) de Kaplan-Meier de supervivencia para los pacientes de bajo riesgo en GSE17536 y GSE14333, con y sin adyuvante CTX.
Debido a que el NEM de Servicios Integrados información de las mutaciones, las firmas de expresión génica, y el proteico red de interacción de proteínas, se trató de analizar su contribución individual a la evolución observada. firmas de la red obtienen utilizando el mismo método de priorización de red, pero basan o bien en la expresión génica firmas solos (NE de la firma con 546 genes, la figura 4B) o los genes mutados solos (NM firma con 435 genes, la figura 4C) no resultar en un rendimiento comparable como que a partir de la firma NEM (Figura 4A). Específicamente, el C-índice para el modelo basado en la firma NEM fue 27% más alta que para el modelo basada en firmas NE y 13% más alta que para el modelo basado NM firma. Por otra parte, los tres modelos derivados de firmas de la red (Figura 4A-C) se comportaron mejor que sus homólogos sin priorización basada en la red (Figura 4D-F). Por ejemplo, el C-índice para el modelo basado en la firma NEM fue 28% más alta que para el modelo basado en la unión de todas las firmas de genes y genes mutados.