Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: descifrar genómicas Las alteraciones en el cáncer colorrectal a través de la base-transcripcional Subtipo Red Analysis

PLOS ONE: descifrar genómicas Las alteraciones en el cáncer colorrectal a través de la base-transcripcional Subtipo Red Analysis


Extracto

Tanto subtipo transcripcional y señalización de análisis de redes han demostrado ser útiles en la investigación genómica del cáncer. Sin embargo, estos dos enfoques se aplican generalmente en forma aislada en los estudios existentes. Estamos razón de que el desciframiento de las alteraciones genómicas en base a los subtipos de cáncer de transcripción puede ayudar a revelar las redes de controladores subtipo específico y proporcionar ideas para el desarrollo de estrategias terapéuticas personalizadas. En este estudio, hemos definido subtipos de transcripción para el cáncer colorrectal (CCR) y el controlador de redes /vías identificadas de cada subtipo. La aplicación de la agrupación consenso para una cohorte de pacientes con 1173 muestras identificaron tres subtipos de la transcripción, que fueron validados en una cohorte independiente con 485 muestras. Los tres subtipos se caracterizaron por diferentes programas relacionados con la transcripción de colon normal para adultos, colon desarrollo embrionario temprano, y la transición epitelio mesénquima, respectivamente. También mostraron estadísticamente diferentes resultados clínicos. Para cada subtipo, estudiamos los datos de mutación y la variación del número de copias somáticas en una red de señalización integrada y redes de controladores subtipos específicos identificados mediante una estrategia aleatoria basada en el paseo. Hemos encontrado que las alteraciones genómicas en la vía de señalización de Wnt eran comunes entre los tres subtipos; Sin embargo, combinaciones únicas de alteraciones de la vía Wnt incluyendo, VEGF y Notch condujeron fenotipos moleculares y clínicas distintas en diferentes subtipos de CRC. Nuestros resultados proporcionan una imagen coherente e integrado de CRC humana que une las alteraciones genómicas a consecuencias moleculares y clínicos, y se permite con conocimientos para el desarrollo de estrategias terapéuticas personalizadas para diferentes subtipos CRC

Visto:. Zhu J, Wang J , Shi Z, Franklin JL, Deane GN, Coffey RJ, et al. (2013) Descifrar genómicas Las alteraciones en el cáncer colorrectal a través del análisis de red basado en Subtipo transcripcional. PLoS ONE 8 (11): e79282. doi: 10.1371 /journal.pone.0079282

Editor: Amanda Ewart Toland, Ohio State University Medical Center, Estados Unidos de América

Recibido: 19 Agosto, 2013; Aceptado: September 20, 2013; Publicado: 15 Noviembre 2013

Derechos de Autor © 2013 Zhu et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Financiación:. La financiación de Estados Unidos Servicio de Salud Pública de subvenciones GM088822, CA126479, CA159988, CA095103, CA069457, DK052334, y CA068485. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción

el cáncer colorrectal (CCR) es una causa importante de morbilidad mundial del cáncer [1]. Durante las últimas tres décadas, los estudios genéticos moleculares han puesto de manifiesto algunas mutaciones críticas que subyacen a la patogénesis de la CRC [2]. Recientemente, con el desarrollo de las tecnologías de secuenciación de alto rendimiento, miles de alteraciones genéticas se han identificado en CRC. Además de un número limitado de oncogenes mutados frecuentemente conocidos o genes supresores de tumores, tales como APC, KRAS, PIK3CA y TP53, un número mucho mayor de genes se mutó a una baja frecuencia [3]. Se ha sugerido que las mutaciones somáticas que se encuentran en los cánceres son o "drivers" o "pasajeros" [3]. ¿Cómo distinguir los conductores de pasajeros entre los miles de mutaciones de baja frecuencia se ha convertido en un reto importante en la investigación del cáncer.

Debido a las vías y redes de señalización en lugar de genes individuales gobiernan el curso de la tumorigénesis y progresión [4], varios estudios han utilizado las vías de expertos-curada para ayudar a interpretar alto rendimiento alteraciones genómicas [3], [5], [6]. Aunque útiles, estos métodos están limitados por la cobertura y la integridad de las vías curada [7]. En consecuencia, los enfoques basados ​​en la red, tales como HotNet [8] y NetWalker [9] se han desarrollado, con la aplicación con éxito a la identificación de las subredes que están enriquecidos con variaciones genómicas [6], [10].

Red métodos basados ​​han comenzado a proporcionar una comprensión escala de los sistemas de variaciones genómicas complejas. Sin embargo, ya que los estudios existentes suelen tener en cuenta todas las muestras tumorales juntos en contraste con los controles normales, tienden a identificar las redes de señalización comunes para todas las muestras tumorales y pueden no abordar la heterogeneidad entre los genomas del cáncer.

análisis subtipo transcripcional ha proporcionado grandes conocimientos sobre la biología de la enfermedad, el pronóstico y la terapéutica personalizada para los diferentes tipos de cáncer [11], [12]. Curiosamente, a pesar de los dos análisis de subtipos y de la red de señalización de la transcripción han demostrado ser útiles en la investigación genómica del cáncer, estos dos enfoques se aplican generalmente en forma aislada en los estudios existentes. Estamos razón de que el desciframiento de las alteraciones genómicas del cáncer basado en la transcripción subtipos pueden ayudar a revelar las redes de controladores subtipo específico y proporcionar ideas para el desarrollo de estrategias terapéuticas personalizadas
.
Para CRC, informó recientemente la red TCGA (El Atlas del Genoma del Cáncer) una clasificación de los tres subtipos de la transcripción, que fueron nombrados como "MSI /CIMP", "invasiva", y "CIN", respectivamente [13]. Sin embargo, el análisis está limitado por varios factores. En primer lugar, los subtipos se identificaron a partir de una relativamente pequeña cohorte de pacientes con sólo 220 muestras y se realizó ninguna validación independiente, dejando a la generalidad de la clasificación del subtipo no probada. A continuación, debido a la falta de datos de supervivencia con suficiente tiempo de seguimiento para la cohorte TCGA, la relevancia clínica de los subtipos queda por establecer. No está claro por qué criterios el subtipo "invasivo" fue etiquetado y si está respaldado por los datos clínicos y biológicos. Por otra parte, aunque es muy interesante para vincular las características genómicas globales como la inestabilidad de microsatélites (MSI), la isla CpG metilación fenotipo (CIMP), y la inestabilidad cromosómica (CIN), con subtipos de la transcripción, sigue siendo un gran reto para traducir estas asociaciones en terapias dirigidas para los diferentes subtipos de CRC.

en este estudio, la hipótesis de que las alteraciones genómicas altamente heterogéneos observados en el CCR pueden converger a un número limitado de distintos mecanismos que impulsan únicos patrones de expresión de genes en diferentes subtipos de la transcripción. En primer lugar, hemos ampliado los resultados del TCGA mediante la realización de descubrimiento subtipo basado en datos de expresión de genes a partir de 1173 muestras de tumores CRC acumuladas durante la última década, los subtipos identificados validados en una cohorte independiente con 485 muestras, y cada subtipo asociado con la biología única y el resultado clínico. A continuación, estudiamos los datos de la variación del número de copias (CNV) y la mutación somática en una red de señalización integrada e identificamos una red de controladores para cada subtipo. Los inferirse redes y vías asociadas correlacionan perfectamente con los programas de la transcripción aguas abajo característicos para cada subtipo, que proporcionan una fuerte evidencia circunstancial de la eficacia de nuestro enfoque y la validez de nuestra inferencia. Sobre la base de las combinaciones únicas de las alteraciones de la vía y los resultados clínicos, hemos propuesto estrategias terapéuticas específicas para los diferentes subtipos de CRC.

Materiales y Métodos

Adquisición de datos y procesamiento de

Como se muestra en la Tabla S1 S1 en el archivo, los datos de expresión génica para 1173 CRC muestras humanas fueron descargados de la base de datos gene Expression Omnibus (GEO) para construir una cohorte de descubrimiento. los datos de expresión génica para un adicional de 485 muestras de CRC humanos fueron descargados de la base de datos GEO, el Archivo y ArrayExpress del Genoma del Cáncer Atlas (TCGA) para crear una cohorte de validación. Para cada conjunto de datos Affymetrix expresión génica, se utilizó el Análisis MultiChip (RMA) algoritmo robusto [14] para el procesamiento de datos, incluyendo la normalización cuantil y log2-transformación. Para hacer que el nivel de expresión comparables entre los conjuntos de datos, que normalizó aún más el nivel de expresión de cada sonda establecidos en cada relación de muestra para su expresión media en todas las muestras en el mismo conjunto de datos, restando su promedio en ese conjunto de datos de cada uno de sus mediciones de expresión [ ,,,0],15]. Como se muestra en la Figura S1 S2 en archivo, el nivel de expresión a través de los conjuntos de datos es comparable después de esta normalización. Entonces, identificadores de conjunto de sonda se asignan a los símbolos de genes basados ​​en el archivo de asignación proporcionada por las bases de datos correspondientes. Probe conjuntos asignados a múltiples genes fueron eliminados. Cuando hay varios conjuntos de sonda se correlacionan con el mismo gen, la mediana se utiliza para representar el nivel de expresión génica. Para TCGA datos de expresión génica en base a 244 K Agilent microarrays de genes Expresión, Nivel 3 datos de expresión génica (lowess normalizado log2 (Cy5 /Cy3) se derrumbó por el símbolo de genes) fueron descargados y los valores de expresión para cada gen también se portaron mal centrados. Se seleccionaron 10481 símbolos de genes comunes en todos los conjuntos de datos para los análisis posteriores.

Para investigar cambios de expresión génica en muestras de CRC con respecto a muestras de mucosa normal, los datos de expresión génica de estas 182 muestras se normalizaron entre sí mediante el algoritmo de RMA [14 ]. Entonces, que normalizó el nivel de expresión del gen de la g en cada muestra con respecto a su medio de expresión en las cinco muestras de mucosa normal, restando su promedio en las muestras normales a partir de cada uno de sus mediciones de expresión.

Para caracterizar el embrionario el desarrollo de cáncer de colon, se realizó un estudio del curso de microarrays tiempo utilizando el consanguínea C57BL /6 (Jackson Laboratories, Bar Harbor, ME) ratones (gene Expression Omnibus, GSE38831). Este estudio se llevó a cabo en estricta conformidad con el cuidado de los animales y las pautas de uso y la aprobación del Comité Institucional de Vanderbilt Animal Cuidado y Uso (IACUC). Los ratones se controlaron durante todo el experimento en busca de signos de angustia durante su ciclo de vida normal, aunque no hay manipulaciones experimentales de estos ratones se llevaron a cabo, además de la cría. Si se observaron signos de sufrimiento durante el seguimiento semanal, los ratones fueron sacrificados por asfixia con CO2, seguido por dislocación cervical para reducir el sufrimiento de los animales. Se recogieron siete muestras correspondientes al desarrollo del colon de ratón a partir de E13.5 E18.5 y adultos (ocho semana post-natal). colección de colon embrionario y preparación de ARN se realizaron como se describe anteriormente [16]. Las muestras de ARN se sometieron a la Vanderbilt Genómica Funcional recurso compartido (FSGR, http://array.mc.vanderbilt.edu), donde el ARN se purificó con el uso del kit RNeasy (QIAGEN, alencia, CA) y se hibridó a la Affymetrix del genoma del ratón 430 Expression Arrays 2,0 GeneChip (Santa Clara, CA) según las instrucciones del fabricante. El algoritmo de RMA se utilizó para la normalización de datos. Ratón símbolos de genes fueron asignadas a los símbolos de genes humanos por parte de la lista de humanos y de ratón Orthology disponibles del genoma del ratón Informática (http://www.informatics.jax.org/).

Datos de la CNV y datos para la mutación somática TCGA muestras con los datos de expresión de genes combinados fueron descargados de la página web TCGA.

Señalización de rutas curada por el NCI-Naturaleza, cáncer de células de Mapa, y Reactome fueron descargados de la base de datos Camino Commons (versión más reciente en junio de 2011). BioCarta vías de señalización fueron descargados de la base de datos del NCI Camino Interacción (Jun, 2011). La integración de las vías de todas las fuentes anteriores resultaron en una red de señalización que contiene 3152 genes y 47,833 bordes. Su componente más grande contenía los genes 3078 y 47,772 bordes, que se utilizó para la inferencia de las subredes conductor aguas arriba.

Co-expresión de red y Análisis Módulo

Sobre la base de la matriz de la expresión génica con 10.481 genes y 1173 muestras para la cohorte de descubrimiento, se han calculado coeficientes de correlación de Pearson para todos los pares de genes 54,920,440. La construcción de una red co-expresión requiere una selección apropiada de un umbral para los coeficientes de correlación por pares. Para asegurar la relevancia biológica de la red construida, se utilizó un método de conocimiento guiada para la selección del umbral [17]. En concreto, se evaluó la similitud funcional entre cada par de genes basado en la ontología de genes (GO) anotación proceso biológico utilizando similitud semántica del Resnik [18]. Las similitudes funcionales promedio de pares de genes en distintos rangos de correlación se calcularon y se representaron gráficamente (Figura S2 en S2 Archivo). Sobre la base de la trama, se seleccionó el coeficiente de correlación de Pearson absoluta de 0,45 para la umbralización debido a un fuerte aumento de similitud funcional se produce por encima de este umbral para ambas correlaciones positivas y negativas. Basado en el umbral por encima, se construyó una red de genes co-expresión con 8546 genes y 508,071 bordes. Utilizamos nuestra iterativo Clique Enumeración (ICE) algoritmo publicado previamente [17] para identificar los módulos de co-expresión relativamente independientes de la red de genes co-expresión (Figura 1A y en la Tabla S2 S1 en el archivo). Para centrarse en los principales programas de la transcripción, que requiere que cada módulo para tener al menos 20 genes únicos. Diseño del estudio

(A). Una descripción detallada de los métodos y datos utilizados en el estudio se puede encontrar en la Tabla S2 en File S1; (B) Descripción del método utilizado para inferir subredes conductor aguas arriba para los subtipos individuales.

transcripcional Subtipo de identificación

Para el descubrimiento de subtipo, se realizó el consenso promedio de vinculación agrupación jerárquica [19] , sobre la base de los genes en los módulos identificados anteriormente y todas las muestras de descubrimiento (Figura 1A y en la Tabla S1 S2 en archivos). La agrupación se realizó con GenePattern [20], utilizando los mismos parámetros que [12]. Para los subgrupos identificados de CRC, SigClust se realizó para evaluar la importancia de todas las combinaciones binarias [21] (Figura 1 y Tabla S2 en Archivo S1). Para identificar las muestras que no pueden representar bien su subgrupo, evaluamos qué tan bien cada muestra se encuentra dentro de su subgrupo. En concreto, para la muestra
i
, que computa
a (i)
como la distancia media entre los
i
y todas las demás muestras del subgrupo donde
i
pertenece. Entonces, la distancia media entre
i
y todas las muestras de cada uno de los otros subgrupos se calculan, respectivamente, y la distancia media más baja,
b (i), Francia fue identificado. A continuación, se calculó la silueta de ancho
s (i)
como se define por:
s gratis (
i
) = (
b gratis (
i
) -
una gratis (
i
)) /max (
una gratis (
i
),
b
(
i
)) [22]. Las muestras con un valor positivo silueta se retuvieron como muestras "básicos" para el subtipo correspondiente (Figura 1A y en la Tabla S2 S1 en el archivo). Este análisis se realizó utilizando el paquete de la silueta en R.

Construcción de Subtipo clasificador y la asignación de la firma genes para cada subtipo

Se utilizó un método de clasificación centroide más cercano disminuido, Análisis de Predicción de Microarreglos (PAM) [23] para construir clasificadores para los subtipos definidos anteriormente. Nos encontramos con 10 veces la validación cruzada 100 veces para evaluar el desempeño de los clasificadores con diferente número de genes. Para el clasificador seleccionado, se utilizó la siguiente regla para asignar cada gen en el clasificador a un subtipo. En primer lugar, los genes regulados de manera significativa (de Student de una cola de prueba t,
p Hotel & lt; 0,05) en un subtipo en comparación con todos los otros subtipos fueron definidos como arriba de los genes regulados por este subtipo. A continuación, resto de los genes que fueron significativamente regulan a la baja en un subtipo en comparación con todos los otros subtipos se definen como reguladas por los genes de este subtipo. Para cada subtipo, tanto los genes regulados y las reguladas por los genes fueron considerados como genes de la firma.

Conductor de subred de identificación

Se empleó el algoritmo Netwalker [9] para la identificación del conductor subred ( La figura 1A y en la Tabla S1 S2 en archivos). Teniendo en cuenta la red de señalización integrado y comienzan probabilidades para cada nodo asignado en base al estado de la variación genómica, el algoritmo utilizado el paseo aleatorio con la técnica de reinicio [24] para calcular una puntuación final de prioridad para cada nodo basándose en las probabilidades de estado estable. Hemos creado las probabilidades de inicio para todos los 3078 genes en función de su mutación somática y la información de la CNV para cada subtipo separado. Como se muestra en la Figura 1B, que computa dos matrices binarias basado en los datos de mutación somática (1 para la mutación no silenciosa, 0 para los demás) y los datos de la CNV (1 para los genes dentro de ganancias o pérdidas regiones con relación ≥1.2 o ≤0.8, 0 para los demás) para cada subtipo separado.

para asignar un mayor peso a las alteraciones genómicas observadas en las muestras con menor número total de alteraciones y alteraciones observadas en múltiples muestras, se realizó la normalización de la columna a gota seguido de resumen de modo de fila para cada matriz binaria, y por lo tanto cada matriz transformada en un vector. Para un subtipo, vamos a denotar
n
como el número total de genes y
m
como el número total de muestras. El estado de la mutación somática del gen
I
se define como:

, donde es el valor para el gen de
i Hoteles en muestra de
j Hoteles en la mutación somática matriz. Del mismo modo, el estado de la CNV gen
I
se define como:, donde es el valor para el gen de
i Hoteles en muestra de
j Hoteles en la matriz de la CNV. A continuación, y para cada gen se combinaron junto con el mismo peso. Iniciar la probabilidad de gen
i gratis () se define así como:

Para el algoritmo NetWalker, la probabilidad de reinicio se ajustó a 0,5 y la convergencia se determinó, donde es la probabilidad de gen
i
en el
t
ª iteración.

para evaluar la significación estadística de las puntuaciones de cada gen, se construyó 1000 conjuntos de probabilidades de inicio azar permutada y generamos 1000 juegos de azar puntuaciones. Para cada gen en la red, un
valor de p
locales se estimó comparando el resultado real de las puntuaciones al azar del mismo gen, y un
global de valor p
se estimó comparando el resultado real a la puntuación de azar de todos los genes [9]. A
p
valor global significativo indica la importancia global del nodo con respecto a la entrada de arranque probabilidades, mientras que un local de
p
valor significativo asegura que el significado no es simplemente debido a la topología de la red. Para cada subtipo, el mayor componente conectado formado por los genes importantes (local
p Hotel & lt; 0,05 y
p & lt
mundial; 0,05). Fue informado que la subred controlador

Análisis de supervivencia

Estándar de Kaplan-Meier de supervivencia se generaron para los subgrupos de CRC, y la diferencia en la supervivencia entre los grupos se evaluaron estadísticamente mediante la prueba de log-rank. Los análisis de regresión de riesgos proporcionales de Cox univariante y multivariante se utilizaron para evaluar los posibles factores pronósticos independientes asociados con la supervivencia. Todos estos análisis se realizaron con el paquete de supervivencia en R.

GO y KEGG Pathways Analysis Enriquecimiento

GO y KEGG análisis de enriquecimiento de la vía se realizaron con WebGestalt, en el que se utilizó la prueba hipergeométrica para el enriquecimiento se utilizó el análisis y el procedimiento Benjamini-Hochberg para controlar la tasa de falso descubrimiento (FDR) [25].

Visualización de la red

Redes se visualizaron utilizando Cytoscape [26].

resultados
h3> identificación de los tres subtipos de la transcripción

Se utilizó un método bien establecido, Consenso la agrupación [19], para la identificación fiable de los subtipos de la transcripción [12], [27]. Por lo general, los genes con alta varianza expresión a través de una cohorte de muestras son seleccionadas para agrupar las muestras [28]. Este método de selección de genes no es capaz de distinguir la variación biológica de varianza técnica. Debido a que la desregulación de la señalización de una vía clave por lo general conduce a cambios en la expresión coordinada de los genes abajo, grupos de genes co-expresados ​​a través de una cohorte de muestra (es decir, módulos de co-expresión) pueden reflejar mejor la diferencia biológica subyacente. Por lo tanto, lo primero que construyó una red de genes co-expresión y se identificaron 33 módulos de co-expresión con un total de 1472 genes únicos de una cohorte de descubrimiento con 1173 muestras de CRC (Tabla S1 en el archivo S1). A continuación, se realizó la agrupación consenso utilizando genes de estos módulos, evaluó la significación del clúster y muestras de núcleos identificados para cada grupo como se describe anteriormente [12].

De acuerdo con las matrices de consenso y las parcelas empírica de función de distribución acumulativa (CDF) en las figuras S3A y S3B en S2 de archivo, la estabilidad agrupación aumentó considerablemente de 2 grupos a 3 grupos, mientras que no se encontró incremento obvio durante más de 3 grupos, lo que sugiere que las 1173 muestras de CRC pueden dividirse en tres grupos robusta. Además, evaluó la significación clúster mediante SigClust [21] y se confirmó la significancia estadística para los tres grupos (Figura S3C en S2 Archivo). Tras Verhaak et al. [12], definimos las "muestras de la base" para cada subtipo como los que tienen mayor similitud con su propia clase que a cualquier otra clase y se identificaron 985 muestras de núcleo en función de su ancho de pulso positivo silueta [22] (Figura S3D en S2 Archivo).

a continuación, se utiliza PAM para construir un clasificador para los subtipos definidos anteriormente. La contracción en PAM realiza la selección de genes automática y potencialmente puede hacer que el clasificador más precisa mediante la reducción del efecto de los genes ruidosos. Se logró el error más pequeño promedio de validación cruzada de 0,5% utilizando todos los 1472 genes en base a 100 veces de la validación cruzada 10 veces, lo que sugiere que los genes ruidosos puede ser que ya se han eliminado en nuestra co-expresión procedimiento de selección de genes basado en módulos. Con el requisito de tasa de error relajado, PAM fue capaz de reducir aún más el número de genes en el clasificador. Por ejemplo, cuando la tasa de error aumenta a 9%, se informó de un clasificador con 853 genes. Clasificadores con un número reducido de genes son generalmente preferidos en las tareas de clasificación; Sin embargo, debido a un importante objetivo en este estudio fue comprender la biología subyacente diferentes subtipos, seleccionamos el clasificador de 1472 para facilitar el análisis de genes GO enriquecimiento de aguas abajo.

Utilizando el método descrito en Materiales y Métodos, encontramos 449 firma genes para el subtipo 1 (barra roja en la figura 2, con 402 genes regulados y 47 genes regulados hacia abajo), 505 genes de firma para el subtipo 2 (barra verde en la figura 2, con 500 genes regulados y 5 genes descendentes regulados) y 512 de la firma genes de subtipo 3 (barra azul en la figura 2, con 480 genes regulados y 32 genes regulados hacia abajo, el cuadro S3 S3 en archivos). Además, seis genes que no pueden definirse como la firma genes sobre la base de nuestros criterios se marcaron mediante la barra de negro en la figura 2 (en la parte superior del mapa de calor).

(A) Uso de los 1472 genes seleccionados, 985 muestras de núcleos en la cohorte de descubrimiento se agruparon en tres subtipos. Para cada subtipo, muestras y firma genes fueron marcadas con el mismo color (barra roja para el subtipo 1, barra verde para el subtipo 2 y la barra azul para el subtipo 3). Los procesos biológicos enriquecidos con genes de firma para cada subtipo se muestran al lado de las barras de color; (B) Utilizando el mismo ordenamiento de la firma genes y subtipos de CRC como (A), se muestra el patrón de expresión génica de las 485 muestras de CRC de la cohorte de validación.

Para mayor prueba de la importancia biológica de los genes de la firma, que computa la similitud funcional de pares para todos los genes en una firma basada en la anotación GO proceso biológico utilizando similitud semántica del Resnik [18]. Para cada firma, la similitud funcional de pares promedio de todos los genes de la firma fue significativamente mayor que la del mismo número de genes seleccionados al azar de los 1472 genes (P & lt; 0,001 para el subtipo 1, p = 0,018 para el subtipo 2, y p = 0,001 para el subtipo 3, prueba de permutación).

el pequeño error de validación cruzada en el análisis PAM, los patrones de expresión distintivas para cada subtipo, como se muestra en la Figura 2, y la coherencia funcional significativa de los genes de la firma para cada subtipo indica que nuestra clasificación subtipo CRC es a la vez precisa y bien apoyada por distintos patrones de expresión de genes relacionados funcionalmente de la firma.

para comparar nuestro enfoque basado en el módulo de co-expresión para la selección de genes con el método basado en un único gen, repetimos lo anterior análisis de agrupamiento basado en el mismo número de genes (1472) con la mayor desviación media absoluta a través de las 1173 muestras. En comparación con nuestro método, el método basado en solo gen genera error mayor promedio de validación cruzada en el análisis PAM (2% vs 0,5%). Por otra parte, la mayoría de las firmas de los subtipos específicos producidos por el método basado en el único gen no mostraron coherencia funcional significativa en comparación con las listas de genes al azar del mismo tamaño.

Validación de los tres subtipos de CRC en una cohorte independiente

Para validar los subtipos CRC descubiertos anteriormente, hemos compilado un conjunto de datos de expresión génica independiente con 485 muestras de CRC de seis recursos adicionales (Tabla S1 en el archivo S1). Las etiquetas de los subtipos de muestras de validación se prevé utilizar el clasificador PAM construido anteriormente con las probabilidades para muestras individuales proporcionados en la Tabla S3 S4 en Archivo. Usando el mismo orden de los genes y los subtipos de CRC como los utilizados en la figura 2A, la expresión de genes para los 485 muestras de el conjunto de validación se visualizó en la Figura 2B. Una comparación visual entre las figuras 2A y 2B sugiere que los tres subtipos de CRC identificadas en el conjunto de descubrimiento pueden ser robusta redescubiertas en el conjunto de datos de validación.

Dirección de cambios de expresión génica

Para la identificación del subtipo, nos centramos en los relativos cambios de expresión génica a través de todas las muestras tumorales. Para aclarar aún más la dirección absoluta de los cambios de expresión génica, se comparó la expresión de los genes de firma en cada subtipo de CRC para su expresión en las muestras normales de la mucosa del colon. Como se muestra en la Figura 3A y en la Tabla S1 S5 en Archivo, en general, los genes de firma para el subtipo 1 fueron reguladas en el subtipo 1, pero las reguladas en el subtipo 2 y 3 en comparación a la normalidad. firma genes para el subtipo 2 fueron claramente las reguladas en los subtipos 1 y 3 en comparación a la normalidad, pero la baja regulación fue más débil en el subtipo 2. firma genes para el subtipo 3 fueron reguladas en todas las muestras de CRC en comparación a la normalidad, con el más fuerte se observó sobre regulación observada para el subtipo 3 y sólo moderada regulación observada para el subtipo 2. Una tendencia similar cuando se comparan muestras TCGA de la cohorte de validación con 22 muestras normales de TCGA.

(a) Expresión de la firma genes en tres subtipos de CRC en comparación con la expresión en las muestras normales. El mapa de calor se basó en 1472 genes seleccionados, y la expresión de genes conjunto de datos GSE17536 con 177 muestras de CRC humanos y cinco muestras mucosas normales. (B) La correlación entre el patrón de expresión génica de los tres subtipos de CRC y el patrón de expresión de las diferentes etapas de desarrollo de colon de ratón en base a los genes relacionados con el tiempo. La serie de tiempo se indican en el eje horizontal, mientras que los coeficientes de correlación de Pearson se indican en el eje vertical (Los puntos representan los coeficientes de correlación de Pearson, barras representan intervalos de confianza del 95%). (C) La expresión de los genes de la firma de la EMT en tres subtipos de CRC.

Biología del Cáncer único para diferentes subtipos CRC

Se ha sugerido que la CRC tumorigénesis y progresión recapitula el desarrollo embrionario y epitelial mesenquimal (EMT) programas [29], [30]. Para comprender mejor el significado biológico de los tres subtipos de CRC, se investigó la expresión génica de los tres subtipos dentro de los contextos de desarrollo normal del colon y EMT.

En primer lugar, hemos generado un conjunto de datos de expresión génica (véase Materiales y Métodos ) del desarrollo normal de colon de ratón (E13.5-E18.5 y adultos) y los genes relacionados con el desarrollo definidos como los genes Top1000 con la mayor desviación absoluta a través de diferentes puntos de tiempo entre los que tienen una alta correlación con los puntos de tiempo de desarrollo (absoluta Spearman coeficiente de correlación & gt; 0,9). Con base en los genes relacionados con el desarrollo, se evaluó la correlación entre los patrones de expresión de los diferentes subtipos de CRC y diferentes puntos de tiempo de desarrollo. En concreto, para cada par de CRC subtipo y el punto de tiempo de desarrollo, se calculó el coeficiente de correlación de Pearson entre los centroides de subtipos de los genes relacionados con el desarrollo y los niveles de expresión de los mismos genes en el punto de tiempo. Como se muestra en la figura 3B, los patrones de expresión génica de subtipo 3 (línea azul) fueron más similares a la de la fase inicial de desarrollo de colon de ratón mientras que el patrón de expresión génica de subtipo 2 (línea verde) fue más similar a la de los dos puntos de adultos. Consistentemente, GO enriquecimiento de análisis mostró que la firma subtipo 3 fue significativamente enriquecido con genes en los procesos relacionados con la proliferación, tales como ciclo celular (FDR = 9,95 × 10
-24), el metabolismo del ADN (FDR = 9,18 × 10
-12) y el proceso metabólico ARNm (FDR = 2,63 × 10
-7) (Figura 2). Es bien conocido que el desarrollo embrionario temprano se caracteriza por una proliferación celular rápida. Por otro lado, la firma subtipo 2 fue significativamente enriquecido con genes implicados en las funciones diferenciadas necesarios para una etapa más madura de desarrollo, tales como la contracción del músculo liso (FDR = 7,00 × 10
-4) y el proceso de sistema neurológico (FDR = 1,56 × 10
-14). Estos genes son reprimidos en las células embrionarias no diferenciadas [31], que estaba de acuerdo con su expresión marcadamente reducida en 3, pero no subtipo 2 (Figura 3A). Tomados en conjunto, estos resultados sugieren que el subtipo 3 tumores de colon reactivaron los principios de programas de expresión génica de desarrollo, mientras que el subtipo 2 tumores mantienen mejor los programas de expresión de genes en el colon adulto normal.

A continuación, se analizó el patrón de expresión de un anterioridad publicado EMT firma [30] en estos tres subtipos. La firma se deriva de un conjunto de datos de microarrays [30] la comparación de líneas de células que exhiben un patrón de expresión génica mesenquimales-como (altos niveles de VIM y bajos niveles de CDH1) frente a las líneas celulares con un patrón de expresión génica epitelial (niveles bajos de VIM y altos niveles de CDH1). 149 genes regulados en líneas de células mesenquimales-como con un
p-valor
& lt; 0,01 en
t-test
fueron utilizados en nuestro análisis. Estos genes tenían un nivel mucho más alto de expresión en el subtipo 1 tumores en comparación con los otros dos subtipos (Figura 3C). GO enriquecimiento de análisis mostró que la firma subtipo 1 se enriqueció con los genes en la migración celular (FDR = 2,0 × 10
-4) y la morfogénesis de los vasos sanguíneos (FDR = 7,49 × 10
-5), los procesos biológicos estrechamente relacionados con EMT [32], [33]. De este modo, el programa EMT es característico del subtipo 1. Una lista completa de los términos de GO enriquecidos para las firmas de subtipo se puede encontrar en la Tabla S6 en S3 Archivo.

Resultados clínicos distintos para diferentes subtipos CRC
p <

El conocimiento de la salud

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]