Extracto
Se introduce una medida nuevos per-gen-gen de la variabilidad intra metilación del ADN (IGV), basado en la plataforma Illumina Infinium HumanMethylation450, que es de pronóstico predictores independientemente bien conocidos de la evolución clínica. El uso de IGV, se deriva una robusta gen-panel de firma pronóstico para el cáncer de ovario (OC,
n
= 221), el cual valida en dos conjuntos de datos independientes de la Clínica Mayo (
n
= 198) y TCGA (
n
= 358), con el significado de
p = 0,004
en ambos conjuntos. El OC pronóstico firma gen de pantalla se compone de cuatro grupos de genes, que representan procesos biológicos distintos. Mostramos las mediciones IGV de estos grupos de genes son muy probablemente un reflejo de una mezcla de heterogeneidad intra-tumoral y factor de transcripción (TF) de unión /actividad. IGV se puede utilizar para predecir el resultado clínico en pacientes de forma individual, proporcionando un sustituto de lectura de los procesos de enfermedad de difícil medida
Visto:. Bartlett TE, Jones A, EL Goode, Fridley BL, Cunningham JM, Berns EMJJ, et al. (2015) Intra-metilación del ADN de genes variabilidad es un marcador pronóstico independiente de vista clínico en Cáncer de la Mujer. PLoS ONE 10 (12): e0143178. doi: 10.1371 /journal.pone.0143178
Editor: Dajun Deng, Hospital del Cáncer y el Instituto de la Universidad de Pekín, China
Recibido: 5 de Octubre, 2015; Aceptado: 30 Octubre 2015; Publicado: Diciembre 2, 2015
Derechos de Autor © 2015 Bartlett et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Disponibilidad de datos: datos de la metilación del ADN OC para el principal conjunto de datos analizados aquí se han depositado en la Expresión génica Omnibus (GEO) con el número de GSE72021
Financiación:. Este trabajo fue financiado (MW, AJ) por el Séptimo Programa Marco de la Unión Europea ( FP7 /2007-2013) en virtud de concesión número 305428 acuerdo (Proyecto EpiFemCare), por el Instituto Nacional para la Investigación de la Universidad College Health Hospitales de Londres Centro de Investigación Biomédica, y por la apelación de Eva y la Red Europea de Investigación traslacional en Oncología ginecológica (ENTRIGO) de la Sociedad Europea de Oncología ginecológica (ESGO). TEB recibió fondos de la Ingeniería y Ciencias Físicas del Consejo de Investigación del Reino Unido (ESPRC) y el Consejo de Investigación Médica del Reino Unido (MRC) a través de la UCL complejas. ELG recibió fondos del Fred C. y B. Fundación Katherine Andersen, NIH subvenciones R01-CA122443, CA136393-P50 (la Clínica Mayo de cáncer de ovario SPORE) y P30-CA15083. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Abreviaturas : BRCA, cáncer de mama carcinoma invasivo; DNAM, la metilación del ADN; CE, cáncer de endometrio; ENCODE, Enciclopedia de elementos de ADN; FDR, tasa de descubrimiento falso; ITH, la heterogeneidad intra-tumor; OC, cáncer de ovario; IGV, Intra variabilidad del gen de la metilación del ADN; TCGA, del Genoma del Cáncer Atlas; TF, factor de transcripción; UCEC, uterino corpus endometrial carcinoma
Introducción
Las diferencias en la metilación del ADN (DNAM) los niveles se encuentran entre los primeros cambios en la carcinogénesis humana [1] y son una característica del cáncer [2], que ofrece la potencial de nuevas estrategias para predecir la biología del cáncer y los resultados. Las diferencias epigenéticas que estos cambios dan lugar a son más estables que las diferencias en el nivel de la expresión génica. niveles de expresión génica, según lo medido por el ARN, están sujetas a la variabilidad periódica y transitorios (por ejemplo, la variación diurna y mRNA inestabilidad), que no se aplican a DNAM. La identificación de indicadores fiables de diferencias en los patrones DNAM podría proporcionar una valiosa ventaja para el desarrollo de biomarcadores de cáncer basadas en ADN en el tejido y los fluidos corporales.
El cáncer de ovario (OC) y el cáncer de endometrio (CE) son los ginecológico más frecuente tipos de cáncer [3]. Sólo uno de cada tres pacientes con OC etapa avanzada sobreviven cinco años después del diagnóstico inicial [4]. Se sabe muy poco acerca de la biología de anticonceptivos orales y la forma de manipular esta enfermedad terapéuticamente. cambios DNAM son importantes en el cáncer [5]; el epigenoma es una interfaz entre el genoma y el medio ambiente [6, 7], y por lo tanto DNAM cambios pueden medir la exposición a factores de riesgo ambientales del cáncer. biomarcadores DNAM que representan un sustituto de patrones de interacción gen previamente se han asociado con el resultado clínico en una amplia variedad de tipos de cáncer [8], así como específicamente en los cánceres de las mujeres [9].
una muestra a la variabilidad de DNAM en ubicaciones genómicas específicas es conocido por ser importante en el desarrollo del cáncer [10, 11], y recientemente se ha demostrado que un aumento en la variabilidad intra-gen de DNAM (IGV), una medida de dentro de la muestra variabilidad metilación ( Fig 1a), está altamente asociada con tejidos cancerosos en comparación con sano [12]. metilación diferencial es el método utilizado comúnmente por los que los niveles de metilación se comparan entre los tejidos, fenotipos y condiciones experimentales (equivalente a la expresión diferencial de genes). A continuación, desarrollamos una firma de pronóstico basado en el IGV que es independiente de las características de pronóstico clínicos bien conocidos, y demuestra que este pronóstico firma IGV es probable que una lectura sustituta que refleja una mezcla de intra-tumoral heterogeneidad y factor de transcripción (TF) de unión /actividad .
(a) el nivel de metilación del medio en una región genómica específica se calcula por separado para el TSS200 (promotor) y las regiones genómicas de genes del cuerpo. La curva azul indica la nueva posición de la curva de color rojo después de un cambio global aditivo en nivel de metilación, lo que podría deberse a factores experimentales tecnológicas o de otro tipo, y la diferencia entre las líneas rojas y azules horizontales (niveles medios) ilustra el efecto de esta cambiar en el nivel medio de metilación. (B) La variabilidad intra-metilación de genes (IGV) se calcula a partir de la variación alrededor de la media de nivel de metilación, es decir, a partir de las líneas verticales de trazos, y se calcula de manera similar por separado para las regiones genómicas del cuerpo gen TSS200 y. Las líneas verticales de color verde se cambian muy poco en comparación con las líneas rojas verticales, que ilustra que un cambio aditivo tal global en el nivel medio de metilación tiene mucho menos efecto sobre IGV, que por lo tanto se hace referencia como un "auto-calibración medida '.
resultados
la comparación de la robustez de las medidas de predicción de metilación por-gen de datos
para evaluar la eficacia y solidez de IGV, en comparación con los niveles medios de metilación, que compararon cuatro per- medidas de metilación de genes, basados en el nivel de metilación media y IGV (Fig 1). Para cada gen, se calculó el nivel de metilación media y IGV, de forma separada para el promotor (TSS200) y regiones del cuerpo gen, mediante el uso de las especificaciones de la plataforma Illumina Infinium HumanMethylation450 de las GPC en estas regiones para cada gen. Se consideraron diferentes regiones genómicas por separado, debido a los patrones de metilación varían mucho de una región genómica a otro, y el efecto del nivel de metilación en la regulación de genes varía según la región genómica. Las cuatro medidas que se comparan, son los siguientes:
TSS200 media metilación
TSS200 IGV
cuerpo de Gene significa metilación
cuerpo de Gene IGV
Se obtuvieron perfiles DNAM en todo el genoma, a través de la plataforma Illumina Infinium HumanMethylation450, a partir de 218 muestras primarias OC. Para cada una de las cuatro medidas descritas, se utilizó 'elástico neto' [13, 14] para encontrar una selección de los genes de pronóstico. Red elástica se ha encontrado para ser un método de modelado lineal óptima para identificar grupos de genes que actúan juntos como parte de un proceso biológico común [15]. Es un método de regresión, que 'elige' el conjunto de genes que modelan los datos mejor, intentando incluyen el menor número de genes en el modelo de lo posible, garantizando al mismo tiempo que el modelo predice el resultado de interés con la mayor precisión posible. De este modo, se descarta genes que no proporcionan información útil, o que ofrezcan información repetida. Como nuestro objetivo es encontrar un conjunto mínimo de genes para su uso como una firma de pronóstico, es importante tener en cuenta que, entre estos genes, habrá grupos de genes para que su IGV contiene información redundante o superposición, y habrá grupos de genes para los que IGV contiene información complementaria para cada gen. Por lo tanto, se optó por utilizar la técnica de red elástica de discernir con precisión dicha agrupación no redundante de los genes como un conjunto de predicción mínima por parte de muchas posibilidades, a escala del genoma. Observamos que, si bien esta metodología puede parecer complejo, en este contexto, la metodología más simple no sería capaz de discernir estas agrupaciones parsimoniosos de genes en los que la información redundante superposición y se mantiene al mínimo.
Se ha evaluado la eficacia de la medidas de metilación por-gen como medidas de pronóstico dividiendo aleatoriamente los datos en dos partes: un "conjunto de entrenamiento", y un "conjunto de pruebas '. Red elástica se utilizó para seleccionar los genes y ajustar un modelo para el conjunto de entrenamiento, y la capacidad de este gen de selección y el modelo para predecir la supervivencia del paciente ciegamente resultado (ajustado por covariables clínicos) se evaluó mediante la prueba de conjunto. Esto se repitió 2001 veces, y se definieron de manera significativa los grupos seleccionados de predicción de genes en función de la tasa de falso descubrimiento (FDR) ajustado [16]
p-valor
(es decir, FDR
q
-valor) & lt; 0.1 (Fig 2a). Como se muestra en la figura 2b, único órgano gen IGV predice bien.
(a) vista general Metodología para la comparación de las cuatro medidas de metilación por-gen. (b) Los resultados de esta comparación. (C) Descripción general Metodología para el cálculo de cáncer de ovario IGV puntuación pronóstica.
Derivación de una firma de pronóstico del cáncer de ovario y el índice pronóstico del IGV
Se utilizó IGV para derivar un OC DNAM pronóstica firma (figura 2c), sobre la base de IGV gen-cuerpo (de aquí en adelante simplemente denominado 'IGV'). Hicimos esto mediante la determinación de un consenso sobre un conjunto de genes que predicen la supervivencia, siguiendo el mismo procedimiento de dividir los datos en conjuntos de prueba y entrenamiento, y luego evaluar la selección de genes y el modelo ajustado por su capacidad para predecir ciegamente los resultados de supervivencia del paciente (ajustado por covariables clínicos) en el conjunto de prueba. Con el fin de asegurar la convergencia a un resultado estable, hicimos 10
5 de tales particiones de los datos, cada resultando en una selección de predicción de genes. De estos, se encontraron 8281 como significativa (FDR
q
& lt; 0,1), y el significado de cada gen se calculó basado en el número de modelos significativos en los que apareció ese gen. 679 genes fueron seleccionados como éste para su inclusión en el pronóstico firma OC a un nivel de significación del FDR
q Hotel & lt; 0,05, con el mínimo de genes importantes presentes en 1057 de 8281 modelo se ajusta. El top 100 más significativo de estos genes se muestran en los cuadros suplementarios (S1 Archivo).
Los genes actúan a menudo juntos como parte de las vías biológicas y procesos. Por lo tanto, podemos esperar que estos 679 genes de firma de pronóstico OC pueden ser representados por un número menor de procesos biológicos subyacentes, que son importantes para la progresión de la enfermedad. La agrupación de genes con mediciones experimentales similares mediante el uso de un método de agrupación está bien establecida como un método eficaz para la determinación de marcadores de pronóstico clínicamente relevantes [17, 18]. Por lo tanto, para descubrir esas agrupaciones en los 679 genes de nuestro pronóstico firma OC, se llevó a cabo la agrupación consenso [19], para identificar grupos de genes con patrones similares de IGV a través de los pacientes. Cada grupo identificado de esta manera pone de manifiesto una tendencia IGV diferente, y por lo tanto puede corresponder a un proceso biológico subyacente diferente, que da lugar a la pauta de IGV observa en ese grupo. La agrupación se llevó a cabo por separado para los genes que se asociaron de forma individual con un resultado peor supervivencia del paciente para una mayor IGV (genes 'hiper') y para la disminución de la IGV (genes 'hipo'). El resultado fue cuatro grupos: dos de los genes, llamados cúmulos hiper hiper '1' y 'hiper 2', y dos de los genes hipo, hipo llamados cúmulos '1' y '2 hipo'; que se muestran en los cuadros suplementarios S1 (Archivo). El IGV media de los genes de cada uno de los cuatro grupos da una IGV "puntuación de clúster ', para cada grupo y para cada paciente, que se toman para ser representativa de las diferentes tendencias IGV, y el correspondiente procesos biológicos subyacentes, en el pronóstico OC la firma.
a continuación se calcula un índice pronóstico del IGV, mediante el ajuste de un modelo multivariado de riesgos proporcionales de Cox (lo que representa también para covariables clínicas) a las cuatro puntuaciones agrupadas IGV. No fue posible ajustar un modelo tal que el conjunto completo de 10014 genes, porque hay muchas más variables predictoras (genes) que las muestras [20]. Sin embargo, la reducción de la firma de pronóstico para 4 puntuaciones agrupadas, es decir, 4 predictores, permite que el modelo de riesgos proporcionales de Cox para el montaje. Esto se traduce en un coeficiente de modelo para cada puntuación cluster /predictor; estos se utilizan para calcular el índice pronóstico del IGV. El índice pronóstico del IGV es un indicador pronóstico de un solo número para una muestra individual /paciente, y que tenga en cuenta que debe calcularse sobre la base de las cuatro puntuaciones agrupadas, siendo significativamente el pronóstico.
La mediana de este pronóstico IGV el marcador se utiliza para dividir los pacientes de los principales datos de OC establecidas en mejores y peores grupos de pronóstico, que se muestra en la figura 3a y 3b. El índice pronóstico del IGV se validó en dos conjuntos independientes de los cánceres derivados de las vías de Müller. Un nuevo OC conjunto de la Clínica Mayo (
n
= 198) confirmó la capacidad de pronóstico del índice pronóstico del IGV en tanto univariado (figura 3c) y multivariado (figura 3d) analiza. Con el fin de probar si el índice pronóstico del IGV se limita únicamente a OC, o si también es predictivo en otros cánceres que surgen de la misma estructura embrionaria (es decir, el conducto de Müller), hemos aplicado nuestro puntaje pronóstico a un cuerpo uterino a disposición del público El carcinoma endometrioide (UCEC) establecer de
El Atlas del Genoma del cáncer gratis (TCGA) [21] (
n
= 358). Una vez más, en tanto univariado (figura 3e) y multivariado (Figura 3f) analiza, pudimos validar el índice pronóstico del IGV
(a), (c) y (e):. La comparación de las curvas de supervivencia de los grupos definida por el índice pronóstico del IGV, en: (a) el conjunto de datos principal OC, (c) la Clínica Mayo conjunto de validación OC, (e) el cáncer de útero conjunto de validación TCGA. Los grupos se dividen por el índice pronóstico del IGV mediana derivada en el principal conjunto de datos OC DNAM. La razón de riesgo (
HR
) se muestra con un 95% C.I. entre paréntesis, con el correspondiente
p-valor calculado por
de regresión de Cox univariante. (D), (e) y (f):. Multivariado de regresión de Cox se comparan los mismos grupos definidos por el índice pronóstico del IGV
Observamos que el uso de la mediana de la puntuación pronóstica del CO principal conjunto de datos (el conjunto de entrenamiento) dicotomizar los pacientes del OC Mayo y conjuntos de validación TCGA UCEC hace de esta una verdadera evaluación de la capacidad de pronóstico de esta metodología. Esto se debe a que por este método, los pacientes de los conjuntos de validación se clasifican uno por uno en un grupo de pronóstico mejor o peor, en términos de sus mediciones sólo DNAM. Esta clasificación se realiza de acuerdo con un umbral o límite que divide estos grupos de pronóstico (es decir, la mediana de la puntuación pronóstica en la formación conjunto de datos), y este umbral se fija de forma totalmente independiente de validación de estos conjuntos de datos.
IGV e intra-tumoral heterogeneidad
sugerimos que las puntuaciones agrupadas IGV son cada representante de los diferentes procesos biológicos, importante para la evolución de la enfermedad. Pero ¿cuáles son estos procesos? Para tratar de encontrar algunas respuestas a esta pregunta, primero como hipótesis que la heterogeneidad intra-tumoral podría ser un reflejo de IGV. El tema de la heterogeneidad intra-tumoral está recibiendo una gran cantidad de atención, dejando al descubierto una gran diversidad espacial y temporal en los procesos genómicos dentro de los tumores individuales [22]. Idealmente, el metiloma ADN de las células individuales a partir de la misma muestra de tumor debe ser analizado para abordar esta cuestión. Como un enfoque alternativo, se utiliza aquí transversal muestra la varianza de metilación (es decir, la media de variación de metilación de CpG individuales de una región específica del gen de cuerpo), como una medida de la heterogeneidad metilación intra-tumor, a fin de evaluar cómo esto varía como una función de IGV (Fig 4a). Cross-muestra variabilidad metilación es también una medida de la similitud de los perfiles de metilación son para el gen, a través de muestras. Si transversal muestra la variabilidad de metilación eran un reflejo de IGV, a medida que aumenta IGV, esperaríamos ver una variación aumentando constantemente cruzada muestra de metilación (4b figura, en forma proporcional esperado). Sin embargo, en vez vemos un patrón en el que para un bajo IGV, cruzada muestra aumenta la metilación de la varianza, mientras que para alta IGV, cruzada muestra de varianza disminuye la metilación de nuevo y es muy bajo para los valores más altos IGV. Con el fin de validar esta nueva, se analizaron dos conjuntos de datos adicionales, para lo cual se han tomado varias muestras de diferentes regiones del mismo cáncer. El primer conjunto de datos es mayor debido a los cánceres de endometrio, donde las muestras independientes han sido tomadas de 2 o 3 sitios de cáncer primarias y metastásicas, en cada uno de los 10 pacientes (Fig 4c, una curva de mejor ajuste se muestra por paciente). La segunda se deriva de los cánceres de próstata, donde 8 muestras independientes han sido tomadas del mismo tumor, de cada uno de cinco pacientes con cáncer [23] (Figura 4d, una curva por paciente). El patrón de estas curvas es casi idéntica a los estudios de heterogeneidad intra-tumorales, en el estudio OC principal, que se utilizó para identificar la firma pronóstico OC (Fig 4b), y en las muestras basales de la carcinoma invasivo del cáncer de mama TCGA (BRCA) conjunto de datos (Fig 4e). La superposición de los genes en todas las regiones de estas parcelas es también altamente significativa a través de los conjuntos de datos (Fig 4F-4H)
.
(a) variabilidad Cross-muestra de metilación (heterogeneidad intra-tumor) y IGV se calculan en diferentes y complementarios direcciones. El mapa de calor muestra el perfil de metilación de un solo gen (eje horizontal), a través de múltiples muestras (eje vertical). (B) - (e) Un patrón característico de (heterogeneidad intra-tumoral) alta variabilidad cruzada de muestras cuando IGV es baja, y viceversa, se observa constantemente a través de diferentes estudios: (b) Principal OC conjunto de datos, (c ) El cáncer de endometrio intra-tumoral heterogeneidad conjunto de datos, (d) el cáncer de próstata intra-tumoral heterogeneidad conjunto de datos, (e) BRCA basal conjunto de datos. (F) - (h) La superposición de genes en cada región de (b) con los genes en las regiones equivalentes de (c) - (e) es muy significativa. En (c) y (d), cada línea se refiere a muestras de un único paciente, y es una curva de mejor ajuste equivalente a la mostrada en (b) y (e). En (b), las probabilidades de los coeficientes y
p
-valores en la parte superior de la trama espectáculo enriquecimiento de los genes de cada grupo, cada lado de la IGV mediana de la firma de pronóstico. Siglas. ITH (heterogeneidad intra-tumoral), OC (carcinoma de ovario), BRCA (cáncer de mama carcinoma invasivo) guía empresas
Los genes de hiper grupo 1 son más representada en la mitad izquierda de la figura 4b, donde IGV es menor, y la heterogeneidad de la muestra cruzada metilación es típicamente más altos. Esto sugiere que el aumento de IGV de estos genes está asociado con la heterogeneidad intra-tumor. Sin embargo, los genes de los cúmulos de hiper e hipo 2 2 caída en su mayoría en la región de alta IGV y la variabilidad metilación cruzada muestra baja (hacia la derecha de la figura 4b). Esto significa que, para los genes de estos grupos, sus perfiles de metilación tienden a ser similares en diferentes muestras del mismo tumor, o de diferentes tumores. En el caso de hiper clúster 2, esto corresponde a la alta variabilidad de metilación dentro de un solo gen en los casos de mal pronóstico, y que esta variabilidad es consistentemente similares en todo el tumor y entre los tumores. Por lo tanto, los genes de hiper grupo 2 muestran un alto IGV en los casos de mal pronóstico, sin embargo, parecen ser independientes de la heterogeneidad intra-tumor. Por lo tanto, se especula que el aumento de IGV de estos genes es un fenómeno inherente de las células del tumor, independiente de la heterogeneidad intra-tumor. Esto significa que la firma de pronóstico IGV combina medidas de heterogeneidad intra-tumor, con las de los fenómenos inherente independiente, de células tumorales. Observamos que los términos 'hiper' y 'hipo', aquí se refieren a los cambios, en lugar de nivel absoluto. Por ejemplo, S1 Fig muestra que hypo clúster 2 tiene la mayor IGV de cualquier grupo; sin embargo, el IGV de este grupo es en realidad menor en pobre en comparación con casos buenos pronósticos.
Los genes que definen hipo grupo 1 tienen la media más alta cruzada muestra de metilación variabilidad (Figura 4), así como la media más alta nivel de metilación (S2 figura), y la baja de los IGV hipo 1 genes se asocia con un mal pronóstico. En un primer momento, parece difícil de explicar que los cánceres de mal pronóstico tienen IGV menor en los genes hypo1, sin embargo, estos genes hypo1 también destacan por su gran heterogeneidad metilación muestra de la muestra. Para explicar esto, se utilizó una medida de CpG-CpG variabilidad metilación, lo que llamamos la media derivada [12], que se calcula como la diferencia absoluta media en los niveles de metilación entre los CpG adyacentes del gen-cuerpo de un gen, en una una sola muestra. La matriz de Illumina HumanMethylation 450K mide los niveles de metilación de CpG loci específicos, promediado a través de una muestra mixta plano de muchas células. La figura 5a y 5b muestran dos ejemplos de cómo la metilación alta variabilidad en el nivel de una sola célula podría manifestarse en medidas adquiridas mediante esta tecnología.
La matriz 450K proporciona mediciones de metilación de una muestra mixta en marcha de varias celdas. (A) Un ejemplo de un patrón de metilación que es muy variable, de manera similar a través de las células. Esto lleva a una baja heterogeneidad transversal de la muestra, y de alta IGV, como en hiper grupo 2. (b) Un ejemplo de un patrón de metilación que es muy variable, pero de una manera heterogénea a través de las células. Esto conduce a una alta heterogeneidad transversal de la muestra, sin embargo, el efecto neto de un promedio de los perfiles de metilación en toda la muestra de mezclado de muchas células da una medición con bajo IGV, como en hipo grupo 1. (c) Una medida de CpG-CpG variabilidad metilación , calculado como el derivado de media, o la diferencia absoluta media en el nivel de metilación CpG entre adyacentes. (D) La variabilidad de la medida derivado Medio en todos muestras cuantifica la heterogeneidad de la variabilidad de metilación CpG-CpG. hiper Cluster 2 es baja de acuerdo con (d), y por lo tanto corresponde a un patrón tal como (a). hipo grupo 1 es alta de acuerdo con (d), y por lo tanto corresponde a un patrón como (b).
En el ejemplo de la figura 5a, vemos que hay poca heterogeneidad célula-célula, aunque existe una gran variabilidad dentro de un gen. Por lo tanto, esto da como resultado mediciones de alta IGV, y baja variabilidad metilación cruzada de la muestra, como vemos en hiper clúster 2. A continuación, la figura 5b muestra un ejemplo en el que hay una variabilidad mucho célula-célula, así como mucho la variabilidad dentro de un gen . El resultado es que la adhesión a la muestra metilación variabilidad de las mediciones de la matriz es alto, sino porque 'promediar' los perfiles de metilación muy variables a través de las células mixtas en marcha de la muestra, el resultado neto es una medida con un bajo IGV. Para examinar si esta hipótesis es plausible, usamos la medida media derivada de CpG metilación CpG variabilidad (Figura 5c). Por teniendo en cuenta lo heterogéneo esta variabilidad CpG-CpG es a través de muestras (figura 5d), estamos en condiciones de confirmar que en los genes de hipo grupo 1, la variabilidad de metilación CpG-CpG tiende a ser más diferentes en diferentes células que en cualquier otro clúster , como se refleja en la alta varianza de las mediciones derivado medias. También estamos en condiciones de confirmar la figura 5d que en los genes de hiper grupo 2, la variabilidad de metilación CpG-CpG tiende a ser menos diferentes a través de las diferentes células que en cualquier otro grupo, como lo indica la baja varianza del derivado media. Por lo tanto, estos datos apoyan el modelo que se muestra en la figura 5a y 5b de los genes en el grupo 2 hiper e hipo 1, respectivamente
Papel funcional de la actividad de factores de transcripción en el IGV
.
A medida que los genes que comprende hiper grupo 2 parecen mostrar la misma IGV en la mayoría de las células del tumor, pero el alto IGV de la hiper grupo 2 genes se asocia con un mal pronóstico, consideramos que la hiper grupo 2 IGV a ser un "tumor de células compatibles fenómeno inherente ' , que es probable que sea regulado por diferencial de unión de factores de transcripción (TF). Por lo tanto, se examinó la unión a las regiones del cuerpo génica de los genes de la firma de pronóstico OC TF, y probamos la correlación de la expresión de FT con el IGV de los genes que se unen a (en un conjunto TCGA de los cánceres de mama basal). Se encontró que cada grupo de pronóstico firma muestra su propio patrón distintivo de TF de unión (figura 6a), la cual podemos plantear la hipótesis está asociada con los procesos biológicos responsables de la patrón característico de IGV observa en ese grupo.
(una ) Falso descubrimiento tasa ajustada
p-valores
y odds-ratio (OR) muestran enriquecimiento de unión de factores de transcripción específicos (TFS), a las regiones del cuerpo génica de los genes de cada grupo. TFS para los que la unión es significativamente mayor o menor enriquecido (prueba exacta de Fisher, FDR
q Hotel & lt; 0,05) son de color verde y rojo, respectivamente. (B) TFS que muestran correlación significativamente más positiva con IGV de los genes que se unen a, en comparación con los genes que no se unen a. (C) TFS que muestran correlación significativamente más negativa con IGV de los genes que se unen a, en comparación con los genes que no se unen a. (D) TFS que son significativos de acuerdo con (a) y, o bien (b) o (c); TFS con relevancia conocida se indican con una referencia al estudio pertinente. La falta de enriquecimiento de la unión a los genes de hypo2 clúster TF, es un reflejo de la pequeño número (19) de los genes en este clúster.
unión al factor de transcripción información del sitio, obtenido de la ENCODE ( Enciclopedia de Elementos de ADN) del proyecto [24], estaba disponible para las regiones del cuerpo de genes de todos los genes representados en la matriz Illumina HumanMethylation 450K, de 55 factores de transcripción. Hemos probado cada uno de estos 55 TFS, para incrementarse o reducirse significativamente la unión a los genes de cada grupo firma pronóstico. hipo grupo 2 sólo se compone de 19 genes, y por lo tanto no podemos esperar a ver muchas correlaciones significativas, debido al tamaño pequeño de la muestra. Pero, curiosamente, por hiper grupo 2 (compuesto por metilación de genes cuyos niveles varían poco a través de los tumores pero muestran mayor IGV), vemos que el 20% (11/55) de los TF prueba muestran significativamente más unión a estos genes de lo esperado, mientras que el 16 % muestran significativamente menos vinculante de lo esperado. Para los grupos de genes para los que DNAM varía a través de /dentro de los tumores y que tienen generalmente bajos IGV (clusters hiper 1 e hipo 1), ni un solo TF mostró mayor de lo esperado de unión, mientras que el 27% y el 38% de TFS muestran inferior a la esperada unión a los genes que comprenden hiper e hipo clúster 1 1, respectivamente. Esto es consistente con la idea de que la unión TF está implicado en procesos distintos y diferentes asociados con IGV y la heterogeneidad de metilación dentro de una muestra.
También queríamos probar la correlación real de expresión de la TFS con el IGV de los genes que se unen a, y genes que no se unen a, en todo el genoma. Para ello, se utilizó un conjunto TCGA de los cánceres de mama basales, para el que existen datos 450k de metilación, así como los datos de expresión. Ya hemos establecido un alto grado de similitud en el comportamiento de nuestros genes firma de pronóstico en OC y estas muestras basales TCGA BRCA (figura 4). Además, se ha sido ampliamente demostrada por el consorcio TCGA que los cánceres basales ovárico y uterino y BRCA serosos de alto grado son extremadamente molecularmente similar [25]. 6b y 6c muestran la figura TFS con un número significativamente más positiva, y más negativa, la correlación con el IGV de los genes que se unen a, en comparación con los genes que no lo hacen. Es interesante que los dos factores de transcripción más altamente clasificados de acuerdo al aumento de la correlación positiva de su expresión con el IGV en los genes ligados,
Rad21
y
Brg1 gratis (
SMARCA4
), son las dos partes de la cromatina complejos que modifican pertinente para detener la identidad celular [26, 27]. En particular,
Brg1 gratis (
SMARCA4
) se ha mostrado recientemente tener especial relevancia para el cáncer de ovario de células pequeñas [28-30]. La superposición entre los TFs que muestran significativamente diferentes modelos de unión en relación con los genes de la firma de pronóstico de OC, y TFS qué pantalla se alteró significativamente la correlación de su expresión con el IGV de los genes que se unen a, se muestra en la figura 6d. Tanto detalle relevante ya se ha informado sobre la mayoría de estos TFS (referencias indican en la figura): o bien su unión está influenciado por metilación (o
viceversa
), o que están involucrados con la remodelación de la cromatina en las células madre . Los TFS mostrados en la figura 6d son importantes para los procesos subyacentes progresión de la enfermedad, que se asocian con nuestra firma pronóstico OC (TFS con relevancia conocida se indican con una referencia al estudio pertinente [26, 31-40]). Por lo tanto, la hipótesis de que el IGV, en nuestro panel de pronóstico gen firma OC, representa una medida sustituta para su actividad y su papel en la transformación de la enfermedad.
Asociación de las GPC de la firma de pronóstico con las islas CpG y regiones potenciadoras
la ubicación de las GPC en relación con las islas CpG (CGI) es conocido por ser un determinante importante del papel funcional de estos CpG [41]. Hemos probado para el enriquecimiento de las sondas anotado a las regiones CGI 'isla', 'tierra' y 'estantería' entre todas las sondas cuerpo de genes anotados, así como sondas anotado a los cuerpos de genes de los genes de nuestro pronóstico firma, y de los cuatro grupos . Si bien hemos encontrado que las sondas de genes del cuerpo se agotaron global significativamente para las sondas en estas regiones CGI, lo contrario era cierto para los cuerpos de genes de nuestro pronóstico firma (véase los cuadros suplementarios en S1 Archivo). Este efecto parece estar impulsado en gran medida por el segundo grupo. Esto indica un papel destacado para las islas CpG en las áreas relevantes de los genes de nuestro pronóstico firma.
Localización de las GPC en relación con potenciador regiones también se sabe que es relevante para el papel funcional de las GPC. Hemos probado si hubo enriquecimiento de sitios de metilación anotado a los potenciadores de genes en organismos en general, encontrando que existe, como era de esperar. A continuación, hemos probado el enriquecimiento potenciador de manera similar en los cuerpos de genes firma de pronóstico, y los cuerpos de genes de los grupos individuales.