Extracto
Recientemente, los enfoques computacionales que integran número de copias aberraciones (CNA) y la expresión genética (GE) han sido ampliamente estudiados para identificar genes y las vías relacionadas con el cáncer. En este trabajo, integramos estos dos conjuntos de datos con la interacción proteína-proteína de la información (PPI) para encontrar módulos funcionales relacionados con el cáncer. Para integrar los datos de la CNA y GE, primer paso fue construir una red de relaciones gen-gen a partir de un conjunto de genes de semillas mediante la enumeración de todos los tipos de correlaciones por pares, por ejemplo, GE-GE, GE-CNA y CNA-CNA, a través de múltiples pacientes. A continuación, se propone un algoritmo de identificación del módulo de cáncer basado en la votación mediante la combinación de propiedades topológicas y basadas en datos (algoritmo VToD) mediante el uso de la red de relaciones gen-gen como una fuente de información basada en datos, y los datos de PPI como información topológica. Se aplicó el algoritmo de VToD a 266 glioblastoma multiforme (GBM) y 96 de carcinoma de ovario (OVC) muestras que tienen tanto la expresión y copiar las mediciones numéricas, y se identificaron 22 módulos de GBM y 23 módulos de la OVC. Entre 22 módulos de GBM, 15, 12, y 20 módulos fueron significativamente enriquecido con las vías KEGG, BioCarta relacionados con el cáncer, y GO términos, respectivamente. Entre 23 módulos OVC, 19, 18, y 23 módulos fueron significativamente enriquecido con las vías KEGG, BioCarta relacionados con el cáncer, y GO términos, respectivamente. Del mismo modo, también se observó que 9 y 2 módulos de GBM y 15 y 18 módulos OVC se enriquecieron con el censo gen del cáncer (CGC) y los genes específicos del controlador de cáncer, respectivamente. Nuestro algoritmo módulo de detección propuesto superó significativamente a otros métodos existentes tanto en términos de enriquecimiento conjunto de genes del cáncer y funcionales. La mayor parte de las vías relacionadas con el cáncer de ambos conjuntos de datos de cáncer que se encuentran en nuestro algoritmo contenían más de dos tipos de relaciones entre genes, que muestra una fuerte correlación positiva entre el número de diferentes tipos de relación y de enriquecimiento CGC-valores (0,64 y 0,49 para GBM para HNV). Este estudio sugiere que los módulos identificados que contienen tanto los cambios de expresión y CNA puede explicar las actividades relacionadas con el cáncer con mayor conocimiento
Visto:. Azad AKM, Lee H (2013) Módulo de Identificación del cáncer de votación basado en Al combinar topológica y Data- Propiedades impulsadas. PLoS ONE 8 (8): e70498. doi: 10.1371 /journal.pone.0070498
Editor: Dongxiao Zhu, Wayne State University, Estados Unidos de América
Recibido: 9 de noviembre de 2012; Aceptado 19 de junio de 2013; Publicado: 5 de Agosto, 2013
Derechos de Autor © 2013 Azad, Lee. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo (Nº 2011-0029447) fue apoyada por el Programa de Investigador mitad de su carrera a través de una subvención de la Fundación Nacional de Investigación financiado por el Ministerio de Educación, Ciencia y Tecnología. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
el cáncer es una enfermedad genética común y una causa principal de la muerte en todo el mundo. genómica del cáncer identifica cambios en los genes que juegan un papel importante en la iniciación y progresión del cáncer. Décadas de investigación han puesto de manifiesto que el cáncer está estrechamente relacionado con los cambios anormales en las vías de regulación y de señalización durante su crecimiento y malignidad [1], [2]; tales desregulaciones en las vías principales se producen debido a las combinaciones de alteraciones genéticas y los cambios de expresión de oncogenes o genes supresores de tumores [3] - [5]. Por lo tanto, muchos se han desarrollado algoritmos para identificar las vías relacionadas con el cáncer [6] -. [9] utilizando ADN CNA, cambios de GE, IBP, y así sucesivamente
usos extensivos de GE para el estudio de las vías moleculares han ayudado en la clasificación de los subtipos de cáncer, predecir el pronóstico y el desarrollo de fármacos para el cáncer. Sin embargo, utilizando únicamente los datos de GE para la identificación de genes relacionados con el cáncer no es suficiente debido a que algunos genes importantes en las vías relacionadas con el cáncer no pueden ser expresados diferencialmente y algunos genes expresados diferencialmente podría no ser relevante para el cáncer. CNA son variaciones estructurales de las secuencias de ADN que representan copias anormales de segmentos de ADN en una forma de deleción o amplificación en la célula [10]. CNA son conocidos por ser una característica del cáncer, y métodos que incluyen logís- [11], RAE [12], y WIFA [13] se han utilizado para la detección de genes de cáncer de controlador en regiones genómicas aberrantes. Un reciente análisis a gran escala de las muestras de GBM de Genoma del Cáncer Atlas (TCGA) [8] mostró alteraciones genéticas como mutaciones, supresiones y amplificaciones de ADN en 78%, 87% y 88% de las 206 muestras de GBM en los componentes básicos de RB, TP53, y las vías de RTK /PI3K, respectivamente.
Varios estudios han informado recientemente la importancia de la integración de conjuntos de datos CNA y GE para la identificación de las vías relacionadas con el cáncer. TCGA la investigación sobre el cáncer de ovario mostró que las alteraciones genéticas y la expresión de genes cambios se producen de forma simultánea en la vía de señalización del retinoblastoma [14]. Jörnsten
et al.
[15] desarrolló un modelo que explica los efectos de la CNA en GE en una red a gran escala. Basado en el modelo, índices pronósticos se calcularon y se identificaron los genes relacionados con el cáncer. Akavia
et al.
[16] empleó un enfoque bayesiano integradora para identificar biológica y terapéuticamente genes controladores importantes en las regiones alteradas genéticamente mediante la asociación de genes conductor candidato con genes expresados diferencialmente. Aplicaron el método propuesto para un conjunto de datos melanoma y genes de controladores conocidos identificados en el melanoma, junto con nuevos genes del cáncer de controladores TBC1D16 y RAB27A. Un avance importante en la combinación de CNA y GE está analizando los genes como un módulo en lugar de genes individuales. Witten
et al.
[17] aplicó el análisis de correlación canónica para la integración de los CNA y GE. Este método vincula módulos CNA con módulos de GE y optimiza las interacciones CNA-GE.
En la construcción de módulos o subredes, los IBP se han utilizado como información previa para incorporar la conectividad entre los genes. Cerami
et al.
[9] propuso un método para construir subredes que contienen un número significativo de genes mutados por medio de IPP humanos y para identificar las vías que están relacionados con GBM. Chuang
et al.
[6] propuso un enfoque de integración de los IBP y GE conjuntos de datos para identificar marcadores de subred que clasifican los tumores metastásicos y no metastásicos.
Proponemos un marco computacional para incorporar CNA -CNA, CNA-GE y GE-GE relaciones con la red de interacción de proteínas para identificar los módulos relacionados con el cáncer en el que los cambios genéticos de los genes se explican por estas relaciones. Aunque la relación GE-GE se ha estudiado durante décadas [18] - [20], CNA-CNA [21] - [23] y CNA-GE [7], [24] - [27] relaciones sólo se han estudiado recientemente . Se observa que las amplificaciones y deleciones de segmentos de ADN pueden afectar los niveles de expresión de genes en la misma ubicación, así como genes yacimiento lejano [25]. Esta asociación-trans situado entre CNA y GE puede ser uno de los mecanismos que explican relaciones complicadas entre los genes en la señalización y vías de regulación. Para incorporar estas relaciones complejas, construimos una red de relaciones gen-gen alterado utilizando el número de genes expresados diferencialmente y copiar de manera significativa en los conjuntos de datos apareados que contienen tanto datos de ADN y ARN en el mismo grupo de pacientes. Entonces, también incorporamos información PPI para explotar las dependencias funcionales entre los genes anteriores. Se utilizó un enfoque de votación para encontrar los genes representativos que están fuertemente relacionados con otros genes a través de asociaciones entre los CNA, GE, y los IBP. Estos genes representativas se utilizan para construir pre-módulos mediante la inclusión de genes fuertemente relacionados. Entonces, pre-módulos se combinan con otros pre-módulos que tienen una asociación estadísticamente significativa a través de la CNA, GE, y las relaciones de PPI, y se generan los módulos finales.
El enfoque propuesto se aplicó a los datos de GE y CNA de GBM y las muestras de la OVC de TCGA para identificar los módulos relacionados con el cáncer. Los módulos identificados fueron evaluados en dos aspectos: su coherencia funcional y relevancia para el cáncer. Para comprobar que los módulos están compuestos de genes funcionalmente coherentes, se aplicaron pruebas de enriquecimiento funcionales utilizando KEGG [28], las vías BioCarta [29], y GO proceso biológico [30]. Para comprobar que los módulos generados están relacionados con el cáncer, por primera vez seleccionado vías relacionadas con el cáncer a partir de estas tres categorías de vías. Puesto que todavía no existe un consenso acerca de qué vías o términos funcionales están relacionados con el cáncer, se considera que una vía está relacionado con el cáncer si es considerablemente enriquecido con genes relacionados con el cáncer de un censo gen del cáncer (CGC) [31]. A continuación, se aplicaron pruebas de enriquecimiento por estas vías relacionadas con el cáncer. Nuestros resultados mostraron que las vías relacionadas con el cáncer se enriquecieron con nuestros módulos identificados en ambos conjuntos de datos de GBM y la OVC, y que un número significativo de genes en los módulos se asociaron con otros a través de la CNA-CNA, CNA-GE, y las relaciones GE-GE .
resultados
un marco para la combinación de propiedades topológicas y guiados por datos de
Hemos desarrollado el enfoque VToD para construir módulos que se componen de un conjunto de funcionalmente coherente y cáncer- genes relacionados. VToD fue desarrollado basado en cuatro ideas principales; (i) los genes con los perfiles de expresión de genes similares y número de copias cambios tienen más probabilidades de estar en el mismo módulo, (ii) los genes se pueden asignar en múltiples módulos para reflejar el conocimiento biológico que algunos genes están implicados en múltiples vías, (iii) genes en una corta distancia en la red PPI son más probable que pertenecen al mismo módulo, y (iv) genes de concentradores de la red PPI son más propensos a ser incluidos en los módulos, ya que muchos genes cubo que tiene un gran número de socios que interactúan puede contribuir al desarrollo del cáncer. Las dos ideas anteriores consideran propiedades basadas en datos, y los dos últimos reflejan las propiedades topológicas de los genes dentro de la red PPI.
El diagrama esquemático de nuestro método VToD propuesto se muestra en la Figura 1. VToD construye una relación gen-gen la red, mediante la integración de conjuntos de datos de GE y la CNA, donde se encuentra un conjunto de genes de semillas y es un conjunto de relaciones entre genes. genes de semillas se seleccionan mediante la combinación de genes expresados diferencialmente (DE) y los genes de la CNA, donde los genes CNA se obtienen de TCGA [8], [14] y enumerados en la Tabla S1. Para GBM, 4.821 genes de semillas fueron seleccionados mediante la combinación de genes DE 2.976 y 2.073 genes CNA. Para OVC, 6.649 genes de semillas fueron construidas por 710 DE genes y 6.510 genes CNA. Tenga en cuenta que algunos genes de semillas son ambos expresados diferencialmente y número de copia alterada. Las relaciones entre genes fueron construidos, en el que dos genes tienen una fuerte correlación en al menos uno de los tres tipos de relaciones: GE-GE, GE-CNA y CNA-CNA. Entonces, VToD integra un conjunto de datos de PPI se establece con la red de relaciones gen-gen
GGR
siguiendo cuatro pasos principales.
(A) las expresiones de genes y se recogen sus datos apareados CNA. (B) Una red de relaciones gen-gen,
GGR
, se construye utilizando las relaciones directas e indirectas de GE-GE, GE-CNA y CNA-CNA. (C) Un nuevo algoritmo, VToD, encuentra los módulos que combinan el
GGR
redes y la información PPI se solapan. (D) enriquecimientos conjunto funcional y el gen del cáncer son la prueba de módulos identificados
Calcular la asociación entre genes:.
Por cada dos genes, y un valor de asociación de un gen a gen es calculada mediante la combinación de la relación gen-gen y el conjunto de datos PPI. El valor de asociación se llama - en este estudio, ya que suponemos que los votos de genes para el gen para representar la fuerza de la asociación entre dos genes
seleccionar los genes representativos de cada gen: opinions sobre. gen, los valores de voto de todos los otros genes están ordenadas en orden descendente, y los genes localizados en el% más alto de los valores de voto son seleccionados como los genes representante del gen.
formulario de pre-módulos :
Si se selecciona un gen como un gen representante de múltiples genes, otros genes selección del gen como el gen representante junto con el gen en sí forman un módulo de pre-
Combinar pre-módulos. :.
dos pre-módulos se combinan si los miembros de pares de los dos pre-módulos están altamente relacionados en la red de relaciones gen-gen y están estrechamente conectados en la red PPI
el algoritmo VToD está inspirado por un sistema de transducción de señal dinámica (STM) algoritmo [32] en la que, para cada gen, los genes más asociados se seleccionan para formar pre-módulos en función de la topología de PPI solamente. Sin embargo, la distinción clara se encuentra entre STM y VToD en el proceso de (i) el cálculo de la relación entre dos genes y (ii) la fusión de pre-módulos, ya que nuestro enfoque integra GE, CNA, y los conjuntos de datos de PPI.
Los módulos construidos fueron evaluados en dos aspectos; (I) que mide la relevancia funcional de los módulos identificados mediante pruebas de si los genes en un módulo se enriquecieron de KEGG, vías BioCarta, y los procesos biológicos en términos de GO (denominada prueba de enriquecimiento funcional), y (ii) se evaluó la pertinencia de la módulos para el cáncer mediante la aplicación de una prueba de enriquecimiento de las vías relacionadas con el cáncer o funciones biológicas relacionadas con el cáncer, que son subconjuntos de los anteriores tres categorías de vías /GO términos enriquecidos con genes relacionados con el cáncer de CGC [31] (llamado un cáncer- ruta relacionada con la prueba de enriquecimiento). Además, hemos probado si los genes en los módulos identificados fueron enriquecidos con genes del cáncer de genes conductor CGC, GBM [33], y los genes relacionados con la OVC [34]. En estas evaluaciones, las estadísticas hipergeométrica se utilizaron para la prueba de enriquecimiento.
Módulos de la VToD Algoritmo
La distribución de todas las relaciones entre genes enumerados por parejas (GE-GE, GE-CNA, y CNA-CNA) entre los genes de semillas se muestran en la Figura S1, y la distribución de todos los valores de voto para GBM y conjuntos de datos OVC se muestran en la Figura S2. Dado que el número de pre-módulos depende de los valores de% en el paso 2 del algoritmo VToD, probamos tres valores para examinar cómo afectan los valores de los módulos pre-construidos. Voto-valores de la parte superior al 1%, 0,25% y 0,1%, finalmente cedieron 100, 68 y 43 pre-módulos para GBM, y 138, 53 y 34 pre-módulos para HNV. A continuación, se aplicó las pruebas de enriquecimiento funcionales y pruebas de vía de enriquecimiento relacionados con el cáncer que se generan usando los tres valores de umbral por encima de pre-módulos. La Figura 2 muestra la fracción de pre-módulos enriquecidos; aunque muchos pre-módulos tienen importantes coincidencias con las vías conocidas a través de los tres umbrales, pre-módulos de = 0,25% y 0,1% tienen más solapamientos con las vías en comparación con = 1%, lo que demuestra que los valores de voto superiores generan mayor fracción de funcionalmente relevante y relacionadas con el cáncer módulos.
(a) es para GBM y (B) es para HNV. Las barras representan fracciones de módulos enriquecidos con KEGG, BioCarta, GO proceso biológico, relacionada con el cáncer relacionado con el cáncer de KEGG, BioCarta, relacionada con el cáncer GO proceso biológico, y el censo gen del cáncer (CGC) para los tres umbrales de voto diferentes. Además, en cada caso, los valores de voto se calcularon utilizando sólo las propiedades topológicas, utilizando sólo las propiedades basadas en datos, y combinándolos para comparar sus efectos individuales en el rendimiento. El número de genes (NGS) en cada conjunto de pre-módulo se muestran correspondientemente.
También puso a prueba la importancia de considerar las propiedades topológicas y basadas en datos para el cálculo de voto por parejas. Hemos generado pre-módulos utilizando las propiedades basadas en datos topológicos única y solamente. Cuando se utilizó la propiedad única, se seleccionó el mismo número de pares de genes con la de los pares de genes seleccionados mediante la combinación de las dos propiedades para cada valor de. En todos los tres valores para el umbral, la fracción de módulos funcionalmente enriquecido fue mayor cuando las propiedades topológicas y basadas en datos se combinaron que cuando se utilizó solamente una sola propiedad tanto para GBM y OVC, como se muestra en la Figura 2.
Elegimos = 0,1% como umbral para el análisis adicional. El uso de este umbral, para GBM, se obtuvieron 43 pre-módulos. Mediante la fusión de estos pre-módulos, se generaron 22 módulos, y el número promedio de genes en los módulos fue 24. Para OVC, utilizando el mismo umbral, se generaron 34 pre-módulos, y se obtuvieron 23 módulos después de la fusión pre-módulos, donde el promedio de número de genes es 57. Todos los genes en los módulos se enumeran en la Tabla S2 y S3 Tabla. La significación estadística de los módulos identificados se muestra en la Figura S3
.
Dado que el algoritmo VToD permite múltiples apariciones de genes en varios módulos, se calculó la proporción promedio de los genes comunes entre los módulos. Para GBM, la relación de gen común era 16,07%, que fue similar a las de las vías KEGG y BioCarta. Además, se calculó la distribución de las relaciones entre genes comunes. Alrededor de la mitad de los módulos tenía 10% de los genes comunes, lo que indica que los módulos finales serán enriquecidas con distintas vías funcionales o términos (Figuras S4A y S4B). También se investigó tres tipos diferentes de relaciones directas (GE-GE, GE-CNA y CNA-CNA) entre los pares de genes dentro de cada uno de estos 22 módulos de GBM (Figura S5A). Alrededor de 64% de los módulos contenidos al menos dos tipos de relaciones, que muestran (i) que los genes con expresión de genes y el número de copias de ADN cambios similares son más propensas a estar en el mismo módulo, y (ii) que la actividad de los genes en estos módulos identificados pueden explicarse por diferentes mecanismos moleculares (Tabla S4)
.
Durante 23 módulos OVC, la proporción media de los genes comunes fue de 11,68%, que era también más bajos que los de KEGG y BioCarta, y más de la mitad de los 23 módulos OVC tenía 10% de los genes comunes (Figuras S4C y S4D). Cerca de un 83% de los 23 módulos OVC (Figura S5B) contenía al menos dos tipos de relaciones directas.
módulos relacionados con el cáncer identificados por el algoritmo VToD para GBM.
Se aplicaron funcional y el cáncer conjunto de genes pruebas de enriquecimiento a 22 módulos de GBM. Se encontró que 19 (86,36%), 14 (63,63%), y 20 módulos (90,9%) fueron significativamente enriquecido (FDR-valor de 0,05) con al menos un KEGG, BioCarta, o GO términos, respectivamente, lo que demuestra que los módulos son identificados funcionalmente coherente. Además, 15 (68,18%), 12 (54,55%), y 20 (90,9%) módulos GBM fueron significativamente enriquecido con las vías KEGG, BioCarta relacionados con el cáncer, y los términos de GO, respectivamente. En el caso de la prueba de conjunto de genes de enriquecimiento cáncer, 9 y 2 módulos de GBM tenían un solapamiento significativo (FDR-valor de 0,05) con CGC [31] y los genes relacionados con el GBM [33], respectivamente. Estos resultados muestran que nuestros módulos están relacionados con el desarrollo del cáncer. La Tabla 1 muestra el resumen de las cinco módulos seleccionados ordenados por-valores de enriquecimiento de genes relacionados con el GBM; estos módulos contienen muchos genes relacionados con GBM. Todos los resultados de enriquecimiento para el conjunto de datos de GBM se muestran en las Tablas S4, S5, S6, S7 y.
Hemos seleccionado Módulo 2 GBM para explicar en detalle cómo los genes interactúan con otros genes y están involucrados en vías biológicas en módulos. Hemos seleccionado este módulo para una explicación más detallada ya que tiene una indicación de valor bajo enriquecimiento con conjuntos de genes del cáncer, y contiene pares de genes con fuertes correlaciones en tres tipos de relaciones directas. Este módulo contiene 1.080 pares de genes procedentes de 48 genes, y entre ellos había 300 GE-GE, 9 CNA-GE, y 8 relaciones directas CNA-CNA. La figura 3A muestra la vista de red del módulo de GBM 2 con relaciones directas solamente. Había tres tipos de bordes en esta red: i) los bordes rojos de la CNA-CNA, ii) los bordes azules para CNA-GE, y iii) los bordes verdes para las relaciones entre GE GE-dos genes. Los genes que pertenecen a las vías enriquecido significativamente /términos se agruparon. Información para ADN CNA y /o cambios en la expresión de genes también se marcaron con ellos dentro de cada grupo. Las frecuencias de los cambios de número de copias se presentaron como un porcentaje de 206 muestras de GBM, ya sea con la amplificación focal o deleción homocigótica en [8]. Para contar la fracción de muestras tumorales con los cambios de expresión génica para, consideramos que una muestra de tumor es excesiva o insuficiente expresa si el valor de la Ecuación (1) pertenece al 10% más alto de los valores de todas las muestras tumorales, donde es el valor de expresión de una muestra de tumor y es la expresión media de todas las muestras de control para el. Sobre la base de las distribuciones de GBM y para conjuntos de datos de la OVC, 0.4 fue seleccionado para GBM y 0,365 para la OVC. (1)
(A) Una vista de red del módulo GBM 2 usando solamente las relaciones directas, atraídos por Cytoscape [ ,,,0],70]. Los genes se agrupan en base a la coincidencia con las vías BioCarta, y se muestran los porcentajes de muestras con cambios CNA y GE. CGC genes son de color oliva y genes GBM son de color morado. Cytoband y Amp /Del (o cambios Alteración de expresión) de información para la CNA-CNA (CNA-GE) pares se muestran en la tabla insertada. se muestran las pruebas de enriquecimiento (B) Camino con KEGG y BioCarta vías para este módulo. Las barras azules indican los-valores de enriquecimiento de vías y barras rojas indican los-valores de solapamiento entre la vía y el conductor genes GBM. barras negras verticales muestran-valor umbral, 0,05, y la anchura de las barras horizontales depende de (valor P). (C) Las barras rojas muestran la indicación de valor de solapamiento con genes conductor CGC y GBM.
Un estudio de la literatura manual siempre evidencia de apoyo para las relaciones directas en el Módulo 2. Los genes GBM en MAPK1-mapk3, MAPK3- MAPK9, y MAPK1-MAPK9 pares están involucrados en diversas vías por cáncer y las relacionadas con GBM, incluyendo la señalización de MAPK, la señalización de ErbB de adhesión focal, y la señalización de los receptores Toll-like. En BRCA2 ING1, ambos genes juegan un papel crítico en el control del ciclo celular [35], [36]; ING1 es un gen supresor de tumores e interactúa con TP53, y su bajo-expresión y reordenamiento genético se han observado en varios tipos de cáncer, incluyendo GBM [37]; y BRCA2, un gen supresor de tumores, recientemente ha sido objeto de sensibilizar a las células de glioma por matar por fármacos contra el cáncer [38]. En BTBD2-TEP1, TEP1 es un conocido gen supresor de GBM, y la supresión /mutación de este gen se ha observado en muchos tipos de cáncer, incluyendo GBM [39]; polimorfismo de BTBD2 está implicada en la vía de reparación de doble filamento romper que puede ser útil para la supervivencia GBM [40]. En ING1-HMGB1, ambos genes se encuentran en el cromosoma 13q, donde se ha informado de la pérdida de número de copias [41] - [43], lo que sugiere co-produciendo la eliminación de estos dos genes. En APEX1-HIF1A y HIF1A-TEP1 que tiene la relación CNA-CNA, APEX1 y HIF1A interactúan directamente entre sí
in vitro
[44]; y, en GBM, copia número pérdida en 14q11.1-q13.1, 14q23.2-q23.3, y 14q32.33, donde se encuentran estos genes, ha sido reportado por Donovan
et al.
[45]. La relación entre 14q11.1-11.2 y 14q23.1-31.3 se muestran también en nuestros resultados de relaciones CNA-GE (APEX1 BRCA1, BRCA1 HIF1A, y BRCA1 TEP1) dentro de este módulo. En BTBD2-BARD1, BARD1 se sugirió como un mediador de la apoptosis ya que su sobre-expresión induce la muerte celular [46]; y de alta LOH se ha detectado en las metástasis de carcinoma humano en el cerebro en el cromosoma 19p13.3 para BTBD2 [47]
.
Figura 3B muestra pruebas de enriquecimiento por KEGG y BioCarta vías para el módulo 2. Para encontrar GBM GBM- vías relacionadas, también se calculó el-valores para el enriquecimiento de genes relacionados con el GBM en estas vías, respectivamente. En la figura 3B, el top 15 de los 37 KEGG enriquecido y los 15 primeros de 49 vías BioCarta enriquecidos se muestran para el módulo de GBM 2, junto con sus correspondientes superpuestos-valores, ordenados por aquellos-valores. GBM Módulo 2 contiene muchos conocido previamente GBM relacionadas con KEGG vías incluyendo glioma, señalización P53, la señalización de MAPK, la señalización de ErbB de señalización mTOR, y la señalización de VEGF, y las vías BioCarta relacionados con GBM, incluyendo ATM, G2, G1, RB, p53, PTEN vías, y MET [48]. GBM Módulo 2 también está enriquecido con cáncer relacionados con la KEGG 40, 48 vías BioCarta, y 92 GO.
También puso a prueba la pertinencia del Módulo 2 GBM con cáncer usando CGC y los genes relacionados con el GBM, como se muestra en la Figura 3C. GBM Módulo 2 contenía 10 genes TP53 de CGC, BRCA1, BRCA2, el DAX, ddx5, MDM2, MDM4, NPM1, TEP1, y WRN, lo que resulta en un valor P de 1.0510, y 2 genes relacionados con GBM de TP53 y TEP1, lo que resulta en una indicación de valor de 1.0210.
módulos relacionados con el cáncer identificados por el algoritmo VToD del cáncer de ovario.
Entre 23 módulos OVC, 22 (95,65%), 18 (78,26%), 23 ( 100 18 módulos (78,26%)%), 15 (65,22%), y fueron significativamente enriquecido (FDR-valor de 0,05) con al menos un KEGG, vías BioCarta, GO términos, CGC [31], o conjuntos de genes relacionados con la OVC [ ,,,0],34], respectivamente. Además, 19 (82,61%), 18 (78,26%), y 23 (100%) OVC módulos fueron significativamente enriquecido con cáncer relacionados con la KEGG, BioCarta, y los términos de GO, respectivamente. La Tabla 2 muestra el resumen de cinco módulos seleccionados ordenados por conjunto de genes de enriquecimiento-valores relacionados con la OVC. Todos los resultados de enriquecimiento para el conjunto de datos OVC se muestran en las Tablas S8, S9, S10, S11 y
Hemos investigado OVC Módulo 8 en detalle, como se muestra en la Figura 4.; que contiene 629 pares de genes de 37 genes, y entre ellos había 2-GE GE, GE-28 de la CNA, y 49 relaciones directas CNA-CNA. En el Módulo OVC 8, par de genes STAT5B-STAT3 se activa en el cáncer de ovario [49], interactúa con otros [50], y está implicado en muchas vías incluyendo la señalización Jak-STAT, la señalización RAS, señalización de quimioquinas, EGF, IL10, PDGF y vías de TPO. En STAT5B-PRLR, ambos genes están involucrados en la señalización Jak-STAT, una vía de transducción de señal con tecla de control sobre la proliferación, diferenciación y supervivencia de las células mamarias [51]. Recientemente, se ha demostrado que PRLR y su STAT5B aguas abajo son acetilados por la proteína de unión a CREB (CBP) [52]. En EGF-STAT1 y STAT3-EGF, ambos pares de genes están involucrados en el cáncer de páncreas, vía EGF, y la vía de transducción de señales; tanto STAT1 y STAT3 se activan por la quinasa Jak en respuesta a EGF [53] - [55], donde se requiere la señalización /STAT3 JAK2 para el cáncer de ovario EGF impulsada por [55]. En PIK3R1-IGF1R, estos genes interactúan entre sí [56] y están implicados en muchas vías funcionales, incluyendo el IGF1, IGF1R, HDAC, BAD, IGF1MTOR, y las vías de adhesión focal. En erbB2-STAT, estos genes están implicados en el cáncer y de transducción de señal de las vías de páncreas; la correlación entre la activación de ErbB2 y STAT3 se ha observado en muchos tumores humanos [57], [58]. En ErbB2 STAT5B, ambos genes interactúan con JAK2 [59], [60] y están implicados en ERBB de señalización y transducción de señales vías. En EGF-ErbB2, estos genes interactúan directamente entre sí [61] y están implicadas en muchos cánceres, incluyendo el de páncreas, endometrio, próstata, vejiga y cáncer de ovario. También están implicados en ERBB de señalización y vías de adhesión focal. En HRAS-Fyn, estos genes interactúan entre sí
in vitro
[62] y están implicados en muchas vías, tales como la adhesión focal, la orientación axón, la señalización del receptor de células T, y el FC señalización epsilon RI, ECM , vías de TCR, y la integrina.
(A) Una vista de la red de HNV Módulo 8 utilizando solamente las relaciones directas. CGC genes están coloreados de los genes de oliva y las relacionadas con la OVC son de color morado. (B) y la vía de enriquecimiento exámenes Los exámenes fueron similares a los de la Figura 3 (B), pero aquí, barras rojas indican los-valores de solapamiento entre la vía y los genes relacionados con la OVC. (C) Las barras rojas muestran los-valores que se superponen con los de los genes relacionados con la OVC y CGC-.
El top 15 de los 37 enriquecida KEGG y la parte superior 15 de 59 enriquecidos vías BioCarta y se adjuntan Módulo para OVC 8 en la figura 4B. Incluye conocido KEGG vías relacionadas con la OVC, tales como adhesión focal, la señalización JAK-STAT, la señalización ERBB, la interacción del receptor de citoquina-citoquina, la señalización de quimioquinas y la señalización de VEGF, y las vías BioCarta relacionados con la OVC, tales como la señalización de AKT, IL6, RAS, vías de EGF, IGF-1, PDGF, VEGF, CXCR4, y HER2 [34]. También probamos la relevancia de la OVC Módulo 8 al cáncer. Módulo 8 OVC se enriqueció con 39 KEGG, 58 vías BioCarta, y 49 GO términos, que eran subconjuntos relacionados con el cáncer de las vías /términos originales. También, como se muestra en la Figura 4C, el módulo de OVC 8 contenía 7 genes CGC (PTPN11, AKT1, ERBB2, FoxO1, HRAS, LIFR, y PIK3R1) con un valor P de 2,0810 y 6 genes relacionados con OVC (EGF, EPHA2, erbB2 , PIK3R1, STAT3, y VEGFA) con un valor P de 5.2310. Estos resultados sugieren que nuestros módulos identificados a partir de los datos de la OVC conjunto representan las vías relacionadas con el cáncer.
La comparación con otros métodos VToD
La Tabla 3 muestra las comparaciones de rendimiento entre nuestro algoritmo VToD propuesto y otros métodos de agrupamiento utilizando conjuntos de datos de GBM y OVC; cuando se compara con estos algoritmos, una fracción mayor de módulos VToD se funcionalmente enriquecido de módulos de otros algoritmos. Aunque el enriquecimiento funcional de módulos DFM-CIN es comparable a las de VToD, VToD identificó una fracción mayor de módulos encriched con las vías relacionadas con el cáncer que DFM-CIN. Tenga en cuenta que, ya que los algoritmos fueron diseñados para diferentes tipos de datos, que se compararon con los tipos de datos en el documento original. Para un método de agrupación jerárquica, se integraron GE, CNA, y los conjuntos de datos de PPI
La agrupación jerárquica:. Para encontrar módulos por el algoritmo de agrupamiento jerárquico, convertimos nuestra red de relaciones gen-gen en una matriz de distancias mediante la superposición topológica métrica [63] de la herramienta WCGNA en la suite de cálculo R. A continuación se utilizó esta matriz de distancia para la agrupación jerárquica con el promedio de vinculación. El dendrograma de la agrupación se cortó mediante un algoritmo dinámico de corte de árbol de [64], por último producir 216 módulos cuando se utilizó el conjunto de datos de GBM. Se aplicaron pruebas de enriquecimiento conjunto de genes del cáncer funcionales y con estos 216 módulos. Encontramos 14, 0 y 13 módulos que tienen importantes coincidencias con las vías KEGG, BioCarta, y los términos de GO, respectivamente, y 4, 0 y 4 módulos enriquecidos con subconjuntos relacionados con el cáncer de KEGG, BioCarta, e ir términos, respectivamente. También, 5 y 1 módulos se enriquecieron con CGC- y genes relacionados con el GBM (Tabla S12). La Tabla 3 muestra el rendimiento comparativo entre la agrupación jerárquica y algoritmos VToD, demostrando que VToD identificó más módulos vía enriquecida que el algoritmo de agrupamiento jerárquico (Tabla S13). Por otra parte, la figura S6A muestra el diagrama de caja de CGC y GBM genes controlador-valores de enriquecimiento, lo que indica mayores enriquecimientos de genes del cáncer en VToD en comparación con la agrupación jerárquica. Además, los gráficos circulares en la figura S6B muestran diferentes combinaciones de tres tipos de relaciones directas (CNA-CNA, GE-CNA, GE-GE). Aquí, VToD produjo una mayor fracción de módulos que contienen más de un tipo de relaciones directas en comparación con la agrupación jerárquica.
Cerami et. al .: Cerami
et al.
[9] desarrolló un algoritmo para integrar número de copias de ADN, mutación somática, y conjuntos de datos de PPI, y lo aplicó a los datos 84 TCGA GBM [8].