Extracto
Antecedentes
La regulación precisa del ciclo celular es crucial para el crecimiento y desarrollo de todos organismos. La comprensión del mecanismo de regulación del ciclo celular es fundamental para desentrañar muchas enfermedades complicadas, lo más notablemente cáncer. Múltiples fuentes de datos biológicos están disponibles para el estudio de las interacciones dinámicas entre muchos genes que están relacionados con el ciclo celular del cáncer. La integración de estas fuentes de datos informativos y complementarios puede ayudar a inferir una red de regulación transcripcional de genes mutuamente consistentes con una fuerte similitud con las relaciones de regulación de genes subyacentes en las células cancerosas.
Resultados y Principales conclusiones
Nos proponen una marco integrador que infiere los módulos de regulación de genes del ciclo celular de las células cancerosas mediante la incorporación de múltiples fuentes de datos biológicos, incluidos los perfiles de expresión génica, la ontología de genes, y la interacción molecular. Entre 846 genes humanos con papeles putativos en la regulación del ciclo celular, se identificaron 46 factores de transcripción y 39 grupos de genes ontología. Hemos reconstruido los módulos de regulación para inferir las relaciones de reglamentación subyacentes. Cuatro motivos de la red de regulación fueron identificados a partir de la red de interacción. La relación entre cada factor de transcripción de genes y grupos objetivo previsto se examinó mediante la formación de una red neuronal recurrente cuya topología imita el motivo (s) de red al que se le asignó el factor de transcripción. inferidos motivos de la red relacionados con ocho genes del ciclo celular conocidas fueron confirmados por análisis de enriquecimiento conjunto de genes, análisis de sitios de enriquecimiento de la unión, y la comparación con los resultados experimentales publicados anteriormente.
Conclusiones
establecieron una sólida método que se puede inferir con precisión las relaciones subyacentes entre un determinado factor de transcripción y sus genes diana aguas abajo mediante la integración de diferentes capas de datos biológicos. Nuestro método también podría ser beneficiosa para los biólogos para la predicción de los componentes de los módulos de regulación en los que está implicado ningún gen candidato. Tales predicciones pueden usarse entonces para diseñar un enfoque experimental más simplificado para la validación biológica. La comprensión de la dinámica de estos módulos arrojará luz sobre los procesos que ocurren en las células cancerosas como resultado de errores en la regulación del ciclo celular
Visto:. Zhang Y, Xuan J, de los Reyes BG, Clarke R, Ressom HW ( Reconstrucción de 2010) de los módulos de regulación de genes en el ciclo celular del cáncer de Multi-Fuente de integración de datos. PLoS ONE 5 (4): e10268. doi: 10.1371 /journal.pone.0010268
Editor: Geraldine Butler, University College Dublin, Irlanda |
Recibido: 16 de octubre de 2009; Aceptado: March 25, 2010; Publicado: 21 Abril 2010
Derechos de Autor © 2010 Zhang et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este estudio está apoyado en parte por subvenciones de los Institutos nacionales de Salud (CA109872, NS29525, EB00830 y CA096483) y el Departamento de Defensa (BC030280). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
la división celular, el envejecimiento y la muerte están estrechamente reguladas procesos que dependen del equilibrio entre la promoción de diversos crecimiento y la inhibición de las señales. Las complejidades de estos procesos se definen por los programas genéticos complejos que permiten ciertos genes que se expresan de una manera estrictamente regulados. Los errores en la regulación causan la proliferación celular incontrolada, una propiedad universal de los tumores. Esta característica es impulsado por genes que exhiben actividades anormales en las células tumorales, muchos de los cuales tienen un papel importante en la transducción de señales que regulan el crecimiento al núcleo y la interfaz estas señales para modificar la expresión génica. Mientras que esta señalización contribuye inevitablemente a la capacidad de proliferación de las células tumorales, a menudo se concibió para hacerlo de una manera jerárquica, mediante la amplificación de la actividad de la señalización aferente, en última instancia, que convergen en los genes que controlan la progresión del ciclo celular.
los avances en la investigación del cáncer durante los últimos años han empezado a descubrir la programación genética compleja de la progresión del ciclo celular. Los niveles de expresión de miles de genes fluctúan a lo largo del ciclo de células de cáncer [1], [2]. Se han observado actividades transcripcionales periódicas de muchos genes implicados en el crecimiento celular, la síntesis de ADN, la duplicación del husillo cuerpo polar, y el tránsito a través del ciclo celular cada [3]. Las redes de regulación transcripcional (RRT) asociados a estas actividades se han investigado extensamente [4], [5], [6], [7], [8]. Además de la caracterización de la programación en todo el genoma transcripcional del ciclo celular en mamíferos es un paso crítico hacia la comprensión de los procesos del ciclo celular básicos y sus funciones precisas en el cáncer.
Han sido analizados
los datos de expresión de genes del ciclo celular obtenidas a partir de células HeLa con varios métodos de agrupación y los genes organizados en grupos funcionales y normativos [1], [2]. Sobre la base de estos estudios, el establecimiento de una inferencia robusto con respecto a las relaciones de regulación entre un determinado factor de transcripción y su gen diana putativo (s) podrían ser mejor logrado mediante la combinación de datos de expresión génica con la información sobre el factor de transcripción sitios de unión y los posibles tipos de interacción basado en conocimientos biológicos [9]. activación o represión transcripcional depende del reconocimiento de secuencias específicas elemento promotor de la proteína reguladora de unión a ADN. Cómo se hace referencia a una combinación específica de estas proteínas asociadas con genes a través de un genoma como TRN. Por lo tanto, es importante investigar cómo estos patrones periódicos están regulados en el contexto de TRN del ciclo celular en las células cancerosas.
La ingeniería inversa de una TRN global sigue siendo un reto debido a varias limitaciones, incluyendo (1) la alta dimensionalidad de las células, donde decenas de miles de genes actúan en diferentes combinaciones temporales y espaciales, (2) cada gen interactúa prácticamente con diferentes parejas, ya sea directa o indirectamente, de este modo posibles relaciones son dinámicas y no lineal, (3) tecnologías de alto rendimiento actuales que viven generar datos que implican una cantidad considerable de ruido, y (4) el tamaño de la muestra es extremadamente bajo en comparación con el número de genes [10]. Descomposición de una TRN en un pequeño conjunto de módulos de regulación recurrentes (
por ejemplo
, red de motivos) es una estrategia prometedora para hacer frente a este reto.
Se describe el desarrollo de un marco computacional innovador que infiere complejo RRT mediante la integración de datos biológicos de múltiples fuentes y utilizando el concepto de análisis modular red motivo. La novedad de este marco computacional reside en la descomposición de una red biológico complejo en dinámicamente simple pero bien caracterizado motivos de la red, y la capacidad de integrar los datos biológicos dispares para derivar estos motivos de la red. Los módulos inferidos proporcionan una base racional para la generación de nuevas hipótesis para la posterior validación experimental. Se demuestra la capacidad de este marco computacional para inferir los módulos de regulación asociados con la progresión del ciclo celular en células HeLa mediante la combinación de información de tiempo curso de expresión génica experimentos [2], las interacciones proteína-proteína (PPI) [11], [12], [13], [14], [15], [16], [17], [18], [19], [20], [21], [22], las interacciones proteína-ADN (PDI) [23] y la ontología de genes (GO) [24].
en comparación con nuestra estrategia ya se ha informado, el cual fue aplicado a TRN inferencia en el ciclo celular de la levadura [25], este nuevo esquema incluye un uso integral de PPI y PDI datos (en adelante denominados datos de interacción molecular) de trece bases de datos públicamente disponibles, junto con la detección de motivos de la red significativos para cada factor de transcripción. La implementación de este nuevo esquema ampliado significativamente el alcance de las redes que incorporan conjuntos más profundos de la evidencia biológica conocida y valiosa. Por otra parte, hemos introducido un nuevo método de validez clúster que utiliza la anotación GO para calcular la similitud entre cualquier par dado de genes en un clúster. La partición con la puntuación más alta similitud es seleccionado como el clúster óptimo. módulos pequeños TRN (
es decir, la red.
motivos) son fácilmente interpretables y tienen el potencial para proporcionar información sobre nuevas hipótesis. Si un grupo de genes está implicado en el motivo de red de un factor de transcripción, y la mayoría de los genes tienen pruebas de que están regulados por que el factor de transcripción particular, es más probable que otros genes de este grupo tienen relaciones de reglamentación similares con ese factor de transcripción particular. La capacidad de inferencia de nuestro marco computacional refinada se verifica mediante diversos análisis, incluido el análisis conjunto de genes de enriquecimiento (GSEA), análisis del sitio de enriquecimiento (BSEA), y el estudio de la literatura adicional de unión.
Resultados
Información general de el marco de integración de datos
Se consideraron dos capas diferentes de redes en cada TRN basado en el análisis de los datos del ciclo celular Hela. En primer lugar es la red física que incluye los IBP y los IFD en el plano de unión del factor-gen. En segundo lugar está la red funcional que incorpora las consecuencias de estas interacciones físicas, tales como la activación o represión de la transcripción. Se han utilizado tres tipos de datos para reconstruir la TRN, a saber, los IBP derivados de una colección de bases de datos de PPI, IFD de la base de datos TRANSFAC, y el tiempo de perfiles de expresión génica de golf según lo publicado por [2]. Las dos primeras fuentes de datos proporcionan información de la red directa para restringir el modelo de TRN. Los perfiles de expresión de genes proporcionan una medición precisa sobre los efectos causales del modelo de TRN. GO anotación describe las similitudes entre los genes dentro de una red, lo que facilita aún más la caracterización de las relaciones entre los genes. El objetivo era discernir las dependencias entre los patrones de expresión génica y las interacciones intermoleculares físicas reveladas por las fuentes de datos complementarios.
El modelo de marco para la TRN no infiere por la integración de datos de múltiples capas se ilustra en la Figura 1. Además de los datos tratamiento previo, de tres pasos sucesivos estuvieron involucrados en este marco como se indica en la siguiente:
patrones de expresión génica se agruparon primero en grupos biológicamente significativos de FCM; GO categoría de información de genes se utilizó para determinar el número de clúster óptimo. Para evaluar los grupos de genes, GSEA se realizó en los grupos óptimos. Además, motivos de la red significativos detectados en la red combinada de PPI y PDI fueron asignados a cada factor de transcripción. Después de que los grupos de genes se forman y factores de transcripción fueron asignados a red Categorías motivo, las conexiones entre factores de transcripción y grupos de genes se infiere por RNNs de formación que imitan la topología de la red de motivos que los factores de transcripción están asignados. Por último, los motivos de la red inferidos fueron validados por la BSEA y literatura resultados.
Gene agrupación.
Los genes con similares perfiles de expresión fueron representados por un grupo de abordar el problema de escalabilidad en TRN inferencia [26]. El supuesto es que un subconjunto de genes que están relacionados en términos de expresión (co-regulado) se pueden agrupar en virtud de un elemento cis-regulador unificador (s) asociada a un factor de transcripción común que regule todos y cada miembro de la agrupación (co-expresado) [27]. GO información se utilizó para definir el número óptimo de las agrupaciones con respecto a ciertas categorías funcionales generales. Dado que cada grupo representa principalmente una amplia categoría biológica o proceso tal como se evaluó por FuncAssociate [28]), la red de regulación implica que un determinado factor de transcripción es probable que participen en el control de un grupo de genes relacionados funcionalmente [29].
Red asignación motivo de factor de transcripción.
para reducir la complejidad del problema de inferencia, motivos de la red se utiliza en lugar de una inferencia TRN mundial. Los motivos de la red significativas en la red de interacción molecular combinado se establecieron primero y asignados a al menos un factor de transcripción. Estas asociaciones se utilizan más para reconstruir los módulos de regulación.
Construcción de motivos de la red para el factor de transcripción.
Para cada factor de transcripción asignado a una red motivo, un algoritmo genético (GA) generaron genes candidatos racimos de atribución a un factor de transcripción basado en las relaciones establecidas por la red motivo. Una red neuronal recurrente (RNN) fue entrenado para modelar una TRN que imita la red motivo asociado. GA genera los grupos de genes candidatos, y se utilizó la optimización de enjambre de partículas (PSO) para configurar los parámetros de la RNN. Se seleccionaron los parámetros para minimizar el error cuadrático medio (RMSE) entre la salida de la RNN y patrón de expresión de la agrupación de genes diana. El RMSE fue devuelto a GA para producir la próxima generación de grupos de genes candidatos. Optimización continuó hasta que se completó, ya sea un número máximo pre-especificado de iteraciones o se llegó a un RMSE mínimo especificado previamente. El procedimiento se repite para todos los factores de transcripción. El conocimiento biológico de las bases de datos se utilizó para evaluar los resultados predichos.
Establecimiento de número óptimo de grupos biológicamente significativas por grupos de medición validez
Los genes que pertenecen a las categorías funcionales similares o relacionados y que los patrones similares de exposición de la transcripción es probable que ser regulados por el mismo mecanismo [30]. genes expresados coordinadamente son susceptibles de ser unificado por cis-reguladores comunes elementos y su factor de transcripción afines (s) [31], [32] pero esta relación es a menudo fácilmente perceptibles sólo en los casos en que el cluster está compuesto por genes altamente a expresadas moderadamente . Por otra parte, en los espacios altos de datos dimensionales estas correlaciones individuales son ruidosos y la estructura de correlación subyacente de los datos pueden ser complejos [10]. Los genes asignados a los mismos o relacionados categorías funcionales basados en la ontología de genes también son susceptibles de ser regulados por un factor de transcripción común [33]. análisis integrado de los datos del perfil de transcripción y anotación de genes ontología es un enfoque más sólido para la predicción de la red de un enfoque unidimensional basado en una sola capa de información, tales como medidas de correlación univariante.
Un total de 846 genes asociados con el control del ciclo celular se han identificado previamente en células HeLa [2]. Hemos dividido aún más estos genes en grupos funcionales más específicos (Figura 2) por fuzzy c-means clustering (FCM) [34]. En comparación con la agrupación tradicional K-means, este esquema proporciona una estrategia más robusto que permite a los genes con patrones de expresión similares a ser colocados en el mismo grupo con mucho ruido de fondo reducido [26]. FCM agrupación implica dos parámetros empíricos: parámetro de borrosidad
m
y el número de racimos
c
. El valor óptimo de
m Opiniones de los datos utilizados en este estudio fue de 1,1548, el cual fue determinado con base en el método propuesto por Dembele y Kastner [35].
El esquema ilustra el proceso de agrupación genes en grupos biológicamente significativos. Los datos de expresión génica se utilizaron primero en encontrar el valor óptimo para m FCM agrupación. Con el valor óptimo m, FCM agrupación se llevó a cabo en los datos de expresión génica para los números de racimo que van de 2 a 50. Las puntuaciones de similitud de todos los pares de genes en cada grupo de una partición se promedian y se indican como puntuación global de similitud para una partición de clúster. La partición con la puntuación más alta similitud fue seleccionado como el óptimo. GSEA se realizó utilizando FuncAssociate para evaluar los grupos de genes formados usando el número de clúster óptimo.
El número de clúster óptimo se determinó mediante la similitud semántica entre cualquier par de genes en un solo grupo. Este es un método del conocimiento que tiene como objetivo estimar la partición de clúster óptimo de una colección de particiones candidatos y mejora la fiabilidad predictivo y la relevancia biológica de la salida. similitud semántica entre pares de genes se calculó mediante la combinación de las puntuaciones de similitud entre los GO términos asignados a cada gen. Se utilizaron medidas de similitud de relevancia para calcular la similitud con respecto a las terminologías GO asignados [36]. La puntuación de similitud de todos los pares de genes en cada grupo de una partición se promediaron y se denota como la puntuación global de similitud para esa partición de clúster concreto.
El método de evaluación de la validez de clúster considerado las tres ramas de la ontología (componente celular, molecular función y proceso biológico) para calcular las puntuaciones de similitud. La partición con la puntuación más alta similitud fue seleccionada como la partición óptima (Figura 3). Se comparó el desempeño de la FCM agrupación con la agrupación K-media con respecto a dos diferentes
valores de m
. Uno de ellos es un valor predeterminado de 2 y la otra se basa en el valor óptimo de 1,1548 (Figura 2). A partir de este análisis, se observó que la agrupación FCM con el óptimo
valor m
da la mejor puntuación de similitud. Se obtuvo la puntuación más alta similitud con 39 grupos, lo que indica una condición óptima para reducir el espacio de búsqueda de TRN inferencia
Tres agrupación resultados se representaron gráficamente:. k-means clustering y FCM agrupación con dos
m
valores (
m
es el parámetro de borrosidad): valor por defecto (
m
= 2) y el valor óptimo (
m = 1.1548
) guía empresas.
Para evaluar las agrupaciones óptimas seleccionados sobre la base de GO, GSEA se aplicó mediante el valor óptimo (Tabla S1). Cada grupo se enriquece en categorías biológicas específicas. A fin de evaluar la importancia biológica de los grupos establecidos, GO información se utilizó para determinar si los grupos tienen enriquecimiento significativo de uno o más términos utilizando el programa FuncAssociate [28]. Esta estrategia hizo uso de un subconjunto de genes como entrada para producir una lista ordenada (por P-valores) de los atributos GO que se enriquecen entre el subconjunto de genes de entrada [24]. La salida dio el GO términos que fueron significativamente enriquecido en cada grupo entre todos los genes (igual al total de 26,512 genes humanos en el programa FuncAssociate)
.
Siguiendo este esquema, el conjunto total de genes implicados en la regulación del ciclo celular se subdividió en 39 grupos (Tabla S1). De estos grupos, 31 fueron claramente asociados con GO categorías que implican una función más específica que unifica los miembros de uno pero no otros grupos, estableciendo así relaciones más directas entre ciertos subgrupos más pequeños de genes. Por ejemplo, los grupos de 29 y 8 pueden estar asociados tanto con pre-mitótico, mitótico y eventos post-mitóticas (M-fase). Sin embargo, los miembros de clúster 8 se pueden distinguir de los miembros de clúster 29 en virtud de sus funciones específicas en la duplicación del cromosoma (replicación del ADN) y la citocinesis. Por el contrario, los miembros de clúster 29 se pueden distinguir de los miembros de clúster 8 en virtud de sus funciones específicas en conjunto de fibras husillo y desmontaje.
importancia biológica de estas relaciones funcionales altamente específicos, establecidos por nuestro esquema de agrupación, puede además ampliarse en función de las relaciones dentro del contexto normativo. Por ejemplo, los miembros de ambos grupos de 29 y 8 han sido previamente identificados como objetivos de abajo directas de factores E2F (Ren et al., 2002). Relaciones similares se pueden establecer con otros grupos tales como grupo 32, que se compone de genes con funciones bioquímicas de una ADN ligasa. Por lo tanto, los genes en el grupo 32 están involucrados en los procesos asociados con la reparación del hueco o procesamiento fragmento de Okazaki durante la replicación del ADN y la duplicación cromosómica. Estudios previos han establecido que los genes asociados con esta función están bajo el control regulador de E2F1 y PCNA (Shibutani et al, 2008; ver más detalles en el cuadro S2).
Sobre la base de todas estas relaciones, una resistencia específica de nuestro método actual es su capacidad para distinguir los genes que están relacionados por su función en un sentido amplio y sub-categorización en categorías funcionales altamente específicos (estrechas), lo que resulta en la predicción de relaciones de reglamentación que sean consistentes con las relaciones biológicamente válidos.
Asignación de factores de transcripción a la red motivos
RRT se componen de ocurrencias repetidas de motivos de la red, que son simples patrones repetidos de unidades biológicas conservadas que van desde los dominios moleculares para pequeñas redes de reacción [37],. Cada motivo red lleva a cabo una función de procesamiento de información definidos dentro de la red. Nos centramos en tres nodos motivos de la red debido a que la mayoría de los motivos de la red de tamaño más grandes están compuestas máximo de tres nodos [38]. El objetivo era asignar a cada posible control de factor de transcripción asociado ciclo celular para al menos un motivo de red de acuerdo con la red de interacción molecular combinado. El objetivo se consiguió mediante la construcción de un modelo de RNN para todos los posibles genes reguladores implicados en la transcripción en función de su red motivo específico. La salida RNN es un modelo que enlaza cada
de buena fe
o regulador transcripcional putativo con sus genes diana aguas abajo
.
Todos los genes en los que desarrolla funciones directas o indirectas en la regulación de la transcripción se identificaron por primera vez de el conjunto total de 846 genes del ciclo celular asociados de acuerdo a GO categorías que denotan posibles funciones en la transcripción (Ashburner et al., 2000). Los genes candidatos que quedaron después de la filtración otras categorías de función de genes son los que fueron asignados a las funciones siguientes supuestos: la actividad del factor de transcripción (GO: 0003700), la regulación de la transcripción (GO: 0061019), y el factor de transcripción complejo (GO: 0005667). Dado que la información GO sola puede no ser suficiente para identificar los genes con funciones de buena fe como factores de transcripción, filtrados aún más nuestra lista de factores de transcripción candidato añadiendo otra capa de información confirmatoria sobre la base de los resultados de las búsquedas en PubMed. Esta anotación adicional permitió validar la clasificación GO de nuestros genes candidatos. Las descripciones detalladas de los términos de GO y funciones específicas en la transcripción de TFS candidatos utilizados en este estudio en la Tabla S3. Entre los genes relacionados con el ciclo 846 celulares, 46 fueron anotados con funciones relacionadas con la regulación transcripcional basan tanto ir y bases de datos PubMed. Estos genes fueron considerados como factores de transcripción putativo.
En los datos de microarrays, los genes son a menudo representados por múltiples sondas de oligonucleótidos. Los genes representados por conjuntos de sonda con mayor variación se consideraron más en este estudio (Zhang et al., 2007). Descompusimos la TRN en varios motivos de la red, con cada red motivo potencialmente asociados con un factor (s) dada la transcripción. Se encontró un total de cuatro motivos de la red a ser significativa en la red de interacción molecular combinado (Figura 4), por lo que cada factor de transcripción fue asignado a al menos uno de estos motivos de la red.
El panel izquierdo presenta los cuatro red Motif módulos de regulación considerados en este estudio. El panel derecho muestra las relaciones de genes del factor de transcripción objetivo inferidos para ocho del ciclo celular factores de transcripción dependientes.
Inferencia de los módulos de regulación de motivos de red entre factores de transcripción y grupos de genes
Las relaciones entre los factores de transcripción y grupos de genes se determinaron sobre la base de modelos RNN. Para cada uno de los motivos de cuatro red (Figura 4), una RNN adecuado fue construido como anteriormente hemos descrito [25]. Los modelos RNN fueron entrenados usando el algoritmo genético híbrido - optimización de enjambre de partículas (GA-PSO) para encontrar los grupos de genes aguas abajo de los 46 supuestos factores de transcripción. Las asociaciones entre cada factor de transcripción y 39 grupos de genes se determinó mediante el entrenamiento del modelo RNN que imita el motivo de la red específica para un determinado factor de transcripción. Debido a una reducción en la complejidad computacional (mapeo entre 46 factores de transcripción y 39 grupos de genes en lugar de 846 genes), el número de generaciones GA y PSO necesarios para alcanzar el RMSE mínimo especificado previamente se redujo significativamente. La generación PSO para RNN se estableció en 1000 [39]. El valor mínimo de RMSE disminuyó a medida que el número de generaciones aumentó (Tabla 1). El RMSE mínimo para las generaciones GA 600 y 800 fueron 0,077 y 0,075, respectivamente. Basado en 600 generaciones GA, nuestro método de inferencia ha asignado correctamente los 46 supuestos factores de transcripción a sus grupos de genes diana y deducir los motivos de la red de regulación transcripcional más probables (TRNMs; véase la Figura 4 para TRNMs representativos) guía empresas
. la validez y exactitud de la red representada por los TRNMs se pueden evaluar por comparación con un modelo de red construida sobre la base de los datos biológicos reales. En ausencia de tal información, se realizó una validación inicial de la red mediante la búsqueda de conexiones de genes conocidos en bases de datos. Sobre la base de los resultados de predicción red motivo módulo, se recogieron pruebas de la literatura [40] bases de datos NCBI y TRANSFAC. Revisamos cada red motivo predicho y examinamos las relaciones entre el factor de transcripción y su grupo (s) del gen diana. El análisis subsiguiente se realizó bajo la suposición básica de que la red motivo inferido es más probable que sea biológicamente significativos si los factores de transcripción en la misma se correlacionan con las funciones biológicas enriquecido en los grupos de aguas abajo.
motivos de la red significativas resultantes de la encuesta de los genes dependientes del ciclo celular literatura disponibles, tales como
E2F1, E2F2, SP1, BRCA1, STAT1, PCNA, RBPSUH
, y
HMGB2
se enumeran en la Figura 4. en base a la información combinada, la implicación biológica de la red puede ser explicado. Por ejemplo,
E2F
es un factor de transcripción que juega un papel crucial en la progresión del ciclo celular en células de mamífero [41].
E2F1
, que contiene la superposición de dos
E2F
-sitios de unión en su región promotora, se activa en la transición G1 /S de una manera E2F-dependiente.
E2F2
interactúa con ciertos elementos en el
E2F1
promotor y ambos genes están involucrados en la replicación y reparación del ADN [42], la citocinesis, y el desarrollo de tumores [43]. Según los resultados GSEA, Cluster 8 está enriquecida con los genes que participan en la mitosis y la citocinesis, y Cluster 34 está enriquecida con los genes que participan en varias categorías funcionales asociados con el desarrollo de tumores. Como se muestra en la Figura 4, tanto el grupo 8 y 34 se prevé que ser regulada por
E2F1
y
E2F2
, y estos resultados están de acuerdo con los informes anteriores sobre la base de los datos biológicos [41], [43].
Nuestro análisis predice que
E2F1
y
PCNA ¿Cuáles son los componentes de la misma red. Ambos de estos genes están implicados en la regulación de las agrupaciones 32 y 34. La función molecular comprenderá mejor de la
PCNA
proteína es su papel en la regulación de la ADN polimerasa eucariota procesividad delta, que asegura la fidelidad de la síntesis de ADN y reparar [44]. Sin embargo, estudios recientes han proporcionado pruebas de que los
PCNA
proteínas también funciona como un represor directo de los coactivador transcripcional p300 [45]. Otro estudio muestra que
PCNA
reprime la actividad transcripcional de los receptores del ácido retinoico (
RAR
s) [46]. Por lo tanto, la implicación de estos genes en la misma red, como se predijo por nuestro algoritmo de inferencia de la red, está fuertemente apoyado por el conocimiento de las relaciones de regulación ya establecidos en los datos experimentales. Los resultados de nuestra predicción están de acuerdo con estos informes desde ambos grupos 8 y 32 están enriquecidos con genes implicados en la síntesis de ADN y los procesos de regulación.
Nos llevó tres enfoques para investigar más a fondo si los genes predice que ser regulada por
E2F
genes en los grupos 8, 32 y 34 se validan en los métodos de ámbito no-clásicos del genoma. En primer lugar, se determinó la cantidad de "conocidos"
E2F1
y
E2F2
objetivos se predice por nuestro método propuesto. Según Bracken
et al
. [47], 130 genes fueron revisados como
E2F
objetivos, 44 de los cuales fueron identificados originalmente por los enfoques clásicos, no en todo el genoma. Como nos limita el análisis de los genes relacionados con el ciclo celular 846, 45 genes coincide con los
E2F
genes diana que figuran en la ref. [47], 21 de los cuales eran conocidos a partir de los estudios que utilizan la biología molecular clásica analiza. Los objetivos de genes predichos por nuestro partido método 15 de 45 genes, todos los 15 de los cuales se encuentran entre las que se encuentran originalmente usando experimentos de biología molecular convencionales. Una posible razón es que los enfoques de todo el genoma suelen ser muy ruidoso y consistentes entre los diferentes estudios. La información detallada acerca de estos genes se enumeran en la Tabla S4.
En segundo lugar, queríamos ver si nuestros predichos clústeres de destino gen se enriquecen en los correspondientes sitios de unión para los factores de transcripción en su región aguas arriba. Por tanto
E2F1
y
E2F2
, 7 de los 17 genes en el grupo 8 contienen sitios de unión en sus regiones aguas arriba como se confirma por los datos en la base de datos SABiosciences (http: //www.sabiosciences. com /chipqpcrsearch.php? app = TFBS).
Por último, se determinó el número de genes en los grupos de genes tienen
E2F
sitios de unión. Se aplicó la herramienta de descubrimiento motivo, WebMOTIFS [48] para encontrar motivos compartidos en los grupos de genes predice que el
E2F
objetivos mediante el análisis de planta de enriquecimiento de unión (BSEA). Los resultados revelaron que un motivo llamado E2F_TDP, GCGSSAAA, se identifica como el motivo más importante entre los grupos de genes 2, 8, 29, 31, 32 y 34. Desafortunadamente, para Clusters 30 y 36 el número de genes en estos grupos es demasiado pequeño para el análisis WebMOTIFS. Todos estos grupos de genes se prevé que los objetivos de abajo de
E2F
. Por ejemplo, 43 de los 52 genes en el grupo 2 tienen
E2F
supuestos sitios de unión en sus regiones aguas arriba. La información detallada de los resultados BSEA se muestra en la Figura 5. Para aquellos TRNMs para los que están implicados dos factores de transcripción, también encontramos estos grupos de genes aguas abajo se enriquecen en tanto los motivos de secuencia de unión sitio. Por ejemplo, Cluster 32 se enriquece en ambos motivos E2F_TDP y MH1, correspondientes a los dos factores de transcripción en el trnM: E2F1 y SP1. Estos resultados apoyan firmemente la BSEA nuestros resultados de inferencia.
Secuencia de logotipos representan el motivo excesivamente significativamente en el grupo de genes individuales asociada a sus factores de transcripción aguas arriba previstos, de acuerdo con el algoritmo de descubrimiento de WebMOTIFS [48].