Cáncer Humano
Extracto
La identificación completa de los sitios de unión del factor de transcripción funcional (TFBSs) es un paso importante en la comprensión de las redes de regulación transcripcional complejos. Este estudio presenta un enfoque comparativo basado en motivos, STAT-Finder, para la identificación de ADN funcional sitios de unión del factor de transcripción STAT3. STAT-Finder combina STAT-escáner, el cual fue diseñado para predecir TFBSs STAT funcional con una sensibilidad mejorada, y una alineación basada en motivos de reducir al mínimo las tasas de predicción de falsos positivos. El uso de dos conjuntos de referencia que contienen secuencias promotoras de genes diana conocidos STAT3, STAT-Finder identificó funcional STAT3 TFBSs con una mejora de la eficiencia de predicción y la sensibilidad en relación con otras herramientas convencionales de predicción TFBS. Además, STAT-Finder identificado nuevos genes diana STAT3 entre un grupo de genes que se expresan-over en las células de cáncer humano. La unión de STAT3 a la TFBSs predicha también se confirmó experimentalmente mediante inmunoprecipitación de la cromatina. Nuestro método propuesto ofrece un enfoque sistemático para la predicción de TFBSs funcional que puede ser aplicada a otros TFS
Visto:. Oh YM, Kim JK, Choi Y, Choi S, Yoo JY (2009) Predicción y validación experimental de nuevos genes diana STAT3 en células de cáncer humano. PLoS ONE 4 (9): e6911. doi: 10.1371 /journal.pone.0006911
Editor: Sridhar Hannenhalli, Universidad de Pennsylvania School of Medicine, Estados Unidos de América
Recibido: April 2, 2009; Aceptado: 3 Agosto 2009; Publicado: 4 Septiembre 2009
Derechos de Autor © 2009 Oh et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo fue apoyado por becas de la beca de la Fundación Corea Ciencia e Ingeniería (KOSEF), financiado por el MEST (R01-2008-000-20721-0) y al Centro de Investigación Nacional de Core Systems Bio-Dynamics (R15-2004-033). J. K. Kim es apoyado por una beca de investigación de Microsoft Research Asia. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
la capacidad de cualquier sistema biológico para responder apropiadamente a los estímulos en gran medida depende de cascadas bioquímicas de las vías que culminan en la activación de factores de transcripción (TFS) y la posterior alteración de los patrones de expresión de genes [1] de señalización. Se cree información acerca de qué genes necesitan ser expresados en un tipo celular específico en un momento dado para ser codificada en el genoma. La maquinaria molecular utilizado para interpretar la información genética ha evolucionado para garantizar la exactitud y la especificidad de la regulación de genes. La transcripción es un proceso de múltiples pasos que requiere la acción concertada de muchas proteínas. activadores de la transcripción y represores se unen de una manera específica de secuencia a los promotores o potenciadores de genes diana. Ellos gobiernan el reclutamiento de trans-activadores, modificadores de la cromatina, y factores de transcripción generales, incluyendo la ARN polimerasa II, para regular la expresión de genes [2], [3].
Todo el genoma enfoques para medir los patrones de expresión de todo el genoma han divulgado grupos de genes que son co-regulados para ejercer las respuestas celulares controlados espacial y temporalmente [4]. La identificación de los módulos reguladores responsables que gobiernan la acción coordinada de los factores de transcripción combinatorias es crucial para la comprensión de los circuitos de regulación de procesos biológicos [5]. Para este fin, las herramientas computacionales se han desarrollado para ayudar en la identificación de sitios de unión de factores de transcripción (TFBSs) en los promotores de los genes co-regulados [6], [7], [8]. Estos métodos computacionales se pueden dividir en dos clases: (1) detección de patrones y (2) la coincidencia de patrones. Detección de patrones, también conocido como de novo motivo descubrimiento, encuentra supuestos sitios de unión para TF desconocidos que están sobrerrepresentados en los promotores de los genes co-regulados. Si la especificidad de unión de un TF ya se conoce, se prefieren los métodos de coincidencia de patrones [9]. En el enfoque de comparación de patrones, la información de secuencia de ADN de TFBSs se expresa como una posición de peso matriz (PWM), que se puede utilizar para marcar sitios reguladores potenciales dentro de un marco estadístico [10]. Sin embargo, debido a sitios de unión de ADN para TFS son generalmente cortas y degenerada, este método es propenso a altas tasas de predicción de falsos positivos [11].
Basado en la observación de que conservan no codificantes secuencias de ADN son a menudo importantes para la regulación de las funciones biológicas, las comparaciones de secuencias entre especies se han integrado activamente para distinguir TFBSs funcional y no funcional [12], [13], [14]. El acto de la incorporación de la información de secuencias conservadas evolutivamente en las regiones reguladoras filtra el TFBSs no conservada, con lo que reducen en gran medida la tasa de falso positivo de predicción [15], [16], [17], [18], [19]. Aunque este enfoque ha sido aplicado con éxito para aumentar la capacidad de predicción de la búsqueda de motivos, es muy sensible al algoritmo utilizado para la alineación de secuencias y la precisión de la información anotada transcripcional sitio de inicio (TSS). Por lo tanto, se ha informado de que la secuencia basada en alineaciones promotor a menudo no logran detectar elementos reguladores cortos o degenerados, cuando las secuencias de promotor divergentes evolutivos están alineados [12], [17]. Para superar estas limitaciones, también se ha sugerido un algoritmo libre de alineación basada en la conservación a nivel de red [20].
transductor de señal y activador de la transcripción 3 (STAT3) pertenece a la familia STAT de factores de transcripción, que se activa por la interleucina-6 (IL-6) y las citoquinas relacionadas, como la IL-10, oncostatina M (OSM) y factor inhibidor de leucemia (LIF) [21]. Hasta el momento, siete STAT de mamífero (1, 2, 3, 4, 5a, 5b y 6) han sido identificados. Todos ellos poseen un dominio de unión al ADN, un dominio SH2 de la dimerización, y un dominio trans-activación C-terminal [22]. Tras la estimulación con el ligando extracelular, STAT3 activada forma homodímeros o heterodímeros con otro miembro de la familia STAT, STAT1, a continuación, se transloca en el núcleo y se une a elementos reguladores cognado en los promotores de genes Stat-sensible. La acumulación de evidencias sugieren que STAT3 también se asocia con otros factores de transcripción para formar complejos enhanceosome en las regiones promotoras de los genes diana y controla la inducción de genes de cooperación [23], [24], [25]. STAT3 está implicado en diversas respuestas celulares, incluyendo la diferenciación celular, la supervivencia, el tallo renovación celular, cicatrización de heridas y la inflamación sistémica; esto ha sido demostrado por los fenotipos de ratones mutantes STAT3 modificados genéticamente [22], [26], [27], [28], [29]. Se ha encontrado que STAT3 participa en la carcinogénesis, y que la expresión ectópica de una forma constitutivamente activa de STAT3 (STAT3-C) induce la formación de tumores en ratones desnudos [30]. Además, la expresión de STAT3 constitutivamente activa se ha observado en varios tipos de cáncer humano, incluyendo el mieloma múltiple, colon, ovario, hígado, pulmón, cabeza, cuello y cáncer [31]. Si bien los mecanismos de trans-activación de regulación y generales de STAT3 se han estudiado a fondo, no demasiado esfuerzo se ha hecho a la identificación de genes diana directa de STAT3. La identificación de los genes diana es crucial para la mediación de los diversos efectos biológicos de la señalización STAT3.
Para la caracterización de los programas de transcripción STAT3 mediada, hemos desarrollado un marco computacional diseñado para predecir TFBSs STAT3 con una mejor sensibilidad y baja de falsos positivos tarifa. A través de la integración de los datos de microarrays obtenidos a partir de la condición de activación de STAT3 y las herramientas de predicción de TFBS, hemos intentado identificar nuevos genes diana STAT3. Usando nuestro programa STAT-Finder, se identificaron ocho nuevos genes diana STAT3 entre un grupo de genes que son altamente expresado en las células cancerosas. Estos fueron confirmados a través de inmunoprecipitación de la cromatina.
Resultados
Información general de STAT-Finder
Para identificar los genes diana STAT3 directos, hemos desarrollado un marco computacional que predice TFBSs funcional de STAT3 con un aumento de la sensibilidad y la baja tasa de falsos positivos. Nuestro marco, STAT-Finder, se construyó sobre la base de dos componentes computacionales, un programa de exploración TFBS (STAT-escáner) y un programa de alineación a base de motivos (Figura 1). STAT-Scanner fue diseñado para aumentar la sensibilidad para la detección funcional STAT3 TFBSs. A PWM-STAT3 específico disponible actualmente de la base de datos TRANSFAC [32], V $ STAT3_01, con frecuencia no puede detectar sitios de unión de STAT3 experimentalmente probados (datos no mostrados). Para mejorar la capacidad de predicción, STAT-Scanner fue, por tanto, diseñado para utilizar PWM combinados de especificidad de unión similar a STAT3. A pesar de que miembros de la familia STAT tienen diferentes funciones fisiológicas y regulan distintos conjuntos de genes diana, los objetivos de proteínas STAT individuales a veces se solapan, y las secuencias de ADN reconocidas por miembros de la familia STAT son similares [21], [22], [23].
STAT-Finder tiene dos componentes: El primer módulo, STAT-escáner, toma un conjunto de seis secuencias de promotores de mamífero ortólogos como entrada. Cada secuencia promotora se busca para marcar TFBSs putativo utilizando los 8 PWM relacionados con STAT-modificados. Vinculantes puntuaciones de afinidad de TFBSs predichos se calculan en función de la
P
-valores, y se genera una secuencia de las puntuaciones de afinidad para cada promotor. El segundo módulo se ajusta progresivamente las secuencias de puntuación y calcula probabilidad posterior para evaluar el grado de conservación motivo.
Para la identificación imparcial de los PWM esa secuencia cuota de similitud con el PWM-STAT3 específico, V $ STAT3_01, un total de 565 PWM derivado de la base de datos TRANSFAC vertebrados [32] se agruparon en función de su similitud con motivos (Figura S1). La similitud motivo se definió como la
P
-valor de la alineación con huecos entre los dos PWM en base a la divergencia de Kullback-Leibler [33] (ver Métodos). El número total de racimos PWM aumentaron con estrictos
P
-valor de corte, alcanzando el máximo número de racimo de alrededor del 10
-16
P
-valor (Figura S1 A). Con la
P
-valor de corte de 10
-7, PWM asignados para los miembros de la familia STAT se encontraron en el mismo clúster. Es de destacar que la agrupación PWM no reveló ningún PWM no STAT que eran lo suficientemente similares como para incluir ni hubo PWM STAT que eran claramente diferentes (Figura S1B). Elegimos entre ellos ocho PWM de los miembros de la familia STAT con puntuaciones de calidad alta de PWM (& gt; 0,6), donde cada nivel de calidad se calculó utilizando el método propuesto por Rahmann et al. [34]. La relevancia de los PWM seleccionados para detectar conocido TFBS STAT3 se ha evaluado en los previamente identificados los genes diana STAT3 [35] (Figura S2).
Para minimizar los falsos positivos predicciones, resultados de STAT-escáner y luego se analizaron mediante la herramienta comparativa basada en motivos de alineación (Figura 1). Este método encuentra conserva sitios de unión dentro de los promotores ortólogos de seis especies de mamíferos mediante la comparación de secuencias múltiples. Dentro de un marco probabilístico, STAT-Finder evalúa entonces la parte posterior probabilidades de TFBSs como se predijo por STAT-escáner mediante la asignación de probabilidades a priori superiores en más sitios conservados no conservados queridos.
Validación de STAT-escáner
en primer lugar, comparamos el rendimiento de STAT-escáner con las herramientas más prácticas de predicción TFBS, PARTIDO 2.7 [36] y MotifLocator [37]. Para este fin, se recogieron los genes positivas con los sitios de unión de STAT3 experimentalmente comprobados en sus regiones promotoras través de la literatura y de la minería de búsqueda TRED (http://rulai.cshl.edu/TRED) [38]. información resultante de las secuencias de referencia 22 se enumeran en la Tabla S1. secuencias de ADN genómico que van desde 2.000 pb aguas arriba y 500 pb aguas abajo de la SAT anotada de cada gen se utilizaron como secuencias promotoras de entrada. Predicción de la verdadera TFBSs positivo fue entonces representa como una función del total predijo TFBS cuenta para diferentes valores de corte. Como se muestra en la Figura 2A, STAT-escáner, que utiliza combinado PWM relacionados STAT3, supera a igualar y MotifLocator, ya que ambos utilizan el representante STAT3 PWM (V $ STAT3_01). Creemos que la capacidad de predicción mejorada de STAT-escáner se debió en parte al uso de PWM STAT3 relacionada combinados, sobre todo porque el poder predictivo de MotifLocator también aumentó cuando se utilizaron los PWM combinados (Figura S3).
Las curvas para los cambios en el número de verdaderos TFBSs positivos detectados utilizando MotifLocator (V $ STAT3_01), PARTIDO (V $ STAT3_01), o STAT-escáner, como una función del número total de predijo TFBSs (a) en el conjunto de referencia de blanco 22 STAT3 genes (Tabla S1) y (B) en la STAT3 chip-Sec conjunto de datos de todo el genoma [39].
también evaluó el desempeño de STAT-escáner mediante la unión de STAT3 de datos de todo el genoma obtenidos usando células madre embrionarias [39]. Entre los 461 genes con STAT3 picos en las regiones promotoras 2,5 kb de unión, 412 han sido predicho con precisión por STAT-escáner para tener al menos un STAT3 TFBS (Figura 2B). El rendimiento global de STAT-Scanner era mejor que las de ambos coinciden y MotifLocator, como la detección de el mismo número de sitios de unión verdaderos se logró por tanto con el número total significativamente más bajos de los sitios predichos. Aunque Equipo y MotifLocator realiza de manera similar a STAT-Scanner en la detección de aproximadamente el 50% de la verdadera STAT3 TFBSs, este último supera tanto por predecir con exactitud los sitios verdaderos restantes. Creemos que esto se debe en parte a la utilización de PWMs relacionados STAT-combinada que tiene la capacidad de mejorar el rendimiento de MotifLocator, aunque menos de la mejora de STAT-Scanner, con datos combinados derivados de múltiples PWM (Figura S4). El rendimiento relativo de ambos métodos es baja comparada con la de STAT-Scanner; esto puede explicarse por el hecho de que sus puntuaciones en los sitios predichos no son directamente comparables entre los diferentes PWM, lo que demuestra la importancia de nuestro sistema de puntuación en la integración de diferentes partidos de PWM. Estos resultados también indican que la superposición de PWM con la especificidad de unión similar son fundamentales para el desarrollo de mejores estrategias de detección de TFBSs funcional de STAT3 con gran exactitud predictiva.
Características del funcional STAT3 TFBS
La última objetivo de la predicción computacional es detectar TFBSs funcional con un alto grado de confianza. Para filtrar el TFBSs de falsos positivos con las puntuaciones de alta afinidad, se examinaron diversas limitaciones funcionales, como la estructura evolutiva conservación y el genoma de las regiones predichas STAT3 TFBS. conservación de la secuencia entre múltiples especies se ha demostrado para limitar TFBS funcional [16], [17], [40]. Por lo tanto, lo primero que evaluó la distribución de las puntuaciones de conservación de especies múltiples (PhastCons Score) [41] y el potencial de regulación (puntuación RegPotential) [42] para las posiciones en las características funcionales y no funcionales STAT3 TFBSs detectados por STAT-escáner utilizando el conjunto de referencia de 22 genes (Tabla S1). Para mayor comodidad, hemos considerado un TFBS funcional si fue apoyada por los datos de unión de STAT3 experimental; de lo contrario, la TFBS se consideró no funcional. La distribución de las puntuaciones para la phastCons no funcional TFBSs STAT3 se sesgada hacia cero, mientras que phastCons calificaciones de alrededor del 50% de la TFBS funcional STAT3 superaron 0,1 (Figura 3A). Por el contrario, la distribución de las puntuaciones RegPotential, que miden la similitud de los patrones a los que están en los elementos reguladores conocidos, fue similar para las posiciones de la funcional y no funcional STAT3 TFBSs (Figura 3B). A continuación, se investigó las características de la isla CpG metilación resistente de las regiones que contienen TFBS STAT3. El exceso de representación de las secuencias de unión para factores de transcripción específicos, tales como proteínas de dedos de zinc, en las islas CpG se ha informado anteriormente [43]. La mayor parte del predicho STAT3 TFBSs se encuentran dentro de las islas CpG [44], pero la distribución genómica no se altera significativamente entre el funcional y no funcional STAT3 TFBSs (Figura 3C). elementos de repetición [45] en la secuencia genómica podrían poner en peligro las funciones de los factores de transcripción, ya que ninguno de los funcionales STAT3 TFBSs se han identificado dentro de las regiones repetidas (Figura 3D). En resumen, motivo de conservación, una limitación importante que distingue entre funcionales y no funcionales STAT3 TFBSs, por lo tanto, se ha incluido en STAT-Finder.
PhastCons (A) Resultado, (B) Puntuación del Potencial reglamentaria, (C ) Porcentaje de la isla CpG, y (D) Porcentaje en la región de repetición.
Validación de STAT-Finder
Seguidamente, evaluó el desempeño de STAT-Finder en comparación con otra comparativa métodos, es decir, EEL [46] y CONREAL [12]. Teniendo en cuenta que EEL realiza la alineación por pares sobre la base de las coincidencias con un único PWM, se compararon los resultados de EEL utilizando cada PWM (V $ STAT3_01 y V $ STAT1_01) por separado. Mientras tanto, el rendimiento de CONREAL se examinó mediante la combinación de ambos PWM. Hemos probado la precisión de la predicción de STAT-Finder en los dos conjuntos de datos positivos con fijaciones de STAT3. STAT-Finder exhibió un mejor rendimiento en comparación con el uso de EEL V $ STAT3_01, EEL utilizando V $ STAT1_01, o en comparación con CONREAL en la predicción de TFBSs cierto STAT3 en los 22 genes identificados previamente positivos (Figura 4A). Tenga en cuenta que tanto la anguila y CONREAL no lograron detectar alrededor del 40-60% de los verdaderos sitios de STAT3 positivos incluso en el valor mínimo de corte, mientras que STAT-Finder encuentra todos estos. Estos datos indican que STAT-Finder mostró un mejor rendimiento en términos de encontrar verdaderos positivos STAT3 TFBSs que los otros programas comparativos perder. Se hizo más evidente cuando se realizaron búsquedas en STAT3 TFBSs utilizando EEL o CONREAL en los conjuntos de datos con la unión de STAT3 en todo el genoma. Aunque el rendimiento global de la STAT-Finder fue similar a la anguila en la detección de 56% de la verdadera STAT3 TFBSs, sólo el STAT-Finder fue capaz de detectar el 30% restante de los verdaderos sitios (Figura 4B). Nuestros datos sugieren que la mejora de la sensibilidad de STAT-Finder podría atribuirse al uso de PWMs relacionados STAT-combinados, que evidentemente superó las limitaciones de rendimiento de V $ STAT3_01.
Las curvas para los cambios del número de verdaderos (; PWM combinados de V $ STAT3_01 y V $ STAT1_01 Todos), o STAT-Finder, como una función del número total de predijo TFBSs (a) en los sitios detectados usando EEL (V $ STAT3_01 o V $ STAT1_01), CONREAL vinculante conjunto de referencia de 22 genes (Tabla S1) y (B) en el conjunto de datos STAT3 chip-Sec de todo el genoma [39].
a continuación trató de predicción de todo el genoma de STAT3 unión en el promotor humanos regiones. Para este propósito, lo primero que calcula el valor de corte de la puntuación motivo de conservación (MCS) para identificar conserva TFBSs funcional STAT3. El grado de conservación de los TFBS predicho, que se determinó calculando MCS, se integró con los resultados de afinidad por STAT-Scanner (ver Métodos). La puntuación de confianza en cada MCS se evaluó usando las secuencias del promotor de 2,5 kb de los genes humanos anotados todos los genes de ratón y ortólogos. La puntuación de confianza determina la probabilidad de que un determinado TFBS no se conserva por casualidad. Como los valores de corte de MCS aumentó, el número total de STAT3 predijo TFBSs disminuyó a un ritmo más lento que el promedio de casos alineadas de motivos de control, lo que resulta en puntuaciones de confianza escalada en MCS valores superiores a 0,9 (Figura S5). Usando STAT-Finder, se realizó una búsqueda en todo el genoma de STAT3 TFBSs en las regiones promotoras humanos. Entre los 15461 genes humanos con ortólogos identificados en el ratón, a unos 7600 genes se predice que tienen sitios de unión putativa STAT3 dentro de la región promotora de 2,5 kb, en el umbral de probabilidad de 0,9. enriquecimiento significativo de STAT3 TFBSs puede ser predicho en las regiones aguas arriba proximales de los SAT-STAT mediante escáner y STAT-Finder [35], [39] (Figura S6).
Identificación de nuevos genes diana STAT3 en el cáncer células
la activación constitutiva de STAT3 y se han sugerido sobre-expresión de su gen diana para jugar un papel crítico en la carcinogénesis humana [12], [31], [47], [48], [49], [ ,,,0],50]. Para determinar si o no STAT-Finder es útil en la identificación de nuevos genes diana STAT3, se aplicó este programa a un grupo de genes que se expresan-over en células de cáncer humano. Hemos integrado los datos de microarrays obtenidos a partir del mapa módulo de expresión de genes regulados en el cáncer [51] y los datos derivados de las células A549 que sobreexpresan una forma constitutivamente activa de STAT3 [52].
Entre los 33 genes que son comúnmente hasta reguladas, ya se ha informado de once a ser regulado por STAT3 (Tabla 1). El uso de este grupo de genes, se examinó si o no STAT-Finder podría detectar experimentalmente demostrado STAT3 TFBSs. Es de destacar que hemos sido capaces de analizar sólo una fracción de las secuencias promotoras, debido principalmente al uso promotor alternativo y la información TSS mal anotado disponible. STAT-Finder detecta tres sitios de unión putativos STAT3 en el
JUNB
región promotora que incluye un sitio que ha sido previamente informado de que un sitio de unión de STAT3 [53] (Figura 5A). A partir de tres líneas celulares diferentes derivadas de pacientes de cáncer humano, se confirmó STAT3 unión a la
JUNB
promotor por inmunoprecipitación de la cromatina (Figura 5B). STAT-Finder también detecta con éxito uno de STAT3 TFBS en la nicotinamida N-metiltransferasa (
NNMT
) región promotora, recientemente identificado un gen diana STAT3 [54] (Figura 5 C, D). Curiosamente, STAT-Finder fue incapaz de detectar conocido TFBS STAT3 en el
MYC
región promotora (Figura 5E), a pesar de que
MYC
se ha notificado a ser un objetivo STAT3 [55]. También se ha informado de que STAT3 obligatorio a la región promotora de la
MYC
gen requiere un sitio que es diferente de la STAT3 consenso secuencias de unión, pero es similar a E2F TFBS, lo que indica que, en este caso, STAT3 de unión depende de la presencia de otros factores de transcripción [55]. El uso de conjuntos de cebadores que detectan conocidos sitios de unión de STAT3 en el
MYC
promotor, hemos sido capaces de confirmar su unión a la estimulación de IL-6 en células HepG2 (Figura 5F). Estos resultados sugieren que STAT-Finder podría detectar de manera eficiente los sitios de unión de STAT3 sólo si su unión no depende de la presencia de otro
cis
o
trans
factores.
( a, C, e) la puntuación afinidad a partir de STAT-scanner (arriba) y la probabilidad posterior de STAT-Finder (medio) de STAT3 predicho se representan gráficamente en las ventanas deslizantes para una región promotora de 2,5 kb en todos los
JUNB
(A),
NNMT gratis (C), y
MYC gratis (e) loci del genoma. El cuadrado abierto en la parte inferior indica las TFBS predicho con la probabilidad posterior superior a 0,95; mientras que el asterisco (*) en la región promotora representa el conocido STAT3 TFBS. (B, D, F) Análisis de inmunoprecipitación de la cromatina con un anticuerpo anti-STAT3: Correspondiente STAT3 TFBSs de
JUNB gratis (B),
NNMT gratis (D), y
MYC
(F) fueron amplificados por PCR usando los cebadores de los sitios de unión específicos (*) de la entrada y los lisados de células inmunoprecipitadas, derivados de la no estimulada o IL-6 (10 ng /ml) + IL-6SR (10 ng /ml) estimulado HepG2, A549, y MDA-MB-231 células.
A continuación examinó si o no podemos identificar nuevos genes diana de STAT3 usando STAT-Finder. Para este fin, se seleccionaron los genes conservados con TSS (Tabla 1) y se determinó la presencia de putativo TFBSs utilizando STAT3 STAT-Finder en sus regiones promotoras. STAT-Finder con éxito detectado putativo TFBSs STAT3 con altas probabilidades en las regiones promotoras de
AKAP12 gratis (A-quinasa proteína de anclaje 12),
HIC2 gratis (hiper-metilado en el cáncer 2), y
THBS1 gratis (trombospondina 1). STAT3 unión a estos sitios predichos se confirmó experimentalmente por chip de ensayo (Figura 6 A-F). Para verificar la especificidad de STAT-Finder, también ensayó la unión de STAT3 a los sitios que no se conservaron, pero estuvimos presentes en los promotores de genes ortólogos humanos. En contraste con el conservado STAT3 TFBSs, no pudimos detectar la unión a la STAT3 STAT3 TFBSs no conservada en líneas celulares de cáncer humano (Figura 6G). la unión a otra predicho STAT3 TFBSs presente en las regiones promotoras de
ATF3 gratis (factor activador de la transcripción 3),
DUSP5 gratis (doble especificidad fosfatasa 5),
SERPINE1 gratis (serpina STAT3 inhibidor de peptidasa, clase e),
NP gratis (nucleósido fosforilasa), y
SLC2A3 gratis (soluto transportista familia 2, transportador de glucosa facilitado, elemento 3) también fueron validadas experimentalmente (Figura S7). Finalmente, se estudió si o no otras herramientas de cálculo como la anguila o CONREAL también podría detectar con precisión los sitios objetivo STAT3 que han sido identificados y validados en este estudio. De 10 secuencias de promotor que contienen sitios de unión 10 STAT3 experimentalmente probados (Figura 5, 6 y S7), STAT-Finder predijo un total de 29 sitios de unión de STAT3 incluyendo todos los 10 sitios de unión de STAT3 validada experimentalmente. Mientras tanto, la anguila y CONREAL detectados sólo 5 (50%) y 2 (20%) validó STAT3 sitios de unión entre las 23 y 6 predicciones totales, respectivamente, lo que indica que STAT-Finder tiene un mejor rendimiento en cuanto a la identificación de nuevos genes diana de STAT3 ( Figura S8).
(a, C, e) La puntuación de afinidad (arriba, STAT-escáner) y la probabilidad posterior (en el centro, STAT-Finder) de lo predicho STAT3 TFBSs se representan en las ventanas correderas para un 2,5 -kb región promotora a través de la
AKAP12 gratis (A),
HIC2 gratis (C), y
THBS1 gratis (e) locus genómico. El cuadrado negro en la parte inferior indica las TFBS predicho con probabilidad posterior & gt; 0,5; mientras que el cuadro amarillo muestra los TFBS predicho sin conservación. (B, D, F) Chip análisis con un anticuerpo anti-STAT3. Putativo TFBSs STAT3 del
AKAP12 gratis (B),
HIC2 gratis (D), y
THBS1
fueron amplificados mediante PCR los conjuntos de cebadores inversos indicadas por las flechas. análisis (G) chip con un anticuerpo anti-STAT3. Predijo TFBSs sin ahorro en el ser humano
AKAP12
,
HIC2
, y
THBS1
genes fueron amplificados mediante PCR los conjuntos de cebadores inversos indicadas por las flechas.
Discusión
Se presenta un marco computacional para la identificación funcional STAT3 TFBSs en promotores de mamífero. El primer compartimento, STAT-escáner, fue diseñado para predecir funcional STAT3 TFBSs con sensibilidad mejorada. Mediante el uso de las alineaciones comparativos basados en motivos, STAT-Scanner fue ligado a STAT-Finder para minimizar los falsos positivos predicciones. Nuestro método propuesto se probó usando genes diana STAT3 previamente identificadas y se aplicó con éxito para la identificación de nuevos genes diana.
Nuestra estrategia en el desarrollo de STAT-Finder se basó en varios supuestos. En primer lugar, la especificidad de unión de ADN de STAT3 es compartida por otros miembros de la familia STAT. factores de transcripción STAT se unen a secuencias de ADN similares, y el ADN similar especificidad de diversos factores de transcripción STAT, tales como STAT1, STAT5A /5B, o STAT6, de unión se han demostrado experimentalmente [56]. También se ha observado que la integración de los partidos superpuestas detectados por matrices de los mismos miembros de la familia reduce en gran medida el número de total de predijo TFBSs, y por lo tanto disminuye la tasa de detección de falsos positivos [57]. Por otra parte, se ha informado recientemente que aproximadamente la mitad de TFS reconocer múltiples motivos de secuencias [58]. Por lo tanto, un enfoque de exploración motivo convencional utilizando una única PWM para cada TF tiene una limitación intrínseca en la detección de todos TFBSs funcional. Como resultado, el poder predictivo de STAT-Scanner fue significativamente mediante la integración de PWMs relacionados-STAT. La segunda suposición, que se utiliza en las alineaciones motivo basado, es que las ubicaciones relativas de TFBSs funcional se conservan entre las especies de mamíferos estrechamente relacionados. En la levadura, muy conservadas TFBSs para un conjunto de TFS presentan desviaciones espaciales relativamente bajas (~150-200 pb) [20]. Del mismo modo, se encontró que, durante seis especies de mamíferos, conocido TFBSs STAT3 se encuentran dentro de una distribución espacial similar en cada promotor.
Uso de STAT-Finder, hemos identificado una lista de STAT3 genes diana que están sobre-expresado en células de cáncer humano. Del mismo modo, STAT3 unión a la TFBSs predicha se ha verificado experimentalmente en IL-6 estimulada líneas celulares de cáncer humano. Curiosamente, STAT3 fue reclutado para los TFBS predicho de una manera específica del tipo celular. Por ejemplo, STAT3 unión a la TFBSs predicha en las regiones promotoras de la
AKAP12
y
HIC2
genes se observó en un-estimulada, pero no en la IL-6 estimulada A549 y MDA-MB- 231 células. Sin embargo, en las células HepG2, STAT3 fue reclutado para el mismo TFBS sólo después de la estimulación de IL-6 (Figura 6). Por el contrario, STAT3 unión a las regiones promotoras de
MYC
,
SERPINE1
,
NP
, y
SLC2A3
fue sólo detectable en IL-6 estimulada células HepG2, pero no en A549 o MDA-MB-231 células (Figura 6, Figura S7). Además, es evidente que STAT3 unión a la TFBSs predicha en los promotores de los genes diana candidato no garantiza la expresión de ese gen. Aunque la expresión de la mayoría de los genes diana había sido alterada a STAT3 vinculante para el promotor, se encontró que STAT3 la unión a los sitios diana no siempre se correlaciona con la expresión de genes en las líneas celulares ensayadas (Oh, YM, datos no publicados). Esto sugiere que STAT3 obligatorio en los sitios diana no es suficiente en la inducción de la expresión génica, y los factores de transcripción específicos de tejido, o trans-activadores que la especificación de modificación en la región de la cromatina también puede ser necesaria [59], [60], [61], [62].
cis-regulador
módulo comprende un conjunto de múltiples TFBSs que cooperativamente-interactúan con TFS para el control de la expresión génica. La identificación de los
cis-regulador módulos
para la regulación génica específica es un paso difícil hacia las redes de regulación comprensión de todo el genoma de la transcripción en los genomas de mamíferos. Por lo tanto, es necesario para predecir de manera eficiente TFBSs funcional para TFS individuales. Esperamos que nuestro enfoque comparativo se puede aplicar a otros TFS con algunas restricciones. En primer lugar, la eficacia de nuestro programa depende del grado de conservación evolutiva entre las seis especies de mamíferos. Por lo tanto, los sitios de unión de ADN para TFS que participan en la regulación de genes específico de la especie no pueden predecirse. Es de destacar que la ganancia o pérdida de la frecuente TFBSs en las regiones intergénicas conduce a la evolución de los circuitos de la transcripción [63]. En segundo lugar, nuestro programa no se puede aplicar a TFS que dependen de las proteínas para la contratación de otro ADN de unión al ADN. En tercer lugar, debido a que sólo compararon 2 kb aguas arriba de la secuencia promotora relación con el SAT anotada, los sitios de unión al ADN de TFS que se enriquecen en las regiones distales a la SAT podrían ser pasados por alto por nuestro programa.