Extracto
Antecedentes
adenocarcinoma pancreático (PAC) es una de las enfermedades más difíciles de resolver. Con el fin de buscar posibles nuevas dianas terapéuticas, que se basó en métodos computacionales dirigidos a identificar el factor de transcripción sitios (TFBSs) excesivamente representados en las regiones promotoras de los genes expresados diferencialmente en el PAC de unión. Aunque muchos métodos computacionales se han implementado para lograr esto, ninguno ha ganado aceptación general o producidos demostrado nuevas dianas en el PAC. Con este fin hemos desarrollado demonio, un nuevo método para la detección motivo.
Metodología
DEMONIO se basa en un modelo oculto de Markov para anotar la aparición de la secuencia de motivos, teniendo en cuenta todos los posibles sitios en un promotor de potencialmente diferentes afinidades de unión. Demostramos la precisión del DEMONIO en conjuntos de datos simulados y reales. La aplicación de demonio para los conjuntos de datos relacionados con el PAC identifica a la familia como RUNX altamente enriquecido en los genes relacionados con el PAC. El uso de un novedoso paradigma experimental para distinguir entre células normales y PAC, encontramos que mRNA de RUNX3 (pero no RUNX1 o RUNX2 mRNAs) presenta aumentos dependientes del tiempo en normal pero no en las células de APA. Estos incrementos se acompañan de cambios en los niveles de mRNA de los genes diana RUNX putativo.
Conclusiones
La aplicación integrada de demonios y un novedoso sistema de diferenciación condujo a la identificación de un único miembro de la familia, RUNX3, que junto con cuatro de sus supuestos objetivos mostraron una respuesta robusta a un estímulo diferenciación en las células sanas, mientras que este mecanismo de regulación estaba ausente en las células de PAC, haciendo hincapié en RUNX3 como un objetivo prometedor para estudios adicionales
Visto:. Levkovitz L , Yosef N, Gershengorn MC, Ruppin E, R Sharan, Oron Y (2010) un método basado en HMM Novel para la detección de Enriquecido factor de transcripción sitios de unión revela RUNX3 como un objetivo potencial en la biología del cáncer de páncreas. PLoS ONE 5 (12): e14423. doi: 10.1371 /journal.pone.0014423
Editor: Dov Joseph Stekel, Universidad de Nottingham, Reino Unido
Recibido: February 2, 2010; Aceptado 10 de septiembre de 2010; Publicado: Diciembre 22, 2010
Este es un artículo de acceso abierto distribuido bajo los términos de la declaración Creative Commons Public Domain que estipula que, una vez colocado en el dominio público, este trabajo puede ser reproducido libremente, distribuir, transmitirse, modificarse, construida sobre, o de otra forma utilizado por cualquier persona con cualquier objeto lícito
financiación:. Este trabajo fue apoyado por una beca PATHOGENOMICS era-Net para ER y RS, y la subvención Asociación de cáncer de Israel a ER, RS y YO. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
adenocarcinoma pancreático (PAC) es uno de los cánceres más agresivos. A pesar de 10º en la incidencia, es la cuarta causa principal de muerte por cáncer en el mundo occidental. PAC se caracteriza por un diagnóstico tardío, la progresión rápida y extensa metástasis y es casi completamente refractarios a todos los regímenes terapéuticos. Aunque el 10-15% de los tumores de PAC puede ser tratada mediante pancreatectomía parcial, el tiempo medio entre el diagnóstico y la muerte es de 3-6 meses y la tasa de supervivencia de 5 años es de menos de 5%. En los EE.UU., aproximadamente 30.000 nuevos casos son diagnosticados cada año y casi el mismo número de pacientes de APA mueren cada año de la enfermedad [1], [2]. Este panorama sombrío hace que este tipo de cáncer un tema digno para la búsqueda de nuevas dianas terapéuticas. No obstante su popularidad, publicados estudios de expresión génica, hasta ahora, no han logrado identificar dianas terapéuticas útiles.
Identificación de los factores de transcripción (TFS) que participan en los procesos biológicos fundamentales y diversas condiciones patológicas, en particular cáncer y los trastornos hereditarios, ha ganado en años recientes. TFS son controladores maestro de cambios en la expresión de múltiples genes y por lo tanto puede servir como objetivos preferidos para las terapias de enfermedades humanas. Un número relativamente grande de métodos para la identificación de sitios de unión TF enriquecidos (TFBSs) existen [3] - [5], pero ningún método ha ganado la preferencia universal sobre los demás
La aplicación del estado-of-the-. arte PRIMA algoritmo [4] para los conjuntos de datos que reflejan la expresión diferencial de genes en PAC señaló ZNF350 como un TF importante en la biología PAC (no publicado). Sin embargo, QRT-PCR experimentos mostraron sólo pequeños cambios en la expresión de ZNF350 después de retirarlos de suero de las células del PAC (ver Fig. S1). En vista de la importancia de esta metodología, hemos tratado de desarrollar un nuevo método encaminado a lograr un mejor valor predictivo en experimentos biológicos.
Un número relativamente grande de PAC estudios de expresión génica se han realizado, utilizando sanos y enfermos tejidos pancreáticos y líneas PAC in vitro. . Brandt
et al
[6] revisaron datos de 10 estudios de expresión e identificaron cerca de 1000 genes cuya expresión cambia en el PAC; 148 de estos genes fueron identificados en dos o más estudios. La lista compilada por Brandt
et al
. incluye genes que se expresan en una alta proporción de estudios de PAC y se habían asociado con muchos tipos de cáncer, como Ras, Ink4, P53, etc. Ninguno, sin embargo, parecen explicar la [7] progresión "catastrófica" de esta enfermedad . Aunque las proteínas individuales pueden servir como dianas prometedoras para el desarrollo de fármacos, la búsqueda de dianas terapéuticas en el PAC ha fracasado, hasta el momento, para producir nuevos clientes potenciales prometedores fármacos. Conceptualmente, las terapias dirigidas a TFS que son reguladores maestros de la expresión de un gran número de genes, son potencialmente más probabilidades de afectar a la biología de las células cancerosas y son particularmente atractivos.
Aquí hemos aplicado un nuevo método, demonio, por detectar enriquecida TFBSs y un nuevo paradigma para la comparación de páncreas normal y las células del PAC. La aplicación de demonio para un conjunto de datos experimentales PAC predijo que los sitios de unión para la subfamilia RUNX de TFS son altamente enriquecido en los correspondientes conjuntos de genes expresados diferencialmente. QRT-PCR confirmó RUNX3 como diferencialmente expresado TF. En conclusión, demonio demostró ser una herramienta útil en el análisis predictivo TFBSs y, junto con los resultados experimentales, sugiere que RUNX3 puede llegar a ser un importante objetivo del TF en la investigación del cáncer de páncreas.
Resultados
la detección de motivos enriquecido en los genes co-regulados (demonio) guía
Dado un objetivo de los promotores de los genes co-regulados y un conjunto de TFBS motivos conocidos (representados como matrices de posición de peso de la base de datos TRANSFAC [8], ver métodos), demonio busca motivos que aparecen en esos promotores con más frecuencia de lo esperado por azar (es decir, los motivos que se enriquecen en el conjunto de destino). El algoritmo utiliza un modelo oculto de Markov (HMM) para describir el proceso probabilístico que genera las secuencias promotoras, y para estimar qué tan probable es que cualquier determinado motivo se enriquece en el objetivo fijado.
Cada HMM contiene los estados de un motivo único, y el fondo establece que los segmentos modelo inter-motivo (Fig. 1). anota DEMON cada promotor para la aparición de cualquier motivo dado. Esta puntuación refleja la probabilidad de que la secuencia se genera en función del HMM que describe el motivo, frente a la probabilidad de que se genera en base a un modelo simple de fondo. Dado un conjunto de destino de los genes co-regulados, las puntuaciones de los promotores se resumen para cada HMM, y se comparan con las sumas de las puntuaciones obtenidas con los conjuntos de objetivos al azar. Esta comparación se utiliza para asignar un
p-valor
para cada motivo que refleja su abundancia en las regiones promotoras de la meta establecida (ver Fig. 2 y Métodos).
El HMM está compuesto de adorno de estados (en rosa), estados de fondo (en azul) y un estado de inicio. Un estado fondo se define para cada nucleótido (cuatro estados), y un estado motivo se define para cada posición a lo largo del PWM correspondiente a la TFBS de interés. Las probabilidades de emisión de los estados de motivos se definen de acuerdo con el PWM, y los de los estados de fondo se establece en 1 para el nucleótido correspondiente. Las probabilidades de transición entre los estados fondo reflejan la distribución de dinucleótidos en todas las regiones promotoras putativas en humanos. La probabilidad de transición de cada estado al siguiente motivo se establece en 1. Los restantes incluyen transiciones de trasladarse a los estados fondo (flechas discontinuas) o en movimiento al primer estado con motivos (flechas sólidas). Estas transiciones se aprenden mediante el algoritmo de Baum-Welch.
a. Recuperar una lista de co-genes expresados a partir de experimentos de alto rendimiento. segundo. Para cada par HMM-promotor una puntuación se calcula como la relación entre la probabilidad de emitir la secuencia promotora utilizando la TFBS HMM y la probabilidad de emitir la secuencia promotora utilizando un HMM de fondo. La suma de las puntuaciones para cada TF se utiliza para el cálculo de una única puntuación que refleja la abundancia global de la TF en el conjunto promotor de entrada. do. selección aleatoria de 100 conjuntos de datos promotor con el mismo tamaño que el conjunto de datos original. Las puntuaciones se calculan como antes para los conjuntos de datos. re. Cada TF es asignado con un valor de p empírica definida como el porcentaje de casos al azar en el que se obtuvieron calificaciones más altas.
de evaluación de resultados en los datos simulados y reales
Para probar nuestro enfoque, en primer lugar como punto de referencia DEMONIO en los datos simulados. Con este fin hemos simulado conjuntos de 100 promotores azar, cuyas secuencias fueron seleccionados de acuerdo a la probabilidad fondo de dinucleótidos en regiones promotoras reales (Métodos). a continuación, plantamos un motivo real en un x% (10≤x≤90) de los promotores en cada serie (tres instancias de los motivos se plantaron en cada promotor). Repetimos este procedimiento para todas las matrices de posición de peso de vertebrados (PWMs) en la base de datos TRANSFAC [8] (ver Métodos).
Figura 3 se compara el rendimiento de demonio para que el algoritmo de PRIMA. Elegimos PRIMA como representante de un grupo de métodos que utilizan un umbral difícil de identificar apariciones putativos de motivos en cualquier promotor dado. Tales métodos pueden no identificar ocurrencias "débiles" del motivo y, a menudo no tienen en cuenta el número real de ocurrencias del motivo (por ejemplo, en PRIMA, promotores se clasifican a los que tienen 0, 1, 2, o más de 2 ocurrencias del motivo).
Una comparación entre el demonio de PRIMA y el rendimiento de los conjuntos de datos con diversos porcentaje de promotores con motivos plantados.
Es evidente que, en todos los casos DEMONIO logra mejores resultados tanto en términos de especificidad y sensibilidad. Hemos llevado a cabo simulaciones adicionales, variando el número de promotores en cada conjunto, o el número de motivos plantados en cada promotor. Los resultados fueron cualitativamente similares (figuras S2 y S3).
Prima tiene una ventaja marginal sobre DEMONIO en pequeños conjuntos de datos (por 30 promotores, demonio tasa de falsos positivos (FPR) es 0,0006 frente a 0,0004 por PRIMA, véase la figura . S3). Sin embargo, estos números muy bajos hacen que el FPR de ambos métodos esencialmente iguales.
A continuación, se compararon los dos métodos en el recientemente publicado
Amadeus
metazoos de referencia, que es una colección de TF y microARN conjuntos de genes diana derivados de experimentos de alto rendimiento (microarrays de genes de expresión y experimentos chip-on-chip) [9]. Hemos descargado todas las entradas humanas y de ratón de esta colección, donde cada entrada contiene un único TF y una lista de genes diana (que van desde 25 a 2238 genes).
La Tabla 1 presenta los resultados de DEMON y PRIMA sobre toda las entradas de datos examinados. DEMONIO identifica la verdadera TF en el 70,3% de los casos (en donde en el 51,8% de los casos la verdadera TF está clasificado en primer o segundo lugar), mientras que PRIMA lo identificó en el 55,5% de los casos (en el 48,1% de los casos, el verdadero TF está clasificado en primer o segundo lugar). Por otra parte, en el 37% de los casos DEMONIO clasificado a la TF correcta superior a PRIMA PRIMA mientras que clasificó a la derecha del TF superior a demonio en sólo el 18,5% de los casos.
Detección de TFS implicados en la regulación transcripcional en PAC
inicialmente se utiliza una lista de genes expresados diferencialmente en PAC compilados por Brandt
et al.
[6] a partir de 10 estudios. Se obtuvo de esa lista una lista más pequeña de 45 genes que fueron identificados como diferencialmente expresados en 3 o más estudios, de los cuales 38 (30 que exhiben una mayor y 8 que mostraron una disminución de la expresión) emparejado nuestra colección de promotores humanos (véase el cuadro S1). Analizamos esta lista usando DEMONIO y encontramos un enriquecimiento significativo de 6 motivos, de los cuales los motivos más altamente enriquecido eran para el RUNX subfamilia de TFS (también llamada la subfamilia LMA). Cuando nos limitamos los datos de consenso establecidas para los 30 genes que exhiben una mayor transcripción, demonio encontró un enriquecimiento significativo de 8 motivos, de los cuales los motivos más altamente enriquecido eran también para RUNX.
El TFS de la sub-familia RUNX , son socios de reguladores transcripcionales heterodiméricas denotados como CBFs (factores centrales de unión) de las cuales las (RUNX) miembros CBFA se unen directamente al ADN y los dos CBFb empalmados alternativamente-(también conocido como PEBP) miembros se unen a la subunidad CBFA y potenciar la unión su unión al ADN [10]. Es de destacar que PEBP aparece como un tercer y un segundo TF más enriquecida, respectivamente (ver Tabla 2).
Se utilizó PRIMA para analizar las mismas listas, y encontramos un enriquecimiento significativo de un motivo, ZBRK1, también llamado ZNF350 (ver Tabla S2). Sin embargo, QRT-PCR experimentos mostraron sólo cambios modestos en ZNF350 expresión en PANC-1 sobre la retirada del suero (resultados no publicados, ver Fig. S1).
El tres altamente homóloga TFS RUNX humana (RUNX1, 2 y 3 ) han sido implicados en los procesos de desarrollo y, en particular, en el cáncer. RUNX1 (también conocido como AML1) ha sido ampliamente documentado como un factor importante en la hematopoyesis y en la etiología de la leucemia mielógena aguda (para revisión ver [11]). RUNX2 se ha demostrado estar involucrados en el desarrollo óseo (para revisión ver [12]) y RUNX3 fue documentado como un importante TF en el desarrollo de los linfocitos T [13] - [15] y se ha asociado con la patogénesis de varios tumores malignos [ ,,,0],16], incluyendo PAC [17], [18]. Por lo tanto, el análisis DEMONIO predice que los familiares RUNX TF son candidatos principales responsables de la transcripción alterada de genes en el conjunto de datos de consenso PAC.
RUNX validación experimental
La mayoría de los datos experimentales en el cáncer comparar la expresión de genes de los tejidos de cáncer con la de los tejidos sanos de donantes humanos. Esta comparación filtra la variabilidad de la expresión de genes debido al sexo y la edad del paciente, la etapa de la enfermedad, la implicación de las condiciones patológicas relacionadas, diferentes terapias con medicamentos (cáncer-específica y otros), así como la genética étnicos y estilos de vida. Por lo tanto, están representados sólo los genes comunes a PAC en el fondo de todas las fuentes anteriores de variabilidad. Es de destacar que et de Brandt al. [6] lista de cerca de un millar de genes expresados diferencialmente se reduce a 148 y 45, cuando se añade un requisito que debe aparecer en al menos dos o tres estudios, respectivamente.
Para evitar la variabilidad entre pacientes, optamos por estudiar los patrones de expresión diferencial de genes observados en los dos tipos de células en cultivo: PPME, células pancreáticas precursoras que ya no caben de los islotes de Langerhans humanas cultivadas de donantes cadavéricos sanas y células PANC-1, una línea establecida de PAC humano. Es importante destacar que los dos tipos de células se someten a mesenquimal a epitelial de transición (MET) y parcialmente se diferencian para un fenotipo neuroendocrino cuando se le permite agregarse en medio libre de suero [19], [20]. Mientras PPME dejan de proliferar y algunos de ellos mueren, las células PANC-1 continúan proliferando en estas condiciones
.
La suposición principal de nuestro paradigma es que la respuesta a un estímulo diferenciación revelará cambios en la expresión de genes que distinguen normal a partir de células de APA. A lo mejor de nuestro conocimiento, no hay pruebas en la literatura que la comparación de los procesos en las células normales y cancerosas de origen similar en condiciones que inducen la diferenciación parcial dará una idea de la expresión de genes relacionados con el cáncer. proliferación continua de células en medio libre de suero podría atribuirse a mutaciones de genes clave (por ejemplo, K-Ras). Sin embargo, no todos los rasgos de células de cáncer (migración por ejemplo, invasividad, la estimulación de la angiogénesis, la resistencia a los agentes citotóxicos) pueden estar directamente relacionadas con su capacidad para proliferar en ausencia de factores de crecimiento. Es posible que este paradigma rendirá genes que se perdieron en el tradicional sana vs. métodos tejido enfermo. Tenemos, por lo tanto, ambos PPME cultivadas y Panc-1 células en medio libre de suero durante 24 h y comparó los cambios en la expresión génica en ambos tipos de células. Esta comparación arrojó un conjunto mano curada de 30 genes, cuya expresión ha cambiado significativamente en un tipo de célula y, o bien no cambió o cambio en la dirección opuesta en la otra exhibieron (véase la Tabla S3). Analizamos este conjunto con DEMONIO (ver Tabla S4). Aunque PEBP (CBFb) se enriqueció sólo marginalmente (p~0.1) en esta lista, que apareció entre los diez primeros TFBSs exhibiendo los p-valores más bajos tanto en las listas obtenidas por demonio de conjuntos de datos de consenso (2º y 3º clasificado) y desde los PPME frente a PANC-1 en las células conjunto de datos experimento (sexto lugar). Este hallazgo apoya la predicción de que los miembros de la familia de sub-RUNX pueden estar involucrados en el PAC. El análisis de los mismos conjunto de datos con PRIMA no encuentra ningún motivo de enriquecimiento (véase el cuadro S5).
Para obtener evidencia experimental para RUNX distinguir entre células normales y PAC, que supervisa la expresión de RUNX1, 2 y 3 de los ARNm QRT-PCR como una función del tiempo de la privación de suero de los PPME y las células PANC-1 (Fig. 4). Hubo poco cambio en la expresión de RUNX1 y 2 transcripciones en cualquiera de los tipos de células. La expresión de RUNX3, sin embargo, se incrementó notablemente en una forma dependiente del tiempo en los PPME, mientras que prácticamente no hubo cambio en las células PANC-1. Parece, por tanto, que la expresión de RUNX3 está regulada en los PPME durante la diferenciación, pero no responde al estímulo de diferenciación en células PANC-1.
PPME y PANC-1 células fueron cultivadas ya sea en un medio que contiene suero (t = 0) o durante los tiempos indicados en medio libre de suero. Se extrajo el ARN y QRT-PCR realizó como se describe en Materiales y Métodos. Los resultados se presentan como% de cambio en los niveles de mRNA de los tres genes RUNX como una función del tiempo en un medio libre de suero.
A fin de validar este hallazgo, que ensayaron en los PPME la expresión de cinco RUNX putativa objetivos, ECM2, DUSP2, ESAM, PECAM, y ITGB4, que fueron seleccionados de una lista de objetivos RUNX putativos generado a partir de un procedimiento similar al método descrito en [4]. Cuatro de estos mRNAs mostrado una marcada cambios en la expresión (véase Fig. 5A), mientras que el quinto, ITGB4, exhibió sólo un incremento de dos veces transitoria. En comparación, la expresión de estos genes no cambió en las células PANC-1 (véase la Fig. 5B). Cuando la expresión de los mismos genes se examinó en los datos de microarrays, ninguno (incluyendo RUNX3) fueron lo suficientemente alto para un análisis significativo, lo que confirma la sensibilidad superior de QRT-PCR.
A. PPME y B. Las células PANC-1 eran o bien se cultivaron en medio que contiene suero (t = 0) o durante los tiempos indicados en medio libre de suero. Se extrajo el ARN y QRT-PCR realizó como se describe en Materiales y Métodos. Los resultados se presentan como% de cambio en los niveles de mRNA de los genes indicados como una función del tiempo en un medio libre de suero.
Discusión
Hemos presentado un nuevo algoritmo para la detección de TFBSs enriquecido en un determinado conjunto de promotores. El algoritmo utiliza una puntuación basada en HMM para tener en cuenta todos los posibles análisis sintácticos de una secuencia promotora en sitios de unión de nucleótidos y de fondo. Su peso es de una forma de principio todos los posibles sitios de unión a lo largo del promotor, por lo que es posible considerar múltiples sitios de unión débiles que no habrían pasado un umbral de significación. Este es el primer uso de un método de este tipo para las pruebas de enriquecimiento. Mostramos que supera un enfoque anterior (PRIMA) al problema, que utiliza un umbral para tomar decisiones binarias sobre los sitios de unión reales.
Tres aspectos de los resultados experimentales presentados en este informe parecen ser de gran importancia . En primer lugar, experimentalmente validar el poder del análisis de demonio para predecir TFS (y sus genes diana) a partir de un pequeño número de genes expresados diferencialmente en PAC. Aunque DEMON demostró ser superior a PRIMA en experimentos de simulación, su valor puede ser probada solamente por su capacidad predictiva experimental. En nuestro caso, el poder del demonio no sólo fue validado por RUNX3, sino también por la identificación intrínsecamente coherente de CBFb, la pareja heterodimérica (s) de la sub-familia RUNX.
En segundo lugar, nuestros resultados sugieren fuertemente que RUNX3 y su pareja heterodimérica CBFb deben investigarse más a fondo con respecto a su papel potencial (s) en el PAC etiología. Las aberraciones en la expresión de RUNX1 se identificaron en una proporción significativa de las leucemias [11]. RUNX2 y 3 genes han sido ampliamente estudiados como TFS desarrollo. RUNX2 ha demostrado ser crucial para el hueso y el desarrollo esquelético [12]. RUNX3 ha demostrado estar directamente involucrados en el compromiso de las células + /CD8 + CD4 en las células T CD8 + y en la maduración de las células T dendríticas [15], [21]. Algunos informes demuestran el papel de RUNX3 en el desarrollo del sistema neuronal sensorial [22], [23]. La hipermetilación de la región promotora RUNX3 se ha correlacionado con diversos tumores malignos metastásicos, como el de mama, de pulmón de células no pequeñas, gástrico, de páncreas, colorrectal, o carcinomas hepatocelulares [24]. Es importante destacar que, la restauración de la expresión de RUNX3 en las líneas celulares de cáncer conduce a la apoptosis o disminución de la proliferación de células cancerosas y de su diferenciación [25] - [28]. Estas, y los informes similares, establecieron que RUNX3 parece funcionar como un supresor de tumor. Se confirmó además por nuestra conclusión de que los PPME mesenquimales no transformadas responden a un estímulo diferenciación por aumento de la transcripción de RUNX3 y detener la proliferación, mientras que las células malignas PANC-1 parecen haber perdido esta respuesta reguladora y continúan proliferando. En el PAC humana, la hipermetilación y la pérdida de heterocigosidad de RUNX3 se encuentran en una gran proporción de los tejidos del PAC y se correlacionan con un peor pronóstico [17], [18]. Estos resultados ponen de RUNX3 como otro producto del gen asociado-PAC. El análisis demonio, sin embargo, coloca RUNX y su socio, PEBP, como TFS supuestamente muy importantes que controlan la expresión de muchos genes relacionados con el PAC.
En tercer lugar, nuestros resultados confirman la hipótesis de que las diferencias entre las células de páncreas normal y PAC se revelan después de un estímulo diferenciación. Esta hipótesis se ve reforzada por un análisis reciente de transcriptomes implicados en el cáncer y el desarrollo [29]. En la proliferación de los PPME y células PANC-1, ambos exhiben fenotipos mesenquimales [19], algunas transcripciones RUNX3 están presentes (umbrales de 31,5 y 30 ciclos, respectivamente). A las 24 h en medio de diferenciación, sin embargo, los niveles de ARNm de RUNX3 en los PPME aumentaron más de 1000 veces, mientras que prácticamente no hubo respuesta en las células PANC-1. Del mismo modo, los genes diana putativos RUNX3 exhibieron la transcripción alterada en los PPME, pero no hay cambios en las células PANC-1. Es importante destacar que, Li
et al
. [30] han encontrado que RUNX3 se expresa sólo en los islotes y una proporción de tejidos de APA. Nuestros datos experimentales demuestran que mientras que la expresión de mRNA de RUNX3 puede no ser diferente en la proliferación de las células normales y PAC, su papel se revela sólo siguiente estímulo diferenciación, lo que explica la aparente desacuerdo entre los hallazgos de Wada
et al.
Y Nomoto
et al.
[17], [18] y los de Li
et al
. [30].
Es importante destacar que la respuesta de la diferenciación inducida de RUNX3 y sus cinco supuestos objetivos en los PPME que no pueden obtenerse a partir del análisis de microarrays debido a la ausencia de señal o sus niveles muy bajos. Aunque las señales PECAM1 y CBFA2T1 aumentaron más de dos veces, sus señales eran demasiado bajos para ser significativo. Esto justifica el uso de métodos computacionales, como el demonio o PRIMA, para identificar los genes diana y su validación por la técnica más sensible QRT-PCR. Es cierto, QRT-PCR no puede revelar las regulaciones controladas epigenetically de fenotipo celular.
Nuestros resultados sugieren la pérdida de respuesta del gen RUNX3 en el PAC y sugieren nuevos estudios, como la investigación de la metilación de su promotor, y una mayor extenso estudio de la expresión de los genes diana putativos RUNX.
Materiales y Métodos
El demonio algoritmo
El algoritmo utiliza DEMONIO HMM para representar TFBSs. Cada HMM se compone de dos tipos de estados: estados y los estados con motivos de fondo (Fig. 1). Un estado fondo se define para cada nucleótido (cuatro estados), y un estado motivo se define para cada posición a lo largo del PWM correspondiente a la TFBS de interés. Las probabilidades de emisión de los estados de motivos se definen de acuerdo con el PWM, y los de los estados de fondo se establece en 1 para el nucleótido correspondiente. Las probabilidades de transición entre los estados fondo reflejan la distribución de dinucleótidos en todas las regiones promotoras putativas en humanos. La probabilidad de transición de cada estado al siguiente motivo se establece en 1. Los restantes incluyen transiciones de trasladarse a los estados de fondo (Fig. 1, se lanzó flechas) o en movimiento al primer estado con motivos (Fig. 1, las flechas sólidas). Estas transiciones se aprenden mediante el algoritmo de Baum-Welch [31] (información de apoyo S1).
Las entradas a DEMONIO son la lista de genes de interés (Fig. 2a) y un conjunto de TFBS motivos representados por PWM . La salida es una lista de TFS cuyos sitios de unión son estadísticamente más representadas en las regiones promotoras de la lista dada de genes.
Como primer paso, construimos un HMM de cada PWM dado, y cada HMM- par promotor se le asigna una puntuación que refleja la probabilidad de que el respectivo TFBS aparece en la respectiva región promotora. Esta puntuación se calcula como la relación entre dos valores (figura 2B.): (I) la probabilidad de emitir la secuencia promotora utilizando la TFBS HMM en la Figura 1, y (ii) la probabilidad de emitir la secuencia promotora utilizando un HMM compuesto únicamente de los estados de fondo. Los valores de probabilidad se calculan utilizando el algoritmo de Forward [32]. Las puntuaciones por parejas a continuación, se utilizan para calcular una puntuación individual para cada TF, lo que refleja su abundancia general en el conjunto promotor de entrada. Esta puntuación se define como la suma de todos los puntajes asignados individualmente con cada promotor.
En el segundo paso, se utiliza un enfoque empírico para evaluar la significación estadística de las puntuaciones generales de probabilidad calculadas para el TFS. Nosotros seleccionamos al azar un número similar de promotores como en los datos originales de la agrupación de todas las regiones promotoras humanos y calculamos una nueva puntuación para cada TF como antes (Fig. 2c). Repetimos este procedimiento 100 veces, terminando con una distribución empírica de probabilidad de resultados aleatorios. Cada TF se le asigna con un empírica
p-valor
define como la probabilidad de ver la suma de las puntuaciones de destino establecido, teniendo en cuenta las sumas aleatorias que se supone que se distribuye normalmente (Fig. 2d). es decir, se calcula el promedio y la desviación estándar de las puntuaciones al azar, y el uso de la función de distribución normal acumulativa para calcular la probabilidad de que una observación de una distribución normal estándar será mayor que la suma de las puntuaciones objetivo fijado. Los valores de p se corrigen para las pruebas múltiples hipótesis utilizando el procedimiento tasa de falso descubrimiento [33]. Presentamos todos los resultados obtenidos con la tasa de falso descubrimiento por debajo del 5%.
Adquisición de datos y PRIMA aplicación
Se obtuvo un conjunto de matrices de distribución de nucleótidos que el modelo de vertebrados TFBSs de la base de datos TRANSFAC (Versión 11.1) [ ,,,0],8]. Un total de 588 matrices de vertebrados fueron descargados de la base de datos. Las matrices fueron transformados a matrices de probabilidad de que delinean la probabilidad de cada nucleótido a aparecer en cada posición en la TFBS. Desde la base de datos es redundante y algunas de las matrices describir TFBS similares, que agrupan las matrices en una etapa de procesamiento previo en un procedimiento similar al utilizado en [4]. Con este fin, se construyó un PWM
w
de cada matriz de probabilidad
m
, y utilizamos un bajo umbral calculado previamente
t
para escanear los promotores del genoma humano. El umbral se calcula utilizando dos conjuntos de promotores de fondo: (i) los promotores aleatorios que están construidos en base a la distribución de nucleótidos en todos los promotores, los segmentos (ii) elegidas al azar de los promotores reales. Los dos conjuntos son analizados por cada PWM
w
y el umbral de
t
se define como el máximo entre el 100
ª mayor puntuación de cada uno de los dos conjuntos de datos de fondo (lo que implica un FPR de 0,01). Cada subsecuencia que tenía una puntuación de similitud con el PWM
w
por encima del umbral
t
se ha marcado como una instancia putativa de
w
. Luego, cada par de matrices que
x
% de sus apariciones en el promotor establecido se solapaban fue agrupado y la matriz con el menor contenido de información (es decir, la matriz que es menos diferente de una distribución uniforme) se eliminó . A medida que el valor de
x
crece, el criterio de agrupamiento se hace más estrictas y las matrices resultantes establecidos crece, y viceversa. Utilizamos
x = 0,2
para obtener un conjunto de 219 matrices para utilizar en nuestro análisis.
Hemos descargado el conjunto completo de los promotores humanos a partir de la base de datos UCSC Genome Browser [34], [35 ]. Sobre la base de las pruebas preliminares y estudios recientes afirman que la mayoría de la TFBSs en humanos promotores se encuentran cerca del sitio de inicio de la transcripción [36], definimos las regiones promotoras de los genes como la secuencia de 500 pb aguas arriba del sitio de inicio de la transcripción.
Hemos implementado PRIMA como se describe en [4].
Los cultivos de células
células pancreáticas derivadas de islotes humanos precursoras (PPME) fueron aislados y propagados en medio CMRL modificado como se describe anteriormente [ ,,,0],20]. línea celular de adenocarcinoma pancreático humano PANC-1 se adquirió de American Type Tissue Collection y se mantiene en de-modificado Dulbecco mínimo de Eagle Medium (DMEM) como se describe anteriormente [20]. diferenciación parcial de cualquiera de los tipos de células se consigue mediante el cultivo de células en medio libre de suero, esencialmente como se describe anteriormente [20]. Las células fueron cultivadas y mantenidas en 95:5% de aire:. CO
2 atmósfera a 37 °
Los microarrays de ADN
Affymetrix GeneChip Human Genome U133 Plus 2.0 de microarrays (catálogo#900466) se utilizó, obteniéndose 12.760 secuencias. PPME se ensayaron por triplicado, cada uno de una muestra biológica separada. células PANC-1 se ensayaron en matrices pentaplicate, dos de réplicas biológicas separadas y otra biológica replicar ejecutar en conjuntos por triplicado. Cada conjunto se compone de muestras aisladas de células en proliferación (t = 0, en 10% de medio que contiene suero fetal bovino) y las células después de 24 h en (diferenciación) medio libre de suero.