Extracto
Los microARN (miARN) han atraído una gran atención en la biología y la medicina. Se ha planteado la hipótesis de que los miRNAs interactúan con factores de transcripción (TFS) en forma coordinada para jugar un papel clave en la regulación de la señalización y las rutas de transcripción y en el logro de la regulación de genes robusta. En este caso, se propone un nuevo método de cálculo de integración para inferir ciertos tipos de circuitos de regulación miARN mediada desregulados en el transcripcional, post-transcripcional y los niveles de señalización. Para predecir de forma fiable las interacciones miARN objetivo de los datos de expresión de ARNm /miARN, nuestro método utiliza colectivamente predicciones miARN objetivo basadas en la secuencia obtenida de varios algoritmos, información conocida sobre mRNA objetivos y miARN de TFS disponibles en bases de datos existentes, ciertas estructuras moleculares identificados para ser estadísticamente más representadas en las redes de genes reguladores, información de subtipos moleculares disponibles, y las técnicas estadísticas del estado de la técnica apropiada para limitar el análisis subyacente. De esta manera, el método explota casi todos los aspectos de la información extraíbles en los datos de expresión. Aplicamos nuestro procedimiento en los datos de expresión de ARNm /miARN de tumor de próstata y muestras normales y detectar numerosos bucles desregulados miARN mediada conocidos y novedosos y redes en el cáncer de próstata. También demuestran los casos de los resultados en una serie de ajustes biológicas distintas, que se sabe que juegan papeles cruciales en la próstata y otros tipos de cáncer. Nuestros resultados muestran que el método de cálculo propuesto puede ser utilizado para lograr efectivamente ideas notables sobre los mecanismos moleculares poco conocidos de interacciones mediadas por miARN y diseccionar sus roles funcionales en el cáncer, en un esfuerzo para allanar el camino para la terapéutica basados en miARN en el ámbito clínico.
Visto: Afshar AS, Xu J, Goutsias J (2014) integrativa identificación de Liberalizadas MiRNA /TF-génica mediada por bucles de regulación y Redes en el cáncer de próstata. PLoS ONE 9 (6): e100806. doi: 10.1371 /journal.pone.0100806
Editor: Sebastien Pfeffer, Centro Nacional de Investigación Científica - Instituto de Biología Molecular y Celular, Francia |
Recibido: 20 de enero de 2014; Aceptado: 28-may de 2014; Publicado: 26 Junio 2014
Derechos de Autor © 2014 Afshar et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo fue financiado por la National Science Foundation (NSF) Subvenciones CCF-0.849.907 y CCF-1217213. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
Los microARN (miRNA) son ácidos pequeños no codificantes ribonucleico (ARN) que ampliamente regulan la expresión génica en animales metazoos, plantas y protozoos. Aproximadamente 22 nucleótidos de longitud, por lo general miRNAs reprimir la expresión de genes mediante la unión a secuencias con complementariedad parcial en ARN mensajero diana transcripciones (ARNm). En los mamíferos, se cree que los miRNAs para controlar la actividad de más del 60% de todos los genes codificantes de proteínas y extensamente participar en la regulación de muchas funciones celulares [1], [2].
Con pocas excepciones, los metazoos miRNAs pares de bases con sus objetivos de manera imperfecta, siguiendo un conjunto de reglas que se han formulado mediante el empleo de los análisis experimentales y basados en la bioinformática [3]. Esta complementariedad limitada hace que la tarea de identificación de los genes miARN objetivos computacionalmente muy difícil y por lo general conduce a un gran número de, sobre todo, los posibles objetivos falsos
.
A principios de herramientas computacionales se han centrado principalmente en la disección de las interacciones de los genes miARN objetivo individuales basándose en la secuencia la identificación basada en los sitios de unión de miARN objeto de análisis o en el análisis de datos de expresión de ARNm /miARN [4] - [6]. métodos alternativos utilizan miARN genes del huésped como servidores proxy para medir la expresión de miRNAs incrustados [7] o emplean un enfoque teórico de la información para identificar ARNm candidatos que modulan la actividad de los genes miARN al afectar a la relación entre un miARN y su objetivo (s) [8]. Por otro lado, el trabajo reciente considera análisis de co-expresión, suponiendo que los objetivos de A dado miARN son co-expresado, al menos en ciertos tejidos o condiciones [9].
Convencionalmente, muchos métodos computacionales desarrollados para predicción miRNA-objetivo se basan en la suposición de que existe una correlación inversa entre el nivel de expresión de un miARN y la de su diana [10]. Sin embargo, recientemente se ha demostrado que tanto positivos como negativos de la transcripción co-regulación de los genes miARN y sus objetivos son frecuentes en los genomas humanos y de ratón [11], [12]. En particular, se han propuesto dos tipos de circuitos de regulación (que vamos a discutir en breve) para las interacciones miARN mediada, que moduladora atribuyen y /o el fortalecimiento de las funciones de miRNAs en sus redes basadas en motivos, tales como bucles de alimentación directa (FFL ) [13]. Como consecuencia, se espera que las predicciones miARN objetivo únicamente dependen de un supuesto correlación inversa estar limitado si el método de predicción no incorpora adecuadamente la estructura de red subyacente FFL.
Con base en el paradigma anterior, varios investigadores han investigado la estadística sobre-representación de las estructuras de red que implican miARN y TF co-regulación de los ARNm para identificar los motivos de la red enriquecidos y /o evaluar su prevalencia en diferentes contextos biológicos [14] - [21]. En esencia, estos métodos calculan medidas de coordinada de genes co-regulación por miRNA y los reguladores TF. Otros investigadores han considerado métodos de regresión o modelos bayesianos para cuantificar asociaciones estadísticas mediante la determinación de cambios en el nivel de expresión de un determinado ARNm explicado por los niveles de expresión de TFS y miRNAs predicho para apuntar el mRNA basado en información de la secuencia [22] - [25]. Posteriormente, se utilizan las relaciones inferidas para delinear estructuras y motivos de la red significativas de una manera similar a la empleada en los métodos antes mencionados. Es importante tener en cuenta sin embargo, que los resultados colectivos producidos por todos estos enfoques proporcionan apoyo adicional a la importancia de los genes miARN FFL /mediada TF-como motivos de la red a través de diferentes contextos biológicos que prevalece, volver a confirmar las hipótesis propuestas originalmente en [11], [12] .
Además de lo anterior, los trastornos en la regulación de genes (por ejemplo, por alteraciones genéticas y epigenéticas) que se cree para inducir cambios en la función normal de las células que conducen a la progresión de estados patológicos, como el cáncer, se difunden a través de redes reguladoras de genes. Como consecuencia, el tratamiento eficaz de muchas enfermedades humanas puede requerir una comprensión fundamental y sistémico de los reguladores genómicos, como miRNAs y TFS, y sus redes de interacción. Sin embargo, inferir sistemáticamente las interacciones moleculares por los métodos experimentales es difícil y costoso. Por lo tanto, es altamente deseable desarrollar enfoques "fiables" computacionales capaces de identificar dichas redes. predicciones de la red puede ser usado posteriormente por un biólogo experto en la formulación de nuevas hipótesis y efectivamente proceder con su investigación experimental y validación.
Recientemente, se han propuesto varios métodos para la identificación de nuevas interacciones coordinadas miARN /TF [26], [ ,,,0],27]. Sin embargo, y para una estructura determinado motivo (por ejemplo, un FFL), estos métodos tratan de predecir las interacciones subyacentes (los tres bordes de una FFL) mediante la utilización de la información biológica limitada y un conjunto limitado de herramientas computacionales. Como resultado, aunque los métodos son eficaces para proporcionar conocimientos sobre la prevalencia de diversas instancias con motivos en redes reguladoras de genes, que pueden no producir predicciones fiables desde un punto de vista experimental.
El rendimiento de algunos de los métodos anteriores tiene sido probado recientemente en [27]. Se observó que, a pesar de algunos métodos eran capaces de lograr una tasa de éxito razonable en la predicción de las instancias de un tipo de interacción, que fueron menos efectivos en la predicción de los casos de los otros dos tipos, con varios algoritmos que tiene una tasa de éxito de cerca o menos del 1% en la predicción de la TF-mRNA y TF-miARN interacciones. Esto pone de relieve el hecho fundamental de que la predicción de las interacciones moleculares por pares y la construcción de instancias de orden superior de los motivos por los bordes predichos podría traducirse en tasas de falsos positivos en general más altos. Dado que existe una gran cantidad de información sobre cómo un TF se une a sus objetivos y en sus funciones reguladoras específicas, decidimos considerar solamente
experimentalmente validadas
interacciones TF-mRNA y TF-miARN en el marco de FFL y desviar la atención de predecir de forma fiable el borde interacción miARN-destino poco conocido. Creemos que, al restringir adecuadamente el problema subyacente análisis estadístico, que podrían contribuir a aumentar la fiabilidad de los genes miARN predicciones bucle de regulación /TF-mediada.
Para restringir aún más el problema de miRNA-diana interacción predicción, nos centramos en este documento sobre ciertos motivos reguladores de tres nodos. El primer conjunto de motivos que nuestro método considera son FFL tres nodos que recientemente han atraído una gran atención entre los sistemas y los biólogos experimentales. Estos motivos son excelentes modelos de regulación miARN mediada por la transcripción y coordinada, lo que se ha considerado que ser frecuente en los genomas humanos y de ratón [12].
Se consideran dos de tipo I FFL motivos, en el que el miARN y TF son los reguladores de aguas arriba y aguas abajo, respectivamente, así como cuatro motivos de tipo II FFL, en el que la TF es ahora el regulador de aguas arriba, mientras que el miARN es el regulador aguas abajo - véase la figura 1. Desde un punto de vista mecanicista, estas seis FFL son clasificados como
coherente
o
incoherente
. En el caso coherente, los reguladores de los genes miARN y TF actúan de forma coordinada para reforzar la lógica de regulación a lo largo de dos trayectorias de alimentación de avance. En FFL coherentes Tipo I y Tipo II-B, estos caminos reprimen simultáneamente la expresión del ARNm diana. Se utiliza el mecanismo resultante, por ejemplo, para someter a la transcripción de un gen con fugas, asegurando que su expresión se mantiene a un nivel insignificante. Por otro lado, en un tipo II-A coherente FFL, el TF refuerza la transcripción del mRNA blanco de la activación directa de ella, así como mediante la inhibición de su represión por el regulador miRNA orientación.
El Tipo I FFL consta de trillizos (miARN, TF, ARNm) de tal manera que un miARN objetivos al mismo tiempo un ARNm y su ARNm TF. El tipo II FFL consiste en tripletes (miARN, TF, ARNm) de tal manera que un TF regula simultáneamente una miARN y sus ARNm diana. Por último, el bucle de tipo III se compone de trillizos (miARN, G-1, G-2) de tal manera que el miARN objetivos simultáneamente dos transcritos en una vía KEGG dado, uno de cada G-1 y G-2 genes, cuyas proteínas correspondientes podrían potencialmente interactuar entre sí sobre la base de un mapa de ruta proporcionada en la base de datos KEGG.
en los FFL incoherentes, los reguladores de los genes miARN y TF actúan de forma coordinada para poner a punto la expresión del ARNm objetivo . Más específicamente, cualquier desviación de la concentración en estado estacionario del regulador de aguas arriba (es decir, el miARN en tipo I y la TF en el tipo II-A y Tipo II-B FFL) conduciría el mRNA objetivo, así como el regulador de corriente abajo , lejos de sus niveles de estado estable en la misma dirección. De esta manera, el regulador de corriente abajo puede equilibrar la expresión del ARNm objetivo, compensar las fluctuaciones en el nivel de expresión del factor de aguas arriba.
Ciertos procesos celulares podrían ser ultra-sensibles a la actividad de un determinado transcripción en una contexto biológico específico. En estas situaciones, el mecanismo de "ruido buffering" proporcionado por FFL incoherentes ayuda a mantener la homeostasis proteína diana y se asegura de que una deriva no coordinada desde el nivel de estado estacionario del regulador de aguas arriba puede no resultar en una variación no deseable en el nivel de proteína diana que puede conducir a los resultados patológicos. MiRNAs son particularmente eficaces en este contexto, debido a su rápido mecanismo de acción a nivel post-transcripcional, en contraposición a transcripcional represores, acelerando así el ruido amortiguando [12].
Además del modulador y /o reforzando las funciones reguladoras de genes que se sabe que juegan en concierto con TFS miRNAs, se les ha planteado la hipótesis de que desempeñar un papel clave en la regulación de las vías de señalización también. A este respecto, aunque se sabe que miRNAs tener efectos sutiles en los niveles de proteína de objetivos individuales, su influencia acumulativa puede afectar significativamente los resultados controlados por vías de señalización, debido a la multiplicidad de sus objetivos y la regulación por disminución concomitante de varios de estos objetivos. Para tomar este importante aspecto en cuenta, nuestro método también considera el básicos Tipo III motivo de bucle representado en la Figura 1, en el que un miARN se dirige a dos transcritos de genes, G-1 y G-2, cuyas proteínas potencialmente podrían interactuar entre sí de acuerdo con un itinerario de ruta proporcionada en la base de datos KEGG (http://www.kegg.jp). La existencia de Tipo III motivos de bucle se apoya en dos hipótesis principales: (i) miRNAs juegan un papel importante en la regulación de las vías de señalización debido a su naturaleza sensible a la dosis aguda [28] - [32], y (ii) los objetivos de miRNAs individuales son más conectados (es decir, interactuar) a nivel de proteínas de lo esperado por azar [28], [33] - [35].
en comparación, el método propuesto en [26] considera único tipo II FFL y hace no discriminar entre FFL coherentes e incoherentes, que se requiere para una comprensión a nivel de sistemas de transcriptome cambios en la enfermedad. Por otra parte, las pruebas estadísticas estándar utilizado para identificar los genes expresados diferencialmente entre dos condiciones en una expresión génica típico estudio de perfiles, aprobado por los métodos anteriores [26], [27], se convierten fundamentalmente defectuoso en presencia de fuentes no contabilizados de variabilidad (debido a factores biológicos y experimentales entre otros) [36] - [38]. la información de subtipos moleculares es un ejemplo fundamental de este tipo de fuentes de variabilidad
.
Para hacer frente a las cuestiones anteriores, desarrollamos en este trabajo IntegraMiR, un nuevo método de análisis integrador que puede utilizarse para inferir ciertos tipos de bucles de regulación de desregulado interacciones miARN /FT que aparecen en los niveles de transcripción, post-transcripcional y señalización de una manera estadísticamente más representadas. El método propuesto asigna funciones biológicas a los miRNAs mediante la integración de cinco fuentes principales de información, junto con las técnicas estadísticas del estado de la técnica fiable para inferir los tipos específicos de interacciones miARN objetivo en el contexto de los bucles de regulación. En particular, IntegraMiR utiliza:
los datos de expresión de mRNA de los genes miARN y
Información miARN-objetivo basado en la secuencia obtenida de diferentes algoritmos
Información conocida sobre objetivos de mRNA y de miARN.. TFS disponible en las bases de datos existentes.
Ciertos motivos tres nodos en las redes reguladoras de genes.
Conocida la información de subtipos moleculares disponibles con los datos de expresión de genes.
Para hacerlo , IntegraMiR identifica miRNAs desregulados, TFS y los ARNm mediante la realización de análisis estadístico en un marco limitado que utiliza la información "antes" que comprende motivos descubierta recientemente, dispone de conocimientos sobre miRNA /ARNm regulación transcripcional, y conocidas las interacciones proteína-nivel en las vías de señalización. Para ilustrar la eficacia y el potencial de este método, lo aplicamos en ARNm /datos de expresión de genes miARN de muestras tumorales y normales e identificar varios nuevos bucles desregulados conocidos y en el cáncer de próstata (CaP). Esto nos permite demostrar las instancias de los resultados y conclusiones de una serie de parámetros biológicos distintos, que se sabe que juegan un papel crucial en el CP y otros tipos de cáncer.
Hay que destacar en este punto que es escalable IntegraMiR , en el sentido de que la información de las bases de datos existentes o recién desarrolladas /actualizados puede ser de entrada para generar los resultados deseados /extendido. Por otra parte, los datos de expresión de genes miARN /mRNA con muestras obtenidas en cualquier contexto biológico entre dos condiciones pueden ser explotados para inferir los bucles desregulados correspondientes relevantes para el contexto particular en cuestión. Por último, el lector interesado puede descargar gratuitamente una aplicación de R IntegraMiR de www.cis.jhu.edu/~goutsias/CSS%20lab/software.html.
Resultados
Integrado miARN /TF mediada por bucle de regulación de Predicción
El diagrama de flujo representado en la figura 2 proporciona una descripción general de las diferentes etapas empleadas por IntegraMiR. Remitimos al lector a la sección de "Materiales y Métodos" para más detalles sobre cada paso. El procedimiento utiliza ARNm y la expresión de los genes miARN datos obtenidos a partir de tejido de próstata en dos diferentes condiciones biológicas normales (vs cáncer). Se emplea además los resultados obtenidos por los algoritmos de predicción de genes miARN objetivo basados en la secuencia e incorpora la información extraída de cuatro bases de datos disponibles en línea, a saber:
El método se asignan las funciones biológicas a los miRNAs mediante la integración de cinco fuentes principales de información, junto con el estado de -the-arte técnicas estadísticas para inferir fiable tipos específicos de interacciones miARN objetivo en el contexto de los bucles de regulación de mRNA de los genes miARN y los datos de expresión.
-mSigDB (www.broadinstitute.org/gsea/msigdb ).
-miRTarBase (http://mirtarbase.mbc.nctu.edu.tw).
-TRANSFAC (www.gene-regulation.com/pub/databases.html).
-TransmiR (http://202.38.126.151/hmdd/mirna/tf).
Tenga en cuenta que la información publicada recientemente en ENCODE sitios de unión TF en base a experimentos chip-ss para 161 TFS en 91 líneas celulares (http://genome.ucsc.edu/ENCODE). Por desgracia, esta base de datos no proporciona el tipo de regulación (activación o represión) de una interacción TF-objetivo en particular, información que es crítica en nuestro enfoque. Por esta razón, IntegraMiR utiliza TRANSFAC. Sin embargo, una vez que esta información esté disponible a través de ENCODE o cualquier otra base de datos TF-objetivo, que puede ser fácilmente utilizado por IntegraMiR
.
El primer paso de IntegraMiR aplica técnicas de pre-procesamiento estándar en la expresión de datos en bruto (tales como corrección de fondo , la normalización y la corrección de la heterogeneidad de datos) para mejorar la calidad de los datos, seguido de múltiples pruebas de hipótesis (MHT) y el análisis de la variable sustituta (SVA) para identificar mRNAs y miRNAs que son expresados diferencialmente entre las dos condiciones biológicas, mientras que la corrección de la variabilidad biológica debido a subtipos moleculares, ensayos y lotes múltiples efectos.
el segundo paso implementa análisis estadístico adicional mediante el análisis conjunto de genes de enriquecimiento (GSEA) para evaluar aún más la importancia biológica de ciertos mRNAs y miRNAs que no tengan la consideración de ser expresadas diferencialmente por MHT. Mediante el empleo de las firmas moleculares de base de datos mSigDB de conjuntos de genes anotados para su uso con GSEA y el
experimentalmente verificada
base de datos destino miARN miRTarBase, IntegraMiR construye tres grupos separados de los conjuntos de genes y evalúa la significación estadística de cada conjunto de genes enriquecido para la desregulación en los datos de expresión de ARNm disponibles. El primer grupo está formado por conjuntos de genes en los ARNm de datos indexados por un ARNm TF que no se considerará que se expresa de forma diferente por MHT y está determinada por mSigDB para regular directamente cada gen en el conjunto de genes. El segundo grupo está formado por conjuntos de genes en los ARNm de datos indexados por un miARN que no se considerará que se expresa de forma diferente por MHT y está determinada por miRTarBase para apuntar cada gen en el conjunto de genes. El tercer grupo está formado por conjuntos de genes en los ARNm de datos indexados por una vía específica KEGG [39] de señalización, [40] incluidos en mSigDB. Por último, TFS asociados con estadísticamente significativas conjuntos de genes enriquecidos se modifican a la lista de aquellos que se consideren los ARNm que se expresó diferencialmente por MHT para generar una lista combinada de los ARNm expresados diferencialmente, y se hace lo mismo para los miRNAs. Debemos señalar aquí que mSigDB es ampliamente utilizado para obtener conjuntos de genes para el análisis GSEA. Por otra parte, empleamos MiRTarBase ya que esta base de datos ha acumulado un número relativamente grande de interacciones miARN-diana validada experimentalmente.
En breve, GSEA determina si un determinado conjunto de genes que muestran diferencias estadísticamente significativas entre los dos concordantes biológica Unidos [41]. La razón principal IntegraMiR aplica GSEA después de la etapa inicial de la prueba de hipótesis es mejorar la detección de diferencialmente expresado TFS y miRNAs, que se puede perder cuando los niveles de expresión individuales muestran sólo cambios moderados entre las dos condiciones biológicas. Como cuestión de hecho, si se conoce un número de transcripciones para participar en un mecanismo biológico común, entonces incluso los cambios moderados en los niveles de expresión de estos transcritos pueden ser estadísticamente significativa debido al hecho de que las relaciones biológicas conocidas entre las transcripciones pueden producir una mayor potencia estadística al detectar pequeñas variaciones en sus niveles de expresión en comparación con el caso de los transcritos individuales. Además, para cierto TFS, la expresión de ARNm TF puede no necesariamente ser utilizado como un proxy de su actividad a nivel de proteínas, debido a modificaciones post-transcripcionales y post-traduccionales de TFS [42], [43]. Para abordar estas cuestiones, IntegraMiR también considera la expresión diferencial de los genes colectiva, en oposición a varios procedimientos seguidos por otros trabajos relacionados discutidos anteriormente que construyen principalmente sus análisis en las estadísticas obtenidas a partir de transcritos individuales.
El tercer paso del IntegraMiR utiliza los resultados obtenidos por MHT y GSEA, así como el conocimiento biológico disponible y predicciones miARN secuencia basada, para identificar conocidos
directamente regulados objetivos expresados diferencialmente de TFS y miRNAs y predijo objetivos para los miRNAs. Mediante el empleo de la base de datos TRANSFAC eucariota TF y la TF /miARN base de datos de la regulación TransmiR, IntegraMiR produce una lista de diferencialmente expresado TFS junto con sus objetivos de genes y el tipo de regulación (activación o represión) para cada gen diana. También produce una lista de diferencialmente expresado TFS junto con sus genes miARN objetivos expresados diferencialmente y el tipo de regulación para cada objetivo miARN. Tenga en cuenta que nuestra elección para el uso de TRANSFAC y TransmiR se basa en el hecho de que TRANSFAC proporciona de forma fiable la información crucial de tipo regulación (activación /represión) de un factor de transcripción y su gen (s) de destino, mientras que TransmiR proporciona la información crucial de la microRNA (s) siendo regulado por el mismo. Por otro lado, la identificación de objetivos de mRNA expresados diferencialmente miRNAs, IntegraMiR emplea miRecords (http://mirecords.umn.edu/miRecords), una herramienta integrada basada en la secuencia de los genes miARN objetivo de predicción, así como miRTarBase, una base de datos de forma experimental miARN objetivos validados. En este paso, IntegraMiR produce una lista de miRNAs expresados diferencialmente con los correspondientes objetivo predicciones basadas en secuencias modificadas, con objetivos de mRNA validada experimentalmente desde miRTarBase para ayudar a identificar las predicciones positivas verdaderas y falsos negativos mediante el uso de los conocimientos biológicos disponibles. A este respecto, IntegraMiR incorpora un
módulo de predicción (explotando miRecords) y un
no predictiva módulo gratis (miRTarBase) para realizar esta tarea.
El cuarto paso de IntegraMiR implementa una técnica, que se describe en la sección "Materiales y Métodos", para la construcción de bucles desregulada de los tipos representados en la Figura 1 utilizando los resultados obtenidos a partir de los pasos anteriores. IntegraMiR construye los siguientes tres tipos de bucles de regulación: Read
(i) Un FFL que comprende un miARN que se dirige simultáneamente una TF y un ARNm que está regulado directamente por la TF
(ii) Una. FFL que comprende un TF que regula directamente un miARN y un ARNm que está directamente dirigido por el miARN.
(iii) un bucle de regulación que comprende un miARN que se dirige simultáneamente dos genes diferentes en una determinada vía KEGG cuyas proteínas podría potencialmente interactuar entre sí sobre la base de un mapa de ruta proporcionada en la base de datos KEGG.
Para clasificar los bucles de regulación construidas en términos de su "importancia" IntegraMiR se aplica un procedimiento de prueba de hipótesis utilizando el método de Fisher [44] . El procedimiento emplea Resumen estadístico de la prueba de Fisher, dada por la ecuación. (2) en la sección "Materiales y Métodos", para combinar los computados-MHT
valores de P
asignadas a cada nodo del bucle en un
P
valor utilizado como una puntuación de clasificación para el toda bucle. Esto no se aplica a Tipo III bucles, ya que estos bucles implican genes y las transcripciones de ARNm no específicos. Dado el papel funcional de los bucles de regulación son diferentes, grupos IntegraMiR estos bucles en cinco categorías distintas: Tipo I coherentes FFL, Tipo I incoherentes FFL, Tipo II coherente FFL, Tipo II incoherente FFL, y tipo III bucles - ver Figuras 1 & amp; 2. Para proporcionar una mayor flexibilidad en la interpretación de los resultados, IntegraMiR ordena Tipo II FFL en dos subgrupos distintos, Tipo II-A y II-B, aunque esta clasificación adicional puede no ser necesario. Dentro de cada grupo y subgrupo, IntegraMiR clasifica a los bucles del mercado liberalizado mediante el aumento de las puntuaciones, con puntuaciones más bajas que corresponde a una mayor "importancia", y pone de relieve los bucles descubiertos para ser desregulado de manera
consistentes
con la estructura subyacente y el borde los datos de expresión, según lo determinado por las reglas descritas en la Figura 3 (véase también la sección "Materiales y Métodos"). Se marca por otra parte los genes miARN objetivos dependiendo de si estos objetivos se prevé por el procedimiento o han sido validada experimentalmente de acuerdo con miRTarBase, o ambos. Tenga en cuenta que "consistencia" se refiere al hecho de que los patrones de expresión de los nodos de un bucle desregulado están de acuerdo con su estructura de borde regulador. Por ejemplo, se dice que una de tipo I coherentes FFL ser desregulado constantemente si comprende un miARN upregulated y TF y el ARNm, o un miARN downregulated downregulated y upregulated TF y ARNm; véase la Figura 3.
Un bucle desregulado se considera que es
consistentes
si el patrón de expresión de sus nodos están de acuerdo con su estructura de borde reguladora. Cualquier bucle desregulado que no satisface esta propiedad se dice que es
incompatible
.
IntegraMiR Identifica Amplia transcripcional, post-transcripcional y señalización La desregulación en el CaP
Para investigar la efectividad de IntegraMiR en la delineación de los bucles de regulación mediada por miRNA, utilizamos mRNA de datos de microarrays de expresión, obtenidos a partir de 48 normal y 47 muestras de próstata de tejido tumoral (NCBI base de datos GEO, número de acceso GSE29079), así como los genes miARN datos de microarrays de expresión obtenidos a partir de emparejado muestras de tejidos normales y cancerosas, extraídos de 20 individuos (la base de datos NCBI GEO, el número de acceso GSE23022). Para obtener más información acerca de esta información, remitimos al lector a la sección de "Materiales y Métodos". Después de pre-procesamiento de datos, IntegraMiR incorpora Análisis sustituto variable (SVA) [36], junto con MHT, para identificar los genes expresados diferencialmente entre las dos condiciones. Se ha demostrado que aumenta la precisión SVA biológica y la reproducibilidad de los análisis en los estudios de expresión de todo el genoma [36], [37]. IntegraMiR emplea SVA tener en cuenta variabilidades biológicas debido a subtipos moleculares clasificados por el estado de fusión del gen TMPRSS2-ERG, que se ha identificado en aproximadamente la mitad de todos los casos de CaP y es un evento temprano crítico en el desarrollo y la progresión de esta enfermedad [ ,,,0],45] - [47]
IntegraMiR primera realiza MHT, utilizando una estadística t moderado [48], para identificar por separado mRNAs y miRNAs que son expresados diferencialmente entre las muestras tumorales y normales.. Este análisis identifica extensa desregulación transcripcional en las muestras de tejido tumoral: se encontraron 7.934 genes (de 17.324) para ser expresados diferencialmente en función de su significación estadística, con 164 de estos genes se sobreexpresa por un factor de cambio o reprimida por un factor de cambio - ver tablas S1 & amp; S2. La lista de genes que proporcionamos en la Tabla S2 contiene genes importantes, como TARP, MYC, SNAI2 (SLUG), WIF1 y ERG entre otros, que se han caracterizado previamente en el CaP.
El análisis de los datos de expresión de miARN correspondientes por los resultados de MHT en 18 (de 847) miRNAs humanos expresados diferencialmente, que nos lista en la Tabla 1 (primera 18 miRNAs) - véase también la Tabla S3. Recientemente, el análisis de secuenciación profunda de los perfiles de expresión de genes miARN identificado 33 miRNAs como diferencialmente expresado en el CaP, con el miR-375, miR-200c, miR-143 y miR-145 que exhibe la desregulación más pronunciado [49]. Se han comparado los resultados IntegraMiR a los obtenidos por secuenciación profunda. De los 18 miRNAs identificados por IntegraMiR, 7 miRNAs (miR-200c, miR-20a, miR-375, miR-106a, let-7a, miR-21 y miR-106b) se ha confirmado que se upregulated por análisis de secuenciación profunda , mientras que se han confirmado 2 miRNAs (miR-221 y miR-145) para ser regulados a la baja. Las 9 miRNAs restantes identificados por MHT no fueron detectados por secuenciación profunda.
Durante el segundo paso de IntegraMiR, la aplicación de GSEA en conjuntos de genes de objetivos TF obtenidas de mSigDB descubre 37 desregulado significativamente TFS, que son no detectado por el paso inicial MHT basado en el análisis de un solo gen. Tenemos una lista de estos TFS en la Tabla S4. Curiosamente, varios de estos TFS (por ejemplo, Nkx3-1, Smad1 /3, SRF, ETV4 y Elk1) se sabe que juegan papeles importantes en la PCa, así como en otros tipos de cáncer.
Del mismo modo, la aplicación de GSEA en conjuntos de genes validada experimentalmente (por análisis de secuenciación profunda) miARN objetivos obtenidos de miRTarBase identifica 5 miRNAs regulación a la baja de manera significativa, que no son detectadas por MHT. Tenemos una lista de estos miRNAs en la Tabla 1 (5 últimas miRNAs). En ambos casos, y para cada TF o miARN, GSEA se realiza en base a la disponibilidad de conjuntos de genes en los datos.
Por último, la aplicación de GSEA identifica 30 vías de señalización del mercado liberalizado significativamente, entre las vías de señalización 186 KEGG disponibles en mSigDB. Tenemos una lista de los resultados en la Tabla 2. Entre otras vías, la lista contiene las vías de TGF-y Wnt de señalización, que han sido implicados en la iniciación y la progresión de CaP. Naturalmente, los resultados también incluyen las vías de cáncer de próstata y de unión adherente. La última vía regula la adhesión intercelular que juega un papel importante en la transición (EMT) epitelio-mesenquimal, considerada como un paso importante en la progresión del tumor [50], [51].