Extracto
Los microARN (miRNA) son pequeños ARN que regulan la expresión de ARNm diana mediante la unión específica en el 3'UTR de ARNm y la promoción de la degradación del ARNm en la mayoría de los casos. A menudo es de interés conocer los objetivos específicos de un miARN con el fin de estudiar en un contexto de enfermedad particular. En ese sentido, algunas bases de datos han sido diseñados para predecir los posibles interacciones miARN-mRNA basados en secuencias de hibridación. Sin embargo, una de las principales limitaciones es que estas bases de datos tienen demasiados falsos positivos y no tienen en cuenta las interacciones específicas de la enfermedad. Hemos desarrollado un paquete de R (miRComb) capaz de combinar miARN y mRNA de expresión de datos con información de la hibridación, a fin de encontrar posibles objetivos miARN-mRNA que son más fiable que se produzca en un contexto fisiológico o enfermedad específica. En este artículo se resume la tubería y los principales resultados de este paquete utilizando como ejemplo TCGA datos de cinco cánceres gastrointestinales (cáncer de colon, cáncer de recto, cáncer de hígado, cáncer de estómago y cáncer de esófago). Los resultados obtenidos se pueden utilizar para desarrollar un gran número de hipótesis comprobables por otros autores. A nivel mundial, se muestra que el paquete miRComb es una herramienta útil para hacer frente a miARN mRNA y expresión de datos, que ayuda a filtrar la gran cantidad de interacciones miARN-mRNA obtenidas a partir de las bases de datos de predicción objetivo preexistentes miARN y presenta los resultados en una forma estandarizada (informe pdf). Por otra parte, se presenta un análisis integral de las interacciones miRComb miARN-mRNA de los cinco cánceres digestivos. Por lo tanto, miRComb es una herramienta muy útil para empezar a entender la regulación de genes miARN en un contexto específico. El paquete puede ser descargado en http://mircomb.sourceforge.net
Visto:. Vila-M Casadesús, Gironella M, Lozano JJ (2016) MiRComb: Un paquete de R para el Análisis de los genes miARN-mRNA interacciones. Ejemplos de los cinco cánceres digestivos. PLoS ONE 11 (3): e0151127. doi: 10.1371 /journal.pone.0151127
Editor: Moray Campbell, Roswell Park Cancer Institute, Estados Unidos |
Recibido: Octubre 15, 2015; Aceptado: 24 Febrero de 2016; Publicado: 11 de marzo 2016
Derechos de Autor © 2016 Vila-Casadesús et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Disponibilidad de datos:. Todo relevante los datos están dentro del apoyo de sus archivos de información en papel y
Financiación:. el presente trabajo fue apoyado por becas de Instituto de Salud Carlos III (PI13 /02192; cofinanciado por el FEDER y la Unión Europea) y de la Fundación Científica de la Asociación Española Contra el Cáncer (GCB13131592CAST) a MG. CIBEREHD está financiado por el Instituto de Salud Carlos III. MVC es financiado por el Ministerio de Educación Cultura y Deporte (FPU12 /05138). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Abreviaturas : BH, Benjamini & amp; Hochberg; La EPOC, adenocarcinoma de colon; ESCA, carcinoma de esófago; FDR, Tasa de Falso Descubrimiento; H, sano; LIHC, carcinoma hepatocelular del hígado; Mirna, microARN; ARNm, ARN mensajero; QRT-PCR, PCR de transcripción inversa cuantitativa; NGS, Next-Generation Sequencing; READ, adenocarcinoma recto; STAD, adenocarcinoma de estómago; TCGA, El Atlas del Genoma del Cáncer
Introducción
Los microARN (miRNA) son no codificantes, ARN de una sola hebra de 18-25 nucleótidos y constituyen una nueva clase de reguladores de genes que se encuentran en ambos plantas y animales. Ellos regulan negativamente a sus objetivos (ARN mensajero) -mRNAs- en una de dos maneras, dependiendo del grado de complementariedad entre el miARN y el objetivo. Una forma de acción (que representa alrededor del 80% de los casos) es la promoción de la degradación de ARNm [1], la otra es la inhibición de la traducción del ARNm.
autores anteriores han utilizado datos pareados y miARN ARNm para la predicción de genes miARN objetivos en enfermedades específicas. Ellos basan su análisis en la correlación de miARN y la expresión del ARNm, y la intersección con bases de datos conocidas [2,3]. Sin embargo, aunque estos estudios son útiles, no hay software disponible para reproducir los resultados. R [4] es un entorno de software de computación y gráficos estadísticos. Se ha utilizado ampliamente en la comunidad científica debido al hecho de que funciona con cualquier plataforma, es libre, permite la construcción de sus propios paquetes y funciones y compartirlo con otros científicos, está bien documentado y mantendrá actualizada. Bioconductor [5] es un repositorio de paquetes R centrado en paquetes dirigidos a analizar los datos biológicos. Hay algunos paquetes R /Bioconductor que son capaces de hacer correlaciones miARN-mRNA, se cruzan con bases de datos conocidos y analizar las redes, entre otras funcionalidades, como
RmiR
,
CORNA
,
miRNApath
,
microARN
,
MultiMiR
[6,7]. Sin embargo, ninguno de estos métodos permite la realización de todo un análisis completo de una manera directa. Nuestro objetivo era diseñar un paquete de R, llamado miRComb, capaz de combinar miARN mRNA y los datos de expresión (de cualquier formato) con la información de la hibridación, con el fin de encontrar posibles objetivos miARN-mRNA que es probable que se produzca en un contexto fisiológico o enfermedad específica . Esto genera una lista de resultados que pueden ser la base para el desarrollo de múltiples hipótesis para ser probado experimentalmente en un laboratorio húmedo. Otro valor añadido es el de presentar los resultados del análisis de una manera estandarizada con un informe pdf.
Hemos utilizado como ejemplos de datos a disposición del público a partir del Genoma del Cáncer Atlas (TCGA) [8] para diferentes cánceres digestivos. Los resultados ponen de manifiesto potenciales interactomes miARN-mRNA de cinco cánceres digestivos y ofrecen una visión imparcial de las funciones miRComb. Por lo que sabemos, todavía no existe un análisis global de este tipo de cánceres gastrointestinales.
Materiales y Métodos
Hemos utilizado los datos del TCGA de 1645 muestras de entre 5 cánceres digestivos diferentes (cáncer de colon , cáncer de recto, cáncer de hígado, cáncer de estómago y cáncer de esófago) que tenía datos simultáneamente miARN-seq y RNA-seq. Todos los datos han sido tratados con el mismo procedimiento
A medida que el punto de partida de nuestro paquete utilizamos tres supuestos ampliamente aceptados:..
Mirna regulan negativamente la expresión de mRNA de sus objetivos
interacciones Mirna /mRNA, ya que se basan en la hibridación de ARN, se pueden predecir con enfoques bionformatic.
miRNAs y mRNAs que juegan un papel en una enfermedad específica están desreguladas en que la enfermedad.
la figura 1 muestra el esquema del procedimiento utilizado. Los datos en bruto se procesa con el objetivo de encontrar interacciones relevantes miARN-mRNA en un contexto biológico específico con el fin de ser capaces de interpretarlos. El paquete está escrito en R e incluye un código de C ++, a fin de acelerar algunos cálculos. LaTeX [9] y Sweave [10] paquetes se utilizan para generar el informe final pdf. MiRComb está disponible en http://mircomb.sourceforge.net/.
MiRNA mRNA y expresión de datos pueden provenir de distintas fuentes (microarrays, NGS, QRT-PCR ...). El paquete supone que los datos de miRNA y de ARNm se normalizaron adecuadamente. En el caso de los datos de QRT-PCR, se aconseja el uso de unidades -dCt (o unidades CT), para microarrays sugerimos utilizar log2 intensidad (normalizado), y para NGS sugerimos utilizar log2 (recuentos normalizados).
Datos fuentes
Los datos ha sido descargado de portal de datos TCGA (https://tcga-data.nci.nih.gov/tcga/dataAccessMatrix.htm). Se seleccionaron los siguientes tipos de cáncer para estudiar: adenocarcinoma de colon (EPOC); El carcinoma de esófago (ESCA); carcinoma hepatocelular Hígado (LIHC); adenocarcinoma de recto (LEA); adenocarcinoma de estómago (STAD).
Hemos seleccionado sólo aquellas muestras que habían emparejado miARN ARNm y la información y procedían de centros (debidamente identificados con su correspondiente Tejido códigos Fuente Sitios-TSS-) que recoge más de una muestra. Se utilizaron tumor sólido primario y el tejido sólido normal. MiRNAs con ningún id (en mirbase17) o mediana de expresión & lt; 10 cargos fueron retirados primas. Identificación del ARNm con ningún gen o mediana de expresión & lt; 10 cargos fueron retirados primas. Voom transformación [11] y cuantil normalización se aplicaron, y después de corrección por lotes con el combate [12] de acuerdo con los centros de servicios de apoyo técnico se aplicó.
Expresión diferencial análisis
La expresión diferencial entre los casos y controles se calculó con el procedimiento de limma-tendencia. El paquete también implementa T-test, prueba de Wilcoxon, LIMMA, LIMMA-tendencia [11], y RankProd [13] para comprobar las diferencias entre ambos grupos. Sin embargo, otros métodos para la expresión diferencial se pueden utilizar y los resultados pueden ser también importados a
miRComb gratis (las características necesarias son miARN o ARNm, logcociente, significa la expresión,
valor de p
y ajustado
p
valor). procedimientos de prueba pueden ser múltiples: Benjamini & amp; Hochberg (BH), Bonferroni u otros (aunque sólo se asume RankProd BH (que controla la Tasa de Falso Descubrimiento (FDR)).
Para las aproximaciones paramétricas, la hipótesis es que la expresión de las muestras media del grupo control (H) es diferente de la media de expresión de las muestras de grupos relacionados con el cáncer. En el caso de los enfoques-Wilcoxon no paramétrico de prueba y RankProd-, la mediana (en lugar de la media) se pone a prueba.
análisis de correlación
Hemos calculado los coeficientes de correlación de Pearson para todas las parejas miARN-mRNA disponibles en cada cáncer. el paquete también es compatible con Spearman y correlación de Kendall (Kendall sólo para pequeños conjuntos de datos). correlación de Pearson es adecuado si ambos datos miARN mRNA y proceden de la misma el análisis de la plataforma (ambos microarrays o datos de recuento log2-normalizado, por ejemplo), y una relación lineal entre miARN y el ARNm se puede suponer. Si las dos plataformas de análisis son diferentes o las hipótesis de una relación lineal no se puede suponer, entonces Spearman (o Kendall ) de correlación son deseables. Si existe una relación negativa entre miARN (X
1, ..., X
n) y ARNm (Y
1, ..., Y
n) el coeficiente de correlación sería negativo, así:
Cuando ∈ {
Pearson
,
Kendall
,
Spearman
}. Entonces, la corrección de múltiples ensayos (Bonferroni y BH están disponibles, entre otras opciones) se aplica con el fin de controlar los falsos positivos que podrían surgir.
Intersección con bases de datos de predicción de genes miARN objetivo
El siguiente paso fue para que coincida con las correlaciones significativas con la información de destino. La elección de una base de datos es un tema complicado. Varias bases de datos están dirigidos a predecir computacionalmente miARN objetivos [14]. Se toman en cuenta principalmente al menos uno de estos parámetros: la complementariedad de semillas, la estabilidad de los genes miARN-mRNA complejo (la termodinámica) y la conservación de sitios inter-especies. Varias bases de datos empiezan integra técnicas de correlación miARN-mRNA como un valor predictivo, pero se ha hecho en algunos conjuntos de datos (GenMiR ++) [15].
Hemos seleccionado microcosmos [16,17] y TargetScan [18]. Microcosmos comprende 690 miARN diferentes y 22107 objetivos diferentes, con un total de 563179 interacciones descritas. Microcosmos calcula los objetivos con el algoritmo de Miranda, necesitando complementariedad perfecta en el extremo 5 '; a continuación, excluye conformaciones no estables utilizando el enfoque de plegado Viena ARN [19] y requiere la conservación del sitio al otro lado de varias especies. Por otro lado, TargetScan [18] es probablemente uno de los más actualizados queridos. Contiene información para 1537 y 15031 miRNAs diferentes objetivos, con un total de 520354 interacciones descritas. Se basa en la complementariedad de semillas y diferencia entre los sitios conservados y no conservados. Con el fin de hacerlo más comparable al microcosmos, y más razonable, se seleccionaron sitios sólo conservadas. El paquete permite utilizar una o ambas bases de datos (y también utilizar bases de datos personalizadas, si se desea), y fijar un número mínimo de apariciones en la base de datos. Las condiciones finales que definen una interacción miARN-mRNA son:
Análisis funcional
Aunque el objetivo principal del paquete es generar una lista de posibles pares de genes miARN-mRNA,
miRComb
también implementa algunas funciones que pueden ayudar a la interpretación de los datos. Entre otras funciones especificadas en las siguientes secciones, mesas y barplots con el número de blancos o el número de miRNAs pueden obtenerse. El paquete traza una red con las interacciones miARN-mRNA deseados (nodos que representan los miRNAs y mRNAs, y las flechas marcando las interacciones). Los colores son cuidadosamente seleccionadas para ayudar a la interpretación: miRNAs se representan como cuadrados, los ARNm como círculos. Además, el color del nodo refleja la dirección FoldChange del nodo (rojo: upregulated, verde: downregulated). Una puntuación se calcula con el objetivo de reflejar el impacto de los genes miARN en el cáncer (mayor puntuación significa que tanto los genes miARN ARNm y son altamente desregulado en que la enfermedad)
Las flechas también son informativos:. El color representa la
puntuación
de la interacción (significa rojo opuesto y fuerte FC opuesta entre el miARN y el ARNm, mientras que el verde representaría fuerte FC concordantes entre el miARN y el ARNm), y la anchura representa el número de bases de datos en el que el objetivo se ha encontrado (más bases de datos: flecha más ancha). La red también se pueden exportar fácilmente a Cytoscape en formato "SIF" [20], como atributos de nodo de borde y así.
GOstats
paquete [21] se utilizó para calcular si alguna función es asociada con los objetivos de un miARN específica o un conjunto de miRNAs. Esto ayuda a predecir la función de un miARN o un conjunto de miRNAs si el número de objetivos es lo suficientemente grande.
RamiGO
R paquete [22] también se puede utilizar para trazar el GO términos significativos y sus relaciones.
Circlize
paquete [23] se utiliza para hacer una gráfica circos de los pares de los genes miARN-mRNA seleccionados. A partir de la frontera de la trama, la posición de los ARNm se representa en una primera pista, y luego una segunda pista representa la posición miRNAs, y finalmente una última pista (con enlaces) muestra pares miARN-mRNA. Esto ayudaría a identificar si algunos genes miARN objetivos se encuentran más específicamente en un cromosoma o región.
Generación de informes
Uno de los objetivos del proyecto es presentar una forma estandarizada para presentar los resultados . Al final del análisis es posible generar un informe PDF que incluye todas las secciones mencionadas.
Resultados y Discusión
El análisis de las interacciones MiRComb miARN-mRNA de 5 cánceres digestivos diferentes
Cinco miRComb informes para EPOC, LEER, ESCA, STAD y LIHC se generaron y los archivos PDF correspondientes se pueden encontrar en S1-S5 archivos, respectivamente. A modo de ejemplo, la figura 2 muestra las principales cifras del informe LIHC.
A) Análisis de Componentes Principales (PCA) (basado en la matriz de correlación) de las muestras de miARN. B) diagrama que muestra los miRNAs Volcán de acuerdo con su logcociente entre el cáncer y el control. C) Mapa de calor de los 50 miRNAs más desregulados en función de su FDR. Lote D) Densidad de los coeficientes de correlación de Pearson de todas las posibles interacciones miARN-mRNA. Las líneas muestran diferentes de corte: valor de p & lt; 0,05, valor p & lt; 0,01, FDR & lt; 0,05 y FDR & lt; 0.01. E) Correlación de miR-139-5p y CCNB1 como un ejemplo. Diagrama F) Venn que muestra el número total de correlaciones sigifnicant (FDR & lt; 0,05), el número total de interacciones previstas en al menos una base de datos (TargetScan o microcosmos), y la intersección de ambos. G) red de interacciones seleccionadas. Cada interacción miARN-mRNA se correlacionó negativamente (FDR & lt; 10-33) y predijo que al menos en una base de datos (TargetScan o microcosmos). Los círculos representan miRNAs y plazas ARNm; llenar de color rojo significa regulada positivamente miRNA /ARNm, mientras relleno verde significa downregulated miRNA /ARNm; líneas indican los pares miARN-mRNA; línea roja significa puntuación positiva y la línea verde significa puntuación negativa; ancho de la flecha es proporcional al número de apariciones en las bases de datos (TargetScan o microcosmos). gráfico H) Pie que muestra el número de mRNAs regulado por 0, 1, 2, 3, 4, 5, y & gt; 5 miRNAs. I) barplot que muestra el número de objetivos por miARN y el porcentaje de los ARNm que están reguladas por acumulativamente los miRNAs. J) Circos parcela de las 45 principales interacciones miARN-mRNA según FDR, una línea significa un par miARN-mRNA. Las líneas azules son la posición de los miRNAs y líneas naranjas son la posición de los ARNm.
Resumen de la composición de los conjuntos de datos.
La Tabla 1 muestra el número de muestras disponibles para cada cáncer y el número total de correlaciones significativas. La EPOC, LIHC y el cáncer STAD tenido más de 400 muestras disponibles para el análisis, mientras que los conjuntos de cáncer ESCA y el cáncer de leer los datos tenían 191 y 160 muestras, respectivamente. Además, la relación entre casos y controles es también un término que tener en cuenta. Mientras ESCA, LIHC y STAD eliminarse de una cantidad "razonable" de los controles (aproximadamente 1:13 de la ESCA, 1: 7 y 1:10 para LIHC para STAD), en la EPOC y LIHC eliminamos sólo el 8 y 3 controles, respectivamente ( una relación de aproximadamente 1:50). El número de muestras disponibles influye en el número de correlaciones con FDR & lt; 0,05 conocer: cuantas más muestras que tenemos, cuanto mayor es el poder para detectar correlaciones diferentes de 0. El número de correlaciones significativas encontradas son superiores al 15% (incluso después de la corrección FDR) en los conjuntos de datos con más de 400 muestras (STAD, LIHC, EPOC), mientras que este porcentaje no llega a 10% en los casos de READ y ESCA (menos de 200 muestras disponibles). En resumen, parece que un conjunto de datos con un tamaño de muestra más grande y un diseño equilibrado debe proporcionar un mayor número de correlaciones que uno que es más pequeña y no equilibrada.
A pesar de que 20.531 mRNAs y miRNAs 1025 fueron secuenciados , sólo alrededor del 32-34% de los miRNAs se consideraron expresadas (mediana de los recuentos & gt; 10 en todas las muestras) en cada conjunto de datos de cáncer. Por el contrario, el 70-90% de los ARNm se detectaron con una mediana de & gt; 10 cargos. En general, el análisis PCA (páginas 1 y 2 de los informes realizados mediante la función mkReport, por ejemplo S1-S5 Archivos) de las muestras reveló un muy ligero clusterización de control (a excepción de miARN conjunto de datos en la EPOC, LEER y en ambos conjuntos de datos en LIHC) . En general, esto conduce a la idea de que el inconveniente principal del conjunto de datos es la falta de un razonable controles numéricos, reforzando los pensamientos que la expresión diferencial entre los dos grupos puede ser calculado y utilizado como elemento informativo, pero no como una etapa de filtrado (que podría dar lugar a fallos en el sentido de falsos negativos).
parcelas en Volcán (páginas 3 y 4 de los informes o 2B destacado la figura) en rojo los miRNAs y mRNAs seleccionados. También se trazan mapas de calor (páginas 3 y 4 de los informes). Mapa de calor de LIHC como ejemplo también se muestra en la figura 2C.
Análisis de las interacciones de los genes miARN-mRNA.
Página 5 de los informes en PDF muestra el resumen de las correlaciones calculadas. El siguiente paso es para intersectar las correlaciones significativas con predichos miARN-mRNA interacciones potenciales de bases de datos o microcosmos TargetScan de predicción (páginas 6 y 7 de los informes). Para el caso de LIHC (Figura 2F), se observó que el número previsto de las interacciones de los genes miARN-mRNA se redujo 258233-57675, por lo tanto, se podría estimar que alrededor del 80% de la inicial miARN-mRNA predijo interacciones de las bases de datos eran falsos positivos para esta enfermedad, ya que no mostraron una correlación negativa entre el miARN específico y la expresión de ARNm específico
in vivo
en el tejido.
por otra parte, la figura 3 muestra que también podemos representar la proporción de falsos positivos objetivos previsto de cada miARN de bases de datos en una situación dada. En cuanto a LIHC, el número de falsos Positivos varía de 22% a 99%. En el caso de miR-122, miR-122 * o miR-378c estos porcentajes son bastante bajos en comparación con los demás (22%, 27% y 24%, respectivamente), por lo tanto, estos miRNAs muestran una alta proporción de objetivos previsto confirmados por miRComb . Curiosamente, el miR-122 es el miARN más frecuente en el hígado adulto, y desempeña un papel central en la biología y la enfermedad hepática hepatocarcinoma [24].
gráfico que muestra las proporciones de una correlación negativa objetivos previsto respecto a todos los objetivos previstos de acuerdo con las bases de datos para cada miRNA. La intensidad de la punto de color gris se relaciona con el porcentaje de falso postive miARN-mRNA predicho interacciones. Entre paréntesis, los porcentajes exactos de miRNAs positivesfrom seleccionado falsas (miR-122; miR-122 *; miR-378c).
Página 6 del informe pdf muestra las 15 mejores interacciones miARN-mRNA ( ordenados por valor p ajustado, teniendo en cuenta que tienen que haber sido predicho en al menos una base de datos) en cada cáncer. Página 9 del informe pdf muestra la red de todas las interacciones miARN-mRNA. Todas las interacciones se representan por defecto y esto podría resultar en una figura muy densa difíciles de interpretar, ya que es el caso en nuestros ejemplos. Para el caso de todas las interacciones de LIHC (S5 página Archivo 9), podemos ver dos patrones principales: a la izquierda podemos encontrar sobre todo downregulated miRNAs en LIHC (representa como círculos verdes), junto con sus objetivos de mRNA Correspondant (trazada como cuadrados rojos ). A la derecha se invierten los papeles y las interacciones de los genes miARN-mRNA predominantes mostrados consisten en miRNAs upregulated con ARNm regulados negativamente. Este patrón general se reproduce en todos los tipos de cáncer estudiados (S1-S5 Archivos). Para resolver este problema, sugerimos que adaptarse en cada caso el número de interacciones que se representa gráficamente en función del objetivo de la figura. En la figura 2G hemos trazado una cantidad reducida de interacciones y podemos ver algunos de los detalles. Por ejemplo, dos objetivos (DNMT3A y MYBL2) de hsa-miR-29c (abajo a la derecha) se predicen por dos bases de datos, mientras que el FAM136A objetivo es predicho por una sola base de datos (la flecha es thiner). Por otra parte, en relación con los objetivos de HSA-let7c, el AURKB es más desregulado en LIHC que el NME6, y las interacciones de hsa-miR-122 o HSA-miR-122 * (arriba a la izquierda) tienen puntuaciones más bajas (menor intensidad de la flecha de color ) que las interacciones de hsa-miR-139-3p y hsa-miR-139-5p (mayor intensidad de color de la flecha;. arriba a la derecha)
En LIHC son el blanco más del 75% de los ARNm expresados por al menos un miARN (Fig 2H y 2I y la página 10 del informe pdf), en EPOC y STAD ese número es de entre 70% y 60%, mientras que en LEER y ESCA es menor que 50%. Sin embargo, tenemos que tener en cuenta que estos porcentajes están parcialmente afectados por el número total de los genes miARN-mRNA predijo interacciones: el mayor número de interacciones, el mayor número de miRNAs por ARNm (y viceversa). Por ejemplo, más del 25% de los miRNAs en LIHC se prevé que ser el blanco de más de cinco miRNAs. Este porcentaje es menor en los otros tipos de cáncer, pero sigue siendo un 8% en LEER. Vale la pena mencionar que esta es una primera aproximación que requerirá interacciones que ser confirmado experimentalmente en un laboratorio húmedo. Este número inusual de miRNAs dirigidos a la misma ARNm podría atribuirse al hecho de que miRComb no tiene en cuenta la competitividad entre los diferentes miRNAs se hibridan con el mismo objetivo.
Página 11 del informe pdf muestra los primeros 20 miRNAs ordenados por número de objetivos. A modo de ejemplo, el miR-106a tiene 766 predecir las interacciones en EPOC, miR-27a tiene 450 interacciones en la ESCA, miR-27b tiene 792 interacciones en LIHC, miR-106a tiene 582 interacciones en LEER, y miR-29a tiene 798 interacciones en STAD . Aunque se espera que los miRNAs regular hasta cientos de genes, estas interacciones deben ser validadas experimentalmente con el fin de descartar falsos positivos o las relaciones indirectas, como se mencionó anteriormente. Los colores en estas páginas muestran la dirección de la desregulación de los genes miARN (rojo: hasta reguladas; verde: las reguladas). Mientras que en la EPOC, leer y ESCA los mejores miRNAs son upregulated en general, en LIHC y STAD en su mayoría están regulados a la baja. MRNAs también se pueden ordenar según el número de miRNAs que ellos están apuntando (página 12 del informe) y también son de color de acuerdo a la dirección de la desregulación. En general, los ARNm no tienen más de 50 miRNAs regulan. Excepcionalmente, en STAD hay algunos ARNm con más de 60 miRNAs (por ejemplo. 74 de FOXP2). Sin embargo, vale la pena tener en cuenta que la gran mayoría de los ARNm que son regulados por al menos 1 miARN, se regulan simultáneamente por un máximo de 4 miRNAs
En términos generales., La dirección principal de los mejores ARNm (ordenados por número de miARN a atacarlos, informe de la página 12) es la inversa de la dirección principal de los mejores miRNAs (ordenados por número de objetivos, el informe de la página 11).
enriquecimiento de análisis funcional de miRNAs en función de su objetivos.
En las páginas 13-15 del informe, podemos encontrar la ontología de genes (GO) y el análisis funcional KEGG de los resultados. A modo de ejemplo, hemos probado si los ARNm que son regulados por miRNAs se enriquecen en cualquiera de las categorías GO y KEGG. Los resultados de esta sección son bastante similares entre todos los conjuntos de datos de cáncer digestivo, ya que incluyen todos los mRNAs que son el objetivo de al menos un miARN y que incluye más de 50% de los ARNm expresados en promedio. Dependiendo del objetivo del estudio diferentes filtros podrían aplicarse (diferencial expresó miRNAs y /o ARNm, los objetivos de un miARN específicos ...) y, a continuación, los resultados serían diferentes. En este caso, BP (Proceso biológico) excesivamente términos incluyen proceso celular y otra de regulación y los procesos de señalización. (CC) componente celular términos excesivamente están principalmente relacionados con compartimentos intracelulares-citoplasma. MF (Función Molecular) excesivamente centradas en términos están las acciones de unión a proteínas y otra de unión (enzimas, fijación de aniones). KEGG vías son más concisos y todos ellos incluyen el término "Caminos en el cáncer". EPOC también se incluye el cáncer de próstata y leucemia mieloide crónica y glioma, ESCA también el cáncer de pulmón de células pequeñas, LIHC incluido el cáncer de próstata, cáncer colorrectal, cáncer de páncreas, leucemia mieloide crónica y carcinoma de células renales; LEER incluido carcinoma de células renales, STAD también incluido el cáncer de pulmón de células pequeñas y cáncer de próstata. Esto sugiere que, como se sabe, muchos tipos de cáncer comparten patrones similares. Otras vías que se comparten entre los diferentes conjuntos de datos estudiados son: adhesión focal, Fc-gamma R fagocitosis mediada (EPOC, ESCA, STAD), o la vía de señalización de TGF-beta (EPOC, LEER)
Más. resultados específicos se pueden obtener mediante el ensayo para el enriquecimiento de los objetivos de un miARN específico. Por ejemplo, los objetivos de miR-148a en el cáncer de hígado se enriquecen en el procesamiento y presentación de antígenos KEGG Pathway (FDR = 0,006) (Figura S1). En un sentido práctico, esto significa que esta vía está implicada en el cáncer de hígado a través de una desregulación de miR-148a, y que esta vía podría ser, al menos parcialmente, modulada por la modificación de la expresión de miR-148a. Otras vías de señalización implicadas en el cáncer de hígado que pueden ser modulados mediante la alteración de la expresión de los genes miARN son el transporte del ARN (FDR = 0,030), el ciclo celular (FDR = 0,031) y la proteólisis mediada por ubiquitina (FDR = 0,031) para el miR-424, o la degradación Lisina (FDR = 0,006) para el miR-29c.
análisis integrador de las interacciones miRComb miARN-mRNA a partir de los 5 cánceres digestivos
interacciones miARN-mRNA compartidos y específicos.
la figura 4 muestra el número de pares compartidos miRComb miARN-mRNA entre los 5 conjuntos de datos de cáncer digestivo estudiados. 1570 interacciones miARN-mRNA son compartidos por todos los 5 juegos, pero un número más relevante es compartida en al menos 2 o más de ellos, siendo sólo menos del 40% de los pares de los genes miARN-mRNA específicos de cada conjunto de datos de cáncer. STAD es el que tiene más interacciones miARN-mRNA se encuentran
diagrama de Venn que muestra las interacciones miRComb miARN-mRNA. (FDR & lt; 0,05 y pronosticado en al menos una base de datos) que están presentes en al menos un cáncer. 1570 interacciones miARN-mRNA aparecen en los 5 tipos de cáncer estudiados digestivos.
En la figura S2 una red representa las interacciones comunes 1570 miARN-mRNA entre los cinco conjuntos de datos mencionadas estudiados. Podemos ver dos redes: la red grande de la izquierda contiene principalmente downregulted miRNAs con sus objetivos de mRNA upregulated (780 miRNAs + ARNm y 1305 pares de genes miARN-mRNA), mientras que la red más pequeña de la derecha contiene miRNAs mayoría upregulated y su mRNA downregulated metas (173 miRNAs + ARNm, y 187 pares de genes miARN-mRNA). Hemos visto los ARNm que tienen términos KEGG relacionados con el cáncer, como el Ciclo Celular (rojo), Rutas en Cáncer (amarillo) y de señalización MAPK Patway (azul). Las combinaciones de estos términos también se muestran en colores diferentes. La red de la derecha contiene algunos ARNm relacionadas con el ciclo celular, mientras que la gran a la izquierda se relaciona principalmente con la MAPK señalización Camino, Caminos en el cáncer, o ambos términos (verde).
Las interacciones pueden ser comunes relacionados a las vías que son compartidos por todos los cánceres digestivos estudiados. Sin embargo, también es interesante estudiar las interacciones que pueden ser específicos de cada uno. En la Tabla S1, se muestran todas las interacciones miRComb miARN-mRNA específicos para cada conjunto de datos de cáncer (una interacción específica es la que se ha encontrado una correlación negativa significativa en un conjunto de datos, pero no en los otros). Tablas 2-6 muestran los 10 primeros miRNAs con más interacciones específicas miRComb miARN-mRNA para cada cáncer.
ARNm diana se clasifican de acuerdo a su valor de correlación negativa (la parte superior 20 están dislplayed).
ARNm diana se clasifican de acuerdo a su valor de correlación negativa (la parte superior 20 están dislplayed).
Objetivo ARNm están ordenadas de acuerdo a su valor de correlación negativa (la parte superior 20 están dislplayed).
Objetivo ARNm se clasifican de acuerdo a su valor de correlación negativa (top 20 son dislplayed).
Objetivo ARNm están ordenadas de acuerdo a su valor de correlación negativa (la parte superior 20 están dislplayed).
la figura 5 también muestra el número de interacciones específicas en función de los miRNAs implicados en LIHC. MiRNAs en la línea correspondiente a la relación 1: 1 son aquellos que sólo se expresa en el hígado. Los otros se expresan en por lo menos otro tipo de cáncer, pero tienen algunas interacciones específicas en LIHC, el más cercano a la proporción 1: 1 línea son, la mayor especificidad es
Número de miARN objetivos totales en LIHC frente al número. de los genes miARN objetivos presentes sólo en LIHC pero no en EPOC, ESCA, READ o STAD. Tamaño de los puntos es proporcional a la media de expresión de los genes miARN en las muestras LIHC incluidos.
El análisis de agrupamiento de las interacciones miARN-mRNA.
A nivel mundial, no se miden 106.426 interacciones miARN-mRNA en todos los conjuntos de datos de cáncer, y de manera significativa correlación negativa en al menos uno de ellos. Con el fin de clasificarlos en patrones similares, aplicamos métodos de la agrupación con el fin de resumir las principales tendencias. Se utilizó el método K-means con 4 grupos, ya que dio una interpretación razonable de los resultados (Figura 6). Curiosamente, la agrupación jerárquica de los cánceres de acuerdo con los coeficientes de correlación medias de los grupos da el siguiente resultado: STAD y ESCA se agrupan primero, así como leer y EPOC.