Extracto
Antecedentes
Los microARN (miRNA) son pequeños ARN no codificantes que regulan la expresión génica. Se ha propuesto que miRNAs juegan un papel importante en el desarrollo y progresión del cáncer. Su capacidad para afectar a múltiples vías genéticas por llegar a los diversos ARNm les hace una interesante clase de reguladores.
Metodología /Principales conclusiones
Hemos desarrollado un algoritmo, basado en el análisis de clasificación de los datos de expresión de ARN apareadas (CAPE RNA), que es capaz de identificar la regulación de los genes miARN-mRNA alterado entre los tejidos muestras que asigna estados de interacción para cada muestra sin preexistente estratificación de grupos. La distribución de los estados de interacción asignados en comparación con los grupos experimentales dados se utiliza para evaluar la calidad de una interacción predicho. Se demuestra la aplicabilidad de nuestro enfoque mediante el análisis de carcinoma urotelial de vejiga y muestras de tejidos normales derivados de 24 pacientes. Utilizando nuestro enfoque, las muestras de tejido normal y tumoral, así como las diferentes etapas de la progresión del tumor eran éxito estratificado. Además, nuestros resultados sugieren interesantes interacciones miARN-mRNA regulados diferencialmente asociados con la progresión del tumor de vejiga.
Conclusiones /Importancia
La necesidad de herramientas que permiten un análisis integral de micro ARN y ARNm de datos de expresión ha sido dirigido. Con este estudio, proporcionar un algoritmo que hace hincapié en la distribución de muestras para clasificar regulados diferencialmente interacciones miARN-mRNA. Este es un nuevo punto de vista en comparación con los enfoques actuales. A partir del análisis de programa previo, nuestro ranking produce características que construyen clasificadores fuertes. Un análisis más detallado revela genes identificados como diferencialmente regulados por miRNAs ser enriquecido en vías de cáncer, lo que sugiere interacciones biológicamente interesantes
Visto:. Hecker N, Stephan C, Mollenkopf HJ, Jung K, R Preissner, Meyer HA (2013 ) Un nuevo algoritmo para el análisis integrado de los genes miARN-mRNA interacciones basadas en la clasificación individual revela Insights en el cáncer de vejiga. PLoS ONE 8 (5): e64543. doi: 10.1371 /journal.pone.0064543
Editor: Panayiotis V. Benos, Universidad de Pittsburgh, Estados Unidos de América
Recibido: 12 Octubre, 2012; Aceptado: April 17, 2013; Publicado: 24 de mayo de 2013
Derechos de Autor © 2013 Hecker et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este estudio fue financiado por BMBF (MedSys, Grant Nº 0.315.450) http://www.bmbf.de/and Deutsche Forschungsgemeinschaft (DFG) GRK 1772 "Sistemas de Biología Computacional" http://www.dfg.de. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
el cáncer de vejiga es el cuarto cáncer más común en los países industrializados [1]. Muscular carcinoma de vejiga invasivo tiene todavía una alta mortalidad, a pesar de mejores terapias de mejora de las técnicas quirúrgicas y los tratamientos agresivos. Aproximadamente el 90% de todas las neoplasias uroteliales se clasifican como carcinoma urotelial (UCC), que se puede dividir mediante parámetros clínicos y morfológicos en dos subgrupos diferentes [2], [3]. La mayoría de UCC pertenece al grupo de los tumores papilares no invasivos (PTA etapa), en general, estos tumores son bien diferenciados, tienden a crecer lentamente y sin gran difusión y tienen un buen pronóstico clínico. El tercio restante de UCC son tumores invasivos (pT1 etapa y superior) con diferenciación mal, las altas tasas de progresión y la capacidad de formar metástasis. En el nivel molecular, la mayoría UCC no invasiva están asociados con FGFR3 mutación y la pérdida del cromosoma 9 [4], [5], mientras que la inactivación de p53 y la función PTEN desempeña un papel importante en la progresión de la UCC invasiva [6]. En varias publicaciones, los patrones de expresión transcriptomic se han relacionado con los resultados clínicos en el carcinoma urotelial [7] - [10]. Además, se realizó un análisis integrado de la primera tanto miARN y ARNm de datos para obtener una visión más clara de las redes de regulación y las vías de transducción de señales implicadas cáncer que causan cáncer de vejiga [11], [12]. Sin embargo, los mecanismos exactos implicados en la iniciación y progresión del carcinoma urotelial de la vejiga permanecen en gran medida poco clara. Un examen más detallado de la expresión génica y los datos de expresión de los genes miARN es crucial para detectar aquellos procesos desconocidos que conducen a la tumorigénesis. Con la creación de aplicaciones de microarrays, se han desarrollado varios métodos computacionales para analizar los datos de expresión génica. El análisis conjunto de genes y el análisis de genes de enriquecimiento a menudo se utilizan para identificar los genes expresados diferencialmente [13], [14]. Las herramientas más comunes y los servicios web que se aplican los principios del análisis de genes de enriquecimiento son DAVID [15], GeneTrail [16], gorila [17], GENECODIS [18] y goEast [19], para una visión general véase la referencia [20] .
Además de co-genes expresados diferencialmente regulados, pares de miRNAs y mRNAs juegan un papel importante en varios procesos celulares y enfermedades. Para evaluar esta cuestión, varios métodos han sido desarrollados para predecir las interacciones entre miRNAs y mRNAs sobre la base de sus secuencias. La mayoría de las herramientas de explotar la semilla complementaria entre miRNAs y el 3'UTR de ARNm específico, información acerca de la conservación de la secuencia de bases adyacentes y las propiedades termodinámicas de las interacciones de mRNA de los genes miARN objetivo. Los diferentes métodos se han revisado recientemente [21]. Algunas de las herramientas más comunes son TargetScan [22] - [25], PicTar [26] - [29], Miranda [30] - [32] y PITA [33]. Varios recursos Web proporcionan validados o interacciones predijo miARN-mRNA, por ejemplo TarBase [34], miRecords [35], Mirgen [36] y miRBase [37], miRGator ofrece miARN mRNA y los perfiles de expresión [38], base estelar [39] y Dorina [40] son bases de datos que integran miARN y ribonucleoproteína sitios de unión.
Hay una necesidad de métodos que tengan en cuenta la naturaleza específica de la regulación inducida miARN. miReduce [41] y Sylamer [42] se pueden utilizar para evaluar la correlación entre los enriquecimientos motivo de semillas en 3'UTRs de los ARNm de los genes regulados diferencialmente en experimentos de eliminación de genes miARN. DIANA-mirExTra implementa métodos de evaluación motivo de genes similares a los de un servicio web [43]. Creighton et al desarrollaron un conjunto de macros de Excel para combinar conjuntos de genes enriquecidos con los genes miARN-mRNA predicciones de interacción [44]. Recientemente, los métodos y los servicios web para el análisis integrado de miARN y ARNm de datos de expresión se han desarrollado como MAGIA [45], [46], MMIA [47], mirAct [48], miRConnX [49] y miRTrail [50] . GenMIR ++ implementa un enfoque de aprendizaje bayesiano para identificar la regulación diferencial de los genes miARN-mRNA [51], [52]. HOCTAR calcula correlaciones negativas entre miARN y la expresión del ARNm [53]. Otros métodos se basan en el análisis de regresión [54], [55]. Un enfoque basado en la agrupación de genes miARN ARNm y la expresión de datos en combinación con un t-test fue desarrollado por Jayaswal et al. [56]. La mayoría de las herramientas actuales tienen deficiencias tales como el uso de métodos que son propensas a errores a los valores atípicos o que no permiten la identificación de la regulación diferencial entre los dos grupos de muestras.
En este estudio, se presenta un nuevo método que evalúa miARN diferencial -mRNA regulación combinado con la distribución de muestras para una sola interacción. Nuestra hipótesis es que las interacciones individuales miARN-mRNA son característicos de un estado particular de la tumorigénesis. Consideramos diferencial de la regulación de genes miARN inducida como un problema de dos clases y utilizar los siguientes hipótesis. Teniendo en cuenta una interacción entre un miARN y mRNA que es característica de una diferencia entre dos grupos de muestras, el miARN se regula hacia arriba y el mRNA abajo-regulada en el primer grupo con respecto al segundo grupo, o recíproco. Nuestro enfoque clasifica cada interacción predicho para cada muestra independientemente de conocimiento de grupo. De esta manera, se puede analizar las diferencias individuales dentro de un colectivo de muestras para un conjunto específico de interacciones. Además dada una interacción, podemos particionar muestras en grupos que se espera que reflejan la regulación de los genes miARN inducida. El acuerdo entre los grupos previstos y los experimentales se obtiene una clasificación significativa para distinguir las interacciones potenciales entre los que son poco probable que ocurra. En una etapa final, incorporamos información sobre la correlación negativa entre miARN y la expresión de ARNm para eliminar los falsos positivos.
La identificación regulados diferencialmente interacciones miARN-mRNA es una básicamente una forma de selección de características. Para validar las diferentes etapas de nuestro enfoque, hemos realizado un análisis de componentes principales para analizar la separación de las muestras después de la asignación de los estados de interacción y se evaluó el rendimiento de nuestro ranking para construir clasificadores
.
En particular, hemos aplicado nuestro enfoque de un colectivo de muestras de tejido de vejiga sanos y muestras de tumor de vejiga en diferentes etapas. Además, hemos examinado la capacidad de nuestro enfoque para clasificar los tumores de cáncer de próstata y el tejido sano, así como las muestras de cáncer de colon y los tejidos sanos usando muestras de pequeño tamaño [57]. El rendimiento de nuestros clasificadores se comparó con un método bien establecido para los datos de expresión génica, análisis de Predicción de Microrarrays para R (pamr), que es un clasificador mejorado centroide más cercano [58]. Además, se calcularon las puntuaciones de enriquecimiento de la vía de los genes implicados en las interacciones predichas y sugerimos interacciones interesantes para la progresión tumoral del cáncer de vejiga.
Materiales y Métodos
Pacientes y muestras de tejidos
Una selección de 24 muestras uroteliales de un colectivo de pacientes con cáncer de vejiga descritos anteriormente se utilizó en este estudio [59]. Ocho muestras fueron extraídas de tejido no maligno de la vejiga (8 pacientes del sexo masculino; mediana de edad de 69 años, rango 47-80 años), 8 muestras de carcinoma papilar urotelial de bajo grado (8 pacientes del sexo masculino; mediana de 72,5 años, rango 59-79 años; 2x pTaG1 y 6x pTaG2)), y 8 muestras de tumores invasivos (6 varones, 2 pacientes de sexo femenino, edad media 73, rango 62-76 años; 1x pT1G1, 4x y 3x pT1G3 pT2G3). Las muestras se recogieron inmediatamente después de la cirugía en nitrógeno líquido y se almacenaron a -80 ° C hasta su posterior análisis. La estadificación del tumor se realizó de conformidad con la Unión Internacional contra el Cáncer y la clasificación histológica de acuerdo con los criterios de la OMS /ISUP de 2004 [60]. Todos los pacientes con cáncer de vejiga pasaron por cistectomía radical o resección transuretral en el Hospital Universitario Charité de Berlín entre 2008 y 2009, y dieron su consentimiento informado por escrito para el uso de muestras de tejido representativas para fines de investigación. El estudio fue aprobado por el Comité de Ética del Hospital Universitario Charité (Archivo: EA1 /153/07).
El aislamiento de ARN y caracterización de la cantidad y calidad
Las muestras analizadas contenía tejidos tumorales las células tumorales más de 80% como se describió previamente [59]. Aproximadamente 20 a 30 mg de tejido de peso en húmedo se trató con 350 l de tampón de lisis y el ARN total fue aislado utilizando el Kit miRNeasy Mini (Qiagen, Hilden, Alemania) de acuerdo con el protocolo del fabricante. Se realizó un paso adicional digestión DNasa I en la membrana de gel de sílice de unión de ARN. La cantidad y calidad de RNA aislado se determinó mediante un espectrofotómetro NanoDrop 1000 (NanoDrop Technologies, Wilmington, DE, EE.UU.) y un Bioanalyzer 2100 (Agilent Technologies, Santa Clara, CA, EE.UU.). Se han usado 5; sólo las muestras con el número de la integridad del ARN (RIN) & gt valores. Las muestras de ARN aislado de no maligno, así como a partir de muestras de tejido tumoral no invasivas e invasivas mostraron 260/280 proporciones comparables mediana de absorbancia (2,02, 2,03 y 2,03) y los valores de la mediana de RIN (7.3, 6.7, y 7.2; prueba de Kruskal-Wallis, P = 0,486).
Microarray basado en el análisis de ARN
miARN expresión análisis fue realizado por hibridaciones de un solo color en el catálogo humano 8-plex 15 K microarrays de microARN (AMADID 019.118) de Agilent (Agilent tecnologías, Santa Clara, CA, EE.UU.), que encierra 723 76 microRNAs viral de la Sanger miRBase (liberación 10,1) y humanos. Todos los pasos de reacción se llevaron a cabo como se describe previamente en detalle [61]. Después de la hibridación, microarrays se lavaron, se escanearon y se procesaron de acuerdo con el protocolo del proveedor. Los datos en bruto se normalizaron mediante Genespring GX11 software (Agilent) con los parámetros por defecto (umbral de la señal en bruto a 1,0 por ciento, a cambio de percentil 90 como algoritmo de normalización y transformación sin la línea de base). Todos los datos de microarrays se ha depositado en la base de datos NCBI GEO con el número de acceso GSE36121.
expresión de ARNm de análisis se realizó por hibridaciones de un solo color en el conjunto de microarrays genoma humano 4 × 44 K v2 (026652) de Agilent que comprende sondas para humanos 34184 transcritos de ARNm. Después de la hibridación, microarrays se lavaron, se escanearon y se procesaron de acuerdo con el protocolo del proveedor. Los datos en bruto se normalizaron mediante Genespring GX11 software (Agilent) con los parámetros por defecto (porcentaje de cambio a 75 por ciento como algoritmo de normalización y una transformación de la línea de base media de todas las muestras). Todos los datos de microarrays se ha depositado en la base de datos NCBI GEO con el número de acceso GSE40355.
Clasificación de las interacciones miARN-mRNA
miARN-mRNA conjunto de datos de interacción.
Validado miARN humana interacciones-mRNA se obtuvieron de Tarbase 5,0 y miRecords (versión 11 hasta 2010) [34], [35], [62]. predicciones de ARNm diana humanos para miRNAs fueron extraídos de TargetScan 5.2 y microRNA.org (versión 8-2010) [22] - [25], [63]. El recurso microRNA.org comprende las predicciones calculadas por el algoritmo de Miranda [30], [31]. En caso de microRNA.org, las únicas predicciones que se consideraban, eran los que figuran como 'miARN conservada' y 'buena puntuación mirSVR'. Para el análisis, se añadió la intersección entre microRNA.org y TargetScan predicciones para el conjunto de interacciones validados. familias miARN se extrajeron como se define en el conjunto de datos TargetScan.
Algoritmo para la clasificación de los valores de expresión.
El objetivo del algoritmo es dividir los valores de expresión correspondientes a cada sonda en tres conjuntos :. "alta", "media" y "baja"
Dejar ser el valor de expresión-registro normalizada de una sonda específica para una determinada muestra que, o bien se refiere a un miARN o ARNm. es el conjunto correspondiente de valores de expresión de esa sonda sobre todas las muestras. En un primer momento, los valores de expresión son exponentes, es decir. De esta manera, evitamos algunos problemas numéricos. Todos los valores son mayores que cero, porque tiende a cero cuando se hace más negativa, es decir, cuando se acerca, también, si a continuación. Claramente, hay una dependencia de cómo se normalizó los datos iniciales.
Se define el pliegue del cambio absoluto como para dos valores. Note por favor, que.
Hay dos consideraciones preliminares. La primera suposición es que dos valores de expresión se expresan diferencialmente si su factor de cambio absoluto es superior a un cierto umbral. El segundo supuesto es que los valores de los cuales absoluta veces el cambio es en un cierto rango se expresan de manera similar, es decir, su absoluta veces el cambio es menor o igual a un umbral.
Dado y estableció un no vacío
B
donde es la cardinalidad del conjunto
B Opiniones, definimos el pliegue del cambio absoluto entre los
a
y la media de conjunto
B Opiniones como, en su. Una vez más, ya que
B
es no vacío, y si y sólo si.
definir ese conjunto
Un
es el barrio de los
a
si y sólo si dónde.
definir
un
como representante de un conjunto
un
si y sólo si
un
es el barrio de
a
. Note por favor, que no puede haber más de un representante de un conjunto
Un
, es decir, para dos valores donde
Un
es barrio de
a
y
B
es el barrio de los
B, si, pero también si y.
definimos una función de puntuación en dos elementos,
a
y
b
y sus barrios
Un
y
B Opiniones de la siguiente manera:
Añadimos siguiente restricción para determinar la puntuación final, donde:
el fundamento de esta puntuación la función es encontrar dos conjuntos de valores expresados de manera similar que cubren la mayor parte de los datos, por tanto, también que se solapan menos posible, es decir, el término cobertura de datos. Además, de manera más equitativa los conjuntos de tamaño mayor se anotó, es decir, el término distribución de tamaños. De lo contrario, un conjunto podría contener un solo miembro y el otro conjunto todos los demás miembros. Desde entonces, la cobertura de los datos debe ser más que linealmente ponderado en comparación con la distribución de tamaños de los conjuntos, hemos introducido una relación cuadrática en el plazo de cobertura de datos. El último tipo de términos, es decir, los términos de penalización representativos establecidos, penalizar a los representantes de ajuste que están lejos de su vecindario. Los términos de penalización representativos establecidos deben tener menos influencia que el término de cobertura de datos, por lo que estos términos se introducen en solo uno de los dos términos de cobertura de datos.
Para resumir el significado esencial de la función de puntuación, se identifican dos diferentes barrios, es decir, los valores de expresión similar. Estos barrios difieren en al menos un factor de cambio absoluta definida, pero entonces el cambio veces absoluta pueden ser arbitrarias grande. La función de puntuación evalúa en qué medida estos barrios son útiles para representar los datos, sobre la base de los datos de cobertura no son valores absolutos.
Teniendo en cuenta los dos conjuntos resultantes y sus representantes correspondientes que producen la puntuación final más alta, que denotan el representante con el valor más bajo y el representante de mayor valor como. Sobre la base de las fronteras y, dos y se calculan de la siguiente manera:
La razón de esto es como sigue. Los límites están definidos por el límite superior del conjunto inferior, y el límite inferior del conjunto superior; si los conjuntos se superponen, los límites se conmutan
Por último, para cada uno de la clasificación de
v
se define por:.
Esta clasificación se conoce como el estado en el
siguiente.
para la clasificación real de los valores de expresión, el umbral y el vecindario umbral veces se determina de forma dinámica a partir de una lista de parejas de valores predefinidos, es decir, un par para el i-ésimo elemento de la lista. Por separado para cada sonda miARN o ARNm, se utiliza el umbral umbral veces y barrio que dió la más alta para ese conjunto particular de valores de expresión. Para este estudio, hemos definido.
Filtrado y de interacción de los estados.
Sólo se consideran los miARN o sondas de ARNm que supere un cierto puntaje superior a un umbral donde
t es
un valor real arbitraria y la cardinalidad es el número de muestras. Teniendo en cuenta una única muestra, las sondas de ARNm, que se asignan a la misma EntrezGeneID se clasifican por el máximo estado ocurriendo. En un lazo, las preferencias para la clasificación son bajos (L), alto (H) y, a continuación medio (M). Antes de interacciones se clasifican, las sondas de ARNm y miARN son filtrados por la proporción de muestras de anuncios M, ¿dónde está el umbral correspondiente. Para una interacción miARN-mRNA y para cada muestra la clasificación de una interacción es la combinación de los dos estados de los genes miARN y mRNA en ese orden, por ejemplo, si un miARN se clasifica como L para una muestra específica y el ARNm diana se clasifica como H, entonces el estado de la interacción es LH. Por lo tanto, hay nueve estados posibles para una interacción:
S = {
LH, HL, LM, HM, MH, ML, HH, LL, MM}
grupo de estas combinaciones. su significado biológico:
abajo reguladas Unidos
S
compHL
= {NS, ML, HM}; hasta reguladas miARN causa hipotética baja regulación de mRNA
.
estados hasta reguladas
S
compLH
= {LH, MH, LM} ;. Las reguladas miARN causar hipotética regulación de ARNm.
Los estados sin definir
S
undef
= {HH, LL, MM}, que no siguen la interpretación biológica se ha mencionado anteriormente.
las interacciones con una frecuencia de estados indefinidos superiores a un umbral fueron excluidos del conjunto de interacciones. Nos referiremos más al conjunto de interacciones que satisface los criterios de filtrado mencionadas anteriormente como el conjunto de interacciones reguladas.
Dados dos grupos predefinidos
Un
y
B Opiniones , se definió que una interacción es diferencialmente regulada por
un
y
B Opiniones, si el estado con la frecuencia máxima del grupo
un
es un elemento de y el estado con la frecuencia máxima del grupo
B Opiniones es un elemento de o recíproco. Para todos los conjuntos de datos de este estudio, nos propusimos, y.
Jaccard-Index.
Para cada interacción, un Jaccard-índice se calcula para evaluar el acuerdo entre los grupos experimentales y el predefinidas grupos esperados en base a la suposición de que un ARNm es el regulado para un grupo y hasta reguladas para el otro grupo por un miARN específico.
por lo tanto, una partición se calcula en donde las muestras se agrupan en los tres grupos y. ¿Dónde está el conjunto de muestras que tienen un estado de interacción de ambos HL, HM, o ML, es el conjunto de muestras que tienen un estado de interacción de cualquiera de LH, LM, o MH y es el conjunto de muestras cuyo estado es bien HH, MM, o LL.
el Índice de Jaccard-es entonces la similitud entre las dos particiones y y asume un valor entre 0 y 1 [64], [65]. La Figura 1 resume los pasos que se realizaron para identificar las interacciones diferencialmente regulados en este estudio.
Los datos de entrada se representa con rectángulos de color naranja. Los datos de salida se indica mediante rectángulos rojos. La elipse se refiere al conjunto de interacciones inferidas. Este conjunto es independiente de los datos de entrada, a pesar de que se puede cambiar. Las operaciones para manipular los datos se representan como diamantes.
modelo de clasificación simple.
Para evaluar la aplicabilidad de nuestro ranking por Jaccard-índices, basado en el conjunto de interacciones reguladas diferencialmente seleccionados una sencillo modelo de clasificación se construye que predice el primer grupo de un conjunto de muestras, por ejemplo muestras de cáncer de un colectivo de muestras cancerosas y no cancerosas.
Este modelo contiene un conjunto de estados para cada interacción
i
del conjunto de interacciones seleccionados
I
, dónde o. Además, se define un conjunto de estados indefinidos. Para cada muestra, la suma de las interacciones clasificados como el primer grupo está dada por la interacción de todos los
i
donde el estado de la muestra. se refiere a la suma de las interacciones clasificados como el segundo grupo, es decir, todas las interacciones
i
donde el estado de la muestra y. En otras palabras, para una muestra, incrementamos si el estado de la muestra indica una regulación en la misma dirección como se define en el modelo para la interacción específica, incrementamos si el estado de la muestra corresponde a la regulación frente y nada se incrementa si el estado de la muestra corresponde a un estado de interacción definido. La clasificación de la muestra se define entonces por el máximo de y.
Un modelo se genera a partir de las interacciones de más alto rango dentro de un valor umbral para el Jaccard-índice de una interacción o por un número definido de interacciones aleatorios dentro de una gama de Jaccard-índices. Los estados se definen de acuerdo con el estado con mayor frecuencia para el primer grupo.
Análisis Bootstrapping.
Los valores de expresión normalizados fueron divididos aleatoriamente en entrenamiento y prueba, donde cada conjunto de entrenamiento contiene la mitad de las muestras de cada grupo sin reemplazo. Si el número de muestras era raro para un grupo, los conjuntos de entrenamientos fueron asignados una muestra más de las unidades de prueba para ese grupo. En relación con el conjunto de datos de cáncer de vejiga, para el colectivo de todas las muestras, cada entrenamiento y cada conjunto de prueba contiene ocho muestras, ya sea del grupo de tumores de vejiga invasivos o no invasivos y cuatro muestras de tejido normal. Para el colectivo de muestras de cáncer de vejiga, de cada entrenamiento y cada equipo de prueba contiene cuatro muestras de cáncer de vejiga invasivo y cuatro muestras de cáncer de vejiga no invasivos. Para los dos colectivos, 100 conjuntos de datos diferentes de entrenamiento y prueba se generaron mediante la división al azar las muestras bajo las restricciones antes mencionadas. interacciones miARN-mRNA se calculan y se clasifican por separado para cada entrenamiento y cada conjunto de prueba. Para cada uno de los datos 100 establece un modelo se calcula basándose en el conjunto de entrenamiento y se aplica al conjunto de prueba correspondiente. La media de las especificidades, las sensibilidades y las tasas de falsos positivos fueron calculadas sobre los 100 conjuntos de datos
.
Al igual que en el conjunto de datos de cáncer de vejiga, un conjunto de datos de cáncer de colon y el tumor de próstata que contienen emparejado miRNA /ARNm micro matriz de datos se utilizó la expresión para estimar las especificidades y sensibilidades. muestras de tejido de colon y muestras de tejido de la próstata fueron extraídos del conjunto de datos proporcionado por Lu et al. [57] y tratados como dos conjuntos de datos separados. En más detalle, el conjunto de datos de tumor de colon comprende cuatro muestras sanas y siete muestras de tumores. El conjunto de datos de tumores de próstata contiene seis muestras sanas y tumorales de seis. Tanto para el cáncer de colon y los datos de tumor de próstata establecidos por separado, se generaron 50 conjuntos de entrenamiento aleatorios y equipos de prueba, a continuación, significan especificidades y sensibilidades se calcularon de la misma manera como se ha mencionado anteriormente.
Además para el tejido de cáncer colectiva muestra del conjunto de datos de cáncer de vejiga, todo el procedimiento se realizó con un valor atípico eliminado y re-asignado al grupo esperado de acuerdo a los resultados de nuestro examen el mismo valor atípico.
Análisis de Predicción de microarrays para R
para comparar los resultados de nuestros clasificadores con otro procedimiento, el análisis de microarrays Predicción para R (pamr) [58], se llevó a cabo utilizando los mismos conjuntos de entrenamiento y prueba como se mencionó anteriormente. Pamr comprende un k más cercano clasificador centroide disminuido. Un valor de umbral se usa para definir la extensión de la contracción de un modelo, es decir, un valor umbral más bajo generará un modelo más grande y un umbral más alto modelo más pequeño. Pamr se aplicó a cada conjunto de datos de registro normalizado-miARN y la expresión de mRNA por separado. En primer lugar se determinó una serie de umbrales por separado para los datos de miRNA y de mRNA de cada conjunto de datos mediante el uso de 'pamr.plotcv' de algunos casos de conjuntos de entrenamiento. A continuación, se utilizó ese rango de umbrales para iterar sobre todos los conjuntos de entrenamiento aleatorios que corresponden a un miARN o ARNm de un conjunto de datos, calculamos los modelos y clasificaron las unidades de prueba correspondientes. 'Pamr.adaptthresh' se utiliza para cambiar la escala del modelo antes de clasificar el conjunto de prueba correspondiente. A excepción de los parámetros por defecto de umbral se utilizaron para todas las funciones de pamr.
La media de las especificidades y sensibilidades fueron calculados de la misma manera como se ha mencionado anteriormente.
Los coeficientes de correlación
Para cada de los tres grupos experimentales, es decir, las muestras de cáncer de vejiga invasivo, las muestras de cáncer de vejiga no invasivos y muestras de tejidos normales, los coeficientes de correlación de Spearman, ρ, se calcularon entre la expresión de los genes miARN y el ARNm. Los valores de expresión-registro normalizado fueron utilizados como datos de entrada. Pares de genes miARN ARNm fueron definidos por el mismo conjunto de interacciones, como se mencionó anteriormente. Los valores de expresión se trataron por separado para cada uno de los tres grupos experimentales. los coeficientes de correlación de Spearman se calcularon para cada par de interacciones miARN-mRNA para cada grupo.
Tratamiento de los datos sobre el cáncer de vejiga establecidos
Hemos aplicado nuestro enfoque de dos colectivos diferentes, un colectivo de todas las muestras (8 no invasividad y 8 muestras de tumores invasivos, así como 8 personas de control) y un colectivo de muestras de tumores con diferentes etapas tumorales (8 no invasiva y 8 muestras invasivas) sin personas sanas. Para ambos colectivos, sólo miRNAs y los valores de expresión ARNm se procesaron muestra en al menos el 20% de las muestras utilizadas una "llamada actual", indicado por el software de microarrays normalización Genespring GX. A continuación, hemos aplicado nuestro enfoque para identificar interacciones regulados diferencialmente. En otra etapa, se seleccionaron sólo las interacciones que muestran una correlación negativa, es decir ρ≤-0.4, entre normalizados miARN ARNm y los valores de expresión de al menos un grupo experimental. Para el colectivo de muestras de tejido de cáncer de estos grupos son los invasivos muestras de cáncer de vejiga y las muestras de cáncer de vejiga no invasivos. Para el colectivo de todas las muestras de los grupos comprenden dos grupos de muestras de cáncer de vejiga y el grupo de muestras de tejidos normales, es decir, tres grupos diferentes.
La agrupación
Sobre la base de la interacción establece un componente principal y la agrupación se realizó un análisis. Para este propósito, los estados de interacción se sustituyen en valores reales como se ha mencionado en la Tabla 1. Una matriz de distancia se calcula utilizando la distancia bloque de la ciudad como una métrica. Posteriormente, la agrupación jerárquica se realizó mediante el método de Ward como una medida de la distancia [66]. Los componentes principales de la matriz de distancia se calcularon en donde la matriz de distancia se trató como un conjunto de
NN
vectores dimensionales [67].
Funcional anotación agrupación
los genes que están implicados en las interacciones regulados diferencialmente entre miARN y el ARNm se analizaron utilizando la base de datos para la anotación, visualización e integrados de descubrimiento (DAVID) [15] con los parámetros de clasificación de severidad estándar.
el análisis del conjunto de datos de cáncer de vejiga utilizando Magia2 y talasso
para el análisis comparativo, se aplicó cuatro enfoques adicionales para analizar los dos colectivos de muestras de cáncer de vejiga, el colectivo de muestras sanas y tumorales y el colectivo de muestras de tejido tumoral invasivos y no invasivos. Se utilizó el servidor web talasso para identificar las interacciones miARN-mRNA con el método talasso y GenMiR ++ algoritmo [55]. La unión entre Tarbase, miRecoreds 2010 y la intersección de miRandaXL, PicTar de 4 vías y TargetScan (Mirgen) fue seleccionado como conjunto de interacciones putativo miARN-mRNA.
Además, las correlaciones de Spearman y un enfoque de análisis utilizando Meta el servidor web Magia2 se utilizaron para analizar los conjuntos de datos [46]. Para el análisis con Magia2, la intersección entre las predicciones de TargetScan y microRNA.org (Miranda) se define como conjunto de interacciones putativas. En cuanto al análisis mediante correlación de Spearman, sólo se consideran las interacciones que muestran una correlación negativa, es decir, ρ. & Lt; 0
Para todos los enfoques y ambos colectivos, sólo miRNAs y los valores de expresión ARNm se procesaron muestra en al menos el 20% de las muestras utilizadas una "llamada actual", indicado por el software de microarrays normalización Genespring GX. los valores de expresión normalizada de registro se utilizaron para el análisis, como se mencionó anteriormente.