Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: La identificación de subtipos de cáncer de miARN-TF-mRNA de las redes de regulación y expresión Data

PLOS ONE: La identificación de subtipos de cáncer de miARN-TF-mRNA de las redes de regulación y expresión Data


Extracto

Antecedentes

La identificación de los subtipos de cáncer es un componente importante del marco de la medicina personalizada. Un número creciente de métodos computacionales se han desarrollado para identificar subtipos de cáncer. Sin embargo, los métodos existentes no suelen utilizar información de redes reguladoras de genes para facilitar la identificación del subtipo. Es ampliamente aceptado que las redes de regulación de genes juegan un papel crucial en la comprensión de los mecanismos de las enfermedades. Los diferentes subtipos de cáncer están causados ​​probablemente por diferentes mecanismos de regulación. Por lo tanto, hay grandes oportunidades para el desarrollo de métodos que pueden utilizar la información de red en la identificación de los subtipos de cáncer.

Resultados

En el presente trabajo, se propone un método, ponderada fusión red de similitud (WSNF), a utilizar la información en la red de regulación compleja miARN-TF-mRNA en la identificación de los subtipos de cáncer. En primer lugar nos construimos la red de regulación, donde los nodos representan las características, es decir, el microARN (miARN), factores de transcripción (TFS) y los ARN mensajeros (ARNm) y los bordes indican las interacciones entre las características. Las interacciones son recuperados de diversas bases de datos interatómicas. A continuación, utilizamos la información de la red y los datos de expresión de los miRNAs, TFS y los ARNm para calcular el peso de las características, lo que representa el nivel de importancia de las características. El peso característica se integra a continuación en un enfoque de fusión de red para agrupar las muestras (pacientes) y por lo tanto para identificar subtipos de cáncer. Hemos aplicado nuestro método para el carcinoma de mama invasivo TCGA (BRCA) y glioblastoma multiforme (GBM) de datos. Los resultados experimentales muestran que WSNF se comporta mejor que los otros métodos de cálculo de uso común, y la información de red de regulación de los genes miARN-TF-ARNm contribuye a la mejora del rendimiento. El método WSNF éxito identificados cinco subtipos de cáncer de mama y los tres subtipos de GBM que muestran significativamente diferentes patrones de supervivencia. Hemos observado que los patrones de expresión de las características en algunos sub-redes miARN-TF-mRNA varía en los diferentes subtipos identificados. Además, los análisis vía de enriquecimiento muestran que los mejores vías de participación de los genes expresados ​​diferencialmente más en cada uno de los subtipos identificados son diferentes. Los resultados podrían suministrar una información valiosa para la comprensión de los mecanismos que caracterizan los diferentes subtipos de cáncer y ayudar al diseño de terapias de tratamiento. Todos los conjuntos de datos y los scripts R para reproducir los resultados están disponibles en línea en el sitio web:. Http://nugget.unisa.edu.au/Thuc/cancersubtypes/

Visto: Xu T, Le TD, Liu L , Wang R, Sun B, Li J (2016) La identificación de los subtipos de cáncer de miARN-TF-mRNA de las redes de regulación y expresión de datos. PLoS ONE 11 (4): e0152792. doi: 10.1371 /journal.pone.0152792

Editor: Bibekanand Mallick, Instituto Nacional de Tecnología, Rourkela, India

Recibido: 13 de diciembre de 2015; Aceptado: 18 Marzo de 2016; Publicado: 1 Abril 2016

Derechos de Autor © 2016 Xu et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Disponibilidad de datos:. Todo relevante los datos están dentro del apoyo de sus archivos de información en papel y

Financiación:. Este trabajo ha sido financiado parcialmente por el Consejo de Investigación australiano (http://www.arc.gov.au/) Descubrimiento Proyecto DP130104090 (JL y LL ), y la Fundación Nacional de Ciencias Naturales de China 31371340 (BS), http://www.nsfc.gov.cn/publish/portal1/. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción

en lugar de ser una sola enfermedad, el cáncer involucra diferentes subtipos que se caracterizan por diferentes conjuntos de moléculas [1, 2]. La identificación de los subtipos de cáncer es una tarea crucial para seleccionar el tratamiento adecuado para los pacientes, ya que diferentes subtipos de cáncer pueden responder bien a diferentes terapias de tratamiento. Por ejemplo, los receptores de estrógenos (ER) subtipo de cáncer de mama positivo podría responder a la terapia hormonal, y el subtipo positivo humano del factor de crecimiento epidérmico 2 (HER2) es probable que se beneficien de la quimioterapia. Sin embargo, nuestra actual comprensión de los mecanismos que controlan cada subtipo de cáncer todavía está lejos de ser completa.

Existen varios métodos computacionales se han desarrollado para identificar los subtipos de cáncer. Estos métodos se dividen en tres diferentes corrientes de investigación. En la primera corriente, los modelos de minería de datos o de aprendizaje automático se construyen para utilizar conjuntos de datos de expresión génica de muestras de agrupamiento (pacientes) en diferentes grupos, cada uno correspondiente a un subtipo de cáncer [3-7]. Sin embargo, la utilización de un tipo de datos genómica puede no ser suficiente para identificar subtipos de cáncer de precisión. Con el avance de las tecnologías de secuenciación, se ponen a disposición hoy en día múltiples tipos de datos de los pacientes de cáncer, como los datos clínicos genómico, miRNA y afines. Estos conjuntos de datos de riqueza conduce a la segunda corriente de investigación en el que los investigadores analizan los diferentes tipos de datos por separado para identificar subtipos y los resultados obtenidos por separado se integran para formar el resultado final. Lo destacado de este enfoque son [1, 8-10]. Sin embargo, el análisis de los diferentes tipos de datos por separado puede perder la información complementaria en los datos de los mismos pacientes, y puede haber conflicto en los resultados obtenidos utilizando diferentes tipos de datos. La última corriente de investigación se centra en el análisis de datos multi-ómicas al mismo tiempo y ha identificado algunos subtipos de cáncer importantes recientemente [11-14].

Sin embargo, la información de las redes reguladoras de genes se utiliza muy poco por el vigente métodos computacionales. redes reguladoras de genes juegan un papel importante en todos los procesos de la vida, y la comprensión de la dinámica de estas redes ayudan a revelar los mecanismos de las enfermedades [15]. A pesar de la importancia de la información basada en la red se ha abordado en trabajos recientes [16, 17], todavía hay una falta de métodos que utilizan información biológica de las redes para identificar los subtipos de cáncer. Por otra parte, sigue siendo un gran desafío para asociar los datos multi-ómicas y la información de la red con los subtipos de cáncer y los resultados, en particular el pronóstico. Recientemente, Liu et al. [18] propuso el método (la red asistida co-agrupación para la identificación de subtipos de cáncer) para utilizar los perfiles de expresión de ARNm y la información de la red de interacciones mRNA-ARNm con un método bi-agrupación para descubrir subtipos de cáncer de NCIS. Sin embargo, las redes de regulación de genes son complejos e implican muchos tipos de reguladores incluyendo miRNAs y TFS. Es de interés para utilizar la información en las redes que implican miRNAs, TFS, y mRNAs en la identificación de subtipos de cáncer. La información no sólo puede mejorar la precisión de los modelos computacionales, sino que también proporciona una visión de los mecanismos (las redes de regulación) que regulan cada subtipo de cáncer.

En el presente trabajo, se propone un método, llamado fusión red similitud ponderada (WSNF), para identificar los subtipos de cáncer, haciendo uso tanto de la información de los datos de expresión y la red de miRNAs, TFS y ARNm. Dado un conjunto de datos que contiene los perfiles de expresión de un conjunto de miRNAs, TFS y ARNm (conocido como características en el resto del documento), WSNF recupera en primer lugar las interacciones entre estas características de diferentes bases de datos interatómicas para construir la red de regulación miARN-TF-ARNm . En la red, las características se representan mediante nodos y las interacciones entre características se indican con bordes. A continuación, calcular el peso (es decir importancia) de una característica mediante la utilización de la información de red miRNA-TF-mRNA y la expresión variación de las características. Por último, modificamos el enfoque de fusión red de similitud (SNF) [11] para soportar el peso característica en cuenta cuando la agrupación de pacientes para identificar los subtipos de cáncer.

Aplicamos el método WSNF al cáncer de mama TCGA y conjuntos de datos de GBM. Los resultados experimentales muestran que nuestro método ha identificado con éxito cinco subtipos de cáncer de mama y tres subtipos de GBM que muestran significativamente diferentes patrones de supervivencia. La información de la red de regulación de los genes miARN-TF-mRNA mejora el rendimiento del enfoque de fusión de la red, como el método WSNF realiza mejor que ambos SNF [11], el método de fusión a la red sin necesidad de utilizar peso característica y NCIS [18] que utiliza sólo mRNA los datos de expresión y las interacciones mRNA-ARNm. También comparamos nuestro método con el clúster de Consenso (CC) [7], un método que se utiliza comúnmente en la investigación TCGA. Los resultados experimentales muestran que el método WSNF también tiene un mejor rendimiento tanto con el cáncer de mama y los conjuntos de datos de GBM. Para el conjunto de datos de cáncer de mama, se analizan los subtipos identificados en detalle y presenta los resultados en términos de los patrones de expresión, las diferencias en las redes de regulación de los genes miARN-TF-mRNA a través de los diferentes subtipos, y las vías funcionales que caracterizan cada subtipo. La información puede ser valiosa para ayudar al diseño de tratamientos específicos de los subtipos de cáncer de mama.

Materiales y Métodos

Resumen del método

Nos proponemos utilizar el miARN-TF-ARNm reguladora la red para ayudar a la identificación de los subtipos de cáncer. Hay tres pasos principales en el método WSNF (figura 1), que incluye: 1) la construcción de red de regulación de los genes miARN-TF-ARNm, 2) calcular el peso de cada función (miARN, TF, ARNm), y 3) la modificación y aplicación de la enfoque de fusión red similitud [11] para identificar los subtipos de cáncer, mientras que toma el peso característica en consideración. Se describen los detalles de cada paso en el siguiente.

En el paso 1, las interacciones entre los miRNAs, TFS y los ARNm obtenidos de las bases de datos se utilizan para construir la red de regulación miARN-TF-ARNm. En el paso 2, el ranking de cada función (R) se calcula en base a la información de la red, y los datos de expresión de genes y los genes miARN se utiliza para obtener la expresión variación característica (MAD) a través de todas las muestras. Luego, para cada función, el rango y su expresión variación se combinan para obtener su peso (W). En el paso 3, las redes de muestra similitud ponderados se obtienen de los genes (ARNm, TFS) y miRNAs por separado utilizando los pesos y los datos de expresión de las características, y, finalmente, establecer contactos de fusión y la agrupación se llevan a cabo para encontrar los grupos de pacientes que impliquen subtipos de cáncer.


la construcción de la red de regulación miARN-TF-ARNm

En este paso, se utiliza una variedad de fuentes para construir las redes de interacción de los genes miARN-TF-mRNA. La red contiene diferentes tipos de interacciones, incluyendo las que existen entre los genes miARN-mRNA, miARN-TF, TF-miARN, TF-ARNm, TF-TF, y el ARNm-ARNm. Fig 2 muestra los detalles de las fuentes de datos para la recuperación de las diferentes interacciones de tipo. En la figura, cada tipo de las interacciones se representa como un enlace donde la fuente es el regulador y el extremo de la flecha es el objetivo. Las fuentes de datos se enumeran al lado de cada tipo de las interacciones.

En primer lugar conseguir la lista de TFS mediante la combinación de la TFS en la Enciclopedia de Elementos de ADN (ENCODE) los datos de chip-ss, TransmiR [19 ] y factores de transcripción FANTOM5 humanos que están disponibles en http://fantom.gsc.riken.jp/5/sstar/Browse_Transcription_Factors_hg19. Finalmente se obtiene una lista de TFS 1679 (véase el archivo de la lista S1).

Como se muestra en la figura 2, se obtienen las interacciones miARN-mRNA y los miARN-TF de bases de datos, incluyendo confirmado experimentalmente Tarbase [20 ], mirTarbase [21], mirRecords [22], y la base de datos de predicción base estelar v2.0 [23]. Tarbase, mirTarbase y mirRecords incluyen las interacciones confirmados curada de la literatura. STARBASE v2.0 contiene la unión de los conjuntos de interacciones miARN-mRNA predichos por los programas de software de predicción de destino de cinco (miARN TargetScan, PicTar, PITA, Miranda y RNA22). También pone a prueba cada uno de los pares de interacción de los genes miARN-mRNA en base a TCGA Pan-cáncer [24] expresión de datos. El criterio de la prueba de validación es el anti-correlación con el coeficiente de correlación de Pearson negativa (
p-valor
& lt; 0,05) entre un miARN y su objetivo. En nuestra red, utilizamos las interacciones miARN-mRNA en base estelar v2.0 que son compatibles con al menos un pan-cáncer de expresión de datos TCGA. Además, las interacciones miARN-mRNA derivan de los datos de ENCODE [25] también se utilizan en nuestro trabajo. Las interacciones están disponibles en:. Http://encodenets.gersteinlab.org/

Las interacciones ARNm-mRNA se recuperan de Reactome [26] y la cadena v10.0 [27]. Desde contenida en el Reactome y la cadena son los pares de interacción proteína-proteína, se utiliza el
org.Hs.eg.db
R paquete [28] mapa de la proteína anotación de genes para obtener el correspondiente ARNm-ARNm pares de interacción. Elegimos el punto de corte como 0,9 en v10.0 CADENA para seleccionar los pares de ARNm-mRNA de alta credibilidad para nuestra red.

Para la regulación del TF, obtenemos las interacciones entre la TF-ARNm del chip ENCODE -seq de datos [29] y de base de datos al elemento regulador transcripcional (TRED) [30]. los datos de chip-ss ENCODE a UCSC Genome Browser se procesan mediante el cálculo de tuberías para generar picos uniformes de unión TF. TRED es un repositorio integrado para ambos isómeros cis y trans-elementos reguladores. Contiene la información de regulación transcripcional curada, incluyendo el factor de transcripción motivos y pruebas experimentales de unión. Recuperamos las interacciones TF-TF de Reactome y la cadena, con el mapeo de anotación proteína-gen que para conseguir las interacciones TF-TF. Para nuestra red, interacciones TF-miARN se obtienen a partir de dos fuentes: TransmiR [19] y los datos complementarios de [25], que también está disponible en http://encodenets.gersteinlab.org/

función Cálculo.
pesos
Con el método propuesto WSNF, se calcula el peso de una función en dos etapas. En primer lugar, se utiliza la información de la red de miARN-TF-ARNm construida en el paso anterior para clasificar las características. A continuación, los datos de expresión se utiliza para encontrar la expresión variación de cada función a través de todas las muestras en los conjuntos de datos. Por fin, el peso de una característica se obtiene mediante la combinación de su variación clasificación y expresión

Etapa 1:.. Clasificación de informática de características utilizando Google PageRank

Google PageRank [31, 32] es una algoritmo que se utilizó inicialmente para clasificar a la gran cantidad de páginas de búsqueda de Google. Se basa en un grafo dirigido
G gratis (
V
,
E
), donde los nodos
V
representan las páginas web y los bordes
E
indican los hipervínculos entre las páginas web. El supuesto básico es que una página web importante es probable que tenga más enlaces entrantes desde otras páginas web. Supongamos que hay
N
páginas {
p

1,
p

2, ...,
p


N
}. El ranking de una página web
p


i
se define como la siguiente: (1) donde
PR gratis (
p


i
) y
PR gratis (
p


j
) son el ranking de páginas web
p


i
y
p


j
respectivamente, con
p


i

p


j
;
d
es el factor de amortiguación que es como una probabilidad de clics utilizado para decaer el ranking de las páginas web sin enlaces salientes y 0 & lt;
d Hotel & lt; 1;
M gratis (
p


i
) es el conjunto de páginas web que están vinculados a
p



; y
L gratis (
p


j
) es el número de enlaces salientes de
p


j
. Así que una página web
p


i
tendrá un alto rango si está vinculado por muchas otras páginas web de alto rango
p


j
. Para los lectores interesados, la convergencia y el cálculo del PageRank utilizando la fórmula iterativa anteriormente (es decir, la ecuación 1) se ilustran en [33, 34].

En nuestro caso de la utilización de la red de regulación miARN-TF-ARNm de rango una característica, una regulación molecular de muchas de las metas es importante. En nuestra miARN-TF-mRNA de la red, que se denota como
G
(
V
,
E
), los nodos
V ¿Cuáles son las características (miRNAs , TFS y ARNm) y los bordes
e ¿Cuáles son las interacciones entre los reguladores y sus objetivos. La dirección de un borde es de un regulador a su diana. Un importante regulador es análogo a una página importante en PageRank que muchas otras páginas enlazan a, excepto que el regulador tiene muchos enlaces que salen de ella para sus objetivos. Supongamos que hay
N
características {
f

1,
f

2, ...,
f


N
}. La clasificación (importancia reguladora) de una función
f


I
se puede definir de la siguiente manera usando un algoritmo de PageRank modificado: (2) donde
R gratis (
f


i
) y
R gratis (
f


j
) son las clasificaciones de características
f


i
y
f


j
respectivamente, con
f


i

f


j
;
d
es el factor de amortiguación, y 0 & lt;
d Hotel & lt; 1;
T gratis (
f


i
) es el conjunto de objetivos que
f


i
regula ; y
L gratis (
f


j
) es el número de reguladores que regulan
f


j


las secuencias de comandos de Matlab R y de cálculo de la clasificación de la red de regulación de los genes miARN-TF-ARNm característica se proporciona en el archivo S2

Etapa 2:... la integración de la clasificación de función y la variación característica

la expresión variación entre las muestras es un indicador importante para la investigación de los datos genómicos de cáncer. Las características (por ejemplo, genes) con mayores variaciones de expresión se tratan siempre como marcador biológico más importante en los mecanismos de cáncer. Utilizamos la desviación media absoluta (MAD) para representar la variación de la expresión de una característica. El MAD de una característica
f


I
se calcula como: (3) donde
X gratis (
f


i
) es un vector numérico que representa los valores de expresión de función
f


i
en todas las muestras (pacientes).

Para integrar el variación de características con función de clasificación, NCIS [18] sigue la idea de GeneRank [35] simplemente para reemplazar la parte [] en el algoritmo PageRank de Google con el MAD obtener el peso final de una característica. Sin embargo, nos encontramos con que el peso final obtenido de esta manera por tanto GeneRank y NCIS está fuertemente correlacionada con el peso característica calculada directamente con la ecuación 2, es decir, sin el uso de MAD. La fuerte correlación implica que el enfoque adoptado por los dos métodos de integración de MAD no es eficaz como la información variación de expresión no se refleja en el peso final obtenido usando su enfoque. Los resultados detallados de este hallazgo se muestran en el Archivo S3.

Para superar este problema, se adopta un modelo lineal para integrar efectivamente el ranking de características y función de la variación en el presente documento. En primer lugar nos normalizar la función Clasificación obtenida de la red de regulación de los genes miARN-TF-ARNm y la variación de la función de los datos de expresión de la siguiente manera: (4) (5)

Un modelo lineal se aplica entonces a integrar estas dos medidas para llegar el peso final de cada función. (6) donde
β
es un parámetro de ajuste de la importancia de la información de la red de regulación miARN-TF-ARNm. Cuanto mayor sea el valor de
β
es la función más importante de la información de la red de regulación de los genes miARN-TF-ARNm jugará en el cálculo del peso final de las características. En nuestros experimentos, hemos creado
β
de 0,8 a centrarse más en la información de red para el descubrimiento subtipo de cáncer.

ponderado de fusión red similitud

Utilizamos la información característica de peso para ayudar a la identificación de los subtipos de cáncer partir de los datos de expresión de genes miARN datos de expresión génica y. Con este fin, modificamos la fusión red de similitud (SNF) método [11] para incorporar el peso característica obtenida en el paso anterior en el proceso de clasificación subtipo de cáncer.

SNF es un método de procesamiento de datos multi-ómicas que construye una red similitud paciente de fusión mediante la integración de la similitud paciente obtenida a partir de cada uno de los tipos de datos genómicos. SNF calcula la similitud entre los pacientes que utilizan cada tipo de datos único por separado. Las similitudes entre los pacientes de diferentes tipos de datos se integran por un proceso de difusión entre redes para construir la matriz de similitud paciente fusión. Finalmente, se aplica un método de agrupación a la matriz de similitud de fusión paciente a agruparse los pacientes en grupos diferentes, que implican diferentes subtipos de cáncer.

El paso clave de SNF es definir la similitud entre los pacientes, ya que es necesario estratificar pacientes similares en el mismo grupo (subtipo). distancia euclidiana se utiliza en SNF para medir la similitud entre los pacientes en un solo tipo de datos genómica, donde, sin embargo, todas las características se consideran como igualmente importante. Supongamos que hay un conjunto de datos de perfil de expresión (
n
pacientes ×
p
características), entonces la distancia euclídea entre el paciente
S



y paciente
S


j
es: (7) donde y son los valores de expresión de
f


m
en pacientes
S


i
y
S


j
, respectivamente.

modificar la distancia del paciente fórmula de la siguiente tomar el peso de cada característica en consideración: (8)

mediante el uso de la fórmula de la distancia muestras modificadas anteriormente, el método propuesto considera WSNF similitud de dos pacientes basado en no sólo la diferencia global entre los niveles de expresión de todas sus características, sino también la importancia (peso) de cada una de las características. A medida que hacemos uso de la información de los genes miARN-TF-mRNA de la red en el cálculo del peso función y nuestro método trata diferentes características de otra manera, vamos a ver en la Resultados y discusión Sección que WSNF supera significativamente el SNF y los otros métodos comúnmente utilizados para la identificación de subtipos de cáncer.

resultados y Discusión

Conjuntos de datos

En este trabajo, utilizamos el BRCA y GBM conjuntos de datos de Atlas del Genoma del cáncer (TCGA) para nuestros experimentos, incluyendo la génica (ARNm) y TF expresión de datos, los datos de expresión de genes miARN y los datos clínicos (tiempo de supervivencia global, la supervivencia y el estado de algunas covariables clínicos). El nivel 3 muestras tumorales TCGA se descargan desde el amplio GDAC Firehose (fecha y hora: 02/04/2015). Para obtener el mayor número de muestras coincidentes para ambos tipos de cáncer, se utilizan los datos RNASeq y miRNAHiseq para los datos de microarrays y BRCA para GBM.

Los genes y miRNAs con muy bajos niveles de expresión y bajas variaciones entre muestras se retiran. Los diferentes puntos de corte se seleccionan basándose en las características de distribución de los conjuntos de datos y BRCA GBM (véase el Archivo S3). Para los conjuntos de datos y BRCA RNASeq miRNAHiseq, que en primer lugar, usamos el
página 2 log transformación preprocesasen ellos, que se utiliza comúnmente para los datos de secuenciación de ARN-como se introdujo en el
DESeq2
[36] paquete de R . Se calcula el valor medio de cada función a través de muestras y retire el 25% de los genes y el 60% miRNAs con baja expresión de la media. A continuación, también se eliminan la desviación estándar de cada gen y miARN se calcula, y los genes y miRNAs con una desviación estándar de menos de 0,5. Para los datos de microarrays de GBM, hay algunas observaciones que faltan. En primer lugar nos aplicamos la imputación mediante el uso de la etiqueta
imputar
R pacakage [37]. A continuación, se calcula la desviación estándar de cada gen y miARN. Los genes con desviación estándar inferior a 0,6 y los miRNAs con desviación estándar de menos de 0,2 se eliminan. El procedimiento de tratamiento detallado de los conjuntos de datos se registran en el archivo S3. Al final, hay 587 muestras coincidentes en BRCA con 12.233 ARNm, 1.338 TFS y 361 miRNAs. Mientras tanto, para GBM hay 276 muestras coincidentes con los ARNm 10.278, 1.083 y 287 TFS miRNAs (ver el archivo S3).

Red de construcción

Como se ha mencionado en los Materiales y Métodos sección, utilizamos varias bases de datos públicas para la construcción de la red de regulación miARN-TF-ARNm. La Tabla 1 muestra el número de interacciones de las fuentes de datos para la construcción de las redes de regulación para el conjunto de datos BRCA. Información similar para el conjunto de datos GBM está en el Archivo S3.

Los subtipos identificados tienen significativamente diferentes patrones de supervivencia

Con las redes construidas y el BRCA y GBM expresión de datos, identifica cinco WSNF subtipos de cáncer de mama y los tres subtipos de GBM. Los subtipos de cáncer identificados e información clínica relacionada con el cáncer de mama y GBM se dan en el S4 y S5 archivos. Para evaluar la eficacia de nuestro método se ha realizado en la identificación de los subtipos de cáncer, llevamos a cabo el análisis de supervivencia de los subtipos de cáncer identificados. Las figuras 3 y 4 muestran las curvas de supervivencia de los pacientes de los cinco subtipos de BRCA y los tres subtipos de GBM, respectivamente. El
p
-valores de las pruebas de log-rank [38] son ​​0,00483 para BRCA y 0.00279 para GBM. Los valores de p sugieren que los subtipos identificados en ambos conjuntos de datos tienen diferentes patrones de supervivencia significativamente, lo que indica diferentes subtipos de cáncer, respectivamente.


j
,
n


j
,
s


i Hoteles en la trama de la silueta son etiqueta de subtipo, el número de pacientes en el subtipo y la anchura de la silueta por paciente
i
, respectivamente.


j
,
n


j
,
s


i
en la trama de las siluetas se etiqueta subtipo, el número de pacientes en el subtipo y la anchura de la silueta por paciente
i
, respectivamente.

Además, utilizamos la anchura de la silueta [39] y heatmap negro-blanco para demostrar la consistencia de las muestras (pacientes) en cada subtipo y la diferencia a través de diferentes subtipos, respectivamente. Como se muestra en las figuras 3 y 4, los valores globales silueta de ancho promedio son positivos tanto para BRCA y GBM. Tenga en cuenta que el valor de la anchura de la silueta es positiva si las muestras en cada subtipo son consistentes, y negativa de lo contrario. Mientras tanto, los mapas de calor entre blancos y negros se generan a partir de la matriz de similitud muestra disponiendo las muestras según las etiquetas de racimo. Los límites de los bloques para todos los subtipos son muy claras. En particular, el tercer subtipo de BRCA tiene un valor de anchura máxima de la silueta y un claro contraste en el mapa de calor blanco y negro, lo que sugiere características únicas de los pacientes en este subtipo.

La información de la red mejora la identificación de cáncer subtipos

Para investigar si la información de la red de regulación de los genes miARN-TF-mRNA en realidad ayuda a mejorar la identificación de los subtipos de cáncer, se compara el método WSNF con los métodos propuestos anteriormente incluyendo NCIS [18], la agrupación Consenso (CC ) [7], y SNF [11]. NCIS utiliza expresión génica de datos y de la información de las interacciones ARNm-mRNA. CC es el método de agrupamiento de uso común en los trabajos de investigación del TCGA [1, 8, 40-42] sobre la base de un solo tipo de datos genómica. SNF es el método de fusión de datos del genoma y la agrupación múltiple, pero no utiliza la información de las redes reguladoras de genes. Para hacer una comparación justa, de nuestros conjuntos de datos procesados ​​(BRCA & Amp; GBM) y las redes de regulación miARN-TF-mRNA construidos, se utilizan los datos de expresión de genes y el extracto de interacciones ARNm-mRNA como la entrada de las NIC. Se concatena los datos de expresión génica normalizada y los datos de expresión de miRNA normalizados para cada paciente, los datos de entrada de CC. Las entradas del SNF son los datos de expresión génica y de los datos de expresión de genes miARN. Las entradas de nuestro método WSNF son los datos de expresión génica, datos de expresión de genes miARN y las redes de regulación de los genes miARN-TF-mRNA. Llevamos a cabo análisis de la supervivencia de los subtipos identificados por cada uno de los métodos y comparar los
p
-valores de las pruebas de log-rank [38] para evaluar la importancia de las diferentes distribuciones de supervivencia a través de los subtipos.

a partir de la Tabla 2, vemos que tiene WSNF significativamente menor
p-valores
que otros métodos comunes, tanto en el BRCA y conjuntos de datos de GBM. Cuando
β
se establece en 1, el peso de las características está completamente determinada por la red de regulación de los genes miARN-TF-ARNm. Los resultados muestran que el método WSNF es mejor que los otros métodos existentes, lo que sugiere que la información de la red de regulación de los genes miARN-TF-mRNA ayuda a mejorar la identificación de los subtipos. Observamos, además, que el método funciona muy bien en ambos conjuntos de datos cuando
β
es de 0,8 (que es el valor predeterminado que se utiliza para
β
).

subtipos de cáncer de mama mostrar diferentes patrones de expresión

En la sección anterior, hemos demostrado el rendimiento de WSNF utilizando los BRCA y GBM conjuntos de datos. Los resultados sugieren que WSNF es capaz de descubrir subtipos de cáncer con los patrones de supervivencia distintas y nuestro método supera los métodos de identificación de subtipos de cáncer existentes. Investigamos los ARNm, TF y miARN patrones de expresión de los cinco diferentes subtipos de cáncer de mama. Al igual que en [8], se extraen las muestras "núcleo" que se identifican sobre la base de su anchura de la silueta mediante la eliminación de las muestras con valores de anchura de la silueta negativas de cada subtipo. Hay 502 muestras con valores de anchura de la silueta positiva en los cinco subtipos. También obtenemos 69 muestras normales de TCGA para la comparación. Los mapas de calor de ARNm, TF, y la expresión de los genes miARN se muestran en la Figura 5. Teniendo grupo normal como referencia, podemos ver en la figura que los perfiles de expresión entre los subtipos son significativamente diferentes.

Para echar un vistazo más de cerca a los patrones de expresión de genes que caracterizan a cada subtipo, que utilice el
Voom
[43] y el método
Limma
[44] el paquete R para encontrar los genes expresados ​​diferencialmente (ajustado
p
-valor & lt; 0,01) entre cada subtipo y las muestras normales. Seleccionamos las 1500 principales genes expresados ​​diferencialmente en cada subtipo para el análisis. Fig 6 muestra la superposición de los genes expresados ​​diferencialmente a través de los subtipos. Hay 473 genes expresados ​​diferencialmente comunes para todos los subtipos. Mientras tanto, cada subtipo tiene sus genes específicos (subtipo 1: 271, subtipo 2: 82, Subtipo 3: 393, Subtipo 4: 291, Subtipo 5: 157). Los genes comunes a través de los cinco subtipos y los genes específicos de subtipo se enumeran en el archivo S6. Aunque hay algunos genes expresados ​​diferencialmente comunes para todos los subtipos, sus patrones de expresión son bastante diferentes, como se muestra en la figura 7. En este último apartado, llevamos a cabo el análisis de la vía de los genes específicos de cada subtipo para explorar sus características de la función de cada subtipo.


las alteraciones en las redes de regulación a través de los subtipos de cáncer de mama

extraer el gen TF
BCL11A
para mostrar las alteraciones en la red de regulación miARN-TF-ARNm a través de los subtipos de cáncer de mama identificados.
BCL11A
es un proto-oncogén que tiene un efecto significativo sobre el cáncer de mama [45]. Como se muestra en la figura 8,
BCL11A
es altamente expresado en el subtipo 3, pero humilde expresa en otros subtipos. Estamos en el mapa los pacientes en el subtipo 3 a los datos clínicos y encontramos que el 73,5% de los pacientes están en clase triple negativo, incluyendo ER, PR y HER2.

El conocimiento de la salud

El cáncer no es el final: seguir luchando mediante el uso de estos consejos

El cáncer puede ser uno de los más aterrador de los diagnóst

La detección de cáncer Con una colonoscopia y la sigmoidoscopia

El cáncer de colon es la tercera causa de muerte por cáncer

Lo que se puede esperar en un cáncer de piel Screening

1 En general, las personas con piel blanca, pelo rubio o ro

Cómo los doctores prueba para el cáncer de pulmón y nbsp

Si usted es un fumador actual o anterior o es mayor de 55, e

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]