Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: ICan: una red integrada de Co-Alteración identificar ovárico Genes

PLOS ONE: ICan: una red integrada de Co-Alteración identificar ovárico Genes

relacionada con el cáncer
Extracto

Antecedentes

Durante la última década, un número creciente de estudios integradores en la relacionada con el cáncer genes que se han publicado. análisis integradores tienen como objetivo superar la limitación de un único tipo de datos, y proporcionar una visión más completa de la carcinogénesis. La gran mayoría de estos estudios se utilizan datos de la muestra de concordancia de la expresión génica y el número de copias para investigar el impacto del número de copias alteración en la expresión génica, y para predecir y priorizar oncogenes candidatos y genes supresores de tumores. Sin embargo, las correlaciones entre los genes eran desatendidas en estos estudios. Nuestra labor con el fin de evaluar la co-alteración del número de copias, la metilación y de expresión, que nos permite identificar los genes relacionados con el cáncer y módulos funcionales esenciales en el cáncer.

Resultados

Construimos el Co Integrado -Alteración red (ICAN), basado en los datos multi-ómicas, y se analiza la red para descubrir los genes relacionados con el cáncer. Después de la comparación con las redes aleatorias, se identificaron 155 genes relacionados con el cáncer de ovario, incluyendo conocida (
TP53
,
BRCA1
,
RB1 ​​
y
PTEN
) y también nuevos genes relacionados con el cáncer, como
PDPN
y
EphA2
. Se han comparado los resultados con un método convencional: CNAmet, y obtuvimos una significativamente mejor área bajo la curva de valor (ICAN: 0.8179, CNAmet: 0,5183)

Conclusión

En el presente trabajo se describen. un marco para encontrar genes relacionados con el cáncer en base a una red integrada de Co-alteración. Nuestros resultados demostraron que ICan podría identificar con precisión los genes del cáncer candidatos y proporcionar una mayor comprensión mecanicista de la carcinogénesis. Este trabajo sugiere una nueva vía de investigación para el análisis de la red biológica relativa a los datos multi-ómicas

Visto:. Zhou Y, Liu Y, K Li, Zhang R, Qiu M, N Zhao, et al. (2015) ICan: una red integrada de Co-Alteración de identificar los genes del cáncer ovárico relacionados. PLoS ONE 10 (3): e0116095. doi: 10.1371 /journal.pone.0116095

Editor Académico: Lars Kaderali, Universidad Técnica de Dresde, Facultad de Medicina, Alemania |
Recibido: 14 Julio, 2014; Aceptado: 4 de diciembre de 2014; Publicado: 24 Marzo 2015

Derechos de Autor © 2015 Zhou et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Disponibilidad de datos: Todo el cáncer de ovario conjuntos de datos se obtuvieron a partir del Genoma del cáncer de acceso, y están a disposición del público en el sitio web TCGA (https://tcga-data.nci.nih.gov/tcga/)

Financiación:. Este trabajo fue apoyado en parte por la Fundación Nacional de Ciencias Naturales de China (subvención Nº 81.372.492), y en parte por el Fondo de Investigación Científica del Departamento de Educación Provincial de Heilongjiang (No.12541278) y la Fundación de Ciencias Naturales de la provincia de Heilongjiang (Grant No. D201116). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción

Con el rápido desarrollo de las tecnologías de alto rendimiento, bases de datos como el proyecto del Genoma del cáncer Atlas (TCGA) [1] y la línea celular de cáncer Enciclopedia (CCLE) [2] han proporcionado muchos perfiles moleculares de alta resolución de las mismas muestras de cáncer, que implican la expresión de genes, copia los datos de expresión de genes miARN número, metilación y. Estos análisis de conjuntos de datos permitido integrador centrado en la identificación de genes relacionados con el cáncer. tumorigénesis humana y la progresión son impulsados ​​por la función aberrante de genes que regulan aspectos de la proliferación celular, la apoptosis, la estabilidad del genoma, la angiogénesis, la invasión y la metástasis [3]. Un reto importante es identificar los genes relacionados con el cáncer, especialmente los que juegan un papel importante en la iniciación y el desarrollo de cáncer. La identificación de tales genes contribuirá a un mayor desarrollo de la medicina personalizada [4].

Durante la última década, se han propuesto varias metodologías para la integración de la expresión génica y copiar los datos numéricos. Estos métodos se pueden dividir en dos categorías: la integración gradual y metodologías conjuntas [3]. . Por ejemplo, Akavia et al [5] desarrolló la teoría "huella genómica", donde se extrajeron los genes conductor por un método basado en una red bayesiana; sin embargo, se olvidaron la correlación entre los genes que son alterados de manera simultánea en múltiples niveles. Bicciato et al. [6] desarrolló un método por pasos llama La superposición significativa de diferencialmente expresadas y genómicas desequilibradas Regiones (SODEGIR) para identificar regiones genómicas discretas con alteraciones y cambios en los niveles de transcripción número de copias coordinadas. Salari et al. [7] desarrolló un paquete de R llamado DRI para identificar los ARNm con el número de copias concordantes con relación expresión. También ha habido planteamientos integradores basados ​​en el análisis de correlación canónica que tenían como objetivo cuantificar la asociación entre el número de copias y la expresión [8, 9]. En general, tales métodos representa un procedimiento de la bioinformática para el análisis basado integrador, con posiciones de genes de los datos CN y GE que permite la identificación de regiones cromosómicas discretas o genes de las alteraciones del número de copias coordinadas y cambios en los niveles de transcripción. Además de estos métodos, Louhimo et al. [10] realizó un análisis de integración de número de copia, los datos de metilación del ADN y la expresión de genes, utilizando CNAmet, para identificar genes que son coordinadamente amplificadas, hipometiladas y upregulated, o coordinadamente eliminados, hypermethylated y downregulated . Aunque su trabajo integra múltiples tipos de datos, se encontró que sólo estaban enfocados en las regiones o los genes con alteraciones concomitantes CN /GE. y no investigar la relación directa o indirecta entre genes alterados.

Sin embargo, las funciones celulares rara vez son determinados por un solo gen, sino más bien por muchos genes combinados en forma de redes o clusters. Más de un gen se altera en la progresión del cáncer, siguieron distintos patrones de interrupción, y cooperaron para contribuir al fenotipo del tumor [11]. Por ejemplo, un estudio reciente mostró que RSF1 regula genes implicados en la evasión de la apoptosis (
CFLAR
,
XIAP
,
BCL2
y
Bcl2l1
) y regula un gen inflamatorio (
PTGS2
) [12]. Además, los estudios han observado que las alteraciones en el cáncer tienden a ocurrir en los módulos y las comunidades [13] estrechamente relacionadas. Por lo tanto, las correlaciones a través de múltiples niveles deben tenerse en cuenta seriamente. Los estudios mencionados anteriormente no dan importancia a las correlaciones entre genes. Algunos otros estudios han considerado estas correlaciones en los diferentes niveles; sin embargo, los mecanismos de activación /supresión de tumores revelaron estaban limitados a un solo nivel. No tuvieron en cuenta exhaustivamente la contribución al desarrollo del cáncer y de las características genómicas epigenómicos. Sólo se investigaron una fuerza impulsora de un gen en un solo nivel para la progresión del cáncer. Por ejemplo, la co-expresión es el tipo más común de correlación. En 2005, Sean y col. [14] descubrieron la relación entre la co-expresión de alto nivel de
JAG1
y
NOTCH1
y el mal pronóstico del cáncer de mama. Por otra parte, la influencia de los compañeros de mutaciones entre los genes también se estudió en relación con la enfermedad. . En 2010, yunyan et al [15] examinó la relación funcional entre los genes co-mutado; sus resultados proporcionan nuevos conocimientos sobre los mecanismos de coordinación de complicados procesos moleculares. Recientemente, para aumentar la precisión de la detección de genes candidatos, algunos investigadores también incluyen datos de la expresión de mRNA y proteína interacciones. Bashashati et al. [16] desarrolló el algoritmo DriverNet, que se basa en la interacción de genes, e identificaron mutaciones del conductor candidato raras que puedan interrumpir las redes de transcripción. A pesar de estos esfuerzos, todavía hay margen de mejora. Integración de datos multi-ómicas nos ayudará a desarrollar modelos in silico que están más cerca de la realidad, lo que mejora la precisión de la identificación de genes relacionados con el cáncer, y proporcionar una comprensión más completa de la patología molecular del cáncer
.
En este estudio, se propone un marco para la construcción de una red integrada de Co-alteración (ICAN). Hemos integrado información de la interacción proteína-proteína y los datos apareados de número de copias, la metilación del ADN y la expresión génica en 574 muestras de ovario. Se utilizó el análisis de correlación canónica (CCA) para analizar las correlaciones entre los niveles de genómica, transcriptómica y epigenéticos, que es la base de nuestra red. En particular, nuestro enfoque no sólo puede identificar pares de genes que son co-alterados en un mismo nivel, sino también los pares de genes con múltiples niveles de co-alteración. Hemos encontrado que
chek1
,
IGF1R
,
Isg15
,
MSH3
y
Podxl
fueron co-alterado en el número de copias , de expresión y de metilación niveles al mismo tiempo. Una red de co-alteración de genes puede evaluar de manera efectiva la fuerza de una asociación entre los genes en múltiples niveles. Los genes de cubo en esta red sugieren interacciones intracelulares y funciones complejas. a continuación, se realizó un análisis funcional y el análisis de supervivencia para validar los genes relacionados con el cáncer candidatos identificados por caminar al azar. Después de correlaciones múltiples pruebas, que finalmente obtuvimos 17 alteraciones genéticas con valor pronóstico.

El método de análisis de correlación canónica se utiliza generalmente para analizar el grado de correlación entre dos grupos de variables. A diferencia del coeficiente de correlación de Pearson, CCA puede revelar de manera efectiva la dependencia lineal de dos grupos de variables para que pudiéramos medir la correlación de los genes de utilización de múltiples funciones. Se comparó la red de co-alteración con la red de un solo factor de correlación (red de co-expresión, co-CNA red, red de co-metilación) desde la perspectiva de los módulos, y encontramos los módulos del método de integración fueron más compacto y más significativa (p-valor = 2.2e-16). El análisis funcional de enriquecimiento de los genes en los módulos mostró que fueron enriquecidos para ciertas funciones, incluyendo la apoptosis celular, ciclo celular y cáncer de las vías.

En la investigación de los genes relacionados con el cáncer y sus interrelaciones, nuestro trabajo proporcionará una valiosa base teórica a nivel de sistema para el diagnóstico, el tratamiento y el diseño de fármacos en el campo de la bioinformática. Nuestro trabajo pone de relieve la importancia de la integración sistemática, y proporciona a los investigadores clínicos con una nueva comprensión de los mecanismos moleculares de la tumorigénesis y progresión.

Materiales y Métodos

Datos

El Nivel 3 el conjunto de datos de la expresión génica, número de copias y la metilación del ADN para el mismo conjunto de muestras de cáncer de ovario (Tabla 1) se obtuvieron de la página web TCGA a disposición del público (https://tcga-data.nci.nih.gov/tcga/). Gistic2.0 se utilizó para analizar el conjunto de datos de número de copias (Nivel 3) para la identificación de regiones recurrentes de número de copia alteración y el número de copias de genes. Los valores beta de la metilación del ADN son continuas, que van desde 0 (no metilado) a 1 (completamente metilado). Los ID de sonda fueron asignadas a Gene símbolos con la mesa de anotación para la plataforma Illumina Humano-Methylation27, que detecta el nivel de metilación de CpG 27.578 loci situados dentro de las regiones promotoras proximales de los sitios de inicio de transcripción de 14.495 genes. Si hubo múltiples sondas correspondientes a los mismos genes, adoptamos la intensidad promedio de estas sondas como el valor beta del gen y retiramos las sondas sin valor o el gen correspondiente. Se seleccionó una cercana K-método basado en el vecino que imputar los valores que faltan en los perfiles de expresión de genes, el cual fue implementado por un paquete de R (imputar). Además, hemos añadido una lista de las muestras en el material complementario (véase la Tabla S1).

Para integrar HPRD [17], Reactome [18], mapa Cancer Cell MSKCC, y el Instituto Nacional del Cáncer /naturaleza Camino Interacción base de datos [19], los datos de interacción Camino y los datos de interacción proteína-proteína se utilizaron para establecer la red inicial. conjuntos de datos vía para Reactome, la Base de Datos de Interacción NCI /Naturaleza Camino, y la célula de cáncer MSKCC Mapa fueron descargados en el formato de interacción simple formato (SIF) de la vía de los Comunes, los datos de interacción proteína-proteína ha sido descargado de HPRD. La Red de fondo Humano (HBN) fue el conjunto unificado de los cuatro conjunto de datos. Al mismo tiempo, los bordes redundantes y el borde conectado consigo mismo fueron retirados (Tabla 2).

El HBN construimos consiste en los genes y las interacciones en las formas de nodos y bordes. La interacción reflejan las asociaciones funcionales entre dos genes, tales como una interacción física, o una interacción indirecta a través de la vía común.

Hemos adquirido 973 genes de semillas (S2 Tabla) de cuatro cáncer- bien establecida y disease- bases de datos de genes relacionados: cósmicos [20], el TAG [21], OMIM [22] y phenopedia [23]. genes de semillas cáncer de ovario se definieron como oncogenes conocidos o genes supresores de tumores asociados con el cáncer en las bases de datos bien conocidas. El flujo de trabajo de nuestro enfoque se representa en la Fig. 1 y se proporcionan más detalles en la siguiente sección.

análisis de la diferencia de los genes en un solo nivel

Gistic2.0 [24] se utilizó para analizar el conjunto de datos de número de copias para identificar regiones recurrentes de número de copia alteración y el número de copias de genes. Se identificaron una serie de eventos recurrentes focal número de copias alteración somática (SCNA), incluyendo 55 amplificaciones importantes y 48 picos de deleción. El SAM [25] algoritmo se aplicó a dos grupos de muestras de ovario (tumor /normal) a identificar los genes expresados ​​diferencialmente: se identificaron 549 genes altamente expresados ​​y 805 genes bajos expresó que son expresados ​​diferencialmente en el cáncer (doble cambio & gt; = 2 y la tasa de falso descubrimiento (FDR) & lt; 0,05). Para los datos de la metilación del ADN, se identificaron altamente significativa (FDR & lt; 0,005) genes diferencialmente metilados en muestras de tumores en comparación con las muestras normales utilizando el test de Mann-Whitney-Wilcoxon, incluyendo 1445 genes hypermethylated y 1219 hypomethylated genes

La construcción. de la red de co-alteración y el rendimiento de comparación integrado

Para utilizar simultáneamente múltiples funciones de los genes y establecer la correlación entre los genes en el genoma, epigenoma y el nivel de transcriptoma, se diseñó un marco basado en la CCA, un método estadístico utilizado para analizar el grado de correlación entre dos conjuntos de variables aleatorias. CCA puede convertir la correlación ordinaria entre dos variables en la correlación canónica entre dos conjuntos de variables. El propósito de la CCA es la búsqueda de la maximización de la correlación entre dos combinaciones lineales de las variables [26, 27]

En este trabajo, las características de los genes fueron vistos como variables aleatorias.; . La posibilidad de dos genes que son co-alterado en todos los niveles a continuación, se midió mediante el siguiente procedimiento

define dos genes: g
1, g
2. Supongamos que
G
1 = [g
1
(1), g
1
(2) ..., g
1
(p)]
T
,
g
2 = [g
2
(1), g
2
(2) ..., g
2
(p)]
T
, y los dos vectores consisten en
p
tipos de información de g
1 y g
2. En este estudio, nos propusimos
p = 3
.Tomar
G


1 | por ejemplo:
g


(1)
denota los valores de expresión de G1 en las muestras,
g


1 |

(2)
denota los valores de número de copias de G1 en las muestras, y
g


1 |

(3)
denota los valores de metilación de G1 en las muestras. Del mismo modo, podemos definir
G


2
.

Vamos, España
A continuación, la matriz de covarianza se define como :, en la que cada elemento se calcula por la fórmula (1). gratis (1)
utilizamos la correlación de la combinación lineal de los vectores (es decir, un
TG
1, b
TG
2) para medir la relación lineal entre G
1 y G
2.

la construcción de ICan se llevó a cabo mediante la búsqueda del coeficiente de correlación máxima entre los
T = a


T

G


1 | y
V = b


T

G


2 gratis (2)
las soluciones al problema de optimización (2) satisface las condiciones:
Var (a
TG
1) = 1, Var (b
TG
2) = 1 |.

Nuestro propósito era buscar el más adecuado
a
y
b
tal que
corr gratis (U, V) fue el más grande. El primer par de combinaciones lineales se llama el primer par de variables canónicas; su correlación más grande
ρ gratis (T
1, V
1) se llamaba la primera correlación canónica. A continuación, si existe
a


k
y
b


k
de tal manera que las siguientes condiciones se satisfacen:
estaba correlacionado con un principio K-1 de los pares de variables canónicas;.



el coeficiente de correlación entre y es el mayor
fueron llamados el primer par de variables canónicas K y
ρ (T
k, V
k)
se llama la primera correlación canónica K. En este estudio, nos propusimos K = 3. La matriz cociente de Rayleigh :.

El primer coeficiente de correlación es igual a la raíz cuadrada del valor propio más grande
λ


1 Red de la matriz R. del mismo modo, el primer coeficiente de correlación K es igual a la raíz cuadrada del valor propio más grande
λ


k Red de la matriz
R
. Después de eso, el coeficiente de correlación lineal (
ρ

1,
ρ

2
ρ

3) se calculó entre cada par de genes en el conjunto de datos

correlación canónica es una extensión de correlación ordinaria.; se puede medir la correlación entre dos conjuntos de variables [28]. En comparación con el uso de un único tipo de datos, mostró una mayor precisión en la cuantificación de las relaciones lineales entre genes utilizando sus características diferentes [29]. A continuación, similar a trabajos anteriores [29], se utilizó la prueba de chi-cuadrado para medir si el coeficiente de correlación canónica (
ρ

1,
ρ

2
ρ

3) [30] fue significativa

La hipótesis nula es H
0:.
λ


k
= ... =
λ


p = 0


Vamos P
k el
p-valor
del K-ésimo estadística de prueba
T


k
, con :, y
T


k
~ [29], donde
n
es el número de muestras. Por último, se utilizó una combinación de pesos (3) para asignar un peso a los bordes de la conexión de dos genes, (3) Cuando

El peso final,
ω
, representa la correlación entre los genes más precisamente.
ω
medidas la posibilidad de dos genes que se co-alterada en el nivel del número de copias, la metilación del ADN y la expresión génica. A continuación, le asigna el peso a la HBN y construyó la red de co-alteración integrada denomina ICan. El método puede medir la fuerza de la asociación entre los genes en múltiples niveles. En este trabajo se implementó la prueba de significación estadística método y chi-cuadrado-basada CCA por la biblioteca "CCA" y "prueba de Chi-cuadrado" en el software estadístico R.

Mientras tanto, se calculó el coeficiente de correlación de Pearson de los perfiles de expresión (perfiles de número de copias y los perfiles de metilación) entre cada par de genes y establecido una red co-expresión (CME), una red co-número de copias (GCC) y una red co-metilación (GCM). Este proceso también fue implementado en el software estadístico R. Para reflejar mejor el rendimiento de nuestra red, se compararon ICan y CNAmet, y entre tres redes de datos individuales.

La identificación de genes candidatos relacionados con el cáncer de ovario

paseo aleatorio con Reinicia [31] es una algoritmo de clasificación. Se simula el proceso de caminar paso a paso desde los nodos de semillas para dirigir nodos vecinos; los nodos de la red se clasifican por las probabilidades de alcanzar el nodo. Suponiendo
W
es la matriz de adyacencia de la ICan y
P

t es un vector cuya i-ésimo elemento mantiene la probabilidad de llegar al nodo
i Restaurant at paso
t
, el paseo aleatorio se calcula gratis (4)
la distribución de los valores de los nodos de semillas en el vector de probabilidad inicial
P

0 se estableció como uniforme, con la suma de las probabilidades iguales a 1;
r
representa la probabilidad de que reinicie en los nodos de semillas, que se fijó en 0,7. Después de N pasos, esta probabilidad va a llegar a un estado estacionario, el cual fue determinado por la diferencia entre
P

t y
P

t + 1. Se realizó la iteración hasta que la norma L1 entre ellos cayó por debajo de 1E-10. Se calculó el Walk aleatoria con reinicia probabilidad para todos los genes en la red. A continuación, analizó la alteración diferencial de los 20% de los genes en los distintos niveles.

de Kaplan-Meier análisis de supervivencia para los genes relacionados con el cáncer candidatos

Se aplicó un no paramétrico de Kaplan-Meier estimador para estimar la influencia de diferentes factores en el tiempo de supervivencia. En este trabajo, para explorar el posible valor pronóstico de los genes candidatos identificados, se utilizó el paquete de "supervivencia" en el
R
software de estadísticas. Un
p-valor
& lt; 0,05 y un FDR & lt; 0,25 fueron utilizados como puntos de corte para la significación estadística mediante la prueba de log-rank.

Se investigó la alteración de cada gen en las muestras, y Discretized los tres conjuntos de datos de acuerdo a las características de los oncogenes y genes supresores de tumores, es decir, , amplificación, sobreexpresión, hipometilación; y lo contrario: la eliminación, bajo la expresión y la hipermetilación, respectivamente. Para los datos de número de copias, adoptamos los resultados de GISTIC2.0 número de copias discreta llama. Las muestras se clasificaron como gen deleción homocigota (-2) o amplificación (1/2). Para los datos de expresión génica, se calculó el valor medio y la desviación estándar (SD) para cada gen: los valores que eran más altos que la media ± SD se consideraron sobreexpresión. Por el contrario, los valores que eran más bajos que la media-SD se consideraron baja expresión. Para los datos de la metilación del ADN, nos fijamos el umbral basado en el análisis empírico de las distribuciones de valores de beta: un valor beta inferior a 0,2 se consideró como hipometilación; un valor mayor que 0,8 se consideró como la hipermetilación.

La identificación de los módulos funcionales para ICan

Se identificaron los módulos funcionales de ICan y construido tres redes de un solo nivel usando MCODE [32]. El uso de MCODE se prefiere para una comparación más fácil de ICan y las tres redes de un solo factor, ya que los mismos módulos fueron identificados a partir de la red no ponderado. El procedimiento borde de ponderación se realizó por separado para cada red, y se calcularon las puntuaciones M de cada módulo de acuerdo con una fórmula de puntuación (véase la Tabla S4 archivo adicional para más detalles). Un análisis funcional de enriquecimiento se realizó en el conjunto de genes relacionados con el cáncer y los genes candidatos dentro del módulo utilizando la herramienta DAVID [33] (http://david.abcc.ncifcrf.gov/).

Resultados

ICan tiene las propiedades de las redes complejas

La red de co-integrada alteración se representa como un grafo ponderado no dirigida, donde los nodos representan los genes y las aristas que conectan los nodos representan las correlaciones de co-alteración entre los genes . En primer lugar, haciendo uso de los datos de interacción humana y el conocimiento vía, establecimos un HBN que comprendía 9.195 nodos y 65,720 bordes.

En 574 muestras de tumores de cáncer de ovario, hay 11.384 genes que están presentes en los tres perfiles de copia número, la metilación del promotor y la expresión génica. De acuerdo con la CCA, que a continuación se calculó el peso entre cada dos genes para medir su correlación lineal por las tres características. A continuación, los bordes de la red se asignan pesos y se eliminaron los genes que no están contenidos en los perfiles moleculares. Con el tiempo, hemos construido ICan, que comprendía 6.345 nodos y 40,125 bordes. Cuanto más cerca
ω
es 1, mayor es la correlación entre los dos genes. Además, se utilizó el coeficiente de correlación de Pearson para los niveles de expresión de los genes, el número de copias, y la metilación del ADN para construir tres mismas redes de tamaño.

Topología de red juega un papel importante en las funciones biológicas y la transmisión de información en el red. Después de analizar las propiedades de la topología de la red, encontramos que ICan mostró una estructura libre de escala, con una distribución de ley potencial de grados de los nodos. Esto significa que ICan incluye sólo un pequeño número de nodos cuyo grado es alto, lo que sugiere la importancia de los nodos centrales. A continuación se aplica el método de pasos aleatoria ponderada para identificar nodos hub. Este método puede optimizar con eficacia genes candidatos enfermedad y predecir con precisión candidatos principales genes de cáncer.

ICan mejora la exactitud de dar prioridad a los genes relacionados con el cáncer candidatos

ICan contiene 604 genes relacionados con el cáncer de ovario conocidos, los cuales fueron utilizados como el estándar de oro para trazar curvas características del operador receptor, y para calcular el área bajo la curva (AUC). Sobre la base de cinco veces la validación cruzada, se seleccionaron 80% de los genes como los genes de semillas; el 20% restante se reservó para su validación final. Para demostrar la exactitud de nuestro método, utilizando el mismo conjunto de datos, se aplicó el método para predecir CNAmet oncogenes y genes supresores de tumores, y se compararon los resultados con los resultados ICan. Como resultado, el valor de AUC de CNAmet fue significativamente menor que el valor AUC de ICan (ICAN: el Max AUC = 0,8179; CNAmet: AUC = 0,5183, p-valor = 3.158e-14, las dos primeras hojas en S5 Tabla) (Figura 2). La importancia de la diferencia de las AUC por dos curvas ROC se determinó mediante la prueba de DeLong en el "paquete Proc" [34].

Negro línea representa ICan, rojo línea de puntos representa CNAmet. El eje horizontal es la tasa de falsos positivos, el eje vertical es la verdadera tasa positiva.

Para predecir con mayor precisión los genes relacionados con el cáncer en cáncer de ovario, se utilizó un método de caminar al azar ponderado para calcular la proximidad entre otros nodos y los genes de semillas para determinar correlaciones con oncogenes. Este método se refiere a menudo como el principio de "culpabilidad por asociación directa", por el cual los genes que están asociados con genes de la enfermedad tienden a tener funciones similares. Elegimos al azar genes en ICan como genes de semillas, y los comparó con los resultados originales. Este proceso se repitió 1000 veces; un ajustado
p-valor
por debajo de 0,05 fue considerado significativo para los genes relacionados con el cáncer. Por otra parte, se comparó la diferencia en el grado [35] y la longitud de genes entre los genes candidatos y los demás genes. La investigación reciente ha demostrado que una mayor longitud de genes a menudo resulta en más dominios en las proteínas traducidas, lo que conduce a una mayor interactividad, lo que significa una mayor posibilidad de ser el gen gen del cáncer [36]. Los resultados mostraron que no sólo hubo diferencias significativas en la longitud de genes de los genes relacionados con el cáncer candidatos en comparación con los otros genes (
p-valor =
2.64E-02, Fig. 3, Tabla S6), pero también los resultados fueron similares en términos de grado de genes (
p-valor =
6.176E-07).

en la Fig. 3 (a), de color verde claro representa genes candidatos, gris representa los otros genes en ICan, y el eje vertical representa el grado de genes. En la Fig. 3 (b), de color verde claro representa genes candidatos, gris representa los otros genes en ICan, y el eje vertical representa la longitud de los genes.

Finalmente, se identificaron 155 genes relacionados con el cáncer candidatos (S7 Table), y se analizaron los eventos co-alteración de estos genes en detalle. Chek1, IGF1R y MSH3 fueron co-alterado en común en los tres niveles; Chek1, IGF1R, MSH3 y FANCA fueron co-alterado en el número de copias y la expresión de los niveles; y chek1, FGF18, IGF1R, IGFBP1, IGFBP2, MSH3, Plau, RAD51 y EIF2AK2 fueron co-alterados a nivel de la metilación del ADN y la expresión.

chek1, FANCA y RAD51 están involucrados en la inspección de los puntos de interrupción en la regulación del ciclo celular y el proceso de reparación, y juegan un papel importante tanto en la vía de señalización de p53 o de la vía de señalización MAPK. La vía de señalización MAPK es una ruta importante de cáncer; activación de esta vía puede promover la proliferación de células endoteliales y la angiogénesis. Los vasos sanguíneos recién generadas podrían proporcionar más nutrientes a las células tumorales, lo que acelera el crecimiento del tumor y promover la proliferación de las células del cáncer [37]. MSH3 y IGF1R tienen un papel importante en la replicación del ADN, la recombinación y reparación. La deficiencia de reparación de genes, especialmente la pérdida de expresión de los siete genes principales (MSH2, MSH3, MSH6, MLH1, Mlh3, PMS1 y PMS2), puede aumentar el riesgo de cáncer de ovario [38].

Además, analizamos la proporción diferencial de los mejores 20% de genes en ICan por caminar al azar. Higo. La figura 4 muestra que la proporción de metilación diferencial era el más alto de cada barra entre los top 100; Sin embargo, sólo dos genes tienen cambios diferenciales simultáneas en los tres niveles. El número de genes con un solo tipo de alteración (CNA, la metilación diferencial o la expresión diferencial) fueron 13, 19 y 18, respectivamente. Se encontró que el número de genes que se han alterado diferencialmente en múltiples niveles tendía a estabilizarse después de la parte superior 600, lo que indica que la probabilidad de estos genes es mucho mayor, lo que sugiere una relación más estrecha con los genes de semillas conocidos.

TOP seleccionado gen 20% en ICan de paseo aleatorio, cada barra representa el número de genes de alteración diferencial. GE representa los genes que sólo se fueron expresadas diferencialmente en muestras de tumores, de manera similar, CN representa la alteración del número de copias de genes; DM representa la metilación del ADN; GD representa la expresión génica y la metilación del ADN; GC representa la expresión génica y el número de copias; CD representa el número de copias y la metilación del ADN; GCD representa los genes alterados en tres características.

La alteración de un gen en un solo nivel representado una serie de anomalías copia, la expresión diferencial o metilación diferencial, respectivamente (Tabla S3, hoja 1-3).

nuevos genes relacionados con el cáncer de cáncer de ovario puede afectar a la supervivencia

para estimar el impacto de los genes candidatos en la supervivencia del paciente, y buscar las características genómicas genómicas y epigenéticos relacionados con el pronóstico de los pacientes, se aplicó análisis de supervivencia para estimar la contribución de 6 características para cada uno de los 155 genes (930 características Superficie) en el tiempo de supervivencia. Se identificaron seis factores de riesgo oncogénico significativas y 11 factores supresores de tumor significativos (S8 tabla).

Curiosamente, el impacto de las deleciones homocigóticas de los genes candidatos en la supervivencia no fue significativa. Especulamos que podría ser el resultado de la heterogeneidad de las muestras tumorales. A pesar de la alta expresión de PDPN no tuvo un impacto particularmente significativo en mal pronóstico (
p-valor =
7.80E-04, FDR = 0,12, Fig. 5). Las células de cáncer con expresión de alto PDPN tienen mayor potencial maligno debido a la agregación de plaquetas mejorada, que promueve la alteración de la motilidad celular, la metástasis y epitelio-mesenquimal transición [39]. Estudios anteriores han demostrado que la sobreexpresión de PDPN en los fibroblastos se correlaciona significativamente con un mal pronóstico en el carcinoma de ovario [40].

En el panel de la izquierda, la línea roja representa las muestras con PDPN de alta expresión y la línea verde

El conocimiento de la salud

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]