Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: Personalized Camino de Enriquecimiento Mapa de genes cancerígenos putativos de Next Generation Sequencing datos

PLOS ONE: Personalized Camino de Enriquecimiento Mapa de genes cancerígenos putativos de Next Generation Sequencing datos


Extracto

Antecedentes

Pathway análisis de un conjunto de genes representa un área importante en gran escala
OMIC
análisis de datos. Sin embargo, la aplicación de métodos tradicionales vía de enriquecimiento a la secuenciación de próxima generación (NGS) de datos es propenso a varios sesgos potenciales, incluyendo factores genómicos /genética (por ejemplo, la enfermedad y la longitud de genes particulares) y factores ambientales (por ejemplo, el estilo de vida personal y la frecuencia y la dosis de exposición a mutágenos). Por lo tanto, se necesitan urgentemente nuevos métodos para estos nuevos tipos de datos, especialmente para los datos del genoma individuales específicos.

Metodología

En este estudio, se propone un nuevo método para el análisis de la vía de NGS mutación los datos tomando en cuenta explícitamente la tasa de mutación de genes se refiere. Se estimó la tasa de mutación de genes etapas, basada en la tasa de mutación de fondo específica de cada individuo junto con la longitud de genes. Tomando la tasa de mutación como un peso para cada gen, nuestra estrategia de remuestreo ponderado construye la distribución nula para cada vía, mientras que coincida con los patrones de longitud de genes. El
valor de p
empírico obtenido a continuación, proporciona una evaluación estadística ajustada.

Principales conclusiones /Conclusiones

Hemos demostrado nuestro método de remuestreo ponderado con un conjunto de datos de los adenocarcinomas de pulmón y un conjunto de datos de glioblastoma, y en comparación con otros métodos ampliamente aplicadas. Mediante el ajuste de manera explícita gen de longitud, el método de remuestreo ponderado funciona tan bien como los métodos estándar para vías significativas con evidencia fuerte. Es importante destacar que este método podría rechazar eficazmente muchas vías marginalmente significativos detectados por métodos estándar, incluyendo varias vías, no relacionada con el cáncer basados ​​en el gen de longitud. Además, demostró que mediante la reducción de estos sesgos, la diafonía vía para cada mapa co-mutación individual y la vía a través de múltiples individuos puede ser objetivamente explorado y evaluado. Este método lleva a cabo análisis de vías, de una manera muestra centrada, y proporciona una forma alternativa para un análisis preciso de los genomas del cáncer-personalizado. Se puede extender a otros tipos de datos genómicos (genotipado y metilación) que tienen problemas de sesgo similares

Visto:. Jia P, Zhao Z (2012) Camino de Enriquecimiento personalizada Mapa de genes cancerígenos putativos de Next Generation Sequencing Datos . PLoS ONE 7 (5): e37595. doi: 10.1371 /journal.pone.0037595

Editor: Steve Horvath, de la Universidad de California en Los Angeles, Estados Unidos de América

Recibido: Diciembre 21, 2011; Aceptado: April 25, 2012; Publicado: 18 May, 2012

Derechos de Autor © 2012 Jia, Zhao. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Financiación:. Este trabajo fue parcialmente apoyado por becas de los Institutos nacionales de Salud, el Premio al Investigador 2009 NARSAD Maltz a ZZ, y el Premio al Investigador joven 2010 NARSAD al PJ. Sin financiación externa adicional fue recibida para este estudio. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:. Los autores han leído la política de la revista y tienen los siguientes conflictos: el Dr. Zhao Zhongming actualmente se desempeña como editor de PLoS ONE. Esto no altera la adhesión de los autores a todas las políticas de PLoS ONE en los datos y materiales de uso compartido.

Introducción

En los estudios de secuenciación a gran escala de los genomas del cáncer, uno de los desafíos centrales es distinguir mutaciones causantes de enfermedad "conductor" de mutaciones "pasajeros", y permitir el desarrollo de la terapia dirigida y la medicación. Mientras que los métodos estadísticos han estado en desarrollo activo para probar los acontecimientos de mutación a nivel del gen, la ocurrencia combinatoria de muchos genes muestra patrones distinguibles. Algunos ejemplos bien estudiados incluyen mutaciones mutuamente excluyentes, como
EGFR
y
KRAS Hoteles en el cáncer de pulmón [1], y
TP53
y
Hoteles en MDM2 glioblastoma. La mayoría de estas mutaciones se observaron con frecuencia en ciertas vías enfocadas, por ejemplo, cuatro genes de la vía de señalización del EGFR-RAS-RAF,
EGFR
,
KRAS
,
HER2
, y
BRAF
, se comportan de una manera exclusiva mutua en el cáncer de pulmón [1], [2]. Además, los más recientes hallazgos del Genoma del Cáncer Atlas (TCGA) proyectos sugiere fuertemente la convergencia de las mutaciones a nivel de vía (por ejemplo, tres vías clave en el glioblastoma, [3]). Estas observaciones promovieron un consenso emergente de que los genes conductor podría ser analizados a nivel de vía e inducir la interpretación funcional más sencillo.

el rápido avance de las tecnologías de secuenciación de próxima generación (NGS) ha hecho posible secuenciar genomas individuales de una manera oportuna y rentable. Por ejemplo, la secuenciación del genoma puede proporcionar un espectro completo de las mutaciones genéticas, incluyendo las variantes de nucleótido único (SNVS), inserciones /deleciones cortas (indeles), variaciones del número de copias (CNV), y variantes de estructura. Hasta ahora, muchos genomas de cáncer individuales han sido secuenciados con éxito [4], [5], [6], e incluso se espera que más en el futuro cercano. Estas aplicaciones proporcionan valiosos datos de secuenciación de genomas individuales y hacen posible la realización de análisis de la muestra de una manera centrada, acelerando en gran medida nuestros pasos hacia el diagnóstico y la medicación personalizada.

En este trabajo, que tuvo como objetivo realizar una pathway- prueba de enriquecimiento de un grupo de genes del cáncer putativos detectados en pacientes individuales. En contraste con la mayoría de los tipos de datos tradicionales, los datos de secuenciación personalizada normalmente se complica por las siguientes características: (1) los genes mutados están relacionados con un individuo y es probable que se diferencian a través de múltiples individuos; (2) los genes mutados se producen a una tasa de mutación de fondo individuales específicos, que podrían ser objeto de estilo de vida personal, la frecuencia y la dosis de exposición a mutágenos, y la enfermedad particular; y (3) los genes mutados se atribuyen a la longitud de genes bajo el supuesto de que las mutaciones se producen de manera uniforme a través de todo el genoma. Debido a estos desafíos, los métodos que han sido bien estudiado y aplicado ampliamente en los análisis conjunto de genes estándar no son directamente aplicables. Por ejemplo, una prueba funcional de enriquecimiento es una forma importante para explorar las funciones biológicas para obtener una lista de genes de interés. Tradicionalmente, los genes de interés se derivan a través de estudios de un grupo de muestras, por ejemplo, (DE) genes expresados ​​diferencialmente derivados del diseño de la caja /control y pruebas estadísticas estándar, tales como la prueba hipergeométrica o la prueba exacta de Fisher se pueden realizar para comprobar si un conjunto de genes (por ejemplo, vía o grupo funcional) es considerablemente enriquecido con genes dE. En particular, una suposición común que subyace en estas pruebas es que todos los genes (que corresponden a las bolas en una urna) tienen la misma probabilidad de ser seleccionado. Sin embargo, cuando se aplica a los datos de NGS, la unidad de mutación es ADN genómico, por ejemplo, SNVS o pequeñas inserciones /supresiones (indeles), y se asume que ocurre de manera uniforme en todo el genoma. Por el contrario, la unidad de análisis de una prueba de vía de enriquecimiento es de genes. Un sesgo observado frecuentemente en el proceso de correlación de SNVS o indeles a genes es que los genes largos tienden a albergar más mutaciones, ya que ocupan partes más grandes del genoma, y ​​por lo tanto, los genes largos tienden a tener mayor oportunidad de ser mutado. Por lo tanto, la prueba hipergeométrica estándar o la prueba exacta de Fisher ya no es aplicable a tales tipos de datos.

El efecto del gen ha sido reconocida en la mutación de datos NGS. En la obra reciente de Wendl et al. [7], para estimar la probabilidad de una vía que se ha enriquecido con genes mutados, una forma de fuerza bruta de calcular la exacta
P
valores se describió, y se propuso una estrategia de aproximación basado en convolución con el objetivo de reducir el cómputo carga. El sesgo de longitud de genes también se ha reconocido en los datos de secuenciación de ARN, en la que las transcripciones largas tienden a tener más lecturas asignada a ellos. En el trabajo de Young y col. [8], los autores propusieron para adaptarse a una función de ponderación de probabilidad y cuantitativamente estimar la probabilidad de una transcripción siendo seleccionado como DE como una función de su longitud transcripción. La prueba de enriquecimiento de ontología de genes (GO) se lleva a cabo a continuación, basado en la probabilidad estimada para cada transcripción /gen. Cabe destacar que el sesgo de longitud gen parece en muchos aspectos de análisis relacionados con la vía, tales como la diafonía vía dentro de cada muestra y la vía perfil co-mutación a través de múltiples muestras [9]. ajuste apropiado podría autorizar la exactitud de estos análisis.

En este estudio, hemos propuesto una estrategia de polarización-reductor para la prueba de ruta de enriquecimiento mediante la adopción de los antecedentes de las tasas de mutación de genes específicos. Esta estrategia, a saber, el método de remuestreo ponderado, tiene en cuenta la longitud de genes para estimar la vía
P
valores y ha demostrado ser computacionalmente eficiente. En el marco de remuestreo ponderada, la diafonía vía personalizada, posteriormente, se podría explorar, revelando la compleja interacción a nivel de la vía. Además, se demostró que con la reducción efectiva de sesgo longitud de genes, un co-mutado itinerario de ruta más funcionalmente relevante podría ser derivado. El trabajo que aquí se propone encontrar amplias aplicaciones en un futuro próximo ya que se espera la secuencia de datos más personalizados para estar disponible.

Materiales y Métodos

Conjuntos de datos

colección Camino.

se recogieron todas las vías de KEGG [10] utilizando el paquete R 'org.Hs.eg.db' (versión 2.5.0), en el que las vías KEGG se han descargado a partir del 15 de marzo de 2011. Un total de 229 vías y 5891 genes estaban involucrados en esta versión. Para evitar caminos definidos para los procesos biológicos específicos demasiado o demasiado generales, se seleccionaron aquellos con al menos un 10 y un máximo de 500 genes, lo que resulta en 213 vías válidas para nuestro análisis posterior.

pulmonares adenocarcinomas de datos.

El conjunto de datos de cáncer de pulmón se informó inicialmente en Ding et al. [11], en el que se secuenciaron un total de 188 muestras de adenocarcinomas de pulmón para 623 genes. En resumen, se observaron 163 muestras de tener mutaciones en al menos un gen, y se observó que 356 genes de tener la mutación (s) en al menos una muestra. Para asegurar el poder estadístico, se incluyeron sólo aquellas muestras que tienen al menos 10 genes mutados (Figura S1). Esta regla de filtrado dio como resultado 33 muestras con 277 genes implicados, y que fueron utilizados posteriormente como nuestra base de datos de trabajo. La tasa de mutación de fondo se estableció como 2.7 × 10
-6 para estas muestras como se indica en la obra original [11].

Datos de glioblastoma.

Los datos de glioblastoma detectaron 223 genes con mutación somática al menos un no silenciosa en una o más muestras con la validación experimental [3]. Un total de 91 muestras fueron examinadas, incluyendo 72 casos no tratados y 19 casos tratados. Para asegurar el poder estadístico, se requiere que una muestra debe incluirse a nuestro seguimiento de análisis si se ha ≥5 genes mutados. Elegimos este punto de corte menos riguroso aquí en comparación con las muestras de pulmón debido a las características específicas de la muestra. Como se muestra en la Figura S1, habría sólo unos pocos muestras restantes si aplicamos 10 en los datos de glioblastoma. Por lo tanto, usando 5 como el valor de corte, 18 muestras se mantuvieron adecuado para el siguiente análisis de la vía
.
Según se desprende del trabajo original [3], hay 7 hypermutated muestras de glioblastoma con una alta tasa de mutación somática, todos que pertenecen a las muestras tratadas. Estas muestras dieron como resultado una tasa de mutación de fondo desigual para las muestras tratadas y no tratadas. De acuerdo con ello, nos propusimos la tasa de mutación para ser 3.7 x 10
-6 para las muestras sin tratar y 6.4 × 10
-6 para las muestras tratadas (http://tcga-data.nci.nih.gov/docs/publications/gbm_2008/TCGA_GBM_Level4_Significant_Genes_by_Mutations_DataFreeze2.xls).

Weighted remuestreo prueba de vía de enriquecimiento basado en una sola muestra

El supuesto subyacente de la hipergeométrica prueba estándar en conjunto de genes de enriquecimiento de análisis es que todos los genes en el genoma tienen la misma probabilidad de ser seleccionado. Este supuesto ya no es válida cuando la unidad de análisis se transfiere de mutaciones de genes, porque los genes más largos tienden a tener más posibilidades de albergar mutaciones, suponiendo que las mutaciones se producen de manera uniforme en todo el genoma. Por lo tanto, la prueba hipergeométrica estándar no es aplicable en dichos casos. Con este fin, hemos propuesto una estrategia de remuestreo ponderada para construir la distribución nula, y se compararon los genes mutados observados en cada vía con la nula distribución estimada.

Vamos a
μ
ser la tasa de mutación de fondo para una muestra de cáncer. Estudios previos han demostrado que
μ
es del orden de 10
-6 /nt [12], que pueden variar mucho en diferentes enfermedades [11], [12]. Aquí, nt denota nucleótidos. Deje
l
sea la longitud de genes y
l
i
para el
i

ª gen, y
G = {

g
i
;
i
= 1, ...,
n
} el conjunto de todos los genes para un total de
n
genes en el genoma. Suponiendo un locus genómico (por ejemplo, la posición del nucleótido) en el genoma tiene dos estados, mutado o no, la probabilidad de que el
i

ª gen,
g
i
, no está mutado podrían formularse como
exp gratis (-
μ l ×
i
) de acuerdo con la probabilidad de Bernoulli, donde
exp
es la función exponencial. En consecuencia, su tasa de mutación es
m
i
= 1-
exp gratis (-
μ l ×
i
). Hemos tomado nota de que la estimación de la tasa de mutación del gen-sabia podría ser más compleja que la simple respuesta de la longitud del gen. A continuación, se ajustó específicamente el sesgo de longitud de genes [7], mientras que un teorema más detallada se puede encontrar en la literatura [12], [13], [14], [15].

Supongamos que en un genoma individual , un total de
se detectaron N
genes mutados como entre los
g
= {
g
i
;
i
= 1, ...,
n
}, y les designan como "MutGene (s)", donde. Asignamos una etiqueta para cada gen para indicar su estado de mutación: (Figura 1). Dada una vía de
S
con
k
MutGenes, nuestro objetivo es proporcionar una prueba estadística para examinar si
S
se enriquece significativamente con MutGenes. Para ello, podemos construir una nula distribución de los MutGenes mediante la aleatorización etiquetas de genes (Figura 1). Normalmente, el proceso de asignación al azar no ponderado asume cada gen tiene la misma probabilidad de ser seleccionado como MutGenes. Por ejemplo, para los
n
genes en
G
, se genera un número aleatorio para cada uno de ellos, es decir, donde y
i
= 1, ...,
n
. Por lo tanto, al ordenar los genes en función de su
r
i
valores, símbolos de genes son asignados al azar, mientras que la etiqueta MutGene,
y
i
, se fija (Figura 1b). La repetición de este modo de permutación de etiquetas de genes por muchas veces (por ejemplo, 10000), la distribución de fondo MutGenes para cada vía se puede construir y la importancia de la vía posteriormente puede ser estimado. Este método basado resamping de estimar el enriquecimiento vía es complementaria a la prueba hipergeométrica, ambos de los cuales se basan en el supuesto de que todos los genes tienen la misma probabilidad de ser seleccionado.

Para una muestra dada, supongamos que hay un total de
n
genes en el genoma,
g
= {
g
i
;
i
= 1, ...,
n
}, y
N Red de ellos son genes de mutación (MutGenes). MutGenes están etiquetados como 1 mientras que los otros están etiquetados como 0. ensayo (a) hipergeométrica. (B) Regular remuestreo. (C) remuestreo ponderado. (D) Los tres escenarios de análisis que llevamos a cabo.

En contraste, se propuso la estrategia de remuestreo ponderado que tiene como objetivo construir la nula distribución mediante la proyección de cada distribución con el mismo patrón de sesgo longitud de genes (Figura 1c ). En concreto, en cada nuevo muestreo ponderada, se genera de la misma manera que en el método de remuestreo regular. Sin embargo, se ajusta para cada gen de acuerdo con la tasa de mutación de genes específicos, es decir, un nuevo número aleatorio, se genera, donde es números aleatorios y
m
i
es la tasa de mutación del gen-sabia . Los genes de
G
continuación, se ordenan de acuerdo a. La parte superior
N
genes en la lista de genes ordenados a continuación, se asigna como MutGenes para el nuevo muestreo. Tenga en cuenta que para los genes más largos con grandes valores de
m
i
, y para los genes más cortos con valores pequeños de
m
i
,. Por lo tanto, para cada nuevo muestreo, los genes largos tienen mayor probabilidad de ser seleccionado como MutGenes, y estos juegos de azar tendrán el mismo patrón de longitud de genes como en la muestra real. Por último, para cada vía, una empírica
valor de p se calcula utilizando
, donde
k
es el número de MutGenes en el caso observado y
K
es el número de " MutGenes "en un nuevo muestreo.

Camino diafonía

Hemos propuesto la diafonía vía basada en nodos utilizando el
coeficiente de Jaccard (JC)
medición, que ha sido ampliamente aplicado en conjunto El análisis basado en [16], [17]. Deje
T
indican el conjunto de genes en la vía A y
V
indican el conjunto de genes en la vía B, el nativo
JC
se calcula de la siguiente manera:.

para dar cuenta de la presencia de sesgo de duración, también computa
JC
en cada nuevo muestreo ponderada y se calcula un
P
valor empírico para cada par de vías de la siguiente manera:, donde
JC (π)
es el
JC
valor en el
π

º remuestreo.

mutado-Co itinerario de ruta

Caminos que con frecuencia son co-mutado a través de múltiples muestras podría implicar funciones coordinadas a nivel de sistemas. Para investigar los eventos co-mutación, primero se construyó un perfil de mutación vía a través de muestras relacionadas. Como se muestra en la Figura 1d, para cada vía, su estado de mutación se define por un indicador binario, es decir, una vía se indica como 1 si se enriquece de manera significativa por la estrategia de remuestreo ponderado; de lo contrario, 0. Para un par de vías denotados por
Un
y
B Opiniones, se propusieron cuatro categorías para describir el patrón de combinación de sus estados de mutación, es decir, (a) tanto en la vía A y B se enriquecen de manera significativa, y por lo tanto puerto MutGenes, en la misma muestra, (b) y la vía a fue significativamente enriquecido, pero vía B no era, (c) y la vía B fue significativamente enriquecido, pero vía a no era, y (d) ni vía A ni B vía fue significativamente enriquecido. Una tabla de contingencia de 2 × 2 se formuló posteriormente, y se realizó la prueba exacta de Fisher para indicar si se correlacionaron los perfiles de mutación de las dos vías. Es de destacar que, a diferencia de los estudios anteriores que por lo general cuentan todas las vías que estaban involucrados [9], que aquí sólo se incluyeron las vías enriquecido significativamente identificados por nuestro método de remuestreo ponderada, como los eventos de mutación en otras vías podrían elevarse por casualidad.

resultados

estudio de caso 1:. adenocarcinomas de pulmón

prueba Pathway enriquecimiento

en los adenocarcinomas de pulmón muestras 33 aplicables para la prueba de ruta de enriquecimiento, el número de MutGenes osciló entre 10 y 49, y la mayoría (24/33 = 72,72%) eran no más de 20 (Figura S1). Usando la estrategia de remuestreo ponderado, se identificaron 26 muestras para tener al menos una vía enriquecido significativamente (
P

Bonferroni & lt; 0,05). Como se muestra en la Figura 2, el número de vías significativas varió mucho entre las muestras. Se observó el mayor número de vías significativas en la muestra 16.668, con 34 vías enriquecidos significativamente entre 38 MutGenes (Tabla 1), seguido de la muestra 17.210, con 22 vías significativas entre 49 MutGenes (datos no mostrados en la Figura 2 debido a la limitación de espacio ). Tres muestras (muestras 17174, 16953 y 16660) de la siguiente tienen 17, 14 y 14 vías importantes, cada uno de los cuales tiene 13, 16 y 36 MutGenes respectivamente (Figura 2). Por el contrario, hay cinco muestras que tienen un solo vías significativas en base al método de remuestreo ponderado, mientras que sus MutGenes oscilan entre 10 y 30, lo que indica que el número de MutGenes tiene menos influencia en el número de vías enriquecido significativamente en cada muestra.

Rutas se representan como rectángulos y organizados por las muestras. Para cada muestra, la identificación de la muestra se presenta a la izquierda y las tres filas de la derecha corresponden a los resultados obtenidos con el método ponderado de remuestreo (fila superior), el método de remuestreo regular (fila central), y la prueba hipergeométrica (fila inferior), respectivamente . Para cada método, las vías fueron colocados de izquierda a derecha de acuerdo a sus valores de
P
con menor
Los valores P
a la izquierda, y, cuando hay varios caminos tienen el mismo
P
valores, que fueron ordenados por su ID de KEGG. Para visualizar la comparación entre los métodos, cada vía se le asignó un solo color proporcional a su rango en los resultados de remuestreo ponderada, con un rojo más oscuro que implican a menores
valores de P
. Caminos que se identifican mediante remuestreo regular o hipergeométrica prueba, pero no por el nuevo muestreo ponderada están anotadas en blanco. Por lo tanto, el color de la vía implica su rango en el método de remuestreo ponderado, y la discordancia en las otras dos filas para una muestra muestra la diferente clasificación usando los otros dos métodos. Tenga en cuenta que dos muestras con el mayor número de vías enriquecidos significativamente no se presentaron en esta figura debido a limitaciones de espacio. Son la muestra de 16668 con 34 vías significativas, y la muestra de 17210 con 22 vías significativas

Las vías más frecuentemente mutado que se produjeron en más de 10 muestras son hsa05220:. Leucemia mieloide crónica (13 /26 muestras), hsa05212: cáncer de páncreas (12/26 muestras), hsa05214: glioma (12/26 muestras), hsa05213: cáncer de endometrio (11/26 muestras), hsa05218: melanoma (11/26 muestras), y hsa05223: cáncer de pulmón de células no pequeñas (11/26 muestras). La otra ruta relacionada con el cáncer de pulmón, hsa05222: cáncer de pulmón de células pequeñas, se produjo en 3 muestras. Tabla S1 aparece MutGenes los que son cotizable al enriquecimiento de estas vías en cada una de las muestras correspondientes.

Comparación de los métodos de enriquecimiento de la vía.

Como comparación, también se implementó la prueba hipergeométrica norma y la estrategia de remuestreo regular, ambos de los cuales se basan en el supuesto de que todos los genes tienen las mismas posibilidades de albergar mutaciones. Para la prueba hipergeométrica, los valores de
P
para cada vía se ajustaron por Bonferroni múltiples pruebas de corrección. Para el método de remuestreo regular, el
valor de p
empírica para cada vía también se ajustó mediante la corrección de Bonferroni. En los tres métodos, se seleccionaron las vías importantes como aquellos con
P

Bonferroni & lt; 0,05

Se han comparado los resultados de los diferentes métodos de dos maneras:. Las vías solapadas y el rango de las vías solapadas. Como se muestra en la Figura 2 y la Figura S3, aproximadamente dos tercios (17 de 26) de las muestras de los adenocarcinomas de pulmón con ≥1 vías significativas tienen más vías de solapamiento entre el método de remuestreo regular y hipergeométrica prueba que las existentes entre los métodos de remuestreo ordinarios y ponderados o entre los hipergeométrica prueba y método de remuestreo ponderado. En la mayoría de las muestras, las vías identificadas por la estrategia de remuestreo peso son menores que los de remuestreo regular y hipergeométrica prueba estándar (Tabla 1, Figura S3). A continuación, examinó el rango de los resultados usando estos métodos y se encontró que los dos métodos basados ​​en remuestreo mostraron clasificación similar para las vías, mientras que el orden de clasificación de las vías recogidos de la prueba hipergeométrica se diferencia de los otros dos métodos. Esto se muestra por la incompatibilidad de colores en la Figura 2.

Dada la diferencia de la superposición y el rango, se observó que la disimilitud típicamente se produjo al final de la lista de ruta, mientras que los tres métodos difieren sólo ligeramente entre las vías más importantes. Este resultado indica que la estrategia de remuestreo ponderada afecta principalmente a las vías marginalmente significativos, mientras que las vías con una fuerte evidencia de señales de enriquecimiento fueron consistentes con el sesgo de longitud de genes. Esto es consistente con un trabajo anterior por Wendl et al. [7], que también encontraron que la mayoría de las vías identificadas por la prueba hipergeométrica norma no se apartan sustancialmente de aquellos identificados a través de métodos imparciales, especialmente para aquellos clasificados en la parte superior de las listas. Sin embargo, las vías en la parte inferior de las listas de enriquecimiento tienden a ser falsos positivos, y sólo podían distinguirse al ajustar de manera explícita las posibles sesgos.

Las vías que con más frecuencia se identifican por hipergeométrica prueba, pero no por remuestreo ponderado hsa04360 incluir: guía de axones (6/26 muestras) y hsa05216: cáncer de tiroides (5/26 muestras), seguido de hsa04010: vía de señalización MAPK y hsa04012: ErbB vía de señalización en 4 muestras, y todos los demás en menos de 4 muestras. No es sorprendente ver la vía para guía de axones, porque tiene una gran proporción de genes largos, y la mediana de duración de esta vía gen cae en la zona superior de toda la distribución (Figura S2). Del mismo modo, las vías que más frecuentemente se identifican por remuestreo estándar, pero no por remuestreo ponderado incluyen hsa04360: guía de axones en 5 muestras, hsa04010: MAPK vía de señalización en 4 muestras, hsa04012: ErbB vía de señalización en 4 muestras, y otros en menos de 4 ..
muestras
Camino de diafonía

se observó un total de 18 muestras de tener al menos 2 eventos vía de diafonía (
P

emp & lt; 0,05). Hemos realizado múltiples pruebas de corrección, pero se encontró ningún caso tenía
P

Bonferroni & lt; 0,05. De este modo, se seleccionaron los eventos de diafonía en base a sus nominales
P valores
, es decir, aquellos con
P

emp & lt; 0,05. Como se muestra en la Figura 3, los mapas de diafonía de estas 18 muestras se dividen en dos grandes grupos: un grupo con bordes intensivos y fuertes entre las vías significativas (Figura 3a-3f, 3H, y 3L-3o) y otro con redes escasamente conectadas. La mayoría de las muestras en el primer grupo formado camarillas o unidades topológicas próxima al camarilla. Aquí una camarilla significa un gráfico totalmente conectada en el que cualquiera de los dos nodos están conectados por una arista no dirigida. Además, los nominales
valores de P
de estos eventos de diafonía basados ​​en el nuevo muestreo ponderada, según lo indicado por la oscuridad de los bordes, son generalmente más bajos que los del grupo más tarde. Las vías que están involucrados con frecuencia en este grupo están relacionados principalmente con el cáncer, tales como aquellos con su ID de KEGG comenzando con hsa052XX (X significa cualquier dígito) que pertenecen a las "enfermedades humanas → cánceres" categoría en el mapa KEGG [10]. Este resultado no es sorprendente, ya que en la definición original de las vías en la base de datos KEGG, estas vías de cáncer comparten una gran proporción de genes de componentes. Un examen más detallado de los genes mutados mostraron que la interferencia a base de camarilla se rige generalmente por varios MutGenes "calientes" que participan en múltiples vías relacionadas con el cáncer. Por ejemplo, los genes
TP53 Opiniones y
KRAS
co-ocurren en 11 mapas de diafonía basada en camarilla (Figura 3a-3c, 3e, 3f, 3h, 3l-3o), al igual que otra genes como
RB1 ​​
,
PIK3CD
, y
PDGFRA
.

Para cada muestra, el panel superior muestra el mapa de ruta de la diafonía, y la parte inferior panel muestra los genes que contribuyen a la diafonía. En el panel superior, cada nodo representa una vía con el color nodo proporcional al enriquecimiento vía
P
valor. El borde representa evento diafonía entre los nodos conectados (vías), con un ancho de borde proporcional a MutGenes compartidos y color del borde proporcionales a la
valor de p
del evento diafonía. En el panel inferior, una matriz muestra el perfil de los genes en las vías significativas, con filas y columnas para MutGenes de vías. Cuando un MutGene se observa en una vía, la casilla correspondiente está en rojo.

Cinco muestras formado una escasamente conectados mapa diafonía (Figura 3g, 3i, 3j, 3k, y 3p). Aunque las vías relacionadas con el cáncer siguen siendo los principales participantes funcionales en este tipo de mapa, existen vías adicionales que ello suponga, como hsa04210: la apoptosis y hsa04620: vía de señalización del receptor de tipo Toll. La investigación de los MutGenes de este tipo no mostró una fuerte tendencia hacia cualquier gen (s) que contribuye sustancialmente a los acontecimientos de diafonía como se observa en la camarilla del grupo. Por último, dos muestras muestran los eventos más raras de diafonía (Figura 3q y 3r), ambos de los cuales están dominados por los genes
APC
y
TP53
.

Camino co-mutación perfil.

para explorar los eventos co-mutación que se producen entre las vías, que comenzó con una lista de las vías enriquecido significativamente para cada muestra (véase más arriba). Para garantizar una alta calidad, las vías que albergaban MutGenes pero no fueron significativos en una muestra no se incluyeron para esta muestra en el análisis de co-mutación. Como resultado, se incluyeron un total de 49 vías y 26 muestras.

Hemos seleccionado las vías que fueron co-mutado en 2 o más muestras, y tenía una co-ocurrencia
P
valor que era nominalmente significativa. Como se muestra en la Figura 4, dos grupos se auto-clústeres, uno de los cuales contiene varias vías relacionadas con el cáncer, y el otro contiene varias rutas relacionadas con el sistema inmune. En el cluster relacionada con el cáncer, se observó hsa05214: glioma, hsa05218: melanoma, hsa05219: cáncer de vejiga, hsa05220: leucemia mieloide crónica, y hsa05212: cáncer de páncreas. Curiosamente, hemos observado varias vías relacionadas con la inmunidad en el otro grupo, como hsa04650: citotoxicidad mediada por células asesinas naturales, hsa04660: señalización de receptores de células T vía, hsa04662: vía de señalización del receptor de células B, y hsa04210:. Apoptosis

nodo representa vías que han sido identificados como significativa en al menos una muestra. Un borde entre las vías indica un evento significativo co-mutación, con un ancho de borde proporcional al número de muestras que ocurren del evento co-mutación, y el color de borde que representa los
valores P
del evento. borde más oscuro indica inferiores
P
valores

Estudio de caso 2:. glioblastoma

Para los MutGenes glioblastoma, hubo un total de 18 muestras elegibles para el enriquecimiento de la vía prueba (Figura S1), cada uno de los cuales se requiere tener al menos 5 MutGenes. La aplicación de los tres métodos, es decir, el remuestreo ponderada, nuevo muestreo regular, y la prueba hipergeométrica, encontramos 15 muestras fueron enriquecidas con al menos una ruta por los métodos de remuestreo ponderados, y estas muestras se utilizaron para el análisis posterior.

como se muestra en la figura 5, la tendencia similar de solapamiento vía y el orden ranking se ha observado en las muestras de GBM como en las muestras de los adenocarcinomas de pulmón. El orden de clasificación entre los dos métodos de remuestreo están más cerca entre sí, y en todas las 15 muestras de GBM las vías superpuestas se encuentran con mayor frecuencia en el método de remuestreo regular y hipergeométrica prueba que en los resultados de remuestreo ponderadas (Figura S4). Las vías más frecuentemente enriquecido son hsa05200: vías en el cáncer (11/15 muestras), seguido de hsa05214: glioma (9/15 muestras), hsa05218:. Melanoma (9/15 muestras), y así sucesivamente (Figura 5)

Rutas se representan como rectángulos y organizados por las muestras.

El conocimiento de la salud

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]