Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: TAGCNA: un método para identificar un importante consenso Eventos del número de copias alteraciones en Cáncer

PLOS ONE: TAGCNA: un método para identificar un importante consenso Eventos del número de copias alteraciones en Cáncer


Extracto

número de copias alteración somática (CNA) es un fenómeno común en el genoma del cáncer. Distinguir los eventos significativos de consenso (SCE) de fondo al azar CNA en un conjunto de temas se ha demostrado ser una herramienta valiosa para estudiar el cáncer. Con el fin de identificar las SCE con una tasa de error de tipo I aceptables, mejores métodos de cálculo deben desarrollarse sobre la base de las estadísticas razonables y distribuciones nulas. En este artículo, se propone un nuevo enfoque llamado TAGCNA para identificar las SCE en CNA somáticas que pueden abarcar los genes del cáncer de controladores. TAGCNA emplea un esquema de permutación despegable para generar una distribución nula razonable basada en una etapa previa de selección de la etiqueta marcadores CNA del genoma se está considerando. Se demuestra la potencia estadística de TAGCNA en los datos terrestres simulada, y validar su aplicabilidad utilizando dos conjuntos de datos disponibles al público cáncer: adenocarcinoma de pulmón y próstata. TAGCNA identifica las SCE que son conocidos por estar involucrados con los proto-oncogenes (
por ejemplo
EGFR, CDK4) y los genes supresores de tumores (
por ejemplo
CDKN2A, CDKN2B), y proporciona muchos SCE adicionales con potencial biológico relevancia en estos datos. TAGCNA se puede utilizar para analizar la importancia de CNA en varios tipos de cáncer. Se implementa en I y está disponible gratuitamente en http://tagcna.sourceforge.net/

Visto:. Yuan X, Zhang J, L Yang, Zhang S, Chen B, Geng Y, et al. (2012) TAGCNA: Un método para identificar un importante consenso Eventos de número de copia alteraciones en Cáncer. PLoS ONE 7 (7): e41082. doi: 10.1371 /journal.pone.0041082

Editor: Gayle E. Woloschak, Universidad de Northwestern Feinberg School of Medicine, Estados Unidos de América

Recibido: 3 Febrero 2012; Aceptado: 17 Junio ​​2012; Publicado: 18 Julio 2012

Derechos de Autor © 2012 Yuan et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Financiación:. Este trabajo fue apoyado por la Fundación de Ciencias Naturales de China en virtud de concesiones 61070137, 91130006, 60933009 y; los Institutos Nacionales de Salud en virtud de subvenciones CA160036, CA149147, y GM085665; y el Proyecto de apoyo de Plan de Investigación Básica de Ciencias Naturales de la provincia de Shaanxi de China (Programa Nº 2012JQ8027); la de los Fondos de Investigación Fundamental Programa de Ciencia y Tecnología Desarrollo de la Investigación en la provincia de Shaanxi de China (Nº 2009K01-56), y por las Universidades Central (Nº K50511030002). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción

somáticas alteraciones del número de copias (CNA) se distribuyen por todo el genoma en casi todos los cánceres humanos [1]. Uno de los esfuerzos sistemáticos en explorar el efecto de la CNA en el desarrollo del cáncer es distinguir los eventos significativos de consenso (SCE) que representan "mutaciones del controlador" del CNA fondo aleatorias que representan "mutaciones de pasajeros" [2], [3]. Extremadamente tecnologías de matriz de alta resolución y gran colección de sujetos con cáncer, además, una amplia comprensión de los eventos de mutación en un programa de este tipo [1], [3], [4]. Esto por su parte conduce a un requisito fundamental que los enfoques computacionales para identificar aberraciones de significación que son compartidos por varios sujetos.

En la actualidad, muchos enfoques estadísticos se han desarrollado. STAC (prueba de significación para el número de copia aberrante) [5] pone a prueba CNA por separado para amplificaciones y deleciones, y requiere matrices binarias de entrada de datos, en el que "uno" representa la amplificación (o supresión) y "cero" representa el estado normal. Este método utiliza dos estadísticas complementarias: la frecuencia y la huella, para medir cada marcador bajo la hipótesis nula de que las regiones observadas CNA son igualmente colocarse en cualquier lugar a través de está analizando el genoma. En concreto, la estadística de "frecuencia" se utiliza para reflejar el carácter común de una aberración a través de muestras y la estadística "huella" se utiliza para reflejar la estrecha alineación de una región a través de muestras aberrantes. Además, "huella" tiene en cuenta las correlaciones entre aberraciones y las longitudes de las regiones de la CNA. Sin embargo, ambas de las estadísticas no han incorporado la amplitud de las aberraciones, de modo que una cierta información importante se puede perder, ya que las supresiones y amplificaciones de alto nivel pueden dar lugar a diferentes implicaciones biológicas en comparación con las aberraciones de bajo nivel [6]. Similar al STAC, logís- (Genómica identificación de dianas significativo del cáncer) [3] también analiza las supresiones y amplificaciones por separado, pero requiere datos de entrada con señales segmentadas. Este método diseña un G-score mediante la incorporación de la frecuencia y la amplitud de las aberraciones, y asigna el G-puntuación a cada marcador para evaluar la significación basada en una distribución nula semi-exactitud aproximada. La nula distribución se establece por el supuesto de que los marcadores de la CNA son independientes. En consecuencia, los efectos conjuntos entre marcadores adyacentes se ignoran en las detecciones de la CNA [7]. Para mejorar la capacidad de detección, una extensión de logís-, GISTIC2.0 [8], se propone, que considera la distinción de la frecuencia de fondo entre el CNA focal y amplias CNA y las puntuaciones de cada marcador proporcional a su amplitud. Otro método similar es el Dinamic (Descubriendo el número de copias aberraciones manifiesta en Cáncer) [9], que define una estadística de resumen para cada marcador y diseña un nuevo marco para la evaluación de la significación. Se emplea un esquema de permutación cíclica para generar nula distribución, en el que se mantiene la información estructural de los datos de número de copia original. Dinamic adopta además un algoritmo de "peel-off 'para detectar marcadores de menos frecuentes. En general, la característica de que los métodos anteriormente comparten es su enfoque en dos etapas, es decir, que necesitan una etapa previa de la discretización de las señales de la CNA utilizando métodos de análisis de muestras individuales-[10], [11]. Para evitar la dependencia de un análisis individual-muestra, muchos autores proponen enfoque computacional de una sola etapa. Por ejemplo, KC-SMART (semilla de convolución: un método estadístico para aberrante región de detección) [12] analiza directamente los datos de relación de intensidad en bruto (es decir, los datos sin discretización en muestras individuales) para identificar las SCE utilizando una nueva estadística: Núcleo Suavizadas Estimado (KSE ), que tiene en cuenta la intensidad de la señal de los marcadores de vecinos; y la CMDS (Matriz de correlación Diagonal Segmentación) [13] puntuaciones de cada marcador en base a sus correlaciones con los sitios circundantes en las relaciones de intensidad primas. Muchos otros enfoques se discuten por Shah [14] y Rueda
et al
[7]

Dentro de los enfoques existentes, tres componentes comunes e importantes se resumen de la siguiente manera:.. (1) los datos plataforma, es decir, los datos de relación de intensidad de datos en bruto o discretized (que corresponde a una etapa o dos etapas de aproximación), para la detección de las SCE; (2) estadística asociada con unidades genómicas (

por ejemplo marcadores o genes.); y (3) la distribución nula para el ensayo de la estadística. Sin embargo, una pregunta sorprendentemente difícil aquí es cómo hacer una consistencia entre los tres componentes, teniendo en cuenta las estructuras de la CNA y la significación estadística. Hasta el momento, no hay soluciones definitivas a esta pregunta. métodos de una etapa puede dar lugar a una gran señal de polarización de las estadísticas [15], en el que la distribución nula no es exactamente compatible con el propósito de identificar las SCE de fondo al azar CNA,
por ejemplo
la hipótesis nula que subyace CMDS es que no hay CNA. En este caso, el poder de detección SCE puede verse afectado en gran medida por la probabilidad de ocurrencia de CNA azar. métodos de dos etapas a menudo utilizan la CNA definido (ganancias o pérdidas) para generar nula distribución a través de permutaciones. Sin embargo, muchos de ellos adoptan puntuaciones basadas en el marcador, pero los planes de permutación de base regional, como los métodos STAC y dinámica. logís- programa hace una coherencia razonable entre los tres componentes, pero no tiene en cuenta las correlaciones entre los marcadores. Esto podría hacer que la significación estadística conservador en múltiples ensayos [16], y puede no ser biológicamente relevante [7]. En general, la mayoría de los métodos existentes, ya sea en los marcos de una etapa o de dos etapas cuantifican CNA y probar la significación basada en marcadores individuales, que por lo general están relacionadas entre sí. Esto puede conducir a una disminución de la potencia en la detección de regiones CNA especialmente para aquellas regiones menos extremas [7]. Además, por lo general generan distribuciones nulos en base a una mezcla de SCE (hipótesis nula falsa) y de fondo aleatorio CNA (verdaderas hipótesis nulas). Esto se desvía de la verdadera teóricamente nula distribución en la prueba de hipótesis estadística, disminuyendo el significado de la evaluación de la significación.

Con estas consideraciones, en este artículo se propone un nuevo enfoque, TAGCNA, para identificar las SCE basa en la señal segmentada continua proporciones. El enfoque se compone de dos pasos. En primer lugar, los marcadores de selección de la etiqueta de la CNA del genoma que se analizan, a continuación, producen una nueva matriz de datos que consiste en marcadores de etiquetas, cada una de las cuales se obtuvo mediante la incorporación de tanto la frecuencia y la amplitud de CNA; y segundo, en base a la matriz de datos, crear una distribución nula usando un esquema de permutación de desprendimiento. Las características principales del enfoque incluyen: (1) tanto de puntuación y la permutación se lleva a cabo basándose en la etiqueta de marcador de nivel, teniendo en cuenta las correlaciones entre marcadores adyacentes; (2) la media de la distribución mueve nulos izquierdo por el procedimiento de desprendimiento en los marcadores de etiqueta, que convergen a la de la verdad distribución nula. TAGCNA se puede utilizar para analizar los datos de los cromosomas individuales, así como los datos derivados de los estudios de genoma completo. Ponemos a prueba su poder estadístico sobre los datos terrestres extensa simulada, y luego aplicarlo a dos conjuntos de datos reales de los cánceres de pulmón y de próstata. TAGCNA identifica con éxito las SCE asociados con los genes del cáncer de controladores conocidos, y proporciona muchos SCE adicionales con potencial relevancia biológica.

Materiales y Métodos

Datos Formato

Los datos originales se preprocesa través individuo métodos de análisis -ejemplo como CBS [10], [17], y se almacena en la matriz
X gratis (
N
×
L
), donde cada fila representa una el sujeto y cada columna representa un marcador. TAGCNA comienza a trabajar desde este punto. Adopta umbrales (
θ

amplificador y
θ

DEL) para definir las amplificaciones y deleciones en
X
, y separa
X
en dos matrices
X

amplificador (
N
×
L
) y
X

del (
N
×
L
). TAGCNA analiza la amplificación y la eliminación por separado, ya que son generalmente considerados como jugar distintos roles en el desarrollo del cáncer.

En la matriz
X

amplificador (o
X

del), la aberración se representa con un registro
2-relación, y no aberración está representado con un cero. A continuación se describe el principio TAGCNA para poner a prueba la significación de CNA, ya sea en el análisis de la matriz de amplificación o deleción de datos.

Selección Tag CNA marcadores

somática CNA es una variación estructural en el genoma humano, por lo tanto las sondas en el genoma se correlacionan inherentemente incluso si las CNA son eventos de fondo al azar. Es deseable mantener esta correlación y para maximizar la independencia entre las estadísticas de prueba en el análisis de CNA. Estas consideraciones llevaron a diseñar TAGCNA para probar CNA mediante la partición del genoma en pequeños bloques de correlación y seleccionar marcadores de etiquetas en diferentes bloques, que se supone independiente. procedimientos de puntuación y de permutación de TAGCNA entonces se realizaron en los marcadores de etiquetas

(a) Un perfil de matriz de 100 sujetos y 1000 marcadores.; las posiciones de color blanco indican alteraciones del número de copias. (B) El valor de correlación para cada marcador, que es el coeficiente medio entre sus marcadores circundantes. (C) el valor de bloqueo de correlación resultó de la partición del genoma basado en (b). (D) Una nueva matriz de datos consiste en marcadores de etiquetas de la CNA (aquí
N = 100
,
M
= 50); cada marcador se selecciona la etiqueta de cada bloque en (c), donde los puntos rojos son el medio de los bloques, lo que representa marcadores de etiquetas.

CNA bloque de la partición de correlación se lleva a cabo sobre la base de un conjunto de temas (Figura 1). El primer paso es calcular los coeficientes de correlación entre los marcadores adyacentes a través de correlación de Pearson fórmula [13] :( 1) donde
r
ij
es el coeficiente de correlación entre los marcadores
i
y
j
;
N
es el número de muestras;
x
ni
es log
2-proporción de sujetos
n
en el marcador
i
; , Y son de registro
medios de relación 2 y desviaciones estándar de marcadores
i
y
j
en todas las materias. A continuación, se obtiene un valor de correlación para cada marcador
k fotos: por un promedio de coeficientes entre sus marcadores circundantes por la Ecuación (2) [13] :( 2) donde
w
es un tamaño especificado previamente ventana alrededor marcador
k
. Figura 1 (b) muestra el valor de correlación para las 1000 marcadores en la población ejemplificado. Para utilizar la coherencia espacial entre marcadores adyacentes, se supone que los valores de correlación de los marcadores más cercanos se encuentran en el mismo nivel y empleamos CBS algoritmo [10] para la partición de todo el genoma en bloques, donde los valores de correlación cambian entre bloques contiguos (Figura 1 (c )). En cada bloque, un marcador de la etiqueta se selecciona a partir de su sitio de medio. Así, el número total de marcadores de etiquetas es el número de bloques resultado de la partición del genoma. Una nueva matriz de datos T (
N × M
) y luego se Elaborado a partir de los marcadores de etiquetas (Figura 1 (d)), donde
M
es el número de marcadores de etiquetas.

Peel-off permutación y evaluar la significación estadística

sobre la base de la matriz de datos
T
, TAGCNA realiza permutación despegable [3], [9] para generar la distribución bajo la hipótesis nula que no hay SCE, es decir, que todos los marcadores de etiquetas de
T ¿Cuáles son los pasajeros, y luego se evalúa la significación estadística de los marcadores de etiquetas observadas. Para reflejar esto, las puntuaciones de cada marcador TAGCNA etiqueta
m
mediante la incorporación de la frecuencia y la amplitud de la CNA [3] :( 3) donde
t
nm es
registro
2-relación de sujetos
n
al marcador etiqueta
m Hoteles en la matriz
T
. Tenga en cuenta que el significado de la etiqueta de marcador se supone que representa la importancia del bloque correspondiente genoma.

Se parte de la matriz de datos de marcadores etiqueta
T gratis (
N ×

M
), y genera nula distribución
D

1 a permutaciones de los datos. Sobre la base de
D

1, nivel de significación se asigna a cada marcador etiqueta. Si el nivel de significación es inferior a un valor de corte (
por ejemplo
0,05), los marcadores correspondientes (
por ejemplo of the
i-ésimo
marcador de etiqueta) será retirado de la matriz en la siguiente iteración de permutación y prueba de significación. Este procedimiento continúa hasta conseguir una distribución nula
D
H
, basadas en el que no hay marcadores de etiquetas adicionales se identifican significativa. En este procedimiento, la media de la distribución nulos izquierda se desplaza gradualmente,
por ejemplo
en la segunda iteración,
D

2 se mueve a la izquierda en comparación con
D

1.

a continuación se describe el procedimiento de permutación de desprendimiento y la prueba de significación en detalle, que también se ilustra en la Figura 2. al comienzo, una distribución nula
D

1 se calcula utilizando la matriz de permutación en
T

1 (
T

1 =
T
). Sobre la base de
D

1, cada marcador de la etiqueta se le asigna un valor de p. Este algoritmo se puede descomponer en los siguientes pasos:
En cada tema, realice una permutación de los marcadores de etiqueta, es decir, al azar colocar los marcadores de etiquetas en los lugares de la etiqueta del genoma

En el conjunto de datos permutada
δ gratis (
T

1), calcular la puntuación de más de marcador de etiqueta
m
, denotado por
S
m gratis (
delta gratis (
T

1)),
m
= 1, 2, ...,
m
.

Repita los pasos (1) y (2)
e
veces, es decir, hacer
e
permutaciones del conjunto de datos, y así obtener
e
conjuntos de datos permutada
δ

1 (
T

1),
δ

2 (
T

1), ...,
δ
e gratis (
T

1), y las puntuaciones correspondientes
S
m gratis (
δ

1 (
T

1)),
S
m gratis (
δ

2 (
T

1)), ... ,
S
m gratis (
δ
E gratis (
T

1)).

Vamos a
D

1 sea la distribución de máx

S m
m gratis (
δ gratis (
T

1)) a lo largo todos los
e
permutaciones, y definir el valor de p para el marcador etiqueta
m

0 (
m

0∈ {1 ...
M
}) por la probabilidad extrema derecha [5], [9] :( 4) donde (·) es la función indicadora.


Posteriormente, las exploraciones TAGCNA los valores de p en todos los marcadores de etiquetas. Si uno o más de los valores de p son menos de una importancia de corte (
por ejemplo.
0,05), los marcadores de etiquetas correspondientes serán eliminados (Figura 2). A continuación, una nueva matriz de datos
T

2 se produce sin la incorporación de los marcadores de etiquetas importantes. Sobre la base de
T

2, una distribución nula
D

2 pueden ser creados a través de los cuatro pasos anteriores y el nivel de significación de los marcadores de etiquetas restantes pueden evaluarse.

El procedimiento continúa hasta conseguir una distribución nula
D
H
, con base en el cual no hay marcadores de etiquetas adicionales pueden identificarse significativa. Durante el procedimiento, una secuencia de matrices de datos
T

1,
T

2, ...,
T
H
y una secuencia de distribuciones nulas
D

1,
D

2, ...,
D
H
se obtienen. Se observa que el número de columnas en las matrices de datos están disminuyendo y las medias de las distribuciones nulas están moviendo hacia la izquierda gradualmente a lo largo de la secuencia. Esto implica que
T
H
podría no incluir marcadores de etiquetas altamente extremas y la proporción de verdaderos hipótesis nula es mucho mayor, por lo que el resultado nula distribución
D
H
podría ser extremadamente cerca de la verdad distribución nula. Por último, sobre la base de
D
H
, TAGCNA evalúa los niveles de significación de todos los marcadores de etiquetas observadas de nuevo. Esto podría mejorar el poder para identificar las SCE menos extremas y también corregir los valores de p en términos de significación estadística.

Resultados

Estudios de simulación

conjuntos de datos reales rara vez tienen absolutamente confirmó SCE terreno la verdad, por lo que es difícil evaluar el desempeño de los métodos estadísticos sobre datos reales. En esta sección, diseñamos los estudios de simulación para probar la potencia estadística de nuestro enfoque. El modelo de simulación propuesto por Willenbrock y Fridlyand [18] se modifica para generar conjuntos de datos de la CNA en virtud de diversos ajustes de los parámetros. En cada ajuste, simulamos 100 sujetos cada uno con 10.000 marcadores. Entrar
2-ratio para cada sujeto se genera mediante la mezcla de células normales y tumorales. La proporción de célula normal para un sujeto particular, se extrae de una distribución uniforme entre 0,3 y 0,7. ruido gaussiano de media cero y varianza variable se añaden a cada tema. Aquí se consideran tres niveles de la varianza de la distribución de ruido gaussiano, es decir, su desviación estándar (SD) (σ) se extrae de manera uniforme a partir de [0,1, 0,2], [0,2, 0,4], o [0,4, 0,6] [18] en la simulación de cada sujeto. Para hacer aún más la simulación más realista, se añaden dos regiones no SCE con longitud que varía de 50 a 500 a cada sujeto. Las posiciones de las regiones no SCE son seleccionados al azar en el tramo del genoma simulado, y el registro de
2-relaciones de las regiones se generan de manera uniforme entre 0,585 (copias 3) y 1.322 (copias 5). Tres SCE terreno la verdad se insertan en los conjuntos de datos simulados. Las registro
2-ratios y longitudes de ellas se especifican como Ratio = {0.585, 1, 1.322} y L = {200, 100, 50}, respectivamente. La frecuencia de los tres SCE a través de temas se denota como
f
. Dos niveles de frecuencia, 0.15 y 0.20, se consideran para la simulación de diversas bases de datos del genoma.

TAGCNA implementar en los conjuntos de datos simulados mediante el establecimiento de los parámetros
θ
a

mp y
θ

a del 0.1 y -0.1, así como
w
a 20, y compara su rentabilidad con la CMDS [13] basado en las curvas ROC, que se muestran en la Figura 3. cada curva ROC se traza para un ajuste de los parámetros de simulación, en el que se calcula la TPR (verdadera tasa positiva) versus FPR (tasa de falsos positivos) a diferentes niveles de significación y luego se promedia más de 100 repeticiones simulados. En la figura 3 podemos señalar que en la mayoría de los casos, TAGCNA es más poderoso que CMDS en términos de áreas más grandes bajo la curva ROC. Por lo tanto, TAGCNA es una herramienta valiosa para identificar las SCE de fondo CNA.

TPR y FPR se promedian más de 100 réplicas simuladas en cada ajuste de parámetros. Utilizamos dos opciones (es decir, b = 10 y b = 20) para el método CMDS en el análisis de datos.

Además, para estudiar el comportamiento de TAGCNA bajo la verdadera hipótesis nula de que no existen las SCE , adoptamos el algoritmo introducido por Walter et al. [9] para simular conjuntos de datos nulos CNA y realizar TAGCNA en estos datos. Una vez más, tres niveles de ruido Gaussiano se consideran en el esquema de simulación en un esfuerzo para mostrar el comportamiento robusto del TAGCNA. Los resultados de estos experimentos se muestran en la Tabla 1. En cada caso, la tasa de error de tipo I como resultado por TAGCNA se calcula de acuerdo a los siguientes pasos:

Simular 600 repeticiones utilizando el algoritmo de simulación con ajuste de parámetros por defecto en Walter . el trabajo de et al [9]

Para cada replicación de datos, implementar TAGCNA basado en 1000 permutaciones, y determinar si hay algún CNA son significativas a p-valor. & lt; 0,05

se calcula la en la que no existe número de repeticiones significativa CNA, y definir el tipo I tasa de error como la proporción de estas repeticiones en los 600 repeticiones.

los valores del tipo I tasa de error que aparece en la Tabla 1 son muy cerca de 0,05, lo que indica que TAGCNA es ligeramente más conservador y el procedimiento de permutación en la etiqueta marcadores CNA es relativamente razonable.

Aplicación a conjuntos de datos reales

se aplicaron dos TAGCNA a disposición del público el cáncer conjuntos de datos. La primera consiste en 371 sujetos con adenocarcinoma de pulmón, cada uno de los cuales incluye 216,327 marcadores. Este conjunto de datos se obtiene a partir del proyecto TSP (Tumor Proyecto de Secuenciación) y está disponible en http://www.broadinstitute.org/cancer/pub/tsp/[19]. El segundo conjunto se genera a partir de 82 sujetos de adenocarcinoma de próstata en TCGA (Atlas del Genoma del Cáncer) del proyecto, cada sujeto se perfila usando SNP6.0 en 1,868,857 marcadores, y los datos están disponibles en http://cancergenome.nih.gov/. Los datos originales de la CNA se dividen en segmentos a través de un análisis individual-muestra y se transforman en el formato de entrada a TAGCNA como se describe en el documento de paquete de software. TAGCNA se implementa en cada cromosoma para el análisis de la amplificación y la eliminación por separado. Hemos establecido el registro
umbrales de relación 2
θ

amplificador y
θ

a del 0,848 (3,6) y copias -0.737 (1,2 copias), la cual es el ajuste del método logís- en el análisis de los genomas del cáncer [19], así como el parámetro
w
a 20, y llevar a cabo 1000 permutaciones aleatorias para evaluar la importancia de los marcadores de etiquetas. marcadores de etiquetas con valores de p inferior a 0,05 se consideran significativos, y en consecuencia, los bloques del genoma relevantes son considerados como las SCE.

Resultado en el conjunto de datos de adenocarcinoma de pulmón.

La figura 4 muestra el significado de paisaje todo el genoma resultó del análisis del conjunto de datos adenocarcinoma de pulmón. TAGCNA identifica un total de 16 amplificaciones y deleciones en 29 diferentes cromosomas que se enumeran en los dos lados de la Figura 4. Los genes regulados por estos SCE se dan en la Tabla S1. Muchos genes controladores del cáncer conocidos se incluyen en el resultado. Por ejemplo, EGFR (factor de crecimiento epidérmico receptor) es un oncogén contenida en 7p11.2 (valor de p & lt; 0,001). Sus amplificaciones pueden dar lugar a más de expresión y la división celular incontrolada, que es una predisposición para el cáncer [20]. El número máximo deducido copia en 7p11.2 es 9.1, y hay 11 (3%) de los sujetos con el número de copias por encima del umbral de 3,6 en la región y 50 (13,5%) sujetos por encima del umbral de 2,5.

-log10 ( los valores de p) se dan para las regiones de amplificación y supresión, respectivamente. La línea discontinua de color verde se coloca en el 1,3 como punto de corte (p-valor de 0,05 correspondiente) para llamar a acontecimientos significativos de consenso. El cromosoma 23 indica el cromosoma sexual.

Utilizamos diagrama de Venn para comparar el resultado de las SCE TAGCNA con la de logís- en la Figura 5. TAGCNA proporciona apoyo estadístico para el 80% de los eventos de amplificación y el 50% de la supresión eventos que logís- detectado. La mayoría de los CPE solapadas abarcan uno o más oncogenes o genes supresores de tumor. Además, una parte de los CPE de deleción no superpuesto de TAGCNA es apoyado por CMDS resultado [13] como 10q21.2 y 15q11.1. Además, suponemos que los enfoques existentes podrían pasar por alto algunos SCE demostrado ser la significación estadística y biológica. Aquí caracterizamos una SCE (21q22.2) identificada de forma única por TAGCNA. La deleción en 21q22.2 (valor de p & lt; 0,001) se produce en 11 (3%) sujetos con número de copias por debajo de 1,2 y se produce en 24 (6,5%) sujetos con número de copias por debajo de 1,5, y el número de copias mínimo inferido es 0,3. Este SCE abarca tres genes (PCP4, DSCAM, y TMPRSS3), en la que TMPRSS3 ha sido validado clínicamente y biológicamente asociado con enfermedades humanas [21], [22].

Los eventos de amplificación y supresión solapadas son que aparece en la parte superior e inferior del diagrama de Venn. Aquí, nosotros usamos los puntos de corte común q & lt; 0,05 y p & lt;. 0,05 para logís- y TAGCNA, respectivamente

En la Figura 5, es fácil observar que el número de nuevos SCE detectados por TAGCNA en el borrado es mayor que en la amplificación. El examen de los perfiles de número de copias en el conjunto de datos de adenocarcinoma de pulmón y los CPE detectados revela dos razones para esta discrepancia. La explicación más común es que el evento deleción está presente con más frecuencia que evento de amplificación [19] y la mayoría de las deleciones son heterogeneidad (es decir, pérdida de una copia) [3], tal como se ve en las muestras de adenocarcinoma de pulmón para su eliminación 17p11.2 . Aquí, 6,8% de las muestras exhiben supresión magnitud entre 1 y 1,5, mientras que sólo unos pocos (1%) de las muestras exhiben supresión magnitud por debajo de 1. Por consiguiente, 17p11.2 es una región menos extrema (es decir, frecuencia y magnitud son relativamente bajo), que no puede ser descubierto bajo la nula distribución aportado por varios grandes SCE deleción. Sin embargo, dichas regiones se alcanzó significación mediante la eliminación de las SCE del genoma y volver a crear nuevas distribuciones nulas realizado por TAGCNA. La segunda explicación es que el coeficiente de correlación entre las sondas de deleción en este conjunto de datos particular es relativamente mayor que entre las sondas de amplificación, por lo que la detección de sondas individuales sin considerar correlaciones conduciría a una prudente superior. Por ejemplo, la supresión en 7q11.22 se le asigna valor de p menor que 0,001 por TAGCNA, pero se informa por logís- con valor q más de 0.025.

Resultados en el conjunto de datos de adenocarcinoma de próstata.

el paisaje significado de todo el genoma analizado por TAGCNA en el conjunto de datos de adenocarcinoma de próstata se da en la Figura 6. Un total de 91 SCE de amplificación de deleción y 97 SCE se identifican en el conjunto de datos, y los genes cubiertos se enumeran en la Tabla S2. La mayoría de estos SCE se muestran a ser biológicamente relevante y son apoyados por los resultados reportados previamente. Por ejemplo, las amplificaciones en 1q21.1, 7p21.2, 7q36.1, 8q13.3, 8q23.1, 9p13.1, 14q24.2, 14q32.31 y 16p11.2 se introducen por Outi [23], donde 7p21.2 contiene ETV1 factor de transcripción, que se encontró que era sustancialmente sobre-expresa en un subconjunto de cánceres de próstata, y 14q24.2 es estrechamente adyacente a HIF1A, la proteína codificada por este gen se ha mostrado que se sobre-expresa en muchos cánceres de la próstata; y amplificaciones en 11p15.4, 3p12.3, 3p12.1, 13q13.3, 17q12, 7p15.3, 7p15.2, 7q34, 5q35.3, y 8p11.23 son reportados por otros autores [24], [25 ], [26], [27]. Deleciones en 2q14.2, 4p16.1,4q26, 6q13, 9p13.1, 10q23.2, 16q23.1, y 17p13.3 se introducen por Outi [23], donde and16q23.1 10q23.2 son extremadamente cerca de importantes los posibles genes supresores de tumores PTEN y HSD17B2; y deleciones en 8p12, 1q21.2, 5p15.2,5p14.3,5p12,14q12, 14q32.31, 6q14.1,13q13.3, 3q26.1, 11p15.4, y 20p13 son presentados por otros autores [25 ], [26], [27], [28]. Estos resultados indican que TAGCNA es aplicable al análisis de conjuntos de datos reales de la CNA.

-log10 (valores p) se dan para las regiones de amplificación y supresión, respectivamente. La línea discontinua de color verde se coloca en el 1,3 como punto de corte (p-valor de 0,05 correspondiente) para llamar a acontecimientos significativos de consenso. El cromosoma 23 indica el cromosoma sexual. Muchos SCE importantes se enumeran en los dos lados de la figura.

Por otra parte, muchos SCE amplificación y supresión adicionales se identifican por TAGCNA (Una parte de ellos se enumeran en la Tabla 2), que se pueden utilizar para una mayor investigación. Por ejemplo, 12p11.21 y 15q24.1 abarcan genes FGD4 y HCN4 respectivamente. Las mutaciones en estos genes se han asociado con Charcot Marie Tooth enfermedad de tipo 4H [29] y syndrome2 seno enfermo [30], respectivamente. Observamos que las dos SCE muestran significación estadística (valor p & lt; 0,001), tanto en situaciones de amplificación y supresión. Otra deleción 10q23.1 SCE contiene Grid1, que se ha demostrado estar relacionada con el aumento del riesgo de desarrollar esquizofrenia [31].

Discusión

Resumen general

identificación de las SCE en los datos de número de copias somáticas ha demostrado ser una técnica eficaz para descubrir los genes del cáncer de controladores. En este artículo se propone un enfoque novedoso TAGCNA, con el objetivo de aumentar el poder estadístico para detectar las SCE. TAGCNA está motivada teniendo muy en cuenta la importancia biológica y estadística. Para preservar las correlaciones inherentes en los datos de la CNA y para hacer una coherencia entre la estadística y la permutación procedimiento, TAGCNA construye bloques de la CNA y pone a prueba la significación estadística de los marcadores de etiquetas que representan los bloques. Para corregir los valores de p asignados a etiquetar marcadores, TAGCNA adopta un esquema de permutación despegable para generar una nula distribución razonable.

Llevamos a cabo estudios de simulación para examinar el rendimiento de TAGCNA en comparación con la del método CMDS. Dado que ambos métodos han considerado las correlaciones entre marcadores adyacentes y han modelado las correlaciones medias utilizando un tamaño de ventana, para una comparación justa, se elige
w
= 20, como el valor por defecto del algoritmo CMDS [13 ], en los estudios de simulación. El resultado muestra que TAGCNA presenta mayor tasa positiva verdadera en la misma tasa de falsos positivos en varios conjuntos de datos de simulación de la del método CMDS.

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]