Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: determinación de los patrones más frecuentes del número de copias alteraciones en Cancer

PLOS ONE: determinación de los patrones más frecuentes del número de copias alteraciones en Cancer


Extracto

progresión del cáncer a menudo es impulsada por una acumulación de cambios genéticos sino también acompañado por el aumento de la inestabilidad genómica. Estos procesos conducen a un paisaje complejo de alteraciones del número de copias (CNA) dentro de los tumores individuales y gran diversidad a través de muestras tumorales. Alta resolución basados ​​en matriz de hibridación genómica comparada (aCGH) se utiliza para lograr el perfil CNA de las colecciones de tumores cada vez más grandes y mejores métodos computacionales para el procesamiento de estos conjuntos de datos y la identificación de los CNA se necesitan controladores potenciales. Los estudios típicos de los conjuntos de datos aCGH adoptan un enfoque de tuberías, a partir de la segmentación de perfiles, las llamadas de las ganancias y las pérdidas, y por último la determinación de frecuentes CNA a través de muestras. Un inconveniente de las tuberías es que las opciones en cada paso pueden producir resultados diferentes, y sesgos se propagan hacia delante. Se presenta un nuevo método matemáticamente robusto que explota las correlaciones a nivel de la sonda en aCGH datos para descubrir subconjuntos de muestras que muestran CNA común. Nuestro algoritmo está relacionado con el trabajo reciente en la agrupación de máxima margen. No se requiere pre-segmentación de los datos y también proporciona agrupación de CNA recurrente en grupos. Hemos probado nuestro enfoque en una gran cohorte de muestras de glioblastoma aCGH del Atlas del Genoma del Cáncer y recuperamos casi todos los CNA informó en el estudio inicial. También encontramos CNA significativa adicional se perdió por el análisis original, pero apoyada por estudios anteriores, y se identificaron correlaciones significativas entre el CNA

Visto:. Rapaport M, Leslie C (2010) la determinación de patrones frecuentes del número de copias Las alteraciones en el cáncer . PLoS ONE 5 (8): e12028. doi: 10.1371 /journal.pone.0012028

Editor: Jean Peccoud, Virginia Tech, Estados Unidos de América

Recibido: Abril 27, 2010; Aceptado: 2 Julio 2010; Publicado: 12 Agosto, 2010

Derechos de Autor © 2010 Rapaport, Leslie. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Financiación:. Este trabajo recibió el apoyo de subvención de la Fundación Nacional de Ciencia IIS-0705580 y los Institutos nacionales de Salud de subvención 1-U24-CA143840. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción

Los cánceres son un grupo complejo de enfermedades proliferativas cuya progresión, en la mayoría de los casos, es impulsado en parte por una acumulación de cambios genéticos, incluyendo número de copias aberraciones (CNA) de regiones genómicas grandes o pequeñas [1], [ ,,,0],2], [3], que puede, por ejemplo, conducir a la amplificación de oncogenes o la pérdida de genes supresores de tumores. Sin embargo, la progresión del cáncer también a menudo se caracteriza por el aumento de la inestabilidad genómica, lo que podría generar muchos CNA "pasajero" que no confieren ventaja de crecimiento clonal. Estos procesos dan lugar a un paisaje complejo de alteraciones genómicas dentro de un tumor individual y una gran diversidad de estos CNA a través de muestras de tumores, por lo que es difícil identificar mutaciones del conductor asociados con la progresión del cáncer.

En los últimos años, basados ​​matriz de hibridación genómica comparada (aCGH) [4], [5] y el polimorfismo de un solo nucleótido (SNP) arrays [6] se han utilizado para analizar la CNA de muestras tumorales en una escala genómica y en resoluciones cada vez más elevados. conjuntos de datos de número de copias Además, numerosos estudios de perfiles de tumores de gran escala han generado para grandes cohortes de tumores [7], [8]. Estas grandes y complejos "del genoma del cáncer" conjuntos de datos estadísticos presentan retos difíciles [9]. CNA individuo puede ser tan pequeño como un par de sondas adyacentes o tan grande como todo un cromosomas y pueden ser difíciles de detectar por encima del ruido a nivel de la sonda; Por otra parte, no está claro cómo hacer sentido fuera de diversa CNA de cientos de tumores

Por lo general, dos tipos de análisis se han llevado a cabo en conjuntos de datos de número de copias:.

agrupación de muestras por la CNA, para determinar posibles subtipos de tumores que se caracterizan por un patrón común de las supresiones y amplificaciones;

determinar las aberraciones genéticas significativas, ya sean las ganancias o pérdidas, que se producen con frecuencia en el conjunto de datos, ya que estos pueden representar las mutaciones de controladores importantes para la progresión del tumor

Casi siempre, estos problemas se abordan con un enfoque de tubería, donde aCGH perfiles de los cromosomas de muestras individuales son procesados ​​por primera vez por un algoritmo de segmentación.; segmentos individuales (regiones genómicas) son "llamados" como ganancias o pérdidas, en función de su amplitud, usando un procedimiento de elección de estadística y umbral de significación; y, finalmente, los llamados segmentos se utilizan como entrada a un algoritmo de agrupamiento [1], [10], [11] o el método de puntuación de base para determinar las aberraciones comunes significativos [12], [13], [14]. La desventaja de los enfoques de tuberías, sin embargo, es que las opciones de algoritmos y parámetros de ajuste en cada paso pueden producir resultados muy diferentes, y los errores o sesgos se propagan hacia delante.

En el primer paso, hay numerosos algoritmos de segmentación [15 ], [16], [17], [18] que dió significativamente diferentes límites de los segmentos [19], dando lugar a diferentes llamadas de ganancias y pérdidas. El paso final del análisis de CNA a través de muestras depende críticamente de las elecciones previas. Como un ejemplo, el método logís- ampliamente utilizado para la determinación de las aberraciones frecuentes [12] utiliza como estadística de prueba, en cada locus, el número de muestras en las que está presente una ganancia (o pérdida) multiplicado por la amplitud media de la ganancia ( pérdida). Sin embargo, tanto el conteo y la amplitud media dependerá de las opciones anteriores en la tubería.

En este estudio, se propone un método novedoso y matemáticamente robusto para encontrar patrones significativos de la CNA en un gran número de copias de los datos fijados directamente desde los datos de la sonda de nivel. Al evitar un enfoque de tuberías que implica una etapa de segmentación, nuestros correlaciones a nivel de la sonda algoritmo explota en aCGH datos para descubrir subconjuntos de muestras que muestran CNA común. Al aplicar el enfoque de forma jerárquica para dividir el conjunto de datos de forma iterativa, descubrimos los dos eventos de gran y pequeña escala y puede detectar CNA estadísticamente significativos que ocurren en el 5% de las muestras. De esta manera, el algoritmo se dirige tanto el problema de agrupamiento y el problema aberración frecuente al mismo tiempo. Algorítmicamente, nuestro enfoque está relacionado con el trabajo reciente en la agrupación de máxima margen [20], [21], [22], [23], que se extiende a la optimización de máquinas de vectores de soporte similar a los enfoques al problema de agrupamiento no supervisado. Es decir, cada partición del conjunto de datos se consigue mediante el aprendizaje de un clasificador lineal de la sonda de nivel aCGH perfiles que asigna muestras a un grupo u otro. También construimos en las ideas desarrolladas para la clasificación supervisada de muestras aCGH [24], [25], [26], [27], en particular, el uso de constantes por tramos y lazo [17], [26], [28 ] términos de regularización en el problema de optimización, lo que fomenta el clasificador para tomar decisiones utilizando sólo un pequeño número de sondas en regiones contiguas informativos.

Hemos probado nuestro enfoque en una gran cohorte de muestras de glioblastoma aCGH recientemente generada por el cáncer Proyecto genoma Atlas (TCGA) [7]. Se encontró que los principales CNA detectados por nuestro algoritmo son en gran medida con el estudio original TCGA, en la que casi todos los CNA informó anteriormente estaban también en nuestros resultados. Sin embargo, encontramos CNA significativos adicionales perdidas por el análisis TCGA pero apoyados por estudios anteriores analiza y /o expresión. Por otra parte, el enfoque de partición jerárquica resume las relaciones establecidas y las dependencias entre los diferentes CNA, que pueden ser útiles para generar hipótesis acerca de la secuencia de la CNA en la progresión tumoral.

Resultados

Algoritmo visión general

Nuestro algoritmo iterativamente las particiones de un conjunto de datos de perfiles aCGH tumorales para un cromosoma dado para descubrir subgrupos de tumores con CNA similar. En lugar de utilizar las técnicas de pre-procesamiento estándar como algoritmos de segmentación, se utiliza directamente los datos a nivel de la sonda e incorporar conocimiento previo acerca de la naturaleza de estos datos, a saber: (1) sondas sucesivas están correlacionadas, es decir, es probable que representan los mismos números de copias; y (2) un cromosoma normalmente (aunque no siempre) alberga unos CNA. En cada paso de partición, se aprende un separador lineal que asigna perfiles aCGH a uno de dos clases, representada geométricamente por las dos medias espacios (es decir, y) en cada lado de la hiperplano definido por el término vector y el sesgo normal (Figura 1) . Aquí, los perfiles de cromosomas y el vector de pesos son vectores de valor real con una dimensión igual al número de sondas para el cromosoma, y ​​se determina mediante la resolución de un problema de optimización (ver Métodos) en el que está restringido a ser constante a trozos (sondas sucesivas tienden a tener los mismos pesos) y escaso (pocas sondas tienen pesos distintos de cero). Nuestro enfoque se basa en un algoritmo de agrupación margen máximo propuesto recientemente [21], [22], lo que trae ideas de gran margen de aprendizaje supervisado técnicas como la clasificación de máquinas de vectores soporte y apoyo vector de regresión al problema de agrupamiento no supervisado; la elección de las limitaciones fue motivado por los trabajos recientes sobre la regresión fusionado lazo [28] (ver Métodos).

El algoritmo encuentra una función lineal que es capaz de particionar las muestras aCGH en dos grupos. Al resolver un problema de optimización, el algoritmo determina el vector, que geométricamente representa el vector normal de un hiperplano (mostrado en rojo) la separación de las muestras, junto con el término de sesgo, y la asignación de las muestras a los grupos. En el ejemplo mostrado juguete, el hiperplano que separa las muestras que presentan una deleción en el brazo q (por encima del hiperplano) de los que no lo hacen (por debajo del hiperplano).

Debido a que cada separador resultados lineales en una partición binaria de muestras, aplicamos nuestro procedimiento de forma iterativa para separar cada grupo de muestras en dos nuevos grupos de tal manera que el nuevo separador lineal es ortogonal a los previamente determinados queridos. Por lo tanto, cada paso será encontrar una nueva dirección de la variación en los datos aCGH (similar al análisis de componentes principales [29]), y los resultados generales de procedimiento en una partición jerárquica del conjunto de datos (ver Métodos)
.
particionamiento a gran margen revela jerarquía de número de copias cambios

Se recogieron nuestro conjunto de datos del portal de datos del Genoma del cáncer Atlas (TCGA) [7]. Contiene 345 muestras de tumores de glioblastoma con número de copias cambios perfilados en matrices de Agilent 244K (228K sondas). Este conjunto de datos ha sido previamente analizada para determinar los principales eventos de amplificación y supresión utilizando la RAE [13] y [12] logís- algoritmos [7].

Se utilizó el Nivel 2 de datos ya producidos por el análisis anterior [7 ]. Estos datos ya se ha normalizado mediante la aplicación de un algoritmo de lowess en los datos de tasas de registro, y las sondas de marcado como de baja calidad (saturado, no uniforme o suave) son excluidos. La calidad de las matrices también se midió a través de la proporción de sondas excluidos y la consistencia de los valores asociados con sondas sucesivas, y las matrices de baja calidad fueron retirados del conjunto de datos.

Nos encontramos con nuestro algoritmo separado en cada cromosoma, con un coeficiente de poca densidad y un coeficiente por tramos constantness (ver Métodos). Empíricamente, encontramos la siguiente dependencia de la elección de estos coeficientes: si los coeficientes fueron elegidos para ser demasiado pequeño, que se traduciría en un agrupamiento trivial, con todas las muestras asignadas al mismo grupo; si los parámetros eran demasiado permisiva, la agrupación obtenido sería el mismo que-medios estándar (). Sin embargo, entre estos dos extremos, la agrupación de resultados no eran demasiado sensibles a la elección del parámetro. Esperamos que el intervalo adecuado de los parámetros de depender de la gama plataforma, así como propiedades estadísticas de los perfiles de matriz en un determinado conjunto de datos. Por lo tanto sugerimos realizar una búsqueda cuadrícula en un subconjunto de las muestras y la selección de los parámetros más pequeños posibles que dan una agrupación no trivial en cada cromosoma.

Con el fin de evaluar la importancia de nuestros resultados, se utilizó una muestra aleatoria modelo en el que arrastró las sondas de nuestro conjunto de datos y se compararon la distancia entre las muestras de la mediana de nuestros dos grupos para la distribución de distancias de 1000 muestras mediana de dos grupos de muestras aleatorias separadas con el mismo clasificador. Verificamos que la distancia distribución aleatoria sigue una distribución normal, y se calculó el valor P para la distancia entre las muestras de mediana correspondiente a la cola de esta distribución normal.

Para cada cromosoma, se construyó una "agrupación de árboles "mediante el fraccionamiento de forma iterativa cada grupo en dos si se respeta tres criterios. El primer criterio es que debe contener más de cinco muestras (1,5% del conjunto de datos), ya que sería difícil de lograr una partición estadísticamente significativa de muy pequeños subconjuntos. El segundo criterio es que la división de este grupo no tendría la profundidad de nuestro árbol más grande que 3. La profundidad máxima fue elegido de forma heurística: después de tres iteraciones, nos encontramos empíricamente que los grupos eran demasiado pequeños o la separación no fue significativa más. El último criterio fue que la partición de la generación de este grupo debe satisfacer un umbral de significación de. Si bien esto puede parecer demasiado-valor permisivo, es importante entender que nuestra estimador (la distancia centroide) no está optimizado directamente por el algoritmo; Por lo tanto, los-valores empíricos generados son bastante conservadora.

Figura 2 da un ejemplo de un "árbol de la agrupación", producido por nuestro algoritmo para el cromosoma 19. La primera iteración separa las muestras en dos grupos, uno con 17 muestras que presenta una deleción de una región del brazo q y uno de 326 muestras, con. El centro de gravedad de cada grupo se muestra en verde (Figura 2, columna de la izquierda); Además, una segmentación de cada centroide clúster mediante una herramienta estándar (circular segmentación binaria [30]) se muestra para ayudar a la visualización de las diferencias de número de copias entre los dos grupos. En cuanto a esta separación y cada grupo es más grande que 5 muestras, dividimos cada uno de estos subgrupos en dos nuevos grupos. La división del grupo de 17 muestras es no está asociado con una separación mediana suficientemente significativo () y por lo tanto no se divide de nuevo. Por otro lado, la partición del grupo de 326 muestras produce un grupo de 250 muestras sin ninguna aparente CNA significativa y un grupo de 76 muestras cuyo centroide muestra una amplificación de todo el cromosoma. Esta división tiene una fuerte significación (), y por lo tanto ambos de estos grupos se dividen de nuevo. La partición del grupo de 250 muestras no alcanzó significación (), y ninguna de las agrupaciones resultantes muestran ninguna CNA significativa. El grupo de 76 muestras se divide en dos nuevos grupos de 37 y 39 muestras (). Cada uno de estos grupos muestra una amplificación de todo el cromosoma, pero el grupo con 39 muestras parece tener una amplificación inferior del brazo q del brazo de p, mientras que el otro no. A medida que nos limitamos a los árboles de profundidad 3, que no dividen cualquiera de estos dos grupos más.

En cada iteración del algoritmo, cada grupo identificado previamente de las muestras se dividió en dos nuevos grupos se utilizó un máximo- técnica de agrupación margen que explota las correlaciones en aCGH perfiles (ver Métodos). El proceso de partición se detiene cuando (i) un grupo tiene menos de 5 muestras; (Ii) la generación de la partición del grupo no logra alcanzar un umbral de significación estadística de; o (iii) el árbol ya está a la profundidad máxima de 3. En la imagen de arriba, cada grupo está representado por su centro de gravedad, es decir, su perfil mediano, de color verde. Para fines de visualización, la segmentación del centroide, producido por la segmentación binaria circular [30], se muestra en rojo.

Análisis de glioblastoma datos aCGH recupera conocido CNA sin formación de bloques muestras

Se aplicó el procedimiento iterativo para cada cromosoma de forma independiente, como se describe en la sección anterior. Para llamar característica CNA de cada grupo, se aplicó la segmentación binaria circular [30] utilizando los parámetros por defecto de su centro de gravedad, es decir, el perfil medio de la agrupación, y se asocia a la CNA característica (s) de este centro de gravedad de la agrupación. Uno debe entender que las aberraciones del perfil centroide no pueden ser compartidos por cada una de las muestras de racimo, pero que da una buena estimación de estos eventos. También advertimos que el tamaño de la partición da una buena idea de la penetrancia, pero no es totalmente equivalente.

La primera iteración de nuestro algoritmo encontró una amplificación de todo el cromosoma 1, de todo el cromosoma 7 y del todo el cromosoma 20. Se identificó también la supresión de todo el brazo 9p, así como una gran parte de 19q, todo el cromosoma 10, todo el cromosoma 13, todo el cromosoma 14 y todo el cromosoma 22. la segunda iteración de la algoritmo encontró la pérdida de brazo 6q, la supresión de todo el cromosoma 15, de todo el cromosoma 16 y una amplificación de todo el cromosoma 19. también demostró que algunas muestras que presentan una amplificación del cromosoma 7 también contienen una focal y amplificación muy fuerte evento en el brazo 7p. La tercera iteración del algoritmo identifica eventos de amplificación focales en el cromosoma 3 y en el cromosoma 4. También mostró una pérdida de la totalidad de los cromosomas 9 y 21. Estos resultados se resumen en la Tabla 1, junto con el tamaño de la partición en la que cada CNA fue identificado en términos de número de muestras y el porcentaje del conjunto de datos completo.

Un análisis de la misma serie de datos utilizando tanto RAE [13] y logís- [12] algoritmos ya ha sido publicado [7 ]. Ambos métodos de acuerdo sobre los acontecimientos significativos de amplificación a gran escala para el conjunto de los cromosomas 7, 19 y 20 y de amplificación focal eventos en el cromosoma 1 y 12; eventos importantes a gran escala de deleción en 6q brazos cromosómicos, 9p, 15q, sobre los cromosomas completos 10, 13, 14 y 22; y supresión eventos focales en el cromosoma 1. Además, RAE encontraron eventos significativos focales de amplificación en el cromosoma 14, así como supresión eventos focales significativas en el cromosoma 11. Por el contrario, logís- encontraron diferentes eventos de amplificación focales adicionales en los cromosomas 3 y 4. La figura 3 incluye un resumen de los resultados, así como una comparación con los eventos de amplificación de deleción y se encuentran por tanto de estos análisis.

las pistas horizontales muestran el CNA identificado por tres primeras iteraciones de nuestro método, en comparación con los que se encuentran por logís- y RAE. La pista media representa los cromosomas, con los números pares de cromosomas anotado. Las ganancias se indican en rojo y en azul las pérdidas.

Como se muestra en la Figura 3, la mayoría de los eventos se encuentran tanto en la RAE y análisis logís- se encuentran por las dos primeras iteraciones de nuestro método, incluyendo todas las grandes evento -scale identificadas por estos métodos. Las excepciones incluyen un pequeño evento de amplificación en el cromosoma 12, los eventos en el cromosoma 1 (donde nuestro método de acuerdo con la comprobación de la RAE y logís-) y un evento de amplificación en el cromosoma 4, que se encuentra en la tercera iteración.

partición iterativa revela novela CNA apoyada por estudios independientes de glioblastoma

Más allá de la recuperación de casi todo el CNA identificado por métodos como la RAE y logís-, nuestro algoritmo de partición iterativa encontrado una serie de eventos significativos que no fueron descubiertos por los análisis anteriores de este conjunto de datos . Estos eventos incluyen una amplificación de todo el cromosoma 1, un evento de eliminación, en conjunto, los cromosomas 9, 15, 16 y 21, así como una deleción del brazo 19q.

Algunos de estos eventos han sido documentadas en estudios de conjuntos de datos de número de copias independientes, tales como la supresión en el brazo 19q [31], [32] y del cromosoma 16 [33]. La deleción del cromosoma 21 se ha asociado previamente con glioblastoma [34], y se ha propuesto que la baja incidencia de glioblastoma en los pacientes con síndrome de Down está vinculada a la trisomía del cromosoma 21 que caracteriza a esta condición genética [35]. Aquí, nos encontramos con la deleción cromosómica asociada con un muy pequeño grupo (6 muestras), y la baja frecuencia presumiblemente explica por qué esta aberración se perdió por los análisis previos. La deleción del cromosoma 15 incluye realmente el deleción en el brazo 15q encontrado en los análisis anteriores. La forma de la centroide para esta partición muestra que la amplitud de la deleción es más pequeña en el resto del brazo q y en el brazo p, y es posible que la deleción del cromosoma completo no fue encontrado por RAE o logís- debido a la menor amplitud .

Para identificar los genes que están bien correlacionados con la CNA, se realizó un análisis de la importancia microarrays (SAM) utilizando el paquete de SAMR. Para cada grupo, etiquetamos cada muestra de acuerdo con su etiqueta (dentro o fuera de la agrupación de interés) y miramos el número de genes de la región de la CNA que fueron significativamente underexpressed diferencialmente en el caso de una eliminación, o sobreexpresa significativamente en el caso de una amplificación. Los cálculos se realizaron utilizando el estadístico t, 100 permutaciones y el método Tusher [36].

Nuestros resultados, resumidos en la Tabla 1, muestran que en la mayoría de los casos, un gran número de genes tenían niveles de expresión que se correlacionan significativamente con la asignación de muestras al clúster que alberga el CNA. Cabe señalar que la relación entre la expresión y el número de copias es complejo, y que la ausencia de correlaciones significativas no excluye la presencia del CNA, especialmente en casos en que el bajo recuento de genes o muestras hace que esta correlación estadísticamente difícil de probar.

La novela CNA descubierto por nuestro análisis se correlacionan con varios genes importantes. Por ejemplo, la deleción del cromosoma 16, los 19q13.2-19q13.43 regiones, y el cromosoma 21 se correlacionó significativamente con la disminución en la expresión de los genes supresores del cáncer-candidatos, respectivamente CBFB [37], [38] o CDH11 [39] , TFPT [40] y DSCR1 [35], dando evidencia adicional en apoyo de estos eventos.

Varios conjuntos de aberraciones cromosómicas frecuentes muestran una alta correlación

Una de las ventajas de nuestro método en comparación con Scorecard enfoques basados ​​tales como RAE y logís- es que se realiza un encargo de muestras a grupos - o, más precisamente, identifica CNA encontrando al mismo tiempo los grupos de muestras que los albergan - que hace que sea más fácil identificar qué muestras se ven afectados por los cuales frecuentan CNA . Estamos asociados a cada muestra una serie de frecuentes CNA sobre la base de sus asignaciones de racimo en el procedimiento de partición iterativa basada en el cromosoma. Hemos encontrado que las co-ocurrencias de CNA frecuentes dentro de una muestra eran comunes; de hecho, la mayoría de las muestras (249 de 345) contenía 2 o más frecuente de la CNA enumeran en la Tabla 1.

Además, examinó co-ocurrencias de pares de CNA frecuentes, y se encontró que 31 pares puede se considerará correlacionados (es decir, con una intersección de asignaciones de muestras mejor de lo esperado por las frecuencias de fondo) con la prueba exacta de Fisher (ver Figura complementario S1).

un simple análisis de estos pares significativos reveló que éstos CNA correlacionada puede en realidad ser visto como tres grupos de compañeros de ocurrencias:

la amplificación del cromosoma 7 y su evento amplificación focal asociada, la deleción en 9p, la supresión de los cromosomas 10, 13 y 14, así como las amplificaciones en los cromosomas 19 y 20 son altamente correlacionados.

la supresión de 6q se correlaciona bien con el evento de amplificación focal en el cromosoma 7, así como con la supresión en 9p.

la deleción en el cromosoma 22 está bien correlacionada con la amplificación del cromosoma 7 (pero no con el evento focal asociada), la deleción del cromosoma 10 y la deleción del cromosoma 14.

Discusión

recuperación de la CNA se perdió por las estadísticas de resumen

Algunos de los nuevos CNA glioblastoma que encontramos son buenos ejemplos de cómo nuestro método mejora el resumen estadístico se aproxima, como RAE y logís-. Por ejemplo, la deleción del cromosoma 15 sólo ha sido visto en el brazo q por RAE y logís-. Cuando se analizó el perfil del centro de gravedad de un grupo identificado por nuestro método, hemos visto una eliminación menor amplitud en el brazo, así p. Debido a esta baja amplitud, cada sonda por sí sola no tendría una deleción media significativa en toda la serie de datos y que, por tanto, se puede perder por una estadística de resumen. Sin embargo, como todas las sondas para los cromosomas se ven afectados, la eliminación debe ser considerado como un importante CNA y se identifican fácilmente por el enfoque.

Como segundo ejemplo, la supresión de la región tiene 19q2-19q13.3 no se ha encontrado por otros métodos aplicados al conjunto de datos TCGA, a pesar de que se ha confirmado como un evento de eliminación por estudios anteriores. Aquí, el problema parece ser el hecho de que la misma región también está presente como un evento de amplificación en un número mayor de muestras, que confunde la detección de esta supresión por una prueba estadística de resumen. Por último, la supresión de todo el cromosoma 21 es de suponer que se perdió por otros métodos, ya que es presentes en sólo un pequeño número de muestras (6 muestras o 2%). Sin embargo, ya que este evento es una deleción de todo el cromosoma y, por tanto, con el apoyo de muchas sondas, intuitivamente debería ser mucho más significativa que un evento más pequeño pero del mismo modo poco frecuente. De hecho, la importancia de este CNA se confirma por estudios previos que vinculan la trisomía 21 en el síndrome de Down a menor prevalencia de glioblastoma, así como por la correlación con la subexpresión de un candidato tumor-supresor gen presente en esta región.

recuperación de eventos focales

la figura 3 muestra que a pesar de que la primera iteración de nuestro algoritmo parece centrarse en grandes aberraciones, las siguientes iteraciones son capaces de encontrar eventos focales tales como los que están en los cromosomas 3 y 4, y que nuestro algoritmo es por lo tanto capaz de encontrar eventos focales, así como las grandes. El único evento focal cuya presencia es acordado por ambas RAE y logís- y que nuestro método no es capaz de encontrar es el que está en el cromosoma 12. En cuanto a los datos en bruto nos muestra que este evento es compartida por aproximadamente 40 muestras pero sólo afecta al 2 sondas, lo que hace que una señal difícil de encontrar cuando se mira a múltiples sondas. Sin embargo, al restringir el análisis a un pequeño intervalo centrado en el evento (300kbp o 40 sondas), hemos sido capaces de identificar el evento común utilizando nuestro algoritmo de agrupamiento de máxima margen (ver Figura suplementaria S2), lo que sugiere que nuestro método podría quizás ser se utiliza junto con una ventana deslizante para mejorar la detección de eventos muy pequeños.

Análisis de muestras con alto nivel de ruido y la inestabilidad genómica

Los perfiles de número de copias glioblastoma que analizamos aquí tienen relativamente pocos eventos CNA y por lo tanto proporcionar un caso de prueba favorable para el análisis computacional. conjuntos de datos de número de copia para otros tipos de cáncer han demostrado ser mucho más problemática. Por ejemplo, un estudio reciente de número de copias de adenocarcinoma de pulmón [8] compila un conjunto muy grande (400 muestras), pero difícil de datos, donde la señal a ruido varió considerablemente en muestras - potencialmente debido a la contaminación del estroma - y una fracción considerable de muestras mostrado numerosos eventos. Los autores comisario de las muestras en tres niveles basada en la calidad de la señal y el análisis restringido a los mejores niveles. A pesar del gran número promedio de eventos por las muestras, el estudio identificó sólo unas pocas regiones alteradas en un número significativo de muestras, con el CNA más común (amplificación del cromosoma 14q13.3) sólo está presente en el 12% de los mejores terceros (nivel superior ) de sus muestras. Hemos aplicado nuestro método para este conjunto de datos adenocarcinoma de pulmón para ver cómo se llevaría a cabo en un entorno de alto ruido. Dado que la asignación original de muestras a niveles no estaba fácilmente disponible, hicimos un primer análisis de la transferencia de todo el conjunto de datos - sin tratar de reducir a las muestras más limpias - utilizando los mismos parámetros que utilizamos en el conjunto de datos TCGA. Curiosamente, la primera iteración del algoritmo reparte cada cromosoma en dos grupos que contienen exactamente las mismas muestras (con), con un grupo que consiste en muestras con una señal fuerte, pero muy ruidoso y las otras muestras que contienen con una señal débil. Este resultado sugiere que nuestro método puede ser capaz de distinguir automáticamente la calidad de la señal.

La elección inicial de los parámetros No se encontró ninguna aberraciones significativas a un valor de corte de 0,05, posiblemente debido a la diferente gama plataforma, así como las diferentes propiedades estadísticas de los perfiles de número de copias (ver Figura complementario S3 y el cuadro complementario S1). Sin embargo, el uso de nuestro algoritmo con un conjunto diferente de parámetros (y) en el cromosoma 14 permitió a encontrar la amplificación de 14q13.3, aunque sólo en 6 muestras (2% del número total de muestras) y con una indicación de valor débil () . Aquí, la presencia de un gran grupo de muestras muy ruidosos en el conjunto de datos puede ser responsable de la degradación de la indicación de valor. A pesar de que no fuimos capaces de comparar directamente al análisis original de las muestras más nivel, este análisis rápido en el conjunto de datos es bastante alentador, en el que hemos sido capaces de recuperar el principal resultado sin un
ad hoc
curación de las muestras.

posibles extensiones algorítmicos

el análisis anterior también pone de relieve el impacto de la elección de los dos parámetros de restricción, y (ver Métodos), que determinan el grado de diseminación y piecewise- constantness, respectivamente, de los clasificadores lineales. Elegimos los parámetros para el estudio del glioblastoma heurística y recuperamos eventos más conocidos, así como varios novedoso y plausibles CNA. Sin embargo, la exploración completa de este espacio de parámetros podría dar resultados adicionales; por ejemplo, para predisponer el algoritmo para encontrar eventos focales, uno podría tratar de hacer que la restricción de escasez más estrictas. Varias estrategias pueden ser utilizadas para optimizar la elección de los parámetros, incluyendo el uso de un bucle de validación cruzada. Para aplicar este enfoque, habría que elegir un método apropiado para estimar la calidad de los racimos: estimadores estándar están estrechamente vinculados a las funciones objetivo optimizados por los algoritmos de agrupación tradicionales (como means), que no tienen en cuenta las propiedades de copiar perfiles de número (es decir, las correlaciones espaciales, escasez de eventos supresión /amplificación). Sin embargo, tal bucle de validación cruzada también implicaría el tiempo de computación más largas. Este coste podría reducirse en gran medida si hemos sido capaces de calcular la ruta completa regularización del lazo fusionado en una sola pasada, como otros eran capaces de hacer con el lazo original [41] y [42] SVM problemas de optimización.
<

El conocimiento de la salud

Encuentra cáncer de piel melanoma y sobrevivir!

A El melanoma cáncer de piel, puede afectar a cualquier pe

La diabetes y su enlace a Cancer

Hay muchas posibles complicaciones asociadas con la diabetes

No permitimos malignidad devastar su estilo de vida

! Nos deslizamos muy a menudo por debajo de nuestras metas y

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]