Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: Las regiones específicas del genoma diferencialmente se ven afectados por alteraciones del número de copias entre los tipos de cáncer diferentes, en Agregada citogenético de datos

PLOS ONE: Las regiones específicas del genoma diferencialmente se ven afectados por alteraciones del número de copias entre los tipos de cáncer diferentes, en Agregada citogenético de datos


Extracto

Antecedentes

alteraciones del número de copias genómicas Regionales (CNA) se observan en la gran mayoría de los cánceres. Además dirigido específicamente conocidos, oncogenes canónicas, CNA también puede desempeñar un papel más sutiles en cuanto a la modulación genéticos potencial y amplias patrones de expresión génica de los tumores en desarrollo. Las diferencias significativas en los patrones generales de la CNA entre los diferentes tipos de cáncer pueden apuntar hacia lo tanto, los mecanismos biológicos específicos que actúan en esos tipos de cáncer. Además, las diferencias entre los perfiles de la CNA pueden resultar útiles para las clasificaciones de cáncer más allá de los sistemas existentes de anotación.

Principales conclusiones

Hemos analizado los datos moleculares-25579 citogenética de tumores muestras, que fueron clasificados en 160 el cáncer tipos de acuerdo con la Clasificación Internacional de Enfermedades (CIE) sistema de codificación. Al corregir las diferencias en las frecuencias globales CNA entre los tipos de cáncer, se encuentran a menudo los cánceres relacionados a agruparse de acuerdo a las similitudes en sus perfiles CNA. Sobre la base de un enfoque de asignación al azar, se utilizaron medidas de distancia de los dendrogramas de racimo para identificar aquellas regiones genómicas específicas que contribuyeron significativamente a esta señal. Este enfoque identificó 43 regiones genómicas no neutros cuya propensión a la aparición de alteraciones del número de copias varía con el tipo de cáncer en cuestión. Sólo un subconjunto de estos loci identificados se superponía con anterioridad, implícitas (hot-spot) regiones desequilibrio altamente recurrentes citogenéticas.

Conclusiones

Por lo tanto, para muchas regiones genómicas, un simple hipótesis nula de independencia entre el tipo de cáncer y el número de copias alteración de frecuencia relativa puede ser rechazada. Desde un subconjunto de estas regiones se vea relativamente bajas frecuencias globales CNA, pueden apuntar hacia objetivos de segundo nivel genómicas que son de forma adaptativa relevante, pero no necesariamente esencial para el desarrollo del cáncer

Visto:. Kumar N, Cai H, von Mering C, Baudis M (2012) regiones genómicas específicas son diversamente afectados por alteraciones del número de copias entre los tipos de cáncer diferentes, en agregada citogenético de datos. PLoS ONE 7 (8): e43689. doi: 10.1371 /journal.pone.0043689

Editor: Patrick Tan, Duke-Universidad Nacional de Singapur Escuela de Medicina de Graduados, Singapur

Recibido: 30 de abril de 2012; Aceptado: 23 de julio de 2012; Publicado: 24 Agosto 2012

Copyright: © Kumar et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Financiación:. Los autores no tienen financiación o apoyo al informe

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción

Los cambios genéticos tales como mutaciones puntuales, el número de copias regional alteraciones /aberraciones (CNA) y cambios estructurales (por ejemplo, eventos de fusión de genes) son todas las características del cáncer. CNA surgen como cambios somáticos en el genoma de la célula tumoral a través de una variedad de mecanismos y puede ser observado en prácticamente todos los tipos de cáncer, en un grado variable. Hasta ahora, los métodos más utilizados para la detección de CNA han sido las técnicas cromosómicas y basadas en matrices de hibridación genómica comparada (CGH) [1] - [4]. Localizada, recurrentes CNA (hot-spots) han demostrado que el objetivo oncogenes canónicas (por ejemplo duplicaciones /amplificaciones del MYC, MYCN, REL loci) o genes supresores de tumores (por ejemplo, deleciones del gen CDKN2A /B, loci TP53, ATM). Algunos regional CNA como las ganancias en 8q y pérdidas en 3p están presentes en varios tipos de cáncer, mientras que otros desequilibrios pueden ser restringidos en gran parte a un número limitado de entidades de cáncer [5].

Los conjuntos de datos integrados a través de múltiples tipos de cáncer tienen previamente analizada, reportar regionales "puntos calientes" del CNA frecuentes [5], [6]. En un determinado conjunto de muestras de tumores individuales, el número y la distribución de la CNA varía considerablemente [5] y esta heterogeneidad genética se ha utilizado para detectar y reportar concurrentes CNA [7].

En principio, los patrones específicos y similitudes en los perfiles individuales y /o enfermedad específica CNA podrían apuntar a mecanismos oncogenómicas distintas que actúan en diferentes tipos de cáncer y muestras, dado un número suficientemente grande de puntos de datos. De hecho, la agrupación de los patrones de CNA se ha utilizado para identificar las similitudes oncogenómicas [5], [8] - [11]. La adaptación de las técnicas de agrupación para el análisis de los patrones de CNA ha sido objeto de estudios anteriores [12] - [14]. Con unas pocas excepciones [5], [14], sin embargo, basado en la agrupación de la muestra ha sido el foco principal de este tipo de estudios hasta el momento. Por el contrario, nosotros aquí exploramos la agrupación de tipos de cáncer, no de muestras de cáncer individuales.

Tanto los análisis descriptivos y basados ​​en clustering de la CNA a través de múltiples tipos de cáncer sufren de un sesgo hacia los acontecimientos que ocurren con mayor frecuencia. Debido a la heterogeneidad de la señal global CNA, con frecuencias que varían en gran medida promedio de CNA por tipo de cáncer (Figura 1a), agrupación resultados pueden estar distorsionados en función de las entidades de la enfermedad analizados. Esta variación en las frecuencias globales de la ocurrencia de la CNA a través de los tipos de cáncer puede ser simplemente debe a las diferencias en los puntos de tiempo promedio de detección clínica o en diferentes características de progresión, y debe corregirse para antes de los análisis de agrupamiento. A lo mejor de nuestro conocimiento, hasta el momento no se ha informado aplicación para un amplio análisis de la agregación, a muy gran escala de perfiles cáncer CNA frecuencia normalizada.

Boxplots muestran las distribuciones de frecuencias de la CNA entre muestras de tumores en el 10 al azar seleccionados tipos de cáncer. Las delimitaciones diagrama de caja marcan los percentiles 5%, 25%, 75% y 95%. Las líneas rojas indican la frecuencia media para cada tipo de cáncer, mientras que la línea azul representa la frecuencia media global a través de los 160 tipos de cáncer analizados aquí. los valores de frecuencia se definen como la relación del número de muestras que muestran un CNA para una región genómica (es decir, bandas citogenéticas) sobre el total de muestras en ese tipo de cáncer. a) antes de la normalización b) Después de la normalización. En b) la distribución de frecuencia nominal para cada tipo de cáncer es re-escalado de manera que su media coincide con la media general en todos los tipos de cáncer. (NOS - "no especificados en otra": clasificaciones de orden superior, no se haya asignado aún a niveles más detallados) guía empresas
A continuación, nos centramos en la identificación de regiones genómicas que contribuyen de manera significativa a la agrupación de cáncer. tipos. De aquí en adelante nos referiremos a las regiones como "no neutrales". Como punto de partida de nuestro análisis, utilizamos la agrupación jerárquica para organizar los tipos de cáncer en función de sus perfiles de frecuencia CNA. entonces Empleamos un enfoque de permutación para estimar la contribución relativa de las regiones genómicas individuales para la calidad de la agrupación y al árbol relación derivada. La calidad de la agrupación se infiere de una medida intrínseca (rama longitudes sumadas: Estadísticas altura de los árboles), y las regiones genómicas que rechazar la hipótesis nula se denominan no neutral. regiones identificadas son comparados con canónicas CNA hot-spots (es decir, aquellos que se producen con mayor frecuencia en todo el conjunto de datos).

Nuestro análisis actual se basa en datos de un total de 25579 muestras, que se clasifican en 160 cáncer de diferente entidades (tabla S1) de acuerdo con la Clasificación Internacional de Enfermedades en Oncología (CIE-O 3). Nuestro enfoque es único, ya que a) se centra menos en la agrupación como tal, sino más en las regiones genómicas individuales que mejor soportan la agrupación, b) utiliza una medida de la calidad intrínseca acoplado a una estrategia de combinación para la validación, c) lleva a cabo la CNA normalización de frecuencia antes del análisis, y d) se basa en un conjunto de datos muy grande, procesada en una configuración estandarizada. Nuestro objetivo para la identificación de potenciales regiones conductor /moduladores específicos de cáncer, que pueden no haber sido detectados en la anterior, los enfoques centrados en gran medida-hot-spot. Todos los datos del cáncer subyacente es disponible a través de nuestro repositorio Progenetix (www.progenetix.org; [15]).

Resultados

La frecuencia global media de CNA a través de todo el genoma varía entre los diferentes tipos de cáncer (Figura 1a). Puesto que el peso relativo de CNA en regiones genómicas individuales en un tipo de cáncer dado depende de la frecuencia global de todo el genoma observado, agregamos todas las muestras de pacientes por tipo de cáncer y se normalizaron las frecuencias de CNA para cada tipo de cáncer a la media global observada a través de la todo el conjunto de datos (Figura 1b, la figura S1). Los perfiles normalizados de frecuencia CNA A continuación, se agruparon utilizando la agrupación jerárquica.

Para evaluar la calidad y la señal biológica en la agrupación, que etiquetan cada tipo de cáncer con su tipo de célula "raíz" (es decir, un tipo de célula indiferenciada la cual el tumor probablemente se originó). Esperábamos cánceres del mismo tipo de células de la raíz a agruparse; Esto se utilizó como un proxy externo para las relaciones biológicas esperadas entre entidades de cáncer. El Índice de Random [16] se utilizó para calcular esta medida de la calidad de clúster externo. Los tumores del mismo tipo de células de hecho a menudo agrupados juntos, por lo general en 2-3 grupos pequeños (Figura 2). La consistencia de esta agrupación fue significativamente mayor de lo esperado al azar, que señala hacia diferencias biológicamente significativos en los perfiles de CNA entre los tumores de orígenes distintos. Cortar el árbol en varias alturas siempre dirigidas a una mejor calidad observada de la agrupación que era mejor que el valor aleatorio esperado (Figura 2), excepto por el corte en el nivel más alto, lo que resultó en sólo tres grupos. Esto aboga fuertemente en contra de un patrón de ocurrencia completamente neutral del CNA en el genoma, y ​​apoya una correlación entre los grupos biológicamente significativas de entidades de cáncer y sus perfiles CNA.

a) ejemplos de segmentos de cromosomas individuales, mostrando sus frecuencias observadas CNA estratificada por tipo de célula. Cada punto se resumen todas las muestras clasificadas en un tipo particular, CIE, un código de colores según el tipo de células de la raíz. En el panel izquierdo, tres segmentos de cromosomas se muestran que presentan fuertes diferencias entre los tipos de células; a la derecha, tres ejemplos negativos sin una señal de este tipo. Todos los p-valores fueron corregidos para múltiples pruebas de acuerdo con Benjamini-Hochberg. b) el dendrograma (árbol) se ha obtenido utilizando la agrupación jerárquica Ward, en los perfiles de la CNA frecuencia normalizada globales en todos los 160 regiones genómicas. tipos de cáncer son de nuevo un código de colores de acuerdo con el tipo de célula de origen, con la misma leyenda como en a). Partición del árbol cortando a diferentes alturas produce varios clústeres; validación de los grupos basados ​​en el origen del cáncer (métrica: Índice Aleatorio) muestra que la agrupación funciona significativamente mejor de lo esperado al azar

randomizations de todo el plomo matriz de frecuencia a una pérdida completa de la señal. presente en la agrupación de árboles (Figura S2), y también redujo fuertemente la longitud de las ramas del árbol de la altura estadística sumada.

CNA no neutral

la matriz de frecuencia normalizada y en clúster que abarca 160 a gran escala regiones genómicas y 160 tipos de cáncer se muestra en la Figura 3. para determinar la cantidad de cada región genómica individuo contribuye a la señal en general, nos aleatorios individualmente su perfil a través de los tipos de cáncer, mientras se mantiene el resto de los datos sin cambios. A continuación, examinó la reducción concomitante en las estadísticas de la longitud del árbol (TLS) del dendrograma de agrupamiento, a 100000 randomizations independientes, para determinar la significación estadística de la contribución de esa región. Las regiones de la CNA-divergente de cáncer resultantes son importantes ya que no pueden ser totalmente neutra y tienen el potencial para definir las relaciones entre los tipos de cáncer. De hecho, 43 de las 160 regiones del genoma (Tabla S1) se observa que tienen una contribución no neutral (corrección de Bonferroni p-valor) en los datos agregados del cáncer CNA. Tenga en cuenta que los eventos de pérdidas y ganancias fueron tratados de forma independiente, y no se observó ningún sesgo preferencial hacia las ganancias o pérdidas entre las regiones no neutrales detectados (22 ganancias y pérdidas 21). Las frecuencias de ocurrencia de la CNA de las regiones genómicas no neutrales extienden a fondo todo el espectro de frecuencias (Figura 4). Sólo 13 fueron encontrados (8 aumentos y 5 pérdidas) de las regiones no neutros alterados en general con más frecuencia de lo normal (Figura 5, intersección de rectángulo negro y gris), lo que indica que subconjunto de regiones críticas alteradas con frecuencia llevan una señal detectable para distinguir el cáncer tipos (el número de regiones alteradas con frecuencia se sitúa en el 59; Bonferroni corregido p-valor, el cuadro S1). Esta observación pone de relieve nuestro punto clave que no sólo las regiones frecuentes CNA deben ser utilizados para agrupar y anotar los tipos de cáncer.

a) Mapa de calor de los perfiles de la CNA en ciertas regiones del genoma (la misma agrupación como en la Figura 2). genómica lugares están representados con el color naranja cuando se considera duplicaciones /ganancias, y en azul cuando se considera deleciones /pérdidas. La intensidad del color muestra las frecuencias relativas de la CNA; la región más afectada en cada fila se establece arbitrariamente el color al más brillante (1.0) con fines de exhibición. b) regiones pequeñas (rectángulos negros en el mapa de calor) se amplían para mostrar cómo CNA no neutral puede diferenciar entre los tipos de cáncer. El ejemplo muestra que 7q se obtiene preferentemente en tumores cerebrales (etiquetas rojas) Considerando que es preferentemente pierde en células germinales (etiqueta negra), mieloide y tipos de cáncer mieloproliferativos (etiquetas azules). c) regiones pequeñas (rectángulos rojos en el mapa de calor) se amplían para mostrar cómo se 8q preferentemente pierde en medullublastomas (etiquetas verdes) y se obtiene preferentemente en tumores epiteliales (etiquetas rosadas). Algunos cromosomas consisten enteramente de regiones no neutros (tales como cromosomas 18 y 7). Tenga en cuenta que la resolución espacial de los datos de la CNA en el cromosoma es limitado (aproximadamente correspondiente a la resolución banda citogenética).

regiones genómicas (bandas) se clasifican de acuerdo a su frecuencia global de CNA observado. Esas regiones que son informativos con respecto al tipo de cáncer agrupación están marcados con flechas. a) Teniendo en cuenta duplicaciones (ganancias) b) Teniendo en cuenta deleciones (pérdidas).

Genómica regiones afectadas por el CNA, ya sea con más frecuencia de lo normal (rectángulo negro), o no neutral con respecto al tipo de cáncer clasificaciones (rectángulo gris). La intersección define regiones que se ven afectadas tanto con frecuencia y no neutral. Los cambios son codificadas por colores (ganancias en naranja y pérdidas en azul).

Se encontraron 22 intervalos de genómica a través de 12 cromosomas para ser informativo al considerar específicamente duplicaciones /ganancias solamente (Tabla 1 y Figura 5). Los tres segmentos genómicos del cromosoma 18 (18p1, 18p2, 18q2) exhibieron una señal. Para otros cromosomas, tales como el cromosoma 1 (1q2,1q3,1q4,1p2), cromosoma 3 (3Q1, 3Q2, 3P1), cromosoma 12 (12q1,12q2) y el cromosoma 21 (21p1, 21q1) más de 50% de las regiones genómicas se informativo como ganancias, lo que sugiere la participación simultánea de múltiples loci de estos cromosomas. Los cambios en el cromosoma 1 (1p2), el cromosoma 3 (3P1, 3Q1), el cromosoma 5 (5q2, 5q3), el cromosoma 9 (9p1), el cromosoma 11 (11p1), el cromosoma 12 (12q1, 12q2), el cromosoma 18 (18p1, 18q1 , 18q2) y el cromosoma 21 (21p1, 21q1) fueron informativas selectivamente sólo como ganancias. En términos de deleciones /pérdidas, se encontraron 10 cromosomas que abarca 21 regiones genómicas que no neutral. Al igual que para el cromosoma 18 aumentos, se encontró que el cromosoma 7 completa (7P1, 7P2, 7q1, 7Q2, 7q3) para ser informativos cuando se pierde (Tabla 1). regiones informativos en el cromosoma 1 (1p1,1q1, 1q2, 1Q3, 1q4) y el cromosoma 9 (9q1, 9q3, 9P2) cubiertos más de 50% de los segmentos genómicos presentes en estos cromosomas. No se observaron pérdidas selectivas en el cromosoma 1 (1p1, 1Q1), el cromosoma 6 (6Q2), 7 (7q1, 7Q2, 7q3, 7P2), 8 (8q1, 8q2), 9 (9P2, 9q1, 9q3), 12 (12p1) , 16 (16q1). CNA que implican el cromosoma 1 (1q2, 1Q3, 1q4), el cromosoma 3 (3Q2), el cromosoma 7 (7P1), el cromosoma 19 (19p1) y el cromosoma 22 (22q1) fueron informativas tanto como eventos de pérdidas y ganancias. Esto representa una pequeña proporción (16%) de no neutral CNA. Participación de una región, tanto como la ganancia y la pérdida puede apuntar hacia múltiples loci de forma adaptativa relevante, y /o hacia una naturaleza generalmente inestable de estas regiones.

Cáncer divergente de la naturaleza no neutral CNA

para proporcionar algunos ejemplos de cáncer comportamiento de cambios no neutrales clasificación, se seleccionaron algunos de los cambios enriquecidos y los analizó para su ocurrencia específico en diferentes tipos de cáncer. Un ejemplo incluye entidades de cáncer que muestran las pérdidas predominantes frente a ganancias en 7q. No se observaron pérdidas preferenciales en los cuales 7q en células germinales, tumores mieloides y mieloproliferativas (Figura 3), mientras que los tumores cerebrales neuroepiteliales (entre otras entidades) que aparece preferentemente ganancias en 7q. Las pérdidas que implican 7q son comunes en mieloide y tumores mieloproliferativos [17] - [20] y están asociados con la edad avanzada y la resistencia a las terapias [21], [22]. Sin embargo, aquí se muestra que las pérdidas 7Q son bastante específicas para tumores mieloides y promueven su divergencia selectiva de otros tipos de cáncer. 7Q pérdidas en tumores de células germinales no habían sido exploradas en detalle [23], [24]. Con la acumulación de pérdidas 7Q prácticamente restringido a las neoplasias mieloproliferativas /mieloides y tumores de células germinales y en contraste con el cromosoma 7 (q) observaron aumentos en, por ejemplo tumores cerebrales neuroepiteliales, es tentador proponer la participación de al menos un mecanismo oncogénico común que actúe en estas malignidades clínicamente no relacionados.

El cromosoma 8q ganancias pueden ser observados en la mayoría de las entidades de cáncer [5], [6]. Sin embargo, en nuestras pérdidas 8q análisis fueron enriquecidos como eventos no neutrales. pérdidas preferenciales que implican 8q estaban presentes en algunos tumores cerebrales (por ejemplo, meduloblastoma, la Figura 3), que los separa de otros tumores epiteliales. Las diferencias en las pérdidas preferenciales implican 8q separaron tumores neuroepiteliales en dos categorías con las dos que tienen ganancias en 7q pero sólo uno (principalmente meduloblastomas) que tienen pérdidas preferenciales en 8q (Figura S3). Las pérdidas que implican el cromosoma 8q través de los meduloblastomas han sido reportados por algunos estudios [25] antes. Nuestro análisis muestra que las pérdidas 8q se seleccionan en algunos meduloblastomas y por lo tanto podría ser importante para el cáncer de desarrollo /progresión. las pérdidas preferenciales de 8q también fueron observados en los tumores de células germinales que los separa de otras neoplasias epiteliales (Figura S4).

Como otro ejemplo de los tipos restringidos CNA también hemos buscado en los cánceres que muestran las ganancias que implican el cromosoma 18. folicular linfomas exhibieron específica ganancias en el cromosoma 18, donde como tumores epiteliales preferido para el cromosoma suelta 18 (figura S4). Cromosoma 18 aumentos son muy comunes en los linfomas foliculares y se supone que proporcionan un mecanismo alternativo para la activación BCL2 [26], [27]. Sin embargo, aquí se muestra que este evento CNA estadísticamente los separa de otros tipos de cáncer.

Discusión

Nuestro estudio representa el análisis más grande realizado hasta la fecha en los datos de la CNA con cáncer, con el objetivo de detectar características oncogenómicas que pueden estar asociados específicamente o enriquecidas en ciertos subconjuntos de las entidades de cáncer. En contraste con los enfoques de genes centrada, nuestro análisis evalúa el espacio de la información completa de genómica desequilibrios número de copias de los experimentos de perfiles de todo el genoma.

En general, la frecuencia de CNA a través de intervalos genómicas variaron entre entre 0,01% a 23% ( Figura 4). La agrupación de los tipos de cáncer en base a sus perfiles de frecuencia ayudó a identificar una clase de señales moleculares subyacentes que es ortogonal a las clasificaciones histológicas o categorías clínicas (estos últimos son predominantemente impulsado por el afectado órgano /tejido). Los tipos de cáncer varían de unos a otros en su abundancia CNA, espectro del tamaño de la CNA y el grado de inestabilidad genómica. Con respecto a la cobertura genómica, grandes CNA generalmente son frecuentes en el cáncer [6] y no deben ser excluidos de los análisis estadísticos de los patrones del genoma del cáncer. Al comparar los perfiles de CNA de tipos de cáncer, su complejidad y la variación en las frecuencias tienen que ser considerados. Cuando la corrección de estos parámetros, CNA regionales que definen la divergencia de los perfiles generales pueden ser delineadas.

Se realizó un análisis de un cáncer CNA conjunto de datos globales, la identificación de 43 regiones genómicas en 15 cromosomas como importantes para la CNA perfil divergencia en tipos de cáncer. Obviamente, estos cambios no cubren todo el espectro de eventos CNA en el cáncer, pero definen un subconjunto de regiones genómicas que pueden tener un enlace posiblemente adaptativo a la biología distinta de diversos tipos de cáncer. Estas regiones se solapan bastante mal con las regiones de puntos calientes observados en muchos tipos de cáncer. Esto sugiere que las regiones de puntos calientes, aunque con frecuencia se asocia con oncogenes canónicos, no siempre pueden ser muy útiles para ayudar a la evaluación basada en datos de tipos de cáncer (sub).

Enfermedad estudios específicos tienen el potencial de detectar una espectro representativo de las aberraciones oncogenómicas en las entidades dadas. Se puede esperar que el tipo de cáncer de regiones específicas de relieve con nuestro enfoque ha sido discutido en el contexto de las respectivas publicaciones. Sin embargo, con nuestro estudio actual, nuestro objetivo es ofrecer un nuevo enfoque, generalizado en la identificación de elementos genómicos relevantes en la génesis del cáncer de entidades individuales. Aunque aquí mostrando un enfoque "global" sin entidad preselección, nuestra metodología puede resultar valiosa cuando la orientación de los separadores genómicas relevantes en limitados conjuntos de entidades, relacionadas biológicamente.

Desde el análisis actual se basa principalmente en los datos molecular citogenético desde cromosómicas CGH experimentos con una resolución espacial de varias megabases, sólo podía obtenerse información inferida sobre los genes causales presentes en las regiones no neutrales. Con próximo de alta resolución array genómico y /o datos de secuenciación, análisis similares se definen más específicamente los CNA no neutros y pueden ser puntos de partida valiosos para una integración de los resultados con los marcos de la vía funcionales. Hemos anunciado recientemente la creación y la disponibilidad pública de un recurso de referencia para los datos de la matriz oncogenómicas (www.arraymap.org [28]), que servirá como punto de partida para tales enfoques tanto de nuestro lado, así como de los miembros interesados ​​de la investigación comunidad. También, aunque nos hemos centrado nuestro análisis actual únicamente en un conjunto de datos de la CNA, nuestra metodología debería resultar particularmente valiosa cuando se combina con otros grupos de diagnósticos relacionados (por ejemplo, datos de mutación puntual), con lo que la asignación de posibles genes de controladores en las regiones no neutrales podría llegar a ser factible.

Materiales y Métodos

datos

Nuestro estudio se basa en el cáncer de bien anotado CNA datos del proyecto Progenetix [5], que incluye un total de 25579 muestras analizada por cromosómica (cCGH; 18708) y CGH array (aCGH; 6871) experimentos. Las muestras clínicas habían sido clasificadas en 160 entidades distintas de cáncer de acuerdo con la Clasificación Internacional de códigos de enfermedades (ICD). En el momento de la escritura, la colección Progenetix representa el mayor recurso para anotada, todo el genoma de la CNA de datos de perfiles en el cáncer.

En nuestro análisis, información regional de la CNA en todos los tipos de cáncer se redujo a 80 intervalos genómicas que cubren la totalidad genoma con la excepción de los cromosomas sexuales. eventos de pérdidas y ganancias se consideraron por separado para el análisis, lo que resulta en una matriz de dimensiones, donde es el número de muestras y es el número de intervalos genómicos (
es decir
160).

Cáncer Clustering

la frecuencia de los cambios de la CNA en todos los intervalos de genómica se calculó para cada tipo de CIE, y la matriz de frecuencia entera se normalizó (Figura S1). La matriz de frecuencia se ordenó mediante la agrupación jerárquica Ward. La distancia de separación entre las entidades agregada cáncer obtenidos usando la agrupación jerárquica se puede analizar mediante el análisis del árbol de la agrupación (dendrograma). El árbol representa la relación entre los grupos presentes en el mismo clado (similar a los árboles filogenéticos). aleatorizado de datos interrumpe el árbol por completo (Figura S2), y la estadística general de la altura del árbol se reduce de 3 veces, lo que refleja la pérdida completa de la información de pedido presente en el árbol original.

método para comparar Altura del árbol

Se utilizó la altura de los árboles como una medida intrínseca de comparar las asociaciones de cáncer obtenida utilizando la agrupación y para calibrar la información presente en el árbol; Esto se utilizó para definir CNA no neutral. Esto tiene ventajas sobre las técnicas tradicionales de evaluación de la agrupación, ya que a) no requiere información estándar de oro externa, y b) no requiere cortar el árbol a una distancia arbitraria. La altura total del árbol se define como la suma de todos los padres e hijos longitudes de trayectoria relación directa en el árbol. distancias de los árboles (longitudes de ramificación) generalmente reflejan las discrepancias perfil CNA entre dos tipos de cáncer (o grupos de tipos de cáncer). Para cualquier nodo, la altura de los árboles entre este nodo y su padre inmediato se puede medir como. La altura de los árboles en general de un árbol con nodos que se obtiene como = (figura S3).

estadísticas longitud del árbol (TLS).

Para identificar regiones genómicas que no son neutralmente afectados por la CNA hemos desarrollado la siguiente estrategia de permutación:

normalizadas de la ocurrencia de la CNA en todos los intervalos de genómica se calculan en todos los tipos de cáncer

el árbol de clasificación del cáncer se obtiene utilizando la agrupación jerárquica Ward

La observó durante toda la altura del árbol () se calcula como se ha mencionado anteriormente (Figura S5).

Un contador se pone a cero para cada intervalo de genómica en consideración.

para cualquier intervalo genómico, sus valores de estado se barajan entre todas las muestras manteniendo su frecuencia durante toda la misma ().

la frecuencia de la CNA en el intervalo de genómica se calcula de nuevo después de la aleatorización en todos los tipos de cáncer. El barajado en el paso anterior cambia la frecuencia de intervalo en todos los tipos de cáncer de mantenimiento de la distribución de frecuencia normalizada de todos los otros intervalos del genoma.

Las frecuencias para el intervalo en la matriz de frecuencia normalizada de la etapa uno se sustituyen con frecuencias permutados para este intervalo y la Altura total del árbol permutado () se calcula.

Si, C se incrementa como C = C + 1.

valor de p para la localización genómica, al final de N ( 100'000) permutaciones se calculan como.

p-valores en todas las bandas se corrigen para la tasa de falso descubrimiento utilizando la corrección de Bonferroni.

enriquecimiento por Frecuencia (FBE)

regiones CNA observa con frecuencia ( "hot-spots") son los cambios genómicos que ocurren con más frecuencia de lo esperado en virtud de un modelo nulo totalmente al azar. Tales CNA de puntos calientes pueden identificarse utilizando la función de probabilidad binomial [29]. Supongamos intervalo genómico muestra un CNA a través de muestras de muestras. La frecuencia CNA fondo () se puede representar como la media del cambio de frecuencia a través de todos los intervalos. El valor p de que la frecuencia de la CNA, es más que cualquier frecuencia () se obtiene utilizando la función de probabilidad binomial.
P-valores bajos
se asignan intervalos genómicas que muestran una gran desviación respecto a la media. Todos los valores de p se corrigen para la tasa de falso descubrimiento utilizando la corrección de Bonferroni.

Apoyo a la Información
Figura S1.
Método para la normalización de la CNA frecuencia a través de los tipos de cáncer. Todas las frecuencias entre los tipos de cáncer se normalizaron a la frecuencia media de los cambios realizados a través de todos los tipos de cáncer 160. Esta normalización se logró multiplicando las frecuencias de cáncer de tipo específico con un índice, cuyo valor se calculó como se muestra
doi:. 10.1371 /journal.pone.0043689.s001
(PNG)
Figura S2.
dendrograma de una matriz de frecuencia permutada. Para esta agrupación, se permutan las frecuencias entre los tipos de cáncer y luego se normalizó. a continuación, se realizó la agrupación jerárquica Ward y se obtuvo el árbol dendrograma mostrado. La altura de los árboles se ve gravemente afectada por la permutación. En este agrupamiento aleatorizado, similares tipos de cáncer ya no agrupados
doi:. 10.1371 /journal.pone.0043689.s002 gratis (PDF)
Figura S3.
pequeñas regiones de mapa de calor de la figura principal 3 se muestran aquí. Estas regiones representan las ganancias y pérdidas en 7q y 8q. cambios 8q diferenciar entre dos categorías de tumores cerebrales, con un subconjunto que muestra las pérdidas preferenciales en 8q (etiquetas verdes) y otra rara vez se muestra la participación de locus 8q (etiqueta roja). Por lo tanto, dependiendo de la participación 8q tumores neuroepiteliales se pueden dividir en dos categorías diferentes. Ambos muestran ganancias 7Q
doi:. 10.1371 /journal.pone.0043689.s003 gratis (PDF)
figura S4.
Ejemplos de regiones de la CNA no neutrales. a) Mapa de calor de los perfiles de CNA en regiones genómicas (el mismo que en la Figura 3). b) regiones pequeñas (rectángulos rojos en el mapa de calor) se amplían para mostrar cómo se pierde 8q preferentemente en las etiquetas (en negro) tumores de células germinales y se obtiene preferentemente en tipos de cáncer epitelial (etiquetas rosadas). c) regiones pequeñas (rectángulos negros en el mapa de calor) se amplían para mostrar cómo se gana 18q preferentemente en medullublastomas (etiquetas de café) y se perdieron preferentemente en tumores epiteliales (etiquetas rosadas). Los ejemplos muestran que aquí cómo dos cambios no neutrales diferentes tumores epiteliales diferenciales de los tumores de células germinales y los linfomas foliculares
doi: 10.1371. /Journal.pone.0043689.s004 gratis (PDF)
Figura S5. Cálculo de
sobre toda la altura del árbol. Representación esquemática de la rama de longitud Estadística de la altura del árbol sumada. La altura total del árbol se calcula mediante la suma de la distancia entre los padres y los nodos secundarios. Tenga en cuenta que las longitudes de las ramas de las ramas terminales ( "hojas") no se consideran. . La altura total del árbol =
doi: 10.1371 /journal.pone.0043689.s005 gratis (PDF) sobre Table S1.
tabla con información sobre los tipos de cáncer que se usan en el análisis, los valores de p de puntos calientes y no neutral. La tabla que indica los detalles sobre todos los tipos de cáncer que se usan en este análisis con los correspondientes números de las muestras en ellos y el tipo de célula de la raíz de cada cáncer. La tabla también tiene información sobre los valores de p no neutrales y hot-spot obtenidos para todas las bandas genómicas en el análisis
doi:. 10.1371 /journal.pone.0043689.s006 gratis (SAO)

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]