Extracto
El cáncer de ovario es una enfermedad heterogénea presentan alteraciones genómicas complejas y, en consecuencia, ha sido difícil determinar las alteraciones del número de copias más relevantes a la escala de los estudios realizados hasta la fecha. Se obtuvieron los datos de todo el genoma número de copias alteración (CNA) de cuatro plataformas diferentes SNP serie, con un conjunto de datos finales de 398 tumores de ovario, en su mayoría del subtipo histológico seroso. aberraciones CNA frecuentes dirigidos muchos miles de genes. Sin embargo, los amplificados de alto nivel y deleciones homocigóticas habilitado el filtrado de esta lista a los más relevantes. El gran conjunto de datos habilitada refinamiento de regiones mínimas y la identificación de los amplificados raras como en 1p34 y 20q11. Se realizó un nuevo análisis de co-ocurrencia de evaluar la cooperación y la exclusividad de la CNA y analizamos su relación con la evolución del paciente. asociaciones positivas fueron identificadas entre las ganancias los días 19 y 20q, 20q y ganancia de pérdida de X, y entre las diversas regiones de la pérdida, en particular 17q. Se encontraron correlaciones débiles de la CNA en loci genómicos como 19q12 con el resultado clínico. También se evaluaron las medidas de inestabilidad genómica y encontramos una correlación del número de altas ganancias de amplitud con una peor supervivencia global. Mediante el ensamblaje de la mayor colección de datos de número de copias de ovario hasta la fecha, hemos sido capaces de identificar las aberraciones más frecuentes y sus interacciones
Visto:. Gorringe KL, George J, Anglesio MS, M Ramakrishna, Etemadmoghadam D, Cowin P, et al. (2010) el número de copias análisis permite identificar nuevas interacciones entre loci genómico del cáncer de ovario. PLoS ONE 5 (9): e11408. doi: 10.1371 /journal.pone.0011408
Editor: I. King Jordan, Instituto de Tecnología de Georgia, Estados Unidos de América
Recibido: 11 Febrero, 2010; Aceptado: 16 de abril del 2010; Publicado: 10 Septiembre 2010
Derechos de Autor © 2010 Gorringe et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo fue apoyado por el Consejo de Investigación médica de Australia Nacional de Salud y; Breast Cáncer victoriana Consorcio de Investigación (VBCRC), Australia; y el Departamento de Defensa (DOD), Estados Unidos de América. JG es apoyado por un Premio de Australia de Postgrado. MR es apoyado por un Consejo de Cáncer de Victoria Posgrado Becas. Esta investigación también fue apoyada por una beca de estilo victoriano Ciencias de la Vida Iniciativa de Computación (VLSCI) de su Fondo de pico Computación de la Universidad de Melbourne y de las agrupaciones de estilo victoriano de Computación Avanzada (VPAC). Ovárico australiana Cancer Study (AOCS) fue apoyada por el Ejército de Estados Unidos y de Investigación Médica de Material Command bajo DAMD17-01-1-0729, The Cancer Council Victoria, Queensland fondo del cáncer, el cáncer Consejo de Nueva Gales del Sur, Australia El Consejo del Cáncer del Sur, la Fundación de cáncer de Australia occidental, el Consejo de cáncer de Tasmania, y el Consejo Nacional de la Salud y la Investigación médica de Australia (NHMRC). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción cáncer de ovario
epitelial (EOC) es una de las enfermedades más letales, con una alta recurrencia y las tasas de supervivencia pobres [1]. Las aberraciones genéticas observadas en EOC son muy complejos, que comprende aneuploidía frecuente y los cromosomas se multiplican reordenados [2], [3]. La heterogeneidad de las alteraciones del número de copias (CNA) observados en EOC ha hecho que sea difícil para los pequeños estudios para poder identificar con precisión la verdadera frecuencia de la CNA o menos común para identificar de forma reproducible CNA que se correlacionan con parámetros clínicos. Una muestra de tamaño pequeño también hace que sea difícil identificar CNA que co-existen o son excluyentes entre sí, lo cual es un requisito previo para identificar cualquier vías comunes que pueden estar desregulados en EOC través de alteraciones en el número de copias del gen. El paradigma de las aberraciones que se excluyen mutuamente dirigidas a la misma vía se encuentra en tumores colorrectales para
APC
y
CTNNB1
mutaciones [4] y ampliado en otros ejemplos como la exclusividad de los
BRAF
y
KRAS
mutaciones [5]. Por el contrario, otras aberraciones genéticas se observan con mayor frecuencia en el mismo tumor que se habría esperado por azar, lo que sugiere un efecto cooperativo, por ejemplo, la asociación significativa de 11q13 y 8p12 amplicones en cáncer de mama [6]. En el cáncer de ovario, las asociaciones se han encontrado entre los
CCNE1
y amplificación 12p [7], y entre los
MYC Opiniones y 20q amplificación [8] por fluorescencia
In situ
hibridación. Pocos estudios han examinado co-operatividad o complementación de la CNA en un nivel de todo el genoma. Se descubrió que las pérdidas en 4q y 18q estar asociada en un estudio [9], pero esto no se replicó en un análisis reciente [10], que identificó 7 asociaciones CNA y 6 anti-correlaciones.
La presencia de alta amplificaciones de genes nivel en el cáncer de ovario se ha observado desde hace algún tiempo, sin embargo la mayoría de los estudios han tenido el poder suficiente en tamaño de la muestra [10] o resolución genómica [11], [12] para detectar con precisión la frecuencia y el objetivo de estos eventos. Del mismo modo, se han identificado algunas asociaciones sólidas de la CNA con parámetros clínicos como la supervivencia [13], [14]. La detección de estos CNA es relevante no sólo para la identificación de subgrupos de tumores y las vías afectadas en los tumores, sino también para la focalización de terapias moleculares en el cáncer de ovario. En este estudio hemos reunido una gran cohorte de polimorfismo de un solo nucleótido (SNP) matriz de datos de mapeo para anotar robusta CNA en los cánceres de ovario seroso y endometrioide con el fin de identificar los genes que dirigen estos eventos genéticos y cómo éstos se relacionan con los parámetros clínicos. Además, hemos evaluado la interacción de la CNA mediante la evaluación de sus asociaciones y las asociaciones anti-
Materiales y Métodos
Peter MacCallum Cancer Centre (PMCC): conjunto de datos. Las muestras de tejido y ADN de extracción
Todas las muestras se recogieron con el consentimiento informado del paciente y el estudio fue aprobado por todos los hospitales participantes Comités de Ética de investigación Humanos. Los pacientes con cáncer de ovario fueron identificados a través de cuatro fuentes primarias entre 1992 y 2006: a) 53 en los hospitales de Southampton, Reino Unido, b) 141 a través del Estudio de Cáncer de Ovario de Australia, incluyendo 20 desde el tejido Westmead Oncología Ginecológica del Banco, c) 15 a través de la PMCC Banco de Tejidos (Melbourne, Australia) yd) de la Universidad de Jikei 41 (Tokio, Japón). revisión de la patología se llevó a cabo, ya sea, el tejido en parafina fijado en formol incorporado y /o secciones congeladas frescas adyacentes al tejido del que se extrajo el ADN (n = 141) o el examen de los informes de patología de diagnóstico original (n = 109) (Tabla 1 , el cuadro S1).
Todas las muestras de tejido fueron recogidos como material fresco congelado. Un representante de hematoxilina y eosina sección teñida y se evaluó muestras con & gt; se utilizaron directamente 80% de células epiteliales para la extracción de ADN de todo el tejido. Para el resto, de agujas o láser disección se realizó utilizando 10 micras secciones para obtener el componente de las células epiteliales del tumor alto porcentaje. Se extrajo el ADN como se describe anteriormente [14], [15]. ADN normal extraído de linfocitos de sangre estaba disponible para 106 pacientes
El Atlas del Genoma del Cáncer (TCGA) conjunto de datos:. Las muestras de tejido y ADN de extracción
Las muestras se recogieron como material congelado fresco de los hospitales de la EE.UU. (n = 163). muestras tumorales fueron evaluados para ser & gt; 80% de las células epiteliales antes de la extracción de ADN de todo el tejido, tal como se describe [16]. DNA normal extraído de linfocitos de sangre estaba disponible para 161 pacientes. Los resultados aquí publicados se basan en parte en los datos generados por el proyecto piloto del Genoma del Cáncer Atlas establecido por el Instituto Nacional del Cáncer y el NHGRI. Información sobre el TCGA y los investigadores e instituciones que constituyen la red de investigación TCGA se puede encontrar en http://cancergenome.nih.gov.
Copiar matrices numéricas
se procesaron
Las muestras como se ha descrito anteriormente para Affymetrix arrays Asignación a) n = 108 50 K
Xba I
[14], GSE 13813 b) n = 27 250 K
Sty
arrays c) n = 32 500 K arrays (250 K
Sty
I y 250 K
NSP
I, [17]) d) n = 83 SNP6.0 (1,8 M sonda fija [15], [18], GSE19539). Cuando también se analizó el ADN normal disponible, a juego en la misma plataforma de matriz y en el mismo lote. archivos TCGA SNP6.0 CEL para 163 muestras fueron descargados desde el Portal de Datos (http://tcga-data.nci.nih.gov/tcga/homepage.htm).
Datos de pre-procesamiento y análisis
Todas las matrices de mapeo SNP se normalizaron en primer lugar utilizando métodos disponibles en el paquete R "aroma.affymetrix" [19], incluidas las técnicas para eliminar sesgos sistemáticos introducidos como consecuencia de la diafonía alélica, PCR sesgo longitud de los fragmentos y las diferencias en el contenido de GC . se estimó el número de copias de ADN establece en cuanto la sonda mediante la comparación de la señal normalizada a partir de una muestra de tumor de datos de ADN de linfocitos normales del mismo paciente, si está disponible. En muestras de tumores para los que emparejado tejido normal no estaba disponible, la señal media de todas las normales generados en el mismo laboratorio se utilizó como referencia. pasos de control de calidad se describen en Métodos S1. Sólo las muestras incluidos se resumen en la Tabla 1.
El método de segmentación binaria circular se utiliza para segmentar los datos normalizados de copia [20], [21]. Cualquier sonda fija dentro de un CNA que estaba presente en & gt; 5% de las muestras normales se excluyeron del análisis del tumor antes de la segmentación para eliminar común copia polimorfismos de número (CNP). Los segmentos con menos de 10 conjuntos de sonda (SNP6) o 5 conjuntos de sonda (500 K) se fusionaron con el segmento adyacente del número de copias lo más cerca que el anterior QPCR análisis sugiere que las aberraciones representados por pocas sondas en estas plataformas pueden no ser fiables [17]. Además, se utilizó Genomic identificación de objetivos significativos en Cáncer (logís-), que es un método que agrega datos a través de diferentes tumores para tratar de diferenciar entre conductor y pasajero aberraciones, prevalencia y la combinación de amplitud [22]. Esta técnica se ha realizado mediante una interfaz basada en la web (http://genepattern.broadinstitute.org) con umbrales de la CNA de ± 0,3, un mínimo de 10 marcadores y un umbral q-valor de 0,25.
Para jerárquica el agrupamiento, todos los tumores se evaluaron para la presencia ( "1") o ausencia ( "0") de cada alteración pico logís- (n = 89), donde cualquier superposición se consideró como la presencia. La agrupación jerárquica utilizando euclidiana promedio de la agrupación de las muestras (n = 398) se ha realizado mediante Partek Genómica suite V.6.4 (Partek Inc., St. Louis, MO).
Asociación entre las regiones de aberraciones
Se realizó el análisis de asociación en el conjunto de datos TCGA (para lo cual volvieron a realizar logís-) y luego en el resto de muestras. Dos métodos diferentes se utilizaron para calcular las asociaciones entre las regiones de ganancia y la pérdida. logís- resultados se resumieron como una matriz X con tumores como filas y regiones de aberraciones como las columnas. Para cada tumor (t) y la región focal de la aberración (i), la medición X [t, i] era 1 si la aberración estaba presente para ese tumor y 0 de otro modo. Un modelo log-lineal de Poisson se ajusta a la tabla de contingencia que describe el estado de la aberración. La significación estadística de la asociación se calculó utilizando una prueba de puntuación que se obtiene un nivel normal z-estadística [23]. Esto es equivalente a la raíz cuadrada de la estadística de prueba habitual de Pearson para la independencia, firmado de acuerdo con la dirección de la asociación. El método de Benjamini y Hochberg se utilizó para corregir las múltiples pruebas [24].
Asociación entre las regiones de aberraciones También se puso a prueba mediante la prueba de permutación de Monte Carlo. En resumen, todas las columnas de la matriz X fue permutada de forma independiente (manteniendo el número de entradas en las columnas a ser lo mismo). Una puntuación para la asociación se calculó utilizando la matriz permutada como se describe para la prueba paramétrica anteriormente. El rango promedio obtenido para cada par de regiones de un gran número de permutaciones se utilizó para estimar la tasa de falso descubrimiento y el número de veces que una estadística de ensayo superior o por encima de la estadística de prueba original se utilizó para calcular el valor de p. Utilizando una tasa de falso descubrimiento 5% los métodos seleccionados & gt; 98% de los mismos pares de regiones. Se optó por utilizar el primer método descrito para selección de región, pero ambos son denunciados.
El análisis de correlaciones de expresión entre el número de copias aberraciones asociado
postuló que la correlación entre las regiones de aberraciones deberíamos dar lugar a la correlación de los niveles de mRNA de los genes dentro de la región. U133A Affymetrix serie de datos se obtuvieron para todas las muestras de TCGA. Para todas las regiones asociadas anteriores, se realizaron cuatro pruebas de correlación de Pearson para los genes en las regiones: a) la correlación del número de copias entre el gen X en la Región A y Gene Y en la Región B, b) la correlación entre el número de copias y la expresión del gen X en región a, C) correlación entre el número de copias y la expresión del gen y en la región B y D) la correlación de la expresión de genes entre X e Y. génica Las cuatro pruebas tenían que ser significativas a p & lt;. 0,05
Asociaciones de supervivencia
el modelo de riesgo proporcional de Cox se utilizó para calcular la asociación entre las regiones de la aberración detectados por logís- y global o la supervivencia libre de progresión, la corrección de múltiples ensayos utilizando el método de Benjamini-Hochberg. Para calcular la asociación de supervivencia con pares de regiones, las muestras se clasifican en cuatro grupos basados en el estado de la aberración de los pares de regiones. Del mismo modo, para las medidas genómicas, las muestras se binned en uno de cuatro grupos basados en los datos cuartiles para cada medida. asociación de la supervivencia con los grupos así identificados fue calculada utilizando el modelo de riesgos proporcionales de Cox.
Resultados
Integración de las alteraciones del número de copias a partir de 398 carcinomas de ovario
número de copias de alta resolución
Hemos compilado datos de casi 400 muestras de cáncer de ovario representan dos subtipos histológicos, serosa y endometrioide (Tabla 1), 270 de las cuales habían emparejan datos de ADN de linfocitos normales. Los datos se compiló a partir de múltiples fuentes: archivos de alta calidad de Affymetrix SNP6.0 Asignación de matriz "CEL" se obtienen a través del Genoma del Cáncer Atlas (TCGA, 157 casos) o se obtuvieron en el Centro de Cáncer Peter MacCallum (83 casos [18]) Asignación de SNP matriz de datos derivados de las plataformas de Affymetrix menor resolución, incluyendo 108 casos ensayaron en 50 K
Xba I
arrays [14], 27 casos en 500 K arrays [15] y 23 casos en 250 K
Sty
también se incluyeron las matrices I obtenidos de Japón,. criterios de control de calidad extensas se aplicaron a todos los conjuntos de datos (ver Métodos S1). Tras la normalización de cada conjunto de datos, alteraciones en el número de copia (CNA) se detectaron mediante segmentación binaria circular [21]. Se evaluó una serie de posibilidades para combinar los conjuntos de datos que incluyen umbrales por cohortes específicas (ver Métodos S1), sin embargo esto hace poca diferencia en el patrón final de la CNA y un umbral estándar de +/- 0,3 (log
2) se aplica universalmente como se ha descrito previamente por nosotros [17] y otros [10].
Comparación entre las cinco fuentes de datos mostró una notable consistencia de la CNA en todo el genoma, lo que indica un alto grado de falta de aleatoriedad a la CNA y por igual importante, la ausencia de efectos significativos matriz lotes (Figura S1). La excepción fue el conjunto de datos japonesa, que parecía mostrar un número reducido de alteraciones. Sin embargo, se llevó a cabo una prueba de todo el genoma para identificar las regiones aberrantes a diferentes frecuencias entre diferentes plataformas y no pudo identificar ningún regiones estadísticamente significativas después de la corrección de múltiples ensayos.
Se ha evaluado la posibilidad de subgrupos moleculares dentro de la cohorte combinada definida por número de copias utilizando la agrupación jerárquica (Figura S1). Sólo un único grupo de muestras fue distinguible; éstos tenían pocas CNA y tendían a ser las muestras de bajo grado o las muestras japoneses, para los cuales la información de grado no era en su mayoría disponibles. No hubo otros grupos distintos o grandes agrupaciones atribuibles al subtipo histológico o grado. En particular, el endometrioide serosa y alto grado de alto grado se uniformemente integrado, que es consistente con la similitud observada previamente de estos subtipos tal como se evaluó mediante marcadores inmunohistoquímicos [25] y los perfiles de expresión de genes [26].
Para para identificar las CNA más relevantes que realiza una serie de análisis complementarios, ya que cada método utilizado tiene puntos fuertes y débiles, que pueden complementarse por la otra. En primer lugar, logís- se aplicó a los 240 SNP6 muestras para identificar "focales" y picos "grandes" (como se define en [22]) (Figura 1, Tabla S2). Sin embargo, logís- no puede integrar fácilmente muestras de diferentes plataformas. Por lo tanto, decidió utilizar un segundo método complementario a logís-: un enfoque global que integre la frecuencia segmentada número de copias de datos independiente de la plataforma para el análisis de toda nuestra cohorte de 398 muestras. Como era de esperar, las regiones más importantes de aumento de número de copias predichos por tanto logís- y frecuencia general se encuentran en 3q (63% de las muestras con ganancia CN) y 8q (62% de las muestras con ganancia CN) (Figura 1). No se observaron otras ganancias frecuentes en 20q (47%) y 12p (39%). Las regiones más frecuentes de pérdida identificados en este estudio (cromosomas X, 8p, 22q, 17, 4q, 19P y 16, & gt; 40%) son consistentes con estudios previos por nosotros [15] y otros [10], [27] . Para seleccionar los genes más relevantes, que en primer lugar, presentamos los de las regiones de ganancia y la pérdida de al menos el 30 Frecuencia% o en picos logís- y genes luego identificados que también fueron blanco de los eventos de mayor amplitud, incluso si esto fue a una frecuencia más baja (Tabla S2 ). Puesto que no hay un consenso claro sobre lo que constituye una amplificación de "alto nivel", nos informan de las regiones con ganancias frecuentes al iniciar la sesión
2 ratios de & gt; 0,6 (en 40 o más muestras, 10% +), & gt; 0.8 ( 5% +) y & gt; 1 (2,5% +). Para las pérdidas, se consideró que las deleciones homocigóticas (log
2 proporciones de & lt; -1) presentes en al menos 4 muestras. La lista de genes se da prioridad teniendo en cuenta la frecuencia de gran amplitud CNA y la superposición con logís- (Tablas 2 y 3). regiones específicas de la ganancia se muestran en las Figuras S2, S3, S4, S5, S6, S7 y
.
Ganancias (A) y (D) las pérdidas en 240 muestras de matrices analizadas por SNP6 logís-. Ganancias (B) y (C) las pérdidas en 398 muestras en diversas plataformas de gama. segmentos de muestra estaban comprometidos en Partek Genómica suite v 6.4, la creación de un punto de datos para cada segmento definido por los puntos de interrupción de número de copias, y luego se trazan por número de muestras.
En el uso de esta flexibilidad enfoque, se encontró que algunas regiones sólo fueron claramente identificados por uno u otro método. Con la inclusión de una serie de umbrales NC de mayor amplitud y los picos predicha por logís-, regiones adicionales se identificaron como las ganancias en los cromosomas 1, 6p, 11q, 19 y pérdidas en 5q, 6q26, 10q23, 18q22 y 13q. Además, en las plataformas de alta resolución tales como la matriz SNP6, logís- tendía a identificar regiones muy pequeñas, lo que potencialmente falta genes pertinentes. Por ejemplo, en 3q26 había dos picos muy próximas entre sí de importancia en el perfil logís- (Figura S2). El más alto de estos, por un margen muy estrecho (valor q -log 93.88
vs
. 93.43), no intersecta con ningún gen, mientras que el otro pico se superpone con
MECOM gratis (
MDS /EVI1
); hay buena evidencia para este gen es un oncogén en el cáncer de ovario [28]. Por lo tanto, basándose en logís- solo sería anotar la región 3q26 como no tener genes de interés. Por el contrario, el uso de un enfoque de frecuencia, la frecuencia máxima en los umbrales del número de copias engloba
MECOM
.
Del mismo modo, hubo otras regiones para las que utilizando un enfoque de frecuencias perdidas o genes dieron datos contradictorios. Por ejemplo, en 19q12, cada umbral de número de copia identificó una región ligeramente diferente de la frecuencia de pico, la identificación de diversas
CCNE1
,
C19ORF2
o ningún gen en el pico (Figura S3). Por el contrario, la capacidad de logís- para integrar la amplitud de ganancia en todas las muestras claramente identificado
CCNE1
como el gen en el pico. Existe buena evidencia de que
CCNE1
es la llamada correcta, ya que la ciclina E es una proteína clave del ciclo celular y su amplificación y sobreexpresión se ha identificado previamente como un factor clave de la respuesta del paciente a la quimioterapia en el carcinoma de ovario seroso [14 ]. Las principales conclusiones que surgen de nuestro análisis de deleciones y amplicones individuales, incluyendo ideas sobre los posibles genes conductor, se proporcionan en la Discusión.
Las asociaciones entre las alteraciones NC
El concepto de alteraciones genéticas cooperativos y mutuamente excluyentes rara vez se ha examinado a nivel de CNA o en un genoma de gran escala. Nos hubiera gustado saber si hay algún CNA que cooperan en la tumorigénesis de ovario, o que son funcionalmente redundantes entre sí, por ejemplo si actúan en la misma vía. Para medir esto se evaluó si había alguna CNA que eran más o menos probable que esté asociado con el uno al otro, más que por casualidad, el uso de un análisis estadístico. En pocas palabras, se contó el número de muestras positivas para la CNA (por ejemplo, una ganancia) en la región A solas, la región B solo, ambas regiones y ni región, y compararon los resultados a la co-ocurrencia esperada basándose en la frecuencia total de la CNA en A multiplicada por la frecuencia de B. por ejemplo, para una frecuencia de ganancia en 20q11 de 68/183 (37%) y en 19q12 de 50/183 (33%), esperaríamos que el 12% de las muestras de tener tanto las ganancias. Sin embargo, se observa una frecuencia real de muestras con ambas alteraciones que es significativamente diferente de este, es decir, 35/183 (19%, p & lt; 0,0001), lo que indica un aumento de la co-ocurrencia por encima del nivel de azar y por lo tanto posiblemente cooperar CNA. El método también se puede utilizar igualmente para detectar disminuciones de co-ocurrencia. Al aplicar este método en todo el genoma, se aplicó una corrección de múltiples ensayos con un FDR de. & Lt; 5%
Se realizó este análisis en primer lugar utilizando los datos del TCGA, ya que es más homogénea de grado y subtipo, y es de alta resolución. Hemos repetido el análisis logís- en este conjunto de datos por sí solo para obtener 46 picos de aumento de número de copias y la pérdida de 27 (con exclusión de las regiones de variación del número de copia normal, o polimorfismos de número de copias (CNPS)). Las muestras fueron identificados como positivos o negativos para cada pico de la CNA, con picos de ganancia puntuados como positivos para sólo las ganancias y los picos de pérdida anotó como positivo para sólo pérdidas, y se realizó un análisis de asociación como se describe en los métodos. A una tasa de falso descubrimiento del 5%, 305 pares de regiones de la aberración se correlacionaron positivamente y 18 pares se correlacionaron negativamente (Tabla S3, Figura 2). Algunos picos logís- concurrentes se encuentran dentro de la misma región logís- amplia y aunque el análisis logís- indicaron que estas regiones de cambio de número de copia eran distintos, ya que están estrechamente vinculados físicamente puede que no sean independientes entre sí. Como es necesaria independencia para realizar la prueba de asociación, no se analizaron más. También se excluyeron aquellas asociaciones en las que sea alta tuvieron un CNP, dejando 98 pares de regiones que estaban correlacionados positivamente, todos menos 16 de los cuales fueron localizados en diferentes cromosomas de armas (Tabla 4). 12 pares de regiones se correlacionaron negativamente.
El procedimiento (A) para identificar aberraciones asociadas (más detalle en Métodos S1). (B) Resumen de las asociaciones significativas en cada conjunto de datos y las que sean importantes en ambos. A medida que progresa la mesa, algunas asociaciones se filtran, con los números restantes los que pasan el filtro. En primer lugar, loci asociados que están dentro de la misma amplia logís- región intra-cromosómico se eliminan y en segundo lugar se eliminan las regiones que se superponen con un CNP. plot (C) Circos. anillo exterior indica la posición de cada aberración cromosómica (barras de color). Las líneas de color púrpura internos demuestran las asociaciones inter-cromosómicas importantes (excluyendo las que implican un CNP) que han sido validados en el segundo conjunto de datos.
Con el fin de validar las asociaciones identificadas usando TCGA de datos, se repitió el análisis de asociación con las mismas regiones definidas "logís- TCGA" que el anterior en todas las demás muestras serosas y endometrioide de alto grado (n = 183). Para este conjunto de datos, 296 regiones se correlacionaron positivamente y 5 se correlacionaron negativamente. En general, 29 asociaciones positivas y negativas no estaban en común entre los dos conjuntos de datos (Figura 2). De estos, 14 eran asociaciones entre dos ganancias, 11 de los cuales estaban en el mismo cromosoma, y 14 asociaciones eran entre dos pérdidas. Ninguna de las asociaciones de pérdida de pérdida fueron intra-cromosómico, porque todas las asociaciones de este tipo fueron excluidos ya sea por estar ubicado en la misma región logís- amplia o por ser un CNP; De hecho, más de las pérdidas de pico logís- eran CNP (n = 35) en comparación con las ganancias (n = 15) probablemente debido a la pérdida de efecto de desenmascaramiento de heterocigosidad tiene en la detección de CNP en el tumor [29]. Había una sola asociación entre una ganancia y una pérdida, entre una amplificación de 20q11 y la pérdida de Xq. La asociación positiva más fuerte entre las ganancias en diferentes cromosomas era para amplificaciones en el cromosoma 19q12 (muy probablemente la orientación
CCNE1
) y en 20q11 (cinco genes). Para las pérdidas, la asociación más fuerte era común entre el cromosoma 4q y el cromosoma 17q12 17. pérdida fue el interactor más promiscuos, con 8 asociaciones positivas comunes.
Se identificaron los genes encuentra en o cerca de los picos asociados positivamente y se utiliza la expresión génica los datos para evaluar si alguno de los genes mostraron correlación entre el número de copias y la expresión, y si hubo correlación en el nivel de expresión génica a través de regiones (Tabla S4). Se encontró que las asociaciones más fuertes entre las regiones de genes obtenidos en 19q12 o 19p13.11 involucrados, y los genes ganaron en 20q11. Otras asociaciones de expresión génica positiva incluyen
CD47 gratis (adquirida en 3q13.12) con
UQCRFS1
o
POP4 gratis (ambos ganaron en 19q12). CD47 fue identificado por primera vez como un antígeno tumor de ovario [30], sin embargo no existe una asociación funcional conocida, ya sea con 19q12 pareja.
Correlación con parámetros clínicos y los resultados
Hemos utilizado los datos clínicos para TCGA evaluar la relación del número de copias y la evolución del paciente mediante un análisis univariado de Cox de riesgos proporcionales de los picos logís- (Tabla S5). Ganancia en 3q29 se asoció con la supervivencia global, sin embargo, esta correlación no fue significativa después de la corrección de múltiples ensayos. NC asociaciones positivas de 17q12 /22q pérdidas y 3q13 /19q12 ganancias fueron cada correlacionados con la supervivencia global, pero no la supervivencia sin progresión (Tabla S5).
Los patrones específicos de copia cambio de número y la inestabilidad genética que se correlacionan con los resultados del paciente, incluyendo simplex, diente de sierra y tormenta de fuego, se han descrito en el cáncer de mama [31]. Los patrones de aberraciones cromosómicas en el cáncer de ovario son difíciles de clasificar en los grupos descritos por Hicks
et al
. ya que la mayoría son una combinación de dientes de sierra y la tormenta de fuego. Por lo tanto, hemos definido una serie de diferentes medidas de inestabilidad del genoma analizado y su correlación con la evolución del paciente utilizando el conjunto de datos TCGA (cuadro S5). Estas medidas incluyen: el número de número de copias cambia ganancias es decir, pérdidas, ganancias de nivel superior (& gt; 0,6 log
2 amplitud) y el número total de segmentos; el porcentaje del genoma dirigida por el cambio de número de copias (ganancia, pérdida y ganancia de alto nivel); y un "índice de Hicks" tal como se describe [31] para las ganancias, pérdidas y ambas cosas. Las muestras se dividieron en cuartiles basados en cada uno de estos índices y las pruebas de asociación con el resultado clínico mediante un análisis univariado de Cox de riesgos proporcionales. De estas medidas, sólo el número de aumentos de amplitud mayor (p = 0,019) mostró una correlación con la supervivencia libre de progresión, pero no la supervivencia global (Figura S8). El porcentaje del genoma engloba en las ganancias de nivel superior no fue significativa (p = 0,88), lo que sugiere que no es la proporción de ADN amplificado, pero el número de eventos de amplificación que es más importante.
Discusión
La aneuploidía y aberraciones citogenéticas han sido reconocidos como sellos distintivos de cáncer. En los cánceres epiteliales, las alteraciones del número de copias se han demostrado para ser conductores del fenotipo del cáncer a través de la amplificación y la sobreexpresión de oncogenes como
erbB2
y la pérdida de los supresores de tumores tales como
CDKN2A
. El cáncer de ovario es a la vez heterogénea y citogenética compleja por lo que es difícil de descifrar las regiones genómicas fundamentales afectados por la CNA. Estudios previos en general han tenido el poder suficiente con respecto a la resolución y /o número de la muestra, a lo sumo que comprende alrededor de 100 casos [10], [11], [12]. Este estudio reúne una gran colección de los carcinomas de ovario perfilados para el número de copias, que hemos analizado utilizando tanto enfoques de frecuencia logís- y para proporcionar una anotación definitiva de alteraciones del conductor. regiones clave se resumen en las Tablas 2 y 3, mientras que un catálogo más amplio, que abarca la unión de ambos métodos se da en la Tabla S2. Debido a la gran cantidad de genes y regiones involucradas, no es posible responder a todas en detalle, sin embargo, las regiones mencionadas a continuación ilustran algunas de las ideas derivadas de trabajar con este gran conjunto de datos.
Nos elegido para usar enfoques analíticos complementarios como cada técnica tiene sus propias fortalezas y debilidades: un enfoque de frecuencia para las regiones como 3q26 fue más capaz de identificar el gen controlador probable,
MECOM
, mientras que para 19q12 la capacidad de logís- para integrar la magnitud de copiar el número de ganancia para cada muestra identificada
CCNE1
. Utilizando un enfoque escalonado de frecuencia en concierto con logís- proporciona una mayor profundidad de entendimiento en regiones complejas para las que no hay ningún controlador clara. Estudios previos han identificado una amplificación en el cromosoma 11 en el 18% de los cánceres de ovario, y han propuesto que el gen objetivo de este evento es
EMSY gratis (
C11ORF30
) [32]. En otros tipos de cáncer, como el cáncer de mama, la amplificación pico en esta región puede ser diferente, dirigido a
EMSY
y /o
CCND1
[33], [34]. En los datos presentados aquí, el amplicón principal no parece estar orientado a
CCND1
, que es & gt; 5 Mb fuera de la región de pico (figura S4). Logís- identifica un pico que abarca cuatro genes (
THRSP
,
NDUFC2
,
Alg8
y
KCTD21
), la amplificación de los cuales se ha demostrado en el cáncer de mama que se correlaciona con la expresión sobre-y pobre supervivencia [35]. El gen más atacado con frecuencia por la ganancia de bajo nivel es
GAB2 gratis (30%).