Extracto
hibridación genómica comparativa basada en Array (aCGH) es una poderosa técnica para la detección de la variación del número de copias del gen. Se considera generalmente que es robusto y conveniente ya que mide el ADN en lugar de RNA. En el estudio actual, combinamos número de copias de las estimaciones de los cuatro plataformas diferentes (Agilent 44 K, NimbleGen 385 K, Affymetrix 500 K y Illumina Human1Mv1_C) para calcular una, de alta resolución fiable, fácil de entender de salida para la medida de los cambios de número de copias en las 60 células de cáncer del NCI-DTP (NCI-60). A continuación relacionamos los resultados a la expresión génica. Explicamos cómo acceder a esa base de datos usando nuestra CellMiner herramienta web y proporcionar un ejemplo de la facilidad de comparación con la expresión del transcrito, la secuenciación del exoma, la expresión de microARN y la respuesta a 20.000 fármacos y otros compuestos químicos. A continuación, demostramos cómo los datos pueden ser analizados integratively con los datos de expresión de transcripción de todo el genoma (26,065 genes). La comparación del número de copias y de los niveles de expresión muestra una correlación global media-alta (r = 0,247 mediana), con correlaciones significativamente más altos (mediana r = 0,408) para los genes supresores de tumores conocidos. Esta observación es consistente con la hipótesis de que la pérdida de genes es un mecanismo importante para la inactivación de supresores de tumores. Se presenta un análisis integrado de los concurrentes número de copias de ADN y la expresión génica cambio. Limitar la atención a las ganancias o pérdidas de ADN focales, identificamos y revelamos los supresores de tumores novela candidatos a juego con alteraciones en el nivel de transcripción
Visto:. Varma S, Pommier Y, Sol M, Weinstein JN, Reinhold WC (2014) Alta resolución de copia Número datos de variación en los NCI-60 líneas celulares de cáncer de Whole Genome Microarrays accesibles a través CellMiner. PLoS ONE 9 (3): e92047. doi: 10.1371 /journal.pone.0092047
Editor: Kwok Wai-Lo, la Universidad China de Hong Kong, Hong Kong
Recibido: 17 de octubre de 2013; Aceptado: February 18, 2014; Publicado: 26 Marzo, 2014
Este es un artículo de acceso abierto, libre de todos los derechos de autor, y puede ser reproducido libremente, distribuir, transmitir, modificar, construir, o de otra forma utilizado por cualquier persona para cualquier propósito legal. El trabajo está disponible bajo la advocación de dominio público Creative Commons CC0
Financiación:. Este trabajo fue apoyado por el Centro de Investigación del Cáncer, Programa Intramural del Instituto Nacional del Cáncer. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:. Sudhir Varma es un empleado de HiThru Analytics LLC trabajando bajo contrato para los que proporcionan la bioinformática del NCI y servicios computacionales. Él no tiene otro interés comercial en la investigación publicada en este artículo. Margot Sol es un empleado de los Sistemas de Investigación y Aplicaciones (SRA) que trabajan bajo contrato con el Instituto Nacional del Cáncer, la prestación de servicios de computación y desarrollo web. Ella no tiene otro interés comercial en la investigación publicada en este artículo. Esto no altera la adhesión de los autores a todas las políticas de PLoS ONE sobre los datos y compartir materiales.
Introducción
El NCI-60 es un conjunto de 60 líneas celulares de cáncer ampliamente usados derivado de 9 tejidos de origen incluyendo cáncer de mama, sistema nervioso central, colon, pulmón, próstata, ovario y riñón, así como la leucemia y melanomas [1]. Nosotros, y otros, hemos hecho previamente los datos moleculares disponibles en múltiples plataformas para el NCI-60 [2] - [7], por lo que es un recurso único para ambos farmacogenómica [8], [9] y la biología de sistemas [10], [ ,,,0],11]. Estas líneas celulares retienen los patrones de expresión de genes de sus tejidos de origen cáncer original, como se demuestra por la co-clustering [4], y la comparación de muestras clínicas [12]. La capacidad de comparar la respuesta al fármaco y los datos genómicos de estas líneas celulares no tiene comparación con otras bases de datos celulares clínica o cáncer [8], [11], [13], [14].
Los estudios previos de copias de ADN número usando aCGH de múltiples líneas de células cancerosas y muestras clínicas han mejorado la comprensión de la variabilidad de ADN a nivel celular [15], así como que producen puntos de vista de la traducción [16]. aCGH proporciona una medición de la inestabilidad genómica [17], un sello de la carcinogénesis [18]. Las asociaciones entre el número de copias de genes y expresión también se han estudiado, en algunos casos rendimiento implicaciones en relación con los mecanismos de la progresión del cáncer [19], [20].
Los datos en múltiples plataformas de perfiles NCI-60 son accesibles a través de nuestra CellMiner aplicación web [21]. herramientas basadas en la Web Recientemente, hemos introducido que permiten la no bioinformático para evaluar y comparar las cruzadas bases de datos [8]. En el estudio actual, ampliamos esta capacidad integradora mediante la presentación de los datos de número de copias de ADN de alta resolución para el NCI-60 sintetizado a partir de la combinación de los datos de cuatro plataformas (Tabla S1), y lo colocó en un formato estereotipada de las otras formas de datos. Introducimos el "número de copias de ADN de genes"-herramienta web, diseñado para permitir la no bioinformático, para consultar, visualizar y descargar los datos relativos número de copias de ADN. La salida de esta herramienta facilita la integración del ADN de copia de datos con otras bases de datos, mejorando su capacidad de integración.
Analíticamente, proporcionamos mediciones de la variación del número de copias de ADN relativo dentro y entre las líneas celulares, calculamos una serie de medidas de inestabilidad genómica y correlacionar el número de copias de ADN en relación con los niveles de expresión génica. Proceder de acuerdo con la hipótesis de que las ganancias y pérdidas focales de cáncer son el resultado de una presión selectiva sobre la base de su efecto regulador en la expresión génica, se correlacionan los resultados del centro de coordinación de copias de ADN cambio de número, y la expresión de genes supresores de tumores para identificar putativo.
Materiales y Métodos
ADN
ADN fue aislado como se describe anteriormente [22]. En resumen, se purificó el ADN genómico a partir de células utilizando el Cell Culture QIAamp DNA Blood Maxi Kit, (Qiagen Inc., Valencia, CA) según las instrucciones del fabricante. La calidad se evaluó por la relación de la densidad óptica 260/280 utilizando un espectrofotómetro (Beckman-Coulter, Fullerton, CA) y por 0,8% de agarosa (SeaKem GTG, FMC Bioproducts, Rockland, ME) electroforesis en gel en 1 x TAE (Roche, Indianapolis, IN)
.
ADN el número de copias en el NCI-60 Usando cuatro plataformas de microarrays
número de copias de ADN para todos los genes se determinaron mediante la integración de las sondas de i) el Genoma humano Microarray CGH 44A (Agilent Technologies , Inc., GEO GPL11068 adhesión) con 44 k sondas, ii) la matriz CGH v2.0 H19 385K WG Forros (Roche NimbleGen Systems, Inc., GEO GPL13786 adhesión,), con 385 k sondas, iii) el GeneChip Human Mapping 500 k matriz de conjuntos (Affymetrix Technologies, Inc., GEO GPL3812 adhesión) con 500 k sondas, y iv) la matriz Human1 humano Mv1_C BeadChip (Illumina, GPL6983) con 1.100 k sondas. Los datos de estos microarrays se pueden alcanzar en CellMiner [21]. Además, los datos en bruto ha sido depositado en la Expresión Génica Omnibus (GEO) bajo los siguientes números de Agilent 44 k (GSE48568) Affymetrix 500 k (GSE32264), NimbleGen 385 K (GSE30291), Illumina 1 M (GSE47620).
Asignación de sonda e intensidades
las sondas para la Agilent, NimbleGen y Illumina arreglos fueron re-mapeados a la última referencia HG19 utilizando BLAST + (versión 2.2.25) [23]. Para el Affymetrix, se utilizó la última anotación descargado desde el sitio web de Affymetrix NetAffx [24]. Para cada plataforma, un promedio de las muestras replicadas (si está disponible, véase el cuadro S1). intensidad de la sonda se determinaron siguiendo las recomendaciones del fabricante como se ha descrito anteriormente para el Agilent [25], Roche NimbleGen [26], Affymetrix [27], y la iluminación [28] microarrays.
Para todas las plataformas, las intensidades de la sonda de registro cada muestra se normalizaron por la media-centrado, antes de todos los análisis posteriores. La media de las intensidades de la sonda de registro se restó de todas las intensidades de la sonda para esa muestra.
Segmentación de las regiones con Consistente Copy Number
La segmentación se refiere a la división de cada cromosoma en segmentos contiguos de tal manera que la el número de copias es el mismo dentro de un segmento y no hay una diferencia significativa en el número de copias entre los segmentos adyacentes. En nuestro análisis, hemos utilizado la Circular Binario Segmentación (CBS) [29]. CBS devuelve la intensidad media de la sonda dentro de cada segmento como una estimación del registro
2 de número de copias dentro de ese segmento. Por lo tanto un valor medio de intensidad de la sonda de cero correspondería a un número de copias medido de 2 N (es decir, diploides), un valor de -1 corresponde a copiar número 1 N y 1 corresponde a 4N.
Tenga en cuenta que el Affymetrix 500 k datos se han utilizado antes para detectar regiones de LOH (pérdida de heterozigosidad), sin embargo, el algoritmo utilizado para detectar las variaciones del número de copias era
pennCNV
que no es adecuado para la estimación del número de copias de todo el genoma para muestras de cáncer [30] . Tenemos, por lo tanto, volvió a analizar los datos mediante la Circular Binario Segmentación (CBS).
Combinación de número de copias Estimados de cuatro plataformas
Se utilizó un nuevo algoritmo que permite combinar las estimaciones del número de copias segmentado a partir de las cuatro plataformas para cada línea celular. Se utilizó la segmentación del número de copias para definir
puntos de ruptura en la unión de dos segmentos contiguos. En un punto de interrupción, un salto discreto (aumento o disminución) del número de copias se produce. Estos puntos se corresponden con las ubicaciones de roturas cromosómicas
Nos alineamos los puntos de corte de las cuatro plataformas para la misma línea celular utilizando el siguiente método:. Los puntos de interrupción de las diferentes plataformas que se encuentran dentro de 100.000 pares de bases entre sí y tienen el mismo dirección de la copia número cambio se corresponden entre sí. Este grupo Puntos de interrupción juntos desde diferentes plataformas que supuestamente se refieren a la misma ruptura cromosómica. Los puntos de ruptura que no se corresponden con ningún punto de interrupción desde otra plataforma se descartan. A continuación, se calcula un punto de interrupción promedio de cada grupo de puntos de corte coincidentes como la media de las ubicaciones de los puntos de corte de la plataforma diferente. Calculamos el
número medio de copias segmento
promediando los valores segmentados entre dos puntos de ruptura promediados adyacentes más de las cuatro plataformas.
Para cada gen, nos encontramos con el segmento en el que se encuentra. El número de copias del gen es el
medio de copias segmento número Opiniones de ese segmento. Esto asigna el número de copias estima que 41 o más líneas celulares de 23,413 genes
.
El número de copias estimaciones de los genes se compararon con el número de copias estimaciones de la línea celular de cáncer Enciclopedia (CCLE) [13] con 44 líneas celulares común a ambos conjuntos de datos. Hemos calculado la correlación de Pearson entre nuestra medición del número de copias y el número de copias CCLE a través de las líneas de células de 44 para cada gen.
Las ganancias y pérdidas prominentes y focales
Para identificar las regiones con el mayor , más visualmente sorprendentes ganancias y pérdidas, que establecen un umbral arbitrario de 1.5 en el registro absoluta
2 número de copias y se unieron a los segmentos que eran menos de 500 kilobases de distancia unos de otros (incluyendo cualquiera de los segmentos entre ellos).
para una identificación sistemática de todas las ganancias de copia focal número (o pérdidas) para cada muestra, se utilizaron los datos de la CBS (segmentados) para encontrar porciones del genoma que son más altos (o menor) que tanto sus vecinos izquierda y derecha . Se han utilizado tres criterios para llamar a una ganancia o pérdida focal: i) el segmento debe tener una diferencia en el registro
2 número de copias de al menos 0,3 por ambos sus vecinos izquierdo y derecho, tanto las diferencias son positivas o negativas; ii) la anchura del segmento debe ser inferior a 5 Mb; y iii) no debe haber más de 10 sondas de mapeo dentro del segmento. Cualquier gen que tiene solapamiento (parcial o total) con el segmento se llama focal gana o se pierde
Parámetros inestabilidad genómica
El uso de los datos de número de copia segmentados, se calcularon dos formas de inestabilidad genómica.; i) la proporción del genoma que se ha ganado o perdido y, ii) el número de ganancias y pérdidas. La proporción del genoma que se gana o se pierde se calculó sobre la base de los valores segmentados de la matriz CGH. Estimamos esto tomando la proporción de las sondas que caen dentro de los segmentos con intensidades medias absolutas superiores a 0,3 (una ganancia del número de copias de ADN o de pérdida de 0,46). El número de ganancias y pérdidas se calculó como el número total (de las regiones de ganancia /pérdida) con intensidades medias absolutas superiores a 0,3 con más de 10 sondas de mapeo para la región.
Determinación de la Expresión Génica y su correlación con el ADN Copy Number
expresión de 26,065 genes fue tomada como una puntuación z integrada de las mediciones de las plataformas de expresión de cinco genes, como se describe anteriormente [31]. Los genes con expresión de las puntuaciones z se emparejaron a los genes con el número de copias. Esto dio lugar a 18,504 genes con expresión y copiar estimaciones numéricas. el número de copias de estos 18,504 genes se compararon con la expresión génica mediante la correlación de Pearson (Tabla S3). El histograma de estas correlaciones se trazó utilizando
R gratis (versión 2.15.2). Se calcularon las correlaciones mediana de todos los genes, así como para los conjuntos de oncogenes y supresores de tumor conocidos,.
Evaluación de los supresores tumorales conocidas y putativas
Hemos seleccionado los genes basados en su reunión de cuatro criterios; i) la correlación estadísticamente significativa entre el número de copias y la expresión (Tasa de Falso Descubrimiento FDR & lt; 0,05), ii) el gen que se encuentra de manera focal gana o se pierde en al menos 3 muestras (ganancias focales y pérdidas como se define en la sección Segmentación), iii) la número de líneas celulares con pérdidas de actividad es de al menos 3 veces mayor que el número de líneas celulares con aumentos focales, iv) los genes eran más de 2 millones de pares de bases distancia de los supresores de tumores conocidos. Criterio 4 se utiliza para eliminar los genes "pasajero", cuya selección podría ser debido a la proximidad genómica.
Resultados
El CGH array de datos se puede acceder y visualizar usando el CellMiner "Gene número de copias de ADN" web de herramienta de análisis
para facilitar la extracción de los datos de número de copias de ADN NCI-60, se introduce una herramienta intuitiva para consultar y visualizar el conjunto de datos. Esta herramienta está disponible en nuestro sitio web CellMiner [21] dentro de las "NCI-60 Herramientas de análisis" pestaña (Figura 1A). Como se muestra en la Figura 1A, los usuarios seleccionar primero "firma Línea celular" en el paso 1, y luego "ADN de genes número de copias". En el paso 2, hasta 150 genes de interés pueden ser de entrada de orden escribiendo en los nombres de genes en la "Entrada del identificador" caja de texto, o subirlos como un archivo de texto o Excel utilizando el botón de opción "Subir archivo". En el paso 3, los usuarios introducen su dirección de correo electrónico y haga clic en "Obtener datos". Los resultados serán enviados por e-mail para cada gen, con un enlace para descargar un archivo de Excel. Este archivo contiene cuatro hojas de trabajo: i) "número de copias de ADN" que contiene tablas significan relaciones de intensidad (de la prueba de ADN en comparación con presunta normal) y una estimación del número de copias de ADN, y un diagrama de barras del número de copias de ADN estimados (Figura 1B), ii ) "salida gráfica" que contiene dispersión de las parcelas de las intensidades individuales sonda para el gen de interés, así como de acompañamiento región 2MB para cada línea celular (Figura 1C), iii) "entrada" que contiene los datos normalizados para aquellas sondas que caen dentro de una gen de interés (resaltado en amarillo), así como 2 × 10
6 nucleótidos de acompañamiento de la región en cada extremo, y iv) "notas al pie". La figura 1 muestra un ejemplo de 3 genes del cáncer relevantes (Figura 1A), CDKN2A que codifica la quinasa dependiente de ciclina inhibidor 2A (p16
INK4a, p19
ARF), que comúnmente se suprime en los cánceres, CCNE1 que codifica la ciclina E , que se amplifica frecuentemente en cánceres, y que codifica KRAS Kirsten sarcoma de rata viral Oncogene, que se activa en el cáncer por mutaciones y más raramente de amplificación. Los paneles B y C (Figura 1) muestran que muchas líneas celulares muestran el agotamiento del locus del gen CDKN2A (paneles de la izquierda), mientras que las células de cáncer de ovario OVCAR3 y OVCAR5 muestran la amplificación focal de CCNE1 y KRAS, respectivamente.
A. La herramienta se puede acceder en el sitio web CellMiner haciendo clic en la pestaña "NCI-60 Herramientas de análisis" (en caja en rojo). En este ejemplo, 3 genes asociados con el cáncer se consultan de forma simultánea: CDKN2A, CCNE1 y KRAS. B. La salida incluye un diagrama de barras del número de copias estimado para cada línea celular. El eje x es el número de copias de ADN. El eje Y muestra las líneas de células, con las barras de colores sobre la base de tejido de origen. Barras a la izquierda de 2N indican pérdida mientras barras a la derecha indican ganancia genómico. Las líneas de puntos indican las líneas celulares con aumentos en el número de copias del gen KRAS CCNE1 y C. También se proporciona un diagrama de dispersión para cada línea celular. El eje x muestra la localización cromosómica. El eje Y muestra los valores de intensidad log2 a la izquierda. Los puntos rojos indican sondas que caen dentro del gen. Los puntos azules indican las regiones que flanquean. Los datos se reciben como archivos Excel. Véase el texto para más detalles.
Una característica única de la página web CellMiner es que el patrón de número de copia obtenida de CellMiner de un gen se puede utilizar como entrada para la herramienta de patrón de comparación para encontrar la expresión de genes correlacionados y drogas actividad. La Figura 2 muestra el número de copias para CDKN2A (p16), el gen con la expresión más alta correlación-(CDKN2A), y el fármaco cuya respuesta es la correlación más negativamente (NSC-301739). La correlación robusta entre el número de copias del ADN y la expresión del transcrito de identificar el robusto afectar a ese número de copias de ADN tiene alteración en la expresión del transcrito de este gen. La correlación negativa del número de copias de ADN a la actividad de la droga identifica la mitoxantrona fármaco aprobado por la FDA (NSC-301739) por ser más activo en varias instancias de las células cancerosas con deleción del gen CDKN2A (Figura 2, panel derecho y líneas de puntos).
La trama de la izquierda muestra una barplot de los valores del número de copias de gen CDKN2A obtenidos mediante la consulta CellMiner. La trama del medio muestra la expresión génica y la trama más a la derecha muestra la respuesta a un mitoxantrona, un fármaco con correlación negativa significativa con el estado de número de copias de CDKN2A. Las líneas de puntos indican algunas de las líneas celulares donde la dirección de número de copia alteración es en la misma dirección que la expresión del gen y en la dirección opuesta a la actividad del fármaco.
Correlación con la línea celular de cáncer Enciclopedia
Hay 44 líneas celulares comunes entre el NCI-60 y la CCLE. Cabe destacar que el número de copias combinado estima en el correlato NCI-60 bien con las estimaciones del número de copias en el CCLE con una correlación media de 0,833. Esta es mayor que la correlación para copiar los números de cualquier plataforma individual (Agilent: Agilent: 0.660, NimbleGen: 0.448, Affymetrix: 0.821, Illumina: 0,804) lo que implica que la combinación de las plataformas juntos mejora la estimación. La correlación más alta con la plataforma Affymetrix podría ser debido al hecho de los datos CCLE también se generaron en vectores Affymetrix (Affymetrix SNP 6.0).
Las alteraciones generalizadas en el ADN de copia Composición se produce en el NCI-60 líneas celulares
Una visión global de la composición genómica NCI-60 se ha generado utilizando la CBS segmentado resultados aCGH. La Figura 3 muestra ejemplos representativos de varios tipos de variación del genoma. La versión completa de la NCI-60 está disponible en la Figura S1 y en nuestra página web [21]. Estas pantallas revelan que la mayoría de líneas de células exhiben alteraciones genómicas, incluyendo frecuentes pérdidas genómicas y ganancias, así como la ploidía alterado. Los tipos de variación en los genomas, sin embargo, varían ampliamente dentro de la NCI-60. Sólo algunas líneas celulares muestran número normal (2N) copia con pocos segmentos alterados tales como CO: HCT_15. Algunos tienen múltiples segmentos genómicos alterados con número de aproximadamente 2 N copia en general (por ejemplo, RE: CAKI_1). Sin embargo, otros tienen muchos segmentos alterados además de ser desplazado de 2N, incluyendo BR: MCF7, SNC: SF_268, LE: RPMI_8226, ME: MALME_3M, OV: NCI_ADR_RES y PR: PC_3. Los datos demuestran la marcada variabilidad encontrada en las anomalías de los NCI-60 genomas.
El eje X es la localización cromosómica de las sondas, coloreado por el número de cromosomas y ordenados por posición genómica. El eje Y es la proporción de registro de las intensidades de la sonda. Las marcas negras horizontales indican el promedio diario de número de copias
2 en cada segmento, según los cálculos de la Circular Binario Segmentación (ver Materiales y Métodos). La cantidad de dispersión encima y debajo de las marcas negras de los segmentos indica el nivel de variabilidad de la sonda. También se indican las ubicaciones de algunos genes relacionados con el cáncer que tienen las ganancias o pérdidas de actividad. Imágenes de alta resolución para todas las líneas de células NCI-60 están disponibles en la Figura S1 y en nuestra página web [21].
La alta intensidad (de registro absoluta
2 valores superiores a 1,5, es decir, ADN copia números mayores que 5,60 o inferior a 0,71) Ampliaciones (ganancias) y deleciones (pérdidas), visualizadas en la Figura 3 y Figura S1, están en la lista con su ubicación en el cuadro S2 por línea celular, debido a su potencial importancia. Estas grandes ganancias y pérdidas cromosómicas tienen sesgos, con tres cromosomas (9, 3 y 6) que tienen múltiples alteraciones en múltiples líneas celulares, y uno (21 cromosomas) sin ganancias o pérdidas marcadas. Estos datos identifican supresiones y amplificaciones focales chromosome- y célula-específicas.
Global ADN Copia Alteración de números en los NCI-60
Para categorizar aún más las variaciones del número de copias del genoma en todo el NCI-60, dos parámetros se obtuvieron a partir de los datos aCGH (Tabla 1). La "proporción de genoma gana o se pierde" es la fracción total del genoma que se gana o se pierde (en comparación con 2 N); el "número de regiones ganado o perdido" por genoma representa el número acumulado de segmentos alterados (ganado o perdido en comparación con 2N).
La comparación de los dos parámetros (proporción y cantidad de las ganancias y pérdidas) mostró una correlación positiva estadísticamente muy significativa (r de Pearson = 0,76, p-valor = 1.2 × 10
-12), asociar la frecuencia con la fracción acumulada de alteraciones genómicas. Las líneas celulares con las frecuentes alteraciones genómicas menos de acuerdo con la primera medida (proporción de genoma ganado o perdido) son CO: HCC_2998 y OV: IGROV1, y los que tienen más son re: A498 y BR: T47D. Para la segunda medida (número de regiones con ganancias /pérdidas), las células tienen menos alteraciones son CO: HCC_2998 y sistema nervioso central: SNB_75, y las líneas celulares con la mayor cantidad de alteraciones son BR: MCF7 y RE:. SN12C
prominentes áreas del genoma con focal número de copias cambios, y su relación con los supresores tumorales conocidas y potenciales
a continuación se realizaron búsquedas de número de copias cambios genómicos que eran "coordinación" en la naturaleza. Nuestro enfoque fue la búsqueda de segmentos genómicos con: i) una diferencia en el registro
2 número de copias de al menos 0,3 por ambos sus vecinos izquierda y derecha (siendo las diferencias o bien ambos positivos o ambos negativos); ii) una anchura de menos de 5 Mb; y iii) un mínimo de 10 sondas (aCGH). La tabla 2 resume estas alteraciones focales para los oncogenes conocidos y supresores tumorales. Tabla S3 proporciona el estado de alteración focal para todos (18,504) genes con tanto número de copias y la expresión de genes (véase la columna S), y sus posiciones genómicas (columnas Q y R).
El más comúnmente focalmente segmento eliminado se produce en 24 líneas celulares, y contiene el gen supresor tumoral CDKN2A (p16
INK4a y p14
ARF) en el cromosoma 9 (Figura 1B, 2 y 4A). Las deleciones del gen CDKN2A se producen en la mayoría de los tipos de tejidos NCI-60, con mayor incidencia en renal (6 de 8 líneas) y las células del sistema nervioso central (4 de cada 6 líneas). deleciones del gen CDKN2A son menos frecuentes en el pecho (1 de 5) y de ovario (2 de 7) y ausente en las líneas de colon y próstata. Los datos detallados para CDKN2A se encuentra en la Tabla S3 (columna Q). La próxima gen supresor de tumores con mayor frecuencia es eliminada PTEN en el cromosoma 10 (Tabla 2 y la Tabla S3), que es notablemente menos representado en 4 líneas celulares: SNC: SF_539, LE: CCRF_CEM, PR: PC_3 y RE: RXF_393. También se obtuvo de manera focal en VO: OVCAR_4. Cabe destacar que TP53, que se inactiva por mutaciones en el 47 de la NCI-60 [3], [32] (nuestros resultados no presentados) tiene pérdida focal en sólo dos líneas de células LE: HL_60, RE: TK_10 (Tabla S3), lo que demuestra la especificidad de mecanismo de la función desmontables de los supresores de tumores.
A. CDKN2A y la secuencia de acompañamiento en el cromosoma nueve por seis líneas celulares. La región lila vertical central delimita la ubicación de genes. B. MYC y secuencia de acompañamiento en el cromosoma ocho por cinco líneas celulares. La región lila vertical central delimita la ubicación de genes. C. ABCB1 (MDR1), ABCB4 y secuencia de acompañamiento en el cromosoma 7 para el OVCAR_8 de los padres y sus derivados NCI_ADR_RES resistentes a los medicamentos. Las regiones centrales verticales verdes y rosas delinean el lugar geométrico de ABCB1 y ABCC4, respectivamente. En A, B, y C el eje x es la ubicación de nucleótidos. Los valores del eje de la izquierda son las relaciones de intensidad medios de registro, ya la derecha se estima el número de copias de ADN. Las líneas horizontales negras muestran la relación entre la intensidad media de registro en cada segmento, mientras que los puntos marrones muestran las relaciones de intensidad de registro para cada sonda.
Para los oncogenes conocidos, la ganancia focal más frecuente se produce en el CCND1 ( ciclina D1) de genes en el cromosoma 11, y en MYC, en el cromosoma 8. CCND1 tiene ganancias focales en 4 líneas celulares (SNC: SF_295, ME: SK_MEL_28, ME: SK_MEL_5, RE: TK_10), incluyendo 2 melanomas. Myc se amplifica en cuatro líneas celulares CO: SW_620, LE: HL_60, LE: RPMI_8226 y PR:. PC_3 (Figura 4B) guía
Además de los oncogenes conocidos y supresores de tumor, una de las más intensas amplificaciones se encontró en el OV: línea celular NCI_ADR_RES en el cromosoma 7q21.12 (Figura 3, panel inferior izquierdo y la Figura 4C). Esta amplificación de flujo de salida de la bomba abarca dos genes transportadores ABC, ABCB1 y ABCB4 (Figura 4C), y es consistente con la alta resistencia a la doxorubicina (adriamicina) de esta línea celular [33], [34]. Aparte de este cromosoma 7 amplificación focal, la OV: línea celular NCI_ADR_RES muestra un perfil de aCGH comparable a su línea parental OV:. OVCAR_8 (Figura S1)
correlación entre la expresión de genes y ADN Copia Número
para determinar la relación entre el número de copias del ADN y la transcripción de expresión niveles, se calcularon las correlaciones entre los dos parámetros para todos (18,504) genes con tanto número de copias y la expresión génica. La Tabla 2 y la Tabla S3 dan estos valores de correlación, así como el correspondiente valor de p y FDR para los supresores de tumores, y todos los genes, respectivamente. El histograma en la Figura 5 muestra que la correlación de la mediana de Pearson es r = 0,247, proporcionando un indicador global de la influencia del número de copias del gen en la expresión.
Histograma de correlaciones de Pearson entre el número de copias y la expresión génica para la completa un conjunto de 18,504 genes con los dos valores disponibles. Los conjuntos inferior y superior de las marcas de graduación por encima del eje x muestran las correlaciones para los oncogenes individuales (en rojo) y supresores de tumores (en azul), respectivamente.
La correlación mediana de los datos combinados es más alto que cualquier plataforma individual (Agilent: 0,212, NimbleGen: 0,149, Affymetrix: 0,242, Illumina: 0,226)., una vez más lo que implica que los datos combinados mejora la estimación del número de copias encima con cualquier plataforma individual
el subconjunto de 101 supresores de tumores conocidos tenían una correlación mediana significativamente más alta (r = 0,408, figura 5) de todo el genoma (r = 0,247, figura 5). El subconjunto de 96 oncogenes conocidos mostró correlación sólo ligeramente mayor en comparación del genoma global (mediana r = 0,255; Figura 5). Estos resultados demuestran que las influencias pérdida de genes supresores de tumores expresión de conocidos en un grado mayor que cualquiera de los "todos los genes" o grupos de oncogenes.
Identificación de nuevos genes supresores de tumores putativos
Dado que los cambios focales en el número de copias de ADN de los genes tumorales conocidos supresores (Figura 1B y C, Figura 3, Tabla 2) mostró una correlación altamente significativa a los niveles de transcripción de expresión (Figura 5, Tabla 2), se utilizó esta característica para buscar e identificar nuevos genes con potencial relación con el cáncer. Nuestro enfoque se basó en los resultados de la conocida CDKN2A supresores de tumores y PTEN (Tabla 3). Los criterios de selección de nuevos genes necesarios: i) las correlaciones entre el número y la transcripción de los niveles de copias de ADN significativas a un FDR de 0,05, ii) las ganancias focales o pérdidas en al-menos tres líneas celulares [cambios focales fueron definidas como ganancias o pérdidas menor que 5 Mb que se superponen el gen], y iii) una relación de 3:01 o mayor para el número de líneas de células con las pérdidas en comparación con las ganancias. Además, se requiere que los genes pasan a un cuarto criterio de que no debe haber supresores de tumores conocidos dentro de 2 MB (para evitar la detección de "vecinos" de los supresores de tumores conocidos conductor).
Se evaluaron todos los 18,504 genes que tienen tanto la expresión del gen y número de copia estimaciones para identificar los que pasó los criterios anteriores. Treinta y un genes criterios 1-3 (Tabla S4) pasaron, y 22 satisfechos con los cuatro criterios (que se indica en la columna de U y resaltados en verde). Aquellos grupo de genes en 12 "grupos de genes" de tal manera que los genes en el mismo grupo son adyacentes entre sí y tienen el número de copias que están altamente correlacionados (entre sí) a través del Instituto Nacional del Cáncer-60 (correlación de Pearson & gt; 0,8), lo que indica que se han perdido o ganado como un grupo en gran medida. Los 22 nuevos cúmulos supresores de tumores están en cytobands 11q13.4, 17p12, 17p11.2, 17q23.1, 21q11.2, 21q21.1, 22q11.21, 22q12.2, 22q13.1 y Xp22.31. La Tabla 3 enumera diez de los genes que se encuentran dentro de estos grupos y se ha informado que exhiben características supresores de tumores.
Discusión
En el presente estudio se combinaron los datos en el panel de la línea celular NCI-60 a partir de cuatro plataformas CGH array de alta resolución. La combinación de las cuatro plataformas se obtiene un conjunto de datos con i) aumento de la cobertura de la sonda, ii) mayor correlación con el número de copias de las estimaciones de la CCLE (línea celular de cáncer Enciclopedia), y iii) mayor correlación con la expresión de genes, lo que indica una mejor estimación que cualquier plataforma solo .
el conjunto de datos se suma a la serie de datos moleculares disponibles para el NCI-60, facilitando la integración ( "integromic") [4], [8], [32], [35] los estudios de la biología del cáncer y farmacología molecular. Los datos y herramientas de análisis para facilitar su uso están disponibles públicamente en nuestra suite Web NIH CellMiner [21] (Figura 1A). También proporcionamos un ejemplo del tipo de análisis integrador que se pueda hacer. Comparando el número de copias de ADN para CDKN2A, un supresor tumoral conocido por su expresión mRNA revela la forma sólida en el que esta alteración molecular está asociada con la expresión de genes, y su inactivación frecuente en el NCI-60 (véase la Figura 1 y la Tabla S3). Al comparar el número de copias de ADN para el gen CDKN2A a la base de datos compuesto revela la mitoxantrona fármaco aprobado por la FDA (NSC301739) por ser más activo en las líneas celulares con nocaut CDKN2A (Figura 2)
.
Los patrones de ganancias y pérdidas en el líneas celulares abarcan un amplio espectro, con diferentes patrones de variación probable que representa las diferencias en el mal funcionamiento moleculares dentro de las células (Figura 3, Figura S1 y sitios Web [21]).