Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: Exoma Secuenciación Genómica alteraciones revela integrales a través de ocho Cancer Cell Lines

PLOS ONE: Exoma Secuenciación Genómica alteraciones revela integrales a través de ocho Cancer Cell Lines


Extracto

Está bien establecido que las alteraciones genómicas juegan un papel esencial en la oncogénesis, la progresión de la enfermedad y la respuesta de los tumores a la intervención terapéutica. Los avances de las tecnologías de secuenciación de próxima generación (NGS) proporcionan capacidades sin precedentes para analizar los genomas de cambios tales como mutaciones, eliminaciones y alteraciones del número de copias cromosómicas. Sin embargo, el coste de la secuenciación del genoma completo todavía impide la aplicación rutinaria de NGS en muchas áreas. La captura y la secuenciación de los exones de codificación de los genes (el "exoma") puede ser un enfoque rentable para identificar los cambios que resultan en la alteración de las secuencias de proteínas. Se aplicó una tecnología exoma-secuenciación (captura de Roche Nimblegen emparejado con la secuencia 454) para identificar la variación de secuencias y las mutaciones en ocho líneas celulares de cáncer de uso común de una variedad de orígenes de tejido (A2780, A549, Colo205, GTL16, NCI-H661, MDA- MB468, PC3, y RD). Hemos demostrado que esta tecnología puede identificar con precisión la variación de secuencias, proporcionando ~ 95% de concordancia con Affymetrix SNP matriz 6.0 realizado en las mismas líneas celulares. Por otra parte, se han detectado 19 de los 21 mutaciones reportadas en la base de datos Sanger cósmico por estas líneas celulares. Se identificaron un promedio de 2.779 posibles variaciones de secuencia novela /mutaciones por línea celular, de los cuales 1.904 eran no-sinónimas. Se identificaron muchos cambios no sinónimos en quinasas y conocen los genes relacionados con el cáncer. Además se confirmó que la profundidad de leer datos de la secuencia exoma se puede utilizar para estimar amplificaciones de genes de alto nivel e identificar deleciones homólogas. En resumen, hemos demostrado que la secuenciación del exoma puede ser una forma fiable y rentable para identificar alteraciones en los genomas del cáncer, y hemos generado un amplio catálogo de alteraciones genómicas en las regiones de ocho líneas celulares de cáncer de codificación. Estos resultados podrían proporcionar importantes conocimientos sobre cáncer de las vías y mecanismos de resistencia a las terapias contra el cáncer

Visto:. Chang H, Jackson DG, Kayne PS, Ross Macdonald-PB, Ryseck RP, Siemers no (2011) Exoma secuenciación genómica alteraciones revela integrales a través de ocho líneas celulares de cáncer. PLoS ONE 6 (6): e21097. doi: 10.1371 /journal.pone.0021097

Editor: Cristiano Schönbach, Instituto de Tecnología de Kyushu, Japón

Recibido: Abril 27, 2011; Aceptado: 19-may de 2011; Publicado: 20 Junio ​​2011

Derechos de Autor © 2011 Chang et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Financiación:. Este trabajo fue apoyado por Bristol-Myers Squibb Co. los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:. los autores son empleado actual de Bristol- Myers Squibb Co. Este estudio no está relacionado con los productos en desarrollo en BMS o productos comercializados por BMS. Esto no altera la adhesión de los autores a todas las políticas de PLoS ONE en los datos y materiales de uso compartido.

Introducción

Todas las células cancerosas tienen mutaciones somáticas en sus genomas, tales como mutaciones de un solo nucleótido, inserciones , deleciones, y el aumento de número de copias o pérdida. lesiones Genómicas en células de cáncer de interrumpir las funciones normales y las vías tales como la proliferación y la apoptosis, y son esenciales para la génesis de tumores, el crecimiento y la metástasis. Además, cada tumor lleva una combinación única de mutaciones en su genoma, que conduce a la heterogeneidad en el pronóstico del cáncer y las respuestas a la intervención terapéutica. Nuestro entendimiento limitado de las mutaciones más comunes ya ha afectado a los regímenes terapéuticos. Por ejemplo, el tratamiento con inhibidores de molécula pequeña del receptor de factor de crecimiento epidérmico (EGFR) se ha demostrado que beneficia principalmente a pacientes con cáncer de pulmón que llevan ciertas mutaciones somáticas en su gen de EGFR [1], [2]. Del mismo modo, ciertas terapias de anticuerpos dirigidos contra EGFR sólo muestran eficacia en el subgrupo de pacientes con cáncer colorrectal con un gen KRAS de tipo salvaje [3], [4]. caracterización sistemática profunda de mutaciones somáticas en los genomas del cáncer promete ser una herramienta poderosa para ambas vías de cáncer comprensión y el desarrollo de terapias dirigidas.

Durante las dos últimas décadas, los estudios se centraron en genes candidatos han conducido a la identificación de las mutaciones que ocurren con alta frecuencia en los genes cruciales vía cáncer, TP53, KRAS, y PTEN [5]. En los últimos años, las regiones codificantes de mama, pulmón, colon, y genomas de tumores cerebrales han sido analizados usando las tecnologías de secuenciación basados ​​en capilares. Estos esfuerzos han dado lugar a la identificación de mutaciones causales en los genes antes insospechados como Idh1, destacando el poder y la importancia de, descubrimiento de la mutación no sesgada escala genómica [6], [7], [8]. Sin embargo, las tecnologías de secuenciación basados ​​en capilares a gran escala son mucho tiempo y dinero, y por lo tanto no es factible para un uso más amplio.

secuenciación de próxima generación (NGS) tecnologías han aumentado el rendimiento y la disminución del coste de la secuenciación del ADN por varios órdenes de magnitud. Un número de estudios han aplicado tecnologías NGS para secuenciar los genomas del cáncer, tal como se resume en revisiones recientes [9], [10]. Sin embargo, la secuenciación de todo el genoma sigue siendo un costo prohibitivo para muchas aplicaciones potencialmente valiosos.

Una alternativa a los métodos de secuenciación de todo el genoma es exoma, que captura y las secuencias de codificación única exones en el genoma. métodos de secuenciación del exoma pueden entregar información de secuenciación de gran parte del genoma funcionalmente relevante en el aumento de la cobertura y la reducción de costes. Estudios recientes han aplicado con éxito la secuenciación del exoma para identificar mutaciones causales de enfermedades mendelianos [11], [12]. iniciativas grandes del genoma del cáncer, como el Proyecto del Genoma del Cáncer Atlas también incluyen la secuenciación del exoma como parte de su estrategia para caracterizar los genomas del cáncer [13].

Las proteínas quinasas son la familia más ubicua de las moléculas de señalización en las células humanas y jugar esencial papeles en la regulación de la mayoría de las funciones celulares [14]. Puesto que la familia de la proteína quinasa es una de las familias de genes más frecuentemente mutado en los cánceres [5], que ha sido objeto de varios estudios de secuenciación genómica enfocadas. Bardelli et al. llevado a cabo la primera pantalla sistemática de mutaciones en el receptor de la tirosina quinasa subfamilia de proteínas quinasas, en muestras de cáncer de colon [15]. Desde entonces, los estudios en tejidos primarios y líneas celulares han identificado muchas mutaciones en las proteínas quinasas a través de múltiples tipos de tumores [16], [17], [18]. El interés en las mutaciones de quinasas ha continuado con los estudios de descubrimiento de la mutación en todo el genoma recientes [13], [19], [20].

modelos de líneas celulares de cáncer humano han jugado un papel fundamental en nuestra comprensión del cáncer vías de la enfermedad, la identificación y validación de los genes diana del cáncer, y nuestra capacidad para detectar posibles medicamentos contra el cáncer. Estas líneas celulares llevan mutaciones genómicas heredado de sus células tumorales de origen, a pesar de las mutaciones adicionales pueden ser adquiridos durante el curso de desarrollo de líneas celulares y el paso. En general, las comparaciones entre las líneas celulares revelan una heterogeneidad significativa en las mutaciones genómicas y reflejan cáncer de las vías similares a los encontrados en los tumores primarios. Por ejemplo, la comparación de un panel de líneas celulares de cáncer de mama con una colección de muestras de mama primarios mostraron que la expresión de genes y el número de copias en líneas celulares de perfiles similares a los encontrados los tumores primarios [21]. Del mismo modo, las mutaciones genómicas reportados en la base de datos COSMIC para líneas de células tienen un espectro similar a los de los tumores primarios [22]. Como a gran escala resultados adicionales de secuenciación del genoma tumor estén disponibles, hay una necesidad creciente de modelos de células correspondiente para determinar cómo variantes novela afecta a la función de la proteína. caracterización exhaustiva de las alteraciones genómicas en líneas celulares de cáncer avanzará nuestra comprensión de la biología del cáncer, y también podría proporcionar una base para la elección de los modelos de líneas celulares pertinentes para estudiar un aspecto particular de la biología de la enfermedad del cáncer, o para seleccionar antagonistas de ciertas vías de cáncer.

para evaluar las tecnologías NGS y caracterizar las mutaciones genómicas en líneas celulares de cáncer, hemos analizado a partir de la captura de Roche Nimblegen exoma matriz y Roche 454 tecnologías NGS, aplicadas a ocho líneas celulares de uso común que representan varios tipos de cáncer más importantes. Demostramos que la secuenciación del exoma puede ser una forma fiable y rentable para la identificación de alteraciones genómicas en el genoma del cáncer, y ha generado un amplio catálogo de alteraciones genómicas en las regiones de líneas celulares de cáncer de ocho codificación.

Resultados

captura Exoma y resultados de la secuenciación

captura Exoma y 454 tecnologías de secuenciación se aplicaron a muestras de ADN de ocho líneas celulares de cáncer (A2780, A549, COLO205, GTL16, NCI-H661, MDA-MB468, PC3, y RD, . como se describe en Métodos los resultados del procesamiento inicial de datos se resumen en la Tabla 1. para cada línea celular, alrededor de 1,9 millones de secuenciación lee (688 millones de bases; 98,5% del total de secuenciación lee) podría ser asignada con éxito para el genoma humano NCBI36 /hg18 conjunto de referencia (http://www.ncbi.nlm.nih.gov). la duración media de lectura en todas las líneas celulares es de 364 bases, en consonancia con la longitud de lectura larga reportado para la tecnología de secuenciación 454. en promedio, el 89,5% de la alrededor de 180.000 exones en la matriz Nimblegen 2.1 exoma humano M (regiones de destino) se cubrieron con al menos una lectura de secuenciación, y la profundidad media de lectura de secuencia para todas las líneas celulares es de 7.3 en las regiones de destino. La captura y secuenciación del exoma resultados están dentro del rango normal de funcionamiento especificado por el fabricante y son comparables con los resultados publicados que utilizan la misma tecnología [23].

Hemos detectado en promedio 14.340 secuencia de variantes (las diferencias de la referencia del genoma humano) por línea celular. La mayoría de estas diferencias son conocidos polimorfismos en la población humana normal (es decir, registrada en la base de datos NCBI dbSNP, construir 130). En promedio 2.779 variantes por línea celular no se encuentran en la base de datos dbSNP, y por lo tanto representar nuevos variaciones de la secuencia y /o mutaciones somáticas. En promedio, 1.904 de las 2.779 nuevas variantes son no sinónimos, es decir, que alteran la especificidad codón. Estas variantes son más propensos a cambiar funciones de la proteína y el impacto de fenotipos celulares.

Concordancia con genotipo resultados

Como otro medio para evaluar la exactitud de la secuenciación del exoma, se compararon los datos con los resultados de genotipado a través de la ocho líneas celulares (Tabla 2). El Affymetrix SNP de genoma completo humano 6.0 está diseñado para detectar el genotipo de información por cerca de un millón de SNP posiciones conocidas. Por lo tanto, puede proporcionar una verificación independiente de las variaciones observadas en los datos de la secuencia del exoma. Para cada línea celular, se identificaron SNP matriz de 6,0 posiciones con genotipo llamadas exitosas que también fueron cubiertos por al menos dos secuenciación del exoma única lee. La superposición produjo entre 26,407 y 29.650 SNP posiciones (dependiendo de la línea celular) para su posterior análisis. En general, hubo un promedio de 91% de concordancia entre las llamadas genotipo de SNP matriz 6.0 /alpiste y las determinadas por la secuenciación del exoma. En la línea celular RD, por ejemplo, 26.154 (91,5%) de los 28.594 SNP posiciones tienen el mismo genotipo llamada (es decir, AA, AB o BB) por SNP matriz 6.0 y por secuenciación del exoma (Tabla 2).


se espera que la exactitud de la detección del genotipo por secuenciación estará influenciada tanto por la profundidad leer secuenciación y por heterocigosidad en una localización genómica dada. Se calculó la concordancia de genotipo llamadas a una profundidad de lectura secuenciación de diferencia, y por separado para los SNP homocigotos o heterocigotos. Como se muestra en la Figura 1, la concordancia es alta para SNPs homocigotos (promedio 97%), independientemente de la secuenciación de leer la profundidad. Concordancia para alelos heterocigotos es menor, pero aumenta con la secuencia de leer la profundidad, a partir de 31% de concordancia en una profundidad de lectura de 3 y alcanzando & gt; 90% a una profundidad de lectura de 10 o superior. En teoría, la secuenciación de fragmentos de ADN de una región que contiene un SNP heterocigótico es un proceso de muestreo aleatorio. A menor profundidad secuenciación, existe una mayor probabilidad de que falta uno de los dos alelos. Se calculó la tasa teórica de detección de los dos alelos de la secuencia a diferentes profundidades de lectura, suponiendo que no hay error en la secuenciación (Figura 1, línea discontinua). A profundidades bajas de lectura, nuestras observaciones experimentales se encuentran cerca de la velocidad teórica, lo que indica que baja concordancia a profundidades bajas de lectura es probablemente debido al proceso de muestreo aleatorio en lugar de mala calidad de los datos de la secuencia.

El gráfico muestra un gráfico de concordancia media de las llamadas de genotipo obtenidos de la matriz de Affymetrix SNP 6.0 y de la secuenciación del exoma, como una función de la secuenciación de leer profundidades. marcadores cuadrados indican concordancia en las posiciones homocigotos, marcadores de diamantes indican concordancia en las posiciones heterocigóticos. La línea discontinua muestra la tasa teórica de detección de posiciones heterocigotas mediante secuenciación (como se describe en Métodos). marcadores triángulo muestran el número promedio de ubicaciones SNP heterocigóticos por la línea celular como una función de la secuenciación leer profundidades (eje Y a la derecha).

Comparación de la secuenciación del exoma a la base de datos cósmico de mutaciones del cáncer

los exones codificantes de proteínas y secuencias de intrones flanqueantes inmediatas de 61 genes del cáncer comunes previamente se han determinado sistemáticamente en aproximadamente 800 líneas de células por la bienvenida Instituto Trust Sanger, usando la secuenciación basada en capilar [22]. De las ocho líneas celulares en este estudio, todos excepto uno (GTL16) se han proyectado en ese proyecto. Se comparó la información mutación somática de la base de datos de COSMIC Sanger con nuestros resultados de la secuenciación del exoma de las siete líneas celulares. Como se muestra en la Tabla 3, la secuenciación del exoma re-descubierto la mayor parte de las 21 mutaciones reportadas en la base de datos COSMIC, incluyendo mutaciones puntuales y pequeñas inserciones /deleciones. Los dos casos que faltan son debido a la falta de cobertura de secuencia en el locus de interés: la mutación STK11 documentado en A549 no se puede medir debido a la falta de cobertura gen STK11 en la Nimblegen 2.1 M arrays humano exoma, y ​​el gen TP53 está cubierto por la matriz Nimblegen pero carece de suficiente lee en la línea PC3 para verificar en este estudio (hay suficientes lecturas para el gen TP53 en otras líneas, como en la Tabla 3).

las grandes deleciones homocigóticas, como el supresiones conocidas del gen CDKN2A en A549 y SMAD4 en las células Colo205, no pueden ser observados directamente con la secuenciación del exoma. Pero una deleción de las regiones de genes se puede inferir que la profundidad de lectura es cero durante varios exones consecutivos (véase la sección siguiente para una discusión detallada). Los cinco deleciones genómicas reportados en la base de datos cósmicos son identificables a partir de resultados de la secuenciación del exoma (Tabla 3). Por ejemplo, en la línea celular A549 se observó 14 regiones consecutivas alrededor gen CDKN2A con una profundidad de lectura de cero. En la línea celular Colo205, un documentado deleción 904-base en el gen SMAD4 manifiesta como 4 regiones objetivo consecutivos con una profundidad de lectura de cero.

La detección de amplificación de genes y la eliminación

deleciones o amplificaciones de segmentos cromosómicos son alteraciones comunes en los genomas del cáncer. En principio, la secuenciación de leer la profundidad en una región debe ser proporcional a su número de copias. Sin embargo, la profundidad de lectura relativamente modesta de este estudio podría dar una importancia indebida a las variaciones aleatorias en la profundidad de lectura. La variabilidad en la profundidad de lectura también podría surgir de los aspectos técnicos del proceso de secuenciación del exoma. Por ejemplo, la matriz de captura de exoma podría variar en la eficiencia de las diferentes regiones de exones debido a la diversa composición de la secuencia. Para evaluar la posibilidad de estimar el número de copias de la información de nuestros datos de secuenciación del exoma, se comparó la secuencia de lectura media profundidades con los datos del número de copias estimadas a partir de la plataforma SNP6. Como se muestra en la Figura 2, existe una correlación positiva entre la secuencia de profundidad leer y número de copias, con Pearson coeficiente de correlación de 0,41. La variación en la profundidad de lectura hace que sea difícil de detectar con precisión el número de copias cambios de bajo nivel. Por otro lado, nos encontramos con que la detección exacta de amplificaciones de genes de alto nivel y deleciones homocigóticas es posible
.
secuenciación de lectura media profundidades de las regiones de captura se representa frente a los datos de número de copia estimados a partir de Affymetrix SNP datos 6.0 como se describe en la sección de métodos. La línea azul muestra la línea de regresión lineal. La correlación coefficiency Pearson (r = 0,41) de la secuenciación de leer y copiar datos de profundidad número está impreso en la figura.

deleción homocigótica de la región del gen SMAD4 ha sido reportado en la línea celular MDA-MB468 ( Sanger base de datos cósmica) y es por lo tanto ilustrativo para la comparación de métodos de detección de eliminación. La secuenciación leer profundidades de las regiones de exones en el gen SMAD4 y el área circundante se determinaron para MDA-MB468 y se representa en función de su localización cromosómica (Figura 3A). Dieciséis regiones de exones consecutivos en el cromosoma 18 tienen una profundidad de lectura de cero en los datos de MDA-MB468. Los lugares del genoma de las regiones exón 16 son de 46,75 MB a 46.86 MB, que se extiende por el gen SMAD4. Para la comparación, se realizó un análisis del número de copias de la Affymetrix SNP datos 6.0 como se describe en la sección de métodos. Para MDA-MB468, este análisis indica una deleción homocigótica de la región genómica 46.76-46.86 Mb en el cromosoma 18 (Figura 3B), en buen acuerdo con los resultados de un análisis en profundidad de lectura.

A. Los gráficos de datos de la profundidad de lectura en los exones consecutivos en los alrededores de la región del gen cromosómico en SMAD4 18. La línea azul muestra la secuencia leer datos de profundidad de MDA-MB468, y la línea de color rosa muestra la secuenciación mediana leer la profundidad de las ocho líneas celulares. B. número de copia de datos de datos del chip Affymetrix SNP6 alrededor de la región del gen cromosómico SMAD4 en 18. La línea de negro muestra los datos del número de copias segmentados (relación de log2 a muestras normales) generados por el paquete aroma.affymetrx en R como se describe en el métodos sección.

Una profundidad de lectura de cero podría ser el resultado de problemas técnicos, como el diseño de la sonda en la matriz Nimblegen 2.1 M. De hecho, se identificaron 2.513 exón regiones que tienen una profundidad de lectura de cero para todas las 8 líneas celulares (Tabla S1). Sin embargo, puesto que la mediana de leer la profundidad a través de los 8 líneas de células es mayor que cero para todas las regiones 16 de exón (Figura 3A), es poco probable que la profundidad observada de cero en la línea celular MDA-MB468 es debido a un fallo sistemático de la captura del exoma. La variación aleatoria en la profundidad de lectura es otra razón para la falta de cobertura de la secuenciación. En la línea celular MDA-MB468, hay 17.161 exón regiones con una profundidad de lectura de cero (desde 194.706 regiones en total, con exclusión de los 2.513 regiones mencionadas anteriormente). Es muy poco probable que 16 regiones de exones consecutivos alrededor gen SMAD4 tendrían una profundidad de lectura de cero, debido a la variación aleatoria (p = 1.3e-17, calculado a partir de la distribución binomial).

También fuimos capaces de volver -identify previamente documentadas eventos de amplificación génica utilizando los datos de profundidad de lectura. Por ejemplo, la amplificación de EGFR1 en la línea celular MDA-MB468 se ha documentado por hibridación fluorescente in situ y mediante PCR cuantitativa [24]. Hemos observado que las 53 regiones de todo el exón del gen EGFR en el cromosoma 7 tienen profundidades de lectura muy altos en los datos de MDA-MB468 (Figura 4A; los exones entre 55.58-55.73 Mb tienen una profundidad media de lectura de 107). Nuestro análisis del número de copias de la Affymetrix SNP 6.0 datos también indicó que la región del gen EGFR es muy amplificada en la línea MDA-MB468 (Figura 4B, región genómica 55,48 a 55,81 Mb).

A. Los gráficos de datos de la profundidad de lectura en los exones consecutivos en los alrededores de la región cromosómica del gen EGFR en 7. La línea azul muestra la secuencia leer datos de profundidad de MDA-MB468, y la línea de color rosa muestra la profundidad media de lectura secuenciación de las ocho líneas celulares. B. número de copia de datos de datos del chip Affymetrix SNP6 alrededor de la región del gen EGFR en cromosómico 7. La línea de negro muestra los datos del número de copias segmentados (relación de log2 a muestras normales) generados por el paquete aroma.affymetrx en R como se describe en el métodos sección.

Nuevas variantes no sinónimas en las proteínas quinasas

Dado que las mutaciones en las proteínas quinasas tienen un papel importante en la biología del cáncer, se optó por examinar los datos de la secuencia de las proteínas quinasas y enfoque en las variaciones no sinónimas, que producen sustituciones de aminoácidos que pueden tener consecuencias funcionales. Como se señaló anteriormente, la secuenciación del exoma reveló alrededor de 2.000 nuevas variantes no sinónimas en cada una de las ocho líneas celulares. Después de aplicar un filtro estrictas (como se describe en Métodos), entre 199 a 479 genes tienen nuevas variantes no sinónimas, dependiendo de la línea celular (Tabla S2). El Nimblegen matriz de captura de 2,1 M usada en este estudio incluyó exones para 440 de los 518 proteínas quinasas en el genoma humano (Tabla S3) [25]. En cada línea celular, se detectó un promedio de 122 variantes no sinónimas en los genes quinasa. Después de la eliminación de las variantes de la línea germinal probables (que se encuentran en dbSNP) y aplicación de un filtro estrictas se ha descrito anteriormente, cada línea celular tiene un promedio de ocho quinasas con variaciones no sinónimos (Tabla 4). Estas variaciones en la secuencia de las proteínas quinasas se enumeran en la Tabla 5. La mayor parte de estas variaciones en la secuencia no se reportan en la base de datos cósmicos o descritas en la literatura, pero varios de ellos tienen una confirmación independiente. Por ejemplo, hemos identificado EGFR variante A1048V en la línea celular gástrica GTL16. La misma variante de EGFR se ha informado en la línea celular gástrica MKN45 [26], que es la línea celular parental de GTL16 [27]. Un segundo ejemplo es la variante R796S del gen del receptor de insulina (INSR) en la línea celular RD (Tabla 5). Habíamos identificado previamente esta variante en la línea celular RD utilizando la tecnología de secuenciación capilar (datos no mostrados).

Discusión

El análisis de los datos de ocho diversas líneas celulares de cáncer de espectáculos que Roche Nimblegen y 454 tecnologías de secuenciación del exoma se pueden aplicar con éxito para identificar variaciones en las regiones de genes codificantes. A partir de los datos de secuenciación con un promedio de cobertura de 7,3 veces, las variantes del genoma de referencia NCBI36 fueron identificados en un 8% (14.340 regiones) de todas las regiones de destino en la matriz de captura exoma. Mientras que la mayoría de estas variantes se pudo confirmar en la base de datos dbSNP, en promedio 0,16% (2.779) de las regiones objetivo total llevar una nueva variante.

Una comparación de las llamadas SNP genotipo de la secuenciación del exoma con los datos generados en el Affymetrix en todo el genoma humano SNP serie 6.0 mostró que existe una gran concordancia entre las dos plataformas tecnológicas. La concordancia es 97% para los sitios de homocigotos, y varía de 30% a & gt; 90% en las posiciones heterocigotos, con una precisión dependiente de secuenciación leer la profundidad. Nuestro análisis de la relación entre la profundidad de lectura y la potencia de detección sugiere que se requiere un mínimo de diez veces la profundidad leer para detectar con fiabilidad los dos alelos en los sitios de heterocigotos. Estos resultados proporcionan una guía en la planificación de futuros proyectos de secuenciación del genoma.

En los siete líneas celulares examinadas que también están presentes en la base de datos COSMIC, se muestra que 19 de 21 mutaciones conocidas pueden ser re-descubiertos por secuenciación del exoma. Dos mutaciones descritas previamente habían desaparecido debido a la falta de cobertura de secuencia. En uno de los casos esto se debió a una cobertura incompleta del exoma humano en la matriz de captura Nimblegen 2,1 M, lo que indica una necesidad de mejoras en la gama de diseño.

Por el éxito de re-identificación de la amplificación de EGFR y la eliminación homocigótica SMAD4 en la línea celular MDA-MB468, se demuestra que las alteraciones del número de copias se pueden deducir de los datos de la profundidad de lectura secuenciación. Sin embargo, debido a la naturaleza estocástica de la profundidad de lectura secuenciación y probablemente desigualdad en el proceso exoma captura, en general no es posible estimar de forma fiable la información de número de copias de nuestros datos. La aplicación de la tecnología a más muestras ayudaría a mejorar nuestra capacidad para calcular y corregir los sesgos sistemáticos en la plataforma, y ​​el aumento de la profundidad de la secuenciación lee reduciría la varianza debido a la fluctuación aleatoria en número de leer.

Para traer contexto a la variación genómica identificados en este estudio, se optó por centrarse en las proteínas quinasas como una clase ilustrativa. En este trabajo, hemos identificado con la confianza alta, al menos, cuatro nuevas proteínas quinasas variante en cada línea celular. La mayor parte de las nuevas variaciones de la secuencia de las proteínas quinasas identificadas en este estudio no han sido previamente informado, y probablemente reflejan la gran diversidad de alteración genómica en el cáncer. Nuestros resultados ampliar el conocimiento de la secuencia de las variaciones en las proteínas quinasas y otros posibles genes relacionados con el cáncer. Estas nuevas variantes podrían ser SNPs línea germinal pendiente de publicación en la base de datos dbSNP, o mutaciones somáticas en estas células cancerosas. proyectos de secuenciación del genoma humano Varios gran escala actualmente en curso ampliarán la identificación de SNPs de la línea germinal y ayudar a categorizar la naturaleza de nuevas variantes encontradas en los tumores.

En conclusión, hemos demostrado que la secuenciación del exoma puede ser un confiable y económica enfoque: eficaz para identificar las alteraciones genómicas en líneas celulares de cáncer, y sugerir formas de mejorar aún más las tecnologías de secuenciación del exoma-para aplicaciones en genómica del cáncer. En un catálogo completo de las alteraciones genómicas en las regiones codificantes de líneas celulares de cáncer de ocho, se ha generado, que debe contribuir no sólo a nuestro conocimiento de estos modelos en particular, pero también a nuestra comprensión de la genómica del cáncer y la biología del cáncer en general.

Materiales y Métodos

Preparación de ADN

A2780, A549, Colo205, GTL16, NCI-H661, MDA-MB468, PC3, y RD líneas celulares se obtuvieron originalmente de la ATCC. Las líneas celulares se cultivaron en RPMI 1640 (Gibco) con inactivado por calor 10% de suero bovino fetal (FBS; CellGro) con la excepción de RD (adicional HEPES 25 mM) y A549 (F12 de Ham (Gibco), con 10% de FBS). El ADN genómico (10 ug) se preparó mediante QIAamp DNA Mini Kit (Qiagen) usando protocolos de los fabricantes, y se proporciona al Centro de Secuenciación 454 Roche.

Captura Exoma y Next-Generation Sequencing

captura Exoma y secuenciación de próxima generación se realizó por Roche NimbleGen y Roche 454 Life Science de acuerdo con los protocolos del fabricante. El ADN genómico fue capturado en la secuencia Nimblegen Captura Exoma Humano 2,1 M de matriz, que tiene 197,218 totales regiones (regiones de captura) que cubren aproximadamente 175.278 exones y regiones miARN (regiones objetivo, gran región de destino puede consistir en varias regiones de captura). Para cada línea celular, el ADN capturado se secuenció con dos carreras de la tecnología de secuenciación 454 GS FLX Titanium.

Array basado en Genotipado y el número de copias Análisis

Dos alícuotas de 250 ng de ADN genómico por muestra fueron digeridos por enzimas de restricción NspI y StyI, respectivamente. Los productos resultantes se ligaron a los adaptadores correspondientes y PCR amplificados. Los productos de PCR marcados se hibridaron a la Affymetrix Genome-Wide matriz de SNP humano 6.0 de acuerdo con las recomendaciones del fabricante. El algoritmo Birdseed [28] aplicado en Herramientas Eléctricas Affymetrix paquete (APT) Software (versión 1.10.0) se utilizó para la determinación del genotipo. Para el análisis de número de copias, los archivos Cel fueron procesados ​​mediante el paquete aroma.affymetrix [29] para el proyecto de I. La segmentación de los datos de número de copias bruto normalizado se realizó con el algoritmo CBS [30] implementado en el paquete aroma.affymetrix

Bioinformática análisis

El genoma humano NCBI36 /hg18 conjunto de referencia (http:. //www.ncbi.nlm.nih.gov/genome/guide/human/release_notes.html#b36) se utilizó como marco para todos los análisis. procesamiento de la secuencia de datos, mapeo con el genoma humano, y las llamadas inicial de variación de la secuencia de referencia se llevaron a cabo por Roche 454 Life Science usando software GS de referencia Mapper (Roche Inc.). Para calificar como una variante de la secuencia de genoma de referencia, debe haber al menos dos lecturas independiente que 1) muestra la diferencia, 2) tener al menos 5 bases en ambos lados de la diferencia, y 3) tienen algunas otras diferencias aislado de secuencia en la lectura. Variantes identificadas como "alta confianza" estaban sujetos a un filtro más estricto, lo que requiere al menos tres independientes lee con la variante que comprende al menos el 40% de todos independientes lecturas que cubre la posición genómica alelo. Para identificar las variantes no sinónimas, el impacto de cada variante en la secuencia de la proteína traducida se evaluó mediante la asignación de sus coordenadas genómica de nuevo a los genes en la colección RefSeq [31] liberar 37, y la identificación de los cambios en la especificidad codón.

Calculamos la tasa teórica de detección de heterocigotos en las posiciones en función de la diferente profundidad de lectura de la siguiente manera: N lecturas de secuenciación que cubre una posición heterocigóticos podría ser considerado como un muestreo aleatorio de los dos alelos repetidos N veces, por lo que debe seguir la distribución binomial. Suponiendo que el alelo A se informó en el genoma de referencia humana y el alelo B es el alelo variante, requerimos por lo menos dos lecturas de secuenciación con el alelo B para declarar la detección del alelo B. La probabilidad de detectar los dos alelos A y B en una heterocigotos posición se puede calcular como: PAB = 1-P1-P2. P1 es la probabilidad de encontrar 0 o 1 de lectura con el alelo A en la secuenciación N lee de acuerdo con la distribución binomial, lo que llevaría a una llamada genotipo de AA. P2 es la probabilidad de encontrar N lee con el alelo B en la secuenciación N lee de acuerdo con la distribución binomial, lo que conducirá a una llamada de genotipo BB.

Apoyo a la Información sobre Table S1. regiones
Catpure que tienen la profundidad de lectura cero en todas las 8 líneas celulares
doi: 10.1371. /journal.pone.0021097.s001 gratis (XLS)
Tabla S2.
Todas las nuevas variantes no sinónimas en ocho líneas celulares
doi:. 10.1371 /journal.pone.0021097.s002 gratis (XLS) sobre Table S3.
440 genes de la proteína quinasa cubiertos por la matriz Nimblegen 2,1 M de captura
doi: 10.1371. /journal.pone.0021097.s003 gratis (XLS)

Reconocimientos

gracias Charles Tilford y Jansen Lim por su ayuda en la prestación de coordenadas genómica de los genes en el genoma humano. También se agradece a Roche NimbleGen y Roche 454 Life Sciences para llevar a cabo la captura del exoma, 454 GS FLX Titanium La secuenciación se ejecuta, y el procesamiento de datos inicial.

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]