Extracto
Con la llegada de todo el genoma y la secuenciación del exoma, catálogos de alta calidad de los genes del cáncer recurrente mutados están convirtiendo disponible para muchos tipos de cáncer. Aumentar el acceso a la tecnología de secuenciación, incluyendo sobremesa secuenciadores, ofrecen la oportunidad de volver a la secuencia de un conjunto limitado de genes del cáncer a través de una cohorte de pacientes con el tiempo de procesamiento limitada. Aquí, nos re-secuenciado un conjunto de genes del cáncer en las células T leucemia linfoblástica aguda (LLA-T) utilizando Nimblegen captura de secuencia junto con la tecnología de Roche /454. En primer lugar, se investigó cómo una máxima sensibilidad y especificidad de la detección de mutaciones se pueden lograr a través de un estudio de referencia. Hemos probado nueve combinaciones de diferentes métodos de mapeo y variantes de llamada, variamos la variante de los parámetros de llamada, y se compararon las mutaciones predichos con un gran conjunto de validación independiente obtenida por capilaridad re-secuenciación. Hemos encontrado que la combinación de dos algoritmos de asignación, es decir,
BWA-SW
y
SSAHA2
, junto con el algoritmo llamando variante
Atlas-SNP2
se obtiene la más alta sensibilidad (95 %) y la especificidad más alta (93%). A continuación, se aplicó este análisis de tuberías para identificar mutaciones en un conjunto de 58 genes del cáncer, en un panel de 18 líneas celulares T-ALL y 15 T-ALL muestras de pacientes. Se confirmó conocidas mutaciones en T-ALL pilotos, incluyendo PHF6, NF1, FBXW7, NOTCH1, KRAS, las ANR, PIK3CA, PTEN y. Curiosamente, también hemos encontrado mutaciones en varios genes del cáncer que no habían sido relacionados con LLA-T, entre ellos antes de JAK3. Por último, nos re-secuenciado un pequeño conjunto de 39 genes candidatos y se identificaron mutaciones recurrentes en Tet1, SPRY3 y SPRY4. En conclusión, hemos establecido un análisis de tuberías optimizado para datos Roche /454 que se puede aplicar para detectar con precisión las mutaciones genéticas en el cáncer, lo que condujo a la identificación de varias mutaciones de T-ALL conductor nuevo candidato
Visto:. Kalender Atak Z, De Keersmaecker K, Gianfelici V, Geerdens E, Vandepoel R, Pauwels D, et al. (2012) de alta precisión en la detección de mutaciones en la leucemia en un panel seleccionado de genes cancerígenos. PLoS ONE 7 (6): e38463. doi: 10.1371 /journal.pone.0038463
Editor: Jörg D. Hoheisel, Deutsches Krebsforschungszentrum, Alemania |
Recibido: 28 Diciembre, 2011; Aceptado: 5 Mayo 2012; Publicado: 4 Junio 2012
Derechos de Autor © 2012 Kalender Atak et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo fue apoyado por el gobierno federal belga (plan de cáncer - Investigación traslacional), la Universidad Católica de Lovaina (Grant GOA /11/010 de J. Cools y PV; conceder PF /10/016 Symbiosys a J. Cools y SA), la Fundación contra Cáncer (2010-154 subvención a SA), la FWO-Vlaanderen (G.0287.07, J. Cools), y el Consejo Europeo de Investigación (subvención a J. Cools ERC-inicial). KDK es un investigador postdoctoral financiada por la FWO-Vlaanderen, PV es un investigador clínico Superior apoyado por FWO-Vlaanderen, DP y MP son financiados por la puerta Agentschap voor Innovatie wetenschap en Technologie. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:. La afiliación de los granos húmedos de destilería y de la sede de Deutsche Sammlung von Mikroorganismen und Cultivos Celulares GmbH no altera la adhesión de los autores a todos los PLoS ONE políticas sobre los datos y compartir materiales.
Introducción
secuenciación de nueva generación (NGS) tecnologías han mejorado significativamente nuestra capacidad de secuenciación en los últimos cinco años. Ellos son ampliamente utilizados para fines de investigación y están empezando a encontrar su camino en aplicaciones clínicas. A pesar de todo el genoma y los enfoques de secuenciación del exoma se aplican con éxito para el mapeo de los paisajes genómicas de muchas enfermedades humanas, no son estrategias habituales para detectar aberraciones moleculares debido a los altos costos y largos tiempos de volumen de negocios (correr y tiempos de análisis). Targeted re-secuenciación, por otra parte, es atractivo en un entorno clínico, dados los costos más bajos de secuenciación, menor tiempo de secuenciación y análisis de datos simple. Por otra parte, como el descubrimiento de nuevos genes de cáncer mediante la secuenciación del exoma saturará gradualmente y convergen en un conjunto de genes mutados en común un cáncer particular, la identificación de estas mutaciones puede proporcionar información diagnóstica y pronóstica importante.
a pesar de la exigencia de varios días para la preparación de la biblioteca y el enriquecimiento de destino para todas estas plataformas, la tecnología Roche /454 ofrece las ventajas de tiempos de funcionamiento cortos y los datos de tiempo de análisis. Además, la salida de datos más restringido también es beneficioso para el tiempo de respuesta debido a que menos muestras de los pacientes necesitan ser recogidos para llenar toda una ejecución de secuenciación. Sobre la base de estas ventajas de la plataforma 454 para la secuenciación relativamente pequeños conjuntos de genes, hemos invertido en la optimización de la bioinformática tuberías para el mapeo de lectura y la variante de llamada de 454 lecturas, con el objetivo de aplicar la presente tanto para la investigación como para fines clínicos. Nos centramos en las células T leucemia linfoblástica aguda (LLA-T), un cáncer hematopoyético agresiva causada por la transformación maligna de las células T-en desarrollo [1]. Se seleccionó un conjunto de 97 genes para la secuencia específica. El conjunto constaba de 58 genes del cáncer [2] y 39 genes candidatos, incluida la tirosina quinasa y los genes que codifican la fosfatasa, modificadores de la cromatina, y varios genes que pertenecen a las familias de genes conductor cáncer conocido como Tet1-TET3, o PIK3CB-PIK3CD-PIK3CG.
Para la detección de la variante exacta, se determinó varias tuberías existentes de análisis y se compara su rendimiento. Aunque el gsMapper compañero de software es ampliamente utilizado en el análisis de 454 datos [3], [4], [5], diversos algoritmos de llamada mapeo alternativas y variantes se han desarrollado, como BWA-SW [6] y SSAHA2 [7] , Blat [8] para el mapeo y SAMTools [9], VarScan [10], y Atlas-SNP2 [11] para la variante llamada. Li et al [6] revisó los alineadores de lectura largo, y Shen et al [11] revisaron las personas que llaman de variantes, sin embargo, a nuestro conocimiento, no hay comparación se ha realizado en la combinación de mapeo y algoritmos variantes llamar en el contexto del descubrimiento de mutación .
a continuación, se analizaron y se compararon nueve combinaciones diferentes de un mapeo y algoritmos variantes llamando y en particular estudiarse la medida en posiciones de baja cobertura que pueden incluirse en la variación del proceso llamando a aumentar la sensibilidad de la detección de mutaciones. A continuación, aplicamos la tubería optimizada para identificar mutaciones en un conjunto de 58 genes del cáncer y 39 genes candidatos, a través de 18 líneas-ALL de células T y 15 T ALL-muestras de los pacientes, e identificar las mutaciones recurrentes en ambos controladores conocidos y novedosos.
resultados
Comparación de la cartografía y la variación de la llamada a métodos para Roche /454 datos
el software acompañante Roche
gsMapper
se utiliza sobre todo para el análisis de Roche /454 datos. Este software se alinea primero las lecturas para el genoma de referencia y, a continuación enumera todas las posiciones que son diferentes del genoma de referencia (variante llamada). Aunque
gsMapper
obtenido buenos resultados en varios estudios [3], [4], [5], hemos querido evaluar su rendimiento en conjunto nuestros datos e investigar si se podría lograr una mejor precisión y exactitud usando alineadores alternativas y variantes las personas que llaman. Probamos ocho combinaciones diferentes de un alineador de lectura larga (BWA-SW, SSAHA2, Blat) y una variante de la persona que llama (SAMTools, VarScan, Atlas-SNP2) y se comparó su desempeño con
gsMapper
.
cada tubería se aplicó a las lecturas obtiene a partir de siete T-ALL líneas celulares y el rendimiento de cada tubería fue evaluada por Sanger re-secuenciación de 210 variantes candidatos que se tomaron al azar de todos predijeron 8020 variantes (que contienen tanto SNPs y mutaciones) de todas las tuberías. Como una medida de la actuación de cada tubería, se calculó el coeficiente de correlación Matthews (MCC), que es una medida de la precisión de la predicción de que se calcula basándose en el número de verdaderos positivos predicho con éxito y verdaderos negativos encontrados por secuenciación de Sanger (ver Materiales y Métodos). Cuando se utilizan los ajustes de parámetros por defecto (Tabla S1), el rendimiento de las diferentes tuberías fue comparable, con un promedio de 0,62 MCC, sin tubería de prestar un mejor que gsMapper (MCC de 0,82) (Tabla S1).
en los estudios de NGS, la presencia de lecturas duplicadas (causada por un paso de amplificación PCR durante la preparación de la biblioteca) es una fuente potencial de predicción falsa variante de nucleótido único positivo (SNV) [12]. Por lo tanto, hemos añadido un paso adicional para eliminar duplicados lee usando Picard, resultando en un aumento de 2 a 24% en MCC, dependiendo de la tubería, con un MCC promedio de 0.73 (Tabla S1). Esto demostró que la eliminación de duplicados es un paso importante para la obtención de las llamadas variantes correctas.
A continuación, se optimiza aún más el rendimiento de cada tubería variando el número mínimo requerido de lecturas (profundidad de la cobertura, doc) y el mínimo requerido variante lee (frecuencia del alelo variante, VAF). Los cambios en los umbrales DoC afectaron principalmente a la sensibilidad, mientras que diferentes umbrales VAF afectadas las predicciones en términos de especificidad (Figura 1.A, el cuadro S2). Todas las tuberías alcanzan su mejor rendimiento con un umbral de DOC a las 3, y con un umbral mínimo de 0,20 VAF (en su caso) (Tabla S1-S2). En un último esfuerzo para minimizar falsos positivos predicciones, se combinaron los dos mejores algoritmos de mapeo en una tubería, lo que aumentó aún más la sensibilidad de 95% y una especificidad de 93%. La razón de este aumento de la precisión es que ciertas variantes predichos que son causadas por la cartografía errónea (Figura S1) están filtrados. A pesar de este gasoducto final (SSAHA2 + BWA-SW + Atlas-SNP2) se comporta mejor que
gsMapper gratis (sensibilidad del 91,2% y 90,8% de especificidad), la diferencia no es grande y
gsMapper
puede considerarse como una alternativa válida (y, a menudo fácil de usar) (Figura 1 B).
(a) diferentes tuberías muestran diferente sensibilidad y especificidad. La variación de Doc y umbrales VAF en el proceso de la variante de la llamada tiene un afecto adicional sobre las predicciones en términos de sensibilidad y especificidad, respectivamente. Cada tubería se representa con un símbolo diferente y el rendimiento de cada tubería (en términos de sensibilidad y especificidad) se representa en distintos escenarios Doc y umbrales VAF. Tenga en cuenta que el eje X representa la tasa de falsos positivos (1-especificidad). En esta gráfica ROC, más cerca del punto hasta el punto superior izquierdo de la gráfica, mejor será la sensibilidad y la especificidad. Los diferentes colores de los símbolos indican que el desempeño de la tubería, siempre cambiantes umbrales VAF, y los dos recuadros sombreados indican el rendimiento en el cambio de umbrales DOC. El gráfico muestra que (i) la disminución del umbral DdC aumenta la sensibilidad de todas las tuberías como se indica con la línea de puntos azul; (Ii) aumentar el umbral VAF aumenta la especificidad con una ligera disminución en la sensibilidad como se indica (en el ejemplo de la tubería Blat + VarScan) con la línea de puntos de color rojo; (Iii) la tubería BWA-SW + + SSAHA2 Atlas-SNP2 tiene el mejor desempeño entre todas las tuberías bajo doc = 3 & amp; VAF = 0,20 umbrales como se indica con la flecha amarilla. La tubería de Roche se indica con una forma de diamante negro ya no hay cambios en los parámetros se realizaron en él, y SSAHA2 + SAMTools y BWA-SW + SAMTools tuberías eran de color gris ya que no hay cambios de umbral VAF se llevaron a cabo en ellos. (B) El coeficiente de correlación Matthews para cada tubería se muestra para el funcionamiento más óptimo de que la tubería (Tabla S1). Es interesante observar que el rendimiento óptimo de todas las tuberías, excepto Roche gsMapper, se observó un umbral Departamento de Comercio 3.
Las mutaciones en los genes del cáncer generalizados a través de 18 líneas celulares T-ALL y 15 T-ALL muestras de pacientes
aplicó la tubería optimizada se determinó anteriormente, que consiste en la combinación SSAHA2 + BWA-SW para la asignación de lectura, y Atlas-SNP2 para la variación de llamar, para identificar las mutaciones en un panel de 58 "del cáncer genes "a través de 18 líneas de células T-ALL y 15-Todas Las muestras de pacientes primarios. Este conjunto de genes que consta de 13 pilotos T-ALL (Figura 2.A.I) y otros 45 genes implicados en una variedad de tipos de cáncer (Figura 2.A.II). Todos estos genes están presentes en el censo [2] de la base de datos de genes de cáncer, excepto para los genes recién descubiertos cáncer Atoh1 y PHF6 [13], [14]. Dado que las mutaciones PHF6 están involucrados en la LLA-T añadimos PHF6 a nuestra lista de T-ALL conductores.
Codificación mutaciones en los genes conocidos de cáncer (A) y genes candidatos (B) se indican con códigos de colores diferentes. Panel A se subdivide en genes (I) que se sabe que son los conductores en T-ALL, y (II) los genes que tienen mutaciones somáticas recurrentes en varios cánceres humanos. Las líneas celulares se encuentran a la izquierda de la mesa, y las muestras de los pacientes se encuentran a la derecha. Los genes se clasifican en función de la frecuencia de mutaciones de proteínas en la alteración de las muestras de los pacientes.
Secuencia lee fueron asignadas a la totalidad del genoma de referencia y aquellos que lee un mapa de los genes seleccionados fueron retenidos. Esto dio como resultado un 36% de lecturas que se asignan a las secuencias diana en promedio, con un rendimiento medio de 24.2X y 16.3X de líneas celulares y muestras de los pacientes, respectivamente. El análisis de los datos de la secuencia reveló que los exones con una cobertura muy baja tenían una significativamente mayor contenido de GC en comparación con los exones con la cobertura más alta (p-valor de 2.2e-16), un resultado que concuerda con un estudio publicado anteriormente [15] (Figura S2 ). De los 1565 exones seleccionados en este estudio, 18 exones no tenían cobertura en las líneas celulares o en las muestras de los pacientes (correspondientes a 8710 bps); y 15 exones no tenían cobertura en las muestras de los pacientes solamente (correspondiente a 5197 bps). En promedio, el 94% y el 86% de los exones seleccionados alcanzaron una cobertura media igual o superior a 3 para las líneas celulares y las muestras de los pacientes, respectivamente.
Variación llamamiento resultó en 836 variantes de un solo nucleótido distintas (SNVS) en conocidos genes del cáncer a través de las 33 muestras. Las líneas celulares tenían significativamente más SNVS en los genes de cáncer que las muestras de pacientes (p-value & lt; 0,001); en promedio se detectaron 153 SNVS por línea celular y 117 por muestra del paciente. El 56% de los SNVS predichos fueron reportados en dbSNP (http://www.ncbi.nlm.nih.gov/projects/SNP/) o en el proyecto 1.000 Genomas (http://www.1000genomes.org/) y eran excluidos del análisis adicional, mientras que los 368 SNVS restantes (Tabla S3) afectados 55 de los 58 genes del cáncer secuenciado, principalmente en los exones (58,4%) y en las regiones no traducidas (23,9%). Además, hubo 8 SNVS que afectan a los sitios de empalme. De los SNVS exonic, 14 resultado de la ganancia de un codón de parada (denominada "detener el aumento de" SNVS), 140 son no sinónimos y los 61 restantes son variaciones de codificación sinónimos.
Para validar las mutaciones encontradas en la celda líneas, comparamos nuestros resultados con mutaciones determinados por el proyecto de línea celular de cáncer [16], que contiene once de nuestras líneas celulares 18. De las 35 mutaciones puntuales oncogénicos se encuentran en el proyecto de la línea celular del cáncer (determinada mediante secuenciación capilar) en los genes que están incluidas en nuestro panel, 31 fueron recuperados por la re-secuenciación automatizada de Roche /454 utilizando el SSAHA2 + BWA-SW + Atlas análisis de tuberías -SNP2, correspondiente a una tasa de recuperación del 88,5% (Tabla S4). Tenga en cuenta que gsMapper recuperó 30 mutaciones fuera de 35, lo que resulta en una tasa de recuperación de 85,7%. Las mutaciones que se perdieron por Roche secuencia 454 /son ya sea debido a la baja cobertura en esas posiciones (en dos de las cuatro mutaciones perdidas, tanto en NOTCH1), o con la calidad variante baja (una mutación TP53), o para la secuencia de errores (uno NOTCH1 mutación está cubierto por 10 lecturas, ninguno de los cuales contiene el alelo variante informado por el proyecto línea celular de cáncer). En cuanto a la especificidad, ambas tuberías obtuvieron buenos resultados, por ejemplo en el gen FBXW7 para los que nos encontramos con un punto de mutación que altera la proteína en exactamente las mismas cinco líneas celulares como el proyecto de línea celular de cáncer (de los once líneas celulares comunes). En conclusión, la re-secuenciación automática usando Roche /454, ya sea con la tubería gsMapper o la tubería SSAHA2 + BWA-SW + Atlas-SNP2, es en gran medida de acuerdo con las mutaciones encontradas por secuenciación capilar.
Trece de los genes del cáncer de 58 se han relacionado específicamente a T-ALL, y identificado proteína alterando mutaciones en al menos uno de estos genes en todas las líneas celulares y en 10 muestras de pacientes (Figura 2.ai). De los otros genes 45 de cáncer, 36 genes fueron mutados (Figura 2.A.II), de los cuales 25 se mutaron en al menos dos muestras (línea celular o de pacientes). Los genes con la mayoría de las mutaciones en T-ALL líneas celulares son NOTCH1 (mutación no sinónima de 9/18 líneas celulares), TP53 (10/18), FBXW7 (7/18), y las ANR (5/18). Estos también tienen mutaciones en muestras de pacientes, excepto TP53, lo que sugiere que puede ser más fácil de obtener líneas de células a partir de muestras con mutación TP53 o que las mutaciones TP53 son adquiridos durante el cultivo celular [17].
Identificación de mutaciones recurrentes JAK3 en T-ALL
a continuación se determinó si se pudieran identificar las mutaciones en los genes del cáncer que anteriormente no estaban vinculados a T-ALL. Encontramos varias de estas mutaciones en T-ALL líneas celulares (Figura 2.A.II), pero su ausencia en las muestras de los pacientes cuestiona su relevancia para la patogénesis de la T-ALL.
Hemos identificado varias mutaciones en JAK2 y JAK3 en ambas líneas celulares y muestras de pacientes. Todas las quinasas JAK, excepto TYK2 (ver más abajo), se oncogenes en la leucemia y la activación de mutaciones y translocaciones que afectan a JAK1 conocidos, JAK2 y JAK3 se describen en múltiple, principalmente mieloide, neoplasias malignas hematológicas [18]. Hasta hace poco, JAK1 fue el único miembro de la familia JAK en la que las mutaciones puntuales se han descrito en T-ALL [19]. Sin embargo, en un reciente artículo JAK3 mutaciones con ganancia de función se describen en T-ALL por Elliott et al. [20]. En nuestro estudio, hemos identificado 3 mutaciones de codificación no sinónimas en 2 pacientes de JAK2 (TLE37 paciente tenía dos mutaciones) y 4 mutaciones de codificación no sinónimas en 1 paciente y 2 líneas celulares (línea celular SupT1 tenía dos mutaciones) para JAK3. (Tabla S3). secuenciación de Sanger confirmó una JAK2 y JAK3 todas las variaciones (Tabla S5, la Figura 3.A-B). Complementaria secuenciación de Sanger de todos los exones de los genes JAK2 y JAK3 en 31 adicionales pacientes con T-ALL identificó la variante 1 JAK2 adicional y 2 variantes JAK3 adicionales (Tabla S5, Figura 3.A-B). Por lo tanto, en total, se identificaron mutaciones JAK2 en 2 de 46 (4%) T-Todas las muestras y en 0 de 18 T ALL-líneas celulares y mutaciones JAK3 en 2 de 46 (4%) T-ALL muestras y en 2 de 18 T-ALL líneas celulares (Tabla S5, la figura 3.AB). Para JAK2, ambas mutaciones también estaban presentes en una muestra de remisión correspondiente, mientras que todas las mutaciones de los pacientes JAK3 se adquirieron somáticamente. Curiosamente, TLE44 paciente mostró 2 mutaciones somáticas en JAK3, a saber, A572T y M511I, que se detecta en el mismo alelo (datos no mostrados). Por otra parte, la mutación M511I se ha detectado antes en la LMA y la sobre expresión de este mutante células 32D IL3 dependientes transformadas e inducido T-ALL en ratones [21]. Considerando que la mutación A572T no se describió antes, se encontró JAK3 A572 aminoácido mutado en una V (mutación A572V) en la leucemia de células T, linfoma de células T, y AML, y este mutante A572V citoquina transformado dependiente de las células hematopoyéticas e indujo leucemia en ratones [21], [22], [23], [24].
(a) Sanger de secuenciación cromatogramas correspondientes a las variantes JAK2 /JAK3 confirmados. (B) Estructura de dominios de proteínas JAK2 y JAK3 con la indicación de la novela detectado variantes. variantes no somáticas se indican con un asterisco. (c) secuencias de Sanger que muestran ejemplos de variantes Tyk2 detectan en-Todas las líneas celulares o en muestras de pacientes de leucemia. (D) Representación esquemática de la estructura de proteínas TYK2 con indicación de todas las nuevas variantes Tyk2 detectados en este estudio. variantes somáticas no se indican con un asterisco.
Identificación de nuevos oncogenes y genes supresores de tumores en T-ALL
Búsqueda de nuevos genes T-ALL conductor puede ser realizado por toda -exome secuenciación u otros enfoques de todo el genoma. Sin embargo, la plataforma Roche /454 combinado con captura de secuencia podría ser útil en un enfoque de genes candidatos. En nuestro enfoque re-secuenciación dirigida, 39 genes se incluyeron que no fueron causalmente relacionada con el cáncer, pero se seleccionaron como oncogenes candidatos o genes supresores de tumor, debido a su función (por ejemplo, tirosina quinasas y fosfatasas de tirosina) o porque los miembros de la familia habían sido implicado en el cáncer (por ejemplo, TYK2 para la familia JAK, Tet1 porque TET2 es un gen de cáncer conocido). Figura 2.B indica los exonic y empalme sitio mutaciones observadas en estos genes y se clasificaron los genes de acuerdo con la recurrencia de variantes que alteran la proteína a través de muestras de pacientes.
Curiosamente, 4 de las 15 muestras de pacientes secuenciados contienen una variación en Tet1. El
TET
familia de genes (
Tet1
,
TET2
,
TET3
) de los reguladores epigenéticos es importante para el campo de la hematología debido a la observación de
Tet2
mutaciones en el 10-25% de los pacientes con diversas enfermedades hematológicas mieloides [25], [26], [27]. Para evaluar mejor la frecuencia de mutación de
Tet1 Hoteles en LLA-T, se realizó la secuenciación de Sanger suplementaria de
Tet1 Hoteles en todas las líneas celulares y muestras de pacientes y en un panel de 22 adicionales T-ALL casos . En general, esto dio lugar a la identificación de los
Tet1
variantes en 5/37 (13,5%) de los pacientes analizados y en 1/18 T-ALL líneas celulares (Karpas-45) (Tabla S6 y la Figura 4). El estado somático del detectados
Tet1
variantes se confirmó por 1 caso (H1297Y) cuando se disponía de una muestra de remisión. También investigamos las variantes en
TET2
y
TET3
recogido por 454 y se realiza la secuenciación de Sanger adicional para estos genes.
se detectaron Tet2
variantes en 2 líneas celulares (JURKAT y KARPAS45) y un
TET3
variante se detectó en la línea celular CCRF-CEM, las muestras de pacientes sin TODAS T-(0/46) albergaron adquiridos Tet2 o TET3 mutaciones (Tabla S6).
(A) cromatogramas de secuenciación de Sanger que representan variantes Tet1 confimed. (B) Representación esquemática de la estructura de proteínas Tet1 con indicación de todas las nuevas variantes Tet1 detectados en este estudio. Variantes detectadas en las líneas celulares se representan por encima de la proteína Tet1, variantes detectadas en muestras de pacientes de leucemia están por debajo de la proteína Tet1. variantes somáticas no se indican con un asterisco.
Las mutaciones en los genes de la fosfatasa de tirosina, que actúan como reguladores negativos de la señalización de la tirosina, se identificaron en muchos T-ALL líneas celulares y también en varios T-ALL pacientes. Las mutaciones en los genes adicionales SPRY, los reguladores negativos de la vía RAS /MAPK, también se detectaron. Se identificaron una variante homocigótica en
SPRY3
en una sola muestra del paciente ALL T, y 3 mutaciones en
SPRY4 gratis (2 mutaciones en líneas celulares y 1 mutación somática adquirida en un T-ALL muestra del paciente ). secuenciación de Sanger confirmó la presencia de estas mutaciones, pero no reveló mutaciones adicionales de SPRY3 /SPRY4 en 22 adicionales T-ALL casos, con lo que la frecuencia de mutación SPRY4 a 1/37 pacientes con T-ALL y 2/18 Todas Las líneas celulares (Tabla S7, Figura 5).
(A) cromatogramas de secuenciación de Sanger que muestran variantes SPRY4 confirmados. estructura (B) de dominio de la proteína SPRY4 con indicación de la novela detectado variantes.
Por último, también hemos identificado varias mutaciones en tirosina quinasas (IGF1R, Tyk2, TNK1, y MST1R) y proteínas de señalización asociadas ( IRS2, SOCS3), pero la mayoría de estas mutaciones se han encontrado en líneas celulares, mientras que las muestras de pacientes primarios mostraron una frecuencia mucho más baja de estas mutaciones. El gen más frecuentemente mutado en todas las líneas celulares y muestras de pacientes fue el sustrato receptor de insulina 2 gen (IRS2), que muestra las mutaciones de codificación no sinónimos en 6 líneas de células y en una muestra del paciente. También frecuentemente mutado se TYK2, con mutaciones observadas en 6 líneas celulares; una variante tope de ganancia y 5 variantes de codificación no sinónimas. Aunque ninguna de las 15 muestras de pacientes lleva una mutación en TYK2, podría estar presente en baja frecuencia en los pacientes. Para probar esto, se realizó la secuenciación complementaria de TYK2 en 93 T-ALL, AML y 54 53 B-ALL muestras de pacientes. A pesar de la alta frecuencia de las variaciones en Tyk2-ALL T líneas celulares, se detectaron variantes Tyk2 sólo en 2 de los 93 y T-ALL 1 de 54 casos de LMA (Tabla S5, la figura 3.CD).
La evidencia de la acumulación de mutaciones específicas durante el cultivo in vitro de la T-ALL líneas celulares
la frecuencia de mutación de TYK2 en T-ALL líneas celulares en comparación con T-ALL primaria muestras era sustancialmente diferente, con una alta tasa de mutación de TYK2 en líneas celulares, pero sólo una baja tasa de mutación en las muestras primarias. Para determinar si esto podría ser debido a la acumulación de mutaciones Tyk2 durante el cultivo de las células, la secuencia TYK2 en diferentes clones de la misma T-ALL línea celular (Tabla 1). Para la línea celular CCRF-CEM, obtuvimos 5 subclones diferentes que fueron recolectadas en los últimos años. Curiosamente, mientras que la variante R1027H estaba presente en todas las muestras analizadas, la variante A35V sólo estaba presente en nuestra línea y en un clon adicional CCRF-CEM. En la línea celular Karpas-45, la variación Q830 * estuvo presente en 3 clones diferentes. En contraste, sólo nuestra línea JURKAT contenía la mutación C192Y, mientras este estaba ausente en otros 2 clones disponibles en DSMZ (www.dsmz.de) (Tabla 1). Estos datos sugieren que al menos algunas mutaciones Tyk2 se adquirieron durante el cultivo prolongado de las células, y por lo tanto es poco probable que represente un evento oncogénico importante para el desarrollo de la leucemia
in vivo
. Además, el análisis de las propiedades transformadoras de estos mutantes en células Ba /F3 que no pudo identificar las principales diferencias entre TYK2 tipo salvaje y variantes de TYK2 detectados en líneas celulares o muestras de pacientes y no pudimos demostrar ninguna autofosforilación de TYK2 en-ALL de células T líneas que contienen variantes Tyk2 (datos no mostrados).
Estos datos confirman diferencias importantes entre líneas celulares y muestras primarias de pacientes, lo que puede reflejar la acumulación de mutaciones durante
vitro
cultivo celular in.
Discusión
Hemos demostrado que el enfoque de secuenciación dirigida con un ajuste de análisis optimizado puede ser usado para identificar mutaciones oncogénicas. Este enfoque podría ser de especial interés para la detección de mutaciones puntuales en un conjunto de oncogenes y supresores de tumor importantes u otros genes relacionados con la enfermedad para el diagnóstico, pronóstico o predicción de la elección de terapia. Tal información podría ser generada en un plazo relativamente corto y con un detalle sin precedentes. Una de las principales ventajas sobre la secuenciación de Sanger clásico es el mayor rendimiento de este método que permite que todos los exones de un conjunto de genes de este tamaño pueden ser fácilmente secuenciados. Como tal, se proporciona información completa y variantes raras o mutaciones aún no descubiertos previamente en un gen particular puede ser detectado. De hecho, de los 160 exonic y sitio de empalme variantes (con exclusión de las 61 variaciones sinónimas) detectados en las líneas celulares y muestras de pacientes a través de nuestro panel de genes del cáncer, sólo el 40 se encuentran en la base de datos COSMIC [16], de los cuales 24 están asociados específicamente con T-ALL. Aunque para algunos genes existen puntos calientes de mutación (por ejemplo, el KRAS G12, G13, Q61 mutaciones), la función de la mayoría de los genes del cáncer pueden ser afectados por mutaciones en diferentes posiciones. Por lo tanto, para la mayoría de los genes del cáncer necesita toda la secuencia de codificación para ser re-secuenciado, y para ello la tecnología de Roche /454 es particularmente adecuado
Para detectar mutaciones utilizando secuenciación de próxima generación -., Ya sea para reemplazar o complementar molecular se requieren tuberías estandarizado de análisis bioinformática con una precisión muy alta - diagnóstico. una tubería Tal consiste en un algoritmo de asignación para alinear la secuencia lee al genoma de referencia, un algoritmo de variación de llamadas para identificar las diferencias entre la muestra y la referencia, y un algoritmo de filtrado de variación.
Se compararon múltiples combinaciones de mapeo y la variación de llamar algoritmos, y se encontró que la combinación de dos, a saber, mapeadores SSAHA-2 y BWA-SW, seguido de Atlas-SNP2 produce los resultados de detección de variación más precisos. La adición de dos algoritmos de mapeo filtra los falsos positivos predicciones variantes debido a la cartografía erronous, y el modelo de error de Atlas-SNP2 permite la eliminación de las lecturas que tienen múltiples coincidencias más próximas en el genoma de referencia. También se encontró que los filtros de datos adicionales sobre la profundidad de la cobertura y la frecuencia de los alelos en la variante aumentaron aún más la sensibilidad y la especificidad de la detección de la variación.
Nos encontramos con varias limitaciones técnicas durante el análisis de datos. En primer lugar, tuvimos que quitar lecturas duplicadas introducido por etapas de amplificación de PCR durante la preparación de la muestra ya que nos dimos cuenta de éstos estaban causando falsos positivos predicitons SNV. En segundo lugar, sólo se pudieron predecir SNVS, mientras que indeles (pequeñas inserciones y deleciones) tuvieron que ser ignorados, ya que nuestro trabajo (datos no mostrados) y los estudios anteriores indican que 454 lecturas no son adecuados para la detección indel debido a la gran cantidad de resultados falsos positivos [4]. En un entorno de diagnóstico, en donde se persigue 100% de especificidad, es crítico identificar genes o regiones en los genes que son propensos a la adquisición de indeles y el diseño de ensayos alternativos para investigar ellos. Del mismo modo, reordenamientos genómicos son causas importantes de LLA-T, sino que requieren tecnologías de detección complementarios.
Creemos que el uso de una tecnología de secuenciación de lectura larga, tales como Roche /454 o el más reciente Bioscience Pacífico, ofrece ventajas especiales en lo que respecta a la sensibilidad y la especificidad de la detección de variación. En primer lugar, la alineación de lectura larga permite una mejor distinción entre genes muy similares en el genoma. Por ejemplo, uno de los genes que re-secuenciado fue NOTCH1, un gen con múltiples homólogos (es decir, NOTCH2, NOTCH2Nl, NOTCH3 y Notch4). Sin embargo, se observó que no lee la asignación a cualquiera de estos homólogos, a pesar de que hemos mapeado las lecturas de todo el genoma. Esto indica que tanto la captura de la secuencia y el mapeo eran específicos. Por otro lado, también encontramos un ejemplo donde la captura de secuencia no era específica. A saber, el gen PMS2 es uno de los genes objetivo de nuestro estudio, sin embargo, se observó lee mapeo a la pseudogene PMS2, PMS2CL, que contiene los seis primeros exones del gen PMS2. Gracias a la utilización de largo lee, esto no causa problemas para la detección de variación porque para cada gen respectivo lecturas mapeados
única
al gen correcto, ya sea PMS2 o PMS2CL. Tenga en cuenta que la tecnología de captura proporciona indicaciones adicionales para lograr una mayor especificidad, porque no sólo los exones están cubiertos en la captura, sino también las regiones intrónicas que flanquean.