Extracto
A continuación secuenciación de nueva generación ha permitido una enumeración rentable de la plena complemento mutacional de un genoma en tumor particular variantes de nucleótido único (SNVS). La mayoría de los modelos computacionales y estadísticos actuales para el análisis de datos de la próxima generación de la secuencia, sin embargo, no tienen en cuenta las propiedades biológicas específicas de cáncer, incluyendo alteraciones en el número de copias somáticas segmentaria (CNA) -que requieren un tratamiento especial de los datos. Aquí presentamos Conan-SNV (Copia Número anotado SNV): un nuevo algoritmo para la inferencia de variantes de nucleótido único (SNVS) que se superponen a las alteraciones del número de copias. El método se basa en el modelado de la noción de que las regiones genómicas de duplicación segmental y amplificación inducen un espacio genotipo extendida en un subconjunto de los genotipos exhibirá distribuciones alélicas fuertemente sesgada en SNVS (y por lo tanto hacerlos indetectable por métodos que asumen diploidía). Se introduce el concepto de modelado de los recuentos alélicas de los datos de secuenciación usando un panel de modelos de mezcla binomiales donde el número de las mezclas en un locus dado en el genoma es informado por un número de copias estado discreto dado como entrada. Aplicamos Conan-SNV a un conjunto de datos de escopeta del genoma completo publicado previamente obtenida de un cáncer de mama lobular y demostramos que es capaz de descubrir 21 experimentalmente revalidado no es sinónimo mutaciones somáticas en un genoma del cáncer de mama lobular que no fueron detectados utilizando el número de copias insensibles algoritmos de detección del SNV. Es importante destacar que, el análisis ROC muestra que el aumento de la sensibilidad de Conan-SNV no da lugar a pérdida desproporcionada de especificidad. Esto también fue apoyada por el análisis de un genoma linfoma publicado recientemente con un cariotipo relativamente quiescente, donde Conan-SNV mostró resultados similares a otras personas que llaman, excepto en las regiones de número de copias ganancia en el que se confiere una mayor sensibilidad. Nuestros resultados indican que en los tumores genómicamente inestable, el número de copias de anotación para la detección SNV será fundamental para caracterizar completamente el paisaje mutacional de los genomas del cáncer
Visto:. Crisan A, R Goya, Ha G, J Ding, Prentice LM , Oloumi A, et al. (2012) Mutación Discovery en Regiones de segmentaria del Genoma del Cáncer amplificaciones con Conan-SNV: Un modelo de mezcla para la próxima generación de Secuenciación de tumores. PLoS ONE 7 (8): e41551. doi: 10.1371 /journal.pone.0041551
Editor: Chad Creighton, Baylor College of Medicine, Estados Unidos de América
Recibido: 30 de junio de 2011; Aceptado: June 27, 2012; Publicado: 16 Agosto 2012
Copyright: © Crisan et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo fue financiado por la Fundación canadiense de mama cáncer (beca para MSF), y los Institutos canadienses de Investigación en Salud de la Universidad de la Columbia británica programa de formación /Simon Fraser University Bioinformática (beca para CA). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
los avances recientes en métodos masivamente paralelos genoma leer cortos de secuenciación (llamada secuenciación de próxima generación (NGS)) han puesto la meta de la delineación completa de paisajes genoma del cáncer hacia abajo de la resolución de un solo nucleótido dentro de alcance práctico. Se necesitan nuevos métodos para el análisis de datos de secuencias de lectura cortas, sin embargo, en particular aquellos que son capaces de hacer frente a los complejos paisajes genómicas de tumores. genomas del cáncer se someten a diversas formas de aberración somática, incluyendo mutaciones de un solo nucleótido, translocaciones, fusiones de genes, deleciones, inversiones y alteraciones en el número de copias del genoma segmental (CNA). Se han reportado varios tipos de aberración somática a ocurrir juntos: por ejemplo, Kadota et al. [1] observado mutaciones recurrentes en
PIK3CA Hoteles en cáncer de mama con los alelos amplificaciones específicas del alelo mutante en los mismos tumores y sugirió que
PIK3CA
mutaciones puntuales con amplificación del CNA concomitante resultó en efectos sinérgicos oncogénicos . Del mismo modo, LaFramboise et al. [2] mostró la amplificación específica de alelo de
EGFR
alelos mutantes en una línea celular de cáncer de pulmón; ejemplos de amplificación de co-produciendo con mutaciones somáticas en
MYC
[3],
HRAS
[4], y
MET
[5] También se han observado. La co-ocurrencia de las variantes de nucleótido único en las regiones de la amplificación del número de copias segmentaria plantea problemas especiales debido a mezclas desconocidas de las abundancias de los alelos podrían resultar del proceso de amplificación segmental y /o selección posterior, en algunos casos de confusión interpretación. Esto es porque las mezclas de alelos en cualquier posición pueden estar sesgadas, lo que resulta en una desviación de la frecuencia teórica (0.5) para las variantes heterocigotos esperados en los genomas diploides. La figura 1 muestra un ejemplo del cromosoma 19 de un genoma carcinoma de mama lobular reportado en Shah et al. [6] e ilustra un sesgo en la frecuencia alélica de distancia de heterocigosidad debido a una amplificación del número de copias del alelo específico en 19q. Tanto el análisis de frecuencia B-alelo en el análisis de datos de la matriz y la razón alélica en los datos de NGS admite una amplificación mono-alélica en 19q en este genoma. Se presenta en este documento que este evento alberga 7 mutaciones somáticas coexistentes (ver resultados) en los genes (anotado en la karyogram) que son indetectables por los métodos analíticos que asumen diploidia. Por lo tanto, los métodos precisos y sensibles variantes de llamada pueda requerir la inclusión conceptual de co-existente variantes de número de copias segmentaria (somática o germinal) en la interpretación de las frecuencias alélicas medidos a partir de datos de NGS. matrices de genotipos de alta densidad han permitido la cuantificación de la CNA alelo-específicas mediante la incorporación de número de copias con el genotipo de alelos. Algoritmos como QuantiSNP [7], Vanilla Ice [8], Birdsuite [9], PennCNV [10] y picnic [11] modelo alelo-específica CNA mediante la ampliación del espacio de estados genotipo de los tres genotipos diploides convencionales: a bis (homocigotos para importante alelo), AB (heterocigoto) y BB (homocigotos para el alelo menor de edad). Para las regiones amplificadas los posibles genotipos número natural ampliar, por ejemplo, una ganancia cromosoma triploide o segmentaria podría tener las siguientes genotipos:. A pesar de los conocimientos adquiridos a través de estos métodos, todos están en última instancia limitada por la resolución y el alcance de la gama de diseño. Lo más importante, el descubrimiento de nuevas mutaciones puntuales somáticas en general no es posible con plataformas de gama. secuenciación de próxima generación supera estas limitaciones desde la secuenciación de todo el genoma escopeta (WGSS) puede interrogar a todo el genoma y revelar mutaciones somáticas en loci no cubiertos por las matrices. Además, la frecuencia de alelos en una muestra dada es un ejercicio de recuento digital cuya gama dinámica no está restringido por las limitaciones de saturación y la sensibilidad de hibridación y la intensidad de fluorescencia.
A la amplificación de alto nivel somático del brazo 19q se confirma en NGS, así como datos Affymetrix SNP6.0. variantes somáticas novedosos que eran indetectables por samtools variante persona que llama o SNVMix se resaltan en la karyogram. A) y B) indican el número de registro de copia en bruto y la intensidad alelo b, respectivamente, para el ADN normal (del mismo paciente) en Affymetrix SNP matriz 6.0. El color azul indica el estado diploide (neutro) número de copias; más brillante es el color del rojo más alto es el nivel de amplificación. Las tres bandas distintas en (B) indican la presencia de los alelos que albergan uno de los tres genotipos diploides: AA, AB y BB. C) y D) muestra el número de copias del tumor metastásico y la intensidad alelo b, respectivamente. La amplificación de alto nivel en el brazo 19q se acompaña de intensidades alelo B que muestran una ausencia de la banda de AB heterocigotos (medio) que estaba presente en la normal. E) muestra los recuentos alélicas de próxima generación para la secuenciación de las posiciones representadas en la matriz como una proporción de la profundidad; la relación alélica se calcula sumando el número total de lecturas que contiene una variante en cada posición dividido por la profundidad total en esa posición. F) muestra la copia en bruto a partir de los datos de NGS anotado con la información de amplificación e indica los mismos sitios de amplificación reveladas por la plataforma matriz ortogonal.
Varios genomas del cáncer ahora se han secuenciado profundamente con NGS y se analizó la CNA y SNVS de forma independiente mediante métodos bioinformáticos seguido de validación específico para confirmar alteraciones somáticas. Estos estudios han revelado nuevas mutaciones puntuales somáticas en la leucemia mieloide aguda [12], [13], cáncer de mama [6], [14], cáncer de ovario [15], melanoma [16], linfoma [17] y el cáncer de pulmón [18 ]. El trabajo de Pleasance et al. [16], Chiang et al. [19] y nuestro propio trabajo [6] sugieren que el CNA se puede inferir de los datos de secuencia, sin embargo, ninguno de estos estudios han utilizado algoritmos que se integran de forma explícita CNA para informar a la inferencia de SNVS. Aquí se demuestra cómo la incorporación de la información de la CNA en el descubrimiento de SNV en los rendimientos de datos de secuencias del genoma del cáncer nuevas mutaciones somáticas adicionales que eran indetectables utilizando algoritmos convencionales de predicción del SNV diseñados para genomas diploides normales.
Estudios como Ding et al. [14] y nuestra propia secuenciación de amplificación específica de ultra profunda [6] han utilizado para estimar la frecuencia de las mutaciones en la población de células tumorales con el fin de detectar las poblaciones de células clonales sub-dominantes o raros. Aquí nos muestran que las proporciones de los alelos no diploides también pueden surgir de las regiones de número de copias de las interrupciones asociadas de abundancia alélica. Llegamos a la conclusión que el examen de los resultados de copia de números en aumento de la sensibilidad para detectar tanto la línea germinal y variantes somáticas en las regiones no diploides de los genomas del cáncer.
Resultados
El modelo Conan-SNV
para hacer frente al problema de los estados alélicas en las regiones de número de copias de la aberración, hemos desarrollado un nuevo modelo, Conan-SNV, diseñado para incorporar el conocimiento del estado de número de copias en las posiciones individuales. Se representa esquemáticamente en la figura 2A, y, como un modelo gráfico probabilístico generativa en la Figura 2B, el modelo utiliza un Bayes jerárquica [20] marco independencia condicional para la estimación de parámetros y la inferencia. Conan-SNV se relaciona con el modelo descrito en SNVMix1 Goya et al. [21], pero con diferencias importantes; a saber, que SNVMix1 no codifica el número de copias cambios encontrados comúnmente en los genomas del cáncer (tal como la amplificación 19q se muestra en la Figura 1). Para superar esta limitación, Conan-SNV introduce una serie de recuentos alélicas y un estado discreto número de copias para cada posición en los datos. Un ejemplo de las entradas y de salida se muestra en la Figura 2C. El objetivo es predecir el cual, de un número fijo de genotipos (informada por el estado del número de copias), sería más probable que hayan dado lugar a los recuentos alélicas observadas en una posición dada. Los recuentos alélicas se representan como el número de lecturas en cada posición que coincide con la referencia, donde
T
es el número total de posiciones en la entrada. Dejamos que representan el número total de lecturas alineado a la posición
i gratis (o la profundidad) en la entrada. Introducimos como el estado número de copias en la posición
i
, y suponemos que se conoce en tiempo de ejecución. En teoría, el espacio lleno de estados alelo podría inferir con el conocimiento del número de copias absoluta, sin embargo, los métodos para la determinación del número de copias absoluta de aCGH datos siguen siendo problemáticas y en la práctica es poco probable que todos los estados podrían resolverse incluso con las profundidades de muestreo actuales de NGS (ver Discusión). Estado de número de copias, por tanto, en una primera aproximación, hemos definido, donde la pérdida corresponde a una deleción, NEUT es el número de copias neutra, GAIN se aproxima a la baja la duplicación nivel, AMP se aproxima a la amplificación de bajo intermedio y hLAMP es un número de copias alto nivel amplificación. Aquí se utiliza el método basado en HMM se describe en [6]. Ellos intuición clave en el modelo de Conan-SNV es que informa al espacio de estados de genotipos posibles en la posición
i
de la siguiente manera: (1) los segmentos de pérdida se analizan con un espacio de estado neutral porque presentan desafíos que requieren consideraciones que están separados de amplificaciones y de hecho, incluso puede requerir un genoma normal de cortesía. Contabilización de ganancias número de copia es especialmente importante cuando tales cambios son alelo específico, y cuando el alelo que se amplifica es el alelo de referencia. Por ejemplo, consideremos el caso en el que, esto va a inducir un espacio de estados del genotipo. Por lo tanto, nuestro modelo es teóricamente capaz de detectar variantes alélicas con distribuciones desviado de heterocigosidad (es decir,
AAAAB
o
abbbb
). Dejamos que representa el parámetro de la distribución binomial que codifica la proporción esperada de lecturas coincide con la secuencia de referencia, para un estado determinado número de copias y el estado del genotipo. Por lo tanto, podemos expresar la probabilidad de observar el número de referencia lee dada la profundidad, el estado del número de copias, el genotipo y los parámetros del modelo de la siguiente manera: (2) dando por sentado que se distribuye de acuerdo a la distribución binomial específica de cada estado indexada por el genotipo
y
número de copias. También codificamos una copia-número específico previo sobre genotipos, en el supuesto de que los genotipos para el número de copias de Estado C se distribuyen de acuerdo a una distribución multinomial con parámetros para todos, donde es el número total de posiciones con el estado del número de copias. Nosotros usamos la regla de Bayes para calcular la probabilidad posterior de que el genotipo
k
dio lugar a los datos observados con la codificación explícita de estado del número de copias: (3) donde es el número de genotipos posibles para el estado número de copias
c
(véase la ecuación (1)). Teniendo en cuenta, podemos optar por computar: donde representa cualquier estado variante de genotipo (es decir, cualquier estado que no es
aa
,
aaa
,
AAAA
, etc., como la caso) para representar un único probabilidad de que una posición codifica una SNV.
a) la expansión del estado-genotipo espacio Conan-SNV muestra esquemáticamente. A medida que se encontraron niveles más altos de la amplificación, se requiere un espacio de estado mayor genotipo para dar cabida a los diferentes eventos que podrían surgir debido a amplificaciones (ejemplos en la Figura S1). B) Conan-SNV generativa modelo gráfico probabilístico. Los círculos representan variables aleatorias, y los cuadrados redondeados representan constantes fijas. nodos sombreados indican los datos observados, como el número de alelos, mientras que los nodos blancos indican las cantidades que se deducen durante el entrenamiento, aunque expectativa de maximización. (. Definido por el HMM describen en Shah et al [6]) representa los estados de la CNA de un segmento que se extiende por la posición
i
; representa el genotipo, el cual varía dependiendo del estado de la CNA; es el número de lecturas y es el número de referencia lee; es anterior existente en los genotipos y se extiende para dar cabida a la CNA establece; y es el parámetro binomial genotipo específico para el genotipo k en el estado de la CNA Ci. C) Ejemplo de entrada y salida Conan-SNV. Conan-SNV toma recuentos alélicas y así es segmentar los datos de la CNA como entrada, mientras que SNVMix requiere sólo cuenta alélicas. Las mismas posiciones y los recuentos se proporcionan a ambos algoritmos, con diferentes resultados. En algunos casos Conan-SNV llamará a una variante con un
AAAAB
o
aaab
genotipo, que de otro modo se pierde por SNVMix; También, sin embargo, Conan-SNV también el genotipo A posiciones con
abbbb
en lugar de
bb gratis (como SNVMix [21] lo haría), lo que permite una mejor interpretación de los hechos.
Hyperpriors y hiperparámetros.
asumimos se distribuye según una distribución de Dirichlet conjugado con parámetros. Este es un parámetro definido por el usuario. En nuestro estudio hemos creado con el fin de favorecer a los estados no variante ya que la mayoría posiciones en el genoma serán homocigotos para la secuencia de referencia (es decir, de tipo salvaje). Suponemos se distribuye según una distribución beta conjugado con parámetros. Hemos establecido utilizando la intuición biológica que las posiciones de referencia homocigotos será casi "puro", con la disminución proporcional hacia posiciones variantes homocigotos. Todos los ajustes hiperparámetro se dan en la Tabla S1.
Modelo de estimación de ajuste y parámetros.
Teniendo en cuenta los parámetros del modelo libres, podemos mostró cómo utilizar las ecuaciones (3) y (4) para inferir todos
i Hoteles en los datos de entrada. Como mostramos en [21], es ventajoso para ajustar el modelo a los datos utilizando la expectativa de maximización (EM) para aprender. Para Conan-SNV, tratamos los datos en cada estado del número de copias por separado y corremos EM para cada conjunto de datos de forma independiente (ver Métodos). Lo describimos brevemente aquí. Deje que representan el conjunto completo de posiciones en los datos de entrada con anotada estado número de copias
c
. Interactuando sobre los estados de número de copias, el E-paso consiste en calcular utilizando la ecuación (3) para cada posición, y las estimaciones actuales de. Las reestimaciones M-step con la actualización conjugado estándar: (5) (6) El algoritmo continúa hasta que los datos completos de registro posteriores aumentos no existen más o se ha alcanzado el número máximo de iteraciones
rendimiento Conan-SNV. en los datos simulados.
Hemos simulado aproximadamente 1000 puestos para cada estado del número de copias para entrenar el modelo y luego se evaluó el rendimiento en 100 conjuntos de pruebas simuladas, que también contó con 1000 posiciones por el estado del número de copias. Posiciones fueron simuladas según una distribución binomial, donde se derivó de los hiper- descritos en la Tabla S1, con la profundidad simulada de una distribución de Poisson. La distribución de genotipos en cada uno de los estados de número de copias simulados se tomaron muestras al azar de acuerdo con (también calculado a partir de los hiperparámetros). Los intervalos de AUC y 95% de confianza de la media, a lo largo con la sensibilidad a tres valores diferentes de falsos positivos de tarifas (0.01,0.05, y 0,1) se calcularon para cada CNA-estado y se muestran en la Tabla S2. Conan-SNV y SNVMix tuvieron un rendimiento casi idéntico en los diferentes estados de número de copias, sin embargo Conan-SNV había mejorado la sensibilidad en el estado más alto CN. Para el estado CN 5, en los falsos valores de tasa de positivos de 0,01, 0,05 y 0,1, Conan tenía una sensibilidad media de 0,77, 0,84 y 0,88, mientras que SNVMix tuvo una sensibilidad de 0,72, 0,78 y 0,82. Estos resultados no fueron estadísticamente significativos, pero que establecen una mejora marginal de Conan-SNV sobre SNVMix sin pérdida de especificidad.
Validación experimental del modelo de Conan-SNV
Para determinar la sensibilidad y especificidad de Conan-SNV en los datos reales del tumor, se aplicó el modelo para el carcinoma lobulillar metastásico previamente publicado en [6], y posteriormente re-secuenciado todas las nuevas predicciones hechas por el modelo para establecer su exactitud. El genoma se divide en segmentos discretos CNA utilizando un modelo de Markov oculto como se describe en [6] y exhibió un paisaje CNA variable. Como se informó anteriormente, el 30,2% del genoma se predijo como la pérdida /neutral, el 44,5% fue la ganancia, el 19,1% de amplificación y amplificación de alto nivel del 4,2% (véase la Tabla S3). El perfil de número de copias fue consistente con los datos de que derivados de la matriz de genotipificación Affymetrix SNP6 (Figura 1), que confirma que las regiones predichas de las variaciones del número de copia no se indujeron por la plataforma de secuenciación de Illumina. La Figura 1 muestra el cromosoma 19 y pone de manifiesto un ejemplo de una amplificación de alto nivel somático en el brazo 19q que también demuestra un sesgo en la frecuencia alélica, lejos de heterocigosidad, debido a una amplificación del número de copias del alelo específico. Tanto el análisis de frecuencia B-alelo en el análisis de datos de la matriz y la razón alélica en los datos de NGS admite una amplificación mono-alélica en 19q en este genoma. Un nuevo análisis del genoma con Conan-SNV realizó un total de 61.643 llamadas de SNV en exonic regiones del genoma (NCBI construir 36,1, anotaciones V51 Ensembl); se compara con las predicciones de 58,518 SNVMix [21] y 51.085 con las samtools mpileup variante de la persona que llama [22]. La figura 3 muestra se solapan entre Conan-SNV, samtools y predicciones SNVMix. Un total de 49.966 predicciones eran comunes a los tres métodos que sugieren acuerdo global razonable. Sin embargo, 2.857 predicciones eran Conan-específica. En contraste, sólo 781 posiciones eran específicos de samtools y 64 eran específicos de SNVMix. La figura 3A muestra los solapamientos entre Conan-SNV, samtools y SNVMix. regiones neutras albergaban predicciones 191 Conan-específicos, mientras que la ganancia, amplificación y de alto nivel amplificaciones albergaban 977, 589 y 1100 predicciones Conan-específicas, respectivamente. Curiosamente, Conan-SNV llama más SNVS en los Estados neutrales en comparación con SNVMix a pesar de compartir un marco común. Proponemos que la consideración explícita de la CNA en los procedimientos de formación permite una mejor estimación de los parámetros que de otro modo sería influenciado por sesgo alélica en regiones amplificadas (ver Métodos). SNVS en las regiones del AMP de hLAMP llamados por SNVMix y no por Conan-SNV tenían bajas profundidades. Estas secuencias de profundidad bajas en las regiones del AMP y hLAMP siempre son representativas de los límites de la resolución del algoritmo de número de copias. En tales baja profundidad las probabilidades binomiales, para el mayor número de genotipos del número de copias del alelo específica, se superponen colocando así un mayor énfasis en la previa a llamar el genotipo final (que sesgada hacia referencia genotipo homocigoto)
.
La separación por estado CNA muestra un enriquecimiento de predicciones específicas Conan-SNV en el GAIN, segmentos de AMP y hLAMP del genoma.
Figura 3A muestra que había un enriquecimiento sustancial de SNVS Conan-específicas en los estados de amplificación de la CNA. De la lista total de 2.857 predicciones Conan-específicas, filtrados ninguna posición que estaban presentes en dbSNP v130 y posteriormente se identificaron un conjunto de 140 de codificación de proteínas, los candidatos de sustitución no es sinónimo SNVS para la validación por parte dirigidos, la secuenciación de amplificación profunda de ultra (mostrados esquemáticamente en la Figura 4) en el metastásico y (de nueve años antes) primaria del ADN del genoma del tumor, así como el genoma normal de ADN capa leucocitaria de la misma paciente. Un total de 52 SNVS no puede resolverse debido a la falta de amplificación de PCR durante la validación, dejando 88 restante para su posterior análisis. La Tabla 1 muestra 21/125 (23,9%) novedosos, codificación, las mutaciones somáticas no es sinónimo de que se validaron mediante la secuenciación de amplificación de profundidad. Por todas estas variantes somáticas, sus genotipos predichos fueron muy sesgada hacia el alelo de referencia y tenía un genotipo más probable de aab, aaab o AAAAB (Tabla 1). Estos amplicones generados un promedio de lecturas que representa el alelo mutante en el genoma metastásico (con una profundidad media de cobertura de 96.669), mientras que el genoma normal para los amplicones tuvieron una frecuencia del alelo mutante media de y una profundidad media de cobertura de 71.963. Tenga en cuenta que sólo una mutación somática, K187M en ZNF607, una proteína con dedos de zinc supuestamente implicados en la regulación transcripcional, también se confirmó en el tumor primario. Esto apoya la conclusión a partir de [6] que sólo pocas mutaciones presentes en el tumor metastásico estaban presentes en el momento del diagnóstico primario, y por lo tanto eran conductores candidatos de la tumorigénesis. Además, se identificaron 42 (47,7%) variantes de la línea germinal, en el que el SNV estaba presente tanto en el DNA normal y metastásico. Por último, 20 (22,7%) fallaron posiciones para validar como SNVS y se consideraron falsos positivos predicciones. Cinco posiciones (5,68%) no fueron concluyentes debido a la disparidad en la profundidad de la cobertura entre los datos normales y metastásicas de validación del tumor era demasiado grande como para sacar conclusiones. Un listado completo de todas las posiciones 140 está disponible en la Tabla S4. El impacto potencial funcional de cada una de las 21 mutaciones somáticas se evaluó mediante MutationAssessor (http://mutationassessor.org), y se presenta en el material complementario.
abundancia alelo Sub-heterocigotos podría resultar de las poblaciones sub-dominante de las células o la amplificación alelo desigual en las regiones de número de copias aberración. Por ejemplo, la amplificación del número de copias preferencial asociada de un alelo de tipo salvaje se traduciría en menos de relaciones de heterocigotos de un alelo mutante somática. Cabe destacar que el promedio de abundancia de los novedosos SNVS somáticos a partir de los experimentos de validación anteriores, estaba con cuatro mutaciones (que afectan a los genes
NCF2
,
IPO9
,
ZNF480
y
ZSCAN22
) que presenta una proporción de menos de 10%. Sin tener en cuenta el estado del número de copias, la probabilidad de un evento no es de referencia se establecen ponderado, lo que lleva a la pérdida de la sensibilidad. Por otra parte, las proporciones alélicas de la línea germinal podrían ayudar a confirmar si el segmento de número de copias en cuestión es predominantemente mono-alélica. Se examinaron las relaciones alélicas para todos los puestos informativos en los segmentos de la CNA analizados. Encontramos diecisiete de la línea germinal 42 validado variantes también exhibió sustancial skew alélica, tal como se destaca en la Tabla 2 (ver Métodos). En particular, las variantes de la línea germinal en las posiciones chr19: 40691038, chr19: 42074256, chr19: 50869860 y chr19: 59415177 dentro del amplicón de alto nivel sobre chr19 tenían distribuciones alélicas en el tumor que presentaban un desequilibrio significativamente fuera de su distribución normal (test de Chi Sq,). Estos SNPs son de línea germinal proximal a la K187M mutaciones somáticas en
ZNF607
, E24 * en
PRR19
, Q311 * en
ALDH16A1
, E16Q en
ZNF480
, V328M en
LILRA2
, y G348E en
ZSCAN22
. La explicación más parsimoniosa de estos hallazgos es que las mutaciones somáticas fueron un acontecimiento posterior, sin embargo no se sabe si se producen en uno de los cromosomas con amplificador o el cromosoma hermana no amplificada residual. Sería necesario un procedimiento de validación diferente para hacer esta inferencia. Esto es apoyado por un 424 SNVS adicionales dentro de los 19q alto nivel de amplicón (chr19: 24301089-63.793.263 ver cuadro S5) que se prevé que sea ya sea AAAAB o abbbb por Conan-SNV, pero no fueron enviados a la revalidación. El enriquecimiento de
línea germinal
alelos sesgadas en las regiones de cambio significativo número de copias hace que la posible explicación de sesgo alélica de las variantes somáticas en las mismas regiones debido a la mezcla de tumor normal, muy poco probable. Por último, el OncoSNP http://groups.google.co.uk/group/quantisnp/web/downloads-oncosnp algoritmo predice una amplificación desequilibrada que abarca chr19: 32439833 a 63.789.666 (Figura S1) en los datos de Affymetrix SNP 6.0 correspondientes. Este segmento fue predicho por OncoSNP para contener 638 variantes, y 591 variantes, apoyando la conclusión de una amplificación específica de alelo en 19q. Curiosamente, la frecuencia alélica de K187M en
ZNF607
, la única variante somática encontrado en el tumor primario (16.67%) fue consistente en el tumor metastásico (15,25%), lo que sugiere que los otros 19q se producen mutaciones más adelante en el la evolución del tumor.
Conan-SNV recupera más verdaderos positivos sin comprometer la precisión global.
Se evaluó el rendimiento mediante la evaluación del área bajo la curva característica operativa del receptor (AUC) para Conan-SNV y SNVMix. Las posiciones utilizadas como la verdad del suelo se obtuvieron de un 6,0 Affymetrix SNP posiciones genotipo utilizando CRLMM [23] y, además, con OncoSNP (ver Métodos). Aunque las llamadas CRLMM confianza alta habían servido como punto de referencia suficiente para SNVMix en [21], es importante tener en cuenta que CRLMM asume diploidia y por lo tanto será enriquecido sus llamadas para las posiciones que heterocigóticos prevista de aproximación distribuciones alélicas de genomas diploides. OncoSNP, por el contrario, amplía su espacio de estado para dar cabida a los genotipos inducidos por los acontecimientos de la CNA y por lo tanto puede capturar amplificaciones específicas de alelo. Como se señaló anteriormente, las llamadas OncoSNP fueron concordantes con los datos de NGS y apoyaron esta idea de que el cromosoma 1 y 19 tienen amplificaciones específicas de alelo (Tabla S6 y Figura S1).
Los resultados ROC para OncoSNP sugieren que Conan-SNV y SNVMix funcionan de manera similar, excepto en las regiones de las amplificaciones de alto nivel (véase la figura 5). Las AUC para SNVS en las regiones de ganancia fue de 0,998 para SNVMix y 0,999 para Conan-SNV. Para la amplificación y amplificación de alto nivel, las AUC fueron (0,998, 0,999) y (0,991, 0,998), respectivamente. El examen de la ruptura de las llamadas (Tabla S7) determinamos que Conan-SNV llama más verdaderos positivos en general, en comparación con SNVMi1, que también se observó en el conjunto de datos de simulación, sino que también está sujeta a llamar más falsos positivos. La proximidad de las mediciones AUC sugiere que los falsos positivos introducidos por Conan-SNV no son mayores que los verdaderos positivos adicionales recuperados. El ROC para hLAMP es muy diferente de los demás, debido a los SNP albergadas en las regiones de la CNA específicos de alelo del cromosoma 1 y 19 que no pudieron ser detectados por SNVMix.
CRLMM resultados son un punto de referencia para variantes que son fáciles de detectar por SNVMix. El área bajo la curva ROC cálculos indicó que Conan-SNV funciona de manera similar a SNVMix para estas posiciones (Figura S2). El AUC para SNVS en las regiones de ganancia fue de 0,979 y 0,975 para SNVMix Conan-SNV. Para la amplificación y amplificación de alto nivel, las AUC fueron (0,991, 0,990) y (0,911, 0,928), respectivamente. Esto sugiere que el aumento de la sensibilidad adquirida por Conan-SNV no pone en peligro su precisión global en comparación con SNVMix, que también fue demostrada usando OncoSNP para evaluar el desempeño.
rendimiento Conan-SNV en un tumor de reposo.
El paisaje genómico de un tumor varía en los diferentes tipos de cáncer. Conan-SNV es aplicable a los tumores con arquitecturas genoma de reposo, así como aquellos con cariotipos más interrumpidas; para demostrar esto se evaluó el rendimiento de Conan-SNV en un tumor linfoma publicada originalmente en Morin et al [24], donde el 71,9% del genoma se predijo como la pérdida /neutral, 22.1% era ganancia, 4,30% de amplificación y amplificación de alto nivel de 1,67% (véase métodos). Utilizamos Conan-SNV, SNVMix así como las samtools al perfil del paisaje mutacional del genoma tumor linfoma; cada método encontró 62,162, 61,352 y 47,164 variantes respectivamente (Figura 3B). Para este tumor, un aproximado de 30 × cobertura WGSS conjunto de datos del ADN normal correspondiente estaba disponible, permitiendo con ello la determinación de mutaciones somáticas directamente de los datos en sí. Un total de 782 variantes eran exclusivas de Conan-SNV, si no hubo una alta concordancia entre los tres métodos (Figura S4). Se utilizó el software mutationSeq para determinar la presencia de variantes somáticas (ver Métodos). Esto produjo 392, 365 y 228 mutaciones somáticas de Conan-SNV, SNVMix y samtools (Tabla S8). De los 228 predicciones somáticas de samtools, 221 también fueron encontrados por Conan-SNV; y todas las predicciones 365 somáticos a partir de SNVMix fueron encontrados por Conan-SNV (figura S4). La presencia de variantes somáticas únicas para Conan eran casi exclusivamente en las regiones de número de copias GAIN (19/22).