Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: somática: identificación, caracterización y cuantificación del número de copias aberraciones somática a partir de Secuenciación del Genoma del Cáncer Data

PLOS ONE: somática: identificación, caracterización y cuantificación del número de copias aberraciones somática a partir de Secuenciación del Genoma del Cáncer Data


Extracto

secuenciación del genoma completo de pares de muestras de tumores normales de la misma se está convirtiendo en habitual en la investigación del cáncer. Sin embargo, el análisis de los cambios en el número de copias somáticos a partir de los datos de secuenciación sigue siendo un reto debido a la cobertura de secuenciación insuficiente, desconocida pureza de la muestra del tumor y la heterogeneidad subclonales. Aquí se describe un marco computacional, llamado somática, que representa de forma explícita para la pureza del tumor y subclonality en el análisis de los perfiles de número de copias somáticas. Tomando profundidades de lectura (RD) y las frecuencias de alelos menores (LAF) como entrada, somática es la salida 1) índice de mezcla para cada muestra de tumor, 2) somática número de copias de alelos para cada segmento genómico, 3) fracción de células tumorales con el cambio subclonales en cada número de copias somáticas aberración (SCNA), y 4) una lista de eventos de aberraciones genómicas sustanciales, incluyendo la ganancia, la pérdida y la LOH. Somática está disponible como un paquete Bioconductor R en http://www.bioconductor.org/packages/2.13/bioc/html/SomatiCA.html

Visto:. Chen M, Günel M, H Zhao (2013) somática: identificación, caracterización y cuantificación del número de copias aberraciones somática del cáncer de Secuenciación del Genoma de datos. PLoS ONE 8 (11): e78143. doi: 10.1371 /journal.pone.0078143

Editor: Jörg D. Hoheisel, Deutsches Krebsforschungszentrum, Alemania |
Recibido: 31 de julio de 2013; Aceptado: 7 Septiembre 2013; Publicado: 12 Noviembre 2013

Derechos de Autor © 2013 Chen et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Financiación:. Esta investigación fue apoyado por el NIH subvención R01 GM59507. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito. Sin financiación externa adicional fue recibida para este estudio

Conflicto de intereses:. Los autores han declarado que no existen intereses en competencia

Introducción

Durante la carcinogénesis, a menudo hay alteraciones de. la dosis y /o la estructura de los genes supresores de tumores u oncogenes en células de cáncer a través de alteraciones cromosómicas somáticas. La identificación de regiones genómicas recurrentes con alteraciones del número de copias (pérdidas y ganancias) en los genomas tumorales es una forma eficiente para encontrar los genes controladores del cáncer [1]. Lo ideal sería que dicha caracterización debe incluir tanto la identificación precisa de los puntos de interrupción cromosómicas de cada alteración y la estimación absoluta del número de copias de cada segmento cromosómico. Estudios anteriores utilizan microarrays de ADN para inferir cambios en el número de copias en todo el genoma. Los recientes avances en la secuenciación masiva en paralelo proporcionan una poderosa alternativa a los microarrays de ADN para la detección de alteraciones del número de copias [2]. Las ventajas de los enfoques basados ​​en la secuenciación incluyen su estudio exhaustivo e imparcial de todas las variaciones genómicas [3] y la capacidad de detectar tanto número de copias aberraciones (CNA) y variaciones de nucleótido único (SNVS) simultáneamente en cada muestra, que ofrece información crítica para nuestra comprensión de la evolución del genoma del cáncer

Muchos algoritmos se han desarrollado para detectar variaciones del número de copias (CNV) de todo el genoma o los datos de secuenciación de exoma, como los métodos que utilizan prima de lectura profundidad [2] - [5]., lectura alineación de par [6], [7], la cartografía leer dividida [8], [9] y (AS) métodos basados ​​en el montaje [10], [11]. Sin embargo, estos métodos no son muy adecuadas para inferir absoluta número de copias somática porque se han desarrollado para analizar los datos de normal en lugar de muestras de tumores. En comparación con las muestras normales, muestras de tumores tienen algunas características únicas que incluyen: (i) una fracción desconocida de las células normales (tasa de mezcla) que están casi siempre mezclado con las células de cáncer; y (ii) la heterogeneidad de la población de células de cáncer debido a la evolución subclonales en curso. Aunque algunos métodos han sido desarrollados para somática CNA (SCNA) de identificación en toda la secuenciación del genoma del cáncer, la mayoría de ellos no modelan explícitamente la pureza del tumor [12], [13]. Para aquellos que representan la pureza del tumor, ExomeCNV [14] estima que la tasa de mezcla en función del mayor pérdida de heterocigosidad región (LOH) en un genoma, lo que probablemente produce una estimación sesgada. Una opción que se utiliza más comúnmente en ExomeCNV es una configuración por defecto de 0,3 para el índice de mezcla. Control-FREEC [15] requiere una especificación previa del nivel de contaminación normal o una ploidía pre-especificado para estimar la contaminación normal a través del cambio de la mediana del número de copias en las regiones alteradas hacia la línea de base normal. Ambos métodos tienen baja tolerancia a la contaminación. Algoritmos desarrollados en los datos arrayCGH, como ASCAT [16] y absoluta [17], están especializados para estimar la pureza del tumor pero no proporcionan un marco integral para la identificación de llamada o subclonality segmento.

A continuación presentamos somática, una novedoso marco que es capaz de identificar, caracterizar y cuantificar scnas partir de la secuenciación del genoma del cáncer (Figura 1). Por lo que representa directamente la pureza tumor y subclonality, somática fue desarrollado especialmente para analizar las muestras tumorales con la contaminación y /o heterogeneidad. En primer lugar, los segmentos del genoma y somática CNA identifica candidatos que utilizan tanto leer profundidades (DR) y las frecuencias de alelos menores (LAF) desde un mapeado lee. En segundo lugar, somática estima que la tasa mezcla de las relaciones de número de copias relativas de un par de tumor normal mediante un modelo de mezcla finita Bayesiano, que tiene una alta tolerancia en la contaminación de las células normales. Por último, somática somático cuantifica el número de copias y subclonality para cada segmento genómico para guiar su caracterización. Los resultados de somática pueden ser integradas con SNVS desde el mismo experimento de secuenciación para obtener una mejor comprensión de la evolución del tumor.

En primer lugar, los segmentos del genoma y la somática CNA identifica candidatos que utilizan tanto leer profundidades (DR) y las frecuencias de alelos menores (LAF) desde un mapeado lee. En segundo lugar, somática estima que la tasa mezcla de las relaciones de número de copias relativas de un par de tumor normal mediante un modelo de mezcla finita Bayesiano, que tiene una alta tolerancia en la contaminación de las células normales. Por último, somática somático cuantifica el número de copias y subclonality para cada segmento genómico para guiar su caracterización.

Resultados

estrategia de segmentación en somática

Aunque la secuenciación de próxima generación ( la tecnología NGS) genera datos con mayor resolución que SNP arrays y variedad de hibridación genómica comparada (aCGH), la señal es complicado por mapeabilidad, contenido de GC, el sesgo de alineación y otras cuestiones [15]. Esto hace que el análisis de los datos NGS no sólo una adaptación directa de las metodologías existentes en aCGH sino una extensión que requiere un cuidado especial de muchos factores que afectan el análisis de datos e interpretación. Por ejemplo, después del control de calidad y de-noising, muchas herramientas de servicio existente NGS CNV se aplican directamente a los métodos desarrollados para aCGH datos [14]. Sin embargo, cuando se aplicó la CBS [18], un método utilizado comúnmente para aCGH datos, nos pareció que era muy sensible a las fluctuaciones en las señales de NGS y reportados puntos de cambio probable que sea falso positivo (ver resultados de la simulación).

Por el contrario, somática implementa un paso-de noising a base de suavizado para reducir los efectos de los valores extremos de entrada de LAF (Figura S1). Teniendo en cuenta los puntos de cambio iniciales detectados por la CBS, se implementó un procedimiento de selección de variables para eliminar los puntos de cambio que pueden ser falsos positivos. Esto se logra en somática mediante el uso de CBS detecta los puntos de cambio como los predictores de la LAF entrada y luego realizando la selección de variables a través de criterio de información bayesiano (BIC) en base a un [19] ruta solución LARS. Para los puntos de cambio seleccionados, somática evalúa, además, si se capturan los cambios en la copia números somáticas. Para cuantificar estos cambios, definimos relación somática como la relación RD del tumor a la normal emparejado en un segmento (con cobertura idéntica en el tumor y muestra normal asumida). Somática deriva una estimación de máxima verosimilitud (MLE) de la relación somática para cada segmento utilizando la información RD de todos los SNPs pareadas en ese segmento. Dos segmentos adyacentes se fusionan si la diferencia en las proporciones somáticas es menor que T, que es un parámetro de ajuste en la aplicación con un valor por defecto de 0,05, equivalente a 5% de cambio en el número de copias somática sin contaminación normal. Los MLEs de la relación somática para los segmentos refinados se vuelven a calcular. Este procedimiento de refinamiento se aplica varias veces hasta que no hay segmentos adyacentes tienen diferencias somáticas relación de menos de T. En somática, la información de ambos SNP heterocigotos y homocigotos de la línea germinal se utilizan. LAF de los sitios heterocigotos se utilizan en la segmentación inicial. RD en los sitios heterocigotos y homocigotos se utilizan para calcular las proporciones somáticas.

Estrategia Simulación

Llevamos a cabo simulaciones para evaluar el poder estadístico de somática y para las comparaciones con otros métodos. En ausencia de conjuntos de datos biológicos validados, tales estudios de simulación pueden dar pistas sobre los pros y los contras de los diferentes métodos. Sin embargo, debido a la complejidad del genoma y el proceso de secuenciación, por ejemplo, la distribución no uniforme de RD en todo el genoma en NGS, es no trivial para simular los datos de secuenciación de cáncer que capturan la complejidad en datos reales NGS. Inspirado por Ivakhno et al [12], se utilizó una muestra normal (denotan como GLI-N1, datos no publicados) para simular los datos de secuenciación del cáncer de la siguiente manera (secuencias de comandos en el texto S1): Read
Duplicar la RD y en menor los recuentos de los alelos de la muestra GLI-N1.

Para cada ventana genómico de 10 kb, estimar la mediana y la desviación estándar de la RD de todos los sitios y los recuentos de alelos menores de todos los sitios heterocigóticos.

En predeterminada posiciones, situar los acontecimientos SCNA que van desde 10 kb de un cromosoma completo, con diferentes magnitudes de los cambios incluyendo supresiones dobles, LOH, 1 y ganancias de número de copia (2, así como diferentes subclonalities incluyendo el 20% y el 40%). Cada aberración contiene al menos 5 sitios heterocigóticos.

Simular eventos SCNA mediante la alteración de las medianas en las ventanas correspondió.

Simular RD y en menor alelos en los recuentos de eventos SCNA ventanas a través de las distribuciones normales con medias iguales a la medianas alterados como resultado de la etapa 4) y la desviación estándar igual a las estimaciones de la etapa 2).

Admix recuentos de pseudo cáncer y los recuentos normales con un gradiente de la velocidad de mezcla, 0.2, 0.4 y 0.6.

Además de la RD real informado en GLI-N1 (~ 60 ×), simulan profundidades de lectura de 40 × 20 × y eliminando al azar una proporción de lecturas.

en total, hemos simulado 90 genomas del cáncer (3 tasas de mezcla * 3 * cobertura 10) y cada uno de ellos contenían 40 scnas.

somática reduce eficazmente tasa de falsos positivos en la segmentación

somática aplicada a estos datos simulados para evaluar el desempeño para la detección SCNA bajo diferentes escenarios. Se comparó su desempeño con CBS y cumSeg [20], un método de segmentación similar utilizando el modelo de selección para identificar los puntos de cambio con un exceso de detección de paso diferente inicial. Para las comparaciones justas, se aplicó el mismo procedimiento de alisado y refinamiento como se aplica en somática tanto para CBS y cumSeg. Teniendo en cuenta que la CBS y cumSeg no ajustan por tasa de mezcla, se utilizó un criterio indulgente para determinar si una llamada SCNA fue un descubrimiento positivo. Si la relación somática fue menor que 0,8 o mayor que 1,2, el segmento correspondiente se informó como una región genómica con ganancia o pérdida somática. Para un verdadero llamado SCNA positivo, requerimos los puntos de interrupción detectados a menos de 100 kb de los verdaderos.

En general, CBS y somática superaron cumSeg de la sensibilidad en la detección de scnas de más de 1 Mb (Figura 2). Sin embargo, CBS tenía un 30% de las llamadas de falsos positivos mientras que somática logra una mayor precisión. Por otra parte, CBS tenido la tendencia de detectar puntos de interrupción en la misma alteración. En promedio CBS informó 1,82 segmentos para un evento ~ 1 Mb y 3.15 segmentos para un ~ 10 Mb eventos. Por el contrario, somática y cumSeg informaron 1.01 y 1.07 para los segmentos scnas más de 1 MB. Esta mejora se debe al paso de selección de modelo para los puntos de cambio que elimina aquellas que muestran pequeñas fluctuaciones, que resultan de la misma aberración más probable.

Resumen de la precisión y la sensibilidad de más de 90 genomas del cáncer simulados con diferentes tasas de mezcla y la cobertura . CBS y somática superaron cumSeg de la sensibilidad en la detección de scnas mayor que 1% de las llamadas de falsos positivos mientras que somática logra una mayor precisión. Para scnas menores de 1 Mb, CBS aún se mantiene una alta sensibilidad de 98%, pero más del 60% de las llamadas CBS fueron falsos positivos. Tanto somática y cumSeg utilizan el modelo de selección para reducir efectivamente la tasa de falsos positivos con cierto grado de compromiso de la sensibilidad.

Para scnas menores de 1 Mb, CBS aún se mantiene una alta sensibilidad de 98%, pero más del 60% de CBS llamadas eran falsos positivos. Tanto somática y cumSeg utilizan el modelo de selección para reducir efectivamente la tasa de falsos positivos con cierto grado de compromiso de la sensibilidad. Somática detectó 83% scnas simulados mientras que cumSeg solamente capturó el 10%. Observamos que la penalización a través de la selección del modelo es sólo una de las muchas razones para la menor sensibilidad en la más pequeña de identificación scnas. Debido somática segmentos del genoma sólo se basa en la LAF de los sitios de heterocigotos, se puede pasar por alto las aberraciones con un menor número de sitios heterocigóticos. En los cromosomas 3 a 15 en la muestra GLI-N1, que se utilizó como molde para la simulación, las distancias entre los sitios heterocigotos adyacentes variaron de 5 pb (1% cuantil) a 17.036 pares de bases (99% cuantil) con una mediana de 453 pb . El número de sitios dentro de los heterocigotos scnas no detectados osciló 6-76 con una mediana de 22. dependencia fuerte en el número de sitios de heterocigotos es un inconveniente importante de todos los enfoques que utilizan LAF (o BAF) en la segmentación cromosoma. La cobertura no uniforme y los errores de la señal en la secuencia de datos hace que sea difícil para hacer inferencias con sólo unos pocos marcadores. En la práctica, se aconseja utilizar métodos basados ​​en RD como enfoques complementarios para cubrir una gama más amplia de eventos SCNA (como se explica más en la discusión).

Cuando la contaminación de las células normales aumentó más del 50% (tasa de mezcla = 0.6), los tres métodos sufrieron en el poder y la precisión en la detección de la pérdida o ganancia de copia. Por ejemplo, cuando la velocidad de mezcla es 0,6, la relación somática esperado para una pérdida de copia y una ganancia de copia es 0,8 y 1,2. Así, los valores de corte utilizados en las comparaciones anteriores pueden ser demasiado estrictos para identificar eventos SCNA. Esto sugiere la importancia de ajustar los parámetros para el índice de mezcla de vocación SCNA.

El modelado explícito del índice de mezcla

Como hemos mencionado, una fracción desconocida de las células normales y la heterogeneidad de la población de células cancerosas son dos factores que requieren una atención especial en los análisis de las muestras tumorales. Comenzaremos por explicar cómo la tasa de mezcla afectaría scnas llama mediante un ejemplo hipotético. Para una muestra de tumor con 0, 1, 3 y 4 copias en diferentes segmentos cromosómicos se entremezcla con 40% de una muestra normal se combina con 2 copias, las proporciones somáticas esperados son 0,4, 0,7, 1,3, y 1,6, respectivamente. Sin ningún otro ajuste para la velocidad de mezcla, la copia números inferidos serían 1, 2 (o 1), 2 (o 3), y 3, respectivamente. En este caso, las deleciones dobles serían llamados erróneamente como Lohs, mientras que la verdadera Lohs serían casi indetectable resultante en la inferencia imprecisa en el número de copias. Una observación clave aquí es que no hay un cambio general de las relaciones de somáticas esperados de los sin ninguna contaminación, y este cambio general podría ser utilizada para deducir la tasa de mezcla. Sin embargo, hay dos complicaciones para sacar provecho de esta observación: en primer lugar, no se conocen los tipos de scnas (por ejemplo, hay 4 tipos en nuestro ejemplo hipotético); segundo, la presencia de scnas subclonales puede complicar aún más el perfil relación somática y, por consiguiente afectar el número de copias. Para abordar estas cuestiones de una manera coherente, hemos desarrollado un modelo probabilístico en un marco bayesiano como se detalla más abajo.

La idea básica detrás de la estimación índice de mezcla de somática es que las proporciones somáticas de segmentos clonales se centran alrededor un cierto nivel discreto mientras que los de segmentos subclonales no tienen limitaciones. Por lo tanto, en función de su relación somática, cada segmento genómico puede ser ya sea asignado un número de copias entero o clasificado como un evento subclonales. La proporción de células normales mezclados puede ser estimada a partir del desplazamiento de las relaciones de somáticas de scnas clonales de sus expectativas en las muestras tumorales puros y homogéneos. Para lograr esto, lo primero que calcula el número más probable de los componentes de la entrada distribución relación somática, a continuación, se ajustaba a un modelo de mezcla finita bayesiano para asignar el número de copias de cada segmento en función de la probabilidad posterior correspondiente, y, finalmente, se estimó el índice de mezcla por una solución óptima aportado por la explicación del cambio de número de copias de todos los segmentos de clones a partir de los niveles enteros.

Nuestro modelo es similar al ABSOLUTO [17], un modelo de mezcla gaussiana para identificar la pureza del tumor y la ploidía en arrayCGH o de paso bajo la secuencia de datos, con las mayores diferencias en los supuestos que son: 1) ABSOLUTO asume una distribución uniforme en eventos subclonales; en somática, eventos subclonales están identificados en base a las probabilidades a posteriori, es decir, la salida de número de copias enteros; 2) ABSOLUTO constriñe la masa genómico asignado a cada copia de estado mientras no somática. Además, estos dos métodos toman diferentes cantidades como entrada. ABSOLUTO toma la relación de copia como entrada, una cantidad mide la dosis de ADN acondicionado local en el aneuploidía del tumor, mientras que somática utiliza la relación somático, que es una medida absoluta entre las muestras normales y tumorales sin acondicionamiento en la medida global de la ploidía del tumor (cobertura idénticos para dos bibliotecas se supone). El uso de la relación somática libera somática a partir de la estimación de ploidía. En lugar de buscar todas las combinaciones factibles de ploidía y la velocidad de mezcla, somática sólo busca una solución de la tasa de mezcla con la relación somática de 1 correspondiente al número de copias de número entero de 2.

Se evaluó el rendimiento de nuestro método utilizando 90 genomas del cáncer simulados. Somática genera una estimación precisa de la tasa de mezcla, incluso cuando la cobertura fue tan baja como 20 ×. A modo de comparación, también estima que la tasa de mezcla por absoluta y una variante de ASCAT. ASCAT utiliza BAF y la relación de LogR (acondicionado en la aneuploidía del tumor) para estimar la ploidía del tumor y la pureza, que no es directamente aplicable a nuestros datos. En nuestras comparaciones, se utilizó una variante del algoritmo de ASCAT que mantiene sus principales características: se calculó la distancia total a una solución de número de copias entero alélicas para cada segmento y suma sobre todos los segmentos; a continuación, se realizaron búsquedas de una solución del tipo de aditivo que reduce al mínimo la distancia total. Para ABSOLUTO, entre los cinco posibles combinaciones de velocidad de mezcla y la ploidía (por verosimilitud), seleccionamos el que tiene la relación de copia de 1 correspondiente al número de copias entero de 2 como la solución final. Los resultados resumidos en la Figura 3 muestran que somática tiene un rendimiento comparable con absoluta y supera ASCAT.

Tanto somática y absoluto supera ASCAT-variante. Somática logra un rendimiento comparable como absoluto con pocas restricciones y una menor carga computacional.

piense dos razones han contribuido al mejor desempeño de somática en comparación con ASCAT-variante. En primer lugar, ASCAT estima que el número de copias entero para cada segmento utilizando el número entero más cercano a la copia alélica observada somática. Cuando la velocidad de mezcla es alta, esta aproximación es problemática. Por ejemplo, cuando la velocidad de mezcla es 0,6, la copia somática de doble deleción es 1,2. El número de copias entero para este evento de doble deleción se asigna como 1 en vez de 0. Por el contrario, somática pre-calcula el número de posibles niveles discretos de la histograma de los coeficientes de somáticas y asigna el número de copias número entero basado en el orden de su discreta nivel con el nivel de 2 copia como referencia. Por lo tanto, todavía es capaz de estimar el número de copias absoluto bien con una alta precisión cuando la velocidad de mezcla es alta. En segundo lugar, ASCAT optimiza sobre todos los SNPs, mientras que somática tiene en cuenta la influencia de la heterogeneidad subclonales intra-tumor y sólo optimiza sobre los acontecimientos clonales. Este enfoque compensa la subestimación de la optimización de todos los segmentos.

Por otra parte, somática logra un rendimiento comparable como absoluto con pocas restricciones y una menor carga computacional. Somática no limita la masa genómico asignado a cada copia de estado, o la proporción relativa de subclones. subclones potenciales, identificados por las bajas probabilidades posteriores, están excluidos de la estimación de la tasa mezcla. Con la suposición de relación de copia de 1 correspondiente al número de copia número entero de 2, somática sólo optimiza más de un parámetro - tasa de mezcla, lo que reduce la carga de la estimación simultánea de la velocidad de mezcla y la ploidía. El tiempo medio de ejecución de la CPU para la estimación índice de mezcla de somática es de 27,5 segundos (5000 MCMC pasos), mientras que para ABSOLUTO (ploidía varió de 0.95 a 4) es de 450 segundos. En somática, la ploidía se pudo estimar el promedio de número de copia sobre el genoma después de ajustar por la tasa de mezcla.

Nos parecía aún más en los genomas simulados con niveles altos de contaminación normales donde la tasa de mezcla fue de 0,6. Inferimos el número de copias de scnas detectados a partir de estos genomas simulados con ajuste utilizando el tipo de mezcla estimada a partir somática, y se compararon los resultados con el número de copias inferirse sin ningún ajuste, y los que tienen un ajuste utilizando un tipo de mezcla de 0,2 y los que utilizan 0,4. Como se muestra en la Figura S2, la estimación de la somática ayudó a aumentar la exactitud de la copia inferido número de inferencia para scnas en comparación con el establecimiento de la tasa mezcla a niveles pre-especificado (e incorrectas).

caracterización Subclonality

La presencia de la diversidad genética dentro de las muestras tumorales, es decir, subclonality, ofrece importantes pistas sobre la evolución del tumor. inferencia de forma precisa el estado del número de copias mediante el ajuste de la tasa de mezcla proporciona oportunidades para somática para identificar alteraciones subclonales en el contexto de los predominantes. Somática caracteriza la subclonality para cada segmento a través de la realización de la prueba de hipótesis. En primer lugar, calcula el número de copias para cada segmento de la muestra normal de control. Entonces se comprueba si el cambio del número de copias en la muestra de tumor correspondiente puede resultar en un cambio de exactamente una copia de un alelo. En nuestro estudio de simulación, colocamos 4~5 scnas (más de 10 MB, subclonales porcentuales de 0,2 o 0,4) en el cromosoma 12 a 15 en cada genoma del cáncer simulado. En total, para cada combinación de velocidad de mezcla y la cobertura, hay 46 eventos verdaderos positivos subclonales en diez genomas del cáncer simulados. Las llamadas subclonales de otros cromosomas son falsos positivos, ya sea como resultado de una subestimación de eventos clonales o una clasificación errónea del número de copias evento neutro. Cuando la velocidad de mezcla es de 0,2 o 0,4, somática se recuperó el 87% de los verdaderos acontecimientos subclonales (40 de 46) e informó 8 falsos positivos en promedio. Cuando la velocidad de mezcla es de 0,6, somática todavía era capaz de recuperar el 84% de los verdaderos acontecimientos subclonales pero informó de 20 falsos positivos. 95% de falsos positivos subclonales eventos están mal clasificados de número de copias de eventos neutrales. Este resultado indica que somática logra una alta precisión en la detección de eventos clonales. Sin embargo, cuando el índice de mezcla se hace mayor, las llamadas falsas positivas más saldría de errores de clasificación de número de copias de eventos neutrales.

Aplicación a TCGA punto de referencia 4
datos
Se utilizó la mutación TCGA llamando referencia a conjuntos de datos 4 evaluar el desempeño de somática y otros en los datos reales. Todo este conjunto de datos de secuenciación del genoma de referencia es ideal para tal evaluación, ya que consta de muestras artificialmente mezcla con la proporción de muestras de tumor en un gradiente del 20% al 95%. Nos hemos centrado nuestro análisis en 7 muestras HCC1143 mixtos secuenciados a 30 × (Tabla 1). Para cada muestra mixta, primero realizó la segmentación implementado en somática y calcula las proporciones somáticas utilizando HCC1143 30 × muestra normal de manera inseparable. Ajustamos la mediana de la biblioteca del tumor de manera que las medianas de dos eran los mismos. A continuación, las proporciones de entrada somáticas a somática, ASCAT-variante y absoluta. Para cada muestra, ABSOLUTOS salida de 19 combinaciones posibles de tasa de mezcla y la ploidía (el rango permitido de ploidía conjunto para ser 0.95 a 4) que cubre una amplia gama. Tome HCC1143.n60t40 de muestra como un ejemplo (60% de células normales se mezclaron con células tumorales 40%), la tasa de mezcla estimada se varió 0,32 a 0,84. Para que coincida con el supuesto subyacente en somática, se seleccionaron manualmente soluciones absoluta con el porcentaje de copia de 1 correspondiente al número de copias entero de 2 (o). Sin embargo observamos que las soluciones ABSOLUTOS seleccionados en virtud de dichos criterios son más precisas que las soluciones con la parte superior puntuación de probabilidad log-SCNA-ajuste. Resumimos las estimaciones que se describen en la Tabla 1. En general, somática tiene un rendimiento comparable al ABSOLUTO. Ambos superan ASCAT-variante. En tres muestras replicadas con la contaminación del 25% de las células normales (aunque diferentes espiga-en SNVS introdujo), somática produce estimaciones más precisas y estables. Este resultado sugiere que la correspondencia de 1 a número de copias número entero de 2 puede ser una suposición razonable para que en los datos de secuenciación del cáncer con una muestra normal emparejado secuenciado a una profundidad comparable.

Después de ajustar por mezcla estimada tasa, se utilizó para llamar somática scnas para estas muestras. La Figura 4 muestra el número de copias somática y subclonality caracterizado por 7 muestras que analizamos. El resultado es consistente a través de las muestras con diferente proporción de mezcla de las células normales, lo que demuestra la robustez de somática a diferente extensión de la contaminación. Sin embargo, debido al potencial modelo de sobreajuste y emisión identificabilidad inevitable, somática no reporta ningún tipo de aditivo más del 80%. Para TCGA punto de referencia 4 HCC1143.n80t20 muestra y HCC1143.n95t5 (mezclado con un 80% y un 95% las células normales), somática sólo informó resultados de segmentación sin ajustar por índice de mezcla.

El resultado de llamada es consistente a través de las muestras con diferentes mezclar proporción de las células normales, lo que demuestra la solidez de somática de diferente grado de contaminación.

Aplicación de somática a una muestra GBM

somática aplica a la totalidad de los datos de secuenciación del genoma de la plataforma genómica completa de un paciente con diagnóstico de glioblastoma primario (GBM) (datos no publicados). En la Figura S3 y S4, se muestra la segmentación de somática y su comparación con la CBS y cumSeg usando los cromosomas 7 y 10, respectivamente. La tasa de mezcla estimada para esta muestra fue de 37,1%. Si se elimina el índice de mezcla, se identificaron 121 scnas con tamaños que van desde 3428 pb de un cromosoma completo. Estos scnas incluyen una ganancia de copia en todo el cromosoma 7, una copia de ganancia para todo el cromosoma 9, y ambos Lohs y Lohs copia neutral en el cromosoma 10. Asimismo, comparó estos scnas con 20 pilotos GBM conocidos que figuran en [21] y se encontró que éstos scnas mostró solapamiento con 15 de los 20 conductores GBM conocidos. Entre ellas, la amplificación de CDK6, EGFR y MET, y la supresión de la NF1 son clonales mientras que otros eventos son subclonales.

Discusión

En este artículo, hemos descrito un nuevo marco computacional, somática, para identificar scnas partir de los datos de secuenciación de cáncer. Fue desarrollado para hacer frente a la contaminación y la heterogeneidad en las muestras tumorales, dos retos principales en el análisis del genoma del cáncer. Extensas simulaciones han demostrado el mejor desempeño de nuestros métodos respecto a los existentes

somática ha sido implementado como cuatro módulos funcionales en R:. Segmentación inicial, la estimación de la relación somática con el refinamiento de segmentación, con ajuste de velocidad de mezcla y caracterización subclonality . Cada módulo en somática se puede llamar de forma independiente. Es sencillo de implementar procedimiento personalizado incorporación de uno o todos los módulos de somática. Aunque los datos que motivan el desarrollo de somática se generaron a partir de la plataforma genómica completa, la entrada a somática es la RD y LAF para todos los sitios de SNP emparejados, por lo que es de aplicación general para analizar los datos de otras plataformas. Somática también es escalable ya que la segmentación en diferentes cromosomas puede conectar en paralelo (ver texto S2 para un manual del paquete SomtiCA).

A pesar de muchas ventajas, que tenga en cuenta que hay varias advertencias para el uso somática.

en primer lugar, somática requiere asignación a un genoma de referencia y el genotipo llamando como pasos pre-procesamiento. Se ha demostrado que mapeabilidad, el sesgo y la calidad medida de control GC-contenido de lee todas las profundidades afectar a leer por lo tanto CNV llamando [22]. Aunque el impacto de estos problemas pueden reducirse en SCNA llamando con muestras de tumores normales emparejados en cierta medida, las precauciones especiales siguen siendo necesarios en cuanto a la elección de los alineadores, filtros de calidad de mapeo y personas que llaman genotipo. La secuenciación de profundidad también puede afectar al rendimiento del somática. Somática fue desarrollado en los datos de secuenciación con una cobertura decente de 30 × o superior. Para las muestras de baja cobertura (por ejemplo, 0,01-0,5 x), se recomiendan métodos tales como BIC-ss [23] y CNAnorm [24].

En segundo lugar, la segmentación en somática se basa en los puntos de cambio detectado especializado por CBS. En un estudio reciente, Cai et al [25] informaron de que CBS tenía deficiencia en la detección de segmentos escasa y cortas con longitudes de intervalo de menos de 40 puntos de datos. También se ha demostrado en nuestros estudios de simulación segmentos con sólo unos pocos marcadores tienden a ser pasado por alto por la CBS y por lo tanto por somática. Baja sensibilidad en segmentos cortos se agrava aún más por el uso de la señal diluido a partir de sitios de heterocigotos. Por lo tanto, somática, tal como se aplica actualmente, puede no ser adecuado para el descubrimiento segmento escasa y corta en los datos de secuenciación del cáncer. Este es un problema común para los métodos que utilizan BAF (LAF). De acuerdo con una encuesta de 3131 muestras de cáncer, se informó que la mediana de duración de scnas focal de 1,8 Mb (rango de 0,5 kb-85 Mb). Para identificar una amplia gama de scnas desde varios cientos de pares de bases a incluso un cromosoma, se recomienda tener en cuenta los enfoques complementarios en la práctica. El método de segmentación en somática cae en la categoría de los enfoques globales, que requieren puntos de ruptura a través de pruebas en el contexto de un cromosoma entero. Los enfoques locales, que se refieren a los métodos que tienen como objetivo identificar scnas mediante la comparación de la RD en el genoma del tumor con la del genoma normal correspondiente en cada posición genómica (o ventana), como BIC-seq [23], CNVseg [12]

El conocimiento de la salud

Dean Ornish Muestra ¿Cómo revertir cáncer de próstata con Nutrigenomics

Puede invertir el cáncer de próstata y muchas de las enferme

Dieta para el cáncer de cáncer Patients

Battling es uno de los más valientes, los retos más difícile

Comprender cáncer y qué se puede hacer con estos consejos

A pesar de la palabra cáncer hace que muchas personas a temb

El tratamiento para el mesotelioma de pulmón Cancer

Los pacientes respirar con facilidad en el asbesto debido a

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]