Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: Un método optimizada para detectar variantes estructurales en los genomas del cáncer de lectura corta Secuenciación de extremo emparejado

PLOS ONE: Un método optimizada para detectar variantes estructurales en los genomas del cáncer de lectura corta Secuenciación de extremo emparejado


Extracto

Definición de la arquitectura de un genoma específico de cáncer, incluyendo sus variantes estructurales, es esencial para la comprensión de la biología del tumor, los mecanismos de oncogénesis, y para el diseño de terapias personalizadas eficaces. lectura corta secuencia de extremo emparejado es actualmente el método más sensible para la detección de mutaciones somáticas que se presentan durante el desarrollo del tumor. Sin embargo, la cartografía de las variantes estructurales utilizando este método conduce a un gran número de llamadas de falsos positivos, sobre todo debido a la naturaleza repetitiva del genoma y la dificultad de la asignación de posiciones de mapeo correctos para lee corto. Este estudio describe un método para identificar eficientemente grandes específicos de tumores deleciones, inversiones, duplicaciones y translocaciones a partir de datos de baja cobertura utilizando SVDetect o software BREAKDANCER y un conjunto de nuevos procedimientos de filtrado de llamadas destinadas a reducir los falsos positivos. La aplicación de este método a un linfoma de células T surgimiento espontáneo en un ratón núcleo RAG2 /deficientes en p53, se identificaron 40 reordenamientos estructurales específicos de tumores validados con el apoyo de tan sólo 2 pares de lectura independientes

Visto:. Mijuskovic M, de brown SM, Tang Z, Lindsay CR, Efstathiadis E, Deriano L, et al. (2012) Un método integrado para la detección de variantes estructurales en los genomas del cáncer por Short Lee Secuenciación-End vinculados. PLoS ONE 7 (10): e48314. doi: 10.1371 /journal.pone.0048314

Editor: Patrick Tan, Duke-Universidad Nacional de Singapur Escuela de Medicina de Graduados, Singapur

Recibido: 16 Julio, 2012; Aceptado: September 24, 2012; Publicado: 29 de octubre 2012

Derechos de Autor © 2012 Mijuskovic et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Financiación:. Este trabajo fue apoyado por el PN1EY018244 subvención de los Institutos nacionales de la Iniciativa de Salud Hoja de Ruta en Nanomedicina (premio Centro de Desarrollo de Nanomedicina) y el Instituto Nacional de Salud otorga a R01CA104588 DBR. SMB y ZT están parcialmente apoyada por los Institutos Nacionales de /Centro de Salud Nacional de Recursos de Investigación U54 subvención RR024386-01A1 (Premio de Ciencia Clínica traducción) a Nueva York University Medical Center. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción

variantes somáticas estructurales (SVS), incluyendo grandes deleciones, inserciones, inversiones, duplicaciones y translocaciones son características importantes de los genomas del cáncer, responsable de la creación de los genes de fusión, número de copias y los cambios regulatorios que conduce a la activación o sobreexpresión de oncogenes y la inactivación de genes supresores de tumores [1], [2], [3], [4], [5], [6]. Definición de la arquitectura de un genoma específico de cáncer tanto, es esencial no sólo como un primer paso hacia la comprensión de la biología del tumor y los mecanismos de oncogénesis, sino también clínicamente hacia el diseño de terapias personalizadas eficaces [7], [8].

Los recientes avances en la tecnología de secuenciación de alto rendimiento [9], [10] han hecho posible estudiar genomas enteros sin precedentes en alta resolución y un costo relativamente bajo. Sin embargo, las tecnologías de secuenciación de gama corta de lectura emparejado actuales llevan muchos retos, especialmente evidente cuando se trata de estudiar los VE en el cáncer. En primer lugar, la complejidad inherente de tejido tumoral [11], [12], [13] es un desafío en sí mismo, ya que los tumores son raramente monoclonal y, a menudo se mezclan con el tejido normal, por lo que la cobertura de la secuenciación deben ser más profunda que para la detección de SV en la línea germinal. En segundo lugar, corta lee generado por secuenciación de extremo emparejado (típicamente, 50 a 100 pb de cada extremo del fragmento de ADN de 300-400 pb) llegar a ser difíciles de asignar correctamente de nuevo en el genoma de referencia debido al alto porcentaje de las secuencias genómicas repetitivas [14], [15], [16], [17]. Todo esto conduce a un gran número de llamadas de falsos positivos, generando niveles inaceptables de ruido. retrotransposones, común en los genomas humanos y de ratón [18], [19], además, complica el análisis de datos que lleva a ciertos tipos de llamadas de falsos positivos. Por último, los artefactos de preparación de bibliotecas de ADN resultantes de la amplificación por PCR combinada con la secuencia de errores añaden otro nivel de complejidad

Este trabajo describe un enfoque basado en la secuenciación del genoma para identificar 4 tipos de SV:. Grandes deleciones, inversiones, duplicaciones y translocaciones . Utilizamos SVDetect [20] y BREAKDANCER [21] para los VE en un genoma de linfoma de ratón a partir de un conjunto de lecturas de extremo emparejado obtenido en la plataforma HiSeq de la iluminación. Con el fin de reducir el elevado número de llamadas de falsos positivos, hemos desarrollado un procedimiento de filtrado que permite la detección de eventos específicos de tumores con una cobertura relativamente baja (17x). En primer lugar, hemos encontrado que es esencial para comparar el conjunto de datos tumor a una muestra de la línea germinal obtenido a partir del mismo animal, para eliminar un gran número de SVs línea germinal (en su mayoría derivados de la actividad retrotransposon) detectados en el animal experimental en comparación con el genoma de referencia. En segundo lugar, hemos desarrollado métodos para eliminar los pares de lectura marcados como discordante debido a errores de alineación, así como duplicados de PCR imperfectos que surgen de la preparación de la biblioteca y la secuencia de errores de ADN. En tercer lugar, hemos aplicado varios filtros en los resultados producidos por los programas de llamadas SV, como se solapa con repeticiones simples anotaciones y regiones bajas mapeabilidad, con el fin de identificar a los candidatos SV confianza alta. Mostramos PCR y secuenciación Sanger validación de 40 SVs específicos de tumores en una sola genoma tumor apoyado por tan pocos como 2 pares de lectura independientes.

En resumen, el método presentado aquí simplifica el análisis, el aumento de rendimiento de la muestra. También proporciona alta sensibilidad, que permite la detección de clones variantes raras en mezclas complejas que pueden tener importantes consecuencias pronósticas o terapéuticas.

Resultados y Discusión

El establecimiento de los parámetros del análisis inicial ¿
utilizada de extremo emparejado (PE) simulaciones de secuenciación como una herramienta para establecer los parámetros de análisis iniciales, para cuantificar el efecto de la profundidad de la secuencia en la detección de los VE conocidos, y para estudiar relacionados alineación falsos positivos. Hemos simulado un genoma reordenado basado en C57BL referencia /6J (mm9), la introducción de 10 translocaciones interchromosomal y 10 grandes deleciones en áreas de diferente mapeabilidad (Tabla 1). Leer longitud, el tamaño medio de inserción y la desviación estándar del tamaño del inserto fueron elegidos para ser representativa de nuestros datos experimentales (50, 315, 44, respectivamente). A partir de tres conjuntos de datos independientes simulados con 10, 20, 40, 80 y 160 millones de pares de lectura, se evaluó el número de positivos verdaderos y falsos detectados, así como la probabilidad de detección en función de mapeabilidad local.

secuenciación PE ha demostrado ser un método eficaz para la detección SV en los niveles de cobertura correspondientes a 80 o más millones de pares de lectura. 90% de los eventos en nuestro genoma reordenado simulado se detectaron con 160 millones de pares de lectura, sobre el mínimo actualmente obtenible a partir de un único carril de uso de la plataforma Illumina HiSeq (fig. 1A). Como era de esperar, la detectabilidad de una cierta reordenación dependía en gran medida del microambiente punto de interrupción, con más cobertura necesaria para detectar eventos en regiones de mapeabilidad inferior (fig. 1B). Al evaluar los falsos positivos, se encontró que el 97% del total de llamadas SV se atribuyeron a lee con más de una posición de mapeo igualmente válidas. Estas lecturas se originan de varias regiones genómicas repetitivos (tales como secuencias centroméricas satélite, retroelements, genes de ARN, etc.) y tuvo que ser eliminado del análisis. Después de examinar BWA calidad mapeo decenas de lecturas que contribuye a positivos verdaderos y falsos, elegimos un punto de corte de 23 para nuestro análisis (para mayor discusión, véase "Los falsos positivos derivados de errores de alineación BWA
"
). Cabe señalar que de corte se elige en base a la relación deseada de positivos verdaderos y falsos, con un menor aumento de la sensibilidad de corte a expensas de la especificidad. Después de aplicar el límite de calidad mapeo BWA a nuestros conjuntos de datos simulados, se observó que no más falsos positivos relacionados con errores de lectura de mapas. Sin embargo, nos dimos cuenta de falsos positivos relacionados con el tamaño que aparecieron con el aumento de la cobertura. Estos falsos positivos fueron pequeñas deleciones procedentes de gama más alta y duplicaciones originarios desde el extremo inferior de la distribución normal tamaño de los fragmentos de la biblioteca de ADN. Para corregir falsos positivos relacionados tamaño de inserto, se utilizó un corte de tamaño de 8 desviaciones estándar y lo aplicamos a nuestro análisis. Este parámetro debe ser determinado para cada biblioteca individual, dependiendo de la sensibilidad deseada: el aumento de la desviación estándar de corte dará lugar a aumento de la supresión y la duplicación detectable tamaño mínimo. Dependiendo de las necesidades de análisis, puede ser beneficioso el uso de puntos de corte inferiores de desviación estándar junto con una evaluación de la cantidad de apoyo pares de lectura, como SV con un mayor número de apoyar leer pares puede indicar un evento real. Sin embargo, este enfoque debe utilizarse con precaución cuando se analizan muestras de tumores donde la pérdida o ganancia del número de copias pueden conducir a conclusiones falsas.

A) La detección de los VE como una función de la cobertura, B) Número de apoyar dice lo una función de mapeabilidad.

las simulaciones de secuenciación PE ha demostrado ser una herramienta útil en el desarrollo de la estrategia de filtrado de datos. Después de la optimización de los parámetros iniciales descritos anteriormente y la eliminación de todas las llamadas de falsos positivos de conjuntos de datos simulados, SV llamadas en el conjunto de datos experimental puede atribuirse a la muestra y el procedimiento experimental en sí, en lugar de artefactos de análisis. Las simulaciones también eran útiles como un medio para predecir la cobertura necesaria para la detección de ciertos tipos de eventos. Es importante destacar que, cuando se relaciona simulaciones para el análisis de datos experimentales, se ha de tenerse en cuenta que las expectativas de frecuencia de reordenamientos, y por lo tanto la cobertura necesaria, será normalmente 50% debido a la naturaleza diploide del genoma. En el caso de muestras heteroclonal o impuras (el caso habitual cuando se trata de muestras de tumor), se espera que esta frecuencia a ser aún más baja.

Filtrado de datos

A medida que nuestro conjunto de datos experimentales, se optó por un sin caracterizar linfoma de timo obtenida de un Rag2
c /CP53
- /- ratón. linfomas tímicos que surgen espontáneamente en este modelo de ratón albergan un gran número de reordenamientos estructurales, tales como translocaciones, deleciones grandes y amplificaciones [22]. secuenciación de extremo emparejado de Illumina fue elegido sobre la estrategia compañero de par, que abandonamos en el curso temprano de este trabajo debido a dificultades en la preparación de la biblioteca de ADN. Hemos secuenciado dos bibliotecas genómicas, que se obtiene a partir del tejido de tumor sólido y la otra desde el hígado del mismo animal (control de la línea germinal). Encontramos la biblioteca de control sea esencial debido a un gran número de SV línea germinal procedentes de restos de un fondo 129 (cepa de ratón fue creado inicialmente como un híbrido 129SvEv /C57BL6). La biblioteca de tumor y el control fueron secuenciados a 17x y cobertura física 9x, respectivamente (Tabla 2, Fig. 2).

A) Tumor conjunto de datos, B) el conjunto de datos de control. tumor de datos muestra la distribución relativa diferencial de la cobertura debido a la inestabilidad genómica. cambios en el número de cromosomas son evidentes para chr1, la descripción de chr2, chr15 (~ 3 copias), y CHR4 chr14 (~ 4 copias), CHR8 (~ 2,5 copias).

Se utilizó SVDetect (Fig . 3A) y BREAKDANCER (Fig. 3B) para llamar a los VE iniciales, ya que estos son los dos programas de detección de variantes estructurales grandes más utilizados aplicables a los datos 50 PE leer pb. En general, el análisis utilizando el BREAKDANCER produce inicialmente más intracromosómica y menos llamadas interchromosomal SV en comparación con SVDetect, tal vez debido a las diferencias en la estrategia de agrupamiento. Lo mismo los parámetros de análisis y filtrado de procedimiento se aplicó a ambos programas, obteniéndose resultados similares al final.

El gráfico muestra el número total de SV llama por SVDetect (A) o BREAKDANCER (B), que se aplican las medidas de filtrado consecutivos . NO FILT- Sin filtro (excepto la eliminación de duplicados perfectos de PCR y lee con la calidad de mapas zero BWA), M calidad Extracción lee con & lt; 23 la calidad de la cartografía de la BWA, que DUPL- Extracción lee en la categoría de "duplicados imperfectos", CONTROL- la comparación de tumor de datos con el control, lOW MAP post-SV filtrado de detección de llamadas de la superposición de las regiones de baja mapeabilidad, SIMP tantes post-SV filtrado de detección de llamadas de la superposición de repeticiones simples, filtrado Custom- encargo de permanecer llamadas basado en el tipo de reordenamiento (ver texto para más detalles).

a diferencia de las simulaciones, análisis de datos experimentales condujo a un gran número de llamadas de falsos positivos después de aplicar los parámetros de análisis establecidos inicialmente descritos anteriormente. Definimos estos falsos positivos como eventos apoyados por lee mapeo de regiones genómicas repetitivos, así como aquellas que abarcan regiones con actividad retroelement. El número de falsos positivos era especialmente grande entre SVs interchromosomal, explica por la mayor probabilidad de una lectura repetitiva siendo desalineados a un cromosoma diferente de su compañero. Con el fin de encontrar y validar variantes reales específicos de tumor, que era necesario analizar la fuente de estas llamadas y los reduce a un número manejable. Se identificaron 3 tipos principales de llamadas de falsos positivos, dependiendo de su fuente: 1) falsos positivos relacionados con la variación entre las cepas de ratón, 2) los falsos positivos resultantes de errores de alineación, y 3) falsos positivos relacionados con PCR duplicados procedentes de la preparación de muestras en combinación con errores de secuenciación. Hemos desarrollado diferentes procedimientos pre y post-filtrado de detección con el fin de evitar estos problemas.

falsos positivos relacionados con la variación estructural entre cepas de ratón de laboratorio

variación estructural entre las cepas de ratones de laboratorio de uso común, similar a la variación estructural entre los seres humanos individuales, ya ha sido documentado en gran detalle [23], [24], [25]. La mayoría ronda en ratones, incluyendo el utilizado en este estudio, se pueden clasificar como cepas híbridas, incluso si los animales se backcrossed un número de veces a la cepa de referencia del genoma (C57BL /6J). Observado SVs sobre todo se puede atribuir a la actividad retroelement línea germinal, y se manifiestan como inserciones de SINE, LINE y elementos LTR, así como genes intronless a transcripción inversa (retrogenes). Cuando un conjunto de datos experimentales se compara con la referencia del genoma C57BL /6J, se llaman varios tipos de variantes estructurales. Por lo general, las inserciones retroelement presentes en la referencia, pero que faltan en la cepa de la muestra, serán llamados como deleciones, mientras que los presentes en la muestra cepa, pero falta en la referencia, será llamado como translocaciones equilibradas. Las inserciones de retrogenes pueden ser reconocidos como una serie de deleciones que abarcan intrones, acompañado por una llamada translocación del cromosoma de origen hasta el cromosoma receptor (Fig. 4).

A inserción retrotransposones) a un cromosoma diferente que conduce a una llamada falsa translocación, B) la inserción de retrotransposones el mismo cromosoma que el original que condujo a una falsa llamada de su eliminación, C) Invertir gen transcrito intrones (retrogene) de inserción a un cromosoma diferente que conduce a la translocación y la supresión llamadas falsas.


con el fin de filtrar los VE línea germinal descritos anteriormente, nos pareció que era necesaria para obtener un conjunto de datos de control mediante la secuenciación de tejido normal procedente del mismo animal. En este estudio, un conjunto de datos de control se preparó utilizando tejido hepático y se compara con el conjunto de datos tumor. Utilizando esta estrategia, hemos sido capaces de eliminar la mayor parte de la línea germinal SV. Sin embargo, ciertos SVs no pudieron ser detectados como de la línea germinal, debido a la falta de coincidencia entre pares de apoyo de lectura. Por lo tanto, encontramos que es necesario examinar cada SV manualmente la superposición potencialmente perdido con el control. Incluso después de aplicar el procedimiento de comparación, una serie de eventos que identifica candidatos como de alta calidad se validaron como de la línea germinal (30% de intracromosómica y 50% de interchromosomal SVS). Este resultado se puede atribuir a bajar cobertura en nuestro conjunto de datos de control, que conduce a disminuir la sensibilidad de la detección de la línea germinal SV. Aneuploidía del tejido tumoral (copias adicionales de algunos cromosomas o pérdida de otros) crea diferencias locales en la cobertura entre el tumor de datos y de control, que se suma a la complejidad del análisis (Fig. 2).

Falsos Positivos Con origen los errores de alineación de BWA

para eliminar falsos positivos relacionados con errores de alineación, hemos probado el efecto de la calidad de la cartografía BWA filtrado basado en la puntuación en el número de llamadas que resulta SV. Aunque los autores designan BWA lee con 0-10 calidad de la cartografía como "poco fiable asignada" [26], encontramos la mejor gama de corte para el nivel de calidad de mapeo en nuestro experimento para ser 0-22 (Fig. 5). Para corregir parcialmente la eliminación no deseada de los candidatos reales SV en regiones genómicas menos únicas, llamadas con un gran número de pares de apoyo de lectura fueron examinados manualmente. Sin embargo, ninguno de los SV retirados examinados podría ser designado como candidatos de alta calidad, ya que todas las regiones genómicas involucradas de baja mapeabilidad. Después de aplicar esta leer filtro de calidad de mapeo antes de aplicar cualquier otro filtrado, el número de llamada SVs se redujo a 85% para intracromosómica y 36-39% para los eventos interchromosomal (Fig. 3).

discordante lee con el mapeo 22 cualidades anteriores se utilizan para este análisis (cuadro).

para reducir aún más el número de SV llama resultante de la falta de alineación de lecturas procedentes de las regiones repetitivas, hemos probado la estrategia de eliminación de los VE con solapamiento con el RepeatMasker [27] y el simple repite un seguimiento de la UCSC Genome Browser. Hemos encontrado que la estrategia de RepeatMasker reduce el número de llamadas de falsos positivos de manera significativa, pero filtra el 12% de los reordenamientos previamente validados, incluyendo algunas con potencial importancia biológica (por ejemplo. Deleción PTEN). Es importante destacar que, las lecturas procedentes de regiones RepeatMasker anotada no son necesariamente difíciles de cartografiar de forma única, ya que esta pista contiene muchos elementos repetidos antiguas que se han ido de manera significativa a través de la evolución. estrategia de filtrado RepeatMasker finalmente fue utilizado sólo para identificar candidatos de alta confianza entre los eventos interchromosomal con un bajo número de pares de apoyo de lectura. En contraste con el RepeatMasker, se encontró superposición con simple repite la pista para tener éxito en la eliminación de error de alineación se refiere únicamente falsos positivos.

Como otra estrategia de tratar con los falsos positivos relacionados con el factor repetitivas, hemos probado la eficacia de SV de filtrado frente a las regiones bajas mapeabilidad, estimado a partir de los datos mapeabilidad de la UCSC Genome Browser (ver Materiales y Métodos). Esta estrategia resultó muy exitosa, la eliminación de un número significativo de llamadas de falsos positivos, especialmente eficaz en el caso de los VE interchromosomal (Fig. 3).

falsos positivos relacionados con errores por duplicado Llamar

el curso de nuestro análisis, hemos observado falsos positivos llamadas desde pequeños grupos de 2 o 3 pares de lectura, tanto con lecturas de mapeo en las posiciones 0-2 pb de distancia el uno del otro (Fig. 6). Como ya se ha discutido por otros en el campo [28], la mayoría de estos "duplicados imperfectos" probablemente se originó a partir de un fragmento de ADN y divergieron ya sea durante la amplificación por PCR, tal vez debido a la cadena molde de deslizamiento, o la secuencia de errores al principio o al final de la leer durante el procedimiento de secuenciación. Estos duplicados de buena fe no se pueden eliminar utilizando herramientas existentes, como MarkDuplicates de Picard, ya que no tienen posiciones idénticas de mapeo. Porcentaje de duplicados imperfectos parece estar correlacionada con el porcentaje de duplicados perfectos de PCR: conjuntos de datos específicos con alto porcentaje duplicado perfecto mostrarán mayor porcentaje de duplicados imperfectos (M. Mijuskovic, no resulta parte de este estudio)

Tres. leer pares, probablemente procedente de un fragmento de ADN, que muestra desplazamiento en genómica coordenadas 1-2 pb.

Hemos definido duplicados imperfectos como pares con la misma posición de mapeo de ambos lee con la posible compensar hasta el 2 pb. La detección de estos duplicados se hizo durante la agrupación de pares de lectura discordantes por SVDetect o BREAKDANCER, utilizando diferentes estrategias (véase Materiales y Métodos). Después de aplicar este filtro, el número de intracromosomal y interchromosomal SVs se redujo en un 0,3 a 1,7% y 3,9 a 19,5%, respectivamente (Figura 3). Es importante destacar que estas cifras podrían subestimar el porcentaje duplicado imperfecto totales ya que en este caso fueron detectados después de la eliminación de baja calidad mapeo lee.

Validación estructural variantes

crea la lista final de 61 SV de alta confianza (ver Materiales y Métodos) después de un examen manual de los 381 y 130 intracromosómica SV interchromosomal detectados por SVDetect y 328 intracromosómica y 64 SV interchromosomal detectados por BREAKDANCER obtenido después de la aplicación de nuestro procedimiento de filtrado. La mayoría de estas llamadas, llamado por ambos programas, se encontró que ya sea ser el resultado de errores de alineación relacionados con repeticiones (59%), o previamente SVS de la línea germinal no identificados, tales como inserciones retroelement o retrogene (23%). BREAKDANCER detectó sólo un subconjunto de los VE de alta confianza que han encontrado los SVDetect (47 de 61), incluso antes de que se aplicó ningún tipo de filtrado, tal vez debido a las diferencias en el algoritmo de agrupamiento.

Se utilizó PCR para probar intracromosómica 57 y 4 interchromosomal SV confianza alta encontrados por el BREAKDANCER y /o SVDetect (Tabla S1). De este conjunto, se validó 23 grandes deleciones (1-539 kb), 10 inversiones, duplicaciones 5 y 2 translocaciones como el tumor específico, y la especificidad de los productos de la PCR se confirmó mediante secuenciación de Sanger (Tabla 3). Por lo tanto, 40 de los 61 SV de alta confianza identificadas por nuestro método fueron validados como los VE específicos del tumor. Los otros eventos 19 intracromosomal y 2 interchromosomal PCR fueron validados como SV línea germinal. 16 de 21 de estos SV tenían por lo menos un par de soporte leído en el conjunto de datos de control original y no pudieron ser detectados debido a nuestra 2 de soporte de corte leer. Estos falsos positivos se pueden evitar, ya sea mediante la secuenciación del conjunto de datos de control para una cobertura más amplia, cuando sea posible, o examinar el conjunto de datos de control mediante el par de corte 1 de lectura.

Entre los VE específicos de tumores validados, encontramos varios deleciones de genes supresores de tumores, así como algunos reordenamientos del gen receptor de antígenos canónica esperados (Tabla 3). Cabe destacar que dos translocaciones específicas de tumor, dos inversiones y uno validados duplicación muestran signos específicos de tumores de un reordenamiento complejo [29].

Conclusiones

En primer lugar, nuestro trabajo muestra que la simulación de gama sincronizado secuenciación puede ser un medio eficaz para desarrollar la estrategia de análisis, predecir la cobertura necesaria para detectar los puntos de ruptura de ADN en diferentes ambientes genómicos y para separar las fuentes de llamadas de falsos positivos en muestras relacionadas y las que surgen debido a los artefactos de análisis.

Segunda , se ha encontrado que un conjunto de datos de control obtenidos del mismo animal es esencial para reducir un gran número de SVs de la línea germinal que existen entre las cepas de ratón de laboratorio comúnmente usados, incluso en los casos cuando los animales se backcrossed un número de veces con la cepa de referencia del genoma.

en tercer lugar, se han definido dos tipos de lecturas duplican que conduce a la predicción falsa SV, ambos consecutivos a PCR exceso de amplificación durante la preparación de la muestra: duplicados perfectos, a juego con las coordenadas genómicas, y los que tienen 1-2 pb decalaje de coordenadas que no se detectan utilizando herramientas existentes. Se presenta un método para eliminar los SV resultantes de los lee utilizando SVDetect o BREAKDANCER.

En cuarto lugar, nos encontramos con que la eliminación de las lecturas con la baja calidad de mapeo BWA, así como las llamadas SV que se superponen con las regiones genómicas de baja mapeabilidad, es una forma muy eficiente para filtrar nuestros gran número de falsos positivos que surgen debido a errores de alineación.

Finalmente, el uso de este método, se validaron un número bastante grande de SV verdaderos específicos de tumores a partir de un conjunto de datos más bien pequeño. A partir de un gran número de eventos candidatos, hemos sido capaces de desprenderse rápidamente mayoría de los falsos positivos y centrarse en un número manejable de candidatos para el análisis manual (~ 5% de la cantidad inicial de llamadas de este conjunto de datos). Hemos validado nuestro método de filtrado con dos programas de detección SV ampliamente usados, SVDetect y BREAKDANCER, demostrando que es de aplicación universal, en lugar de limitarse a un solo programa y sus posibles deficiencias. El número final de eventos candidatos, así como el número de falsos negativos, es una función de la cobertura y la rigurosidad de parámetros de filtrado. Dependiendo de las necesidades del experimento, estos parámetros se pueden ajustar a un nivel deseado con el fin de lograr un número aceptable de falsos positivos frente a falsos negativos.

Nuestro método debe ser aplicable para el trabajo futuro en organismos modelo como así como en tumores humanos. En el contexto clínico, sería necesaria una mayor cobertura para reducir el número de SV línea germinal no detectados, así como para mejorar la detección de los VE somáticas de baja frecuencia.

Materiales y Métodos

Simulación de Secuenciación PE datos

simulado PE secuenciación conjuntos de datos fueron creados basándose en una referencia del genoma del ratón mutado (mm.9) que contiene 10 translocaciones y 10 grandes deleciones introducidas mediante las herramientas EMBOSS (http://emboss.sourceforge.net). archivos de formato Illumina FASTQ fueron escritos utilizando nuestro programa PE.pl (http://sourceforge.net/projects/svdetection) que selecciona posiciones aleatorias en el genoma proporcionada por el usuario, normalizados para diferentes longitudes cromosómicas. parámetros definidos por el usuario incluyen el número de pares de lectura, leer longitud, tamaño de inserto y la desviación estándar significa.

La obtención de datos experimentales

El timoma y el tejido hepático (control) se recogieron de una Rag2
c /CP53
- /- de ratón [22], una cepa híbrida 129SvEv /C57BL6, y el ADN genómico fue purificado utilizando Blood & amp; Cultivo Celular ADN Maxi Kit (Qiagen,#13362). bibliotecas de gama emparejado se generaron a partir 1 ug material de partida genómico a partir de ambos tejidos utilizando TruSeq ADN v2 Prep Kit de muestra (Illumina,#FC-121 a 2001) de acuerdo con las recomendaciones del fabricante. Optimal amplificación por PCR de DNA ligado al adaptador se determinó usando un sistema de ADN FlashGel (Lonza,#57026). Bibliotecas se analizaron para la distribución de tamaño usando Agilent 2100 Bioanalyzer (Agilent Technologies,#desde 5067 hasta 4626) y la concentración de ADN se determinó usando Qubit dsDNA SA Assay Kit (Life Technologies,#Q32851). Las muestras fueron secuenciados en Illumina HiSeq 2000 mediante TruSeq PE v3 Kit Cluster (Illumina,#401-3001-PE) y TruSeq SBS v3 Kit (Illumina,#FC-401-3002), de acuerdo con las recomendaciones del fabricante. Dos carriles se utilizaron para secuenciar el tumor y un carril para el control de la biblioteca de ADN (SRA número de acceso: SRA055958).

PE Lee calidad de filtrado

archivos FASTQ Alineación y se generaron utilizando Casava 1.8 ( Illumina) y lee fueron alineados utilizando BWA [26]. Los archivos de salida fueron manipulados por Samtools según sea necesario [30]. duplicados perfectos de PCR fueron eliminadas mediante la herramienta MarkDuplicates de Picard (http://sourceforge.net/apps/mediawiki/picard). BWA-designado pares de lectura concordantes y leer pares con bajos niveles de calidad, mapeo BWA se eliminaron utilizando nuestro propio software (http://sourceforge.net/projects/svdetection), según sea necesario.

Llamando variantes estructurales y extracción de Imperfect duplicados

SVDetect [20] o BREAKDANCER [21] se utiliza para llamar a intracromosómica y reordenamientos de interchromosomal discordantes, calidad de pre-filtrada leer pares. La media de tamaño de inserto y la desviación estándar utilizado en este análisis fueron obtenidos por la herramienta InsertSizeMetrics de Picard (http://sourceforge.net/apps/mediawiki/picard). SVDetect y BREAKDANCER estaban configurados para detectar reordenamientos con 2 o más pares de apoyo de lectura utilizando 8 veces la desviación estándar como umbral para ambas deleciones y duplicaciones. SVDetect función "comparar" built-in fue utilizado para la comparación de los conjuntos de datos y control de tumores. Al comparar las llamadas, la opción para comparar sólo el mismo tipo SV se apagó. Para la detección SV con BREAKDANCER, tumor de comparación normal se realiza utilizando BEDTools [31].

Para eliminar duplicados de PCR con el offset en las coordenadas ( "imperfectas" duplicados) 1-2 pb, que manipula el archivo de salida creado por SVDetect la "conexión" función utilizando nuestro propio software (http://sourceforge.net/projects/svdetection). Este archivo lista los grupos de pares de lectura de apoyo a la misma reordenación y contiene las coordenadas de lecturas individuales de apoyo. Parejas donde ambos se colocan lee 0, 1 ó 2 pares de bases de distancia el uno del otro, en la misma orientación, se retiraron como duplicados imperfectos. En el análisis SV basada en BREAKDANCER, cambiamos el SV mínimo anclaje configuración de región a 3, con el fin de evitar los VE que se llamó desde grupos de duplicados de PCR imperfectos. También se examinaron las lecturas de apoyo llamadas de VS en los archivos producidos cama-BREAKDANCER y utilizamos nuestro propio software para eliminar cualquier SV resultantes de los duplicados imperfectos (http://sourceforge.net/projects/svdetection).

Definición de nivel de confianza alto SV los candidatos

variantes estructurales llamados por SVDetect se filtraron adicionalmente en base a la superposición con las regiones de baja mapeabilidad, repeticiones simples y datos RepeatMasker extraídos de la Tabla UCSC [32]. La superposición entre estas regiones y enlaces SVDetect se evaluó utilizando herramientas Galaxy [33], [34], [35]. las regiones de baja mapeabilidad se ensamblan como intervalos adyacentes de 50 pb con Duke ENCODE singularidad puntuaciones inferiores a 0,5 (la secuencia de 50 pb se produce más de 2 veces en el genoma). SV con enlaces superposición de estas regiones se retiraron, con el punto de corte en 85% y 50% de superposición para eventos intracromosomal y interchromosomal, respectivamente. Por superposición con regiones simples de repetición, el corte fue de 50% o mayor. RepeatMasker superposición fue utilizado como un filtro sólo para eventos interchromosomal soportados por 2 o 3 pares de lectura, con el punto de corte ajustado a 80%. Para eventos intracromosomal, se aplicó el filtrado personalizado adicional para eliminar SVs llamados a partir de pares de lectura derivados de fragmentos de ADN que se desvían de la gama de tamaño de la biblioteca de inserción esperado que no fueron eliminados por nuestros corte desviación estándar. Para dar cuenta de esto, el tamaño de corte deleción se establece en 600 pb y 300 pb duplicación a.

SV específicos de tumores llamados por SVDetect y BREAKDANCER finalmente fueron examinados manualmente para generar la lista de candidatos de alto de confianza. SV procedentes de errores de alineación (en relación con las regiones genómicas repetitivos), fracasaron filtrado comparación entre el control del tumor, así como la línea germinal (SV retroelement y retrogene inserciones) fueron retirados de la lista de candidatos designados o de confianza tan bajas.

Validación

El conocimiento de la salud

¿Por qué altura puede no estar en su side

los hombres más cortos podrían no tener una carrera en la NB

Symptoms

información para el cáncer de colon Los signos o síntomas d

Cómo descubrir En caso de que tenga Epidermis La mayoría de los cánceres

El procedimiento de detección del cáncer de la epidermis, el

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]