Extracto
Generación de la secuencia siguiente (NGS) es una tecnología emergente convertirse en relevante para el genotipado de muestras clínicas. A continuación, se evaluó la estabilidad de la secuenciación del amplicón de fijado en formol e incluido en parafina (FFPE) y par de muestras congeladas de metástasis de cáncer colorrectal con diferentes tuberías de análisis. 212 regiones de amplicón en 48 genes relacionados con el cáncer se secuenciaron con Illumina MiSeq utilizando ADN aislado de muestras de resección de 17 pacientes con metástasis hepáticas de cáncer colorrectal. Desde las diez de estos pacientes, emparejado helado en fresco y el tejido FFPE rutinariamente procesada estaba disponible para el estudio comparativo. calidad de la muestra de tejidos FFPE se determinó por la cantidad de ADN amplificable mediante qPCR, se evaluaron las bibliotecas de secuenciación usando Bioanalyzer. Tres tuberías bioinformáticas para el análisis se compararon los datos de secuenciación de amplificación. mutaciones de puntos calientes seleccionados se analizaron mediante secuenciación de Sanger. En las muestras secuenciadas de 16 pacientes, 29 mutaciones de codificación no es sinónimo fueron identificados en once genes. Más frecuentes fueron las mutaciones en TP53 (10), APC (7), PIK3CA (3) y KRAS (2). Una alta concordancia de FFPE y muestras de tejido congelado emparejadas se observó en diez diferentes muestras, revelando 21 llamadas mutaciones idénticas y sólo dos mutaciones diferentes. La comparación de estos resultados con otras dos herramientas variantes llamando utilizados comúnmente, sin embargo, mostró altos discrepancias. Por lo tanto, la secuencia del amplicón potencialmente se puede utilizar para identificar las mutaciones de punto caliente en metástasis de cáncer colorrectal en el tejido congelado y FFPE. Sin embargo, existen diferencias notables entre los resultados de diferentes herramientas variantes llamar, que no sólo están relacionados con la calidad de la muestra de ADN. Nuestro estudio pone de relieve la necesidad de la normalización y la evaluación comparativa de las tuberías de llamada variante, los cuales serán necesarios para aplicaciones traslacionales y clínicos
Visto:. Betge J, G Kerr, Miersch T, Leible S, G Erdmann, Galata CL, et al. (2015) La secuenciación de amplicones de cáncer colorrectal: Las muestras de variante de llamadas en el congelado y fijado con formalina. PLoS ONE 10 (5): e0127146. doi: 10.1371 /journal.pone.0127146
Editor Académico: Jeong-Sun Seo, Seúl Colegio Universitario Nacional de Medicina, República de Corea
Recibido: 10 Enero, 2015; Aceptado: April 13, 2015; Publicado: 26 de mayo de 2015
Derechos de Autor © 2015 Betge et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Disponibilidad de datos: Todos los datos relevantes están disponibles en el Archivo de nucleótidos Europea (ENA) con el número de PRJEB8754
Financiación:.. JB ha sido apoyado por una beca de la Escuela Internacional Hartmut-Hoffmann-Berling (HBIGS)
Conflicto de intereses:. los autores han declarado que no existen intereses en competencia
Introducción
Debido a los recientes avances en las tecnologías de secuenciación profundas, sorprendentes detalles se han obtenido en las alteraciones adquiridas por el cáncer colorrectal (CCR) genomas durante el proceso carcinogénico, ampliando en gran medida nuestra opinión sobre la CRC progresión genómica [1-3]. La promesa de que después de la caracterización estructural de los genomas del cáncer, la toma de decisiones clínicas se guiará por los perfiles genómicos tumorales individuales, sin embargo, aún no se ha cumplido. Sin embargo, el desarrollo de nuevas terapias dirigidas pone de relieve la necesidad de métodos fiables y rentables para la caracterización molecular de los genomas del cáncer a identificar a los pacientes que en última instancia responden al tratamiento sobre la base de las mutaciones, alteraciones druggable de predicción o marcadores de resistencia adquiridos.
secuenciación específica basada en PCR amplificados representa un enfoque viable para la evaluación de las mutaciones de acciones concretas, puntos calientes de mutaciones o alteraciones en los genomas del cáncer de predicción para los estudios clínicos. En comparación con el genoma de ancho de secuenciación o de todo el exoma, una alta profundidad de secuenciación (& gt; 1000 lecturas) en los loci genómica de interés puede ser alcanzado, lo que facilita la detección de variantes de baja frecuencia en muestras de tumores heterogéneos mezcladas con células del estroma [4 , 5]. Por otra parte, debido a la relativamente reducido número de pares de bases que se secuenció por paciente, muestras múltiples, también para el análisis longitudinal, se puede analizar en paralelo de sobremesa máquinas tales como Illumina MiSeq, reduciendo costes y permitiendo potencialmente a la aplicación clínica de rutina en el un futuro próximo.
Sin embargo, para la aplicación clínica y traslacional para estudios en muestras clínicas archivadas, quedan muchos problemas por resolver. La mayoría de los especímenes ampliamente disponibles para diagnósticos clínicos y estudios de biomarcadores son (FFPE) los tejidos en parafina procedentes de los archivos de patología y fijado en formalina, como su almacenamiento a largo plazo es relativamente simple y rentable en comparación con el material congelado. Sin embargo, se sabe que la fijación con formalina conduce a la unión covalente de ADN, ARN y proteínas por puentes de metileno, reacciones de desaminación y oxidación, formación de derivados de base cíclicos y también para la fragmentación del ADN [6]. Estas alteraciones del ADN obstaculizan las tecnologías de secuenciación que conducen a resultados menos robustos y dificultades en la interpretación de los datos de los experimentos de secuenciación. Por otra parte, un método estándar de oro para el análisis de los datos de secuenciación de próxima generación (NGS) y se carece de programas de garantía de calidad no se ponen en marcha todavía. Diversas herramientas y tuberías análisis bioinformático se han desarrollado para los datos de NGS. Sin embargo, parece que la reproducibilidad entre ellos necesita ser mejorado [7]. Por otra parte, los modelos estadísticos para el descubrimiento y evaluación variante variante, diseñada para todo el exoma o todo el genoma de datos que consta de muchas muestras con baja cobertura, no pueden ser óptimas para los pequeños conjuntos de datos de amplicón con pocas regiones seleccionadas. Por lo tanto, no hay una norma generalmente aceptada sobre cómo realizar la llamada variante en los datos de secuenciación de amplificación. Estos problemas ponen de relieve la necesidad de tuberías para la preparación de muestras y análisis de datos optimizados para la secuenciación de amplificación de muestras clínicas.
En este estudio, se describe una tubería experimental y bioinformática para la secuenciación de amplificación de las muestras congeladas y frescas FFPE clínicos de CRC. Atención especial se dibuja en la preparación de bibliotecas de secuenciación de muestras FFPE de baja calidad. El gasoducto bioinformática, utilizando una adaptación del Genoma Análisis Instrumental (GATK) Unificado Genotyper, se explica en detalle y se compara con otros métodos comúnmente utilizados variantes llamando con respecto a su idoneidad para la secuenciación de amplificación utilizando material FFPE.
Materiales y Métodos
los pacientes
Treinta y tres muestras de 17 pacientes que fueron sometidos a resección de metástasis hepáticas de CCR en el Departamento de Cirugía del hospital Universitario de Mannheim, entre febrero de 2012 y febrero de 2013, fueron incluidos en este estudio. Para todos estos pacientes, ya sea se utilizó (FFPE) de tejido fresco congelado o fijado en formalina incluido en parafina para el aislamiento de ADN. De 10 pacientes, emparejado congelado y tejido FFPE estaba disponible para su estudio y de 5 pacientes, igualó tumores primarios se pueden obtener a partir de los archivos del Instituto de Patología, Hospital de la Universidad de Mannheim. Además, un par combinado de metástasis primario de un carcinoma neuroendocrino del intestino delgado (Pat05), material de cultivo primario de un paciente (Pat16), material procedente de un paciente con cáncer de próstata y líneas de células DLD-1, HCT116, HT55, HUH7, HEK293T , HS68 y SW480 se incluyeron en carreras secuenciación y análisis para otros proyectos o como controles. Las muestras se analizaron en dos carreras de secuenciación, un paciente (Pat13) se analizó en ambas carreras como control. Todas las líneas celulares se obtuvieron de ATCC. Información sobre los pacientes se puede encontrar en la Tabla S1.
Ética aprobación
la aprobación del comité de ética se obtuvo de la Comisión de Ética Médica II de la Facultad de Medicina de Mannheim, Universidad de Heidelberg, Mannheim, Alemania (No. 2012-293N-MA, 2013-841R-MA, 2014-551N-MA). Se obtuvo el consentimiento informado por escrito de los donantes de muestras de tejido para el uso en la investigación.
Preparación de la muestra
muestras y líneas celulares.
Las muestras de metástasis hepáticas de pacientes con CRC congelado fueron transportados en medio de cultivo celular RPMI y se congelaron rápidamente en hielo seco y posteriormente se almacenaron a -80 ° C. el aislamiento de ADN se realizó con el Qiagen DNeasy Blood & amp; Tissue Kit (Qiagen, Hilden, Alemania) de acuerdo con las recomendaciones del fabricante, incluyendo la digestión con ARNasa (Fig 1A). Las líneas celulares se sedimentaron y se aisló el ADN con el mismo protocolo. ADN extraído se diluyó y directamente utilizada para la preparación de bibliotecas de secuenciación.
flujo de trabajo de preparación (A) de la muestra. Se aisló el ADN a partir de muestras de resección de metástasis hepática congeladas o frescas con FFPE CRC Qiagen Sangre y Tejidos kit o FFPE, respectivamente. Las muestras congeladas se sometieron directamente a la preparación de la biblioteca de secuenciación, la puesta en común de las bibliotecas, control de calidad y secuenciación. muestras FFPE se ensayaron adicionalmente para la calidad del ADN por qPCR. la calidad de la biblioteca se probó con Bioanalyzer. Para muestras con bajas cantidades de ADN amplificados del tamaño correcto (310 bp fragmentos a), nuevas bibliotecas se prepararon con concentraciones de ADN de partida más alta y re-analizados con Bioanalyzer. Se excluyeron las muestras con cantidades aún bajas de ADN con el tamaño correcto y el ADN fragmentado. (B) ΔCq-valores de control de calidad PCR indicar una mala calidad de la muestra. la concentración de ADN de los fragmentos de 250 pb y 450 pb entre después de la preparación de la biblioteca se calculó con Agilent Bioanalyzer y se representó frente ΔCq los valores de control de calidad FFPE PCR. (C) más alta ΔCq-valores se correlacionan con una menor profundidad media de secuenciación. (D) la distribución de la cobertura de los amplificados de todo FFPE emparejado y las muestras congeladas, normalizado a la cobertura total de la muestra. Las muestras congeladas tenían una profundidad media de 4.622, 1.852 muestras FFPE.
muestras FFPE.
El tejido de las metástasis hepáticas habían sido fijados en formalina und embebido en parafina durante la rutina de trabajo en marcha patológica . bloques adecuados fueron elegidos y cinco 10μm rodajas se utilizan para la extracción de ADN, sin microdisección. Un portaobjetos teñido con hematoxilina y eosina (H & amp; E) de cada bloque se utilizó para estimar el contenido de las células tumorales de las rebanadas correspondientes por dos investigadores (TG y JB) usando un microscopio de doble cabeza. Se aisló el ADN utilizando el kit Qiagen QIAamp DNA FFPE de acuerdo con las instrucciones del fabricante. ADN se eluyó en 40μl de tampón ATE y las concentraciones se midieron con NanoDrop 2000 (NanoDrop, Wilmington, EE.UU.) y el kit de Qubit BR (Life Technologies, Darmstadt, Alemania). El aislamiento produjo entre 4.8μg y 22.8μg (media 10.23μg) cuando se mide con el kit Qubit BR. La información detallada acerca de la preparación de muestras FFPE se puede encontrar en la Tabla S2.
Biblioteca Preparación
calidad del ADN de las muestras FFPE se evaluó mediante la determinación de la cantidad de ADN amplificable mediante el control de calidad PCR FFPE (iluminación, San Diego, EE.UU.) según las recomendaciones del fabricante. La media de ΔCq valor de todas las muestras FFPE fue de 2,0 (mediana de 1,9, 0,9 Min, Max 4.1). Nueve muestras (47%) tuvieron un valor más alto que el ΔCq (Tabla S2) se recomienda 2.0. TruSeq Cancer Panel de amplicón (Cat. No. 130-1008-FC, Illumina) bibliotecas se prepararon con cantidades recomendadas de ADN (150 ng de líneas de material y de células congeladas frescas, 250 ng de muestras FFPE). El panel incluye 212 amplicones de 170-190bp longitud, apuntando a los puntos calientes de mutaciones en 48 genes relacionados con el cáncer. regiones de amplicón se representan en la Tabla S3.
Bioanalyzer (Agilent Technologies, Böblingen, Alemania) se utilizó para confirmar la amplificación exitosa biblioteca y calidad de las muestras FFPE mediante la evaluación de la concentración de DNA con el tamaño de aspirado (~ 310 bp) y corto fragmentos de ADN (& lt; 150 pb). Para comparar cantidades de ADN dentro de la región tamaño deseado, se calculó la concentración de los amplicones de ADN en el intervalo de 250-450bp. La concentración de ADN con un tamaño entre 250 pb y 450 pb varió mucho entre 51,7 y 93.831,9 pg /l (media de 5.675,1 pg /l, la mediana 672,2 pg /l) dentro de las bibliotecas de diferentes muestras e inversamente correlacionada con los valores ΔCq (coeficiente de Spearman: -0.805 , Fig 1B, S2 Tabla). Para las muestras con bajas concentraciones de ADN en la amplificación de 310 bp, la preparación de la biblioteca se repitió usando cantidades más altas posibles de ADN (Fig S1, S2 Tabla). , Sin embargo con el fondo significativo de fragmentos cortos de ADN reveló Bioanalyzer mayores concentraciones de ADN en torno a 250-450bp (mediana 1996,3 pg /l 365,3 pg /l-5669,8 pg /l;, con una media 6.190,9 pg /l). Después de la PCR limpieza de las bibliotecas, los fragmentos cortos de ADN se redujeron, pero tres muestras también mostraron cantidades disminuidas de la amplificación de 310 bp y por lo tanto se excluyen de secuenciación.
Procesamiento de datos
El análisis bioinformático de tuberías es se muestra en la Fig 2A. Las lecturas fueron alineados contra el genoma de referencia hg19 utilizando el algoritmo implementado el software BWA MiSeq (MiSeq v2.2.29 Reporter). archivos BAM se controlaron de calidad con FASTQC (v.0.9.5; http://www.bioinformatics.babraham.ac.uk/projects/fastqc/). Indeles en los archivos de alineamiento de secuencias fueron alineadas a la izquierda y la realineación local alrededor de indeles se hizo con el RealignerTargetCreator y las herramientas IndelRealigner desde el análisis del genoma Toolkit (GATK, versión 2,4-9) [8]. Se llevó a cabo una recalibración base de la puntuación de calidad. Duplicar la cartografía y el marcaje no se consideró adecuada para la secuenciación del amplicón y por lo tanto se omite.
El análisis de flujo de trabajo (A) La secuenciación. archivos de alineamiento de secuencias se sometieron local realineación alrededor Indeles, alineación a la izquierda y recalibración nivel de calidad de base. Después de llamar a la variante con Genotyper Unificado GATK, anotación y efecto de predicción de variantes detectadas se realizó utilizando SnpEff. variantes primas de todas las muestras fueron filtradas por los parámetros personalizados con SnpSift. Las variantes incluidas en los datos de 1000 del Proyecto Genomas se excluyeron sólo a obtener mutaciones somáticas en el cáncer. (B) de alta frecuencia de mutaciones TP53 y APC entre mutaciones somáticas identificadas en metástasis hepáticas de CRC (congelados y tejidos FFPE). campos de colores representan presencia de un SNP no sinónimo de codificación (azul), una mutación que conduce a un codón de parada (gris) o una mutación de desplazamiento (de color naranja). Bares resumen mutaciones presentes en cada paciente (barras verticales) o cada gen mutado (barras horizontales). Es de destacar que algunos genes contienen más de una mutación.
Unificado Genotyper tubería
llamada Variante.
Unificado Genotyper del GATK (versión 2,4-9) se utilizado para la variante de llamada. Todas las muestras se procesaron en paralelo y se dividieron en los archivos de variantes individuales para cada muestra después de variante de llamada. La cobertura máxima por locus se incrementó desde el valor predeterminado de 250 a 9.000.000 de tener en cuenta la alta profundidad de secuenciación de amplificación. (Downsampling a menor profundidad se realiza en estudios de todo el exoma para aumentar la velocidad de la memoria de ahorro). El umbral mínimo de confianza para llamar se establece en 10, el umbral mínimo de confianza para emitir a 30. SNPs y Indeles se evaluaron simultáneamente. Se utilizó una lista de regiones de todos los amplificados para definir las regiones de polimorfismo de un solo nucleótido (SNP) y Indel llamando al aumentar la velocidad de análisis. Como alternativa, la tubería Genotyper Unificado fue utilizado por el procesamiento de cada muestra individual, de lo contrario se utilizaron los mismos parámetros
anotación Variant y efecto de predicción
SnpEff (versión 2.0.5, http..: //snpeff.sourceforge.net/) [9] se utilizó para la variante de la anotación y predicción efecto y la herramienta GATK VariantAnnotator se ejecuta con la opción-a SnpEff añadir las anotaciones SnpEff con la más alta importancia biológica para cada variante a la llamada variante formato (VCF) archivos. Posteriormente, el archivo VCF con información sobre todas las muestras secuenciadas se dividió en archivos de variantes individuales de la muestra utilizando el programa de GATK SelectVariants. Las variantes fueron anotados con las frecuencias de las variantes en 1000 genomas proyecto mediante el SnpSift (http://snpeff.sourceforge.net/SnpSift.html) característica anotar [9].
Filtrado de Variant.
SnpSift del paquete SnpEff se usa para el filtrado de variantes primas. Se aplicaron los siguientes criterios de filtro de calidad: la calidad por la profundidad superior a 0,8 (QD & gt; 0,8), la profundidad total para llamar variantes en un locus específico mayor que 200 (DP & gt; 200) p-valor, cadena Fisher (escala-Phred utilizando la prueba exacta de Fisher para detectar el sesgo de hebra) menor que 70 (FS & lt; 70), la confianza mínimo variante mayor que 1.500 (QUAL & gt; 1500), la calidad de mapeo mayor que 40 (MQ & gt; 40) y la prueba de mapeo rango calidad suma mayor de -15 (! existe MQRankSum