Extracto
Antecedentes
cáncer colorrectal hereditario no (CRC) es un trastorno complejo que resulta de la combinación de factores genéticos y no genéticos. Los estudios de asociación de genoma completo (GWAS) son útiles para la identificación de tales factores de susceptibilidad genética. Sin embargo, el loci único hasta ahora asociada con CRC representan sólo una fracción del riesgo genético para el desarrollo de CRC en la población general. Por lo tanto, muchas otras variantes de riesgo genético solos y en combinación, que todavía tienen que quedan por descubrir. El objetivo de este trabajo fue la búsqueda de factores de riesgo genéticos para la CRC, mediante la realización de un solo locus y dos locus GWAS en la población española.
Resultados
Un total de 801 controles y 500 CRC casos se incluyeron en el descubrimiento GWAS conjunto de datos. 77 polimorfismos de nucleótido único (SNP) s de un solo locus y 243 SNPs de la asociación de dos locus análisis fueron seleccionados para la replicación en 423 casos de CCR adicionales y 1382 controles. En el meta-análisis, un SNP, rs3987 en 4q26, alcanzado GWAS significativa p-valor (p = 4,02 × 10
-8), y un par, rs1100508 y rs8111948 CG AA SNP, mostró una tendencia de dos locus asociación (p = 4,35 × 10
-11). Además, nuestra GWAS confirmó la asociación ya se ha informado con el CRC de cinco SNPs situados en 3q36.2 (rs10936599), 8q24 (rs10505477), 8q24.21 (rs6983267), 11q13.4 (rs3824999) y rs4444235 (14q22.2).
Conclusiones
Nuestros GWAS para CRC pacientes de España confirmaron algunas asociaciones ya se ha informado de la CRC y produjeron una novela SNP riesgo candidato, situado en 4q26. Los análisis de epistasis también produjo varios pares de susceptibilidad novela candidatos que necesitan ser validados en los análisis independientes
Visto:. LM real, Ruiz A, Gayán J, González-Pérez A, Sáez ME, Ramírez-Lorca R, et al . (2014) Un cáncer colorrectal Susceptibilidad nueva variante en 4q26 en la población española identificaron mediante análisis de asociación de genoma completo. PLoS ONE 9 (6): e101178. doi: 10.1371 /journal.pone.0101178
Editor: Zongli Xu, Instituto Nacional de Ciencias de Salud Ambiental, Estados Unidos de América
Recibido: 11 Abril, 2014; Aceptado: June 3, 2014; Publicado: 30 de junio 2014
Derechos de Autor © 2014 real y col. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Disponibilidad de datos:. La autores confirman que todos los datos que se basan los resultados son totalmente disponible sin restricciones. Todos los datos se incluyen dentro del papel
Financiación:. Este trabajo fue parcialmente apoyado por el programa CENIT del Centro Tecnológico Industrial (CEN-20091016), subvenciones del Instituto Español de Salud Carlos III (ADE10 /00026, PI09 /02444, PI12 /00511, Acción transversal de cáncer) subvenciones del Fondo de Investigación Sanitaria /FEDER (08/1276, 08/0024, PS09 /02368, 11/00219, 11/00681), y por la oficina de costo a través de COST BM1206 acción. SCB es apoyado por contratos del Fondo de Investigación Sanitaria (CP 03-0070). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:. LMR, AR, AGP, MES, RRL, FJM, JV, RMF, JMC , CMR, EV son ex empleados de Neocodex. JG es el fundador de Bioinfosol. Esto no altera la adhesión de los autores a PLoS ONE políticas en los datos y materiales de uso compartido.
Introducción
El cáncer colorrectal (CCR) representa a nivel mundial, en términos de frecuencia, la tercera causa principal de cáncer mortalidad -related, y la segunda enfermedad maligna más frecuente en Europa [1]. Una minoría de los pacientes tiene antecedentes familiares de CCR, lo que sugiere una cierta contribución hereditaria. Las mutaciones de la línea germinal se han identificado como la causa del riesgo de cáncer hereditario en algunas de estas familias CRC-propensas. En general, las mutaciones alta penetrancia se estima que representan menos del 5% de los casos de CCR [2]. Por otra parte, la gran mayoría de pacientes con CRC no tienen evidencia clara de haber heredado la enfermedad y, por tanto, se clasifican como cáncer "esporádico".
CRC esporádica se considera un trastorno complejo que resulta de la combinación de genética y los factores de riesgo no genéticos en concierto con alteraciones genéticas y epigenéticas somáticas. Los factores de riesgo genéticos no mendelianos son variantes de bajo riesgo comunes distribuidos por todo el genoma. El enfoque de los estudios de asociación del genoma completo (GWAS) es una herramienta útil para la identificación de tales variantes [3]. El uso de este enfoque alrededor de 30 variantes genéticas de riesgo relacionados con la susceptibilidad CRC se han reportado en los últimos años [4] - [15]. A pesar de esto, el efecto combinado de estas variantes en total sólo representa una pequeña proporción del riesgo genético para el desarrollo de CRC en la población general [16]. Esto sugiere que muchas otras variantes genéticas de riesgo están aún por descubrir.
En general, los GWAS han sido insuficientes para descubrir todos los genes implicados en enfermedades complejas y, lo más importante, no han sido muy útiles en el aislamiento específico molecular vías relacionadas con los trastornos en estudio [17]. Una de las razones podría ser que el enfoque de un solo locus suele ser el único método se aplica a los conjuntos de datos GWAS, y esto no se tiene en cuenta la naturaleza multigénica que subyace en la etiología de las enfermedades complejas. De este modo, los nuevos métodos analíticos que ayuden a detectar las asociaciones genéticas más potentes basados en la combinación de marcadores han sido propuestos por nosotros y otros [18] - [20]. Recientemente, el primer estudio de asociación de dos locus en el CCR ha informado [21]. Estudios adicionales son claramente necesarias para una comprensión más completa de la complejidad genética de la susceptibilidad CRC en las diferentes poblaciones humanas
.
El objetivo de este trabajo fue la búsqueda de factores de riesgo genéticos para la CRC en la población española, la realización de una GWAS nueva usando un solo lugar y de dos locus análisis de asociación genética.
resultados
Fase I. CRC-GWAS análisis
Para identificar SNPs CRC riesgo asociado, diseñamos un GWAS (NXC-GWAS) que comprende 801 controles y 500 casos de la población española escasamente estudiados (muestra NXC-GWAS).
Todos los SNPs se genotipo utilizando el chip Affymetrix NSP I 250K. Después del control de calidad, 20 casos fueron descartados (4 discordante sexo, origen étnico diferente y 8 8 tarifa de llamadas de muestra de baja). Finalmente, se seleccionaron 480 casos y 801 controles para el análisis de asociación. Análisis de componentes principales realizado en esta muestra no reveló mezcla de población (Figura S1). Edad de reclutamiento fue de 58,0 ± 9,1 años en los casos y 51,9 ± 8,8 años en los controles (media ± desviación estándar). El número correspondiente (porcentaje) de muestras de mujeres fueron 278 (57,9%), y 368 (45,9%), respectivamente. Entre los 262264 SNPs que pueden ser genotipo con este chip, 83334 no pasaron los controles de calidad (52964 SNPs se descartaron debido a la baja frecuencia del alelo menor (MAF), 2307 SNPs fallado HWE, y 28333 tuvieron una tasa significativamente diferentes de los valores perdidos entre la caja y los grupos de control). Un total de 178,930 marcadores finalmente fueron seleccionados para su posterior análisis de asociación. No hubo inflación general de la estadística de prueba (factor de inflación genómico = 1.10) (ver figura S2), que proporciona la seguridad de que los factores de confusión sistemáticas fueron poco probable.
Uso de Plink se realizó un análisis único locus asociación genética [22 ]. Un marcador genético, rs10446758 en el cromosoma 4q31.23, alcanzó el valor GWAS-p significativa (p = 1,73 × 10
-8), y otros dos marcadores, rs4887855 en el cromosoma 16q23.1 y rs7171889 en el cromosoma 15q26.2, mostró una tendencia para la asociación (p = 8,27 × 10
-8 y p = 8,53 × 10
-8, respectivamente) (Figura 1) (Tabla S1).
azules y rojos líneas horizontales corresponden a los valores de p de 6,97 × 10
-4 y 5 × 10
-8 respectivamente.
también se realizó un análisis de dos locus utilizando el software HFCC (ver pacientes y métodos sección), exclusivamente en los SNPs que pasar los controles de calidad. Finalmente se obtuvo un total de 1,60 × 10
10 combinaciones de dos locus. Después de aplicar la dirección de control y seguimiento de filtros, este software produjo 5x10
5 locus dos estratos. Aunque ninguno de ellos ha alcanzado el valor p de corte establecida en 3,12 × 10
-12 algunos pares de valores cercanos a ese umbral (Tabla S2). Alcanzadas
Fase II. Validación y meta-análisis
Para probar las mejores asociaciones genéticas observadas en la fase I, en primer lugar, se seleccionaron los SNPs que se incluyeron en cualquiera de los mejores 157 señales de dos locus (Tabla S2). Estos pares representaron 276 SNPs porque 38 SNPs se encuentran presentes en más de un par. En segundo lugar, se seleccionaron 79 SNPs de los análisis de un solo locus de acuerdo con el valor p de asociación obtenida en la fase I (p & lt; 6,9 × 10
-4) o la probabilidad de que se genotipo con éxito con la tecnología Veracode. Por lo tanto, se seleccionaron inicialmente un total de 355 SNPs para la preparación de las matrices a medida. Sin embargo, sólo fue posible diseñar conjuntos de oligonucleótidos para 340 SNPs (79 SNPs solo lugar y 261 de dos locus SNP).
Estos marcadores genéticos se genotipo en 423 casos diferentes y 1448 controles diferentes (muestra NXC-VAL ). Edad de reclutamiento fue de 58,7 ± 7,3 años en los casos y 51,1 ± 12,9 en los controles (media ± desviación estándar). El número correspondiente (porcentaje) de muestras de mujeres fue de 262 (61,8%), y 920 (63,5%), respectivamente. Veinte SNPs no pasó la control de calidad (14 SNPs no se genotipo en más de 80% de las muestras, y 6 SNPs mostraron una HWE valor de p & lt; 0,001 en los controles). En cuanto a las muestras, se excluyeron 66 controles (31 individuos no alcanzaron una tasa de & gt llamada genotipificación; 80%, y 35 individuos mostraron algún grado de relación entre sí de acuerdo con los datos obtenidos con el software GRR). Finalmente 423 casos de CCR y 1382 controles fueron genotipo con 320 marcadores (77 de un solo locus y 243 de dos locus seleccionado SNPs) (Tabla S3). La Tabla 1 muestra los SNPs seleccionados que fueron replicadas en la muestra NXC-VAL (p & lt; 0,05 y mismo efecto de dirección). Sólo un SNP, rs3987 en 4q26, alcanzó un valor de p significativo GWAS en el meta-análisis (Tabla 2). Curiosamente, cuatro SNPs más en la misma región genómica mostraron una tendencia a la asociación en GWAS significativa p-valor (Tabla 2).
En cuanto a análisis de dos locus, sólo cinco pares fueron validados en fase II (p & lt; 0,05 y misma dirección efecto). Aunque ninguno de ellos alcanzó GWAS significativa p-valor (p & lt; 3,12 × 10
-12) en el meta-análisis (Tabla 3), un par de SNP, rs1100508 CG y rs8111948 AA, estaba en el límite de la asociación (4.35 × 10
-11).
resultado de validación utilizando conjuntos de datos adicionales
Para probar si los resultados podrían ser replicados en otro conjunto de datos española, se utilizaron los datos del proyecto EPICOLON [23] . Sin embargo, ninguno de los SNPs que fueron considerados significativos o candidatos en la fase II de este estudio replicado en esta muestra EPICOLON.
Los resultados obtenidos en nuestro GWAS (fase I y II), y los obtenidos de la cohorte EPICOLON , se combinaron en un esfuerzo para ver un efecto global de todos los SNPs controladas en la fase II. Ninguno de los SNPs llegó a la significativa p-valor GWAS en el estudio combinado (Tabla S4). La tabla 4 muestra los mejores resultados obtenidos en este estudio (seleccionados entre los SNPs que muestran un efecto en la misma dirección en las tres series analizadas. Ver detalles de los SNPs seleccionados en el cuadro S5).
En cuanto a dos -locus HFCC análisis, no SNP-par mostró un efecto significativo y constante (en la misma dirección) cuando se analizaron conjuntamente los 3 muestras (NXC-GWAS, NXC-Val y EPICOLON).
análisis de SNPs previamente asociada con CRC
Sólo uno de los SNPs previamente asociados con el riesgo de CCR se genotipo con éxito en nuestro GWAS. Con el fin de cubrir un mayor número de estos SNP se imputó genotipos utilizando base de datos HapMap CEU y el software Plink. Después de la imputación, se obtuvo un total de 1,371,009 SNPs para su posterior análisis. Un total de 16 previamente informado que CRC asociada SNPs estaban disponibles en el momento del análisis (Tabla 5). De ellos, cinco SNPs situados en 3q36.2 (rs10936599), 8q24 (rs10505477), 8q24.21 (rs6983267), 11q13.4 (rs3824999) y 14q22.2 (rs4444235), se encontró una asociación nominal con el CRC en nuestra GWAS, y con efectos en la misma dirección que los anteriormente informado (Tabla 5). Dos SNPs más situados en 8q23.3 (rs16892766) y 12q13.13 (rs7136702) mostraron una tendencia a la asociación nominal con CCR en nuestro estudio, de nuevo con el efecto en la misma dirección que lo reportado previamente (Tabla 5).
no pudimos probar los SNPs candidatos reportados por Fernández-Rozadilla
et al
. [23] en su CRC-GWAS lleva a cabo en la población española (muestra EPICOLON), porque los candidatos que no fueron cubiertas con éxito o genotipo /imputó en nuestro estudio.
También probamos dos locus interacciones entre rs1571218 (20p12 0.3) y rs10879357 (12q21.1) previamente asociados con el CRC [21]. La aplicación de modelos lineales generales que no observó ninguna evidencia de interacción entre ellos en nuestro conjunto de datos (datos no mostrados).
Discusión
Se presenta un nuevo dos fases CRC-GWAS lleva a cabo en el la población española de locus único y también para la asociación de dos locus utilizando nuestro software HFCC [18]. Un marcador, rs3987 en 4q26, alcanzó asociación con la susceptibilidad al CRC GWAS significativa p-valor. Además, un par de SNP, rs1100508 rs8111948 AA CG (situado en 7q31.33 y 19q12, respectivamente), mostró también una tendencia para la asociación epistatic
A pesar de las limitaciones de nuestra GWAS -. De baja densidad de la cobertura genómica de el chip de ADN, y un tamaño moderado de la muestra - que replican 5 de los 16 SNPs previamente asociados con el CRC. Además, la mayoría de estos 16 SNPs en nuestro estudio GWAS estaban en la misma dirección que en los informes publicados (Tabla 5). Además, el análisis de regresión mostró una buena concordancia de los odds ratios (Figura S3). Estos datos en conjunto sugieren que nuestro estudio está en consonancia con los análisis publicados anteriormente CRC GWAS.
En nuestro dos fases CRC-GWAS, un marcador, es decir, rs3987 en 4q26, asociación exhibido ante el CRC susceptibilidad a GWAS p- significativa valor. Este SNP se encuentra en una región intergénica entre 4q26
TRAM1L1
y
genes NDST3
(~ 500 kb y ~ 180 kb, respectivamente). Varios estudios ya han sugerido la presencia de los genes del cáncer en la región 4q [24], [25], y también se ha informado de que las supresiones somáticas en 4q26 son frecuentes en el CCR [26], [27]. Curiosamente, el
NDST4
gen, que se encuentra también en 4q26, y que pertenece a la misma familia que
NDST3
, ha sido identificado como un posible gen supresor de tumores en el CCR [27].
El análisis de dos locus reveló que uno de los pares de SNPs, rs1100508 y rs8111948 CG AA (ubicado en 7q31.33 y 19q12, respectivamente), mostraron una tendencia para la asociación. Estos SNPs están en las regiones intergénicas situados en 7q31.33 y 19q12. El gen más cerca de rs1100508 es
GPR37
, un miembro de la familia del receptor acoplado a proteína G que se sabe que interactúan con Parkin, aunque su función aún no se ha caracterizado completamente. Por otro lado, rs8111948 está situado entre
LINC00662
y
LINC00906
dos loci que pertenecen a la larga no codificante del ARN de la familia (~ 500 kb y ~600 kb, respectivamente), (lncRNA) . Si se confirma la asociación de este par de SNP, tendrá la naturaleza de esa interacción a caracterizarse adicionalmente.
También se estudiaron los marcadores asociados con el CRC de nuestra bifásico GWAS en un conjunto de datos GWAS española independiente (EPICOLON ), pero ninguna de estas asociaciones replicado. Sin embargo, desde nuestra GWAS pudo validar más de las asociaciones CRC bien establecidos, que el EPICOLON GWAS [23], consideramos que los candidatos derivados de nuestro estudio merecen ser validado en el metanálisis adicional incluyendo otros estudios GWAS y validación realizadas en el la población española, o en una población caucásica más general
Según el catálogo de GWAS del NIH (http://www.genome.gov/26525384), y trabajos anteriores en este tema [5] -. [15 ], ni las variantes asociadas con CCR presentan en el cuadro 1 o 2, ni las variantes incluidas en los pares de SNP reportados en la tabla 3 (o en desequilibrio de ligamiento con ellos) se han asociado previamente con el CRC. Como la mayoría de estos estudios previos no se llevaron a cabo en particular en la población caucásica Sur, nuestros resultados podrían ser específicos para esa población. Una explicación alternativa sería que son falsos positivos. La agrupación de varios SNPs al mismo 4q26, y la replicación del previamente informado de la asociación argumenta en contra de esta posibilidad.
A pesar de que nuestros resultados no pudieron ser replicados en la muestra EPICOLON independiente, que llevan a cabo un meta-análisis que tenga en tener en cuenta las tres muestras analizadas aquí (NXC-GWAS, NXC-VAL, y EPICOLON). Ninguno de los SNPs, o combinaciones de ellos, fueron replicadas en las tres muestras, pero las mejores señales comprenden varios SNP en desequilibrio de ligamiento en 9q31.1, dentro o cerca de
LINC00587
locus (Tabla 4). Este gen también pertenece a la familia lncRNA implicados en la diferenciación y la proliferación celular como reguladores post-transcripcionales de empalme o como señuelos moleculares para miARN [28], [29]. La expresión de lncRNAs está desregulado en muchos cánceres diferentes, incluyendo cáncer de colon [30], y algunos estudios sugieren un papel en la iniciación del cáncer, la progresión y la metástasis [31]. La asociación informó en GWAS anterior entre la susceptibilidad CRC y el SNP localizado en 8q24 podría ser debido a la
PRNCR1
locus, un miembro de lncRNA [32].
Curiosamente, una alta proporción de SNPs a conocer estar asociada con CRC en nuestra fase de descubrimiento estudio (tablas 1, 2 y 4), fueron seleccionados por el análisis de dos locus. Esto sugiere que, además de identificar las interacciones epistatic, nuestro método de análisis de dos locus (software HFCC) también puede mejorar la captura de las señales individuales en el genoma en relación con la susceptibilidad CRC, en particular, y por lo tanto en la enfermedad multigénica en general. Esta es una hipótesis atractiva que podría acreditar si algunos de estos SNPs son validados en estudios futuros. Por otro lado, los resultados de nuestros análisis de dos locus sugieren que las señales de interacción no tienen ningún valor predictivo más potente que un solo locus de susceptibilidad CRC debido a la falta de detección de SNP pares asociados con CRC en GWAS significativa p-valor. Esta observación, junto con la ausencia de resultados estadísticamente significativos en nuestra meta-análisis global, así como la falta de replicación de la única interacción par SNP se informó anteriormente como asociada con CRC [21] sugiere que el papel de los factores genéticos en CRC susceptibilidad podría ser más compleja que se pensaba anteriormente
.
en conclusión, hemos llevado a cabo un CRC-GWAS en la población española que está en línea con algunos informó anteriormente asociaciones y produjo un nuevo SNP candidato para la susceptibilidad CRC en 4q26 que necesita ser validado en estudios futuros. Nuestro estudio de dos locus también proporciona evidencia del alto nivel de complejidad en el riesgo de cáncer genético.
Materiales y Métodos
Los pacientes
Los sujetos en fase I fueron 801 controles de la población general española (que fueron descritos anteriormente [33]) y 500 casos diagnosticados de CCR con la confirmación patológica (muestra NXC-GWAS). En la fase II de 1.448 controles y 423 casos de CCR fueron utilizados (muestra NXC-VAL). CRC muestras se recogieron en dos hospitales españoles diferentes (Hospital Universitario Virgen del Rocío de Sevilla y el Hospital Universitario 12 de Octubre de Madrid) a partir de noviembre de 2002 y abril de 2008. El control de las muestras incluidas en la fase II se recogieron durante el mismo período de tiempo en varios primaria centros de salud de toda España. Estas muestras se han utilizado anteriormente como controles en otros estudios de asociación realizados para diferentes enfermedades en la población española [34]. Por lo tanto, se incluyeron un total de 923 casos de CCR y 2249 controles de la población general española en este estudio. Todos los individuos incluidos eran de raza blanca con antepasados españoles registrados (dos generaciones) registrados por los investigadores clínicos.
Declaración de Ética
Los comités de ética del Hospital Universitario Virgen del Rocío, Sevilla, y el Hospital Universitario 12 de Octubre de Madrid, así como Neocodex aprobó el protocolo de investigación, que se encontraba en cumplimiento de la legislación nacional y lleva a cabo de acuerdo con las directrices éticas de la Declaración de Helsinki [35]. escrito el consentimiento informado se obtuvo de todos los individuos incluidos en este trabajo.
genotipado externa conjunto de datos
Los datos de genotipado de SNPs seleccionados de otros GWAS realizados en la población española (EPICOLON cohorte) [23] se utilizaron como referencia para los resultados obtenidos en el presente documento. En concreto, esta cohorte consistió en 882 casos y 473 controles comprobados a través del proyecto EPICOLON II y 194 controles adicionales del banco de ADN Nacional española.
El genotipado se utilizaron
sangre periférica de todos los casos y controles para aislar el ADN de la línea germinal a partir de leucocitos. La extracción de ADN se realizó de forma automática de acuerdo con los procedimientos estándar utilizando el sistema de aislamiento de ADN MagnaPure (Roche Diagnostics, Mannheim, Alemania).
Para la genotipificación de todo el genoma se utilizó el chip Afymetrix NspI como se describe anteriormente [33]. Para el genotipado de SNPs seleccionados en la muestra de NXC-VAL se emplearon protocolos personalizados Golden Gate y genotipo ensayo Veracode (Illumina, San Diego, California, EE.UU.) según las instrucciones del fabricante.
Disponibilidad de datos
resultados de la asociación de SNPs genotipo e imputados están en archivos comprimidos (Plink conjunto de datos S1 y S2) del conjunto de datos. Caso por caso, los datos de genotipo está disponible bajo petición al comité de ética del IMPPC (Instituto de Medicina predictiva y Personalizada del Cáncer) de acuerdo con las condiciones establecidas en la Ley Española de Investigación Biomédica (Ley 14/2007, de 3 de julio).
Control de calidad analiza
Para muestras con genotipo utilizando la plataforma Affymetrix, se realizó un extenso control de calidad utilizando Affymetrix Genotipado consola de Software (http://www.affymetrix.com) y Plink [22] . Sólo las personas con un tipo de referencia de la muestra por encima de 93% fueron posteriormente re-invocados con el modelo lineal robusta bayesiano con el algoritmo de distancia Malalanobis (BRLMM), corrieron con los parámetros por defecto. BRLLM mejoró las tarifas de llamadas en la mayoría de las muestras. Auto-reporte de sexo se comparó con el sexo asignado por los genotipos del cromosoma X, y se resolvieron las discrepancias o las muestras eliminado. La representación gráfica del programa de relaciones (GRR) [36] se utilizó para comprobar la relación de la muestra y para corregir un error de etiquetado potencial de ejemplo, duplicaciones o contaminaciones. SNPs se selecciona para que tenga un tipo de referencia por encima de 95% (en cada caso, el control, y el grupo combinado), y un alelo menor frecuencia por encima de 1% (de nuevo, en cada caso, el control, y el grupo combinado). SNPs que se desviaban groseramente de Hardy-Weinberg (HWE) (valor de P & lt; 10
-4) en el control también se retiraron muestras. También hemos eliminado SNPs con una tasa significativamente diferente de missingness (valor de P & lt; 5 × 10
-4). entre las muestras de casos y controles
Del mismo modo, SNPs genotipo en la fase II fueron sometidos a la calidad filtros de control. Por lo tanto, los SNPs que no se genotipo con éxito en al menos el 80% de los individuos, y los que tienen un valor de p de equilibrio de Hardy-Weinberg (HWE) menor que 0,001 fueron descartados. Además, los individuos con más del 10% de los datos perdidos o genotipo mostraron que la relación entre sí también fueron excluidos.
análisis de componentes principales
Análisis de componentes principales se realizó con EIGENSOFT [37] , [38] para evaluar la población mezcla dentro de nuestra población, y para identificar a los individuos como atípicos. Nos encontramos con el programa SMARTPCA con parámetros por defecto, con exclusión de los marcadores del cromosoma X y el uso de SNPs independientes (pairwise r
2 & lt; 0,1). Para minimizar el efecto de desequilibrio de ligamiento en el análisis, las regiones vinculación desequilibrio de largo alcance se informó anteriormente [39] o detectadas en nuestra población también fueron excluidos. Los individuos identificados como atípicos (seis desviaciones estándar o más a lo largo de uno de los diez mejores componentes principales) fueron retirados de todos los análisis posteriores. Análisis de componentes principales se llevó a cabo junto con otras Europea HapMap y poblaciones de todo el mundo para detectar individuos de diferentes grupos étnicos.
asociación solo locus análisis
Sin ajustar alélica de un solo locus (1 grado de libertad, gl) asociación Los análisis se llevaron a cabo utilizando el software Plink [22], de forma independiente dentro de cada grupo de sujetos de la fase I o fase II. herramienta meta-análisis en Plink se utilizó para analizar los datos combinados de diferentes conjuntos de datos. En estos estudios, se utilizaron modelos de efectos fijos cuando no se encontraron pruebas de heterogeneidad. De lo contrario, se emplearon modelos de efectos aleatorios. Un valor de p significativo GWAS se estableció en el 5 × 10
-8 [40]. Plink también fue empleado para estimar el factor de inflación genómico. Se empleó el software Haploview [41] para la representación gráfica de los resultados del análisis de un solo locus GWAS (parcela de Manhattan). La concordancia del efecto detectado y reportado el efecto de los SNPs encontrados anteriormente a estar asociado con el CRC se analizó mediante regresión lineal después de la transformación logarítmica de los odds ratios.
de dos locus análisis de asociación
con el objetivo de detectar posibles epistatic
loci
, hemos explorado todo el universo de dos locus interacciones (todo el SNP SNP interacciones x) utilizando el software gratuito Hipótesis clonación clínica (HFCC) como se ha descrito anteriormente [18]. En pocas palabras, en la fase I se crearon tres grupos de replicación diferentes de 160 casos y 267 controles. Con el fin de ser considerado como un resultado preliminar positivo, el valor de corte de la prueba de chi-cuadrado (1 df) se fijó en 6,64 (p & lt; 0,01) y la dirección del efecto tenía que ser el mismo para cada grupo de replicación (que se aproxima a p & lt; 1 × 10
-6 más de los tres grupos de replicación)
epistasis
para explorar la naturaleza y la fuerza de las interacciones en los patrones de dos locus seleccionados, se evaluaron más entre los marcadores seleccionados utilizando el software Alambique [. ,,,0],18]. En concreto, Alambique se programó para medir la salida de los modelos aditivos mediante el cálculo del índice de sinergia, o estadísticas AP Reri, mientras que la salida de la multiplicidad se midió mediante el cálculo de los odds ratios-estratos específicos y ensayo de interacción de casos y solamente. Los algoritmos incluidos en el software Alambique se han descrito previamente en otra parte [42], [43].
Durante el proceso de validación, los SNPs seleccionados por HFCC que se genotipo con éxito en la muestra NXC-VAL se analizaron para la replicación . En este caso, se crearon dos grupos de replicación: la muestra NXC-GWAS y la muestra NXC-VAL. Cuando los pares seleccionados también se estudiaron en la cohorte EPICOLON, se crearon tres grupos de replicación:. NXC-GWAS, NXC-VAL y la muestra EPICOLON
corrección de múltiples ensayos se aplicó en los estudios teniendo en cuenta la número de diferentes SNP pares generado. Por lo tanto, el p-valor umbral se estableció en (p = 3,12 × 10
-12 (0,05 /número total de SNP pares generados en el conjunto de datos de fase I).
Para probar los dos locus interacción que fue previamente asociado con la susceptibilidad CRC [21], es decir, rs1571218 (20p12.3) y rs10879357 (12q21.1), que modela la interacción mediante regresión lineal con el programa SPSS 19.0 (IBM Corporation, Somers, NY, EE.UU.).
Imputación
imputada genotipos utilizando fase HapMap 2 CEU fundadores (n = 60) como un panel de referencia con Plink [22] el genotipo llamadas con sus niveles de calidad altos (info & gt; 0,8). fueron utilizados en asociación análisis posterior.
Apoyo a la Información
Figura S1.
Diagrama de dispersión de los dos vectores propios principales obtenidos a partir del análisis de componentes principales realizado en 801 controles (círculos verdes) y 480 casos (círculos azules) seleccionados para la asociación de estudio de fase I-
doi:. 10.1371 /journal.pone.0101178.s001 gratis (PDF)
figura S2
cuantil-cuantil (QQ) parcela de los observados y esperados X2 valores. obtenido a partir del estudio de la asociación entre el genotipo SNP y el riesgo de cáncer colorrectal
doi:. 10.1371 /journal.pone.0101178.s002 gratis (PDF)
Figura S3.
correlación entre los efectos (O) se encuentran en el NXC-GWAS y los efectos reportados para los 16 SNPs encontrados previamente a asociarse con el riesgo de CCR. La línea azul representa una correlación perfecta. La línea verde indica la correlación excluyendo el rs16969681 outlayer (círculo rojo). Este SNP se informó originalmente en el UK2 GWAS con una OR de 1,247, que alcanzó GWAS significativa después de un metanálisis con otros GWAS el norte de Europa, pero no se ha replicado en el EPICOLON GWAS del Sur de Europa. El coeficiente de determinación (R2) y p-valor (P de Pearson) de la correlación se indican. Sin excluir la rs16969681, el coeficiente de determinación y el valor de p era 0,28 y 0,035, respectivamente
doi:. 10.1371 /journal.pone.0101178.s003 gratis (PDF) sobre Table S1. resultados de Best fase I obtenidos por Plink
doi: 10.1371. /journal.pone.0101178.s004 gratis (DOC) sobre Table S2. de Best SNP × SNP interacciones obtenidos por el software HFCC
doi:. 10.1371 /journal.pone.0101178.s005 gratis (DOC) sobre Table S3.
SNPs incluido en los resultados de la fase II y meta-análisis
doi:. 10.1371 /journal.pone.0101178.s006 gratis (DOC) sobre Table S4.
SNPs incluido en los resultados del metanálisis en estadio II y globales
doi:. 10.1371 /journal.pone.0101178.s007 gratis (DOC) sobre Table S5.
detalles de los resultados obtenidos en cada muestra de los SNPs que mostraron los mejores resultados en el meta-análisis global
doi:. 10.1371 /journal.pone.0101178.s008 gratis (DOC)
conjunto de datos S1. archivo
Plink asociación de SNPs genotipo
doi:. 10.1371 /journal.pone.0101178.s009 gratis (postal)
conjunto de datos S2. archivo de asociación
Plink de SNPs imputados
doi:. 10.1371 /journal.pone.0101178.s010 gratis (postal)
Reconocimientos
El profesor Manuel Serrano Ríos, investigador principal del "Proyecto Segovia", se reconoce a las personas de reclutamiento representativa de la población española para el grupo control.