Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: Estratificación euro americano en ovárico Datos de Control Caso Cáncer: La Utilidad del genoma completo de datos para inferir linaje

PLOS ONE: Estratificación euro americano en ovárico Datos de Control Caso Cáncer: La Utilidad del genoma completo de datos para inferir linaje


Extracto

Hemos investigado la posibilidad de varios análisis de componentes principales (PCA) a base de estrategias para detectar y controlar la población de estratificación utilizando datos de un estudio multicéntrico de cáncer epitelial de ovario en las mujeres en Europa y Estados Unidos etnicidad. Estos incluyen una corrección basada en un panel de marcadores informativos (AIMS) diseñado para captar la variación ancestral Europea y correcciones que utilizan datos de SNP en todo el genoma-un adelgazado ascendencia; muestras de casos y controles fueron extraídos de cuatro sitios geográficamente distintos norteamericanas. Los objetivos y sólo para primeros componentes principales de todo el genoma (PC1) ambos correspondieron al eje Norte o Noroeste-Sureste anteriormente descrita de variación Europea. Se encontró que el PCA de todo el genoma capturó esta dimensión primaria de variación más precisa e identificó ejes adicionales de variación en todo el genoma de relevancia para el cáncer epitelial de ovario. Asociaciones evidentes entre los PC de todo el genoma y el sitio de estudio corroboran la historia de la inmigración de América del Norte y sugieren que las dimensiones no descubiertas de mentira variación dentro de Europa del Norte. La estructura capturado por el PCA de todo el genoma también se encontró dentro de los individuos de control y no refleja la variación de casos y controles presentes en los datos. El PCA de todo el genoma destacó tres regiones de LD local, que corresponde al gen de lactasa (LCT) en el cromosoma 2, el sistema de antígeno leucocitario humano (HLA) en el cromosoma 6 y a un polimorfismo de inversión común en el cromosoma 8. Estas características no comprometían la eficacia de los ordenadores de este análisis para el control de la ascendencia. Este estudio concluye que, aunque los grupos objetivos son una forma rentable de capturar estructura de la población, los datos de todo el genoma deben usarse preferentemente cuando esté disponible

Visto:. Raska P, E Iversen, Chen A, Chen Z, Fridley BL, Permuth-Wey J, et al. (2012) Estratificación Europea americana en ovárico Datos de Control Caso Cáncer: La Utilidad de todo el genoma de datos para inferir linaje. PLoS ONE 7 (5): e35235. doi: 10.1371 /journal.pone.0035235

Editor: Manfred Kayser, Erasmus University Medical Center, Países Bajos

Recibido: 28 Junio, 2011; Aceptado: March 13, 2012; Publicado: 9 Mayo 2012

Derechos de Autor © 2012 Raska et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Financiación:. El genotipado para la etapa 1 fue apoyada por R01-CA-114343 y R01-CA114343-S1. El estudio se apoya en MAY0 R01-CA-122443 y P50-CA-136393 y la financiación de la Fundación Mayo. El estudio se apoya en NCO R01-CA-76016. El estudio se apoya en TBO R01-CA-106414, la Sociedad Americana del Cáncer (CART-00-196-01-CCE), y la detección del cáncer avanzado centro de Grant, Departamento de Defensa (DAMD-17-98-1-8659) . El estudio TOR es apoyado por becas de la Sociedad Canadiense del Cáncer y los Institutos Nacionales de Salud (R01-CA-63682 y R01-CA-63678). La genotipificación de recursos compartidos de la Clínica Mayo es apoyado por el Instituto Nacional del Cáncer (P30-CA-15083). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción
estudios de asociación
genoma completo (GWAS) se han convertido en una herramienta esencial para el descubrimiento de la predisposición genética a la enfermedad compleja [1] - [4]. La validez de GWAS puede ser influenciada por un control inadecuado de variación de fondo de todo el genoma asociado a la enfermedad heredada. estratificación de la población (PS) se refiere a todo el genoma de los patrones de desequilibrio de ligamiento (LD) que, cuando se asocia a la enfermedad, pueden oscurecer la señal (presente o ausente) de los SNPs [5] - [9].

Aunque el efecto de confusión de la estratificación de la población ha sido reconocida, se ha considerado para ser de interés práctico sobre todo en poblaciones mezclados o mixtos con ascendencia de diferentes continentes [10], [11]. A pesar de esto, algunos autores han demostrado que incluso dentro de la población relativamente más homogénea de origen europeo, la estructura de todo el genoma todavía puede ser un problema para los estudios de asociación [12] - [15].

Los paneles de SNPs han sido diseñado para detectar y control para la estratificación de la población de origen europeo en concreto [14] - [17]. A pesar de que estos estudios han incluido una variedad de conjuntos de datos todos ellos han descrito un eje principal común de variación de ascendencia europea que consiste en un norte o noroeste - sudeste Cline. Sin embargo, estos estudios difieren en el número de dimensiones significativas de variación, en los SNPs seleccionados como marcadores informativos de ascendencia (AIMS), y en el número de los objetivos que se derivan. Por lo tanto, la decisión del panel óptima para un determinado conjunto de datos no es sencillo
.
Estos paneles AIM europeos fueron diseñados con el objetivo de proporcionar una manera rentable de controlar para la estratificación mediante la reducción de los costos del genotipo en candidato estudios de genes y estudios de validación [12], [17]. A pesar de esto, también se pueden utilizar en los estudios de asociación de genoma completo (GWAS). Aunque un análisis de componentes principales (PCA) puede llevarse a cabo en todo el conjunto de datos GWAS con el fin de controlar de ascendencia [18], lo que restringe el análisis a los objetivos pueden proporcionar una manera de evitar los efectos de los patrones de LD locales en los resultados de PCA y una manera de evitar la captura y el control de la variación de distancia de casos y controles de interés.

Este estudio compara el rendimiento de control de PS a través PCA utilizando el Paschou et al. Tiene como objetivo el panel [17] de datos (Paschou PCA) y el uso de los datos de genoma completo (GWAS PCA) en un conjunto de datos de control de casos de cáncer de ovario conjunto de estadounidenses de origen europeo en cuatro sitios diferentes de América del Norte. En particular, investigamos los efectos de la variación y la captura de las regiones de alta LD locales en la estrategia de ajuste basada PS GWAS PCA de casos y controles.

Métodos

Detalles del cáncer de ovario GWAS se publican [ ,,,0],19]. En resumen, los datos GWAS Etapa I utilizamos aquí se derivan de cuatro estudios de casos y controles de cáncer epitelial de ovario: el ovario estudio de la Clínica Mayo Cáncer (Mayo, n = 877) (Rochester, MN), que incluye a los residentes de la seis estados que rodea región (MN, IA, WI, IL, Dakota del Norte, Dakota del Sur), Estudio de cáncer de la Universidad de Duke de Carolina del Norte y de ovario (NCO, n = 1147) (Durham, Carolina del Norte), que incluye a los residentes de una región de 48 condados alrededor, la Universidad de Toronto familiar Estudio de Tumores de ovario (TOR, n = 1275) (Ontario, Canadá), y H. Lee Moffitt Cancer Center y Estudio de cáncer de Tampa Bay ovario del Instituto de Investigación (TBO, n = 396) (Tampa, FL), que incluye a los residentes de los alrededores 2 región de los condados. Todos los participantes de auto-reporte de ser de ascendencia no judía europea. Para aumentar la homogeneidad etiológico, se excluyeron los casos con tumores no epiteliales o limítrofes, conocidos
BRCA1
y
BRCA2
portadores de la mutación y mujeres con antecedentes de cáncer de ovario, de mama, de endometrio, o temprano- cáncer colorrectal inicio. Todos los controles tenían al menos un ovario intacto en la fecha de referencia y la frecuencia fueron emparejados a los casos en grupo de edad. El protocolo de estudio fue aprobado por el comité de revisión institucional en cada centro (por la IRB en la Mayo Clinic, la Universidad de Duke, en la Universidad de Toronto, y en el Centro de Cáncer Moffitt Lee) y todos los participantes en el estudio escrito el consentimiento informado.

Blood sirve como la fuente de ADN genómico. Todas las muestras fueron genotipo utilizando la matriz de Illumina Infinium 610K y el software del Genoma Studio ™ de Illumina se utilizó para llevar a cabo la agrupación automatizada genotipo y llamado. Después de que el control de calidad descrito en Permuth Wey et al [19], un tamaño de muestra de 3.715 sujetos (1.815 casos y 1.900 controles) con 559,179 marcadores estaba disponible para el análisis.

Análisis de Componentes Principales (PCA)

PCA se realizó en 4 grupos de marcadores: (1) el Paschou panel de AIM europeos (Paschou PCA), (2) todos los marcadores GWAS disponibles a partir de la matriz de Illumina 610K genotipo en este estudio (GWAS PCA), (3) todos marcadores disponibles usando controles sólo (PCA control de GWAS) y (4) todos los marcadores disponibles con la eliminación de los marcadores en las regiones de alta LD (LD GWAS PCA), utilizando el paquete de software de snpMatrix en R [20].

Dada una los datos de la matriz X con N individuos en las filas y P SNPs en las columnas, que calcula los valores propios y los vectores propios de la matriz N por N, XX
T. Los vectores propios corresponden a las puntuaciones de PC (S) que luego se pueden utilizar para calcular las cargas (B) de los SNPs para cada PC a través de la multiplicación con la matriz diagonal de los valores propios (V):

Para el control GWAS PCA, los controles sólo se utiliza para obtener B y luego los PC resultados se obtienen a través de la multiplicación de los datos de todo el conjunto de estas cargas (X
TB). Sólo los primeros 10 valores propios se conservan a lo largo de estos cálculos.

La eliminación de valores atípicos

19 controles que fueron más de seis desviaciones estándar lejos de la media de puntuación para el PC para cualquiera de los primeros 10 ordenadores fueron identificados como valores atípicos en los GWAS PCA de control. Un caso individual adicional fue identificado como un valor atípico en el GWAS PCA. Los 20 individuos fueron retirados de todos los PCA basado en los datos de todo el genoma. 1881 controles y 1814 casos fueron dejados a partir del conjunto de datos original de 1900 y 1815 controles de los casos, para un total de 3695 individuos.

Eliminación de LD Regiones

Las regiones de LD se definieron mediante la inspección visual saturaciones en las parcelas de los PCs individuales y la identificación de dos SNPs que el pico entre corchetes en su totalidad. Todos los SNPs en esta región se eliminaron con la excepción de un SNP central con una carga extrema, también identificados a través de la trama. Fuera de los SNPs 559,179 disponibles en los datos de GWAS, 553.601 fueron seleccionadas para la PCA LD GWAS.

Pruebas de Asociación

Las pruebas de asociación de cada uno de los SNP de cáncer de ovario se llevaron a cabo utilizando un generalizado modelo lineal que incluyó como covariables PC con el efecto SNP modelan como un ordinal (log-aditivo) efecto genotípico. Los factores de inflación se estimaron por la relación de la media recortada observado a su valor esperado bajo la hipótesis de chi-cuadrado. pruebas de asociación de los PCs a sitio y la enfermedad se llevaron a cabo a través de regresión lineal múltiple implementado en R. Cada PC se empezó en el estado de la enfermedad y el sitio.

MLE and Price et al. AIMs Panel

en sirvieron, se utilizó la estimación de máxima verosimilitud para determinar las estimaciones para el noroeste de Europa, el sureste de ascendencia judía ashkenazi Europea y basado en un panel de AIM Europea additonal por Price et al [16].

resultados

componentes principales

se han comparado los PCs GWAS y Paschou sobre la base de sus correlaciones entre sí, sus asociaciones con la enfermedad de control para el sitio y su impacto en factor de inflación, donde nos basamos en su asociación con el sitio como sustituto de su relevancia a la ascendencia. La correlación entre el primer PC (es decir PC1) de la PCA y de la Paschou GWAS PCA era 0,79. Este primer PC correspondió al eje noroeste-sudeste de la variación que la Paschou et al panel fue exclusivamente diseñado para capturar. Un análisis por separado a través del panel de Price et al confirmó esto (véase la figura 1) [16]. Aunque ambos PC1s están asociados al sitio, GWAS PC1 tenía p-valores más significativos (véase el cuadro 1) y se corrige para el factor de inflación mejor que Paschou PC1 (ver tabla 2). Del mismo modo, una vez que se tomaron en cuenta las diferencias de sitio, solamente GWAS PC1 proporcionan evidencia de una asociación entre el primer eje de variación ancestral europeo y americano de cáncer de ovario.

azul, puntos verdes y rojas representan las personas con las estimaciones más altas de noroccidental, sudoriental y ascendencia judía Ashkenazi respectivo análisis de MLE con Price et al. AIMS panel.

GWAS PCA estructura ancestral adicional también capturado. PC2 GWAS en la figura 1 muestra la estructura dentro de los individuos con la Northwestern ascendencia que no es aparente en Paschou PC2. Los screeplots tanto para PCA (véase la figura S1) mostraron que, en contraste con la Paschou PCA donde sólo PC1 reside claramente antes de que el codo en la trama, un criterio utiliza a menudo para inferir que la varianza explicada por el PC es mayor que la esperada por casualidad los PCs GWAS solamente comenzaron a estabilizarse en alrededor del 20
ª PC. Esta estructura additonal se corroboró mediante la exploración de los primeros 100 PCs y su asociación con el sitio. Incluyendo todas las comparaciones por pares sitio, el mayor significación se limita a los primeros 20 PCs (ver figura S2). Limitar el análisis a los primeros 10 PCs, ordenadores sólo 1,3 y 4 se asociaron significativamente tanto a sitio y el cáncer de ovario (ver figura 2), mientras que PC2 no se asoció con cáncer de ovario o de sitio. Esto sugiere que las PC 1, 3 y 4 de mayo todas las cuentas para las dimensiones de variación ancestral que tienen el potencial para las pruebas de ovario confusión asociación de casos y controles de cáncer. El efecto de retener las 4 primeras PCs en el factor de inflación también es compatible con este hallazgo ya que el factor de inflación fue considerablemente menor que cuando sólo se utiliza PC1 GWAS o incluso los primeros 10 PCs (ver figura 3).

P-valores para todas las comparaciones por pares entre los cuatro sitios están dadas.

Los primeros 10 ordenadores obtenidos a través Paschou PCA, GWAS de control ACC, ACC y GWAS GWAS LD PCA se utilizan como covariables en las pruebas de asociación de todo el genoma para cáncer de ovario. Tenga en cuenta que el panel Paschou fue diseñado para capturar un solo PC significativa.

GWAS control

El hecho de que los GWAS PC1 está más fuertemente asociada al cáncer de ovario que Paschou PC1 y que produce una reducción más eficaz en el factor de inflación puede llevar a creer que GWAS PC1 puede capturar la variación de casos y controles y reducir el poder de la GWAS. Lo mismo podría argumentarse para los PCs adicionales asociados con el cáncer de ovario. Con el fin de probar esto, se realizó un PCA utilizando sólo los individuos de control (GWAS PCA de control) en la que se obtuvieron los valores de los casos de PC como se describe en Métodos.

A pesar de que los PC 1 y 2 del PCA control fueron GWAS muy altamente correlacionados con sus homólogos de los GWAS PCA (ρ & gt; 0,9), PC 3 y 4 también se correlacionaron, aunque en menor grado (ρ & gt; 0,6, véase el cuadro 3). Una combinación lineal de GWAS PCs de control 3 y 4 explicó 68,9% de la variación en GWAS PC 3 y 68,7% de la variación en GWAS PC 4, por lo tanto, había una redistribución de la varianza de GWAS PCs 3 y 4 a través de varios de GWAS de control de PCs.

Figura 3 demuestra que los factores de inflación obtenidos al ajustar por los PC de control GWAS muestran el mismo patrón que los obtenidos al ajustar por GWAS PC, pero son sistemáticamente inferiores, lo que indica que las primeras proporcionan una menos efectiva corrección para PS. En ambos casos el factor de inflación se redujo considerablemente por los PC 1, 3 y 4. Si este último logra mediante la captura de variación de casos y controles, estos ejes de variación no se habrían identificado en el PCA utilizando sólo los controles. Las reducciones más pequeñas al factor de inflación observada para los ajustes de control de GWAS es probablemente debido al tamaño de la muestra más pequeña es la de control de PCA GWAS (n = 1,814 vs. n = 3695). La reducción en el índice de inflación alcanzado mediante la adición de GWAS PC5 control puede explicarse por su correlación (ρ = 0,3) para GWAS PCA PC3.

A continuación, se compararon los efectos del ajuste para los primeros 4 PCs de los dos PCA en los valores de p para las asociaciones de SNP a cáncer de ovario en todo el genoma. Si el GWAS PCA fueron capturando la variación de casos y controles, la fuerza de asociación de la mejor clasificado SNPs del control GWAS análisis ajustado se reduciría o controlada de distancia mediante el análisis ajustado GWAS PCA. En su lugar, se observó que los SNPs más significativos en el análisis de control de GWAS PC ajustado siguieron siendo los más importantes SNPs en el análisis ajustado PC GWAS (véase el panel derecho de la figura 4).

p-valores logaritmo negativo de la parte superior éxitos de la asociación de cáncer de ovario después de controlar el uso de ascendencia primeros 4 PCs de PCA de control GWAS en comparación con no controlar por ascendencia (panel izquierdo) y el control de un ancestro usando 4 primeras PCs de GWAS PCA (panel derecho).

la figura 4 también muestra que los GWAS corregido para los mejores éxitos en
de la misma manera como el control
GWAS. El SNPs cuyo valor p cambió el más si se compara con una prueba de asociación sin corregir se destacan en rojo. Los SNPs que cruzan la línea de identidad desde el panel izquierdo al panel derecho son aquellos cuya fuerza de asociación se corrige en el mismo sentido por los dos juegos de PC y cuya corrección es más fuerte el uso de los PC GWAS. SNPs que son más distantes de la línea de identidad en el panel de la derecha que en la izquierda que no lo atraviesan son aquellos cuya fuerza de asociación cambia en un diferentes direcciones cuando adusting para un conjunto de ordenadores frente a la otra. Tres de los seis SNPs que cambió el más al ajustarse según las PCs de control GWAS fueron corregidas de manera más eficaz por los PCs GWAS. Un SNP recibió aproximadamente el mismo nivel de corrección y dos fueron corregidos en la misma dirección, pero no tanto en el análisis ajustado GWAS como en el análisis de control ajustado GWAS. Ninguno de los SNPs se corrigió en direcciones diferentes entre los dos grupos de análisis.

Además del efecto sobre los valores de p para golpear la parte superior SNPs, una comparación de la corrección de todo el genoma de los dos circuitos modulares pueden también ser hecho. La correlación entre los valores de p para todos los SNPs entre las pruebas de asociación no corregidas y corregidas a través de los GWAS PCA fue 0,922, entre el control sin corregir y GWAS era 0,958, y entre el GWAS y GWAS controlar PCA fue 0,983. Si GWAS PCA se den cuenta de la variación de casos y controles en todo el genoma, y ​​por lo tanto la corrección de una manera cualitativamente diferente al control de los GWAS, sus p-valores resultantes habrían sido más estrechamente correlacionado con el análisis sin corregir en lugar de a las de control de GWAS.

Vinculación desequilibrio

los gráficos de las cargas de SNP individuales para GWAS PC 1 a 4 destacado tres regiones de alta LD local. Estos aparecen como picos en los cromosomas 2, 6 y 8 (ver figura 5). Estas mismas regiones eran evidentes para los PC de control GWAS. Estas parcelas revelan que los ejes de variación definidos por los PC 3 y 4 de los circuitos modulares de control GWAS y GWAS se intercambian, con GWAS PC3 de control que muestra el pico pronunciado en el cromosoma 8 que es evidente en la trama de GWAS PC4.

GWAS PCA (panel izquierdo) y GWAS PCA de control (panel de la derecha) se representan las cargas que muestra picos en el cromosoma 2, 6 y 8.

GWAS cargas PC1 pico en ambos cromosomas 2 y 6. El pico en el cromosoma 2 corresponde a una región que contiene rs4988235 SNP. Este SNP es un polimorfismo conocido en la LCT gen, asociado con persistencia de la lactasa. Alelo T de este SNP está asociado con la inclinación del Norte-Sur dentro de Europa, con una frecuencia de 5.10% en el sur de Europa y del 70-80% en el norte de Europa [21]. El pico en el cromosoma 6 corresponde a la región principal de histocompatibilidad (HLA), una región conocida con alta LD [22]. GWAS cargas PC2 también tienen un pico pronunciado en la región HLA. PC3 y PC4 cargas tienen picos en el cromosoma 8 en una región con una inversión polimórfica previamente documentado en el origen europeo ,, [23-25]. A pesar de la inversión de las regiones HLA y parecen ser muestreado más densamente en el genoma en todo el SNP panel Illumina que otras regiones de estos cromosomas, esto por sí solo no da cuenta de la magnitud de los picos (ver tabla 4). En particular, el cromosoma 8 contiene otros 7 regiones del mismo tamaño o más pequeña que la región de inversión que son igualmente o más densamente muestreada por SNPs en el panel, mientras que los primeros 1 k SNPs que comprenden el pico en la región de HLA tienen el mismo promedio densidad que el resto del cromosoma 6.

Si bien no hubo evidencia de estructura relevante cáncer de ovario en los datos en ordenadores GWAS 1 a 4, las saturaciones en sus parcelas mostró que la LD local puede ser la base de esta estructura. Se realizó un PCA adicional (GWAS LD PCA) en el que sólo el SNP con la más alta carga fue contratado para representar a cada una de las regiones de LD (ver tabla 4) para determinar si estas regiones afectan a la capacidad de estos ordenadores para corregir la enfermedad en cuestión PS .

el GWAS PC1, PC3 y una fracción de los ejes PC4 GWAS de variación fueron retenidos en gran medida por la GWAS LD PCA, mientras que el eje de variación PC2 se pierde (ver tabla 3). GWAS LD PC2 captura variación descrita por los dos GWAS PC 3 y 4. Por lo tanto, el gen LCT cromosoma 2 y el cromosoma 8 de inversión aparecen regiones que deben correlacionarse con componentes ancestrales de la población estadounidense Europea, representada por los PC GWAS 1, 3 y 4. En contraste el GWAS LD PCA proporciona evidencia de que la región HLA no se asoció significativamente con PS ascendencia europea en todo el genoma. Una gran parte de la variación descrita por GWAS PC2 puede por lo tanto ser local en lugar de, la variación ancestral de todo el genoma. Esto puede explicar por su falta de asociación con el sitio.

regiones LD Adelgazamiento GWAS PCA dio lugar a un control menos efectivo del factor de inflación (ver figura 3). Sólo los 2 primeros PCs de GWAS LD, que corresponden aproximadamente a GWAS PC 1, 3 y 4, bajaron el factor de inflación. PC1 reduce el factor de inflación en la misma medida con y sin adelgazamiento de SNPs en la región de LD LCT, mientras que el ajuste de los PC 3 y 4 reducido el factor de inflación más cuando no se diluyó la región LD cromosoma 8.

Ancestral GWAS PC y PC Asociación para estudiar sitio

GWAS 1, 3 y 4 son cada uno altamente asociado significativamente con el sitio de estudio después del ajuste para el estado de casos y controles (véase el cuadro 5). Cada PC identifica un claro contraste entre los sitios. El sitio de Mayo (MAYO) tiene los valores más bajos PC1 y Tampa (TBO) la más alta, en promedio; Toronto (TOR) y Carolina del Norte (NCO) son intermedios y no discerniblemente diferente. Los sitios tienen valores medios distintos de PC3 después del ajuste para el estado de casos y controles, y están clasificadas (de menor a mayor valor) NCO, TOR, a continuación, MAYO TBO. PC4 contrasta mayo y los sitios restantes que no son discerniblemente diferentes entre sí.

Una parcela de PC1 contra PC3 muestra que la variación representada por PC 3 estaba dentro de los individuos de ascendencia europea del Noroeste (véase la figura S3) . También muestra que PC 3 varía claramente a través de sitios. No sólo MAYO muestran una tendencia hacia PC 3 valores más positivos en comparación con los otros sitios, pero NCO mostró una variación intervalo más estrecho para este PC en comparación con los otros sitios. PC 1 TBO mostró ser el sitio con más de una representación de los europeos del sudeste, mientras MAYO tenía la menor.

Discusión

A pesar de que la información proporcionada por todos los SNPs genotipo en un genoma en todo el panel puede ser utilizado para controlar estructura de la población a través de PCA, utilizando un panel AIMs prediseñado más pequeño puede ser pensado para conferir ciertas ventajas. En primer lugar, el control de la estratificación utilizando los datos de GWAS puede reducir indeseablemente la variación de casos y controles que el estudio busca identificar, mientras que la probabilidad de que un panel de objetivos se contempla enfermedad asociada SNPs es remota. En segundo lugar, las correcciones basadas en los datos de GWAS un-adelgazada puede resaltar la estructura local en lugar de, la variación ancestral de todo el genoma y, por lo tanto, comprometer la eficacia del control de PS. Tiene como objetivo paneles excluyen deliberadamente redundancias entre los SNPs y por lo tanto evitan este problema. Estos potenciales desventajas de las correcciones basadas en GWAS se pueden componer en poblaciones con estructura de todo el genoma más sutil y más fuertes patrones de LD local, como la población americana europea
.
Hemos encontrado que estos inconvenientes no se realizaron en nuestro análisis de los datos sobre el cáncer de ovario GWAS. En particular, se encontró que un GWAS PCA completo recapitula la estructura presente en los individuos de control y por lo tanto no estaba capturando una cantidad significativa de la variación de casos y controles. Esto no es sorprendente ya que la variación de casos y controles, tanto como local, en todo el genoma rara vez será lo suficientemente grande como para superar a las fuentes de todo el genoma de variación de la población en un PCA. Esto y los factores de inflación redujo significativamente en comparación con los obtenidos mediante el panel de Paschou sugiere que la asociación con el cáncer de ovario encontrado para PCs GWAS 1, 3 y 4 representan una corrección real para PS incluso teniendo en cuenta el hotel, uno que es probable que se deba a la que ofrece una mayor precisión mediante el uso de todo el conjunto de datos GWAS. Tenga en cuenta que sólo 460 de los 500 marcadores del panel Paschou estaban disponibles para nosotros en el cáncer de ovario GWAS conjunto de datos, lo que reduce su poder un tanto. Sin embargo, con frecuencia será el caso cuando se utiliza un panel de AIM pre-diseñadas para el control de estructura de la población en un análisis GWAS
.
peligros potenciales de no tener en cuenta el efecto de las regiones de alta LD locales en el control de PS utilizando PCA se puede clasificar en dos escenarios: (1) la variante funcional se encuentra fuera de estas regiones; en este caso los PCs que sólo representan la variación en estas regiones no controlará con eficacia para PS, es decir, el factor de inflación no es suficientemente baja, y (2) la variante funcional se encuentra dentro de dicha zona; en este caso los PCs que representan estrictamente la estructura local de esa región puede controlar la asociación de distancia, es decir, el factor de inflación se baja demasiado. Aunque en este estudio las regiones de alta LD locales cambiaron los resultados de la GWAS PCA, las implicaciones prácticas de esta prueba sobre SNP asociación con el cáncer de ovario eran cuestionables.

Sólo GWAS PC2 calificaron como un ejemplo de este primer fenómeno . Su desaparición en GWAS PCA LD y su falta de impacto en el factor de inflación y de asociación de enfermedad muestran que representa principalmente la estructura local en la región HLA y sugiere que las variantes funcionales son poco probable que se encuentran dentro de esa región. A pesar de que la región HLA LD contenía suficiente variación de tener en consideración para un PC de alto rango, el efecto de incluir esta PC cuando se controla por la estratificación no es muy diferente de la de incluir cualquier número de ordenadores no informativos cuando se toman rutinariamente los primeros 10 ordenadores como covariables (ver figura 3). ¿Cuál de los PCs de alto rango para incluir como covariables en el análisis de asociación y cuántos de ellos para incluir puede tener más de un impacto en el control del factor de inflación de la eliminación de los efectos de las regiones de LD en la PCA.

Hicimos no observar un ejemplo de la segunda fenómeno se ha indicado anteriormente en este conjunto de datos. En cambio, los ejes de variación descrita por los PCs que resultaron estar asociados con la enfermedad (PC GWAS 1, 3 y 4) fueron retenidos en un grado considerable cuando se apretó las regiones de alta LD local. Esto sugiere que aunque estos PCs muestran una alta correlación con las regiones de LD locales y estas regiones pueden potencialmente albergar variantes funcionales, los PCs representan estructura real, ancestral, en todo el genoma y no sólo la variación dentro de la región LD
.
Uso de la esquizofrenia datos de GWAS en estadounidenses de origen europeo, Zou et al. encontrado las mismas regiones de LD como el estudio actual, y un pico adicional en el cromosoma 17. El uso de un método de contracción para controlar los efectos de LD en PCA, encontraron que todos los picos desaparecen con la excepción de la región máxima de LCT. Concluyen que es importante para tener en cuenta LD utilizando PCA para el control de PS [25]. No proporcionaron las correlaciones entre los PCs con y sin su método de contracción. Es plausible que, al igual que en el estudio actual, los dos juegos de PC 3 y 4 están altamente correlacionados y que la región de inversión polimórfica no tiene un efecto práctico sobre el control de la ascendencia.

estratificación de la población varía de un estudio para estudiar en función de las características de la población de estudio y la enfermedad y por lo tanto puede argumentarse que los resultados presentados aquí son específicos para este estudio. Sin embargo, las poblaciones de ascendencia europea, como la estudiada aquí son particularmente homogénea y de casos y controles o variación LD local será

menos propensos a eclipsar variación de la población ancestral que utilizando datos de la ONU-adelgazado GWAS para la PCA, en los estudios de menos homogéneas en las poblaciones, como las que reúnen a los sujetos de diferentes ancestros continentales y /o que se centran en las poblaciones mezcladas. En conclusión, se recomienda que el uso de un análisis cuidadoso de la PCA conjunto completo de datos se lleva a cabo antes de decidir cómo controlar para PS. El uso de los ordenadores de un GWAS PCA completo puede proporcionar un mejor control para el PS y el resultado en un factor de inflación más baja. Un beneficio adicional es que este tipo de análisis puede contribuir a detectar y eliminar los valores aberrantes y las personas relacionadas o que no pueden ser detectados a través de otros procedimientos de evaluación /calidad de control de calidad. En este estudio, los valores atípicos sacamos influidas significativamente los PCs de los análisis de control de GWAS original y resultó contener individuos relacionados perdidas por los filtros de control de calidad anteriores.

Debe señalarse que el panel Paschou hizo muy bien en la captura una gran proporción de la PS para un pequeño número de SNPs tales. De hecho, en un trabajo más reciente los investigadores detrás de la demostración del panel Paschou que es posible predecir ascendencia individual dentro de Europa hasta unos pocos cientos de kilómetros de distancia del origen, el uso de paneles de 500 o 1.000 SNPs [26]. Estos paneles son una gran herramienta para las personas de manera rentable genotipado con fines de control del PS. Lo que este estudio desea subrayar es que a pesar de esta eficacia, en la presencia de datos completa GWAS no debemos tener la tentación de confiar únicamente en un número tan reducido de SNPs al proceder a la PCA.

Es interesante notar que la asociación entre PCs GWAS 1,3 y 4 y la enfermedad persiste incluso después de tener en cuenta diferencias de sitio (véase el cuadro 5). Teniendo en cuenta estas diferencias de sitio elimina esa parte de la falsa asociación entre la enfermedad y la ascendencia que se debe a las diferencias en el número relativo de casos y controles que fueron reclutados a través de sitios, junto con incluso las diferencias sutiles en la ascendencia en todos los sitios. Lo que queda entonces debe ser causado por diferencias dentro del sitio en ancestrales de maquillaje entre los casos y controles, debido a la variación del muestreo. Lo que es notable aquí es que esta diferencia dentro de sitio en la ascendencia entre los casos y los resultados de los controles en una señal significativa persistente cuando todos los sitios se agrupan juntos. Esto significa que, o bien la diferencia de ascendencia entre casos y controles se produjo en la misma dirección por casualidad en cada sitio o que esta diferencia en la ascendencia era tan pronunciado en uno de los sitios que ahogado lo que ocurrió en los sitios restantes. Otra posibilidad es que la asociación entre la enfermedad y la ascendencia no es espurio pero real, explicando así su dirección consistente en todos los sitios.

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]