Extracto
Pathway análisis se ha propuesto como un complemento a un solo análisis de SNP en GWAS. Este estudio comparó la vía métodos de análisis utilizando dos conjuntos de datos GWAS cáncer de pulmón basado en cuatro estudios: uno de un conjunto de datos combinados procedentes de Europa Central y Toronto (CETO); el otro, un conjunto de datos combinados de Alemania y el MD Anderson (GRMD). Se realizaron búsquedas en la literatura para los métodos de análisis de ruta que fueron ampliamente utilizados, representativos de otros métodos, y tenía el software disponible para la realización de análisis. Elegimos el EASE programas, que utiliza un cálculo exacto pescadores modificados de prueba para las asociaciones de la vía, GenGen (una versión del conjunto de genes de enriquecimiento de análisis (GSEA)), que utiliza un Kolmogorov-Smirnov-como suma corriente estadística como la estadística de prueba, y LAMA, que utiliza un enfoque de combinación p-valor. También incluimos una versión modificada del método SUMSTAT (mSUMSTAT), que pone a prueba para la asociación promediando χ
2 estadísticas de pruebas de asociación genotipo. Hubo cerca de 18.000 genes disponibles para el análisis, siguiendo el mapeo de más de 300.000 SNPs de cada conjunto de datos. Estos fueron asignadas a 421 GO nivel 4 conjuntos de genes para el análisis de la vía. Entre los métodos diseñados para ser resistentes a los sesgos relacionados con el tamaño de genes y la vía SNP correlación (GenGen, mSUMSTAT y LAMA), el enfoque mSUMSTAT identificado las vías más importantes (8 en CETO y 1 en GRMD). Esto incluyó una asociación altamente plausible para la actividad de la vía del receptor de acetilcolina en tanto CETO (FDR≤0.001) y GRMD (FDR = 0,009), aunque dos señales de asociación fuertes en un solo grupo de genes (
CHRNA3-CHRNA5-CHRNB4
) conducir este resultado, lo que complica su interpretación. Pocas otras asociaciones replicadas se encontraron utilizando cualquiera de estos métodos. Dificultad en las asociaciones que se replican obstaculizado nuestra comparación, pero los resultados sugieren mSUMSTAT tiene ventajas sobre los otros enfoques, y puede ser una herramienta de análisis de la vía útil para usar junto con otros métodos tales como el método GSEA de uso común (GenGen).
Visto : Fehringer G, Liu G, Briollais L, P Brennan, Amos CI, Spitz MR, et al. (2012) Comparación de la Rama de Análisis de estrategias que usan el cáncer de pulmón de datos GWAS Sets. PLoS ONE 7 (2): e31816. doi: 10.1371 /journal.pone.0031816
Editor: Zhongming Zhao, Universidad de Vanderbilt Medical Center, Estados Unidos de América
Recibido: 27 Julio, 2011; Aceptado: January 13, 2012; Publicado: 21 Febrero 2012
Derechos de Autor © 2012 Fehringer et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este estudio con el apoyo de la Sociedad canadiense del cáncer (subvención. no 020214), el Presidente de CCO en estudios de población, CCO Cátedra de Terapéutica Experimental, la silla de Brown Alan en Molecular Genómica, y el Instituto Nacional de Salud (U19 CA148127-01). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
Genoma amplia estudios de asociación (GWAS) examinan la asociación de cientos de miles de variantes genéticas con enfermedades u otros fenotipos. Estos estudios han identificado con éxito asociaciones entre variantes genéticas y los resultados, tales como asociaciones entre SNPs en el riesgo 15q25 y 5p región y el cáncer de pulmón [1], [2], [3], [4], [5], [6] . GWAS de cáncer de pulmón y otras enfermedades en general, identificar sólo unos pocos SNPs que están asociados con la enfermedad y estos por lo general tienen pequeños tamaños del efecto. Por ejemplo, la relación de probabilidades por alelo para las variantes que implican genes de los receptores de acetilcolina en 15q25 con el riesgo de cáncer de pulmón es de aproximadamente 1,3 [1], [2], [5]. SNPs con efectos más débiles podrían ser frustrada, a los estrictos requisitos necesarios para el ajuste para comparaciones múltiples.
Pathway análisis se ha propuesto como un enfoque complementario al único SNP en análisis GWAS. Grupos de análisis de vías genes que están relacionados biológicamente y comprueba si estos grupos de genes están asociados con el resultado. Aunque el resultado asociado con la variación en muchos genes puede ser demasiado pequeño para detectar en GWAS usando análisis único SNP, las asociaciones se pueden detectar desde el efecto conjunto de muchas señales más débiles en genes agrupados en un camino basado en la función biológica compartida. Otros beneficios de este enfoque son la reducción sustancial de la carga de múltiples ensayos vez los genes se agrupan en las vías de la asociación de ensayo [7] y la incorporación de los conocimientos biológicos en el análisis, que no se contabiliza en los GWAS.
El número de métodos desarrollados para el análisis de la vía sigue aumentando. Muchos programas en línea ofrecen un enfoque de enriquecimiento conjunto de genes simple que utiliza algún tipo de prueba exacta de Fisher para determinar el exceso de representación de los genes dentro de una vía. Generalmente, un gen se le asigna un valor P (generalmente obtenida del SNP más fuertemente asociado con el resultado de un gen) y un corte arbitrario (por ejemplo, P £ 0,05) se utiliza para separar los genes fuertemente asociados con el resultado de otros genes . Un cálculo exacta de Fishers se utiliza a continuación para poner a prueba en el plazo de vía de enriquecimiento de genes fuertemente asociada con el resultado. Este enfoque no tiene en cuenta los patrones de desequilibrio de ligamiento entre los SNPs en diferentes genes en la vía. Además, se puede sobreestimar la importancia de las vías con grandes genes (es decir, muchos SNPs), ya que la selección de la SNP más importante cuando hay muchos SNPs en es más probable encontrar una fuerte asociación entre el gen y el resultado por un solo gen oportunidad [8], [9].
el enfoque popular GSEA utiliza generalmente el SNP más fuertemente relacionado con el desenlace en cada gen representación de las asociaciones de genes en los resultados. Algunas implementaciones tienen en cuenta el desequilibrio de ligamiento entre los SNPs y el sesgo de tamaño gen mediante la realización de fenotipo (casos y controles) permutaciones y el uso de rutinas de normalización. Los genes se clasifican en primer lugar por el tamaño de su estadística de prueba para la asociación con el resultado. Una estadística de Kolmogorov-Smirnov-como suma corriente se utiliza para probar para el enriquecimiento de los genes altamente clasificados dentro de las vías, mediante la comparación de la estadística de prueba vía a su nula distribución según lo determinado por las permutaciones fenotipo [9], [10]. Otros enfoques, por ejemplo, el enfoque SUMSTAT que utiliza la suma de χ
2 estadísticas asignadas a los genes como una prueba estadística vía [11], se pueden adaptar para utilizar permutaciones fenotipo y métodos de normalización. Las alternativas a estos enfoques de enriquecimiento conjunto de genes, como los métodos de combinar los valores de P (similares a los meta-análisis), también se han propuesto para el análisis de la vía. Algunos de ellos, incorporan la metodología que tiene en cuenta el sesgo potencial relacionado con el tamaño del gen o correlación entre los SNPs [12], [13].
Se comparan cuatro métodos de análisis de ruta. Estos incluyen un enfoque de genes de enriquecimiento simple en EASE, que calcula una pescadores modificados exacta de probabilidad [14], GSEA (utilizando el programa GenGen) [9], [10], un enfoque SUMSTAT modificado, y DUELAS, un enfoque de combinación de valor P [12]. El primer método es representante de los enfoques más simples principios que utilizan la prueba exacta de Fisher, mientras que los otros, como se indica más arriba, son más sofisticados y diseñados para hacer frente a los sesgos relacionados con el tamaño de genes y de desequilibrio de ligamiento entre los SNPs. Nos comparar y contrastar los resultados de los análisis que utilizan estos métodos en los dos conjuntos de datos GWAS cáncer de pulmón.
Materiales y Métodos
Muestras
Los datos se utiliza de casos y controles de GWAS el riesgo de cáncer de pulmón. Estos casos de cáncer de pulmón incluidos y los controles del centro de Europa [2], Toronto [2] y Alemania (estudio HGF) [15], [16] y no pequeñas de los casos de cáncer de pulmón de células y controles de Texas (MD Anderson Cancer Centre) [ ,,,0],1]. La genotipificación se realizó utilizando el HumanHap300 Illumina o virutas HumanHap550. Los datos de los cuatro estudios se combinaron en dos conjuntos de datos: 1) Europa Central y Toronto (CETO); y 2) Alemania y Texas (GRMD), con el fin de alcanzar el tamaño adecuado de la muestra y el poder estadístico para detectar asociaciones en los análisis de la vía. La elección de qué conjuntos de datos para combinar se hizo predominantemente para asegurar tamaño de las muestras similares en los dos análisis independientes. La Tabla 1 proporciona detalles adicionales relacionados con estos estudios.
Selección de métodos de análisis de vías
métodos de análisis de vías, se identificaron a través de revisión de la literatura. Métodos implementados en los programas EASE [14], GenGen (desarrollado a partir de GSEA) [9], [10], y Lámina [12] fueron escogidos porque fueron ampliamente utilizados y /o representativos de otros enfoques de análisis de ruta. Elegimos el método SUMSTAT sobre la base de un informe que indica que tenía un poder superior para detectar asociaciones trayectoria que el GSEA o Fishers Métodos exactos [11]. Por este método se desarrolló un programa SAS en el local. Se describen los métodos aquí brevemente, con los detalles proporcionados en las publicaciones originales.
Descripción de los métodos de análisis conjunto de genes
Con la excepción de la lama, los métodos de análisis de vías descritas aquí requieren la asignación de un estadístico de prueba (o valor P) para cada gen que representa su asociación con el resultado. Se utilizó la práctica común de la asignación de cada gen la prueba estadística más significativa de todas las pruebas de las asociaciones de SNP para el gen [8], [9].
Entrada para EASE requiere que los genes asociados significativamente con el resultado se distinguen de todos otros genes, utilizando un pre-especificado de corte (por ejemplo, P £ 0,05). Enriquecimiento de genes importantes en cada vía se prueba a continuación, utilizando la puntuación EASE, un pescadores modificados probabilidad exacta que representa el límite superior de la navaja de bolsillo Fisher probabilidades exactas. Los FDR globales se calculan para dar cuenta de las comparaciones múltiples [14].
GenGen es una adaptación del conjunto de genes de enriquecimiento de análisis (GSEA), utilizado originalmente para el análisis de microarrays [17]. Los genes están clasificados en orden descendente de acuerdo con el tamaño de la estadística inicial de la asociación. Un ponderada de Kolmogorov-Smirnov-como suma corriente estadística se calcula entonces que refleja sobre la representación de los genes de mayor puntuación en una vía en la lista de genes. El peso toma los valores de la estadística de prueba SNP representación de los genes en la lista. Una estadística de enriquecimiento normalizada (NER) se calcula para los datos observados, seguido de permutaciones fenotipo que dan valores NER permutados, la creación de la nula distribución de la que se determinan la asociación vía de los valores de p. FDR se utilizan para dar cuenta de las comparaciones múltiples [9].
El enfoque SUMSTAT modificado (mSUMSTAT), que hemos desarrollado, es una adaptación de Tintle et al. [11]. El enfoque es similar a la utilizada en GenGen pero la estadística de prueba vía se calcula promediando χ
2 pruebas estadísticas dentro de cada vía. La ecuación siguiente muestra el cálculo del valor medio normalizado de la observada χ
2 estadística, donde S se refiere a un conjunto de genes específicos y π indica la permutación. La estadística permutado normalizada se calcula de la misma manera.
El valor p se determina comparando el valor medio normalizado de la χ
2 Estadística de las permutado media normalizada χ
2 estadísticas [18] y un FDR se calculó de acuerdo con Wang et al. [9]. Este método es muy diferente a la de Tintle et al., [11] a través del cálculo de una estadística de prueba normalizado, y el uso de permutaciones fenotipo en lugar de genes seleccionados al azar establece para determinar la distribución nula.
El programa calcula SLAT P-valores para la asociación de SNPs con el resultado de un camino definido (como en este estudio), gen o región. P-valores que alcanzan un umbral específico se combinan en una prueba estadística. La estadística se calcula para los datos observados y permutado fenotipo que permite la determinación de una ruta P-valor [12]. No método en particular para el ajuste para comparaciones múltiples es proporcionado por los autores. (Utilizamos el Benjamini-Hochberg corrección para calcular FDR para este método).
Detalles del análisis
SNPs fueron excluidos cuando el valor P para HWE en los controles fue ≤0.001 (en consonancia con la vía anterior estudios de análisis [9], [11]), la frecuencia del alelo menor fue & lt; 1%, y el genotipo faltaba en & gt; 5% de los individuos. Además, los SNP del chip HumanHap550 que se utilizaron en la GWAS alemán fueron excluidos si no había SNP correspondiente del MD Anderson (el estudio con el que se combinó datos de GWAS alemán) .Subjects con discrepancias sexuales (basado en la tasa de heterocigosidad en el cromosoma X ) y los que tienen & gt;. se excluyeron 10% SNPs que faltan
regresión logística incondicional, utilizando PLINK 1,05 [19] generado alélica χ
2 valores para SNPs para cada conjunto de datos, CETO y GRMD, para su uso en los programas EASE, GenGen y mSUMSTAT. Se generaron permutados resultados de la asociación de SNP para GenGen y mSUMSTAT usando regresión logística 1000 funciona con el estado de casos y controles en orden aleatorio para cada ejecución. Análisis de regresión logística se ajustaron por sexo, edad y país de origen. El programa SLAT a cabo sus propias pruebas de asociación de SNP por su vía de análisis, que no incluye ajuste de las covariables.
SNPs fueron asignados a un gen si fueran un plazo de 20 kb del gen. Un SNP de genes que une archivo y GO nivel 4 archivo de base de la vía, ambos obtenidos de la página web GenGen, se utiliza para vincular SNP, los genes y las vías. Sólo se incluyeron las vías con 15 a 200 genes de evitar los ensayos excesivamente grandes o pequeñas vías GO [6]. La χ
2 del SNP en el gen más significativo fue asignado a ese gen. Este χ
2 estadística se utilizó para asignar el valor de corte de P £ 0,05 para identificar los genes fuertemente asociados para el análisis con facilidad. Las mismas χ
2 estadística se utilizó en el cálculo de las estadísticas de prueba vía para GenGen y mSUMSTAT. Todos los SNPs en cada gen se utilizaron como insumo para el cálculo de los valores de p de la vía para lama de
La influencia del tamaño del gen en el ranking de la vía de los métodos de análisis de cuatro de la vía se investigó mediante análisis de regresión lineal (SAS 9.2.: SAS Institute Inc., Cary, Carolina del Norte). tamaño gen Mediana (mediana del número de SNPs por gen) se calculó para cada vía de la parte superior e incluyó como variable de resultado en un modelo con el método de análisis de la vía (tratado como una variable categórica y codificado en cuatro variables ficticias) como el efecto principal y el número de genes por vía incluirse como un potencial de confusión.
resultados
la Tabla 2 muestra el número de vías importantes identificados por los cuatro métodos de análisis de la vía en CETO y GRMD utilizando un FDR de ≤0.05 como criterio para determinar la significación estadística. FACILIDAD identificó 10 vías como asociados con el riesgo de cáncer de pulmón en los dos conjuntos de datos, 7 en CETO, 5 en GRMD, con dos importantes vías comunes a ambos conjuntos de datos. El método mSUMSTAT identificó 8 vías tan importantes, 8 en CETO, 1 en GRMD siendo uno de ellos comunes a ambos conjuntos de datos. DUELAS identificó cinco vías tan importantes, tres en GRMD y dos en CETO.
Desde EASE identificó 10 vías importantes, más que los otros métodos, la Tabla 3 muestra los 10 mejores vías identificadas en CETO y por GRMD todos los métodos de análisis de esas vías (tomados de las listas que comprenden los resultados de ambos conjuntos de datos). Un FDR de ≤0.05 en ambos conjuntos de datos se utilizó como los criterios para un resultado replicado. La transmisión de los impulsos nerviosos y los factores de intercambio de nucleótidos de Ras guanilo vías fueron identificados por EASE como asociado con el cáncer de pulmón en CETO y GRMD (Tabla 3). La vía de la actividad del receptor de acetilcolina fue identificado como asociado con el cáncer de pulmón en CETO y GRMD por mSUMSTAT. Esta vía contiene el
CHRNA3-CHRNA5-CHRNB4
grupo de genes en 15q25, donde GWAS han identificado varios SNPs asociados con el riesgo de cáncer de pulmón [1], [2], [5]. Esta vía fue la vía de más alto rango en CETO utilizando el método GenGen (FDR = 0,19) (Tabla 3). En GRMD, esta vía se clasificó 16
lugar entre todas las vías (no mostrados) por GenGen. El FDR fue de 0,43, pero fue acompañada por un valor de p nominalmente significativa (P = 0,004). Otras asociaciones vía importante en CETO habían correspondiente P-valores nominalmente importantes en GRMD, específicamente: el metabolismo del hemo, porfirina proceso metabólico, proceso de biosíntesis de pigmento, y el 4 de hierro, 4 clúster de azufre unión usando mSUMSTAT; y la lipoproteína de baja densidad de unión utilizando EASE. DUELAS identificó regulación de la migración celular asociada como significativamente con cáncer de pulmón en GRMD, con un valor P que corresponde nominalmente importantes en CETO (Tabla 3).
Aparte de la vía de la actividad del receptor de acetilcolina, que se identificó por tanto mSUMSTAT y GenGen como vía superior, había pocas vías principales identificados por más de un método. la unión de iones cloruro se asoció con el riesgo de CETO acuerdo con EASE y GenGen. ruta de activación del complemento clásica se asoció con el riesgo de cáncer de pulmón en CETO acuerdo con GenGen, mSUMSTAT y lama. hemo proceso metabólico fue identificado como asociado con el riesgo de CETO por GenGen y mSUMSTAT. ensamblaje de la cromatina se asoció con el riesgo de cáncer de pulmón en CETO acuerdo con mSUMSTAT y lama. La interleucina-2 biosíntesis proceso fue identificado como asociado con el riesgo de EASE y GenGen en GRMD. La regulación de la migración celular se asoció con el riesgo de GRMD según EASE y SLAT (Tabla 3). transporte de aniones se identificó como una vía de la parte superior por mSUMSTAT pero 35 de 102 genes en esta vía se incluyeron en la vía de unión de iones cloruro (64 genes), identificado como una vía de la parte superior por la facilidad y GenGen (el número de genes en las vías calculados siguiente mapeo SNP) . Del mismo modo, 16 de 18 genes en la vía interleucina 2 (EASE) se incluyen entre los 65 genes en la vía metabólica de citoquinas (GenGen). Otras vías principales identificados por diferentes métodos comparten genes, pero la coincidencia fue del 12% o menos basadas en los genes compartidos por la mayor de las dos vías (por ejemplo, 20 de 50 regulación positiva de genes de la ruta de fósforo (GenGen) están incluidos en el metabolismo del factor de crecimiento vía (LAMA), que tiene 165 genes)
.
el método EASE vías seleccionadas con mayor tamaño gen (que se define utilizando la mediana del número de SNPs por gen) que los otros métodos. El tamaño medio del gen para las vías principales EASE se muestran en la Tabla 3 fue de 12,2 SNPs por gen, mientras que el tamaño gen de la ruta máxima promedio fue de 8,4 por GenGen, 7.4 para mSUMSTAT, y el 8,7 por lama. El análisis de regresión, donde método de análisis de vías, se codificó en cuatro variables ficticias, produjo una asociación estadísticamente significativa entre el método EASE y tamaño gen (P = 0,02)
.
Como dos métodos identifican la actividad del receptor de acetilcolina como vía cima examinado esta asociación con más detalle. SNPs cerca de la
CHRNA3 CD -
CHRNA5 CD -
CHRNB4
grupo de genes que muestra una fuerte asociación con el riesgo de cáncer de pulmón, son fuertes en LD, y hay una superposición entre los estadísticos de prueba SNP asignados de estos genes (es decir, la estadística de prueba para el mismo SNP fue asignado a ambos
CHRNA5
y
CHRNA3
). Estas características de la vía podrán señales de asociación vía sesgo [20], [21] Para evaluar si el análisis de la vía fue impulsado por un único gen asociado o el grupo de genes, hemos examinado el efecto de eliminar el
CHRNA5
gen (donde la variante causal putativo se encuentra) y toda la agrupación de genes de los análisis utilizando mSUMSTAT y GenGen. Extracción
CHRNA5
no tuvo influencia en los resultados mSUMSTAT en CETO (
CHRNA5
: P & lt; = 0,001, FDR≤0.001), pero FDR cayó muy por debajo del nivel de 0,05 en GRMD (
CHRNA5
: P = 0,002, FDR = 0,37). Extracción
CHRNA5
del análisis GenGen dio lugar a la fuerza reducida de asociación en CETO (P = 0,003, FDR & lt; = 0,48), pero prácticamente ningún cambio en GRMD (P = 0,01, FDR & lt; = 0,41). Sin embargo, la eliminación de todo el grupo de genes como resultado una reducción marcada de la FDR y la pérdida de importancia de los dos conjuntos de datos para ambos métodos de análisis de esas vías (mSUMSTAT sin CHRNA3-CHRNA5-CHRNB4: CETO: P = 0,19, FDR = 0,56 GRMD: P = 0,71, FDR = 0,82; GenGen sin CHRNA3-CHRNA5-CHRNB4 CETO: P = 0,11, FDR = 1,00 GRMD: P = 0,32, FDR = 0,76)
además, exploramos la asociación de esta vía con el riesgo. graficando cociente de posibilidades y los límites de confianza del 95% para los receptores de acetilcolina SNPs vía y genes producidos por análisis de regresión logística incondicional. La Figura 1A muestra los odds ratios para SNPs específicos asignados a los genes (es decir, el SNP más significativo para cada gen) para el análisis CETO y para la comparación, los odds ratios para estos mismos SNPs para GRMD. Además de SNPs en el
CHRNA3-CHRNA5-CHRNB4
grupo de genes, un SNP en
CHRNA2
mostró una asociación significativa con el riesgo nominalmente en ambos conjuntos de datos (CETO: P = 0,012; GRMD: P = 0,022). La Figura 1B muestra los odds ratios para el SNP más significativo asignado a cada gen en alguno de los conjuntos de datos (es decir, los SNPs reales utilizados en la vía de los análisis en los dos conjuntos de datos). No se encontraron asociaciones adicionales nominalmente importantes para
CHRM3 gratis (CETO: P = 0,003; GRMD: P = 0,028),
CHRNA7 gratis (CETO: P = 0,016; GRMD: P = 0,009), y
CHRNA4 gratis (CETO: P = 0,012; GRMD: P = 0,038) en ambos conjuntos de datos. En total, 6 de los 8 genes asociados con el riesgo de CETO se asociaron con un riesgo en GRMD, un resultado superior a lo esperado por azar, dado el número de SNPs en cada gen.
A) el SNP más significativo para cada gen utilizado en centrales de análisis y odds ratios Europa-Toronto para mismos SNPs para el MD Anderson Alemania); B) el SNP más significativo asignado a cada gen en alguno de los conjuntos de datos (es decir, los SNPs reales utilizados en la vía de los análisis en los dos conjuntos de datos). el número de cromosomas (Chr) y los genes de ambos gráficos se muestran a la izquierda. (Europa Central - Toronto SNP: relleno sólido, Alemania MD Anderson búsqueda de SNPs: sin relleno; Alemania MD Anderson superior SNP (que difiere de Europa Central-Toronto): relleno gris). A) Referencia alelo mismos, tanto en Europa central en Toronto y Alemania-MD Anderson pero elegida para mostrar asociación positiva para Europa Central-Toronto. alelo B) Referencia elige siempre para mostrar asociación positiva.
CHRNA5
se excluye como SNPs son idénticas a las que representan a
CHRNA3
. La odds ratio ajustados por edad, sexo y país de estudio.
Discusión
Cuatro métodos de análisis de la vía se compararon mediante el uso de cada uno para probar la asociación del nivel GO 4 vías con el riesgo de cáncer de pulmón en dos conjuntos de datos GWAS cáncer de pulmón. Métodos comparados incluido Conjunto de cuatro enfoques de genes de enriquecimiento, la facilidad, GenGen, mSUMSTAT y un enfoque de combinación p-valor, lama. Después del ajuste para comparaciones múltiples utilizando un FDR de menos de o igual a 0,05 como criterio para una asociación significativa, la facilidad y mSUMSTAT identificado más vías asociadas con el riesgo de cáncer de pulmón a través de los dos conjuntos de datos (10 y 8, respectivamente) que los GenGen (no hay vías ), o aleta (5 vías). EASE y mSUMSTAT también identificaron las vías que se asociaron significativamente con el riesgo en ambos conjuntos de datos: la transmisión del impulso nervioso y el factor de intercambio de nucleótidos ciclasa Ras por la facilidad; y la actividad del receptor de acetilcolina vía por la mSUMSTAT. Hubo acuerdo limitado entre los diferentes métodos en la identificación de las vías de alta clasificación. La comparación de los genes entre las principales vías elegidas por cada método mostraron sólo un modesto grado de solapamiento.
En la comparación de los métodos de análisis de la vía, se examinó si el número de SNPs por gen en las vías influyó en la selección de las mejores vías. Los resultados indicados EASE, identifican las mejores rutas con un número significativamente mayor mediana de SNPs por gen que los otros métodos. Este resultado no es inesperado. Para todos los métodos de enriquecimiento conjunto de genes se utilizó el enfoque común de asignar el SNP más significativo para representar cada gen. Los genes con más SNPs, en general genes grandes, son más propensos a ser asignado un SNP con una estadística alta asociación, que puede conducir a más de estimación de la importancia de las vías con grandes genes (sesgo de tamaño gen) [8], [9]. Reconocemos que las grandes genes podrían ser más susceptibles de albergar múltiples variantes que son verdaderamente relacionado con el desenlace, pero nuestras observaciones centramos en propiedades estadísticas de los métodos, específicamente la posibilidad de falsos positivos resultantes de sesgo tamaño gen. EASE, que utiliza un enfoque relativamente simple basado en la prueba exacta de Fishers, es susceptible a este sesgo. rutinas de normalización y permutaciones fenotipo incorporados en GenGen y mSUMSTAT protegen contra este sesgo [6], [22]. SLAT también está protegido contra este sesgo, ya que utiliza todos los SNPs en una vía para el análisis e incorpora un fenotipo arrastrando los pies de rutina [12]. El diseño más robusto de GenGen, mSUMSTAT y DUELAS proporciona un beneficio adicional, ya que representan estos métodos para la correlación entre los SNPs dentro de las vías.
Un aspecto crítico de esta comparación fue el uso de la replicación de las principales vías a través de CETO y GRMD para ayudar a evaluar el rendimiento relativo de estos métodos. Sin embargo, sobre la base de un FDR de ≤0.05, se encontraron algunas asociaciones replicados. La falta de poder estadístico del estudio puede explicar en parte por el pequeño número de asociaciones replicados. En particular, el tamaño de muestra insuficiente GRMD (= 1639 casos, controles = 1618) pueden haber tenido para detectar asociaciones encontradas en CETO (= 2258 casos, los controles = 3027). La heterogeneidad entre los conjuntos de datos también podría haber contribuido al pequeño número de asociaciones replicados, como la muestra alemana se limitó a los sujetos menores de 50 años, y el MD Anderson GWAS incluido sólo fumadores cada vez. Por lo tanto, los sujetos GRMD eran más jóvenes y tenían una mayor proporción de fumadores cada vez comparados con los sujetos CETO.
Entre los tres métodos (GenGen, mSUMSTAT y lama) que son robustos contra el sesgo de tamaño gen sólo se identificó una asociación mSUMSTAT replicado. Esto fue por la vía de la actividad del receptor de acetilcolina. La asociación de esta vía con el riesgo no es inesperado ya que varios SNPs en o cerca del
CHRNA3 CD -
CHRNA5 CD -
CHRNB4
grupo de genes están relacionados con el riesgo de cáncer de pulmón [ ,,,0],1], [2], [5] y la adicción a la nicotina [5], [23], [24]. Es de interés que el método GenGen también identificó la actividad del receptor de acetilcolina como la vía mejor clasificado en CETO y una de las vías más alto rango en GRMD, aunque el resultado no fue significativo, ya sea en el conjunto de datos después de la corrección para comparaciones múltiples utilizando el FDR. Observamos que las asociaciones encontradas por esta vía fue impulsado por el
CHRNA3 CD -
CHRNA5 CD -
CHRNB4
grupo de genes, como lo demuestra la reducción drástica de la fuerza de asociación ( de acuerdo con el FDR) encontrado tanto para los métodos mSUMSTAT y GenGen cuando los datos se volvieron a analizar con estos tres genes retirados de la vía. Esto puede complicar la interpretación de la asociación observada como idealmente, vías importantes no deben ser identificados a partir de una señal de que en última instancia, podría representar un solo gen o de la variante [20], [21] Se señala, sin embargo, que hay dos de riesgo independiente asociado loci en esta región [25] y en la actualidad no está claro cuáles son los genes de la región están causalmente relacionadas con el riesgo de enfermedad. Es preferible entonces que se identifican las vías de este tipo que se asocia con el resultado por el método de análisis, y el investigador pueden entonces seguimiento con análisis exploratorios adicional. La investigación adicional de esta vía sugirió que permitir que el mismo SNP para representar tanto
CHRNA5
y
CHRNA3
en el análisis sobreestimadas importancia en los datos GRMD fijados para CETO los datos establecidos para Gengen mSUMSTAT y. Los resultados de los análisis que excluyeron
CHRNA5
probablemente el más apropiado para esta vía.
Con el fin de seguir comparando las asociaciones de la vía a través de conjuntos de datos se utilizó un criterio menos restrictivo para una asociación vía replicado ( un FDR significativo en un conjunto de datos y una asociación nominalmente significativa (P & lt; = 0,05) en el segundo). Esto permitió que las asociaciones adicionales para ser identificados, aunque con menos confianza que los identificados usando el criterio inicial. El método mSUMSTAT encontró cuatro vías posibles riesgos asociados con un FDR significativo en CETO y P-valores nominalmente importantes en GRMD: proceso metabólico hemo, porfirina proceso metabólico, la biosíntesis de pigmento y hierro 4, 4 clúster de azufre vinculante. Los metabólicas hemo y porfirina vías metabólicas muestran un alto grado de solapamiento. Los cuatro de estas rutas incluyen
IREB2
que se encuentra en la misma región del LD fuerte que incluye el
CHRNA3 CD -
CHRNA5 CD -
CHRNB4
clúster. DUELAS identificado una vía, la regulación de la migración celular, utilizando este mismo criterio.
En general, nuestros resultados (junto con otros puntos de vista de las comparaciones se mencionan a continuación) sugieren mSUMSTAT se debe considerar al elegir un método de análisis de la vía. La falta de una fuerte réplica de las asociaciones de la vía hace que sea difícil evaluar GenGen y DUELAS uno contra el otro. Sin embargo, el enfoque GenGen parece tener algunas ventajas. GenGen resultados proporcionan cierto apoyo a una asociación de la vía del receptor de acetilcolina con el riesgo, y al igual que mSUMSTAT este método permite la incorporación de covariables, mientras que el programa DUELAS no tiene esta capacidad. Por último, se utiliza comúnmente GenGen y ha proporcionado otras asociaciones plausibles en los análisis de conjuntos de datos vía GWAS [10]. Por otra parte, la utilidad de la lama es difícil de evaluar dado a nuestros resultados y que es necesaria una evaluación adicional de este método. El resto de la discusión se centra en mSUMSTAT y GenGen.
Nuestro método mSUMSTAT contrasta con la de Tintle et al. [11] a través de cálculo de una estadística de prueba normalizado, y el uso de permutaciones fenotipo en lugar de gen seleccionado al azar establece para determinar la distribución nula. Estos cambios se introdujeron para tratar el sesgo de tamaño gen y mantener la estructura de correlación entre los SNPs en una vía.
Algunos resultados de simulación sugieren que los enfoques que utilizan la suma o la media de la χ
2 como una estadística de prueba vía será más potente que los que utilizan la ponderada de Kolmogorov-Smirnov-como suma corriente estadística incorporado en GenGen y enfoques relacionados GSEA. Tintle et al. encontró que la estadística de prueba SUMSTAT original era más potente que un enfoque GSEA en una comparación donde se utilizaron conjuntos de genes al azar para construir la distribución nula para ambos métodos [11]. Efron y Tibshirani encontraron los valores de p inferiores generalmente utilizando estadísticas medias de la prueba en comparación con GSEA en la expresión génica análisis simulado [18] .Su análisis utilizó una prueba t en lugar de una χ
2 estadística, que permite realizar comparaciones de expresión génica de dos grupos. Permutación y de normalización enfoques fueron los mismos tal como se utiliza aquí, a excepción de la normalización para medios GSEA también incorporados y las desviaciones estándar calculadas a partir de permutaciones con conjuntos de genes aleatorios.