Extracto
Antecedentes
estudios de asociación
genoma completo (GWAS ) requieren muestras de gran tamaño para obtener un poder estadístico adecuado, pero puede ser posible aumentar la potencia mediante la incorporación de los datos complementarios. En este estudio se investigó la posibilidad de recuperar automáticamente la información de la literatura médica y el aprovechamiento de esta información en GWAS.
Métodos
Hemos desarrollado un método que busca a través de PubMed resúmenes de las palabras clave pre-asignado y conceptos clave, y utiliza esta información para asignar probabilidades a priori de la asociación para cada polimorfismo de un solo nucleótido (SNP) con el fenotipo de interés - el método de ajuste de la Asociación Priores con texto (ADAPT). resultados de la asociación de un GWAS posteriormente pueden ser clasificados en el contexto de estas distribuciones previas, utilizando el marco de Bayes Probabilidad Falso Descubrimiento (BFDP). Hemos probado inicialmente se adaptan mediante la comparación de las clasificaciones de los alelos de susceptibilidad conocidos en un cáncer de pulmón anterior GWAS, y posteriormente lo aplicamos en un GWAS de dos fases del cáncer oral.
Resultados
pulmón conocido SNPs de susceptibilidad al cáncer fueron consistentemente un puesto más alto por ADAPT BFDPs que por los valores de p. En el cáncer oral GWAS, hemos tratado de replicar las cinco primeras SNPs según el ranking de adaptar las BFDPs, de los cuales rs991316, situada en el
ADH
gen de la región de 4q23, que mostraron una asociación estadísticamente significativa con el riesgo de cáncer oral en el fase de replicación (
per-rara-alelo aditivo registro de valor de p [p
tendencia]
= 2,5 × 10
-3). El OR combinado para tener un alelo raro era adicional (IC del 95%: 0,76 a 0,90) 0,83, y esta asociación fue independiente de los SNP de susceptibilidad previamente identificados que se asocian con el cáncer en general UADT en esta región del gen. También se investigó si rs991316 se asoció con otros cánceres del tracto digestivo superior (UADT), pero no se encontró ninguna señal de asociación adicional.
Conclusión
Este estudio pone de relieve la utilidad potencial de la incorporación sistemática de antes el conocimiento de la literatura médica en los análisis de todo el genoma utilizando la metodología de adaptación. Adaptar está disponible en línea. (Url: http://services.gate.ac.uk/lld/gwas/service/config)
Visto: Johansson M, Roberts A, D Chen, Li Y, Delahaye- Sourdeix M, Aswani N, et al. (2012) Uso de la información previa de la literatura médica en GWAS de cáncer oral Identifica Novel Susceptibilidad variante en el cromosoma 4 - Método de adaptación. PLoS ONE 7 (5): e36888. doi: 10.1371 /journal.pone.0036888
Editor: Olga Y. Gorlova, la Universidad de Texas Centro de Cáncer MD Anderson, Estados Unidos de América
Recibido: December 20, 2011; Aceptado: April 9, 2012; Publicado: 25 de mayo de 2012
Derechos de Autor © 2012 Johansson et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Esta investigación ha sido apoyado por la subvención de la UE-7PM [LarKC, url: http://www.larkc.eu] [FP7-215535]. Los fondos para el estudio de coordinación, la genotipificación de los estudios de replicación y análisis estadístico fue proporcionado por el Instituto de los Estados Unidos Nacional del Cáncer (R01 CA092039 05) y el Instituto Nacional de Investigación Dental y Craneofacial (1R03DE020116). El apoyo a los estudios centrales de Europa y en todo el genoma ARCAGE fue proporcionada por el INCA (Instituto Nacional del Cáncer, Francia. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito.
Conflicto de intereses:. Los autores han declarado que no existen intereses en competencia
Introducción
efectos de riesgo de susceptibilidad variantes comunes de trastornos complejos - incluyendo la mayoría de los cánceres - son generalmente pequeñas (es decir, O & lt; 1.5) [1] y los estudios de asociación de genoma completo (GWAS) requieren un umbral estricto significado (por ejemplo, p-valor. & lt; 10
-7), debido a la carga de múltiples pruebas tanto, GWAS de riesgo de cáncer requieren muestras de gran tamaño con el fin de tener suficiente poder estadístico. por lo tanto, es problemático para llevar a cabo estudios de asociación de los cánceres menos comunes para los cuales el reclutamiento de un número suficiente de casos es difícil. No puede haber un beneficio en la incorporación de evidencia adicional obtenida a través de experimentos complementarios u otras fuentes de información. Dicha información se puede incorporar con resultados GWAS utilizando métodos bayesianos simples [2], por ejemplo, el método desarrollado por Wakefield [3]. Este sistema utiliza el factor aproximado de Bayes (ABF), que se calcula utilizando estimaciones beta y los errores estándar de la variante génica para la enfermedad asociaciones, junto con las probabilidades previas para la hipótesis nula para generar la probabilidad Falso Descubrimiento de Bayes (BFDP). Por lo tanto, la BFDP proporciona una estimación de la probabilidad de que el resultado observado representa una asociación de falso positivo, y se puede utilizar en lugar de los valores de p cuando la clasificación o de otro modo la evaluación de resultados de la asociación. La principal dificultad en la aplicación de este enfoque en los GWAS es la asignación de probabilidades previas pertinentes y realistas de asociación con la enfermedad para cada polimorfismo de un solo nucleótido investigado (SNP).
información previa potencial para las relaciones entre genes y enfermedades puede ser recuperada de varios fuentes, por ejemplo, experimentos de expresión loci de rasgos cuantitativos (eQTL), bases de datos vía la ontología, la literatura y las exploraciones [2]. En el reconocimiento de que un gran número de variantes de susceptibilidad identificados a través de GWAS residen cerca de los genes posibles candidatos [4], la hipótesis de que es posible extraer el conocimiento previo de la literatura médica basada en texto con el fin de aumentar el poder estadístico para detectar SNPs de susceptibilidad para que esta información esté disponible.
con el fin de evaluar la viabilidad y el potencial beneficio de un diseño de esos estudios, hemos desarrollado un método que recupera automáticamente los datos relevantes de PubMed resúmenes con el fin de generar probabilidades a priori de un genoma de gran variantes investigadas están implicados en una enfermedad específica, y posteriormente se incorpora estos datos con los resultados de la asociación de GWAS utilizando el marco BFDP [5], los Priores Asociación de ajuste con texto (ADAPT) método. ADAPT se aplicó posteriormente en un GWAS de cáncer oral (CO) [6] - [10].
Resultados
Los cálculos de energía para BFDP y valores de p
Como se ha descrito por Wakefield [3], [11] la estimación BFDP puede ser utilizado como medio de evaluación e información de asociaciones dignas de mención en su propio derecho. Sin embargo, prevemos una mayor adopción de un diseño de estudio híbrido, de dos fases, en la que SNPs que se consideran suficientemente "notable", según sus estimaciones BFDP se eligen para la replicación en una población de estudio independiente y evaluaron usando los valores de p de replicación. Por ejemplo, la adopción de un BFDP de corte de 0,8 hora de seleccionar los SNP para la replicación implica que un no-falso descubrimiento es cuatro veces tan costoso como un falso descubrimiento, o que esperamos que, en promedio, una de cada cinco SNPs elegido para la replicación de estar asociado con la enfermedad. Falso descubrimiento no incluye ninguna "verdad" susceptibilidad SNP presentes en el conjunto de datos que no alcanzaron un BFPD por debajo de 0,8. Aquí consideramos verdaderas SNPs de susceptibilidad están asociadas con el fenotipo de interés en forma estadísticamente robusto y reproducible, aunque hacerlo implica causalidad funcional. Con el fin de evaluar el poder estadístico de la selección de SNPs de susceptibilidad de cáncer oral, utilizando nuestra serie de casos y controles de 791 casos y 7.012 controles, se evaluó el poder estadístico de acuerdo con (ecuación [eq.] 9, ver el análisis estadístico). Estos cálculos de potencia se basan en 300.000 SNPs siendo evaluados en el GWAS, que 100 verdaderas SNPs de susceptibilidad de cáncer oral se incluyen en el conjunto de datos y uniformemente distribuidas a través de las categorías anteriores (es decir,
N * = 100, N
1 * = N
2 * = N
3 * = 33,3)
. Se consideraron tres categorías anteriores (
J = 3
) y los SNPs generales en el GWAS se distribuye como
C
1 = 0,875, C
2 = 0,10, y C
3 = 0,025
. Podemos calcular las probabilidades previas de la hipótesis nula para las tres categorías anteriores en virtud de estos supuestos de acuerdo con (Ec. 7) que da
PO
1 = 7874, PO
2 = 899, y PO
3 = 224
. La potencia estadística para lograr una BFDP de 0,8 para SNPs con un OR de 1,25 en cada una de las tres categorías anteriores se muestra en la Figura 1. Para la comparación, incluimos el poder para usar BFDP asumiendo el mismo
N *
pero con todos los SNPs asignado el mismo anterior. Bajo estos supuestos el poder de detectar SNPs asociados en
C
3
o
C
2
se incrementa, mientras que sacrificar algo de poder para los de
C
3
. Esto demuestra los beneficios potenciales de la adopción de un marco de este tipo bayesiano en GWAS, si las categorías y sus distribuciones previas son elegidos de forma apropiada.
Estos cálculos de potencia suponen una evaluación de 300.000 SNPs de los cuales 100 son verdaderamente asociado con el resultado y distribuido uniformemente a través de tres categorías anteriores, respectivamente. La distribución general de los SNPs a través de las tres categorías anteriores se supone que es [87,5%; 10%; 2,5%]. PO plana asume una categoría simple previo.
También incluimos los cálculos de potencia suplementarios en la figura S1 variando el supuesto número de SNPs verdaderos de susceptibilidad.
La validación de la metodología ADAPT
con el fin de realizar una inicial
prueba de principio
evaluación del método ADAPT-BFDP, lo aplicamos a los datos de nuestro cáncer de pulmón ya se ha informado GWAS [12]. En primer lugar, hemos utilizado el servicio web se adaptan para generar probabilidades previas para SNPs basados en la literatura médica (ver Material y métodos). Las palabras clave se agruparon por prioridad, el primer grupo incluyendo palabras generales que son específicos para el cáncer de pulmón, por ejemplo "Cáncer de pulmón" y "carcinoma de pulmón ', el segundo grupo incluye palabras más generales específicamente relacionados con el cáncer de pulmón, por ejemplo, 'Fumar', 'nicotina', 'no pequeñas células de carcinoma', y el tercer grupo incluyen palabras más genéricas que no sean exclusivamente importante para el cáncer de pulmón, pero para el cáncer en general, por ejemplo, "Carcinógeno", "daño en el ADN", "neoplásico", "apoptosis". Posteriormente, se realizaron búsquedas a través de todos los resúmenes de Pubmed para cada gen y las probabilidades previas asignadas de acuerdo con (Ec. 7). Sólo se incluyeron literatura publicada antes de la fecha de la primera cáncer de pulmón GWAS [12] con el fin de evitar el sesgo.
En segundo lugar, hemos dividido nuestro cáncer de pulmón original de GWAS en una serie de subconjuntos más pequeños para simular GWAS con menor estadística poder. Esto se realizó mediante la selección al azar (distribuciones iguales de casos y controles) 50% y 75% de la serie de datos total de 100 veces. Posteriormente se realizó un análisis GWAS para todas las subseries y resultados clasificados por p-valor y por BFDP utilizando distribuciones previas estimadas utilizando el servicio web adaptarse. Se comparó la clasificación por BFDPs y valores de p dentro de cada subserie (50%, 75% o 100%) para las variantes de cinco susceptibilidad identificados por el cáncer de pulmón GWAS que se han replicado de forma independiente en múltiples estudios (Tabla 1) [12] - [14 ]. Fuera de estos cinco SNPs, cuatro fueron asignados priores elevados que dieron lugar a claras mejoras en la clasificación cuando se utilizan las estimaciones BFDP en comparación con los valores de p. Por ejemplo, cuando se muestrea el 75% de los datos completos establece el SNP rs401681 en 5p15.33 se sitúa en el 2,709 por p-valor y al 664 por BFDP.
analiza la novela de asociación del genoma
Se realizó posteriormente un GWAS de cáncer oral. Esta exploración siguió un diseño de dos fases, con los resultados de la asociación de la fase de descubrimiento de todo el genoma clasificados en orden de ADAPT-BFDPs.
fase de descubrimiento.
En la fase de descubrimiento, después del control de calidad, genoma análisis de ancho se llevó a cabo en 791 casos y 7.012 controles. Análisis del gráfico de Q-Q no indicó ninguna inflación notable general (λ
inflación = 1,04), lo que sugiere que la población subestructuras ocultos tenían poco o ningún impacto en los resultados del análisis de todo el genoma (Figura S2). Adaptar fue empleado basado en PubMed resúmenes, utilizando palabras clave relevantes para el cáncer oral (Tabla S1) de una manera comparable a la del experimento cáncer de pulmón se describe anteriormente. Fuera de 293,211 SNPs evaluados, 149.998 fueron agrupados como
C
1 |, 137.576 fueron agrupados como
C
2
y 6,637 fueron agrupados como
C
3
. Se evaluaron las estimaciones SNP BFDP individuales utilizando un enfoque básico análisis de sensibilidad al conjunto distinto de tres supuestos con respecto al número de SNPs verdaderos de susceptibilidad, es decir,
N * = 50, N = 100 * y N * = 500
. Se aplicó un umbral BFDP de 0,80 para la selección de SNPs para la replicación, y seis SNPs cumple este criterio para todos los
N * gratis (Tabla 2). Porque ya habíamos evaluado y confirmado el 6
º clasificado SNP (rs1789924,
AHD1C
) en un estudio previo de cáncer en general UADT (Tabla 2) [11], se seleccionaron cinco SNPs para la replicación. Estos SNP rs1888732 incluidos en 1p22.3 (log odds aditivos ratio [OR
tendencia] = 0,70, 95% intervalo de confianza [IC 95%]: 0,61 a 0,81,
BFDP
100
= 0,06 ), rs3130559 en 6p21.33 (O
tendencia = 0,76, IC del 95%: 0,65 a 0,88,
BFDP
100
= 0,57), rs10801805 en 1p22.2 (O
tendencia = 1,30, IC del 95%: 1,16 a 1,46,
BFDP
100
= 0,58), rs991316 en 4q23 (O
tendencia = 0,81, IC del 95%: 0,72-0,91,
BFDP
100
= 0,62), y rs10008621 en 4q35.2 (O
tendencia IC = 0,72, 95%:. 0,60 a 0,86,
BFDP
100
= 0,66)
replicación.
Después de control de calidad y análisis estadístico dentro del ciclo de replicación, sólo se rs991316 muestra una asociación estadísticamente significativa con el riesgo de cáncer oral (
por cada alelo raro-aditivo registro valor de p [p
tendencia]
= 2,5 × 10
-3, Tabla 2). Un gráfico de log
10 p-valores y los pares r
2 estimaciones de SNPs incluidos en la fase de GWAS del
ADH
región del gen se da en la figura 2. La O en comparación con los principales homocigotos de la combinación de datos (GWAS + datos de replicación) fueron (IC del 95%: 0,78 a 1,01) 0,88 para los heterocigotos, y (IC del 95%: 0,57 a 0,79) 0,67 para los homocigotos menores. La OR asociada con tener un alelo raro adicional (modelo log-aditivo) fue (IC del 95%: 0,76-0,90) 0,83, y esta asociación se replicó de forma independiente (
p
tendencia Hotel & lt; 0,05) en los dos más grandes estudios de replicación (los estudios de América Latina y ORC, el cuadro S1,
p
heterogeneidad
= 0,67). El SNP rs991316 se encuentra en una región de 4q23, que incluye varios genes que codifican diferentes genes de la subunidad
alcohol deshidrogenasa gratis (
ADH
), es decir, el
ADH6
,
ADH1A
,
ADH1B
,
ADH1C
, y
ADH7
genes. En la búsqueda se adaptan literatura, dos genes fueron asignados como potencialmente relevantes para el SNP rs991316,
ADH1C
y
ADH7
, ubicada aproximadamente a 49 kb centromérica y telomérica 11 kb de rs991316, respectivamente. SNPs en esta región (es decir, rs1229984 [
ADH1B
], rs1789924 [
ADH1C
] y rs971074 [
ADH7
]) han sido previamente asociado con el cáncer en general UADT. Sin embargo, rs991316 fue mal correlacionado con rs1229984, rs1789924 y rs971074 (r
2 & lt; 0,05), y el acondicionamiento del análisis de riesgo en estos SNPs no afectó sustancialmente a la OR de rs991316 (O
ajustados & lt; 0,84). Además, se investigó si rs991316 se asoció también con otros subsitios UADT aparte de cáncer oral, pero el análisis estratificado reveló que el efecto de riesgo de rs991316 se limita a cáncer de boca (cavidad oral y la orofaringe), pero no los cánceres de la hipofaringe, la laringe o el esófago (
p
heterogeneidad
= 0,03, Figura 3). Tomados en conjunto, estos resultados sugieren que el SNP rs991316 se asocia específicamente con el cáncer oral, pero no con otros tipos de cáncer UADT dentro de esta población, y que la asociación es independiente de SNPs detectados con anterioridad de susceptibilidad de cáncer UADT en esta región. Por otra parte, esta heterogeneidad en los efectos de riesgo entre los cánceres orales y otros UADT también puede explicar por qué esta variante no se detectó en nuestra GWAS original de cáncer en general UADT.
P-valores que indican la fuerza de la asociación para cada SNP en el GWAS con el cáncer oral se muestran en la escala -log10 (a la izquierda del eje Y), en contra de sus posiciones en el cromosoma 4 (Build 36.3). El color de cada punto y SNP representan el grado de desequilibrio de ligamiento (r
2) con rs991316 según la fase II HapMap datos CEU. Resaltan en la figura son rs1229984, rs1789924 y rs971074, que han sido reportados a estar asociado con cánceres UADT anteriormente, así como el SNP rs991316 que fue descubierto para ser específicamente asociados con el cáncer oral en el estudio actual. rs1229984 no se genotipo, ni marcado por una variante proxy en BeadChip HumanHap300 pero se genotipo mediante el ensayo de Taqman en las mismas muestras procedentes de Europa central y estudios ARCAGE como se incluye en la fase de descubrimiento de la corriente GWAS, y r
2 entre rs1229984 y rs991316 se estimó en 3.513 los controles de los estudios europeos y ARCAGE central. las tasas de recombinación de la región se muestran mediante la línea de color azul claro conspirado contra el eje y derecho. Los genes de la región están representados con cabezas de flecha que indica la dirección de transcripción.
a) Aparte de la OR para los heterocigotos y homocigotos TT CT, estimados en relación a los principales homocigotos CC, todos OR y 95 % IC se calcula utilizando el modelo log-aditivo, ajustando por edad, género y central. Todos los sujetos de las fases de todo el genoma y la replicación con covariables disponibles se incluyeron en este análisis (no los controles genéricos). Los OR general para los cánceres de la cavidad oral y orofaringe se muestra por la línea vertical de puntos. b) P para la heterogeneidad indica diferencias en o entre los estratos y se deriva de la prueba Q de Cochran. c) Nunca bebedores eran temas que, o bien informaron 0 g ingesta de alcohol por día, o reportaron estar no bebedor, los bebedores moderados consumen & gt; 0 y & lt; 6,06 g alc./day, bebedores intermedios consumidos & gt; 6,06 y & lt; 46,3 g alc ./day, y bebedores consumían & gt; 46,3 g alc./day. d) hipofaringe, laringe, esófago y los casos no se incluyeron en los análisis anteriores.
estratificado
análisis
Se efectuaron análisis de riesgo más estratificado para rs991316 (Figura 3), pero aparte de el efecto del riesgo heterogénea en los cánceres orales en general, en comparación con otros tipos de cáncer UADT (
p
heterogeneidad
= 0,03), no se observaron modificaciones efecto claro (
p
heterogeneidad Hotel & gt; 0,10). Se observó alguna evidencia sugestiva de la modificación del efecto por género (
p
heterogeneidad
= 0,11), la asociación con el riesgo de ser más fuerte entre los hombres. También se observó algunas indicaciones de fumar tabaco y la ingesta de alcohol también la modificación del asociación con el riesgo, con el riesgo cada vez más pronunciada con mayores niveles de fumar y beber, pero las pruebas formales no apoyaron la interacción (
p
interacción
= 0,15 y 0,10 para el tabaquismo y consumo de alcohol, respectivamente). ajustar aún más el análisis de riesgo principal rs991316 para beber y fumar no modificó la o las estimaciones (datos no mostrados).
Discusión
Se presenta un método para recuperar información de la literatura médica basada en texto y la estimación de las probabilidades previas de asociación para todos los SNPs investigados en GWAS, los Priores Ajuste de la Asociación con el método de texto (ADAPT). Los priores, posteriormente, se pueden incorporar con la asociación de los resultados en una medida bayesiana de la noteworthiness de asociación para cada SNP de asociación con la enfermedad
.
Uno de los principales argumentos a favor de la realización de los GWAS es que el enfoque es agnóstico, ofreciendo así la posibilidad para detectar nuevos loci de susceptibilidad y sin inferir creencias anteriores con respecto a la importancia de los genes específicos (por ejemplo, comparar con el método del gen candidato). Sin embargo, muchas variantes de susceptibilidad genética detectados en GWAS residen cerca de genes candidatos plausibles, y el método ADAPT-BFDP da la oportunidad de aprovechar esta información de manera automática. Adaptar busca automáticamente a través de PubMed resúmenes de evidencia previa correspondiente de implicación en la enfermedad de que se trate. Junto con el marco estadístico BFDP, adaptar incorpora la información previa con los resultados de la asociación de la GWAS, dando así SNPs cerca de genes previamente implicados en la enfermedad de interés una clasificación más alta.
Al principio habíamos validado ADAPT-BFDP basa en datos de GWAS de cáncer de pulmón y señalaron que los SNPs validados de susceptibilidad se clasificaron consistentemente más altos por las estimaciones ADAPT-BFDP que por los valores de p (Tabla 1). El método fue aplicado posteriormente en un GWAS de tamaño modesto de cáncer oral (aproximadamente 800 casos) con bajo poder estadístico para detectar los efectos de riesgo intermedio típicamente observados en los GWAS (≤40% de la potencia estadística para la elección de un SNP para la replicación en p & lt; 10
-5 suponiendo un OR de 1.25). Al clasificar los resultados de la asociación de acuerdo con ADAPT-BFDPs y la reproducción de las cinco primeras SNPs, hemos identificado una variante de la susceptibilidad novela dentro de la región conocida susceptibilidad al cáncer oral y UADT de la
ADH
gen clúster en 4q23. Investigamos si la asociación de rs991316 podría explicarse por el desequilibrio de ligamiento con las variantes de riesgo previamente identificados de cáncer en general UADT en este locus [8], [15], incluyendo rs1229984, rs1789924 y rs971074, pero sus par-sabia correlaciones fueron bajas y acondicionamiento el análisis de riesgo en estos SNPs no afectó la estimación de O rs991316. Además, el análisis de haplotipos mostró claramente que los alelos variantes de estos SNPs se encuentran en diferentes haplotipos (datos no mostrados), de este modo fortalecer aún más la inferencia independencia de estos SNPs de susceptibilidad. Es importante destacar que el SNP rs991316 no se asoció con otros tipos de cáncer UADT (Figura 3), por lo tanto, apoya la idea de una nueva asociación, como evidencia de asociación con otros tipos de cáncer UADT se ha observado con los SNPs de susceptibilidad detectados con anterioridad.
Reconocemos que cualquier método que toma la información no curada antes en cuenta en los estudios de asociación es imperfecto y sujeto a diversos sesgos [2], y el método ADAPT-BFDP tiene varias limitaciones. Como adaptar las búsquedas PubMed resúmenes de la presencia de palabras clave pre-asignado y conceptos relacionados semánticamente, el resultado final (clasificación por BFDPs en lugar de los valores-P) SNPs de privilegio en la proximidad de los genes que se han estudiado en relación con el punto final de interés . Como se muestra en la Figura 1, hay una pérdida en el poder estadístico para SNPs para las que hay información anterior relevante está disponible. Esta sanción impuesta a nuevos genes y los desiertos de genes que parece contradictorio con la naturaleza agnóstica de un GWAS, a pesar de fuertes señales de asociación seguirá siendo muy clasificación mediante cualquiera de los métodos.
El método también es sensible al número asumido de verdad SNPs asociados (
N *
). Al aumentar este número permitirá que más SNPs para pasar el umbral de BFDP, pero no va a cambiar su clasificación. En un diseño de dos fases donde el número de SNPs retenido para la segunda fase está determinada por la potencia de segunda etapa [16], sólo la clasificación relativa en la primera etapa es relevante y la elección de
N *
es inmaterial. Por el contrario, la proporción de SNPs asociados verdad en cada categoría antes influye en el ranking cambiando la probabilidad a priori de asociación para cada variante.
Además, la implementación actual de ADAPT utiliza un relativamente simple algoritmo de minería de texto y, como tal, sigue siendo relativamente crudo. Por ejemplo, no se necesita la frecuencia de palabra clave coincide en cuenta al asignar los priores, y tampoco toma en cuenta si los estudios individuales reportan resultados positivos o negativos del estudio. Dichas estrategias serán evaluados en las futuras implementaciones de adaptarse, así como los métodos con el objetivo de expandir las palabras clave en conceptos relacionados semánticamente. Además, se adaptan asigna actualmente SNPs en los genes simplemente en función de su ubicación, por ejemplo, si están dentro de 50 kb de un gen dado. Aquí parece útil tomar también el desequilibrio de ligamiento en cuenta, como se ha implementado en las relaciones de genes a través implicados Loci (GRAIL) metodología [17]. Del mismo modo que adaptarse, GRAIL utiliza la minería de texto de PubMed resúmenes de priorizar SNPs en GWAS, pero lo hace mediante la identificación de los genes que están en relación funcional con varios otros genes en un grado mayor que lo que se esperaría por casualidad. Aunque la metodología GRAIL tiene la ventaja de no requerir el fenotipo de interés para ser estudiado en relación con un gen particular antes, ni tampoco se benefician cuando dicha información está disponible. Por lo tanto, parece que tanto el adaptarse y metodologías GRAIL pueden resultar útiles en conjunto, o por su cuenta, en la priorización de SNPs de las exploraciones iniciales de GWA para su posterior seguimiento.
Es importante destacar que prever utilizar el método ADAPT-BFDP como herramienta complementaria - y no como un reemplazo - con el enfoque más tradicional GWAS (es decir, la clasificación de p-valor), por ejemplo, utilizando inicialmente clasificación basada p-valor para detectar loci genéticos de una manera agnóstica, y posteriormente, la metodología ADAPT-BFDP para aprovechar aún más los datos con un potencial de detectar variantes que de otro modo podrían pasarse por alto. Si bien por lo general no se recomienda la realización de estudios de poca potencia, el método ADAPT-BFDP también puede ayudar a la detección de loci de susceptibilidad cuando el poder estadístico es pobre, por ejemplo, en el análisis estratificado de todo el genoma, como en el cáncer oral poca potencia GWAS. De hecho, el SNP rs991316 se clasificó 76
º por los valores de p, y no se habría incluido este SNP de susceptibilidad en la fase de replicación tenía que adoptamos para replicar sólo las variantes muy alta calificación por los valores de p. Por otra parte, si el número de SNPs seleccionado para la replicación había sido lo suficientemente profunda para incluir rs991316, la evidencia estadística para la replicación (
P
tendencia
= 2,5 × 10
-3) no habrían sido considerados digno de mención después del ajuste para múltiples pruebas en la fase de aplicación (es decir, un Bonferroni ajustado umbral de significación de p = 0,0007). Por lo tanto, parece que la estrategia de ADAPT-BFDP asistido la detección y validación de la variante rs991316. El proceso de adaptar también se puede adaptar fácilmente para proporcionar información previa de genes en general en lugar de SNPs individuales, y como tal, también puede ser útil en aplicaciones genómicas, tales como exoma o del genoma basado estudios de secuenciación. Por otra parte, varias fuentes de información potencialmente podrían incluirse en el marco bayesiano, por ejemplo, bases de datos vía ontología, otros métodos basados en texto, incluyendo GRAIL, o experimentos complementarios, tales como eQTL análisis de todo el genoma [18].
Conclusiones
este estudio confirma que es posible incorporar información previa completa de forma automatizada para ayudar en la priorización de SNPs en GWAS para su posterior seguimiento, en este caso de la literatura médica basada en texto usando la metodología ADAPT-BFDP . En apoyo de esto, se presenta una novela SNP susceptibilidad de cáncer oral en el
ADH
gen de la región de 4q23, que se asoció con un riesgo independiente de los SNP de riesgo previamente identificados de cáncer en general UADT en esta región. Hemos hecho la metodología a disposición de la comunidad de investigación se adapten a través de un servicio web (URL: http://services.gate.ac.uk/lld/gwas/service/config).
Materiales y Métodos
Ética declaración
Todos los participantes dieron su consentimiento informado para participar en el estudio y el Comité de Ética de la IARC (IEC) aprobó esta investigación escritos.
Recuperación de la información de la literatura médica utilizando ADAPT
con el fin de extraer información relevante de la literatura médica de manera integral e imparcial, hemos desarrollado los Priores Asociación de ajuste con el método de texto (ADAPT). Adaptar identifica PubMed resúmenes relevantes para cada gen RefSeq través de la base de datos de genes Entrez (URL: http://www.ncbi.nlm.nih.gov/gene), donde todos los estudios que han investigado un gen en particular se hace referencia cruzada con PubMed. Para este estudio, cualquier gen dentro de los 50 000 pares de bases de un SNP fue mapeado, junto con los resúmenes vinculadas a ese gen. También es posible usar los textos GeneRif, que son resúmenes cortos y anotados manualmente de cada trabajo de investigación, en lugar de PubMed resúmenes. Estos textos GeneRif se proporcionan directamente en la base de datos Entrez gen. Todos los resúmenes pertinentes se extraen posteriormente por palabras y conceptos clave relacionados con las características importantes de la enfermedad o fenotipo de interés, incluyendo factores etiológicos y mecanicistas. Esta minería se lleva a cabo utilizando GATE (url: http://gate.ac.uk) [19], que se divide en frases resúmenes, tokenizes las oraciones en términos individuales, se encuentra la parte del discurso de fichas, y se rompe cada token en su componente principal (raíz morfológica). Los resúmenes también fueron asignadas a UMLS conceptos usando MetaMap [20], [21]. Fichas y conceptos se almacenaron en un índice de Mimir GATE para facilitar una rápida recuperación y para almacenar asignación entre los SNPs y resúmenes pertinentes [22]. Palabras clave para la minería también se procesaron con puerta para dar raíces morfológicas y las presencias de éstos se comprobaron posteriormente en el índice para cada SNP.
Hemos asignado palabras clave en uno de los tres grupos, G1, G2 y G3, grupo G1 que contienen palabras de la mayor importancia para el fenotipo, y el grupo G3 contiene relevante, pero las palabras subjetivamente menos importantes. Basándose en la presencia de palabras clave relevantes, cada gen y SNPs proximales lógicamente se pueden asignar a uno de 8 posibles combinaciones binarias de G1, G2 y G3. Para nuestros propósitos hemos definido tres categorías (
C
i, i = 1,2,3
):
C
1 | = {No
G
1 |, No
G
2
, No
G
3}
C
2
= {Al menos uno de los
G
1, G
2, G
3
pero no todos
}
C
3
= {
G
1, G
2, G
3
}.
Hemos desarrollado un servicio web que permite a un usuario realizar consultas de palabras clave sobre un conjunto arbitrario de SNPs en el momento oportuno, por ejemplo, una lista de SNPs incluido en un BeadChip particular, de todo el genoma (url: http://services.gate.ac.uk/lld/gwas/service/config). Esto devuelve una clasificación sobre todas las 8 categorías posibles, lo que permite colapsar por el usuario más allá. También proporcionamos un guión R que calcula las probabilidades a priori para cada SNP y re-clasifica los resultados GWAS de acuerdo con las estimaciones BFDP. Esto permitirá a los investigadores a aplicar libremente la metodología adaptarse sin la posibilidad de subir sus resultados de la asociación en línea (url: http://services.gate.ac.uk/lld/gwas/service/rscript).