Extracto
Antecedentes
El desarrollo de nuevas tecnologías de genotipado de alto rendimiento ha permitido rápida evaluación de polimorfismos de nucleótido único (SNP) en un genoma de gran escala. Varios estudios de asociación del genoma recientes que emplean estas tecnologías sugieren que los paneles de SNPs pueden ser una herramienta útil para predecir la susceptibilidad al cáncer y el descubrimiento de nuevos loci potencialmente importante enfermedad.
Metodología /Principales conclusiones
el presente trabajo se lleve a cabo un examen cuidadoso de la importancia relativa de la genética, los factores ambientales y los sesgos del protocolo de análisis de datos que se utilizó en un estudio de asociación del genoma publicado anteriormente. Ese estudio anterior informó de una discriminación casi perfecto de los pacientes con cáncer de esófago y controles sanos sobre la base de sólo la información genética. Por otra parte, nuestros resultados sugieren fuertemente que los SNPs en este conjunto de datos no son estadísticamente vinculada al fenotipo, mientras que varios factores ambientales y, especialmente, los antecedentes familiares de cáncer de esófago (un proxy para ambos factores ambientales y genéticos) sólo tienen una modesta asociación con el enfermedad.
Conclusiones /Importancia
el componente principal de la fuerte señal afirmado previamente discriminatoria se debe a varias trampas de análisis de datos que, en combinación dio lugar a los resultados muy optimistas. Tales dificultades se pueden prevenir y se deben evitar en futuros estudios ya que crean conclusiones engañosas y generan muchas pistas falsas para la investigación posterior
Visto:. Statnikov A, Efectos del Medio Ambiente, Genética Li C, Aliferis CF (2007) y Análisis de datos trampas en un estudio de asociación del esófago del cáncer de genoma completo. PLoS ONE 2 (9): E958. doi: 10.1371 /journal.pone.0000958
Editor Académico: Enrico Scalas, Universidad de East Piedmont, Italia |
Recibido: 30 Julio, 2007; Aceptado: 30 Agosto 2007; Publicado: 26 Septiembre 2007
Derechos de Autor © 2007 Statnikov et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. El trabajo fue apoyado en parte por la subvención R01 LM007948-01. Los organismos de financiación no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
Uno de los métodos prometedores para el análisis del genoma humano y la identificación de genes y regiones genómicas que contribuyen a fenotipos es el uso de polimorfismos de nucleótido único (SNP). SNPs representan más del 90% del total de la variación genética humana y han sido ampliamente estudiados para las relaciones funcionales entre genotipo y fenotipo. El advenimiento de las tecnologías de genotipado de alto rendimiento ha permitido una rápida evaluación de SNPs en un genoma de gran escala a un coste relativamente bajo [1] - [3] |
Durante los últimos dos años, varios grupos informaron de éxito en el uso. SNP ensayos de genotipificación en estudios de asociación de cáncer [1], [4] - [8]. En particular, el estudio de Hu et al. informó una clasificación casi perfecta de los casos de cáncer de esófago y los controles sobre la base de datos de SNP sólo a partir de un estudio de asociación de todo el genoma de casos y controles [8]. A primera vista, este resultado sugiere que el cáncer de esófago es una enfermedad exclusivamente genético. Esto se contradice con otra literatura en el campo que hace hincapié en la importancia del medio ambiente para la susceptibilidad al cáncer [9], [10]. Con el fin de arrojar luz sobre esta cuestión, que volvieron a analizar los datos de [8]
Se identificaron dos trampas de datos de análisis en [8] que causó más optimistas conclusiones en el documento original:. En primer lugar, la método de selección de SNP fue severamente sesgado hacia reclamando importancia de SNPs que no están realmente asociados con la enfermedad. En segundo lugar, tanto SNP selección y construcción de modelo clasificador se realizaron en las mismas materias que se utiliza para la estimación de la precisión de clasificación. Dado que no se llevaron a cabo la validación cruzada ni la validación muestra independiente, la estimación de rendimiento de la clasificación resultante era demasiado optimista.
Hemos llevado a cabo un nuevo análisis del SNP y datos ambientales que corrige los problemas anteriores y se encontró que los SNPs en este conjunto de datos no son estadísticamente relacionado con el cáncer de esófago, mientras que varios factores ambientales, especialmente antecedentes familiares de cáncer de esófago (que potencialmente cuentas por muchos factores ambientales y genéticos), tienen una modesta asociación con la enfermedad. Se cuantificó la contribución de cada uno de los factores para la clasificación del cáncer y nos proporcionaron estimaciones objetivas de rendimiento de clasificación de acuerdo con los protocolos de análisis de datos imparciales establecidos. Teniendo en cuenta la contribución insignificante de SNPs a la clasificación del cáncer, nuestros resultados sugieren que los SNPs identificados en [8] carecen de evidencia estadística para estar implicada en el cáncer de esófago.
Materiales y Métodos
En todos los análisis de datos Además de la replicación de los métodos de [8], se utilizó alternativas imparciales para que los efectos de sesgo (si los hay) en el análisis de [8] puede ser cuantificado. La justificación de insesgamiento de métodos alternativos se proporciona en las subsecciones siguientes pertinentes.
Estudio Conjuntos de datos
Los datos utilizados en el presente estudio es el mismo que el utilizado en el documento original [8]. Los datos consistieron en 50 pacientes con carcinoma de células escamosas de esófago y 50 controles. Los pacientes fueron diagnosticados con cáncer de esófago entre 1998 y 2000 en el Hospital del Cáncer de Shanxi en Taiyuan, la República Popular de China. Veinticinco pacientes y nueve controles tenían una historia familiar positiva de la enfermedad. Los controles fueron emparejados por edad, sexo y lugar de residencia
El genotipado de muestras de sangre venosa para todos los sujetos en el estudio se llevó a cabo en el Instituto Nacional del Cáncer (Bethesda, Maryland) como se resume a continuación:. El germen línea de ADN fue extraído y purificado. Las muestras de ADN se prepararon a continuación y se acuerdo con el protocolo de Affymetrix GeneChip Mapping Ensayo. Las matrices de 10K SNP con 11.555 SNPs distribuidos a lo largo del genoma humano fueron escaneados y genotipo llamadas fueron asignados automáticamente por el software de Affymetrix GeneChip Análisis de ADN. Cuatro genotipo llamadas se definieron en los datos: AA, AB, BB o "ninguna llamada". Más detalles sobre la colección biológica de muestras y procesamiento, preparación de destino, la exploración y la generación de genotipo se proporcionan en [8]
Para cada tema, los siguientes cinco variables también se registraron:. Edad a la entrevista (años), tabaco utilizar (si /no), el consumo de alcohol (sí /no), antecedentes familiares de cáncer de esófago (sí /no), y el consumo de verduras en vinagre (sí /no).
SNP serie de datos Preparación
Antes de los análisis de datos, que preprocesado los SNP serie de datos según el procedimiento descrito en el documento original [8]. En primer lugar, de 11.542 SNPs en el conjunto de datos original, 105 SNPs se eliminaron porque no podían asignarse a genoma humano con NCBI construir 36. En segundo lugar, para reducir al mínimo los posibles errores de genotipado, 946 SNPs se eliminaron porque eran homocigotos en cualquiera de los casos o controles . En tercer lugar, por la misma razón, 482 SNPs se eliminaron debido a que no satisfacen Hardy-Weinberg en el grupo de control en el α = 0,01 nivel [11]. En cuarto lugar, se llevó a cabo "recesivo A" codificación de SNPs (AA = 1, AB = 0, BB = 0). Después de estos pasos, el conjunto de datos consistió en 10.009 SNPs.
Dado que algunos de los métodos de análisis de datos (por ejemplo, análisis de componentes principales o las SVM se describen a continuación) requieren datos faltantes, se imputó genotipos SNP en el conjunto de datos que faltan y lo ha utilizado cada vez se emplean estos métodos. En concreto, se utilizó la técnica no paramétrica vecino más cercano imputación multivariado de [12], [13]
Selección SNP
En primer lugar, se empleó el método de selección de SNP se describe en [8]:. Para cada SNP, un modelo lineal generalizado (GLM) de la probabilidad de que el cáncer se ajusta utilizando como variables predictoras el SNP y otras dos variables: antecedentes familiares de cáncer de esófago y el consumo de alcohol. El GLM era apto para todos los 100 sujetos sin dejar de lado una muestra de prueba independiente. A continuación, un valor de p fue obtenido en base a la diferencia entre la desviación
D
0
del modelo nulo y sin ningún variables predictoras y la desviación
D
1 | del amueblada modelo. La diferencia
D
0-D
1 | sigue una distribución chi-cuadrado con 3 grados de libertad. Dado que se aplica el procedimiento anterior para cada SNP en el conjunto de datos, es necesario ajustar para comparaciones múltiples para asegurar que la proporción deseada de falsos positivos (0,05) se conserva. Con este fin, el ajuste de Bonferroni se realizó para el nivel de significación de la prueba de 0,05 (es decir, en lugar de utilizar el nivel de significación 0,05, el nivel se utilizó 0,05 /número de SNPs en su lugar). Nos referimos al método anterior como "GLM1". Por último, observamos que el ajuste de Bonferroni a menudo proporciona una evaluación conservadora de la significación estadística y se supone que todos los SNPs son independientes, aunque existen métodos que son menos conservadoras y pueden ser aplicables cuando los SNPs son dependientes, por ejemplo, [14] - [16]
Dado que el valor de p de GLM1 refleja el efecto combinado de las tres variables de predicción, que tiende a ser pequeña, incluso si el SNP no tiene ningún efecto sobre el cáncer de esófago en absoluto. . Para hacer frente a este problema del análisis original, también se aplica el método siguiente SNP selección imparcial: se procede de manera similar al GLM1 excepto que el p-valor se basa en la diferencia entre la desviación
D de búsqueda: '
0
del modelo que incluye los antecedentes familiares de cáncer de esófago y el consumo de alcohol y la desviación
D
1 |. La estadística resultante
D de búsqueda: '
0-D
1 | sigue una distribución chi-cuadrado con un grado de libertad, y refleja el efecto del SNP que se está analizado. Nos referimos a este método como "GLM2" y demostrar que sí es imparcial en los Resultados y Discusión sección y en el apoyo S1 Información de archivo.
Por último, durante el montaje de máquinas de vectores de soporte (véase la siguiente sección) a la de datos, también se aplica la técnica de Recursive Feature Eliminación (RFE), que es uno de los mejores métodos de selección de variables que realizan para los datos de microarrays de expresión génica y otros conjuntos de datos moleculares de alto rendimiento [17]. En pocas palabras, este método implica modelos de ajuste de forma iterativa de clasificación del cáncer de máquina de vectores de soporte descartando los SNPs con el menor impacto sobre la clasificación y selección de los SNPs que participan en el mejor modelo de clasificación de realizar. A diferencia de los métodos basados en la GLM anteriores, se aplicó RFE sólo para el conjunto de entrenamiento de los pacientes y los controles durante la validación cruzada.
modelos de clasificación de cáncer
En primer lugar, se utilizó el procedimiento de clasificación se describe en [ ,,,0],8]. Es decir, se realizó análisis de componentes principales (PCA) de los SNPs seleccionados, y luego se extrajo el primer componente principal y se utiliza para predecir el estado del cáncer.
Como alternativa el estado de la técnica a la PCA procedimiento de clasificación basado, aplicamos máquinas de vectores soporte (SVM) clasificadores [18]. La idea subyacente de los clasificadores SVM es calcular un margen máximo hiperplano que separa los casos y los controles. Para lograr la separación no lineal, los datos se asignan implícitamente a un espacio dimensional superior por medio de una función del núcleo, donde se encuentra un hiperplano de separación. Los sujetos se clasifican de acuerdo con el lado de la hiperplano que pertenecen. Estos métodos de clasificación se utilizan comúnmente para el análisis de datos moleculares de alto rendimiento [4], [19] - [21] y tienen muchas propiedades atractivas teóricos y empíricos. Por ejemplo, a menudo superan a otros métodos de clasificación en un grado notable; También son bastante insensibles a la gran relación de-variable-a muestra; y pueden aprender las funciones de clasificación muy complejas [18], [22]. Se utilizó la aplicación libSVM de las SVM clasificadores lineales (www.csie.ntu.edu.tw/~cjlin/libsvm/). También experimentó con los clasificadores SVM no lineal, sino que resultó en modelos más complejos con clasificación de rendimiento similar.
Para evaluar el rendimiento combinado de los SNP y los factores ambientales (y la historia /o familiares), se utilizaron métodos de clasificación de conjunto basada en SVM clasificadores. Presentamos en este trabajo sólo los resultados de la mejor técnica ensembling con un promedio de las predicciones de los dos clasificadores SVM para cada materia: uno basado en datos de SNP y otro basado en los factores ambientales (y /o antecedentes familiares). La descripción y los resultados de las otras técnicas ensembling se proporcionan en el apoyo S2 Información de archivo.
Evaluación del Rendimiento Clasificación
A diferencia del estudio original [8] que utiliza proporción de clasificaciones correctas ya que el rendimiento métrico, que emplea área bajo la curva ROC (AUC) que tiene más poder para detectar la señal de predicción de SNPs [23] - [25]. La curva ROC es la trama de la sensibilidad frente a 1-especificidad para un rango de valores de umbral de clasificación. rangos de AUC de 0 a 1, con un AUC igual a 0, indicando el peor clasificador posible, 0,5 representa un clasificador al azar (es decir, poco informativo), y 1 que representa la clasificación perfecto. Una excelente introducción al análisis ROC para la clasificación se presenta en [25].
Con el fin de obtener estimaciones de AUC imparciales, los modelos de clasificación del cáncer fueron construidos y evaluados por repetido 10 veces procedimiento de validación cruzada [26]. La repetida 10 veces estimador de validación cruzada de clasificación de rendimiento se puede obtener mediante la ejecución periódica de 10 veces procedimiento de validación cruzada 100 veces con diferentes divisiones de datos en conjuntos de entrenamiento y comprobación y elaboración de informes de la estimación promedio de todas las 100 carreras. Este estimador es asintóticamente insesgado porque las muestras de prueba no se utilizan para entrenar el clasificador. Además, los repetidos 10 veces la validación cruzada tiene una varianza mucho más pequeña que la validación cruzada regular que puede ser afectado por una fracción no representativa de los datos [26].
Resultados y Discusión
Si bien el trabajo previo reportó 37 SNPs significativas aplicando el método GLM1 al esófago del cáncer SNP gama de datos [8], nuestra ejecución del protocolo publicado en [8] conduce a 226 SNPs significativos. La diferencia con el número reportado de 37 SNPs se debe a la etapa de filtración adicional que se lleva a cabo para el conjunto de SNPs significativos en la Bonferroni ajustado 0,05 α-nivel que no se informó en la publicación original (Dr. Maxwell Lee, comunicación personal). Dado que, como se muestra a continuación, un método imparcial para la evaluación de los efectos de SNP (por ejemplo, GLM2) produce cero SNPs significativos, cualquier paso adicional de filtrado es superflua, por lo tanto, no consideramos tales filtrado en el presente trabajo.
Sin embargo , la aplicación del clasificador basado en PCA a los datos de 226 SNPs significativa reproduce el rendimiento de clasificación del estudio original [8]. A saber, el primer componente principal proporciona una clasificación casi perfecto de los pacientes y los controles con 0,98 AUC y 0,93 proporción de clasificaciones correctas (Figura 1). Sin embargo, este resultado es demasiado optimista, principalmente debido a las siguientes razones.
El primer componente principal proporciona una separación casi perfecta de los casos de controles.
En primer lugar, el cálculo de p -valor en el SNP método de selección GLM1 no refleja la importancia del SNP en cuestión, pero la importancia de tres variables combinadas (SNP, historia familiar de cáncer de esófago, y el consumo de alcohol). Debido a la historia familiar y el consumo de alcohol son factores de riesgo importantes para el cáncer de esófago, este valor p será sesgado hacia cero, incluso cuando el SNP no tiene nada que ver con el cáncer de esófago. Este sesgo se puede demostrar de la siguiente manera: Es razonable suponer que la mayoría de los SNPs no tienen ningún efecto sobre el riesgo de cáncer de esófago. Para estos SNPs, los valores de p debe seguir una distribución uniforme entre 0 y 1. Sin embargo, una gran mayoría de sus valores de p fueron & lt; 10
-3 (Figura 2), que es coherente con el hecho de que su p-valor refleja el efecto combinado de la historia familiar de cáncer de esófago, el consumo de alcohol, y el SNP en lugar de la propia SNP. Por otra parte, el procedimiento GLM2 refleja los efectos de sólo SNPs y no sufre de la desventaja anteriormente (Figura 2). Una demostración permutación basado empírica más elaborada de por qué GLM1 está sesgado mientras GLM2 no se se proporciona en la documentación S1 Información de archivo. La aplicación del procedimiento de GLM2 no dio lugar a importantes SNPs después del ajuste de Bonferroni (Figura 2). Por lo tanto, los SNPs informó en [8] como estadísticamente significativo no son estadísticamente significativas al Bonferroni ajustado 0,05 α-nivel.
En la figura se muestra en escala logarítmica por conveniencia. La línea vertical es el ajuste de nivel α de Bonferroni (0,05 /10.009). Si bien hay SNPs que son significativas según el método GLM1, sin SNP es significativa por GLM2. La distribución de los valores de p para GLM2 es uniforme, sin embargo la distribución de GLM1 no lo es.
En segundo lugar, tanto la selección SNP por GLM1 y la construcción del modelo clasificador basado en PCA se llevaron a cabo en [8] en los mismos 100 sujetos que utilizaron para la estimación de la precisión de la clasificación final. Dado que no se llevaron a cabo la validación cruzada ni la validación muestra independiente, la estimación de rendimiento de la clasificación resultante es demasiado optimista como se explica en [27], [28]. Con el fin de obtener una estimación imparcial rendimiento para el método de selección de SNP y clasificador de [8], los métodos anteriores se aplicaron por repetido 10 veces la validación cruzada. La estimación clasificación de rendimiento resultante fue de 0,68 AUC, mientras que el procedimiento original en [8] dio lugar a 0,98 AUC, lo que indica un 0,30 AUC sobreestimación.
Para evaluar la contribución de los SNP y otras variables de clasificación a cáncer de esófago, hemos realizado varios análisis que se resumen en la Tabla 1. se utilizó la técnica de selección SNP RFE [17] y los clasificadores SVM [18] se describen en la sección Materiales y Métodos. Cuando se utiliza los datos de SNP solo, el rendimiento es 0,51 AUC que es estadísticamente indistinguible de la realización de un clasificador no informativa (0,50 AUC). Por otra parte, cuatro variables ambientales solos (edad a la entrevista, el consumo de tabaco, consumo de alcohol y el consumo de verduras en vinagre) se pueden clasificar el cáncer con 0,60 AUC indica una modesta asociación con el cáncer. Cuando estas cuatro variables ambientales se combinan con datos de SNP, el rendimiento resultante aumenta ligeramente a 0,62 AUC. Un resultado aún más sorprendente fue que una sola variable (es decir, antecedentes familiares de cáncer de esófago) puede clasificar la enfermedad con 0,66 AUC que es más preciso que el uso de datos de SNP y las otras cuatro variables ambientales. Nuestra hipótesis es que esto sucede porque la historia familiar contiene información acerca de otras variables ambientales y genéticos que no se midieron en los datos del estudio. Está claro que hay mucho más que cuatro variables ambientales que afectan el cáncer de esófago. Asimismo, el SNP gama Affymetrix 10 k es una tecnología de genotipado principios que no proporciona cobertura genómica tan denso como matrices más recientes con & gt; 500K SNP [29], [30]. Cuando la historia familiar se combina con otros cuatro variables ambientales, el cáncer se puede clasificar con 0,73 AUC que es más preciso que el uso de uno u otro conjunto de variables solo. Por otro lado, cuando la historia familiar se combina con datos de SNP, el clasificador resultante con 0,64 AUC no es tan preciso como el uso de la primera variable de solo. Por último, cuando se combinan los SNPs y todas las demás variables, el cáncer puede ser clasificado con 0,73 AUC.
Los experimentos presentados en este trabajo involucrado SVM clasificadores. Como hemos mencionado, la elección del clasificador se basa en la evidencia empírica sugiere que las SVM tienen un rendimiento superior en diferentes conjuntos de datos de alta dimensión "ómicas" [19] - [21], así como en el SNP datos [4] y que sin duda superan clasificación no supervisada métodos tales como PCA [27], [28]. Sin embargo, no se puede impedir que no existe algunos métodos de clasificación que superan a las SVM en SNP conjuntos de datos de la matriz. Las investigaciones futuras responder a esta pregunta.
En conclusión, nuestros resultados sugieren que las trampas de análisis de datos de varias [8] llevaron a los investigadores a identificar SNPs que no son estadísticamente significativos y para obtener una estimación gravemente sesgada de clasificación de rendimiento de esófago pacientes con cáncer y controles sanos en la base de estos SNPs. También puso de manifiesto que los factores ambientales y, especialmente, antecedentes familiares de cáncer (esto último puede servir como proxy para ambos factores genéticos y ambientales) tienen una modesta asociación con la enfermedad. Por tanto, es concebible que otros SNPs, no incluidos en el ensayo empleado, pueden estar implicados en la enfermedad. Estos resultados son consistentes con la literatura previa que hace hincapié en la importancia de los factores ambientales en la etiología de esta enfermedad compleja [9], [10]. Los resultados también ponen de relieve la importancia del análisis de datos de sonido en los estudios de asociación de genoma completo.
Información de Apoyo
archivo S1.
Demostración de sesgo en Cálculo de valores P
doi: 10.1371 /journal.pone.0000958.s001 gratis (0.08 MB DOC) guía del archivo S2.
Análisis integrado de múltiples tipos de datos
doi: 10.1371 /journal.pone.0000958.s002 gratis (DOC 0,09 MB)
Reconocimientos
Los autores desea reconocer el Dr. Maxwell Lee y sus colaboradores para proporcionar el conjunto de datos para el presente estudio y durante extensos comentarios sobre este manuscrito.