Extracto
errores de seguimiento de la muestra han sido y serán siempre una parte de la aplicación práctica de los grandes experimentos. Se ha propuesto recientemente que la expresión de rasgos cuantitativos loci (eQTLs) y sus efectos asociados podría ser utilizado para identificar la muestra confusiones y este enfoque ha sido aplicado a una serie de grandes estudios de genómica de población para ilustrar la prevalencia del problema. Habíamos adoptado un enfoque similar, denominado 'BADGER', en el proyecto METABRIC. METABRIC es un gran estudio de cáncer de mama que puede haber sido el primero en el que la detección de desajustes eQTL basa fue utilizado durante el estudio, en lugar de después del evento, para ayudar a la garantía de calidad. Se presenta aquí en los temas vinculados a grandes estudios de cáncer realizadas utilizando muestras históricas, que complican la interpretación de tales enfoques. En particular se identifican las complicaciones de la utilización de muestras de tumores, de considerar la celularidad y la calidad del ARN, de distintos subgrupos existentes en la población de estudio (incluyendo las estructuras de la familia), y de la elección de eQTLs a utilizar. También presentamos algunos resultados en relación con el diseño de experimentos propuestos examen de estas cuestiones. El enfoque basado en eQTL de detectar errores de seguimiento de la muestra se ve que es de valor para estos estudios, pero que requiere atención en su aplicación
Visto:. Lynch AG, Chin SF, Dunning MJ, Caldas C, Tavaré S, Curtis C (2012) Llamar a la muestra confusiones en los estudios poblacionales de cáncer. PLoS ONE 7 (8): e41815. doi: 10.1371 /journal.pone.0041815
Editor: Amanda Ewart Toland, Ohio State University Medical Center, Estados Unidos de América
Recibido: 23 Marzo, 2012; Aceptado: June 29, 2012; Publicado: 9 Agosto 2012
Copyright: © Lynch et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Esta investigación fue apoyado por la Universidad de Cambridge, Reino Unido de Investigación del cáncer de subvención C14303 /A10825, www.cancerresearchuk.org, y Hutchison Whampoa Limited. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
es un lugar común que, cualquiera que sea el cuidado que, si se hace un estudio de gran tamaño o lo suficientemente complejas continuación, se producirán errores en el seguimiento de las muestras. Este problema ha tenido un alto perfil en los últimos tiempos debido a un error en un servicio de pruebas genéticas personalizada (http://spittoon.23andme.com/2010/06/08/update-from-23andme/), los problemas descubiertos por la reciente 'forense' investigaciones de los estudios de escala genómica [1], y la reciente resaltado de errores en varios estudios de alto perfil [2]. Además de estos grandes problemas, a lo largo de los años de alto rendimiento estudios, tales errores han sido nominados como la causa probable de resultados discrepantes [3], [4]. Naturalmente, desde hace algún tiempo, ha habido llamadas para cuidar de limitar este tipo de errores [5], y una serie de estrategias para reducir o detectar errores se utilizan con regularidad.
Es común el uso de muestras de control replicados en puntos conocidos en una placa [6], que debe recoger los errores importantes (aunque si éstos están en las mismas posiciones en cada plato, entonces ellos no ponen de manifiesto la placa que no se utilizan). Además de esta limitación, el costo de este tipo de enfoque puede hacer que sea poco atractivo. Muchas plataformas de expresión ofrecen la oportunidad de mezclarse con los controles externos de la muestra a hibridar, e iniciativas como el ARN externo controla la Consortium (ERCC) [7] sólo puede ser ventajoso en este sentido. De hecho, el uso de tales controles Recientemente se ha demostrado para Affymetrix GeneChips [8]. Cuando se utilizan matrices de genotipos (posiblemente con el fin de inferir ADN el número de copias), entonces tenemos una métrica fundamental para la identificación de muestras que serán de utilidad si múltiples muestras se hibridan de la misma persona [9], o si tenemos antes conocimiento de los genotipos [10]
fenotipos conocidos con una suela (o fuerte) componente genético también se pueden utilizar para comprobar la validez de la muestra (o más bien a buscar para detectar errores de chapado -., ya que son poco probable que tenga suficiente poder para confirmar que una muestra es la que dice ser). El sexo es el fenotipo evidente en este sentido. Con un diseño de muestra de cuidado, como se verá más adelante, los errores en una escala de placa serían detectados por un sexo-cheque, pero los interruptores individuales de cualquier par no pueden. Es evidente que para algunos estudios, por ejemplo, en el cáncer de próstata, esto no será una opción. Otros rasgos tales como el grupo sanguíneo podrían ser comparados con los genotipos adecuados, pero para un rasgo con un locus de conducción estrecho no es demasiado grande la posibilidad de que habrá un miscalling de la clase genotipo simplemente para excluir las muestras en base a esta métrica. Por lo tanto, se necesitan muchos de esos rasgos.
Expresión Quantitative Trait Loci (eQTLs) que regulan la abundancia de transcripción de los ARNm particulares se pueden identificar de forma sistemática el uso de tecnologías de alto rendimiento [11] y puede proporcionar este gran número de rasgos, con aproximadamente 5% de los genes que muestran cis-eQTL comportamiento impulsado [12]. Muchos estudios apuntan a inferir eQTLs dado un conjunto de genotipos, un conjunto de mediciones de expresión y una asignación entre los dos. Se deduce entonces que dados los genotipos, las mediciones de expresión y un conjunto de eQTLs uno debe ser capaz de decir algo acerca de la asignación. En pocas palabras, dado un conjunto de arrays de expresión y eQTLs, se pueden hacer predicciones en cuanto a los genotipos que se podría esperar para conducir la expresión y luego tratar de identificar una matriz genotipo que ha medido valores similares
.
La capacidad para predecir SNPs de datos de expresión ha sido recientemente considerado desde un contexto de la seguridad de los datos [13], pero es un enfoque que hemos utilizado para asegurar de forma prospectiva integridad de los datos en la taxonomía molecular del estudio del cáncer de pecho Consorcio Internacional (METABRIC) [14], y se han aplicado a otros estudios de cáncer. El enfoque que denomina Badger ( "Talón de matriz de diagnóstico de Genotipo y Relaciones Expresión") y se describe en la sección Métodos. Los ejemplos de dos situaciones (una simple y una más compleja), donde la confusión sobre la identidad de la muestra ha surgido en estudios a gran escala, y se resolvieron mediante tejón, se dan en las figuras 1 y 2.
Uno BeadChip expresión (12 arrays), y dos placas de genotipo de las muestras están ilustradas. En particular, en el panel izquierdo, los lugares previstos de dos muestras se ponen de relieve (en azul y rojo) para las dos tecnologías. El tejón clasifica para la asociación entre estos dos arrays de expresión y las matrices de genotipos son altos e indican que hay una mala asignación. En el lado derecho se muestra la resolución a este ejemplo. No sólo con un simple interruptor podemos coincidir con los arrays de expresión a las matrices de genotipo (ahora con BADGER clasifica de 1), pero ya que las dos matrices de genotipado son de diferentes platos, mientras que los dos arrays de expresión son vecinos, se puede deducir que el error se llevó a cabo en el chip de expresión.
Una serie de pacientes (contempladas en el letra) de la que se toman las muestras (fila del medio, muestras representados como cuadrados) son vistos en algún momento. Algún tiempo más tarde, seis de estos pacientes (E, F, G, I, J, L) que cumplan los criterios para su inclusión en un estudio retrospectivo y se pretende ejecutar las muestras de los pacientes en arrays de expresión (círculos, arriba a la izquierda ) y las matrices de genotipo (círculos, arriba a la derecha). Dado que los pacientes (y por tanto las muestras) forman una secuencia, que incluye el espacio de los titulares en la representación de las matrices para aquellas muestras que no eran adecuados para el estudio en cuestión (indicado por los círculos de trazos para las matrices y el sombreado gris para las muestras) . El tejón clasifica para la expresión y genotipo arrays que se suponía iban a ser asociados con estas seis muestras van desde 949 a 2473 lo que sugiere que no es uno de los seis está asignado correctamente. La resolución es difícil de encontrar si no se sabe acerca de la secuencia original de la muestra, incluyendo las muestras que no son parte del estudio retrospectivo. Cuando resuelto (fila inferior) vemos que las muestras que van a las matrices de genotipos tienen 'cayeron' por una posición con el resultado de que las muestras G y J han sido calculados sobre la expresión, pero no la genotipificación de las matrices, mientras que las muestras H y K (que eran no quiere decir que se ha dirigido a todos) se han dirigido en el genotipo, pero no arrays de expresión. Para los cuatro conjuntos que se han ejecutado en ambas tecnologías, podemos ver que las filas son TEJÓN ahora perfecto. Vale la pena señalar que los arrays de expresión en el que se ejecutan las muestras G y J tienen un alto "puntuación mínima BADGER", que es una señal de que la muestra no figura en ninguna matriz de genotipificación en el estudio.
Nuestro enfoque es conceptualmente similar al enfoque MixupMapper publicado recientemente a este problema [2], pero difiere en la aplicación debido a la naturaleza de los datos a los que lo aplicamos. También se diferencia en la elección del entorno de aplicación, con BADGER siendo desarrollado en I [15] y MixupMapper en Java. En particular, Westra y el enfoque colegas busca encontrar la mejor coincidencia de expresión para una matriz de genotipo, mientras que el nuestro ha sido buscar, en primera instancia, para el mejor partido de genotipo para una gama de expresión. En general, es más fácil identificar el genotipo arrays duplicados de duplicar arrays de expresión y de este modo podemos garantizar, si lo deseamos, que estamos mapeando hacia un conjunto de matrices singulares.
Ambos enfoques se basan en la definición de una distancia entre una expresión matriz y una matriz de genotipificación. Nuestra medida (la "puntuación BADGER ') es la suma (a través de eQTLs) de la diferencia al cuadrado entre el número de alelos' B 'se llama desde la matriz genotipo y el número previsto de la matriz de expresión. MixupMapper, por otra parte, utiliza una suma normalizada de las puntuaciones z de la diferencia entre los valores de expresión predicho y observado. Como detalle adicional menor, MixupMapper considera la magnitud de su puntuación, mientras que BADGER se ve en la fila. Naturalmente, una puntuación baja es indicativa de un partido. La gran mayoría de las matrices (idealmente todos menos uno) no va a ser un partido, por lo que la puntuación de una matriz que hace juego debe ser periférica y tomar un rango de uno.
A medida que el concepto de identificación de errores de chapado utilizando eQTLs se ha demostrado, no vamos a centrar en justificar o demostrar el enfoque una vez más (aunque se presentan algunos de esos resultados). Más bien, vamos a poner de relieve las dificultades de aplicar este enfoque a un estudio de la genómica del cáncer de la población, y tenga en cuenta en las distinciones de nuestra toma en el enfoque se prestan a este tipo de datos.
Resultados
Mientras nuestro propósito principal no es demostrar una vez más que un enfoque basado en eQTL a llamar y la identificación de las muestras no coincidentes puede trabajar, observamos que nuestros resultados aquí apoyarían el mensaje de Westra y colegas [2]. En su lugar buscamos destacar algunos de los factores que pueden conducir a una interpretación errónea de los resultados de un enfoque basado en la identificación eQTL a desajustes cuando se aplica en estudios de tumores grandes. En concreto, vamos a considerar los efectos de la pérdida de heterocigosidad (LOH) y la salida de estado diploide que esperamos ver en las muestras tumorales, el impacto de la celularidad, y las consecuencias de tener una mezcla de etnias en un estudio. Además, vamos a informar de cómo el diseño del estudio afecta a nuestra capacidad de utilizar este enfoque
Llamando Mis-asignaciones con muestras tumorales
Westra y colegas [2] en cuenta que es posible ". identificar genotipos que claramente no ha producido ningún arrays de expresión génica ". Con colecciones obtenidos de forma prospectiva de tejido normal esto parecería ser el caso, pero con los estudios retrospectivos de tejido tumoral, una serie de problemas adicionales han salido a la luz. El más obvio es el hecho de que estos métodos esperan ver genotipo llamadas diploides, y las muestras de tumor pueden ser otra cosa que diploide (aunque muchos algoritmos todavía generarán genotipo llamadas diploides a partir de estas muestras). Luego está el tema de la contaminación del estroma de las muestras tumorales. Esto puede, en la muestra de la que se extrajo el ADN, estar a un nivel diferente de la de la muestra de la que se extrajo el ARN. Por último, puede haber una mutación dentro del tumor que interrumpe la biología de conducir las eQTLs en que se basan nuestras pruebas.
Para las 127 muestras para las que los cuatro arrays (SNP /expresión para el tumor y el tejido normal) son disponible, las cualidades de los partidos de tejidos normales y tumorales se muestran en la Figura 3. en general, para ambas matrices de expresión normales y tumorales, la matriz "normal" genotipo resultó ser una coincidencia mejor que la matriz genotipo "tumor".
En 127 cuartetos de matrices genotipo-y-emparejado de expresión de tumores y normales ilustramos la calidad relativa de los partidos entre las cuatro combinaciones diferentes de expresión del genotipo. Los pares de matriz 127 genotipo son claramente bien acompañado (no mostrados). Nuestro enfoque consiste en identificar la calidad de concordancia de una matriz de genotipo a un array de expresión, y todos los resultados dados son un reflejo de esta dirección de la comparación. Para los conjuntos de arrays de expresión tumorales y normales, se indica en las flechas son el número de arrays de expresión para la que las dos matrices de genotipado son igualmente buenos partidos (tienen la misma genotipo llamadas), el número para el que tiene la matriz de genotipificación del tumor para esa muestra una puntuación mejor que la matriz de genotipos normales, y viceversa. Además, en los paneles de esquina, el tejón clasifica para los partidos entre todo el conjunto de datos a la que tenemos acceso son presentados.
La preocupación es, pues, que, en circunstancias en las que no hemos procesado la normalidad genotipo, el genotipo del tumor a veces no ser un buen partido suficiente que nos permita asignar el partido correctamente. Como anécdota, esto parece ocurrir. Una posible explicación es que la naturaleza no diploide (o diploide pero sufren de LOH) del genotipo tumor interfiere con la llamada de SNPs diploides. Si la mayoría de las relaciones /SNP de expresión observados no están vinculados directamente causalmente, entonces esto podría explicar las cualidades de los partidos relativamente pobres de SNP arrays de tumores en comparación con el tejido normal de los SNP.
La celularidad y ARN Calidad
desde que se muestra la matriz genotipo normal a ser un partido mejor que la matriz genotipo del tumor, a pesar de que nuestros eQTLs se definieron principalmente de muestras tumorales, parece razonable suponer que la celularidad (la contaminación de tejido tumoral con el tejido estromal) tendrá poco efecto sobre el rendimiento de los enfoques tales como Badger. la contaminación normal aumentará las posibilidades de llamar SNP heterocigóticos, incluso cuando el tumor se ha sometido a LOH o alelo-específicas número de copias de ADN cambios.
A pesar de la determinación del genotipo alterado llama debido a las aberraciones del número de copias en los tumores pueden impedir enfoques tales como tejón, estos siguen siendo una descripción exacta del tumor y por ello debemos hacer para identificar la muestra y hacerla coincidir con una gama de expresión. Como ya se ha señalado, un pobre expresión serie de calidad también puede interrumpir el proceso [2], pero la calidad de una matriz es estimable y se puede compensar, o la matriz puede simplemente ser descartado (al menos cuando la definición de las relaciones eQTL) .
la figura 4 muestra la asociación entre dos mediciones de la calidad array (ver Métodos) y la puntuación mínima BADGER asociado a una matriz (un indicador de si un SNP gama a juego se pudo encontrar). Ambas estadísticas son buenos indicadores de que el rendimiento de una matriz, con la estadística de hacerlo mejor que P95. Es evidente que al menos uno de los conjuntos programados para estar vacío en realidad tenían una muestra se hibrida con él, y un número que tenían muestras asignadas a ellos fracasaron en la hibridación. Tenga en cuenta que cuando no hay señal en una matriz, la diferencia de rango no es cero como se podría esperar, sino que es esencialmente negativo.
Con el fin de ilustrar una amplia gama de calidades de matriz, esta cifra se incluyen algunos matrices de mala calidad que (por esta misma razón) fueron excluidos de METABRIC. Panel izquierdo: Ilustrando la asociación entre el percentil 95 del diario de intensidades observadas (p95) y la puntuación mínima BADGER asociada a la matriz. Panel derecho: la asociación entre la puntuación mínima y tejón. También se indican, en ambos casos, son las matrices donde estaba programado ninguna muestra a hibridar.
etnias
El uso de componentes principales cargas publicados para la herramienta de mariscos (www.stats.ox .ac.uk /~ Davison /software /mariscos /shellfish.php), se puede proyectar los datos de Affymetrix SNP en un triángulo donde las tres esquinas representan las poblaciones HapMap de los que proceden las cargas. Para mayor comodidad denominaremos los grupos de muestras que se forman en estas esquinas del "grupo de Europa", el "grupo africano", y el "grupo de Asia '. También hemos observado individuos que se encuentran entre los grupos de África y Europa (los que han de integrar en el "grupo de África /Europa) y entre los grupos de Europa y Asia (los que han de integrar en el" grupo de Europa /Asia ').
se traza la puntuación media Badger (NB puntuación no clasifica) asociado a cada matriz genotipo contra el grupo en el panel izquierdo de la Figura 5. vemos que la puntuación media es más baja en el grupo de Europa. Esto es de esperar, ya que el grupo Europa aporta la gran mayoría de los arrays de expresión en nuestra colección y uno no le sorprendería que estos pueden predecir los genotipos que son más similares a los obtenidos de otras muestras en el grupo de Europa. Además, al estar en la mayoría, los pacientes del grupo de Europa en coche las asociaciones eQTL como utilizados por Badger y estas asociaciones pueden ser diferentes entre los grupos.
Cada matriz de genotipificación se compara con cada gama de expresión, y una puntuación asignados a el partido (cuanto menor sea la puntuación, mejor del partido). En el panel de la izquierda, la puntuación media por genotipo matriz se compara con el origen étnico del paciente como se infiere de la matriz de genotipificación. En el panel de la derecha la puntuación mínima asociada a una matriz de genotipificación (un mejor indicador de si existe una coincidencia) se representa por la etnicidad.
Más importante que la puntuación media es la puntuación mínima que, por cualquier matriz de genotipos con una gama de expresión emparejado en el conjunto de datos, se podría esperar que sean comparables independientemente de su origen étnico. En el panel de la derecha de la figura 5 vemos que este no es el caso, y que si bien la mayoría de los grupos son comparables en efecto, el grupo africano exhibe puntajes mínimos que son más altos. No tenemos ninguna
a priori
razones para creer que este grupo será representado sobre-en el número de matrices de genotipado para los que no existe gama de expresión coincidente. Para una proporción relativamente alta de este grupo que no podemos estar seguros del partido entre el genotipo y de expresión, pero esto es más probable que sea una consecuencia de las puntuaciones más altas observadas en el grupo de países africanos que una causa de que
.
no podemos decir, para cualquier par eQTL que utilizamos, que el genotipo que observamos es en realidad conducía la expresión (véase la siguiente sección). En el mejor de que es probable que sea un SNP de marcado para la variante causal (si existe), y el rendimiento del SNP etiquetado variará entre los grupos étnicos. Se ha observado que sólo el 50% de eQTLs se ven en más de una población, y una muy pequeña minoría en varios [16], [17]. Por lo tanto, no nos debe sorprender para ver el comportamiento tal como la mostrada en la figura 6, donde la asociación entre el genotipo y de expresión que es tan clara en los grupos de Europa y Asia no es evidente en el grupo de África. Dado que este grupo está en la minoría, los genotipos predichos generados para estos individuos de una asociación definida por los grupos de Europa y Asia va a ser pobre en el mejor.
Se representan los valores de registro de intensidad de la sonda en Illumina ILMN_1710752 el gen NAPRT1 representa frente a las llamadas de genotipo para el SNP rs10112966 de la sonda Affymetrix SNP_A-4.292.499 (todos en la región 8q24.3 del genoma humano). Naturalmente, sólo se muestran los datos de los arrays de genotipado y de expresión que pueden ser igualados. La asociación se muestra para los tres grupos. La asociación entre este SNP y el gen se ha señalado anteriormente [26], al igual que las frecuencias de los alelos que difieren entre los grupos.
parientes cercanos y Validación
Para ilustrar aspectos adicionales que consideramos una conjunto de datos adicionales: los datos de genotipo y de expresión asociados con la HapMap (Fase I) muestras [18], como se había estudiado por Extraño
et al
. [16], y se utiliza como uno de los conjuntos de datos ilustrativos en el documento MixupMapper [2]. Aunque no es un estudio de cáncer, esto permite que nosotros primero para confirmar que BADGER puede identificar los problemas que MixupMapper identificado, en segundo lugar que nos permite examinar un conjunto de datos con estructuras familiares conocidos, y en tercer lugar se ofrece un estudio ilustrativo con un mayor equilibrio de la etnicidad, la balanza de sexo, y presume una mejor calidad de los datos, ya que este fue un estudio prospectivo. Por último, se ofrece una información más útil fijados para invertir el "poder" de estas técnicas. Ver Sweave S1 para más detalles.
MixupMapper identificaron sólo una confusión en este conjunto de datos, encontrando que el mejor partido de expresión para el genotipo de datos supuestamente de NA18515 muestra fue que, supuestamente, de NA18517 muestra.
En la población CEU, hay un problema con uno de los arrays de expresión asociados con "NA10856" (GSM232786_NA10856_2_2 marcado). Sin embargo, es claro que los otros tres arrays de expresión más adecuadas, y con un poco de investigación, es evidente que los valores de esta matriz son idénticos a uno de los arrays Yoruban (etiquetado GSM232802_NA18503_1_1), pero que los valores difieren en GEO, haciendo es claro dónde surgió el problema. Podemos especular que desde MixupMapper habría encontrado un buen partido para la matriz genotipo NA10856, que no se han notificado este como problemáticos.
Con tejón, también encontramos que las cuatro muestras de expresión asociados con todas NA18515 ofrecer la matriz genotipo asignado a NA18853 como el mejor partido. Es cierto que los arrays de expresión asociados con NA18517 son los mejores resultados para la matriz de SNP mapeado en NA18515, sin embargo esto se debe a NA18517 es una matriz de NA18515. Los arrays de expresión asociados con NA18516 (el otro padre) son la segunda mejor partido. En ausencia de una matriz de expresión para el niño, esperaríamos que el mejor partido sea uno de los padres. De hecho, podemos ver fácilmente a partir de los genotipos de la madre padre trío //niño que el error (si hay un error) debe estar en la gama de expresión
.
La matriz genotipo que ofrece la mejor combinación de todos los arrays de expresión NA18515-asociado es la asociada a los NA18853. El partido es ligeramente peor que la de la matriz de expresión asociada a NA18853, pero notablemente mejor que el asociado con NA18854 (el hijo de NA18853). Comparación del perfil de expresión completo sugiere que la expresión arrays NA18515 no son repeticiones simplemente accidentales de NA18853. Así, la mezcla de arriba es difícil de resolver desde una distancia tan grande, y nos lo recomendaría la eliminación de los arrays de expresión asociados con NA18515 de los análisis, pero dejaría a las matrices de genotipo como son. Tenga en cuenta que estamos usando la matriz de la expresión dada por Westra
et al
. por lo que se puede hacer ninguna reclamación en relación con el estudio original [16].
Mientras que el partido a un pariente cercano tiende a no ser tan buena como la de la muestra correcta, vemos lo suficiente superposición en los valores que si uno de las muestras faltaban entonces estaríamos en peligro de error asociar los dos por ser del mismo individuo. Esto sería presumiblemente más de un peligro si la matriz genotipo faltaban como la existencia de familiares será más difícil de deducir de los datos de expresión.
Tomando los chinos Han y los individuos japoneses, ya que estos no contienen lo que complica la familia grupos, que pueden simular los interruptores de muestra y confirmar la utilidad de tejón. Nos encontramos con que la mitad de las muestras tienen que ser cambiado a requerir más de una iteración productiva (la iteración final es siempre para confirmar que no hay más interruptores para hacer), y dos tercios debe estar encendido para no empezar a ser sin resolver interruptores. Esto puede ser una sobreestimación del rendimiento, ya que nuestro conjunto eQTL "externo" era, de hecho, definida por Westra et al. a partir de estos datos, pero competir contra esto son la falta de sutileza en las correcciones que en la práctica es que ofrece la evaluación humana de los interruptores potenciales y laboratorio de validación entre iteraciones. La evaluación aquí era simplista y automatizado para el estudio de simulación. Aun teniendo en cuenta estos puntos, el hecho de que tendría que ser trastornado antes de un enfoque como BADGER 80 de las 90 muestras no es capaz de agregar valor es notable.
Elección de eQTLs
Definición de la eQTLs desde el conjunto de datos, por tanto, pueden afectar potencialmente a cualquier grupo minoritario genéticamente distintas en un estudio. Westra y colegas [2] mencionan algunos de los beneficios potenciales del uso de eQTLs definidas externamente. Sin duda habría beneficios para hacerlo así que si podríamos asegurar que todos los subgrupos estuvieron representados. Se sabe que el rendimiento de sondas de expresión puede verse afectada por SNPs [19] que pasan a ser cubierto por una sonda particular y que este fenómeno puede imitar el comportamiento eQTL ( 'cis-eQTL artefactos' [20], [21]). Hemos demostrado específicamente que este es un problema para las sondas más largas de Illumina BeadArrays [22].
Muchos estudios eQTL separan dichas sondas de expresión con el fin de evitar falsas asociaciones [23]. Sugerimos que estos "artefactos cis-eQTL 'no sólo ayudan en el proceso según lo observado por Westra
et al
., Pero puede proporcionar una base sólida para la corrección de errores. Mediante la explotación de un artefacto técnico de esta manera, esperamos a ser menos sensibles a los temas diferencias biológicas entre los grupos de pacientes de lo que sería si confiar en una unidad de comportamiento eQTL genuina entre las distintas poblaciones.
Al principio habíamos elegido un conjunto de 383 eQTLs sobre la base de la fuerza de asociación visto en nuestros datos. La importancia de la asociación es tanto una medida de la distribución de los genotipos, ya que es el poder discriminatorio de la asociación de expresión-SNP, pero esto es un primer paso y el conjunto se refina como parte del enfoque BADGER como se detalla en los métodos . Naturalmente, algunos de estos eQTLs son artefactos 'cis-eQTL'. De hecho, este conjunto inicial de sondas de expresión ya se ha enriquecido para las sondas que cubren SNPs con 184 de 383 (48%) que caen en esta categoría en comparación con 11.027 de 34.361 (32%) de las sondas fiables sobre la matriz. Los detalles completos de la cobertura de Illumina SNP arrays de expresión se dan en la Tabla 1. Información similar está disponible para los vectores Affymetrix [24].
Cuando el conjunto de asociaciones de expresión-SNP se reduce a 125 pares de sonda , que se enriquece aún más para las sondas de SNP que cubren. Sólo el 26% de las 199 sondas que no cubren los SNPs sobrevivir en el conjunto refinado, mientras que esto aumenta a un 33% de las 119 sondas que cubren un SNP, el 47% de las 38 sondas que cubren dos SNPs y 59% para las 27 sondas que cubren más de dos SNPs.
Para reforzar este punto, entre nuestro conjunto, hay una tendencia a que los más SNPs la sonda expresión abarca, menores serán las discrepancias entre los valores predichos y observados de la SNP-sonda en la asociación eQTL. Esto se muestra para los grupos de Europa y África en la Figura 7. Nuestros eQTLs están sesgadas hacia el grupo de Europa, que contiene la mayor parte de nuestras muestras y así las asociaciones observadas son más fuertes para este grupo. A pesar de las asociaciones en el grupo de África son en general más débiles, las sondas que cubren múltiples SNPs todavía explican una proporción útil de la variación de log-expresión y si se eligen de manera imparcial (por ejemplo, basándose exclusivamente en la anotación) que pueden proporcionar un conjunto de sondas que se . será fiable a través de los diferentes grupos de población
Trazado para el conjunto de 383 eQTLs, la media al cuadrado (residuos predichos - recuentos B-alelo observado) contra el número de SNPs que se encuentra "en" la sonda de expresión de acuerdo con la anotación. En promedio, las predicciones están más cerca de las observaciones de las sondas que se encuentran a través de múltiples SNPs.
Diseño de Experimentos
disposición de las placas de diagnósticos basados en el sexo
Por elegir distintos pero diferentes patrones, por sexo, por la disposición de la muestra en un plato, y asegurar que los patrones no tienen simetría rotacional, el trazado de los sexos inferidos de muestras por placa proporcionará un diagnóstico claro y definitivo en cuanto a si la correcta placa se ha utilizado y si en la orientación correcta. Individual, simple, interruptores de muestras vecinas (en la columna o fila) puede no ser recogido, pero podemos maximizar las posibilidades de hacerlo eligiendo los patrones bajo nuestras limitaciones que reduzcan al mínimo el número de pares vecinos (en columnas o filas) de la
mismo sexo.
Si los números de los sexos son iguales en un estudio, un patrón de tablero de ajedrez reduce al mínimo el número de pares vecinos del mismo sexo, pero tiene simetría rotacional. Las pequeñas perturbaciones del patrón de tablero de ajedrez serán susceptibles de confusión (ya sea a sí mismos a través de una rotación y un pequeño número de interruptores), o el uno al otro (a través de un poco más conmutadores). Parece probable que un patrón regular será preferible, para facilitar la creación de la placa, y si se necesita sólo un pequeño número de placas, entonces este puede ser factible. Ten en cuenta que con el fin de evitar las simetrías rotacionales, y placas indistinguibles, el número de interruptores simples en una placa que dejará de ser detectable (es decir, el número de pares de muestras vecinos del mismo sexo) aumenta rápidamente (se muestra en la Figura 8) .
se ilustran tres patrones diferentes de sexo (indicado por el color) por el que las muestras podrían ser expuesto. Hay 172 juegos diferentes de pares vecinos (haciendo caso omiso de las diagonales) que se pueden identificar en una placa de 8 × 12, 172 y así las oportunidades para un simple interruptor de muestras vecinos. Para el enfoque más simple ilustra, 36 de ellos (tres en cada columna) son del mismo sexo y por lo que no sería capaz de usar el sexo como un identificador de detectar la conmutación de estas muestras. La inversa de este diseño será idéntico en rotación con el diseño ilustrado y por lo que puede no ser deseable utilizar ambos. Por lo tanto nos vemos rápidamente la necesidad de diseños más complicados como el segundo ilustra aquí. Varios permutaciones de las cuatro columnas básicas producirán diseños aceptables (y distinguibles), con algún pequeño efecto sobre el número de la muestra cambia identificable por el diseño. La tercera diseño muestra cómo una disposición posiblemente atractiva, desde el punto de vista de la conveniencia, tiene poca capacidad para detectar simples interruptores de muestras - apenas haciendo mejor que un diseño aleatorio.