Extracto
Los datos que faltan pueden surgir en aplicaciones bioinformáticas para una variedad de razones, y métodos de imputación se aplica con frecuencia a dichos datos. Estamos motivados por un estudio de cáncer colorrectal en los genes miARN expresión se midió en muestras de tumores normales apareadas de cientos de pacientes, pero los datos de muchas muestras normales habían desaparecido debido a la falta de disponibilidad de tejidos. Comparamos el rendimiento de precisión y el poder de varios métodos de imputación, y la atención a la dependencia estadística inducida por K-vecinos más cercanos imputación (KNN). Esta dependencia imputación inducida previamente no se ha abordado en la literatura. Demostramos cómo dar cuenta de esta dependencia, y mostrar a través de la simulación de cómo la elección de ignorar o dar cuenta de esta dependencia afecta tanto poder y el error tipo I control de la frecuencia
Visto:. Suyundikov A, Stevens JR, Corcoran C, Herrick J, Wolff RK, Slattery ML (2015) Contabilización de dependencia inducida por ponderado imputación KNN en muestras pareadas, motivado por un estudio de cáncer colorrectal. PLoS ONE 10 (4): e0119876. doi: 10.1371 /journal.pone.0119876
Editor Académico: Chuhsing Kate Hsiao, Universidad Nacional de Taiwán, Taiwán
Recibido: 19 Noviembre 2014; Aceptó 3 de febrero de 2015; Publicado: 7 Abril 2015
Derechos de Autor © 2015 Suyundikov et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Disponibilidad de datos: El código R para generar los datos simulados se proporcionan (en el archivo de a.zip) como archivo S1, Suplemento Simulación
Financiación:. Esta investigación fue apoyada por una subvención de los Institutos nacionales de Salud, el número de premios 1R01CA163683-01A1; MLS investigador principal, con el subcontrato al JRS
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
Los microARN (miRNA) son pequeños no codificante moléculas de ARN que regulan la expresión génica por la orientación ARN mensajeros. Fueron descubiertos por primera vez en 1993 durante un estudio sobre el desarrollo en el nematodo Caenorhabditis elegans (C. elegans) en relación con el gen de la proteína lin-14 [1]. Lee et al. (1993) encontraron que la abundancia de la proteína de lin-14 estaba regulada por un pequeño RNA codificado por el locus lin-4. Esto se transcribe en una molécula de ARN de 22 nucleótidos que podrían reprimir la expresión de la lin-14 ARN mensajero (ARNm) mediante la interacción directa con su región 3 'no traducida (UTR).
La comunidad científica es actualmente muy interesado en el papel funcional de miRNAs. La biogénesis miARN que funciona correctamente resulta en las tasas normales de crecimiento celular, la proliferación, la diferenciación y la muerte celular. Pero la reducción o supresión de miRNAs que es causada por defectos en cualquier etapa de los genes miARN biogénesis conduce a la expresión inadecuada de las oncoproteínas miARN objetivo que causa el aumento de la proliferación, invasividad o angiogénesis, o disminución de los niveles de apoptosis [2, 3].
La base de datos miRBase, una base de datos de secuencias de genes miARN publicados y anotación, había enumerado 2.588 miRNAs humanos maduros únicas para julio de 2014 (a partir http://www.mirbase.org). Desde miRNAs pueden regular más de un objetivo, se pueden regular de hasta más de 30% de todos los genes codificantes de proteínas en el genoma humano (de http://www.mirnarx.com). Esto hace que los miRNAs uno de los mayores reguladores de la expresión génica.
La asociación entre miRNAs y el cáncer colorrectal (CCR) se informó por primera vez en 2003, cuando el miR-143 y miR-145 genes se downregulated en tejidos tumorales CRC en comparación con los tejidos normales [4]. Desde entonces, varios estudios han demostrado que los miRNAs están ampliamente desreguladas en el CCR [5-7].
Los datos miARN como la mayoría de los datos de expresión pueden ser considerados en forma de grandes matrices de los niveles de expresión de características (filas ) en diferentes materias (columnas). Los conjuntos de datos pueden tener cualquiera de algunas características que faltan en algunas muestras, y todas las características que faltan en algunas muestras. El primer caso se produce a menudo debido a la resolución insuficiente, la corrupción de la imagen, polvo o arañazos en la diapositiva, y otras varias razones experimentales y técnicas, mientras que el último caso puede ocurrir debido a la falta de tejido recogido o fondos limitados. Como ejemplo de este último caso, se presenta el estudio de caso de la investigación para determinar la asociación de miRNAs con CRC en muestras de tumores normales emparejados. Como parte de un análisis preliminar con los primeros temas disponibles, hemos querido comparar los perfiles de expresión de genes miARN de muestras normales y tumorales de cada una de más de 400 sujetos con 2.006 miARN en cada muestra. También se recogió una amplia información sobre las variables demográficas y de estilo de vida de estos pacientes con CCR. No hay muchos estudios de CRC que han recogido estos datos extensos para dichas variables. Sin embargo, en el análisis final, utilizando todos los temas disponibles, el 10% y el 50% de los sujetos tendrán que faltan muestras normales debido a la falta de disponibilidad de tejidos.
El objetivo inmediato en este estudio de caso CRC es entender las alternativas para la imputación, junto con sus fortalezas y debilidades comparativas. Específicamente, deseamos conocer un método de imputación determinado si su aplicación a los datos que faltan miARN entre las muestras normales producirá predicciones exactas de sus niveles de expresión reales, y como tales predicciones se ven afectados además por el porcentaje de sujetos con valores perdidos. Deseamos más para entender cómo estos resultados afectan el poder estadístico para detectar diferencialmente expresado miARN mientras que el control de error de tipo I.
Con la proliferación de los estudios de expresión génica durante la última década, más atención se ha prestado a los métodos de imputación de miARN datos. Los enfoques convencionales a menudo implican simplemente excluyendo miRNAs con valores perdidos, sustituyendo los valores perdidos por ceros, o imputar el uso de medias de fila o columna. Tales opciones ignoran la estructura de correlación de los datos y tienen un poder limitado [8]. Por otra parte, no se aprovechan las variables demográficas o de estilo de vida potencialmente informativos. opciones más sofisticadas utilizan múltiples imputación basada en la cadena de Markov Monte Carlo (MCMC) y algoritmos expectativa de maximización (EM), que permite la incorporación de covariables adicionales [9-11]
En este trabajo, se introduce y evaluar un método de imputación que da cuenta de la dependencia inducida por ponderado Neighbor K-más cercano (KNN) y considera las covariables, más de las múltiples técnicas de imputación utilizando MCMC y EM con algoritmos de bootstrapping, así como el caso técnica de eliminación utilizando características de este gran datos CRC conjunto
Este documento está dispuesta de la siguiente manera:. en primer lugar, se proporciona un resumen de los supuestos y métodos de imputación, así como el método de RMSE para evaluar el rendimiento de varias técnicas de imputación. A continuación, se demuestra la aplicación de las técnicas de imputación utilizando conjuntos de datos de simulación. Por último, se concluye con una discusión de los temas importantes presentados en el trabajo, tales como el desempeño del método de imputación KNN teniendo en cuenta la dependencia sobre las múltiples técnicas de imputación.
Métodos
Antes de realizar una imputación de datos faltantes, es necesario saber si los datos que faltan se produce al azar, como resultado de factores no observados, o se pretende. Hay que tener en cuenta dos supuestos: perdidos al azar (MAR) y perdidos completamente al azar (MCAR) [12]. Los datos que faltan son MAR cuando los valores que faltan no se distribuyen al azar en todas las observaciones, pero están distribuidos al azar dentro de una o más submuestras de datos. Una variable (miARN o
x
) puede considerarse MAR si la probabilidad de observar
x
(condicional a las variables observadas) no depende de
x
. El supuesto MCAR es un caso especial de MAR, cuando los valores de los datos que faltan son una muestra aleatoria simple de todos los valores de datos. Uno puede definir los datos que faltan como no faltan al azar (ARMN) si ninguno MCAR ni suposiciones Mar posee. En este caso, los datos faltantes no pueden ser imputados sobre la base de los datos disponibles. Por lo tanto, las técnicas de imputación sólo se pueden aplicar a los datos que satisface ni suposiciones Mar o MCAR. Las características de los datos CRC miARN cumplir las hipótesis MAR porque la probabilidad de sujetos que tienen falta muestras normales no depende de los valores de expresión de los genes miARN en aquellos sujetos.
Consideramos los siguientes métodos para estimar los niveles de expresión de los genes miARN que falten muestras de pacientes normales: Read
múltiples imputación
La imputación múltiple (MI) fue diseñado originalmente para manejar missingness de uso público en grandes conjuntos de datos [12]. La aplicación del proceso de MI se ha extendido a diversos conjuntos de datos grandes incluyendo microarrays [13]. El método reemplaza cada valor faltante con múltiples valores de sustitución, por ejemplo
m
, que representan la distribución de probabilidad del valor perdido. Un conjunto de datos completo es creado por cada conjunto de empates. Por lo que el
m
imputaciones para cada valor faltante crear
m
conjuntos de datos completos. Se almacenan en una matriz auxiliar, conjuntos de datos imputados múltiplemente con una fila de valor y
m
columnas que faltan. La primera fila de esta matriz se corresponde con el primer conjunto de valores imputados de los valores que faltan, y así sucesivamente. Como los análisis de datos completa, se aplican a cada conjunto de datos imputado multiplicar-(tratamiento de valores imputados como observa plenamente e independiente),
m
diferentes conjuntos de las estimaciones de los parámetros y sus matrices de varianza-covarianza se generan. Para combinar las inferencias a partir de ellos, [12] sugiere que tomar un promedio de todos los resultados, excepto el término de error estándar (SE). La SE se construye por la varianza dentro de cada conjunto de datos, así como la variación entre los elementos imputados en cada conjunto de datos. Estos dos varianzas se suman y la raíz cuadrada de ellos determina la SE. El autor recomienda utilizar no más de 5 imputaciones y número de veces tan pequeñas como 2 o 3 para generar inferencias estadísticas útiles. Utilizamos
m
= 5 para las técnicas de EM en nuestro análisis. Es importante señalar que el análisis de datos completa en MI tratar los datos imputados como si hubieran sido observados por completo. Este enfoque no tiene en cuenta ninguna dependencia de los datos imputados en los datos reales observados plenamente.
MI utilizando la cadena de Markov Monte Carlo (MCMC)
múltiples conjuntos de datos imputados pueden ser generados por el método MCMC , que se aplica a un patrón de datos que falta arbitrario que asume normalidad multivariante. MCMC se ha utilizado para explorar las distribuciones de probabilidad posterior de expresar parámetros desconocidos en las inferencias bayesianas. Usando este método, toda la distribución posterior conjunta de las cantidades desconocidas se simula y las estimaciones de los parámetros sobre la base de la simulación se generan [14].
Este proceso puede describirse en dos etapas. El primer paso es el paso que la imputación que atrae al azar valores para los valores perdidos de la distribución supuesta de los valores dados los valores observados faltante utilizando el vector media estimada y la matriz de varianza-covarianza, es decir, que atrae a los valores de
Y
m
i
s gratis (
t
+
1