Extracto
En la biología del cáncer, es muy importante entender los cambios fenotípicos de los pacientes y descubrir nuevos subtipos de cáncer. Recientemente, las tecnologías basadas en microarrays han arrojado luz sobre este problema sobre la base de perfiles de expresión génica que pueden contener valores atípicos debido a ya sea por razones químicas o eléctricas. Estos subtipos no descubiertos pueden ser heterogéneos con respecto a las redes o vías subyacentes, y están relacionados con sólo unos pocos de los biomarcadores interdependientes. Esto motiva la necesidad de los métodos basados en la expresión de genes robusta capaces de descubrir tales subtipos, elucidar las estructuras de red correspondientes y la identificación de biomarcadores relacionados con el cáncer. Este estudio propone la agrupación t de Student basado en modelos penalizado con covarianza no restringida (PMT-UC) para descubrir los subtipos de cáncer con las redes específicos del clúster, teniendo en cuenta las dependencias de genes y tener robustez frente a los valores atípicos. Mientras tanto, la identificación de biomarcadores y la reconstrucción de la red se consiguen mediante la imposición de una sanción de adaptación de los medios y las matrices de escala inversa. Se ajusta el modelo a través del algoritmo de maximización de la expectativa que utiliza el lazo gráfico. Aquí, un criterio de selección de genes basado en la red que identifica biomarcadores no los genes como individuales sino como subredes se aplica. Esto nos permite implicar a bajas biomarcadores discriminativos que desempeñan un papel central en la subred mediante la interconexión de muchos genes expresados diferencialmente, o que tienen estructuras de red subyacentes específicos del clúster. Los resultados del experimento de simulación de datos y un conjunto de datos sobre el cáncer disponible dan fe de la eficacia, la robustez del PMT-UC en el descubrimiento subtipo de cáncer. Moveover, PMT-UC tiene la capacidad de seleccionar los biomarcadores relacionados con el cáncer que han sido verificados en la investigación bioquímica o biomédica y aprender la correlación significativa entre los genes biológica
Visto:. Wu MI, Dai DQ, Zhang XF, Zhu Y (2013) cáncer Subtipo Descubrimiento y biomarcadores de identificación a través de una Red de Nueva robusto algoritmo de clústeres. PLoS ONE 8 (6): e66256. doi: 10.1371 /journal.pone.0066256
Editor: Zhi Wei, Instituto Tecnológico de Nueva Jersey, Estados Unidos de América
Recibido: 8 Febrero 2013; Aceptado: 2 de mayo de 2013; Publicado: 17 Junio 2013
Copyright: © 2013 Wu et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Financiación proporcionada por la Fundación Nacional de Ciencias de China (90920007, 11171354), y el Ministerio de Educación de China (20120171110016). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
Con la acumulación cada vez más de los perfiles de expresión de todo el genoma, basado en el método de microarrays se convierte en una técnica clave para la identificación de genes relacionados con el cáncer (biomarcadores) y el descubrimiento de nuevos subtipos de cáncer [1]. En comparación con los factores de riesgo clínicos y patológicos, tales como la edad del paciente, tamaño del tumor y el estado del receptor de esteroides, la comprensión de los genes subyacentes pueden comprender mejor la fisiología del cáncer [2] - [4], y es más eficaz para la detección de nuevos subtipos de cáncer, tales como el cáncer de mama [5], [6], cáncer de ovario [7], cáncer de colon [8]. Estos subtipos pueden tener diferencias en expresión de genes o proteínas, genes redes de regulación o de señalización de proteínas [9]. La predicción de estos subtipos de perfiles de expresión génica se puede ver como un problema de la agrupación, y la búsqueda de los genes para la predicción puede ser considerado como un problema de selección de variables a partir de datos sin etiqueta de alta dimensión.
Uno de los retos de descubrimiento subtipo de cáncer es que las diferencias en la red o el nivel de la vía a través de estos subtipos pueden hacer los agrupación enfoques convencionales basadas en perfiles de expresión génica diferencias inadecuadas [9]. El descubrimiento de estas redes y vías es muy importante en la comprensión de la función biológica de los genes colectiva y su impacto en los cambios fenotípicos de los pacientes [9] - [12]. Además, los biomarcadores se seleccionan a menudo de forma independiente en función de sus capacidades discriminatorias [13]. Sin embargo, los genes a menudo necesitan interactuar con otros a participar en algunos procesos biológicos o funciones moleculares [14] - [17]. Algunos de ellos pueden ser no expresaron diferencialmente, pero pertenecen a una subred que tiene la actividad general o discriminativo es una vía útil para un subtipo específico [3], [9], [18]. Por lo tanto, la tarea de descubrir los subtipos, la aclaración de sus estructuras de red correspondientes, y elegir los biomarcadores basados en la red sigue siendo muy importante en el campo de la biomedicina.
Existen varios métodos de agrupación aplicado sobre la expresión génica de datos para dividir las muestras biológicas [19]. El agrupamiento basado en el modelo que tiene un marco probabilista sólido se utiliza ampliamente en biomarcador y subtipo de cáncer de descubrir debido a su buen funcionamiento, interpretabilidad y facilidad de implementación [20]. En la actualidad, el proceso de selección de genes de la mayoría de los enfoques están diseñados mediante la imposición de restricciones de penalización en la probabilidad de lograr una solución escasa.
Para el agrupamiento basado en modelos penalizado, con el fin de reducir el número de parámetros, uno común supuesto es que cada grupo tiene una matriz de covarianza diagonal, por lo que los genes se supone que son independientes. Cada cluster a menudo se modela como variable aleatoria extraída de mezcla de distribución de Gauss, y se combina con varias sanciones, como la pena, pena de adaptación y el grupo sanción [21], [22]. Puesto que el log-probabilidad de distribución gaussiana decae cuadráticamente con la distancia desde el centro, que es sensible a los valores atípicos que se observan comúnmente en experimentos de microarrays debido a razones bien químicos o eléctricos [23]. t agrupación una más sólida del estudiante basado en el modelo penaliza con covarianza diagonal (PMT-DC) se introduce en [24] para lidiar con el ruido y los genes extremas. También proporcionan un camino para la clasificación de genes en función de su contribución al proceso de agrupamiento con un procedimiento de arranque. Sin embargo, los métodos anteriores ignoran las dependencias entre los genes dentro de los subtipos de cáncer. Se propone un modelo de mezcla gaussiana regularizado a adoptar diversas dependencias en cuenta al permitir un tratamiento de matrices de covarianza generales. Un algoritmo expectativa maximización (EM) utilizando el lazo gráfica se utiliza para la estimación de parámetros, y logra mejores subtipo descubriendo el rendimiento y la selección de genes [20]. Como un intermedio entre una diagonal y una matriz de covariancia general, otra idea de que el modelado de una matriz de covarianza utilizando algunas variables latentes como se hace en la mezcla de los analizadores de los factores se introdujo [25]. Tiene más limitaciones y es más complejo que el método basado en una matriz de covarianza no restringida. Sin embargo, es más eficaz si algún supuesto covarianza variable inducida latente tiene en el conjunto de datos de expresión génica. Ambos métodos tienen dificultades para hacer frente a los valores atípicos debido a su supuesto gaussiano. Estos métodos basados en modelos convencionales penalizados sólo seleccionan los genes sobre la base de la respuesta media, e ignoran sus implicaciones para las redes subyacentes o caminos que son muy importantes en la comprensión de la función biológica colectiva
.
Motivado por los retos que plantea la subyacente a las redes o las vías y los valores extremos observados en el conjunto de datos de alta dimensión de la expresión génica, y las limitaciones de los métodos anteriores, este estudio propone t agrupación de Student basado en modelos penalizado con covarianza no restringida (PMT-UC) para el descubrimiento subtipo de cáncer y la identificación de biomarcadores. El nuevo método propuesto se basa en la distribución t de Student multivariante que hace que el algoritmo no se verá afectada por los genes extremos o inusuales. A diferencia de PMT-DC con la suposición de independencia, con el fin de examinar la relación entre los genes y descubrir los subtipos de cáncer que difieren en términos de estructuras de red subyacentes, una covarianza no restringida específica de cluster se utiliza en lugar de la covarianza diagonal. El desarrollo de los algoritmos para la estimación de grafos dispersos mediante la aplicación de una sanción a la matriz de covarianza inversa [26], [27] crea la idea de que teniendo en cuenta la dependencia de genes factible. Nos imponen una sanción de adaptación de los medios y las matrices inversas escala para lograr la identificación de biomarcadores basados en la red y la reconstrucción de la red. Se ajusta el modelo a través de un algoritmo EM utilizando el lazo gráfico. Un nuevo criterio de selección de genes se introduce para encontrar los siguientes genes informativos: los genes que tienen medios específicos del clúster, los genes que no se expresan de forma diferente, pero interactúan con algunos genes discriminativo para formar una función biológica colectiva, y los genes que tienen de clases estructuras subyacentes de red específicos. Mediante la aplicación del nuevo modelo de conjuntos de datos simulados y un conjunto de datos sobre el cáncer disponible públicamente, se muestra que el algoritmo es robusto frente a valores extremos en la agrupación, la selección de genes y los procesos de reconstrucción de la red de forma simultánea, y da resultados competitivos con los algoritmos del estado de la técnica en la detección de nuevos subtipos de cáncer. Muchos biomarcadores identificados se han verificado en la investigación bioquímica o biomédica. El (GO) Gene Ontología análisis muestra que los genes en la misma subred seleccionada por el nuevo método propuesto tienen correlación biológica y funcional significativa.
Métodos
Esta sección introduce al estudiante basado en el modelo del penalizado t agrupación con covarianza no restringida (PMT-UC) para seleccionar un número pequeño de genes, que puede ser utilizado para clasificar las muestras en grupos presentes en la naturaleza, y para descubrir la relación entre los genes.
el Marco de PMT -uc
Supongamos que hay muestras dimensionales independientes, donde representa la expresión génica de los genes. Los genes se han normalizado para tener una media 0 y varianza 1 a través de observaciones.
Cada muestra se supone que vienen de una distribución de la mezcla con los componentes de los cuales la función de densidad de probabilidad es (1) en la que incluye todos los parámetros en el modelo, es la proporción de componentes con la mezcla no negativo, y es los parámetros desconocidos conjunto correspondiente a.
Cada componente se especifica como la distribución t de Student multivariante con los parámetros establecidos, ¿dónde está el parámetro de localización, es la escala matriz y es los grados de libertad. Tiene la densidad de probabilidad (2) donde es la función gamma, y denota el cuadrado de Mahalanobis distancia entre y. La media y la matriz de covarianza de una distribución t de cada estudiante es y, respectivamente. En general, el conjunto de parámetros se puede estimar mediante la maximización de la función de probabilidad logarítmica.
Sin embargo, ya que el número de genes es a menudo mucho más que el número de muestras, la estimación de máxima verosimilitud de es probablemente singular. La matriz de escala inversa se denota como con los elementos. En los últimos años, un número de autores introducen muchos enfoques para producir una covarianza definida positiva mediante el aumento de la escasez de [26], [27]. La estructura de una red generalmente se construye sobre la base de la correlación o la correlación parcial [28]. En este trabajo, la correlación parcial se puede derivar de la matriz de escala inversa. La correlación parcial se utiliza en lugar de la correlación para presentar la relación entre dos genes debido a su capacidad de factorizar la influencia de otros genes. Por lo tanto, pueden reflejar la relación entre los genes de clúster y puede ser considerado como las redes o vías de genes. La afirmación de que la mayoría de los genes (genes) productos sólo interactúan con unos pocos genes (productos de genes) indica la escasez de en términos de interpretación biológica [15]. Nos imponen una sanción de adaptación en los elementos fuera de la diagonal de hacer frente a la escasez de [29].
Además, la escasez de la media se considera, que se utiliza a menudo para la selección de genes. El gen discriminativo basado en la media se define para tener medios específicos del clúster, no importa si tiene un varianzas comunes o específicos del clúster [20]. Específicamente, tiene al menos un distinto de cero ya que las muestras se han normalizado para tener media 0 para cada gen. Por lo tanto, imponer una sanción de adaptación en cada uno para reducirla a cero [29].
A continuación, sobre la base de la función de log-verosimilitud penalizada que consiste en función de log-verosimilitud y término de penalización, la función objetivo del PMT- UC que maximizar es la siguiente: (3) donde, e incluye los parámetros de regularización no negativos y para s y s, respectivamente. Los parámetros de regularización controlan la escasez del modelo. Cuanto mayores sean los valores de y, más genes serán noninformative e independiente. La pena de adaptación es una versión ponderada de la pena con un peso o para cada componente. Logra las tres propiedades deseables a la vez que puede producir soluciones dispersas, asegurar la consistencia de la selección del modelo, y dar lugar a estimaciones sesgadas de grandes coeficientes [30].
Inferencia Algoritmo
Este estudio utiliza la expectativa maximización (EM) algoritmo [31] para la optimización de la función objetivo para dado fijo y. Al igual que en [20], [24], cada muestra se supone que tiene un correspondiente indicador vector no observado, especificando el componente de la mezcla que pertenece. Si proviene de componente a continuación, de lo contrario. Teniendo en cuenta, sigue la distribución t de Student con la función de densidad de probabilidad. De acuerdo con el hecho de que la distribución t de Student se puede escribir como una distribución gaussiana multivariante con la matriz de covarianza reducido por el recíproco de una variable aleatoria Gamma, se introduce los datos que faltan adicional, donde cada elemento de sigue la distribución Gamma [32]. A continuación, el penalizado-completo de datos de log-verosimilitud de los datos es completa (4), donde se puede expresar como el producto de las funciones de densidad de probabilidad de la distribución gaussiana y Gamma (véase el texto S1 para más detalles).
El EM algoritmo iterativamente se aplica un paso expectativa (e) para calcular el valor esperado de con respecto a la estimación actual de los parámetros en el TH iteración, y una maximización (M) paso para encontrar los parámetros actualizados al maximizar, hasta lograr un criterio de parada.
el paso E. El valor de depende de los siguientes tres expectativas (véase el texto para más detalles S2)
.
Desde sigue la distribución multinomial y viene de la distribución de la mezcla con la función de densidad de probabilidad, el valor de está dada por (5)
puede ser considerada como la parte posterior de probabilidad de pertenencia a la TH clúster. Al ver que la distribución gamma es conjugado a sí mismo (auto-conjugado) con respecto a una función de probabilidad de Gauss, tenemos (6) y
(7), donde es la función digamma [32].
paso m. En primer lugar, la actualización de está dada por la equationwith la restricción como
(8) En segundo lugar, el valor de la TH iteración es una solución de la ecuación (9), donde. En este trabajo, ya que la solución de (9) está en forma no cerrada, la función R "nlminb" se utiliza para encontrar la solución numérica de [24].
En tercer lugar, el objetivo es maximizar ( 10) para obtener la actualización para. En el paso, se definen para ser
los pesos adaptativos
(11) El parámetro se introduce con el fin de proporcionar la estabilidad y para asegurar que un componente de valor cero puede escapar de cero en la siguiente iteración [33]. Cuando es demasiado pequeño, el componente de valor cero aún tiene gran peso que seguirá siendo cero en la siguiente iteración. Cuando es demasiado grande, se hace la diferencia entre los s o s no significativos y permite que muchos componentes distintos de cero-valorado, lo que resulta en un modelo complejo e inexacto. Se le ha asignado varios valores durante el procedimiento experimento. Se muestra que es apropiado. Las estimaciones iniciales y son elegidos como los resultados estimados por la pena.
Al considerar la diferenciabilidad de con respecto a dos casos que y, la estimación de actualización es el siguiente (véase el texto para más detalles S3) [20] : si (12) a continuación; de lo contrario
(13) Después de dejar a los términos no relacionados con en, tenemos (14), donde
Este problema de optimización se puede resolver utilizando el lazo gráfica de los cuales los correspondientes R paquete "Glasso" está disponible en CRAN [27]. El lazo gráfica está diseñado para considerar el problema de la estimación de grafos dispersos por una pena de lazo aplicado a la matriz inversa de covarianza [27]. Se propone primero para la maximización de la gaussiana de probabilidad logarítmica de los datos con respecto a la matriz de covarianza. El nuevo método propuesto tiene en cuenta en lugar de la matriz de la muestra de covarianza, donde contiene una información a posteriori de la muestra, y se puede reducir el efecto de los valores atípicos en este problema de optimización.
Selección del modelo
hay tres parámetros que necesitan ser estimado antes de que el algoritmo de PMT-UC, incluyendo el número de grupos, los parámetros de penalización y. En este documento, el siguiente peso aproximado de criterio de pruebas (AWE) basado en una aproximación a la clasificación de probabilidad logarítmica se utiliza para el modelo de selección: (15) donde es el número efectivo de los parámetros en el modelo con y [34], [ ,,,0],35]. Se impone una sanción más elevada en el modelo más complejo que el BIC y es capaz de identificar el número correcto de las agrupaciones incluso cuando las densidades de los componentes se misspecified [36], [37]. Una red de búsqueda se aplica para encontrar el óptimo que tiene el AWE mínimo.
Subtipo Descubriendo a través de clústeres
Después de la estimación de los parámetros en PMT-UC, grupos puede entonces ser definida como muestras siguientes la distribución similar, que se determina por el valor de la probabilidad posterior. Dada una muestra, PMT-UC predice el subtipo de cáncer del perfil de expresión génica mediante la que da la mayor probabilidad a posteriori, es decir.
La aclaración de la red subyacente Estructuras
Podemos entonces dilucidar la estructuras subyacentes de red específicos del clúster en base a la matriz de escala inversa. Una red específica de cluster se puede representar como grafo no dirigido, con los genes como los vértices y aristas como sus relaciones basadas en. Los bordes se conectan aquellos genes cuya correlaciones parciales derivados de son más grandes que. A continuación, una subred se define como un conjunto que contiene genes y los bordes que induce un solo componente conectado en esta red. Estas subredes específicos del clúster indican las diferentes relaciones entre los genes con diferentes subtipos de cáncer y son considerados como las estructuras subyacentes de la red.
basada en la red de biomarcadores de identificación
Debido a que los genes en una célula rara vez actúa solo, sino que forman una red de interacciones [14], los biomarcadores se identifican como subredes de genes que interactúan en lugar de genes individuales en este documento. Específicamente, en primer lugar, elegir las subredes definidas anteriormente. En segundo lugar, en consideración del hecho de que el gen ruidoso y el gen informativo no están correlacionados unos con otros [20], [38], las subredes que tienen al menos un gen discriminativo basado en media se eligen como biomarcadores de subred. Este criterio de selección de genes puede identificar genes que no se expresan diferencialmente pero interactuar con algunos genes discriminativos para formar una función biológica colectiva. Por último, las subredes restantes de los cuales la estructura interna (la relación entre los genes) son diferentes entre También se consideran como biomarcadores para aclarar las estructuras subyacentes de red específicos del clúster.
El algoritmo final de PMT-UC
la figura 1 resume el algoritmo detallado para descubrir subtipos de cáncer, las estructuras subyacentes de la red, y los biomarcadores basados en la red a través de la PMT-UC. Para cualquier dado, el resultado de K-medio se utiliza como la inicialización para el algoritmo EM. Con el fin de evitar el óptimo local de K-means, corremos todo el algoritmo cinco veces con aleatoria K-means inicialización, y elegir el resultado que dé el mayor valor de la función objetivo (3).
resultados y Discusión
simulaciones
Un conjunto de datos con los genes redundantes es simulada para evaluar la agrupación, la selección de genes y el rendimiento de la red de reconstrucción del método. El conjunto de datos de muestra y los genes informativos con dimensión de entrada. se toma para ser mayor que el tamaño de muestra de cada grupo de modo que la covarianza de la muestra de cada grupo no es reversible. Los primeros genes informativos provienen de una distribución t de Student multivariante-dimensional para la TH clúster. El resto de genes ruidosos que son independientes de los genes informativos se distribuyen independiente e idéntica a partir de la distribución t de Student univariante para todos los grupos. Los grados de libertad afectarán el nivel de ruido del conjunto de datos. Cuanto menor sea el grado de libertad de los extremos son mayores el conjunto de datos va a tener.
En primer lugar, el conjunto de datos con dos clusters se simula, que tienen muestras para cada grupo. Tres casos se consideran en los siguientes experimentos para estudiar los efectos de los valores extremos en el rendimiento del método [24]. Cuando, la distribución del conjunto de datos simulado es aproximada a la distribución de Gauss. Para cada uno de los tres casos, se consideran los siguientes cuatro ajustes:
set-up 1 tiene medios específicos del clúster con y, y la matriz diagonal escala común con, donde es una matriz identidad de dimensión n
set-up 2 tiene medios específicos del clúster con y, y la matriz de escala no diagonal común con. es una matriz de simetría escaso que tiene los elementos de la diagonal y los elementos no diagonales con la excepción de,.
set-up 3 tiene medios específicos del clúster con y, y utiliza dos matrices escala dispersos generales generadas por el procedimiento similar se describe en [9], [26]. Una matriz diagonal con los mismos elementos de la diagonal positivos se genera en primer lugar, a continuación, un número dado de nonzeros se insertan aleatoriamente en los lugares no diagonales de la sección especificada de la matriz simétrica. El número de entradas no diagonales diferentes de cero se establece en. Un múltiplo de la identidad es la adición a la matriz para asegurar la definiteness positivo. Por último, cada elemento se divide por el elemento de la diagonal correspondiente para generar la matriz de escala inversa. En esta puesta en marcha, y.
ajuste 4 tiene medios específicos del clúster con y, y matrices similares no diagonales escala como de ajuste 3 y con
.
bajo el modelo de simulación se ha indicado anteriormente, nos propusimos, y similar a la introducida en [20]. Para cada configuración, la simulación se repite 50 veces y equipado con,, y.
PMT-UC se compara con penalizado agrupación de Gauss basado en modelos con covarianza no restringida (PMG-UC) y penalizado modelo basado en t de Student con la agrupación de covarianza diagonal (PMT-DC) en términos de los criterios siguientes de evaluación. El Índice de Rand (RI), el Índice de Rand ajustado (ARI) y las frecuencias de los números seleccionados (n) de grupos (K) se utilizan para evaluar la capacidad del método para el agrupamiento [20]. Con el fin de cuantificar la capacidad del método para la reconstrucción de la red, la distancia de Hamming estructural (SHD) entre las redes verdaderas e inferidos se calcula, que es el número de diferencias de borde para transformar una red a otra red [9]. El SHD más pequeño indica la aproximación más cercana a la red verdadera. Los dos índices siguientes se utilizan para la evaluación del rendimiento de la selección de genes, el número de variables informativas seleccionado incorrectamente que no informativa (falsos negativos, FN) y el número de variables no informativa correctamente seleccionado (verdaderos negativos, TN) [20].
efecto del parámetro.
el efecto del parámetro que está diseñado para la estabilidad del algoritmo en el rendimiento del PMT-UC se discute en términos de las cinco medidas introducidas anteriormente (RI, Ari , SHD, FN y TN). En particular, se corre PMT-UC en un conjunto de datos fijada de acuerdo con la puesta a punto 4 con la cual el conjunto de datos tiene mayor nivel de ruido, un menor número de genes con medios específicos del clúster y algunos genes con estructuras de red específicos del clúster, con diferentes valores de ( ). La Tabla 1 muestra las medias y las desviaciones estándar de cinco medidas en 50 simulaciones con respecto a diversos valores de en esta configuración. Cuando no es demasiado grande, el rendimiento del algoritmo tiende a ser bastante robusto para la elección de. Dado que los resultados muestran con alguna mejora con respecto a las otras situaciones, se ajusta a 0,1 en los siguientes experimentos.
Efecto de la inicialización.
La convergencia de PMT-UC es estudiado por teniendo en cuenta los resultados correspondientes con respecto a diferentes inicializaciones utilizando K-means. Este estudio también depende de la puesta a punto con 4. Un conjunto de datos simulados es fijo y todo el procedimiento se aplica diez veces de las cuales utiliza cada vez cinco K-significa inicializaciones. Las desviaciones estándar de los parámetros seleccionados y los resultados del experimento de estos diez experimentos pueden ser considerados como los índices de evaluación para la convergencia de PMT-UC. Para reducir la variabilidad, cinco conjuntos de datos se generan, y los promedios y las desviaciones estándar de los resultados para cada conjunto de datos son la lista en la Tabla 2. Se muestra que los resultados de la agrupación y el gen de selección no tienen cambio significativo con diferentes inicializaciones. Sin embargo, el algoritmo completo PMT-UC tiene una cierta variación en términos del parámetro y el desarrollo humano sostenible resultados que corresponden a la red de reconstrucción.
resultados de la agrupación.
Los resultados de la agrupación experimento los cuatro montajes con se muestran en la Tabla 3. Como los conjuntos de datos provienen de una distribución aproximada de la distribución de Gauss, tanto PMT-UC y PMG-UC siempre identifican correctamente los dos grupos. Para montajes 1, 2, 3, PMT-UC funciona de forma ligeramente mejor que el PMG-UC en la identificación de las estructuras de agrupamiento, como se resume por el RI o ARI en la Tabla 3. Para la puesta a punto 4, con la presencia de más variables de ruido basado en la media, RI y Ari de PMG-UC, disminuyen drásticamente a 0,734 y 0,47. Para puesta a 1 con el verdadero modelo con una matriz de covarianza diagonal, tanto PMT-UC y PMT-DC tienen actuaciones similares de agrupación. Cuanto más fuerte es la correlación entre las variables, es más probable para el PMT-DC para obtener más agrupaciones por error y tiene un rendimiento deficiente agrupación. Especialmente, para PMT-DC con la hipótesis de la independencia, el conjunto de datos en la puesta a punto 4 sólo tiene cinco genes informativos, lo que se traduce en la alta tasa de errores de agrupamiento.
Para investigar el efecto de los valores atípicos, que utilizar los grados más pequeños y. La Tabla 3 también muestra los resultados para los cuatro montajes con estos dos casos. Como era de esperar, PMG-UC realiza mal con grados más pequeños, y es más sensible a las observaciones extremas. Para puesta a punto 1, los resultados de la agrupación de PMT-DC no cambian significativamente con la disminución de los títulos por su robustez y la hipótesis de la independencia. Sin embargo, a menudo no puede encontrar las verdaderas estructuras de agrupamiento en los otros tres montajes. En resumen, los resultados para montajes 1-4 demostrar que cuando PMT-UC tiene un mejor rendimiento de la agrupación PMG-UC y PMT-CC para los conjuntos de datos con los genes informativos independientes o correlacionados, y es robusto a los valores atípicos.
Red de reconstrucción.
la figura 2 muestra los diagramas de caja de SHD-clúster específico entre las redes estimados y verdaderos más de 50 simulaciones de las anteriores cuatro ajustes de los tres casos en los que se establece en 2. Además, representamos gráficamente el patrón de escasez medio que es la matriz de frecuencia relativa para PMG-UC y PMT-UC. Desde PMT-DC asume una covarianza diagonal, no se representa aquí. La matriz de frecuencia relativa se compone de la frecuencia relativa de distinto de cero estimado de cada elemento de la matriz de escala inversa sobre las 50 repeticiones. La Figura 3 muestra los resultados específicos del clúster de los primeros genes informativos (véase S4 de texto para los resultados de los genes en total). Hacemos las siguientes observaciones sobre la base de los resultados dados en las Figuras 2 y 3. En todos los casos, PMT-UC proporciona más pequeño SHD con relación a los otros dos enfoques. Cuando con el que la distribución t de Student es similar a la distribución de Gauss, tanto PMT-UC y PMG-UC son capaces de recuperar la estructura de covarianza inversa escasa para la puesta a punto 1. Está demostrado que, aunque tanto PMT-UC y PMG-UC tienen suposición no diagonal, se puede obtener la covarianza diagonal como la verdad por una sanción suficientemente grande en los elementos fuera de la diagonal de las matrices de covarianza inversa. Para puesta a punto 2, PMT-UC puede identificar con precisión la ubicación de los nonzeros casi cada simulación. Mientras tanto, con el alto valor de los nonzeros fuera de la diagonal de covarianza, PMG-UC puede también recuperar el patrón de covarianza inversa veces. Sin embargo, cuando las correlaciones parciales de los genes no son altos en la puesta a punto 3, con la pena, PMG-UC no tiene el rendimiento de reconstrucción buena red diferente de la del PMT-UC. Para la puesta a punto 4, con el aumento del ruido en términos de la media, el resultado de PMG-UC es oscura. Cuándo o con el que el conjunto de datos tiene un nivel de ruido más alto, PMG-UC es incapaz de recuperarse estructura de la red. Sin embargo, PMT-UC todavía puede descubrir la relación entre los genes bajo la red.
En cada cuadro, la marca central es la mediana, los bordes de la caja son los percentiles 25 y 75, los bigotes se extienden a la la mayoría de los puntos de datos extremos no se consideran valores extremos, y los valores atípicos se representan gráficamente de forma individual. Los resultados mostrados para PMT-UC, UC-PMG y PMT-CC en los cuatro montajes de tres casos. SHD1 y SHD2 son los resultados para el primer y segundo grupos, respectivamente
TRUE:. 1 y verdadero: 2 son las partes de la original y que corresponde a los primeros genes informativos para la primera y segunda agrupaciones , respectivamente. PMT-UC: 1 y PMT-UC: 2 son la estimación de las partes de las matrices de escala inversa utilizando PMT-UC. PMG-UC: 1 y GIP-UC: 2 son la estimación de las partes de las matrices de covarianza inversa utilizando PMG-UC
selección
Gene
La evaluación de selección de dos genes.. índices FN y TN también se resumen en la Tabla 3. para los cuatro montajes, PMG-UC tiende a picos fuera más genes que son poco informativos de PMT-UC y PMT-DC. En montajes de 1 y 3, los genes informativos tienen medios específicos del clúster y pueden ser seleccionados por los tres métodos cuando el conjunto de datos tiene bajo nivel de ruido. Para configuraciones 2 y 3, hay dos genes que no se expresan de forma diferente, pero interactúan con algunos genes discriminativo, y cinco genes que son expresados diferencialmente tampoco, pero que tienen diferentes estructuras de red subyacentes, respectivamente. La Tabla 3 muestra que, entre los tres métodos sólo PMT-UC puede descubrir estos genes.
El conjunto de datos con varios clústeres-cola delgadas
.
En, un conjunto de datos adicionales con los racimos más delgada cola es