Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: preciso y fiable Clasificación cáncer en base a Probabilístico Inferencia de actividad de la vía

PLOS ONE: preciso y fiable Clasificación cáncer en base a Probabilístico Inferencia de actividad de la vía


Extracto

Con el advenimiento de tecnologías de alto rendimiento para la medición de perfiles de expresión de todo el genoma, se han propuesto un gran número de métodos para el descubrimiento de marcadores de diagnóstico que pueden discriminar con precisión entre las diferentes clases de una enfermedad. Sin embargo, factores tales como el tamaño pequeño de la muestra de los datos clínicos típicos, el ruido inherente en las mediciones de alto rendimiento, y la heterogeneidad a través de diferentes muestras, a menudo hacen que sea difícil encontrar marcadores genéticos fiables. Para superar este problema, varios estudios han propuesto el uso de los marcadores a base de la vía, en lugar de marcadores de genes individuales, para la construcción del clasificador. Dado un conjunto de vías conocidas, estos métodos estiman el nivel de actividad de cada vía con un resumen de los valores de expresión de sus genes miembros, y el uso de las actividades de la vía para la clasificación. Se ha demostrado que los clasificadores basados ​​en la vía generalmente obtienen resultados más fiables en comparación con los clasificadores tradicionales basadas en genes. En este trabajo, se propone un nuevo método de clasificación basado en la inferencia probabilística de las actividades de la vía. Para una muestra dada, se calcula el cociente de probabilidad logarítmica entre los diferentes fenotipos de la enfermedad basados ​​en el nivel de expresión de cada gen. La actividad de una vía dada a continuación, se infiere mediante la combinación de las relaciones de probabilidad logarítmica de los genes constitutivos. Aplicamos el método propuesto para la clasificación de la metástasis del cáncer de mama, y ​​demostrar que se logra una mayor precisión e identifica los marcadores de la vía más reproducibles en comparación con varios métodos de inferencia actividad de la vía existentes

Visto:. Su J, Yoon BJ, Dougherty ER (2009) Clasificación del cáncer preciso y fiable Basado en Probabilístico Inferencia de Camino Actividad. PLoS ONE 4 (12): e8161. doi: 10.1371 /journal.pone.0008161

Editor: Gustavo Stolovitzky, IBM Thomas J. Watson Research Center, Estados Unidos de América

Recibido: 18 Septiembre, 2009; Aceptado: 13 Noviembre 2009; Publicado: December 7, 2009

Derechos de Autor © 2009 Su et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Financiación:. Edward R . Dougherty está apoyado en parte por la Fundación Nacional de Ciencia, CCF-0634794. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción

la introducción de las tecnologías de microarrays asequibles para la medición de perfiles de expresión de todo el genoma ha llevado al desarrollo de numerosos métodos para discriminar entre diferentes clases de una enfermedad compleja, como el cáncer, a través del análisis del transcriptoma [1] - [4 ]. Especialmente, se han realizado esfuerzos de investigación significativos para identificar genes expresados ​​diferencialmente a través de diferentes fenotipos [5] - [9], que se pueden utilizar como marcadores de diagnóstico para la clasificación de los estados de enfermedad o predecir el resultado de tratamientos médicos [1] - [4] , [10] - [12]. Sin embargo, la búsqueda de marcadores genéticos fiables es un problema difícil, y varios estudios recientes han puesto en duda la fiabilidad de muchos clasificadores basados ​​en marcadores de genes individuales [13] - [19]. El tamaño pequeño de la muestra de datos clínica típica que se utiliza para construir un clasificador es uno de los principales factores que hacen que este problema difícil. A menudo tenemos que buscar un pequeño número de buenos genes marcadores entre los miles de genes basados ​​en un número limitado de muestras, lo que hace que el funcionamiento de los métodos de selección de características tradicionales bastante impredecibles [20]. El ruido de medición inherente a los datos experimentales de alto rendimiento y la heterogeneidad entre las muestras y los pacientes a tomar el problema aún más formidable.

Una posible manera de abordar este problema es interpretar los datos de expresión a nivel de módulos funcionales, tales como las vías de señalización y complejos moleculares, en lugar de a nivel de genes individuales. De hecho, una de las debilidades de los muchos métodos de clasificación basados ​​en la genética es que los genes marcadores con frecuencia son seleccionados de forma independiente, a pesar de que sus productos funcionales pueden interactuar entre sí. Por lo tanto, los marcadores genéticos seleccionados pueden contener información redundante, y ellos no pueden mejorar sinérgicamente el rendimiento de clasificación global. Podemos aliviar este problema analizando conjuntamente los niveles de expresión de grupos de genes relacionados funcionalmente, que se pueden obtener con base en el análisis del transcriptoma [21] - [23], GO anotaciones [24], o de otras fuentes. De hecho, varios estudios [23], [25] - [28] han demostrado que la vía de marcadores son más reproducibles en comparación con marcadores de genes individuales y que pueden proporcionar importantes conocimientos biológicos sobre los mecanismos subyacentes que conducen a diferentes fenotipos de la enfermedad. Por otra parte, los clasificadores basados ​​en la vía menudo alcanzan clasificación de rendimiento comparable o mejor en comparación con los clasificadores tradicionales basadas en genes
.
Para usar marcadores basados ​​en la clasificación de la vía, necesitamos una manera de inferir la actividad de una determinada vía sobre la base de los niveles de expresión de los genes constitutivos. Recientemente, se han propuesto una serie de métodos de inferencia actividad de la vía para este propósito. Por ejemplo, Guo et al. [25] propuso utilizar la media o el valor medio de expresión de los genes de miembros de inferir la actividad de la vía. Tomfohr et al. [28] y Bild et al. [23] utiliza el primer componente principal del perfil de expresión de los genes miembro para estimar la actividad de una ruta dada. Más recientemente, Lee et al. [26] propuso un método que predice la actividad de la vía utilizando sólo un subconjunto de genes en la vía, llamados los genes de las condiciones del medio (CORGs), cuya expresión combinada niveles puede discriminar con precisión los fenotipos de interés.

este trabajo, se propone un nuevo método para la inferencia probabilística de las actividades de la vía. Para una determinada vía, el método propuesto estima la relación de probabilidad logarítmica entre diferentes fenotipos basados ​​en el nivel de expresión de cada gen miembro. El nivel de actividad de la vía es entonces deducirse mediante la combinación de las relaciones de probabilidad logarítmica de los genes que pertenecen a la vía. Aplicamos nuestro método para la clasificación de la metástasis del cáncer de mama, y ​​demostramos que se puede lograr una mayor precisión en comparación con varios enfoques anteriores basada en las vías. Además, nos muestran que el método propuesto actividad inferencia vía puede encontrar marcadores de la vía más reproducibles que retienen la capacidad de discriminación entre los diferentes conjuntos de datos.

Métodos

Conjuntos de datos

Se obtuvieron dos independientes cáncer de mama a partir de conjuntos de datos de gran escala estudios de expresión génica por Wang et al. [11] (denominado como el conjunto de datos "EE.UU." en este trabajo) y van't Veer et al. [10] (en lo que el conjunto de datos "Países Bajos"). Wang y cols. Conjunto de datos [11] contiene los perfiles de expresión génica de 286 pacientes con cáncer de mama de los EE.UU., donde se detectó metástasis en 107 de ellos, mientras que el 179 restantes eran libre de metástasis. El otro conjunto de datos de van't Veer estudiado por et al. [10] contiene los perfiles de expresión génica de los 295 pacientes de los Países Bajos, donde el 79 tenían metástasis y 216 estaban libres de metástasis. En este estudio, no se consideró el tiempo de seguimiento o la aparición de metástasis a distancia.

Para obtener el conjunto de las vías biológicas conocidas, nos hemos referido a la (base de datos de firmas moleculares) MSigDB versión 2.4 (actualizado en abril 7, 2008) [21]. Hemos descargado las vías canónicas en los conjuntos de genes comisariada C2, que contiene 639 conjuntos de genes obtenidos de varias bases de datos vía, incluida la KEGG (Kyoto Enciclopedia de genes y genomas) de base de datos [29] y el GenMAPP [30]. Estos conjuntos de genes son compilados por los expertos de dominio y proporcionan representaciones canónicas de los procesos biológicos. El conjunto de vías obtenidos de la MSigDB cubre más de 5.000 genes distintos, en los que 3.271 de ellos se pueden encontrar en ambas plataformas de microarrays utilizados por los estudios de expresión génica contra el cáncer de mama en dos [10], [11].

la inferencia probabilística de Camino Actividad

Para cada vía, que identificó por primera vez los genes que se incluyeron en los perfiles de expresión en los dos conjuntos de datos de cáncer de mama. Los genes que no se incluyeron en estos conjuntos de datos se retiraron del conjunto de genes de la vía dada. Considere una vía que contiene genes después de la eliminación de los genes cuyos valores de expresión no estaban disponibles. Dada una muestra que contiene los niveles de expresión de los genes de miembros, se estima la actividad de la vía de la siguiente manera (1) donde es la relación de probabilidad logarítmica (LLR) entre los dos fenotipos de interés para el gen. La LLR está dada por (2) en la que es la función de densidad de probabilidad condicional (PDF) del nivel de expresión de gen bajo fenotipo 1, y es el PDF condicional bajo fenotipo 2. La relación es un indicador probabilístico que nos dice que el fenotipo es más probablemente basado en el nivel de expresión del gen miembro de TH. Combinamos la evidencia de todos los genes de miembros de inferir la actividad general de la vía. La actividad de la vía puede servir como una puntuación discriminante para clasificar la muestra en diferentes fenotipos basados ​​en el nivel de activación de la vía dada. Conceptualmente, podemos ver este enfoque como el cálculo de la ayuda relativa de los dos fenotipos diferentes utilizando un modelo bayesiano [31], [32] basado en el perfil de expresión génica de la vía.

Con el fin de calcular la valor de LLR, es necesario estimar el PDF para cada fenotipo. Suponemos que el nivel de expresión génica del gen bajo fenotipo sigue una distribución gaussiana con media y desviación estándar. Se estimaron Estos parámetros sobre la base de todas las muestras disponibles que corresponden al fenotipo. Los archivos PDF se estima a continuación, se pueden utilizar para calcular las proporciones de probabilidad logarítmica. En las aplicaciones prácticas, a menudo no tenemos suficientes datos de entrenamiento para la estimación fiable de los archivos PDF y. Esto puede hacer que el cálculo de LLR sensibles a pequeños cambios en el perfil de expresión génica. Para evitar este problema, se normaliza la forma siguiente (3), donde y son la media y la desviación estándar de en todas las muestras, respectivamente. La Figura 1 ilustra el procedimiento general para inferir la actividad de una determinada vía.

Para cada gen en la vía, se estima la función de densidad de probabilidad condicional (PDF) bajo diferentes fenotipos. Sobre la base de los archivos PDF estimado, transformamos los valores de expresión de los genes de miembros en proporciones de probabilidad logarítmica (LLR) para obtener una matriz de LLR de la matriz de la expresión génica. La matriz LLR se normaliza, y la actividad de la vía se infiere mediante la combinación de las LLR normalizadas de sus genes miembros.

El poder discriminante del Camino marcadores

Con el fin de comparar la vía propuesta esquema de inferencia actividad con otros métodos existentes, hemos realizado los siguientes experimentos. En nuestro primer experimento, se seleccionaron los 50 mejores vías expresados ​​diferencialmente utilizando el método propuesto por Tian et al. [22]. Para evaluar la capacidad de una vía dada en la discriminación entre diferentes fenotipos, Tian et al. calcula las puntuaciones estadísticas alltests para todos los genes Miembros, tomando su promedio para calcular una puntuación agregada que puede servir como un indicador de la capacidad de discriminación de la vía. Después de la preselección las 50 vías que tienen los mayores valores absolutos, se calculó la puntuación de la actividad para cada una de estas vías utilizando el método de inferencia propuesto, así como otros métodos. Las puntuaciones de actividad de la vía obtenidos se utilizaron para calcular la puntuación de las estadísticas para cada marcador alltests vía. . Las puntuaciones alltests se utilizaron para evaluar el poder discriminatorio de los marcadores de la vía y comparar diferentes métodos de inferencia

En este trabajo, se compararon cinco diferentes métodos de actividad de la vía de inferencia: la media y la mediana de los métodos [25], el método basado en PCA [23], [28], el método basado en CORG [26], y el método de inferencia propuesta en este documento. Para la media, mediana, y los métodos basados ​​en CORG, se calculó la puntuación promediando las puntuaciones alltests de los valores de expresión de los genes miembros. Para el método basado en PCA, se calculó promediando el
absoluta
test puntuaciones de los valores de la expresión génica, ya que el PCA, naturalmente, puede combinar los valores de expresión, independientemente de que se correlacionan positivamente o correlacionados con el fenotipo de manera negativa interesar. Para nuestro método propuesto, se calculó promediando los puntajes alltests de las LLR de los genes miembros, ya que se estimó la actividad de la vía puntuación basada en LLR en lugar de los valores de expresión originales.

También se evaluó la solidez de cada método de inferencia en la identificación de buenos marcadores de la vía, mediante la clasificación de las vías usando uno de los dos conjuntos de datos de cáncer de mama, y ​​luego evaluar el poder de discriminación de las vías basadas en el otro conjunto de datos. Una vez más, se utilizaron alltests estadísticas de los resultados de la actividad de la vía para comparar diferentes métodos de inferencia.

En nuestro segundo experimento, que computa las estadísticas alltests puntuaciones de las 639 vías sin ningún tipo de preselección, y compararon la eficacia de los distintos la vía de la actividad métodos de inferencia basado en los resultados calculados. Como en el primer experimento, también se evaluó la solidez de cada método de inferencia para la búsqueda de marcadores de la vía eficaces, mediante la clasificación de las vías de acuerdo con las puntuaciones alltests estimados usando uno de los conjuntos de datos y, a continuación la evaluación de su poder de discriminación en el otro conjunto de datos.

Evaluación del rendimiento clasificación

con el fin de evaluar el rendimiento de la clasificación de la actividad método de inferencia vía propuesta, hemos realizado los siguientes experimentos de validación cruzada.

En
dentro de experimentos -dataset
, las muestras en un conjunto de datos se dividieron aleatoriamente en cinco subgrupos de igual tamaño, donde se utilizaron las muestras de cada cuatro de estos subconjuntos para entrenar el clasificador y fue utilizado el subconjunto restante para evaluar el rendimiento de la clasificación. Esto se ha repetido utilizando cada subconjunto como el conjunto de prueba para obtener resultados más fiables. El conjunto de entrenamiento se dividen a su vez en tres subgrupos de igual tamaño. Dos tercios fueron utilizados para la clasificación de los marcadores de la vía y la construcción del clasificador (el "marcador-evaluación" conjunto de datos), y se utilizó un tercio del conjunto de entrenamiento de la selección de características (la "-selección de características" conjunto de datos). Todas las muestras en el conjunto de entrenamiento fueron utilizados para estimar los archivos PDF de los valores de la expresión de genes en diferentes fenotipos. Para construir el clasificador, evaluamos cada itinerario basado en el poder discriminativo de su puntuación de actividad para clasificar las muestras. Las vías se clasifican en orden creciente de la indicación de valor. Después de la clasificación de las vías, construimos el clasificador, ya sea basado en la regresión logística o LDA (análisis discriminante lineal), como sigue. Con base en el conjunto de datos marker-evaluación, primero construimos el clasificador con una sola función, a saber, el marcador de ruta con la indicación de valor más bajo. El rendimiento del clasificador a continuación, se midió calculando el AUC (área bajo la curva ROC) [33] en el conjunto de datos de selección de función. A continuación, hemos ampliado el conjunto de características seleccionando el marcador vía con la indicación de valor más bajo entre las vías restantes. Un nuevo clasificador fue entrenado usando las funciones seleccionadas en el conjunto de datos por marcadores de evaluación y su clasificación de rendimiento se evaluó de nuevo en el conjunto de datos, selección de características. El marcador de vía añadido se mantuvo en el conjunto de características si el AUC aumentó, y se retira de otra manera. Repetimos el proceso anterior para todos los marcadores de la ruta para optimizar el clasificador. El rendimiento del clasificador optimizado se evaluó calculando el AUC en el conjunto de datos de prueba. Estos experimentos se han repetido durante 100 particiones aleatorias de todo el conjunto de datos. Presentamos las AUC, un promedio de más de 500 experimentos, como la medida de la actuación global del método de clasificación que nos ocupa. El proceso global del experimento dentro del conjunto de datos se ilustra en la Fig. 2A.

(A) En los experimentos en-conjunto de datos, que forma parte del conjunto de entrenamiento, se hace referencia como el conjunto marcador de evaluación, se utiliza para la clasificación de los marcadores de la ruta en función de su poder discriminativo y la construcción del clasificador. El conjunto óptimo de características se seleccionan en base al resto del conjunto de entrenamiento, se hace referencia como el conjunto de selección de función. El rendimiento del clasificador resultante se evaluó utilizando el conjunto de datos de prueba. (B) En los experimentos transversal del conjunto de datos, uno de los conjuntos de datos se utiliza para encontrar el conjunto óptimo de características, y el otro conjunto de datos se utiliza para construir un clasificador basado en las características preseleccionadas y para evaluar el clasificador.


con el fin de evaluar la reproducibilidad de los marcadores de la vía a través de diferentes conjunto de datos, se realizó un
transversal conjunto de datos
experimentos, donde se utilizó un conjunto de datos para la selección de los marcadores de la vía, y el otro conjunto de datos se utilizó para la construcción el clasificador basado en los marcadores seleccionados y la evaluación de su rendimiento. En primer lugar, se seleccionó el conjunto óptimo de características (es decir, marcadores de la vía) en base a un conjunto de datos, mediante la optimización de la métrica ABC. El proceso para seleccionar el conjunto de características fue similar a la utilizada en los experimentos en-conjunto de datos. Las muestras en el otro conjunto de datos se dividieron en cinco subconjuntos de igual tamaño. Cuatro quintas partes de las muestras se utilizan para entrenar el clasificador utilizando las características seleccionadas, y un quinto de las muestras se utilizaron para evaluar el rendimiento del clasificador construido. Hemos repetido este experimento mediante el uso de cada uno de los cinco subconjuntos como muestras de test y con el resto de la formación. El experimento anterior se repitió para 100 particiones aleatorias de todo el conjunto de datos, y las AUC promedio en los 500 experimentos se informó que la medida de rendimiento. Es importante tener en cuenta que la función de selección se lleva a cabo basándose únicamente en el primer conjunto de datos. Durante los experimentos de validación cruzada utilizando el segundo conjunto de datos, el conjunto de entrenamiento (que consta de cuatro quintas partes de las muestras en el mismo conjunto de datos) se utiliza simplemente para construir el clasificador basado en el conjunto preseleccionado de características. El objetivo general de estos experimentos transversal del conjunto de datos es evaluar la reproducibilidad del conjunto de características, seleccionados mediante el esquema de inferencia actividad de la vía propuesta, a través de diferentes conjuntos de datos. La figura 2B ilustra el proceso general del experimento a través del conjunto de datos.

Para comparar el método propuesto con otros métodos existentes, que realizó los experimentos en-conjunto de datos y los experimentos transversal del conjunto de datos utilizando otros métodos actividad de la vía de inferencia descrito ( media, la mediana, la PCA, y CORG). Además, también se evaluó el rendimiento de un clasificador basado en genes que utiliza genes individuales como marcadores de diagnóstico, siguiendo un procedimiento similar. En este estudio, se incluyeron los 50 mejores marcadores de la vía en el marcador conjunto inicial, las cuales fueron seleccionadas de acuerdo con el método del Tian et al. [22] como se explica en el apartado anterior. Para el clasificador basado en genes, se incluyeron los 50 mejores marcadores de genes con los-valores más bajos en el marcador conjunto inicial, con el fin de mantener el máximo número de características idénticas.

Cómo calcular el área bajo la curva ROC

en este trabajo se evaluó el desempeño de un clasificador basado en el AUC (área bajo la curva ROC). La métrica AUC ha sido ampliamente utilizado para la evaluación de los métodos de clasificación, ya que puede proporcionar un útil resumen estadístico de la clasificación de rendimiento en todo el rango de los valores de especificidad y sensibilidad. Para calcular el AUC, adoptamos el método propuesto en [33]. Para un clasificador dado, dejar ser la salida del clasificador para las muestras positivas, y dejar ser la salida para las muestras negativas. Entonces, la métrica ABC para el clasificador está dada por: (4) donde es la función indicadora. El AUC es en realidad la probabilidad empírica de que una muestra positiva elegido al azar está en el puesto más alto que una muestra negativa elegido al azar. Se puede demostrar que la medida AUC es equivalente a la de Mann-Whitney-test (también llamada prueba de suma de rangos de Wilcoxon) estadísticas.

Resultados

Probabilístico Camino Actividad Inferencia mejora el poder discriminativo Camino de marcadores

se evaluó la capacidad de discriminación de los marcadores de la vía, donde las actividades de la vía se infiere utilizando el método propuesto, así como otros métodos de inferencia. Para la comparación efectiva del método de inferencia propuesto con otros métodos existentes, llevamos a cabo experimentos similares a los realizados en [26] para evaluar el poder discriminatorio de los marcadores de la vía. Para cada conjunto de datos de cáncer de mama, se utilizó por primera vez el método de Tian et al. [22] para seleccionar las 50 mejores vías entre las 639 vías obtenidos de la MSigDB [21] (ver Métodos). Hemos calculado las puntuaciones de la actividad real de las 50 vías en función de cada esquema de inferencia actividad de la vía, y calificada como las vías de acuerdo a su poder de discriminación. La Figura 3 muestra el poder discriminativo de las principales vías, donde el eje x corresponde al número de las principales vías que fueron consideradas, y el eje y muestra el score absoluta media de las principales vías. Se compararon cinco métodos actividad de la vía de inferencia: el método, el método basado en CORG [26], basado en PCA [23], [28], significan y métodos de la mediana [25], y el método basado en LLR proponen en este documento. A modo de comparación, también se evaluó el poder discriminativo de los 50 mejores marcadores de genes individuales, que fueron elegidos entre los 3.271 genes regulados por las 639 vías utilizadas en este estudio. Los resultados obtenidos a partir del conjunto de datos Países Bajos cáncer de mama [10] y el conjunto de datos EE.UU. cáncer de mama [11] se muestran en la Fig. 3A y la fig. 3B, respectivamente. Como podemos ver a partir de estos resultados, el esquema de inferencia actividad de la vía propuesta, que calcula la puntuación de actividad de la vía mediante la combinación de las relaciones de probabilidad logarítmica de los genes miembros, mejoró significativamente el poder de los marcadores de la vía para discriminar entre metastásico muestras y muestras no metastásico . Curiosamente, los marcadores genéticos superiores a menudo se comparan favorablemente con los marcadores vía. En el conjunto de datos Países Bajos, los niveles de expresión de los principales genes tenían mayor poder discriminativo de las puntuaciones de la actividad vía inferidos por el CORG, PCA, la media y la mediana de los métodos. Sólo las puntuaciones de actividad de la vía estimados por el método propuesto eran más discriminativo de los valores de expresión de genes. En el conjunto de datos de EE.UU., marcadores de genes eran más discriminativo que los marcadores de la ruta en base a la media, mediana, y los métodos de PCA, pero menos discriminativo en comparación con vía de marcadores basados ​​en el método propuesto y el método CORG.

(A) Media -score absoluta de los mejores marcadores para el cáncer de mama conjunto de datos Países Bajos. las actividades de la vía se han deducido utilizando cinco métodos diferentes: CORG, PCA, la media, la mediana y la LLR (método propuesto). El poder discriminatorio de los marcadores genéticos superiores se estimó por comparación (etiquetado como "Gene"). (B) La media-score absoluta de los mejores marcadores para el cáncer de mama conjunto de datos EE.UU.. (C) Los marcadores fueron clasificados en base al conjunto de datos Países Bajos y el score absoluta media de los mejores marcadores se calculó con base en el conjunto de datos EE.UU.. (D) Los marcadores fueron clasificados en base al conjunto de datos de EE.UU. y el score absoluta media de los marcadores principales se calculó con base en el conjunto de datos Países Bajos.

Para evaluar la reproducibilidad de los marcadores de la vía, que clasificó el marcadores basan en un conjunto de datos y evaluaron su score absoluta media usando otro conjunto de datos. La Figura 3C muestra el resultado de la clasificación de los marcadores sobre la base del conjunto de datos Países Bajos y el cálculo de la score absoluta media de los mejores marcadores utilizando el conjunto de datos EE.UU.. Del mismo modo, la Fig. 3D muestra el resultado para la clasificación de los marcadores basados ​​en el conjunto de datos EE.UU. y el cálculo de la puntuación media de las principales vías utilizando el conjunto de datos Países Bajos. Estos resultados muestran claramente que los marcadores de la vía seleccionados basado en el método de inferencia propuesta conservan significativamente grande poder discriminatorio a través de diferentes conjuntos de datos. De hecho, en ambos experimentos transversal del conjunto de datos, las puntuaciones de actividad vía calculadas por el método LLR eran mucho más discriminativo de las puntuaciones de actividad calculadas por otros métodos de inferencia, así como los valores de expresión de los marcadores de genes superiores. En conjunto, estos resultados implican que el método propuesto puede encontrar marcadores de diagnóstico mejor con una mayor reproducibilidad. También tenga en cuenta que los marcadores de genes individuales, que tuvieron considerablemente grande poder de discriminación dentro de un conjunto de datos (ver Figs. 3A y 3B), perdió la mayor parte del poder discriminativo en un conjunto de datos diferente.

A continuación, se llevaron a cabo experimentos similares para todas las 639 vías y todas 3.271 genes regulados por estas vías, sin ningún tipo de preselección (ver Métodos). Los resultados de estos experimentos se muestran en la Fig. 4, en el que el eje x indica la relación de las principales vías que se utilizaron para calcular el score absoluta media, y el eje x corresponde a la estimada score absoluta media de las principales vías. El poder discriminatorio de los marcadores de la vía y los marcadores de genes individuales en el conjunto de datos Países Bajos se muestra en la Fig. 4A, y el poder discriminatorio de los marcadores en el conjunto de datos EE.UU. se muestra en la Fig. 4B. Los resultados obtenidos a partir de experimentos transversal del conjunto de datos se resumen en la Fig. 4C y 4D. En la Fig. 4C, los marcadores se clasifican de acuerdo a su poder de discriminación en el conjunto de los Países Bajos, y sus -scores absolutas medias se calcularon utilizando el conjunto de datos EE.UU.. Los resultados para la clasificación de los marcadores basados ​​en el conjunto de datos EE.UU. y el cálculo de los puntajes con el conjunto de los Países Bajos se muestran en la Fig. 4D. Todos estos experimentos muestran que las puntuaciones de actividad de la vía medidos por el método propuesto LLR son mucho más discriminativo de las puntuaciones calculadas por otros métodos de inferencia y también los valores de expresión de genes individuales. Por otra parte, podemos ver que los marcadores de la vía que fueron elegidos en base a los resultados de la actividad vía basados ​​en LLR son más reproducibles y sus puntuaciones de la actividad retienen cantidad significativa de la capacidad discriminativa a través de conjuntos de datos independientes

(A) Media absoluta. - puntuación de los mejores marcadores para el conjunto de datos Países Bajos. (B) La media-score absoluta de los mejores marcadores para el conjunto de datos de EE.UU.. (C) Los marcadores fueron clasificados en base al conjunto de datos Países Bajos y el score absoluta media de los mejores marcadores se calculó con base en el conjunto de datos EE.UU.. (D) Los marcadores fueron clasificados en base al conjunto de datos de EE.UU. y la puntuación media de las mediciones superiores se calcula basándose en el conjunto de datos Países Bajos.

Propuesta Camino Actividad Inferencia Esquema conduce a los clasificadores más preciso y fiable

Se utilizó el esquema de inferencia actividad de la vía propuesta para la clasificación de la metástasis del cáncer de mama, para valorar su capacidad para discriminar los diferentes fenotipos de cáncer. Para una comparación justa y eficaz con otros esquemas de inferencia, que adoptó de nuevo un semejante montaje experimental que se utilizó en [26] para evaluar el desempeño del método basado en CORG, un esquema de la vía de actividad de deducción del estado-of-the-art que utiliza sólo los genes de las condiciones del medio en una vía determinada. Para cada conjunto de datos de cáncer de mama, se realizó cinco veces validación cruzada experimentos, en los que se utilizaron cuatro quintas partes de las muestras para la construcción del clasificador y el restante quinto de las muestras se usaron para evaluar el rendimiento de clasificación (ver Métodos). Si bien la construcción del clasificador, se utilizó el método de inferencia actividad de la vía basada en el LLR para evaluar el poder de discriminación de cada marcador vía y seleccionar el conjunto óptimo de los marcadores para ser utilizados en el clasificador. El clasificador construido también utiliza los resultados de la actividad vía calculadas por el método de inferencia propuesta para distinguir muestras de cáncer de mama metastásico a partir de muestras no metastásicos. En nuestros experimentos, hemos definido el conjunto inicial de los marcadores de ruta que los 50 mejores vías seleccionadas usando el método de Tian et al. [22] (ver Métodos). Se evaluó el rendimiento de clasificación utilizando la métrica AUC. Repetimos el cinco veces la validación cruzada para 100 particiones aleatorias del conjunto de datos, y se promediaron los 500 AUC resultantes para obtener una medida de rendimiento fiable del método de clasificación. Para comparar el rendimiento de clasificación de los diferentes métodos de inferencia, también repitieron los experimentos anteriores utilizando el CORG, PCA, media y la mediana de los métodos para inferir las actividades de la vía. Para la comparación, también se evaluó el rendimiento del método de clasificación basada en los genes. Se incluyeron los 50 primeros genes discriminativo en el marcador conjunto inicial, para mantener el número máximo de características idénticas para todos los métodos de clasificación.

Figura 5 resume los resultados de los experimentos de validación cruzada. En la primera serie de experimentos, se utilizó regresión logística para la clasificación de las muestras. Los resultados de la clasificación de los diferentes enfoques basados ​​en la regresión logística se muestran en la Fig. 5A. Los dos gráficos de barras a la izquierda de la figura. 5 corresponden a los dos experimentos en-conjunto de datos basados ​​en el conjunto de datos de cáncer de mama EE.UU. (etiquetado como "EE.UU.") y el conjunto de datos Países Bajos (etiquetado como "Países Bajos"), respectivamente. En estos experimentos dentro-conjunto de datos, el conjunto inicial de los 50 marcadores han sido seleccionados utilizando todo el conjunto de datos, con el fin de reducir el efecto de la sensibilidad en la selección de marcadores cuando se comparan diferentes métodos basados ​​en la vía. Los experimentos de validación cruzada se han realizado sobre la base del conjunto inicial seleccionado de marcadores (ver Métodos). Como podemos ver en estos gráficos de barras, el método propuesto logra la más alta precisión de la clasificación entre todos los métodos, en ambos experimentos. El método basado en CORG compara favorablemente con otros métodos basados ​​en la vía, aunque superado por el método propuesto. También podemos ver que el clasificador basado en genes obtuvo muy buenos resultados en experimentos dentro del conjunto de datos, lo cual no es sorprendente si tenemos en cuenta el alto poder de discriminación de los mejores marcadores de genes observados en las figuras. 3A y 3B.

La barra de gráficos muestran las AUC promedio de diferentes métodos de clasificación. Cinco métodos basados ​​en la vía que utilizan esquemas de inferencia actividad de la vía distintos (LLR, CORG, PCA, medio, y la mediana) y un método basado en el gen se compararon. Los clasificadores (A) se construyeron sobre la base de regresión logística. Los resultados de los experimentos en-conjunto de datos basados ​​en los Estados Unidos y Holanda conjuntos de datos se muestran en los dos gráficos de la izquierda. Los dos gráficos de la derecha muestran los resultados de los experimentos transversal del conjunto de datos. (B) El rendimiento de los diferentes métodos de clasificación basados ​​en LDA (análisis discriminante lineal).

Los resultados de los experimentos transversal del conjunto de datos se muestran en los dos gráficos de barras a la derecha de la figura. 5A. El gráfico etiquetado como "USA-Países Bajos" muestra los resultados para la selección de las funciones usando el conjunto de datos de EE.UU., y la formación /evaluación del clasificador utilizando el conjunto de datos Países Bajos.

El conocimiento de la salud

Las fibras cortas Crocidolita y lesión de las células de Asbestos

Hay evidencia que sugiere que una dosis alta de fibras de am

Las dietas occidentales pueden matar el cáncer de próstata Survivors

Con más de 220.000 nuevos casos de cáncer de próstata diagno

PLOS ONE: IL-6 inhibe la modulación selectiva de PDCD4 por miR-21 en la próstata Cancer

Extracto El cáncer de próstata es el cáncer más común entr

Toda su necesidad de aprender para mejorar en Romidepsin

ALDHbr subpoblación aumenta con el progreso de un tumor prim

Dermatólogo y el cáncer de preocupaciones

Dermatólogo y el cáncer Preocupaciones ¿Cómo saber cuándo

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]