Extracto
Una parte considerable de los pacientes con cáncer colorrectal tienen un alto riesgo de recurrencia de la enfermedad después de la cirugía. Estos pacientes se pueden identificar mediante el análisis de los perfiles de expresión de genes de la firma en los tumores. Sin embargo, no hay consenso sobre el que se deben utilizar los genes y el rendimiento de conjunto específico de firma genes varía en gran medida con diferentes conjuntos de datos, lo que impide su aplicación en la aplicación clínica de rutina. En lugar de utilizar los genes individuales, aquí hemos identificado módulos multi-funcional de genes con los cambios de expresión significativas entre los tumores recurrentes y libre de recidiva, los utilizó como las firmas para predecir la recurrencia del cáncer colorrectal en varios conjuntos de datos que se recogieron de forma independiente y perfiladas en diferentes plataformas de microarrays. Los módulos de múltiples genes que hemos identificado tienen un enriquecimiento significativo de genes conocidos y los procesos biológicos relacionados con el desarrollo del cáncer, incluyendo los genes de la vía de quimioquinas. Lo más sorprendente es que reclutaron a un enriquecimiento significativo de mutaciones somáticas que se encuentran en el cáncer colorrectal. Estos resultados confirman la relevancia funcional de estos módulos para el desarrollo del cáncer colorrectal. Además, estos módulos funcionales de diferentes conjuntos de datos se superponen de manera significativa. Por último, hemos demostrado que, aprovechando de la información de estos módulos, nuestra clasificador basado módulo evitarse colocar la función de clasificador y cribado de las firmas usando los datos de entrenamiento arbitrario, y ha logrado una mayor coherencia en la predicción del pronóstico en tres conjuntos de datos independientes, que se mantiene incluso usando muy pequeña conjuntos de formación de tumores
Visto: W. Li, Wang R, Yan Z, Bai L, Z Sun (2012) alta de Acuerdo en el pronóstico del cáncer colorrectal Predicción a través de conjuntos de datos independientes por los perfiles de expresión de genes múltiples del módulo. PLoS ONE 7 (3): e33653. doi: 10.1371 /journal.pone.0033653
Editor: Ju-Seog Lee, Universidad de Texas MD Anderson Cancer Center, Estados Unidos de América
Recibido: 12 de septiembre de 2011; Aceptado: February 17, 2012; Publicado: 16 Marzo 2012
Derechos de Autor © 2012 Li et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Financiación proporcionada por 973 del proyecto Nº 2009CB918801 y Nº 2011CBA00802, http: //www.most.gov.cn; Fundación Nacional de Ciencias Naturales de China fondo No. 31171274, http://www.nsfc.gov.cn/. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
El cáncer colorrectal es una causa principal de mortalidad por cáncer. Acerca de 20-30% de los pacientes en estadio II y el 50% de los pacientes en estadio III recurrencia de la enfermedad después de la cirugía experiencia [1]. La precisión y la estabilidad de la predicción del pronóstico son críticos para determinar el esquema de la terapia apropiada en relación con diferente riesgo de recurrencia. Los estudios recientes han sugerido que el perfil de expresión de múltiples genes firmas como un mejor predictor pronóstico para los pacientes con cáncer colorrectal que los métodos tradicionales que utilizan las características clínicas o patológicas, y algunos están entrando en el mercado [2] - [7]. Estos firma genes se identifican típicamente a partir de genes expresados diferencialmente entre un conjunto de formación de tumores de pacientes con o sin recurrencia de la enfermedad. Sus datos de expresión se utilizaron para entrenar a un clasificador estadístico que mejor pueden discriminar los dos grupos de tumores de formación. En algunos casos, estos pasos, es decir, la selección de genes y clasificador de construcción, son iterados para optimizar ambas opciones.
Un problema importante con estos clasificadores múltiples genes es que sus genes de firma varían significativamente para diferentes cohortes de estudios, diferentes poblaciones de pacientes, y diferentes plataformas de microarrays, presumiblemente debido a la baja de acuerdo entre los datos de microarrays de expresión [8]. Para obtener una lista de consenso de la firma genes, se estima que se necesitarían miles de muestras de tumor para la formación de tales clasificadores [9]. Como resultado, los varios conjuntos reportados de la firma genes depende altamente de las muestras de entrenamiento y sólo habían solapan mínimamente [10]. Otra preocupación es que la elección de un clasificador estadístico es arbitraria y carece de base biológica explícita, de modo que el clasificador puede ser equipado por el conjunto de datos de la que se inventó. Por ejemplo, en un estudio reciente, los clasificadores múltiples genes construidos a partir de un conjunto de datos de forma cruzada validado en un conjunto de datos diferente para encontrar que su precisión de la predicción se redujo sustancialmente [3]. Tal reducción se debe a algunos genes que faltan en el gen clasificador en relación con el mejor clasificador construido a partir del conjunto de datos de validación cruzada. Por lo tanto, estos factores han llevado a la gran variabilidad en el rendimiento predictivo de los clasificadores de múltiples genes y limitado su uso generalizado en la práctica clínica
.
Recientemente, una mayor conformidad a través de diferentes datos de microarrays se ha informado en los patrones de expresión de múltiples módulos -Gene, es decir, grupos de genes relacionados funcionalmente [11] - [14]. Motivados por este hallazgo, que tuvo como objetivo identificar tales módulos combinando tanto la expresión de genes y la interacción de proteínas de datos y utilizamos los módulos más expresados diferencialmente para construir un nuevo clasificador. Es importante destacar que, se verificó que estos módulos no son al azar asociados con la recurrencia del cáncer colorrectal en diferentes bases de datos, y que los módulos de diferentes conjuntos de datos se superponen significativamente mayor de genes que al azar, lo que indica el porcentaje de solapamiento de la parte superior módulos clasificados poseían poder discriminativo. De esta manera, evitamos el uso de las firmas de genes bajo un acuerdo con y función estadística arbitraria a la medida. Hemos demostrado su aplicación a tres conjuntos de datos independientes de pacientes con cáncer colorrectal que perfilado en diferente plataforma de microarrays y obtuvieron predicciones reproducibles con precisión de 74%, 76% y 68%, y el AUC (área bajo ROC) valores de 79%, 79% y 72 % en la validación de licencia-One-Out. precisiones razonables se observan cuando la disminución del tamaño de los conjuntos de formación (34, 10 o 18 tumores) y la variabilidad a través de los conjuntos de datos sigue siendo baja, que es aproximadamente 1/2 de los clasificadores basados en múltiples genes existentes.
Materiales y Métodos
fuente de datos
los datos de expresión tumoral y pre-procesamiento
Tres pre-procesado de datos de microarrays públicas de los tumores colorrectales como a continuación se utilizaron.; en cuenta que la clasificación de los pacientes, recurrentes o no recurrentes, se hace referencia a la situación actual se describe en los documentos originales o archivos de descripción:
conjunto de datos de Alemania [3]: Se incluyó a 55 pacientes alemanes con cáncer colorrectal primario (estadio I y II), donde 29 pacientes son la enfermedad y libre de recidiva de su tiempo de seguimiento al menos 5,3 años después de la cirugía. La expresión de las muestras tumorales fue reseñada en la plataforma Affymetrix HG-U133A
Barrera de datos [5]:. Se incluyó a 50 pacientes con estadio II del cáncer colorrectal. 25 de ellos son libres recurrencia de la enfermedad y su tiempo de seguimiento, al menos, 5 años después de la cirugía. La expresión de las muestras tumorales fue reseñada en la plataforma Affymetrix HG-U133A
GSE5206 [15]:. Se incluyó a 100 pacientes con estadio I-IV cáncer colorrectal. 23 de ellos tuvieron recurrencia de la enfermedad después de la cirugía. No hay información sobre su tiempo de seguimiento. Aquí hemos eliminado 37 muestras con una mayor etapa (III y IV) de los conjuntos sin recurrentes y lo dejé a 63 pacientes para la validación de la predicción. La expresión de las muestras tumorales fue reseñada en la plataforma Affymetrix HG-U133_plus_2.
Para cada sonda con valores que faltan, se aplicó R paquete "imputar" [16] para llenar con el promedio de su k- vecinos más cercanos genes con múltiples sondas fueron procesados por el promedio de su nivel de expresión.
los datos de ontología de genes.
gene ontología (GO) los datos de la base de datos de firmas moleculares (MsigDB) v2.5 [17] se utilizaron, que incluyó 1454 y 8299 GO conjuntos de genes.
datos de interacción de proteínas.
la proteína interacción datos fueron descargados de la base de datos HPRD [18] (versión 8) y BioGrid la base de datos [ ,,,0],19], que incluyó 6511 nodos y 29694 interacciones
genes conocidos relacionados con la recurrencia del cáncer colorrectal
genes relacionados con la recurrencia del cáncer colorrectal se recogieron en función de sus anotaciones a partir de dos fuentes, respectivamente:.. la base de datos OMIM (www.ncbi.nlm.nih.gov/omim) [20] y la literatura minera en línea usando PubGene (http://www.pubgene.org/) [21]. Se obtuvieron 41 genes relacionados a partir de la base de datos OMIM. Usando PubGene, primero se realizaron búsquedas de los genes asociados con el término "cáncer colorrectal" y "repetición" para obtener 2793 y 1609 genes, respectivamente, y luego tomamos la intersección de estas dos listas de genes como el conjunto final de 1038 genes relacionados con la recurrencia del cáncer colorrectal .
cáncer colorrectal datos de mutación somática.
los datos de mutaciones somáticas para el cáncer colorrectal se descarga desde la base de datos COSMIC [22] en la categoría de 'la gran tejido del intestino ", sin incluir el sub tejido, el ano y el apéndice, con todos los dos términos histológicos:. adenoma y carcinoma
la construcción de redes GO co-expresión
construimos redes para cada conjunto de genes GO. Esto fue por tres razones: (1) que demostró ser útil para incorporar la información anterior, por ejemplo los genes dentro de las mismas vías, para facilitar métodos computacionales en la identificación de módulos funcionales [23] - [26]; (2) que permite que múltiples genes funcionales estén presentes en más de un módulo funcional; (3) muchos datos de interacción fueron obtenidos in vitro y no pueden existir en situaciones fisiológicas y, por tanto, limitar las interacciones dentro de una ontología de genes puede ayudar a reducir este tipo de falsos positivos. En detalle, para cada conjunto de genes GO, se eliminaron los genes que no están presentes en el conjunto de datos de microarrays. El resto de genes en cada conjunto GO se utilizan como vértices de la red y los bordes se elaboraron sobre la base de datos de interacción de proteínas. Cada vértice se asocia con un
n
vector de expresión dimensional donde
n
es el número total de muestras de tumor en el conjunto de datos. El valor en cada dimensión es el nivel de expresión de este gen en la muestra de tumor correspondiente. El borde entre dos vértices se pondera por su nivel de co-expresión [27]. Aquí elegimos el coeficiente de correlación de Pearson para medir el nivel de co-expresión. Tenga en cuenta que hay algunas métricas alternativas, por ejemplo, Correlación de Spearman y la información mutua, y estas métricas general condujeron a resultados similares en las propiedades de red y el módulo de descubrimiento [28]. Además, el coeficiente de correlación de Pearson se ha utilizado ampliamente y sugerido para ser una buena manera de manejar ruidos dentro de los datos de microarrays [29], [30], ya que mide el grado de colaboración de dos vectores de expresión, pero no la fuerza de ellos. En concreto, el peso de una arista entre dos vértices
i
y
j
se define como el valor absoluto del coeficiente de correlación entre la persona sus vectores de expresión,: (1)
la identificación de módulos funcionales
Existen varios métodos para identificar estructuras modulares dentro de una red y la elección del método varía con varios factores, por ejemplo, las estructuras de red [31]. Teniendo en cuenta la estructura densa de cada una irá a la red, se aplicó el Girvan y Newman (GN) ponderada algoritmo [32] para el descubrimiento de módulo. En comparación con otros métodos existentes que comienzan con nodos de semillas y explorar los alrededores para estructuras modulares obtuvieron altos [11], [33] - [36], el algoritmo de GN es orientada de borde y la búsqueda de módulos globalmente óptimos. Se basa en el algoritmo de la ruta más corta, calcula la intermediación de todos los bordes y repetida quita el borde con la más alta de intermediación. Aquí, la puntuación intermediación de un borde se define por la suma de los todos los caminos más cortos que pasan a través de él y se divide por su peso de borde correspondiente. El algoritmo original de GN siempre corta el dendrograma de más alto valor de Q, que se traduce en una gran variación en el tamaño del módulo y, a veces grandes módulos con baja coherencia biológica [37]. Para evitar este problema, se requiere que cada módulo para contener no más de 20 genes. Los procedimientos detallados son los siguientes:
calcular las puntuaciones de intermediación de todas las aristas en cada una irá red
Encuentra borde con la puntuación más alta y sacarlo de la gráfica
Repetir.. los pasos anteriores hasta que no contienen gráficos aislados más de 20 genes.
Singleton con un solo gen fueron ignorados.
módulos Rank expresados diferencialmente entre los tumores con y sin recurrencia
los cambios de expresión entre los tumores con y sin recidiva fueron evaluados por nuestro algoritmo P-SAGE [38]. Para un módulo
s
con un total de
k
genes, la puntuación de importancia diferencial (EDS) se define por: (2) donde es el
t
puntuación por
i-ésimo
gen en el módulo
s
. Al darse cuenta de que las puntuaciones de SDS se correlaciona con el tamaño del módulo
k
, que obtuvieron sus correspondientes valores de p de la distribución chi cuadrado, que se utiliza para ordenar los módulos funcionales identificados en orden ascendente. Los módulos con una clasificación más alta, es decir, los módulos más expresados diferencialmente con los valores de p menores, se utilizan para la evaluación y pronóstico de predicción.
El paradigma de la predicción del pronóstico
El esquema del paradigma de predicción.
Dado un conjunto de entrenamiento de muestras tumorales, lo dividimos en dos mitades, [R1] y [R2], cada uno con n-1 n tumores recurrentes y no recurrentes. Estas dos mitades se consideran como dos conjuntos de datos independientes. Entonces, se supone que el tumor de prueba (es decir, sin etiqueta) X como recurrente y la ponemos en [R1] y [R2], es decir [R1 + X] y [R2 + X]. Se identificaron los principales módulos de N [R1 + X] y [R2 + X], respectivamente, y si el tumor prueba de X se asocia con un alto riesgo de recurrencia, los dos conjuntos de módulos resultantes deben superponerse sustancialmente. Se calculó el porcentaje de solapamiento (OPN) que se calcula por la relación de su intersección y su unión, después de haber sido normalizado contra el porcentaje de solapamiento de los módulos correspondientes identificados a partir de [R1] y [R2]. Para evitar el sesgo potencial con una división específica, repetimos división al azar y por encima de 10 veces para obtener una media & lt; & gt ;. OPN Por último, se calculó & lt; OPN & gt; para diferentes N = 100, 200 ... 500 y utilice la media de la puntuación predictiva & lt; & gt ;. OP Superior & lt; OP & gt; puntuación indica un mayor riesgo de recurrencia asociada con el tumor de prueba X. De esta manera, evitamos la estrategia común de la optimización de una función arbitraria del núcleo que no tiene base biológica clara.
Evaluación y comparación.
Para cada conjunto de datos, sus muestras de tumor se divide en un conjunto de entrenamiento y un conjunto de prueba. Nos informó la medida de rendimiento, la precisión y el ABC, con el paquete R, ROCR. En la licencia de una validación, un tumor se eligió al azar como el conjunto de prueba y los tumores de descanso se utiliza como el conjunto de entrenamiento. De esta manera, la predicción se realizó durante n veces, donde n es el número total de tumores en el conjunto de datos. En validaciones con el número de muestras de entrenamiento ser 34, 18 o 10, se realizó la predicción para (n-34), (n-18) o (N-10) veces. A continuación, elegimos al azar del conjunto de entrenamiento de los tumores de 5 veces y se informó de la media, máxima y mínima de rendimiento. El rendimiento se comparó con otros métodos que utilizan estos tres conjuntos de datos de microarrays
Resultados
Se han utilizado dos conjuntos de datos independientes de pacientes con cáncer colorrectal temprano para verificar las dos hipótesis principales:. (1) la expresión más diferencialmente Los módulos son de forma no aleatoria asociados con la recurrencia del tumor; (2) dichos módulos identificados a partir de diferentes conjuntos de datos se superponen de manera significativa en más genes que al azar
Descripción general de los módulos de identificación expresado diferencialmente más
La identificación de la mayoría de los módulos expresados diferencialmente incluyeron tres pasos fundamentales:. De red construcción, descubrimiento módulo topológica, la evaluación de la expresión diferencial en el nivel de módulo (Figura 1, descripción más detallada en el método y la sección MATRIERAL). En pocas palabras, en primer lugar, que los genes agrupado en grandes grupos en función de su anotación GO. Como un gen puede tener más de un papel funcional, estos van grupos pueden superponerse en ciertos genes. En lugar de construir una sola red gigante, se utilizaron los datos de interacción de proteínas para construir redes para cada uno de estos van conjunto de genes e identificados módulos múltiples genes, es decir, grupos de genes que están conectados densamente en la topología de la red y relativamente independientes de la red de reposo. Por último, la expresión diferencial de cada módulo entre los tumores con y sin recurrencia de la enfermedad se clasificó para obtener los mejores módulos N para su posterior análisis.
La identificación de los módulos expresados diferencialmente más incluyen tres pasos clave. En primer lugar, el co-expresada red GO se construye combinado la red de interacción proteína-proteína, que era desde el HPRD y base de datos BioGrid, y GO gen fija juntos. Los bordes de la red se pesaron por nivel de co-expresión entre sus correspondientes nodos enlazados. En segundo lugar, los módulos funcionales fueron identificados por el algoritmo de Girvan-Newman ponderado [32]. Por último, los módulos funcionales se clasificaron en sus niveles diferenciales entre los tumores recurrentes y no recurrentes que fueron evaluados por el algoritmo p-SAGE [38].
Las redes construidas GO 4428 contienen genes en total para ambos barrera y conjuntos de datos alemanes, ya que utilizan la misma plataforma de microarrays. Tomamos la parte superior 100, 200, ..., 500 módulos para su posterior análisis (Tabla S1). Estos módulos tienen un valor de p expresados diferencialmente no mayor de 0.005, tanto en el conjunto de datos alemana y Barrera conjunto de datos.
Los módulos más expresados diferencialmente se forma no aleatoria asociados con la recurrencia del tumor
Como se puede ver en la figura 2, encontramos un enriquecimiento significativo de genes relacionados con la recurrencia del cáncer colorrectal en estos módulos identificados a partir de datos de Alemania de acuerdo con ambas anotaciones OMIM y PubGene (ver Métodos). A efectos de control, se generaron conjuntos de una misma cantidad de genes que se identificó como el expresado diferencialmente más usando el t-test basado gen individual ( "genes de la prueba t"), o de los conjuntos de genes expresados diferencialmente GO más calificados por P- SABIO. En comparación con estos dos controles, encontramos las mayores proporciones de genes relacionados con la recurrencia del cáncer colorrectal se encontraban en los módulos superiores 50-500. Son cerca de 1.9~3.5 veces (MIM) y 2~2.7 veces (PubGene) más altos en comparación con mejor clasificado de genes individuales, 2.6~4.7 veces (MIM) y 1.7~2.1 (PubGene) veces mayor en comparación con mejor clasificado de conjuntos de genes GO (Figura 2 ). También se observaron resultados similares para Barrera conjunto de datos (Figura S1)
.
genes conocidos CRC se obtuvieron de la PubGene (A) o OMIM (B). Los porcentajes se compararon con los de los principales genes expresados diferencialmente (genes de la prueba t) con el mismo número de genes en la parte superior clasificado N módulos, o GO conjuntos de genes con la misma cantidad de N módulos mejores clasificados.
en concreto, en el análisis del conjunto de datos de Alemania, encontramos tres quimiocinas (CXCL9, CXCL10 y CXCL11) y su receptor de CXCR3 compartida entre los 10 primeros módulos. Esto es consistente con el reciente hallazgo de que CXCR3 y otro CXCL10 ligando promueven las propiedades relacionadas con invasión en el cáncer de colon [39], [40]. Para ver si estos resultados son reproducibles, Dividimos al azar conjunto de datos de Alemania en dos mitades, cada uno que es un conjunto de datos más pequeña con 14 o 15 tumores no recurrentes y 13 tumores recurrentes, identificamos las principales 100 módulos y comprobar si estos genes relacionados con la quimiocina se mostrarían . Se realizó estas divisiones aleatorias de 1000 veces y contamos las frecuencias de los genes que aparecen al menos una vez en las dos mitades de la tapa 100 módulos. Además, teniendo en cuenta los genes de cubo que se han más que interactúan socios tendrían una mayor probabilidad de aparecer en varios módulos, que normalizó la frecuencia de cada gen en contra de su conectividad. Encontramos los tres quimiocinas: CXCL10, CXCL9 y CXCL11, sin embargo, no es su receptor de CXCR3, resulten ser los más frecuentes (30,5% -44,1%) en todas las divisiones de 1.000. Sin embargo, se realizó el mismo análisis sobre Barrera conjunto de datos y no encontramos ninguna de las tres quimiocinas a aparecer en las primeras 100 módulos en cualquier división aleatoria. Sin embargo, encontramos 19 y 18 de los miembros genes en la vía de señalización de quimioquinas genes (190 en total) como curada en la base de datos KEGG se presentaron al menos una vez en las 100 módulos en el conjunto de datos alemana y Barrera conjunto de datos, respectivamente (Tabla S2). Se superponen por 9 genes (STAT2, STAT3, Lyn, MAPK1, FOXO3, NFKB1, GSK3b, Pak1 y PTK2B). Estos resultados indican la posibilidad de que los mejores módulos fueron capaces de capturar cambios sustanciales (10%) en la vía de señalización de quimioquinas asociados con la recurrencia del tumor, y son reproducibles a través de diferentes conjuntos de datos. Pero puede ser difícil conseguir un poco más abajo de genes específicos en estos módulos para utilizar como marcadores robustos.
Como tumor se desarrolla con la acumulación de mutaciones somáticas, también se evaluó si existe una correlación significativa entre los módulos superiores y las mutaciones somáticas identificadas en el cáncer colorrectal a partir de la base de datos cósmicos. Primero identificamos los módulos que contienen gran cantidad de mutaciones por la prueba exacta de Fisher (p corte: 0,05). Estos módulos fueron nombrados como módulos mutado (MMS). A continuación, calcula los porcentajes de MMS en los principales módulos N y los módulos de descanso para obtener una relación de enriquecimiento. Una proporción más alta indica un mayor enriquecimiento de las mutaciones en los mejores módulos N. Para el conjunto de datos de Alemania, encontramos sus 50-500 módulos superiores se superponen significativamente con MMS (prueba exacta de Fisher, P & lt; 0,002), con las puntuaciones de enriquecimiento alrededor de 3-4 (Figura 3). Por el contrario, se realizó un análisis similar sobre la parte superior genes de un número similar identificados por la prueba t convencional ( "genes de la prueba t"), pero no encontramos ninguna coincidencia significativa con los genes de MMS (prueba exacta de Fisher, los valores de p & gt; 0,25). Los porcentajes de los genes mutados en los principales genes de la prueba t en comparación con los genes de descanso son similares. Para evaluar si el enriquecimiento de las mutaciones en los principales módulos están asociados con la recurrencia del tumor, permutada las etiquetas de "repetición" y "no repetición" para identificar los mejores módulos y encontramos sus ratios de enriquecimiento son alrededor de 1,3, que es comparable a los de los genes de la prueba t. Los resultados similares se encuentran también en el conjunto de datos Barrera (Figura S2).
Por el contrario, los controles son a partir del gen t-test y la permutación de prueba. análisis del gen T-test se realizó utilizando el mismo número de los principales genes expresados diferencialmente como el número de genes regulados por los correspondientes módulos de subir N.
Con este fin, hemos confirmado nuestra hipótesis de que la primera top módulos identificados se asocian de manera no aleatoria con la recurrencia del tumor en dos conjuntos de datos independientes diferentes. Por lo tanto, estos módulos pueden ser usados como predictores más robustos que los genes específicos para la predicción del pronóstico.
Los módulos expresados diferencialmente más habían mayor reproducibilidad
A continuación, se examinó si los porcentajes de solapamiento de los mejores módulos se significativamente mayor que los controles para ser utilizado como una métrica discriminativo. Identificamos los mejores 100-1000 módulos de barrera y los conjuntos de datos de Alemania, respectivamente, y encontramos estos módulos de los dos conjuntos de datos diferentes se superponen de manera significativa (p & lt; 1.75E-74). Sus porcentajes de solapamiento (25,3% -54,9%) son más de 7 veces más altos que los porcentajes de solapamiento de los principales genes de la prueba t (3,3% -6,6%) y son también cerca de 2 veces de los porcentajes de solapamiento de medias para los módulos superiores identificados después de permutar las etiquetas (Figura 4). Sorprendentemente, estos porcentajes se solapan son también más altos que los valores extremos obtenidos en los casos de permutación, como valores atípicos (outlier prueba Grubbs, los valores de p & lt; 0,006). Tomados en conjunto, estos resultados apoyan nuestra segunda hipótesis y sugieren los porcentajes de solapamiento de los principales módulos son de carácter informativo para predecir la recurrencia del tumor.
El porcentaje de solapamiento se calcula como el cociente entre el número de intersección y la unión de los genes. Se comparó el porcentaje de superposición de genes en el mejor clasificado N módulos, los mejores genes de prueba t con el mismo número de genes en las primeras N módulos, y sus controles permutación de prueba correspondientes.
Una novela clasificador basado en la la mayoría de los módulos expresados diferencialmente pueden producir predicciones más sólidas pronóstico
Teniendo en cuenta por encima de las validaciones de los dos supuestos clave, hemos diseñado el paradigma de la predicción del pronóstico de la siguiente manera. En pocas palabras, nos dividimos el conjunto de formación de tumores en dos conjuntos diferentes. Cada grupo se compone de dos tumores no recurrentes y recurrentes, por lo que los módulos superiores correspondientes pueden ser inferidas. se calculó un porcentaje de solapamiento (OP_old) de estos módulos a partir de ambos conjuntos. Dado un tumor de prueba, se asumió que es "recurrente" y lo puso en cada conjunto para identificar los nuevos módulos superior y se calcula el nuevo porcentaje de solapamiento (OP_new). Si el tumor prueba es "recurrente" como era de esperar, los antiguos y los nuevos porcentajes de solapamiento deben ser comparables; de otro modo, los nuevos porcentajes de solapamiento serían menores. De esta manera, evitamos el uso de los genes específicos pero utilizamos toda la información de los módulos superiores, ya que como se muestra arriba, sólo el último es no aleatoria asociada con la recurrencia del tumor. También evitamos el paso problemática de los datos de formación de tumores de ajuste a una función estadística arbitraria. En lugar de ello, se utilizaron los porcentajes que se solapan de los principales módulos que mostramos deben ser de suficiente poder de discriminación. Más detalles se pueden encontrar en el método y la sección MATRIERAL y la Figura 5. En lo que sigue, hemos demostrado la evaluación de este método en tres conjuntos de datos independientes y se comparó su desempeño con el de los métodos anteriores utilizando los mismos conjuntos de datos.
La conjuntos de formación de tumores se muestrean primero al azar de todo el tumor conjuntos de datos y luego se dividieron al azar en dos partes iguales, cada parte que incluye los conjuntos no recurrentes y recurrentes. Sus módulos principales correspondientes se infiere por el enfoque mencionado anteriormente y se calculó el porcentaje de solapamiento (OP_old). Para cada tumor prueba de X, lo ponemos en los conjuntos recurrentes para ambas partes para constituir las nuevas matrices de expresión. Los módulos expresados diferencialmente más de dos nuevas matrices de expresión se infieren respectivamente. El porcentaje de solapamiento (OP_new) de estos dos conjuntos de módulos superiores se calcula y se normalizó por la OP_old. Teniendo en cuenta el sesgo de la división en la etapa 2, las divisiones aleatorias se repitieron 10 veces. El promedio de OP normalizado se asigna a probar X. tumor
Deja un out validación.
En primer lugar, evaluamos el desempeño de nuestro método de predicción de licencia-One-Out de validación, que es una opción popular utilizado en estudios previos. Se informaron los resultados de exactitud (la tasa de verdaderos positivos en el punto más cercano al punto (0,1) de la República de China), la sensibilidad, la especificidad y el AUC para comparar con clasificadores múltiples genes existentes (Figura 6, la información detallada en la Tabla S3 ). Para el conjunto de datos alemana, nuestro método logra un rendimiento más alto que los dos últimos métodos, una precisión de 76%, aproximadamente el 5-7% más alto (Lin07: 71%; Garman08: 69%), una sensibilidad de 65%, aproximadamente el 3-24% más alta (Lin07: 62%; Garman08: 41%) y una especificidad del 93%, aproximadamente 5 a 14% más alto (Lin07: 79%; Garman08: 88%). Para Barrera de conjunto de datos, nuestro método logra una precisión de 74%, una sensibilidad de 72%, una especificidad del 84%, que es ligeramente menor que el resultados Barrier06 (precisión: 80%; sensibilidad: 75%, especificidad: 85%) utilizando este conjunto de datos y las firmas Barrier06 resultantes. Pero es mucho más alta que otro resultado utilizando el mismo conjunto de datos y otra firma Wang04 (precisión: 67%). Para GSE5206 conjunto de datos que no tiene tiempo de seguimiento específico, nuestro método logra la precisión más bajo pero razonable (68%). También es mucho más baja que las precisiones alcanzadas por los métodos originales inventadas usando este conjunto de datos (90%; método Garman08). Sin embargo, hemos observado que este método Garman08, cuando se aplica a un conjunto de datos diferente (conjunto de datos alemán), sólo alcanzó el 69% de precisión. La diferencia alrededor del 21% del método Garman08 en diferentes conjuntos de datos puede sugerir un posible exceso de ajuste problema de su clasificador o una variabilidad indeseablemente alto en su rendimiento. Por el contrario, nuestros métodos tenían variabilidad mucho menor (diferencia 8%), con 74-76% de precisión en la primera etapa (I o II), los tumores en la barrera y de conjuntos de datos de Alemania, y el 68% de precisión para los tumores en estadio I-IV en GSE5206 conjunto de datos. Los correspondientes valores de AUC de nuestro método también fueron similares en los tres conjuntos de datos:. Alemán - 79%, Barrera - 79% y GSE5206 - 70%
La comparación de AUC (A) y la precisión (B) durante tres conjuntos de datos: Los diferentes esquemas y forma para colorear indican tres conjuntos de datos independientes (círculo naranja: conjunto de datos alemana; diamante azul: Barrera de conjuntos de datos; cuadrado verde: GSE5206 conjunto de datos). métodos TX_Y (X: superior a 500 o 1000 MDM; Y: tumores de referencia 10 o 18 o dejar uno fuera Forma (LOO)). Los símbolos rellenos indican la media de AUC; La comparación de precisión (C), la sensibilidad (D) y especificidades (E) para la predicción del pronóstico entre nuestro método y los métodos actuales con los mismos conjuntos de datos, incluyendo los resultados LOO de Lin07 (L) [3], Garman08 (G) [42] , Barrier06 (B) [5], y también los resultados de la Barrier06 obtuvieron utilizando 34 tumores (TS34), 18 tumores (TS18) o 10 tumores (TS 10) como el conjunto de entrenamiento. Los símbolos rellenos son valores medios. * Los puntos en el círculo de puntos son los resultados de los métodos que se validaron utilizando los responsables descubiertas por el uno y el mismo conjunto de datos.
Para verificar el impacto del tamaño de las muestras en los métodos de predicción, las muestras más pequeñas de tamaño a los 34, 18, 10 se han llevado a cabo. El valor medio y el intervalo de (el valor mínimo y máximo) de la precisión, la sensibilidad, la especificidad y la AUC se presentan en cada caso (Figura 6, la información detallada en la Tabla S3, y la curva ROC en la figura S3).
Validación con 34 muestras de entrenamiento.
Nos seleccionaron al azar n muestras de cada conjunto de datos, donde n = 34, como conjunto de entrenamiento para predecir el riesgo de recurrencia de los tumores de descanso. Para los conjuntos de datos de Alemania y de barrera, las actuaciones son mucho más altos que los resultados de la validación LOO. En detalle, para el conjunto de datos alemana, nuestro método logra una precisión del 78%, AUC de 80%, una sensibilidad de 80% y una especificidad del 76%. Para Barrera conjuntos de datos, se logra una mayor precisión del 81% y una especificidad del 86%, y menos sensibilidad del 78% que otros métodos (con barrera de firma: precisión: 80%; sensibilidad: 91%, especificidad: 72%; utilizando Wang04 firma: precisión: 70%). Además, nuestro método sólo tenía mucho menos variabilidad (13% para el conjunto de datos de barrera) que la del método Barrier06 (31%). Para GSE5206 conjuntos de datos, el rendimiento es similar a la validación LOO, una precisión del 70%, AUC del 66%, una sensibilidad del 74% y una especificidad del 68%.
Validación con 18 o 10 muestras de entrenamiento.