Extracto
Antecedentes
Un gran número de estudios de perfiles de expresión génica (GEP) en pronóstico del cáncer colorrectal (CRC) se ha realizado, pero no firma genética fiable para la predicción de CRC pronóstico se ha encontrado. herramientas bioinformáticas de enriquecimiento son un poderoso método para identificar los procesos biológicos en el análisis de datos de alto rendimiento.
Principales conclusiones
estudios independientes GEP
Hemos recogido por primera vez los resultados de los 23 hasta ahora publicados CRC en el pronóstico. En estos 23 estudios, se identificaron 1475, mapeado los genes únicos, de la que se informó de 124 (8,4%) en al menos dos estudios, con 54 de ellos que muestra que consiste en el cambio de dirección de expresión entre los estudios individuales. El uso de estos datos, se intentó superar la falta de reproducibilidad observada en los genes descritos en los estudios individuales GEP mediante la realización de un análisis de enriquecimiento basada en las vías. Se utilizó hasta diez herramientas para el análisis de sobrerrepresentación de ontología de genes (GO) categorías o Kyoto Enciclopedia de genes y las vías de Genomas (KEGG) en cada una de las tres listas de genes (1475, 124 y 54 genes). Esta estrategia, basada en el ensayo de múltiples herramientas, nos permitió identificar la cadena de la fosforilación oxidativa y las extracelulares categorías de interacción receptor de matriz, así como una categoría general relacionada con la proliferación celular y la apoptosis, como las vías solamente significativa y consistentemente excesivamente en los tres gen listas, que fueron publicados por varias herramientas de enriquecimiento.
Conclusiones
Nuestro itinerario basado en el análisis de enriquecimiento de estudios de perfiles de expresión génica 23 independiente en el pronóstico del CCR identificado categorías de pronóstico significativa y consistentemente excesivamente del CCR. Estas categorías han sido excesivamente funcionalmente claramente relacionado con la progresión del cáncer, y merecen una investigación más
Visto:. Lascorz J, Chen B, Hemminki K, Försti A (2011) Consenso vías implicadas en el pronóstico del cáncer colorrectal identificados a través de Sistemática Análisis de enriquecimiento de la expresión génica de perfiles de estudios. PLoS ONE 6 (4): e18867. doi: 10.1371 /journal.pone.0018867
Editor: Chad Creighton, Baylor College of Medicine, Estados Unidos de América
Recibido: 1 de diciembre de 2010; Aceptado: March 15, 2011; Publicado: 25 Abril 2011
Derechos de Autor © 2011 Lascorz et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo fue apoyado por la Red Nacional alemán de Investigación del Genoma (NGFN-Plus) (01GS08181), la Deutsche Krebshilfe (alemán cáncer AID) (107.318), y la Unión Europea (UE) (SALUD-F4-2007-200767). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
el cáncer colorrectal (CCR) es el tercer cáncer más común y la cuarta causa principal de muerte por cáncer en todo el mundo, con un riesgo de por vida en las poblaciones europeas y norteamericanas occidentales alrededor del 5% [1].
Muchos estudios de perfiles de expresión génica (GEP) sobre la Convención se han realizado en la última década el uso de la tecnología de microarrays. De acuerdo con sus posibles aplicaciones clínicas, que se pueden clasificar en tres grupos [2]: Estudios sobre proceso de carcinogénesis, los estudios sobre la predicción del pronóstico, y estudios sobre la predicción de la respuesta al tratamiento. Muestran poca superposición en los genes identificados, y se ha encontrado ninguna firma fiable útil en la práctica clínica. En la actualidad, la Unión Internacional Contra el Cáncer (UICC), la clasificación TNM de tumores malignos basado en la estadificación clínico-patológica sigue siendo el estándar de CCR pronóstico [3].
Nos centramos en los estudios sobre la predicción del pronóstico, que comprenden un grupo heterogéneo de Los estudios GEP. Su objetivo es identificar un perfil de expresión génica para discriminar más agresivo desde menos agresivo CRC, en base a diferentes funciones relacionadas con la progresión de la enfermedad, tales como la existencia de recurrencia, la presencia de metástasis, o los datos de supervivencia. Hasta la fecha, sólo un meta-análisis de diez estudios GEP ha informado de una lista de 13 genes expresados diferencialmente en CRC con el bien contra el mal pronóstico, reportado por al menos dos estudios independientes [4].
Varias razones han sido propuesto para explicar esta falta de reproducibilidad en los estudios GEP sobre la Convención, como los estudios de poca potencia, la falta de validación de los resultados, las diferencias en el protocolo experimental y trampas estadísticos en el análisis de datos de microarrays de expresión de los resultados del cáncer [3]. Los cambios en las características biológicas requieren variación en la expresión de conjuntos de genes que regulan la actividad biológica coordinados, y esta información casi no se pueden extraer de cambios en la expresión de genes individuales cuando la superposición entre los estudios es tan baja [5]. Las herramientas de análisis de enriquecimiento, que estiman sobrerrepresentación de determinadas categorías de genes o vías en una lista de genes, son una estrategia prometedora para identificar categorías biológicas implicadas en el proceso de investigación [6].
Un análisis completo de herramientas bioinformáticas disponibles de enriquecimiento tiene recientemente se ha publicado [6]. Basado en el algoritmo aplicado, las herramientas de enriquecimiento se pueden clasificar en tres clases: análisis de enriquecimiento singular (SEA o clase I); El análisis conjunto de genes de enriquecimiento (GSEA o tipo II); y análisis modular de enriquecimiento (MEA o tipo III). En todas las herramientas, la lista de entrada de los genes se asigna a los términos biológicos en bases de datos, y luego el análisis estadístico examina el enriquecimiento de los miembros de genes para cada uno de los términos de anotación y corrige múltiples ensayos [6]. Se aplicaron varias herramientas MAR por las mismas listas de genes de entrada, y sólo las categorías enriquecidos obtenidos con varias herramientas se consideraron indicativos de la predicción genuina. Esta estrategia, basada en el ensayo de múltiples herramientas, se recomienda con el fin de obtener los resultados más satisfactorios [7].
Gene Ontología (GO) [8] y Kyoto Enciclopedia de genes y genomas (KEGG) [9] son los dos principales bases de datos de anotación que recogen el conocimiento biológico de los genes, lo que las hace muy adecuadas para la exploración bioinformática para el análisis de enriquecimiento [6]. Actualmente, VA 18261 contiene información para los productos de genes humanos, mientras que KEGG mapas de 373 rutas diferentes. Nuestro objetivo fue identificar las categorías funcionales (GO términos y KEGG vías) que están sobrerrepresentados consistentemente de una manera estadísticamente significativa en la lista de genes expresados diferencialmente inferidas a partir de los estudios sobre la Convención GEP pronóstico. En primer lugar, recogieron los datos de los 23 estudios independientes publicados sobre GEP pronóstico de CRC para extraer los genes que ocurren en al menos dos de ellos, y luego estábamos acostumbrados estos genes para el enriquecimiento de análisis sistemático con varias herramientas MAR independientes. De esta manera, se sobrepuso a la falta de reproducibilidad observado tanto en los genes descritos en los estudios de GEP individuales y las categorías excesivamente reportados por las herramientas de análisis de enriquecimiento, y podría identificar categorías enriquecido constantemente.
Resultados
Meta -Análisis de los estudios GEP
se reportaron un total de 1897 identificadores de genes diferentes (ID) que se expresa de forma diferente en los 23 estudios independientes GEP en el pronóstico de CRC (Tabla 1). De ellos, el número de genes únicos, mapeadas fue 1475, de los cuales 603 fueron de genes regulados y 794 abajo-regulada en muestras pobres pronóstico, mientras que 78 tenían una dirección opuesta en el cambio de expresión entre los estudios individuales. De los 1475 genes, se reportaron 124 genes (8,4%) en más de un estudio GEP (115 en dos, y nueve de cada tres estudios), 19 de ellos (15,3%) estaban regulados en marcha en malas muestras pronóstico en dos estudios, 35 abajo reguladas (28,2%), y 70 en contraste con dirección en el cambio de expresión entre los dos estudios. Por lo tanto, 54 de los 124 genes (43,5%) informaron el mismo sentido en el gen cambio de expresión en dos estudios diferentes GEP. De los nueve genes se informó en tres estudios (ATP5C1, CA2, CYP51A1, FN1, HSP90AB1, IQGAP1, rpS5, SPP1, y TXN), sólo se CYP51A1 y SPP1 mostraron la misma dirección en el cambio de expresión en los tres estudios (Tabla S1). Todos estos nueve genes fueron incluidos en la lista de 54 genes. No hubo tendencia de los genes se informó en dos estudios que aparecen con más frecuencia a partir de dos estudios que investigan el GEP misma característica relacionada con el pronóstico de la enfermedad (existencia de recurrencia, la presencia de metástasis o supervivencia) que de cualquiera de los dos estudios. Los siete estudios que investigan la recurrencia reportaron 541 genes únicos, 15 de ellos (2,8%) en dos estudios. Los 13 estudios relacionados con la metástasis reportaron 934 genes únicos, con 50 de ellos (5,3%) en dos estudios. Por último, los dos estudios relacionados con la supervivencia informaron de 34 genes únicos, ninguno de ellos común para ambos estudios.
Ver Tabla S1 y S2 tabla para obtener una lista completa de los genes.
Enriquecimiento los análisis
Tres listas de genes se utilizaron para el enriquecimiento de análisis: todos los 1475 genes se informó en los 23 estudios independientes GEP, los 124 genes notificadas en al menos dos estudios GEP (independientemente de la consistencia en el cambio de expresión entre los estudios), y los 54 genes notificadas en al menos dos estudios GEP con dirección consistente en el cambio de expresión de genes entre las muestras con el pobre y buen pronóstico. Diez herramientas de enriquecimiento se utilizaron para obtener GO proceso biológico significativamente sobrerrepresentados, GO categorías función molecular, y KEGG vías (Tablas S3, S4, S5).
El número de informes de categorías enriquecidas mostraron una considerable variabilidad entre las diferentes herramientas utilizado (Tabla 2), aunque el mismo umbral de significación (valor de P & lt; 0,05 después de la corrección de múltiples ensayos) y las condiciones de análisis (genoma completo como fondo de referencia y al menos dos genes de la lista de entrada en la categoría enriquecido) se aplicaron en todos los análisis . Los valores de p resultantes para el enriquecimiento de una sola vez o término KEGG menudo variaron varios órdenes de magnitud entre las diferentes herramientas (Tablas S3, S4, S5). En general, las herramientas GENECODIS [10] y WebGestalt [11] informó de las categorías más enriquecidos que las otras herramientas, y muchas de las categorías enriquecidos fueron reportados solamente por GENECODIS (Tablas S3, S4, S5). GENECODIS también clasifica un número significativamente menor de los genes de la lista de entrada en las categorías GO enriquecido reportados. Por otro lado, la herramienta GATHER [12] informó de categorías menos enriquecidos que las otras herramientas (Tabla 2).
Identificación de categorías enriquecido constantemente
A pesar de la variación en el número de categorías excesivamente reportados por las diferentes herramientas de enriquecimiento, la mayoría de categorías fueron reportados por muchas de las herramientas utilizadas. Para evitar falsos positivos, hemos aplicado dos umbrales de selección estrictos antes hemos considerado como una categoría enriquece constantemente. En primer lugar, sólo se seleccionaron las categorías reportadas para ser enriquecido mediante varias herramientas en una lista de genes (Tabla S6). De ellos, se consideraron para ser enriquecido constantemente sólo las categorías comunes en al menos dos de las tres listas de genes. El uso de estos dos criterios de selección, seis generales GO Biológicos Categorías de procesos (proliferación celular, la regulación positiva del proceso biológico, la regulación positiva del proceso celular, la regulación de la apoptosis, la regulación de la proliferación celular y la respuesta al estímulo químico), cinco GO Molecular categorías de función ( actividad hidrógeno iones transmembrana transportador, la actividad de transporte de cationes transmembrana inorgánico, monovalente inorgánico actividad transportador de cationes transmembrana, la proteína de unión, y la unión a proteínas desplegada), y siete KEGG vías (interacción receptor de matriz extracelular, adhesión focal, enfermedad de Huntington, la fosforilación oxidativa, las vías en el cáncer , enfermedad de Parkinson, y el cáncer de pulmón de células pequeñas) fueron excesivamente consistentemente en los estudios GEP en el pronóstico de CRC (Tabla 3). La proporción de genes arriba y hacia abajo regulados fue similar dentro de cada uno de los GO enriquecido consistente y categorías KEGG, como en la lista de 124 genes (datos no mostrados). La relación de enriquecimiento fue mayor para los KEGG vías más específicos y bien definidos que para los GO categorías amplias (Figura 1). Un alto solapamiento de los genes individuales entre estos 18 categorías también se observó (Tabla 4). Sobre la base de esta superposición, finalmente, se obtuvieron tres grupos de categorías individuales biológicamente significativos:
Un gran grupo que incluye las seis categorías generales GO Biológicas de proceso (la proliferación celular, la regulación positiva del proceso biológico, la regulación positiva del proceso celular, la regulación de apoptosis, la regulación de la proliferación celular y la respuesta al estímulo químico), junto con la unión de la proteína dos categorías de función GO Molecular y la unión a proteínas desplegadas. La categoría KEGG vías en el cáncer también se superponen con estas GO categorías.
Los tres KEGG vías de fosforilación oxidativa, la enfermedad de Huntington y la enfermedad de Parkinson, junto con tres categorías de función GO Molecular (iones actividad transmembrana transportador de hidrógeno, catión inorgánico transmembrana transportador actividad, y la actividad de transporte de cationes inorgánico monovalente transmembrana), que incluyen cuatro a seis genes comunes.
los dos KEGG vías de interacción receptor de matriz extracelular y de adhesión focal, con los seis genes en estas dos categorías KEGG también incluidos en el grande Categoría de la función de proteínas de unión a GO Molecular.
relación de enriquecimiento = número de observado dividido por el número de genes que se esperan de cada GO KEGG o categoría en la lista de genes (de acuerdo con WebGestalt o, alternativamente, DAVID o herramientas GOTM). GO Proceso de BP, ontología de genes Biológica; GO MF, Función de ontología de genes Molecular; KEGG, Kyoto Enciclopedia de genes y genomas.
enriquecimiento de análisis utilizando el software Ingenuity confirmó los resultados obtenidos con las bases de datos GO y KEGG. La única vía canónica excesivamente representados en la lista de 124 genes fue la fosforilación oxidativa (P
corregida = 2,7 × 10
-2), mientras que esta categoría fue la tercera vía más significativo (P
corregida = 1.0 × 10
-5) entre las 159 vías canónicas enriquecidos en el conjunto de 1475 genes. Los resultados para las categorías de función Bio eran demasiado inespecíficos, debido a la gran cantidad de categorías enriquecidos reportados para cada una de las tres listas de genes (61 a 77 términos enriquecidos) (Tabla 2). Sin embargo, la muerte de las células categorías general, el cáncer y el crecimiento celular y la proliferación estaban entre los cuatro primeros términos enriquecidos en las tres listas de genes, con valores de P corregidas entre 10
-4 y 10
-20 (datos no mostrados) .
enriquecimiento de análisis con todas las herramientas de enriquecimiento también se llevó a cabo de forma individual para los cuatro estudios simple GEP una con más de 100 genes mapeados únicos [13] - [16] (Tabla S7). A partir de los 18 términos GO /KEGG, los GO categorías generales fueron reportados solamente por algunos de los cuatro estudios individuales GEP, mientras que las vías más específicos KEGG parecían estar más comúnmente reportado. En el estudio de GEP Bertucci et al. [14] casi todas las 18 categorías salió como excesivamente representados en la lista de genes.
Discusión
El gran número de estudios de microarrays publicados sobre el pronóstico del CCR, que muestra un solapamiento muy baja en los resultados, tiene siempre hay un perfil de expresión génica de aceptación general para la predicción de CRC pronóstico. Además, no se han publicado estudios de asociación de genoma completo de resultados en el CCR, pero ahora están en marcha [3]. La heterogeneidad en el diseño del estudio GEP sobre las características relacionadas con la progresión de la enfermedad hace una comparación coherente de los resultados entre los estudios individuales muy difíciles [17]. Aquí, se presenta los resultados de nuestro enfoque, en el que se utilizó la mayor colección de estudios sobre la Convención GEP pronóstico hasta ahora, y por primera vez aplicado y comparado varias herramientas de enriquecimiento para las listas de genes extraídos. Esta estrategia nos permitió identificar la cadena de la fosforilación oxidativa y las extracelulares categorías de interacción receptor de matriz, así como una categoría general relacionada con la proliferación celular y la apoptosis, como las vías solamente excesivamente significativa y consistentemente implicados en la progresión del CRC.
en la primera parte del estudio, hemos tratado de superar la falta de reproducibilidad en los estudios sobre la Convención GEP pronóstico mediante la selección de los genes reportados en más de un estudio, en un intento de reducir los resultados falsos positivos. De un total de 1475 genes únicos, anotados identificados en 23 estudios independientes GEP, 124 genes (8,4%) fueron reportados en por lo menos dos estudios, y sólo 9 de ellos (0,6%) en tres estudios, que nos dan una idea clara de la falta de reproducibilidad en el nivel de genes individuales. no parece que esta falta de reproducibilidad que es causada por las diferentes características investigados relacionados con el pronóstico del cáncer, ya que la proporción de genes reportado por dos estudios de la misma clase (2,8% de recurrencia, un 5,3% para los estudios de metástasis, y 0% para la supervivencia estudios) fue incluso inferior al de todos los estudios juntos (8,4%). Inesperadamente, 70 de estos 124 genes (56,5%) mostraron contraste dirección en el cambio de expresión entre dos estudios individuales, mientras que para el otro 54 (43,5%) el cambio de expresión estaba en la misma dirección, 19 hasta reguladas (15,3%) y 35 abajo reguladas (28,2%). La proporción de genes arriba y hacia abajo -regulated fue aproximadamente la misma también dentro de cada uno de los GO enriquecido consistente y categorías KEGG. Las inconsistencias en la dirección de la expresión diferencial puede atribuirse a varios factores: primero, el gran número de falsos positivos observados en microarrays de genes estudios de expresión [18]; En segundo lugar, la generalización excesiva de las comparaciones en los metanálisis, especialmente relacionados con el diseño experimental y el marco general de referencia para la expresión; tercero, la heterogeneidad en las muestras de tejido utilizadas en cada estudio; y cuarto, resultados inexactos debido a un mal diseño del estudio [19]. Sin embargo, una explicación clara para estas discrepancias no se encuentra. Sólo un metanálisis anterior de diez estudios GEP ha informado de una lista de 13 genes expresados diferencialmente en CRC con el bien contra el mal pronóstico, reportado por al menos dos estudios independientes [4]. Una comparación con nuestros resultados mostraron que ocho de los genes también están presentes en nuestra lista de genes 124, con la misma dirección en el cambio de expresión (IGF-2, IQGAP1, YWHAH, DEK, TP53, OAS1, RARB, y PDCD10), tres de ellos ( IGF2, TP53 y RARB), perteneciente al grupo de categorías amplias relacionadas con la proliferación celular y la apoptosis. Los otros cinco genes reportados por Cardoso et al. eran en realidad no está presente en uno de los dos estudios mencionados GEP en el meta-análisis.
La segunda parte de nuestro análisis hecho uso de herramientas de enriquecimiento de libre disposición para detectar que van categorías o KEGG vías fueron significativamente sobrerrepresentados en el tres conjuntos de genes obtenidos a partir de los 23 estudios de perfiles de expresión génica (1475, 124 o 54 de la lista de genes). Aquí, hemos intentado superar las diferencias conocidas en los resultados del análisis sobrerrepresentación mediante el uso de hasta diez diferentes análisis singular de enriquecimiento (SEA o clase I) herramientas de enriquecimiento. Se seleccionaron sólo aquellas categorías que se comunicaron a ser excesivamente representados por varias herramientas y en al menos dos de las tres listas de genes como categorías enriquecido constantemente. conjunto de herramientas de análisis de genes de enriquecimiento (GSEA o de clase II) no se consideraron, ya que requieren un valor biológico resumido (por ejemplo, la expresión cambio veces) para cada uno de los genes en la entrada, que no estaba disponible para la mayoría de los estudios. Las herramientas de análisis de enriquecimiento modulares desarrolladas recientemente (MEA o tipo III) considerar las interrelaciones de los términos de GO, pero requieren relativamente grandes listas de entrada para un análisis de genes biológicamente significativo [6], y esto no fue el caso en nuestro estudio.
herramientas de enriquecimiento sufren de varias limitaciones, que han sido descritos en detalle en otra parte [6], [7], y se recomienda para probar múltiples herramientas, incluso si tienen capacidades y funciones similares [7]. Por ejemplo, se ha observado que para los mismos datos de entrada, diez programas de análisis ontológicos diferentes resultaron en valores de P que oscila de varios órdenes de magnitud para algunos van términos [7]; Se observó el mismo efecto en nuestro estudio. KEGG vías representan relativamente vías biológicas conocidas bien definidos, en lugar de las más amplias categorías GO. El uso de herramientas de clasificación de la vía no es de todos modos exento de dificultades [20]. Un análisis reciente de las vías sobrerrepresentación de los datos del estudio de asociación del genoma también informó de diferencias en los resultados entre tres de las herramientas que utilizamos vía de enriquecimiento (DAVID, reunir y WebGestalt) [20]. Los factores que pueden causar estas diferencias en los resultados incluyen: las fuentes y versiones de archivos de anotación; el modelo estadístico aplicado para el análisis de enriquecimiento; el conjunto de genes de referencia contra el cual se calculan los valores de p para cada término en los resultados; y el método de corrección para múltiples experimentos [21]. En nuestro análisis, todo el genoma se utilizó como referencia de fondo, y un umbral de significación de valor & lt P corregido; 0,05 se utilizó en todos los análisis. A pesar de esta uniformidad en las condiciones utilizadas, también se observó una variabilidad considerable en el número de informes de categorías enriquecidos y en los valores de p. Por lo tanto, esta variabilidad puede atribuirse al modelo estadístico aplicado para el análisis de enriquecimiento, para el método de corrección de múltiples ensayos, y a las diferencias en las versiones de la GO y fuentes de datos KEGG utilizado. Sin embargo, ya pesar de esta aparente variación, la mayoría de las categorías enriquecidos reportados por las herramientas más estrictas se incluyeron en los informados por esas herramientas de reporte un mayor número de términos, lo que demuestra la utilidad de nuestra estrategia de estudio. Por lo tanto, las herramientas bioinformáticas de enriquecimiento son un poderoso método para identificar los procesos biológicos en el análisis de datos de alto rendimiento, pero la selección de categorías enriquecidos basados en una única herramienta de enriquecimiento parece ser bastante arbitraria.
Finalmente, después de la aplicación de una rigurosa selección criterios, se consideró que un total de 18 categorías (11 GO términos y siete KEGG vías) como excesivamente representados constantemente en las listas de genes extraídos de los 23 estudios diferentes sobre la Convención GEP pronóstico. En la lista de genes 124, se observó un nivel muy alto de solapamiento de genes entre los 18 categorías, reducir el número de categorías con importancia biológica a tres grupos claramente diferentes. En primer lugar, un grupo muy generales relacionados con la proliferación celular, la apoptosis y la proteína de unión, que incluye una alta proporción de los genes de cada uno de los tres conjuntos de genes. En segundo lugar, y más interesante, la cadena de fosforilación oxidativa, incluyendo siete genes (ATP5C1, ATP6AP1, ATP6V1H, COX5B, COX6B1, NDUFA1, y UQCRC1) (Figura S1), cinco de ellos compartido con la enfermedad de Huntington y la enfermedad de Parkinson categorías KEGG. Hace ya varias décadas, se sugirió que la alteración del metabolismo oxidativo puede causar crecimiento maligno [22]. Esta suposición, conocida como la hipótesis de Warburg, ha sido redescubierto por una amplia variedad de enfoques experimentales que muestran la interacción del metabolismo mitocondrial y el crecimiento del tumor [23], [24]. Sumado a ello, las mutaciones germinales en la succinato deshidrogenasa mitocondrial (complejo II de la cadena de fosforilación oxidativa) subunidades SDHD, SDHC y SDHB son una causa frecuente de los paragangliomas de cabeza y cuello y de feocromocitomas [25]. Además de la enfermedad de Parkinson, los otros dos enriquecido KEGG vías con genes de la cadena de la fosforilación oxidativa y Huntington, están asociados con la disfunción mitocondrial [26]. En tercer lugar, tanto en términos KEGG la interacción del receptor de la matriz extracelular y de adhesión focal incluyen cuatro genes comunes (COL5A1, FN1, SPP1, y TNXB) (Figura S2). Las interacciones específicas de las moléculas de la matriz extracelular controlan las actividades celulares tales como la adhesión, la diferenciación, la apoptosis y la proliferación [27]. Por lo tanto, y en base a las clases funcionales de los genes, que parecen prometedoras para los estudios encaminados a investigar su posible influencia en el pronóstico de la CRC. Especialmente, la KEGG vías de fosforilación oxidativa, la interacción del receptor de la matriz extracelular y de adhesión focal puede proporcionar nuevos objetivos para el desarrollo de fármacos. Seis de los 23 estudios independientes GEP realizó un análisis de enriquecimiento de GO y /o KEGG categorías con su lista de genes expresados diferencialmente, en todos los casos utilizando sólo una herramienta de enriquecimiento. Sólo el estudio de GEP Jorissen et al. [16] informó de dos vías KEGG también reportados en nuestro análisis (ECM interacción de los receptores y de adhesión focal). Cuando se realizaron búsquedas de categorías representadas en los estudios individuales GEP, se observaron claras diferencias entre los estudios. Aunque los términos de las vías KEGG específica de la fosforilación oxidativa y las moléculas de la matriz extracelular fueron reportados comúnmente, el GO términos generales reportados en nuestro enfoque global fueron identificados solamente por algunos de los estudios. Estos resultados muestran que nuestro enfoque de combinar los datos de 23 estudios individuales GEP no sólo es capaz de identificar las vías comunes reportados por los grandes estudios individuales, pero también es capaz de informar de nuevas vías excesivamente consistente, que pueden perderse en pequeños estudios.
en conclusión, nuestro análisis de enriquecimiento basada en las vías de la expresión de genes independientes 23 perfiles de estudios sobre el pronóstico del CCR indicó la cadena de fosforilación oxidativa, la categoría de la interacción del receptor de la matriz extracelular, y una categoría general relacionada con la proliferación celular y la apoptosis, excesivamente significativa y consistentemente categorías de pronóstico del CCR. Estas categorías han sido funcionalmente claramente relacionado con la progresión del cáncer, y merecen una investigación adicional. Sería de especial interés si futuros estudios GEP realizan en grandes cohortes de la muestra pudo validar nuestros resultados e identificar estas categorías clasificadores de mal pronóstico.
Materiales y Métodos
expresión
Gene perfiles (GEP) los estudios
Un total de 27 estudios de GEP para la predicción del pronóstico del CCR se incluyeron en el análisis (Tabla 1): los estudios de 16 GEP nombradas en dos revisiones recientes [2], [3], tres estudios adicionales incluidos en un meta-análisis [4], y ocho estudios más recientes (búsqueda en PubMed desde enero de 2009 hasta marzo de 2010) no se incluyen en los comentarios anteriores /meta-análisis. Cuatro de los 27 estudios de muestras que se superponen parcialmente utilizados [28] - [31], y otro estudio [32], fue en realidad un seguimiento de una anterior [33], lo que reduce el número total de estudios independientes a 23. De acuerdo con la característica investigada en relación con progresión de la enfermedad, siete de los estudios se basa en la existencia de recurrencia, trece en la presencia de metástasis, dos en los datos de supervivencia, y uno en la combinación de los datos de supervivencia y recurrencia. Debido a la naturaleza heterogénea de los datos disponibles, no se hizo ningún intento de realizar meta-análisis cuantitativos.
Gene conjunto de recogida
Se ha informado de que el tipo de identificador de genes utilizados para especificar el diferencialmente genes regulados pueden afectar potencialmente a los resultados del análisis posterior [21]. Se utilizó el símbolo oficial de genes HUGO como un identificador uniforme para los genes se informó. Si el símbolo de genes no se informó en el estudio GEP, hemos utilizado las siguientes herramientas para convertir los identificadores reportados en el símbolo de genes: NetAffx de Affymetrix (www.affymetrix.com), EntrezGene de NCBI (www.ncbi.nlm.nih. gov /gen /), y la herramienta de conversión de genes Identificación de los recursos bioinformáticos DAVID [34]. En muchos casos, el número de genes identificadores (IDs) informado por el estudio GEP en realidad no se corresponden con los genes anotados, pero a las sondas en la matriz de expresión o GenBankIDs. Añadido a esto, varios estudios contaron algunos genes más de una vez. Por lo tanto, el número actual de los genes anotados por último utilizado fue menor que el reportado por la mayoría de los estudios GEP (Tabla 1).
Gene listas
Las listas de genes anotados reportados por cada uno de los 23 estudios independientes GEP para el pronóstico del CCR incluidos en el análisis se combinaron con el fin de identificar aquellos genes se informó en dos o más estudios. Tres listas de genes diferentes se consideraron para el análisis posterior de enriquecimiento: todos los genes anotados, informaron únicos (1475 genes) (Tabla S2); esos genes notificadas en al menos dos estudios de GEP (124 genes) (Tabla S1); y los que, además, mostraron el mismo sentido en el gen cambio de expresión, ya sea hacia arriba o hacia abajo-regulación, en dos estudios GEP (54 genes) (Tabla S1).
Análisis de enriquecimiento
enriquecimiento realizaron análisis utilizando las bases de datos IR (Proceso biológico molecular y función) y KEGG vías. Para todas las herramientas de enriquecimiento, el conjunto de genes de entrada consistió en la lista de genes 1475, la lista de 124 genes, o la lista de 54 genes, respectivamente.
Diez herramientas de software de enriquecimiento (ver URL) fueron seleccionados en función de su disponibilidad gratuita , su frecuente aparición en publicaciones recientes y su aplicación fácil de usar. Opciones por defecto se aplican en todas las herramientas, con un umbral de significación de 0,05 para el valor P ajustado, al menos dos genes de la lista de entrada en la categoría enriquecido, y todo el genoma como un fondo de referencia. Para reunir, ln recomendada (factor de Bayes) & gt; 6 se utilizó como umbral de significación. El software Ingenuity hace uso de sus propios dos bases de datos, la función Top Bio Top y canónicas Caminos, que sin embargo son comparables con el GO y las bases de datos KEGG, respectivamente, utilizados por las otras herramientas de enriquecimiento. métodos de corrección de pruebas estadísticas y múltiples claves utilizados por cada herramienta se muestran en la Tabla S8.
categorías consistentemente enriquecidos
Sólo el camino o categorías KEGG reportados para ser enriquecido de manera significativa por varias herramientas de enriquecimiento en un gen se consideraron lista como excesivamente constantemente. En un intento de seleccionar solamente las categorías de alta clasificación, hemos tenido en cuenta las diferencias de tamaño entre GO y KEGG categorías, así como las diferencias en el número de categorías reportados por cada herramienta. El número de herramientas establecidas como umbral era, para cada lista de genes y GO KEGG o bases de datos, la presentación de informes al menos cinco categorías enriquecidos comunes para ese número de herramientas (Tabla S6). Por tanto la 54 y la lista de 124 genes, el umbral era de tres herramientas de enriquecimiento de GO proceso biológico molecular y función, y dos herramientas de enriquecimiento para KEGG vías. Para la lista de genes 1475, el umbral era de cinco herramientas de enriquecimiento de GO proceso biológico molecular y función, y cuatro herramientas de enriquecimiento para KEGG vías (Tabla S6).