Extracto
Uno de los problemas más importantes y difíciles de la biomedicina y la genómica es cómo identificar los genes de la enfermedad. En este estudio, hemos desarrollado un método computacional para identificar los genes relacionados con el cáncer colorrectal en base a (i) los perfiles de expresión génica, y (ii) el análisis de la ruta más corta de las redes de asociación de proteínas funcionales. El primero ha sido utilizado para seleccionar los genes expresados diferencialmente como genes de la enfermedad para un tiempo bastante largo, mientras que el último se ha utilizado ampliamente para estudiar el mecanismo de enfermedades. Con los datos de interacción proteína-proteína existentes de STRING (Herramienta de búsqueda para la recuperación de los genes que interactúan), una red de la asociación de proteínas funcionales ponderada fue construido. Por medio del enfoque Mrmr (máxima relevancia de redundancia mínima), se identificaron seis genes que puede distinguir los tumores colorrectales y los tejidos de colon normales adyacentes de sus perfiles de expresión génica. Mientras tanto, de acuerdo con el enfoque del camino más corto, encontramos además unos 35 genes adicionales, de los cuales algunos han sido reportados para ser relevante para el cáncer colorrectal y algunos son muy probable que sean relevantes para la misma. Curiosamente, los genes que hemos identificado tanto de los perfiles de expresión génica y la red de la asociación de proteínas funcionales tienen más genes de cáncer que los genes identificados a partir de los perfiles de expresión de genes por sí solos. Además, estos genes también tuvieron mayor similitud funcional con los reportados genes del cáncer colorrectal que los genes identificados a partir de los perfiles de expresión génica por sí solos. Todo esto indica que nuestro método tal como se presenta en este trabajo es bastante prometedor. El método puede llegar a ser una herramienta útil, o al menos juega un papel complementario al método existente, para la identificación de los genes del cáncer colorrectal. No se nos escapa que el método puede ser aplicado para identificar los genes de otras enfermedades, así
Visto:. Identificación Li BQ, Huang T, L Liu, Cai YD, Chou KC (2012) de colorrectal Los genes relacionados con el cáncer con mrmr y la ruta más corta en la proteína-proteína interacción red. PLoS ONE 7 (4): e33393. doi: 10.1371 /journal.pone.0033393
Editor: Paulo Lee Ho, Instituto Butantan, Brasil |
Recibido: 13 Septiembre, 2011; Aceptado: 13 Febrero 2012; Publicado: 4 Abril 2012
Derechos de Autor © 2012 Li et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo fue apoyada por las subvenciones del Programa Nacional de Investigación básica de china (2011CB510102, 2011CB510101, 2011CB910200 y 2010CB912702), la Fundación de Ciencias Naturales de china (90913009), la Academia de Ciencias de china (KSCX2-EW-R-04), una alta Nacional Programa de tecnología de Grant 2012AA022802 y el Programa de Innovación de la Comisión de Educación Municipal de Shanghai (12ZZ087). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
el cáncer colorrectal (CCR) es una de las neoplasias más frecuentes en los países occidentales y la principal causa de muerte relacionada con el cáncer. La detección temprana del CRC podría reducir la morbilidad y mejorar el pronóstico. Por lo tanto, es de gran importancia para identificar genes relacionados con el cáncer que podrían usarse como biomarcador para el diagnóstico precoz.
Recientemente, con el desarrollo de las biotecnologías de alto rendimiento, se ha generado una gran cantidad de datos biológicos, tales como la levadura de dos sistemas híbridos, complejo de proteínas y perfiles de expresión génica, etc. Estos datos son recursos útiles para deducir y la comprensión de las funciones de genes [1], [2], [3], [4], [5], [6 ], [7], [8]. Hasta el momento los datos de interacción proteína-proteína (PPI) ha sido ampliamente utilizado para la predicción de la función de genes con la hipótesis de que las proteínas que interactúan compartir el mismo o tienen funciones similares y por lo tanto pueden estar involucrados en la misma vía. Esta regla de "culpable por asociación" fue propuesto por primera vez por Nabieva et al. [9] y también se puede utilizar para identificar los genes relacionados con el cáncer.
string es un recurso de base de datos en línea, que es una abreviatura de la Herramienta de búsqueda para la recuperación de los genes que interactúan [10]. Se proporciona información sobre la interacción experimental, así como se predijo con una puntuación de confianza. Algoritmos basados en PPI sugieren que las proteínas con distancias cortas entre sí en la red son más propensos a compartir las funciones biológicas comunes [11], [12], [13], [14], y que los vecinos interactivas son más propensos a tener idéntica función biológica que los no interactivos [15], [16]. Esto se debe a la consulta de proteínas y sus proteínas interactivas pueden formar un complejo de proteínas que desempeñan una función en particular o involucrados en una misma vía.
A pesar de la aplicación exitosa de los datos de alto rendimiento para la perdición función de los genes y la identificación de nuevos genes asociados con cánceres, los errores en los datos de alto rendimiento no han sido bien resuelto todavía. En el presente trabajo, hemos propuesto un nuevo método para la identificación de genes relacionados con la CRC mediante la integración de perfil de expresión génica y una red de asociación de la proteína funcional ponderado calculado con datos de PPI de cadena. Este método puede compensar el defecto de sólo utilizar los datos de alto rendimiento. Mientras tanto, se utilizó el Mrmr (máxima redundancia mínima relevancia) algoritmo [17] para identificar genes candidatos prometedores seis distintivos de tumores colorrectales y las muestras normales. El algoritmo del Dijkstra [18] se utilizó para construir las rutas más cortas entre cada par de los seis genes. Por otra parte, también se identificaron y analizaron 35 genes adicionales sobre estos caminos más cortos. Para tal gen así determinados, se observó que contenían más genes de cáncer que los genes identificados a partir de los perfiles de expresión génica por sí solos. Además, los 41 genes también tuvieron mayor similitud funcional con los genes CRC reportados que los genes identificados a partir de perfiles de expresión génica por sí solos. Se prevé que algunos de los 41 genes identificados de esta manera podría pertenecer a nuevos genes relacionados con CRC.
Materiales y Métodos
Conjunto de datos
utiliza los datos de expresión génica de la colorrectal estudio de cáncer de Hinoue et al. [19]. El perfil de expresión génica de los tumores colorrectales y 26 histológicamente normales muestras de tejido del colon adyacentes emparejados fueron recuperados de NCBI Gene Expression Omnibus (GEO) con el número de acceso de GSE25070. Se obtuvo el perfil de expresión génica mediante la expresión de todo el genoma Illumina BeadChip Ref 24526-8 con sondas correspondientes a 18491 genes. intensidad de la señal se log2 transformado y luego se normalizaron con el método (Robust Spline Normalización) RSN.
Muestras de tejido representación
Con base en lo anterior, la representación de una muestra de tejido se puede formular como una 24526- D (vector unidimensional), según lo dado por (1) donde representa la muestra de tejido, el valor de la misma de la sonda, y la matriz transpuesta (cf. Eq.6 de [20]).
lista de genes relacionados con el cáncer y dos listas de genes relacionados con el cáncer colorrectal
hemos recopilado tres listas de genes a partir de bases de datos públicas y obras publicadas para comparar con los 41 genes candidatos que hemos identificado. Estas tres listas de genes incluyen una lista de genes relacionados con el cáncer y dos listas de genes relacionados con el cáncer colorrectal.
742 genes relacionados con el cáncer se obtuvieron a partir de tres fuentes. En primer lugar, se obtuvieron 457 genes relacionados con el cáncer a partir del gen de censo de Cáncer del Centro Sanger. En segundo lugar, se recuperaron los genes relacionados con el cáncer del Atlas de Genética y Citogenética en Oncología [21]. La tercera parte se recoge de la base de datos de proteína de referencia humano [22]. Ver la información de apoyo S1.
La primera lista de genes relacionados con el cáncer colorrectal fue recuperado a partir del estudio de Sabates-Bellver y compañeros de trabajo [23]. Compararon la transcriptomes de 32 adenomas con la mucosa normal de los mismos individuos e identificaron 438 genes con expresión alterada notablemente en los adenomas colorrectales en comparación con la mucosa normal con Affymetrix U133 Plus 2,0 array. Ver la información de apoyo S1.
La segunda lista de genes relacionados con el cáncer colorrectal fue recuperado forma un reciente trabajo de Nagaraj et al. [24]. Propusieron un enfoque de biología de sistemas basados booleano con el algoritmo de culpabilidad por asociación para identificar nuevos genes asociados con el cáncer. Hemos recopilado todos los 134 nuevos genes relacionados con CRC identificados en este estudio. Ver la información de apoyo S1.
PPI datos de CADENA
La red PPI ponderada inicial se recupera de STRING (versión 9.0) [10] (http://string.embl.de/), que es una gran base de datos de las interacciones de proteínas conocidas y predichos. Las proteínas en la red de interacción se representan con los nodos, mientras que la interacción entre dos proteínas en la misma se representa con un borde. Estas interacciones contienen interacciones directas (físicas) e indirectos (funcionales), derivados de numerosas fuentes, como repositorios experimentales, métodos de predicción computacional. En la red, cada borde está marcado con un marcador para cuantificar la confianza de la interacción, es decir, la probabilidad de que se produzca una interacción.
El Mrmr (máxima relevancia mínima redundancia) método
Para encontrar los genes que pueden distinguir los tumores de colon y los tejidos adyacentes normales, se utilizó el método mrmr, que fue desarrollado originalmente por Peng et al. [17] para el análisis de los datos de microarrays. El método Mrmr podría clasificar los genes en función de su relevancia para la clase de muestras que se trate, y mientras tanto también podría tomar la redundancia de los genes en cuenta. Esos genes, que tienen el mejor compromiso entre la máxima relevancia a la clase de la muestra y la redundancia mínima, se considera como biomarcadores "bueno".
Tanto la pertinencia y la redundancia se cuantificaron mediante la siguiente información mutua ( MI) :( 2) donde y son los vectores, es su densidad de probabilidad conjunta, y y son las densidades de probabilidad marginales.
Para cuantificar tanto la pertinencia y la redundancia, vamos a definir como el conjunto de genes, como el ya-seleccionado conjunto de genes que contiene los genes y como el a-ser-seleccionado conjunto de genes que contiene los genes. La relevancia entre el gen y el blanco se puede calcular por: (3) La redundancia entre el gen y todos los genes en puede ser calculado por: (4) Con el fin de obtener el gen en con la máxima relevancia y redundancia mínimo , vamos a combinar Eq.3 y Eq.4, como se puede formular de la siguiente manera: (5) Dado un conjunto de genes con los genes, la operación mrmr para la evaluación de genes continuará rondas. Después de estas evaluaciones, el método Mrmr generará un conjunto de genes como fue formulada por (6) si el índice indica en qué ronda del gen está seleccionada. Cuanto menor sea el índice es, cuanto antes el gen satisfecho Eq.5 y mejor el gen es.
Motor de Predicción
En este estudio, el algoritmo de vecinos más próximos (NNA) [25], [26], que ha sido ampliamente utilizado en la bioinformática y la biología computacional [3], [27], [28], [29], [30], [31], [32], [33], [34], fue adoptado para predecir la clase de muestras de tejido colorrectal. La "cercanía" se calcula de acuerdo con la siguiente ecuación (7) donde y son dos vectores que representan dos muestras de tejido, es su producto escalar, y son sus moduluses. Cuanto menor sea el, más similares son las dos muestras [35]. Para ver una ilustración de cómo funciona intuitiva NNA, véase la figura 5 de [20].
La validación del rendimiento
Los siguientes tres métodos de validación cruzada se utilizan a menudo en las estadísticas para la validación de un método de predicción estadística : conjunto de datos de pruebas independiente, prueba de submuestreo, y la prueba de navaja [36]. Sin embargo, entre los tres métodos de validación, la prueba de navaja es el menos arbitraria debido a los siguientes hechos. (I) Para la prueba de conjunto de datos independiente, aunque todas las muestras utilizadas para probar el predictor están fuera del conjunto de datos de entrenamiento utilizado para entrenar el motor de predicción a fin de excluir la "memoria" efecto o sesgo, la manera de cómo seleccionar las muestras independientes para probar el predictor podría ser bastante arbitraria a menos que el número de muestras independientes es suficientemente grande. Este tipo de arbitrariedad podría conducir a conclusiones completamente opuestas. Por ejemplo, la conclusión de que un predictor produjo una tasa de éxito mayor que el otro factor predictivo de un conjunto de datos de pruebas independiente dada podría llegar a ser justo enfrente cuando se prueba por otro conjunto de datos de pruebas independiente [36]. (Ii) Para la prueba de submuestreo, el procedimiento concreto utilizado habitualmente en la literatura es la de 5 veces, 7 veces o 10 veces la validación cruzada. El problema con este tipo de prueba de submuestreo es que el número de posibles selecciones en dividir un conjunto de datos de referencia es muy grande, incluso para un conjunto de datos muy sencilla y pequeña, tal como se explica en [37] y demostrado por Eqs.28-30 en [20] . Por lo tanto, en las pruebas de validación cruzada de submuestreo real, sólo una muy pequeña fracción de las posibles selecciones son tomadas en cuenta. Desde diferentes selecciones siempre darán lugar a diferentes resultados, incluso para un mismo conjunto de datos de referencia y un predictor misma, la prueba de submuestreo no puede evitar la arbitrariedad tampoco. Un método de prueba no puede producir un resultado único no puede considerarse como una buena. (Iii) En la prueba de navaja, todas las muestras en el conjunto de datos de referencia serán señalados de uno en uno y probados por el predictor entrenado por las muestras restantes. Durante el proceso de basculamiento, tanto en la formación de datos y conjunto de datos de prueba son realmente abierta, y cada muestra será a su vez, se interpuso entre los dos. La prueba de navaja puede excluir el efecto "memoria". Además, el problema de la arbitrariedad como se ha mencionado anteriormente para el ensayo de prueba de conjunto de datos y submuestreo independiente puede ser evitado porque el resultado obtenido por la prueba de navaja siempre es único para un conjunto de datos de referencia dado. En consecuencia, la prueba de navaja ha sido ampliamente y cada vez más utilizado para inspeccionar la calidad de los diversos predictores (véase, por ejemplo, [30], [31], [32], [38], [39], [40], [41] , [42], [43], [44], [45], [46]). . De acuerdo con ello, en este estudio también se utilizó la prueba de navaja para examinar la calidad del método de predicción de corrientes
La precisión de la predicción fue formulada por (8), donde TP representa el verdadero positivo; TN, el verdadero negativo; FP, el falso positivo; y FN, los falsos negativos.
selección de características incremental (IFS)
Sobre la base de los genes clasificados en función de su importancia después de la evaluación Mrmr, se utilizó la Selección de características incremental (IFS) (véase, por ejemplo, [1], [47]) para determinar el número óptimo de genes como biomarcadores. Durante el procedimiento de IFS, los genes en el conjunto de genes clasificados se añaden uno por uno de mayor a menor rango. Un nuevo conjunto de genes se compone cuando se añade un gen. Por lo tanto conjuntos de genes estarían compuestos cuando se administran los genes clasificados. El conjunto de genes es (9) Para cada uno de los conjuntos de genes N, un predictor NNA se construyó y se examinó mediante la prueba de navaja al conjunto de datos de referencia. Al hacer esto se obtuvo una tabla de IFS con una columna para el índice
i
y otra columna para la precisión de la predicción. Por lo tanto, podríamos obtener el conjunto óptimo de genes (), con el que el predictor daría la mejor precisión de la predicción.
enfoque gráfico y el rastreo de los caminos más cortos
Los gráficos son un vehículo útil para el estudio complejo biológico sistemas, ya que pueden proporcionar percepciones intuitivas y la propiedad en general la estructura, como se ha demostrado en diversos estudios sobre una serie de temas biológicos importantes (véase, por ejemplo, [48], [49], [50], [51], [52], [53], [54], [55], [56], [57], [58]). En este estudio, se construyó un gráfico G (V, E) con los datos de PPI de cadena. En el gráfico, se le asignó un borde para cada par de genes si estuvieran en interacción entre sí. El peso de la arista e en el gráfico G se deriva de la confianza puntuación de acuerdo con la ecuación, donde es el peso en el gráfico G, mientras que es la puntuación de confianza entre dos proteínas en cuestión. De este modo, se obtiene un tejido asociativo proteína funcional con el peso de borde. el algoritmo de Dijkstra [18] se utilizó para encontrar el camino más corto de cada uno de los seis genes a todos los otros cinco genes en el gráfico. Luego de haber elegido a cabo todos los genes existentes en los caminos más cortos y clasificar estos genes en función de su intermediación.
KEGG análisis de enriquecimiento
herramienta de anotación funcional de DAVID [59] fue utilizado para el enriquecimiento de la vía KEGG análisis. El valor p de enriquecimiento se corrigió para controlar la tasa de falso descubrimiento de toda la familia bajo cierta velocidad (por ejemplo, ≤0.05) con Benjamin método de corrección de múltiples ensayos [60]. Todos los genes en el BeadChip fueron seleccionados como fondo durante el análisis de enriquecimiento.
Resultados
Resultados de Mrmr
El perfil de expresión fue recuperado de GEO con el número de acceso de GSE25070, que contenía 52 muestras y 24,526 sondas y se transformó en un archivo CSV con 52 filas y columnas 24526 como la entrada de mrmr. Cada sonda representó una característica y las muestras de tumor de 26 pertenecía a la clase 1, mientras que las muestras normales apareadas el paired26 pertenecían a la clase 2. Después de ejecutar el software Mrmr, obtuvimos dos tablas (ver información de apoyo S2), de los cuales uno se llamaba tabla que MaxRel clasificados en las sondas de acuerdo con su importancia para la clase de muestras, y la otra llamada tabla de entidades mrmr que enumeró las sondas con la máxima relevancia y redundancia mínima para la clase de muestras.
Seis genes candidatos identificados por NNA y IFS
sobre la base de los resultados de mrmr, hemos construido 1000 subconjuntos de características de acuerdo a Eq.9. Como se describe en la sección Materiales y Métodos, probamos el predictor con una característica, dos características, tres características, etc., y el resultado IFS se pueden encontrar en la información de apoyo S3. Se muestra en la Fig. 1 es la curva IFS trazado en base a los datos de información de apoyo S3. En la curva de IFS, el eje X es el número de sondas utilizadas para la clasificación, y el eje Y es la precisión de la predicción del algoritmo del vecino más cercano evaluadas por la prueba de navaja de bolsillo. La precisión máxima fue de 1 cuando se incluyeron 6 características. La sonda conjunto óptimo incluía 6 sondas correspondientes a 6 genes diferentes, que eran GUCA2B, PI16, CDH3, SPIB, Best2, y HMGCLL1 (Tabla 1).
En la curva de IFS, el eje X es para el número de sondas utilizadas para la clasificación, y el eje y de la precisión de la predicción por el algoritmo del vecino más cercano (NNA) evaluados por la navaja de bolsillo (licencia-un-out) prueba de validación cruzada. La precisión de pico era 1 con seis sondas. Los 6 mejores sondas en la lista de sondeo Mrmr formaron el grupo de sondas discriminativo óptima.
rutas más cortas de los genes
Mientras tanto, hemos construido un grafo no dirigido con los datos de PPI de STRING . Luego de haber elegido dos genes a partir de los seis genes identificados con el método Mrmr como se describe anteriormente, y encontramos que el camino más corto entre estos dos genes con el algoritmo de Dijkstra. Se obtuvieron un total de 15 caminos más cortos con menor coste (información de apoyo S4). Se muestra en la Fig. 2 son los 15 caminos más cortos entre los seis genes candidatos, en la confianza de interacción se marcó en el extremo de cada uno de los pares de genes interacción. Hubo un total de 35 genes en las rutas más cortas y que clasificó estos genes de acuerdo con su intermediación (Tabla 2). Entre estos 35 genes, AR tiene la mayor intermediación de 7, lo que significa que hay 7 rutas más cortas que pasan por este gen. De acuerdo con ello, AR puede jugar un papel importante en la conexión de los seis genes candidatos y por lo tanto puede estar relacionado con CRC. Tal conclusión es totalmente coherente con el hecho de que la proteína de AR se encontró en la mucosa colorrectal normal, así como en la mayoría de CRC [61], [62], lo que implica que el receptor de AR es responsable de los efectos mitogénicos de la hormona, como será más discutirá más adelante.
los 15 caminos más cortos entre los seis genes candidatos se identificaron con el algoritmo de Dijkstra en base a los datos de PPI de cadena. RoundRect amarillo representa los seis principales genes candidatos identificados por el método Mrmr. redondo rojo representa los 35 genes existentes dentro de la gama de los caminos más cortos. Los números en los bordes representan los pesos de las aristas para cuantificar la confianza interacción. Cuanto menor sea el número, más fuerte será la interacción entre dos nodos es. Véase el texto en la sección de "enfoque gráfico y el rastreo de los caminos más cortos" para la relación cuantitativa del peso borde con la puntuación de confianza entre dos proteínas en cuestión.
Para probar si nuestra 35 más corta genes de ruta eran centros de conexiones en la red de fondo o no, nos encontramos una permutación para contar el tiempo de aparición de los 35 genes camino más corto en los caminos más cortos entre 6 genes seleccionados al azar cuando se tiene una mayor intermediación que en nuestro estudio. Repetimos este proceso 5000 veces y el valor de p se calculó como la proporción del tiempo de ocurrencia de los 35 genes en 5000 permutación. Para los detalles, consulte la Tabla 2. Hubo 10 genes camino más corto cuyos valores de p no fueron significativas. TP53 fue una estrella molecular implicado en numerosos procesos biológicos y casi relacionado con todo tipo de cánceres [63]. Por lo tanto, no es nada sorprendente que TP53 apareció muchas veces en camino más corto entre los 6 genes escogidos al azar. Para EP300, se ha informado de que este gen puede acetilar TP53 y asociado con una gran cantidad de tumores [64]. CTNNB1 y GSK3B pertenecen a la vía de señalización Wnt, el papel de los cuales en Caners ha sido bien documentado [65]. Para los restantes 6 genes insignificantes, sus betweennesses en nuestro estudio fueron todos uno (Tabla 2), y por lo tanto el número de ocurrencias de estos genes en rutas más cortas aleatorias es propenso a ser mayor que uno. La mayoría de estos insignificantes 6 genes camino más corto se atrasa en la Tabla 2 de acuerdo con sus betweennesses, lo que sugiere que podría no ser importante. Además de estos 10 genes, se identificaron los restantes 25 genes camino más corto en nuestro estudio para ser significativo.
gen tabla MaxRel KEGG enriquecimiento
Con la herramienta de anotación funcional de David, el análisis KEGG vía de enriquecimiento se llevó a cabo por los genes correspondientes a las sondas de 1000 que figuran en el MaxRel. Los resultados de enriquecimiento mostraron que estos genes fueron significativamente enriquecido en las vías del metabolismo de la energía, incluyendo el metabolismo de ácidos grasos, interconversiones de pentosa y glucuronato, así como almidón y metabolismo de la sacarosa (Tabla 3). Estos resultados sugieren que el metabolismo de los nutrientes puede jugar un papel crítico en el proceso tumoral de CCR.
Seis genes candidatos y rutas más cortas de genes de enriquecimiento KEGG
También se realizó el análisis de enriquecimiento vía KEGG en los 41 genes, incluyendo los seis primeros genes en la lista mrmr y 35 genes en los caminos más cortos entre estos seis genes con la herramienta de anotación funcional de David. El resultado de enriquecimiento obtenido de este modo mostró que estos genes fueron significativamente enriquecido en las vías relacionadas cáncer canónica, como el cáncer de próstata, cáncer de las vías en, vía de señalización Wnt, ciclo celular, cáncer colorrectal, cáncer de tiroides, y así sucesivamente. Es interesante observar que entre estas vías, algunos se han demostrado ser relevante para el cáncer colorrectal incluyendo la vía de señalización de Wnt, ciclo celular, el cáncer colorrectal y la insulina vía de señalización (Tabla 4).
Superposición con relacionados con el cáncer de la lista de genes y dos CRC listas de genes relacionados
Hemos recopilado 742 genes relacionados con el cáncer de las siguientes tres fuentes diferentes: Cancer gene censo del Centro Sanger, Atlas de Genética y citogenética en Oncología [21], y Human base de datos de proteína de referencia [22]. Se observó que 8 de los 41 genes identificados por nosotros fueron demostrado ser los genes relacionados con el cáncer. Asimismo, se indicó mediante la prueba exacta de Fisher que estos 41 genes fueron significativamente relacionados con el cáncer (p-valor = 0,0001908). Ver la información de apoyo S5.
Además, se recogieron 438 genes que son expresados diferencialmente entre los adenomas colorrectales y mucosa normal del estudio anterior [23]. Curiosamente, los anteriormente mencionados 41 genes candidatos identificados por nosotros tenían un solapamiento de 4 genes con los 438 genes, y la superposición era bastante significativa (valor de p = 0,01057, prueba exacta de Fisher). Ver la información de apoyo S5.
Recientemente, se empleó el enfoque de los sistemas de la biología basada booleano para identificar nuevos genes relacionados 134 CRC [24], de los cuales tres fueron identificados por nosotros en este estudio y la superposición fue significativa (p valor = 0.002017, prueba exacta de Fisher). Ver la información de apoyo S5.
Discusión
KEGG enriquecimiento de los genes MaxRel
Los genes correspondientes a las sondas de 1000 que figuran en la tabla MaxRel fueron significativamente enriquecido en las vías del metabolismo energético, incluyendo el metabolismo de ácidos grasos, interconversiones de pentosa y glucuronato, así como almidón y metabolismo de la sacarosa. Se ha demostrado que la dieta tiene un efecto importante en el desarrollo CRC. Nuestro hallazgo es bastante consistente con el hecho de que los polimorfismos genéticos que influyen en el metabolismo de los nutrientes juegan un papel importante en la etiología de la CRC y pólipos adenomatosos colorrectales [62].
Varias líneas de evidencias han indicado la implicación o la participación de grasa en la etiología de la CRC [66]. El papel crucial de los ácidos grasos en numerosos procesos biológicos sugiere que la alteración en el metabolismo de ácido graso de genes contribuye a la carcinogénesis de colon [67]. Se ha demostrado que el almidón y la sacarosa y el metabolismo de pentosa y glucuronateinterconversions estaban estrechamente relacionados con los cánceres. Christensen et al. [68] demostraron que el almidón y el metabolismo de la sacarosa y la vía de las pentosas y glucuronateinterconversions se hypomethylated en tumores mutantes isocitrato deshidrogenasa. Además, se encontró que estas dos vías metabólicas que se relacionaron significativamente con el riesgo de desarrollar negativo al receptor de estrógeno cáncer de mama [69].
Una reciente investigación CRC transcriptoma específica de la enfermedad mostró que el almidón y el metabolismo de la sacarosa fue uno 7 de la vía común significativa diferencialmente regulada mediante dos plataformas de microarrays diferentes, incluyendo Affymetrix HGU133 Plus2.0 y la enfermedad matriz específica CRC. Además, el metabolismo de los ácidos grasos se identificó como vía significativamente regulados diferencialmente usando la enfermedad colorrectal matriz específica [70].
Seis genes candidatos identificados por Mrmr, NNA e IFS
En este estudio, se han identificado los siguientes seis genes: GUCA2B, PI16, CDH3, SPIB, Best2, y HMGCLL1. A continuación, vamos a discutir brevemente sus relaciones con el cáncer colorrectal.
GUCA2B (uroguanilina) es un activador endógeno del receptor de guanilato ciclasa-2C encontrado para ser regulada por 8 veces en el adenoma, y su expresión se detecta en sangre y orina [71] .Por lo tanto, GUCA2B podría ser considerado como un biomarcador no invasivo para la detección precoz del CCR. Además, la radio etiquetado análogos uroguanilina se han utilizado para la detección de CRC in vivo [72].
PI16 (peptidasa inhibidor 16) se detecta en el testículo, próstata, intestino delgado, colon, ovario y con inmunohistoquímica análisis [73]. Se detectó disminución del nivel de PI16 en el cáncer de próstata [73] y el cáncer gástrico [74]. Nuestro resultado también mostró que la expresión de PI16 en adenocarcinoma colorrectal fue significativa disminuido en comparación con el tejido colorrectal no tumoral adyacente, que era consistente con el resultado de la investigación en cáncer de próstata y cáncer gástrico. Desde PI16 no está bien caracterizado y hasta ahora no hay ningún informe de ningún tipo sobre PI16 en la etiología del cáncer colorrectal, nuestro resultado implicaba que PI16 puede convertirse en un prometedor biomarcador para el diagnóstico precoz del cáncer colorrectal.
CDH3 es una cadherina clásica, el desmetilación de los cuales se detecta con frecuencia en el CCR avanzado que se asoció con la sobreexpresión de CDH3 [75]. Además de CRC, CDH3 también se sobreexpresa en la mayoría de cáncer de páncreas y cáncer gástrico, pero no en sus homólogos no cancerosos o en los tejidos normales. Por lo tanto CDH3 fue considerado como un antígeno asociado a un tumor novedoso útil para la inmunoterapia y el diagnóstico precoz del cáncer gástrico y el CRC [76].
SPIB es un factor de transcripción del-E y seis veinte familia (ETS), que que se conoce para actuar como reguladores positivos o negativos de la expresión génica. SPIB es un adenoma condición específica de genes regulados hacia abajo y su expresión se sometió a una disminución notable en los tejidos de CRC indica que SPIB puede servir como potenciales marcadores de CRC de invasión y metástasis [77].
Best2 (también conocido como VMD2L1) codifica una proteína de la familia bestrofina. Tanto los análisis de RT-PCR y tinción con X-gal reveló tejido restringida Best2 y VMD2L2 expresa abundantemente en el colon [78], [79]. Ha sido mostrar que Best2 media el transporte de bicarbonato por las células caliciformes en colon de ratón [80]. Straub et al. [81] identificaron Best2 como uno de los marcadores de metilación para la detección temprana y el pronóstico de CRC. Por lo tanto, se esperaba que Best2 para convertirse en un objetivo para la terapia CRC con el agente de desmetilación.
HMGCLL1 ha sido mostrar a estar relacionado con varios tipos de cáncer, como el cáncer de páncreas [82], el glioblastoma multiforme [83], de mama y colorrectal tipos de cáncer [84]. HMGCLL1 es uno de los genes que contienen mutaciones somáticas en el cáncer de páncreas [82]. Aunque mutación en HMGCLL1 se ha informado a participar en estos tipos de cáncer, los mecanismos específicos que subyacen aún no se han dilucidado.
genes camino más corto
totalmente identificado 35 genes de rutas más cortas. Como podemos ver en la Tabla 2, algunos genes camino más corto, como TP53, EP300, CTNNB1 y GSK3B no fueron significativas para el CDN debido a su universalidad en numerosos tipos de cáncer. Sin embargo, estos genes han sido bien documentados a ser relevante para CRC, y también su papel en la CRC ha sido bien caracterizada [85]. Además de estos genes, la mayoría de los otros genes más cortos que figuran en la Tabla 2 eran bastante específico para CRC (valor de p & lt; 0,05). A continuación, vamos a centrarnos en los genes específicos con los grandes valores de intermediación y se discute la relación de estos genes con CCR.
AR (receptor de andrógenos) es un factor de transcripción dependientes de ligando, que está implicado en el control de celular la proliferación y diferenciación [86]. Varios estudios han proporcionado evidencias que apoyan por su implicación de las hormonas esteroides sexuales (estrógenos y andrógenos) en la etiología y progresión de la CRC [87]. proteína de AR se ha demostrado que se expresa en la mucosa colorrectal normal y en el cáncer colorrectal más [61], [62], el apoyo que CRC expresa el receptor de AR pueden responder a los efectos mitogénicos de la hormona. Además, las reducciones somáticas del andrógeno repetición CAG del receptor se producen con frecuencia, a través de una vía diferente a la inestabilidad de microsatélites y temprano durante la carcinogénesis de colon. Selección de crecimiento aparente de células que albergan alelos AR acortados sugiere que los andrógenos contribuyen a la carcinogénesis de colon de una manera aún desconocido [61].
PDD (la proteína de unión a TATA) es un factor clave de la transcripción eucariótica utilizado por los tres celular ARN polimerasas.