Extracto
Un candidato biomarcador para el diagnóstico del cáncer universal, se supone que distinguir, dentro de un amplio rango de los tumores, entre los pacientes sanos y enfermos. Estudios publicados recientemente han explorado la utilidad universal de algunos biomarcadores en tumores humanos. En este estudio, se presenta un enfoque integral para la búsqueda de potenciales biomarcadores de cáncer común. Uso de la herramienta web TFactS con un catálogo de genes reglamentos establecidos experimentalmente, podríamos predecir factores de transcripción (TFS) reguladas en 305 líneas celulares de cáncer humano diferentes que cubren un amplio panel de tipos de tumores. También se identificaron las regiones cromosómicas que tienen una variación significativa del número de copias (CNV) en estas líneas celulares. Dentro del ámbito del catálogo TFactS, 88 TFS cuyo estado de actividad se explica por sus expresiones de genes y se identificaron las VNC. Su red conectada mínima (MCN) de las interacciones proteína-proteína forma un módulo significativa dentro del proteoma TF curada humano. El análisis funcional de las proteínas incluidas en esta MCN reveló enriquecimiento en las vías del cáncer así como la inflamación. Los diez proteínas más céntricos de MCN son TFS que regulan trans-157 genes conocidos que codifican secretadas y proteínas transmembrana. En las colecciones disponibles públicamente de datos de expresión génica de 8.525 tejidos del paciente, 86 genes fueron regulados diferencialmente en el cáncer en comparación con las enfermedades inflamatorias y controles. De los conjuntos de datos de expresión génica del cáncer TCGA, 50 genes se asociaron de manera significativa a la supervivencia del paciente en al menos un tipo de tumor. enriquecimiento análisis muestra que estos genes interactúan de manera mecánica en las vías comunes de cáncer. Entre estos candidatos de biomarcadores del cáncer, TFRC, MET y VEGFA se amplifican genes comúnmente en los tumores y sus proteínas codificadas tiñeron positivo en más de 80% de las neoplasias malignas de bases de datos públicas. Están vinculadas a la angiogénesis y la hipoxia, que son comunes en el cáncer. Ellos podrían ser interesantes para futuras investigaciones en las estrategias de diagnóstico de cáncer
Visto:. Essaghir A, Demoulin J-B (2012) una red conectada Mínimo de factores de transcripción regulados en los tumores humanos y su aplicación a la búsqueda de cáncer universal biomarcadores. PLoS ONE 7 (6): e39666. doi: 10.1371 /journal.pone.0039666
Editor: Paolo Provero, Universidad de Turín, Italia |
Recibido: 6 Febrero, 2012; Aceptado: 25-may de 2012; Publicado: 25 Junio, 2012
Derechos de Autor © 2012 Essaghir, Demoulin. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo fue financiado por FSR Fellowship de la Université Catholique de Louvain. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
el cáncer es una enfermedad multifactorial. Muchos tipos de cáncer y etapas se han distinguido. Esta complejidad hace que la búsqueda de biomarcadores de cáncer "universales" una tarea difícil. Sin embargo, muchos estudios realizados por separado en diferentes tipos de cáncer han reportado genes comunes con potencial valor de biomarcadores en el diagnóstico o el tratamiento [1].
Sobre la base de la literatura de control o mediante el uso de técnicas de alto rendimiento que algunos autores identifican biomarcadores potenciales comunes a varios tipos de cáncer y trataron de desarrollar estrategias para identificarlos a partir de fluidos biológicos de pacientes, ya sea directa o indirectamente. Entre estos marcadores, la telomerasa ha sido reportado como siendo altamente expresado en neoplasias [2]. Una plataforma para capturar las células tumorales circulantes de la sangre del paciente y medir su actividad de la telomerasa se ha propuesto como una herramienta de diagnóstico del cáncer [3]. Además, extra-celular de AMPc dependiente de la proteína quinasa A (EC-PKA) se ha reportado que ser un buen marcador para múltiples tipos de cáncer [4]. Auto-anticuerpos contra EC-PKA medidos por ELISA de sueros de pacientes se han encontrado para ser altamente específica para el cáncer [5]. También se informó de la hormona folículo-estimulante receptor (FSH) que se expresa selectivamente en una variedad de tumores [6]. Las mismas observaciones se aplican también a un citocromo P450 (CYP1B1) [7]. alteraciones epigenéticas, además, podrían tener un valor diagnóstico en el cáncer. De hecho, algunos autores han señalado que los patrones de metilación del ADN específicos del cáncer como un marcador de enfermedades malignas [8]. Ellos se pueden detectar en ADN circulante libre de células en la sangre [9]. También se detectaron autoanticuerpos contra el antígeno de leucocitos F (HLA-F) en pacientes con diversos tipos de cáncer en comparación con individuos sanos [10].
genes candidatos biomarcadores de cáncer podrían ser identificados a partir de la literatura. los pesos de confianza se pueden asociar a cada gen usando su frecuencia de citación [11]. Aunque inicialmente se usó para enumerar los marcadores específicos para cada tipo de cáncer, estas listas ponderados pueden ayudar a la selección de biomarcadores comunes en el cáncer. Sin embargo, las estrategias más elaborados se han utilizado para identificar biomarcadores del cáncer comunes, incluyendo la expresión de genes meta-análisis a través de diferentes tipos de tumores [12], [13]. Pueden estar asociados con filtros de función y de enriquecimiento vía de anotación para seleccionar biomarcadores comunes [14].
En este estudio, hemos elaborado una estrategia integradora para buscar biomarcadores útiles habituales en los tipos de cáncer. Nuestra hipótesis de trabajo se basa en la suposición de que casi todas las perturbaciones que conducen a la transformación maligna de las células normales, aunque complejo y diverso, compartir vías de colaboración común [15]. En general, estas vías podrían terminar mediante la activación y /o la represión de algunos conjuntos de genes. Estos genes son dianas de factores de transcripción (TFS). Algunos de estos TFS se modulan de forma redundante entre los teléfonos transformación de diferentes eventos [16] - [22]. Ellos podrían ser vistas como las conexiones o los nodos de diafonía de las vías más importantes de cáncer [23] - [27]. Por lo tanto, no debería ser un conjunto de un mínimo de TFS conectado comúnmente perturbado en los tumores, ya que comparten vías moduladas [28]. Este conjunto de TFS se podría considerar como un cuello de botella de las vías de cáncer. Si existen biomarcadores de cáncer comunes, que son más propensos a ser uno de los objetivos de estos TFS comúnmente regulados [29]. En este estudio, nos aprovechamos de TFactS, una herramienta que hemos desarrollado recientemente para predecir las regulaciones TF de datos de expresión génica de alto rendimiento [30].
Resultados
Identificación de TFS regulada en Cancer Cell líneas
La expresión génica y SNP datos estaban disponibles para 305 líneas celulares, de los cuales se analizaron más resultados. Estas líneas celulares representan un amplio panel de tipos de cáncer que abarca 28 sitios diferentes histológicos.
Asumimos que TFS importante sería aquellos para los que la expresión génica y la CNV podrían explicar su estado de actividad [31], [32]. Podrían identificarse utilizando el modelo de regresión se muestra en la Figura 1. Para calcular todos los parámetros necesarios para este modelo, hemos identificado los genes regulados diferencialmente en cada línea celular en comparación con el conjunto de todas las otras líneas celulares. La mediana del número de genes regulados por línea celular es 218 (mínimo: 15 y máximo: 721), con la participación de forma acumulativa 4.686 únicos genes que codifican conocidos. Entonces, cada lista gen específico de línea celular fue sometido a TFactS y se compara con el catálogo de genes diana TF validada experimentalmente mediante el test de Fisher [30]. Hemos demostrado que esta herramienta predice de manera eficiente la regulación TF de las listas de genes regulados [33], [34]. Por otra parte, los datos de SNP se normalizaron y, a continuación segmentada enviadas al algoritmo logís- para identificar regiones cromosómicas alterado de manera significativa en todos estas líneas de células [35]. Figura S1 muestra que las supresiones y amplificaciones importantes se extendieron en todo el genoma. Un análisis restringido de genes que codifican TF-revelado que 2.113 de los 2.335 genes conocidos para codificar "de unión al ADN" proteínas (GO plazo) tenían su loci alterado de manera significativa, al menos, en una línea celular. Para seleccionar los factores de transcripción relevante para el cáncer de una manera más rigurosa, se combinaron el análisis de la expresión, actividad y CNV (Figura 1).
Véase el texto para detalles. Reg: la regulación; Exp: expresión; CNV: la variación del número de copias; MCN: red conectada mínima; PPI: interacciones proteína-proteína; TF:. El factor de transcripción
Para cada TF, perfiles de correlación con otros TFS se calcula en base a: la regulación (determinado por análisis TFactS), la expresión génica y alteraciones genómicas (CNV), respectivamente. El modelo de la figura 1 utiliza estas puntuaciones de correlación significativa para encontrar TFS, para el que la expresión de genes asociados a la CNV podría explicar la regulación inferido correspondiente. Se identificaron 88 TFS (valores de p & lt; = 0,05, el cuadro S1). Apoyando a nuestros resultados, la CNV que afecta a algunos de estos TFS en el cáncer ya se ha informado, incluyendo:. TP53, BRCA1, RUNX1 y MYC [36]
El Mínimo conectada a una red de factores de transcripción regulados en líneas celulares de cáncer
Se utilizó la herramienta web de la nieve para identificar la red conectada mínima (MCN) de las interacciones proteína-proteína que participa en los 88 TFS asociados con el cáncer de nuestro análisis inicial. Nieve predijo este MCN mediante el cálculo de las rutas más cortas que unen las proteínas de entrada, ya sea directamente o con una proteína intermedia tolerado, basados en una base de datos incorporada en las interacciones proteína-proteína humana [37], [38]. La restricción de nuestro análisis basado en la nieve a la interactome proteína humana con al menos dos evidencias experimentales de interacción, hemos identificado una subred de conexión 70 de 88 TFS, ya sea directamente o con uno intermedio. Es notable que la mayoría de la TFS identificados en la primera etapa podría estar vinculado en esta subred única interacción proteína-proteína. Dieciocho TFS se perdieron debido a nuestras limitaciones en el análisis o en su ausencia en el interactoma anotada de nieve. Nieve utiliza la prueba de Kolmogorov-Smirnov para evaluar la importancia de la subred identificados mediante la comparación de sus intermediación, conexiones y distribuciones coeficiente de agrupación a los generados a partir de 1.000 redes aleatorias con el mismo número de proteínas. Nuestra subred identificada tenía valores de p significativos para todos estos parámetros evaluados (intermediación: 2.06E-37, las conexiones: 1.68E-47, la agrupación coef .: 4.07E-43). Esta subred contenía dos componentes conectados distintos. El primero contenía casi todas las interacciones de la subred significativa y fue considerado como la línea asociada a la célula cancerosa TFS MCN para su posterior análisis (Figura 2). El segundo componente conectado, que tiene sólo dos interacciones que conecta los tres proteínas se descartó.
La herramienta web de la nieve identificado una interacción proteína-proteína subred curada significativa humana que implica 70 de los 88 TFS correlativamente regulados en líneas celulares de cáncer. El primer componente conectado como se muestra aquí es considerada como la red conectada mínima (MCN) que conecta estos TFS. Cada nodo representa una proteína. Los bordes son las interacciones proteína-proteína validados por al menos dos evidencias experimentales. Los nodos sombreados en color violeta representan los diez mejores TFS más céntricas de la red multicanal. Nodo-ranking se basa en las puntuaciones de centralidad de intermediación.
Nos preguntamos si a continuación, los falsos positivos de TFactS, logís- y la expresión diferencial de los análisis podría afectar a la identificación MCN. Para controlar estos efectos, se realizó un control negativo, en el que se analizaron 100 listas aleatorias diferentes de 88 TFS del catálogo TFactS. Cada lista se presentó a la nieve para producir una red multicanal utilizando los mismos parámetros que el anterior. Mediante la comparación de la distribución de las puntuaciones de intermediación de todas las redes multicanal al azar a la MCN estableció a partir de nuestro modelo, se observó una diferencia significativa (p-valor ~0.01; KS test). Junto con los resultados discutidos anteriormente entre los incorporados en comparación con 1.000 redes aleatorias realizadas en la nieve, esto sugiere que nuestro identificado MCN constituye un módulo importante que implique la TFS comúnmente regulado en líneas celulares de cáncer.
Esta MCN podría ser visto como un regulador "rotonda" de la mayoría de las vías reguladas en líneas celulares de cáncer. De hecho, tal como se representa en la Figura 3, muchas proteínas de NMI están implicadas en muchos tipos de cáncer y de señalización de cáncer de las vías. Sin embargo, las proteínas MCN son también significativamente implicados en las vías de respuesta inmunitaria. Esto podría reflejar una participación de algunos TFS MCN como NFkB tanto en el cáncer y la inflamación [16]
.
Todas las proteínas (nodos) en el MCN se presentaron a DAVID herramienta web para el análisis KEGG vía de enriquecimiento. vías significativas se muestran por categorías de acuerdo con el (valor p) -log10 y el porcentaje de intersección entre la lista presentada y consultar las anotaciones.
genes diana de MCN central factores de transcripción
factores de transcripción en la red conectada mínimo identificado anteriormente probablemente representan los principales efectores reguladores comúnmente perturbado en las líneas celulares de cáncer analizadas. Nos centramos en la TFS más centrales en esta red. Centralidad de los nodos en una red dada puede ser estimado utilizando muchos parámetros. Entre ellos, las puntuaciones de la intermediación de frecuencia mediante el cual un cierto nodo está dentro de las rutas más cortas que unen los otros dos nodos. Se piensa que es una buena estimación de la centralidad [39]. Por alto rango de los 236 nodos MCN función de sus puntuaciones de intermediación, se identificaron 59 proteínas centrales que tienen puntuaciones por encima de la media. Estas proteínas centrales muestran el mismo enriquecimiento funcional como a toda la red multicanal.
seleccionado arbitrariamente los 10 nodos MCN centrales superiores. Sus nombres de genes que codifican son: TP53, ESR1, CREBBP, MYC, AR, BRCA1, RELA, RARA, EP300 y NFKB2. Estos diez TFS concentran el 41% del total de las puntuaciones acumuladas intermediación de los 236 nodos MCN. Pueden ser considerados como centros o coleccionistas de estas interacciones en la red. Esto está en línea con el modelo de "libre de escala" que fue sugerido para dirigir las interacciones proteína-proteína FT, en el que los centros fueron construidos alrededor de TFS asociados con tumores malignos [40]. Hemos sostenido que los biomarcadores del cáncer son comunes probable que se encuentran entre los objetivos de estos TFS más centrales. 874 genes diana únicas de estos diez TFS son reportados en el catálogo TFactS. Un análisis de enriquecimiento de estos genes, utilizando la "enfermedad db asociación genética" en la herramienta web DAVID, reveló un exceso de representación de un amplio panel de tipos de cáncer, así como las ontologías relacionadas con la respuesta inmune y enfermedades inflamatorias (Archivo S1).
los genes del cáncer-específica de los objetivos de MCN central factores de la transcripción
enriquecimiento de análisis realizado sobre las proteínas MCN, así como los objetivos de la TFS centrales mostraron una asociación entre el cáncer y la inflamación. Esta asociación está bien documentado en la literatura [41]. biomarcadores específicos de cáncer que se han expresado de manera diferencial en pacientes con cáncer en comparación con los individuos sanos y pacientes con enfermedades inflamatorias [42]. Además, un biomarcador de cáncer universal debería ser específica para el cáncer en un amplio panel de tipos de tumores. Dado que nuestro interés es identificar biomarcadores del cáncer "accesibles", hemos tratado de restringir su posterior análisis sólo en los genes que codifican para las proteínas secretadas y transmembrana. La base de datos de anotación palabras clave SP-PIR, como se usa en la herramienta DAVID, contiene 1.689 y 642 genes anotados como codificación secretada y transmembrana proteínas, respectivamente. En los 874 genes diana de los diez TFS más céntricas de la MCN, encontramos 57 genes que codifican proteínas secretadas (p-valor: 1.1E-6) y 110 que codifican proteínas transmembrana (p-valor: 4.3E-5). Esto representa un conjunto único de 157 genes. Por lo tanto, la identificación de los TF MCN y se centra en los genes diana de los diez más central TFS nos permitió dar prioridad a una lista corta de proteínas accesibles para ser analizados en muestras de pacientes para la expresión diferencial (Figura 1).
filtrados esta lista de genes utilizando los datos del paciente disponibles. Se realizó el análisis de la expresión génica en una micromatriz gran conjunto de datos reunidos de 8.525 tejidos diferentes de pacientes con cáncer o la inflamación y los individuos sanos (Figura 4, S2 Archivo). De los 157 genes priorizados, podríamos establecer una lista de 86 transcripciones específicos de cáncer (Figura 4). Entre ellos, 3 genes fueron aprobados por la FDA para el diagnóstico de cáncer, incluyendo: EGFR, KLK3 (PSA) y AFP en el diagnóstico de cánceres de colon, próstata y testículo, respectivamente [43]. Por otra parte, el HLA-F en esta lista ya ha sido reportado como detectable en el suero de pacientes con cáncer que utilizan varios ELISA indirecto [10].
microarrays de genes de expresión de datos que representan 8.525 muestras de pacientes fueron descargados de GEO. A- 78% de los pacientes tenían diferentes tipos de cáncer; 14% son saludables individual y se tomaron muestras de diferentes tejidos; 8% de los pacientes tenían inflamación /sepsis y se investigaron de toda la sangre y otros tejidos. Se analizó la expresión diferencial B- de la parte superior central de MCN diez TFS gen diana lista de codificación de proteínas secretadas y transmembrana. Entre estos genes, como se muestra en el diagrama de Venn-, se encontraron 140 conjuntos de sonda (86 genes únicos) para ser cáncer-específica. GI:. Gastrointestinal
biomarcadores potenciales común en el cáncer
Con el fin de fortalecer la probabilidad de encontrar posibles marcadores biológicos comunes entre la lista de genes específica del cáncer (Figura 5), que filtrada estos genes en función de su efecto significativo en la supervivencia del paciente en cualquiera de los tipos de cáncer de base de datos TCGA. Los conjuntos de datos de expresión de genes disponible de TCGA, que abarca nueve tipos de cáncer, se descargan y se analizaron por separado para la asociación-supervivencia de los genes. Para cada gen, los pacientes se dividieron en tres grupos (terciles) de acuerdo con los niveles de expresión del gen estudiado. a continuación, se obtuvieron grupos de pacientes con baja, media y alta expresión. Haciendo uso de los datos de supervivencia de los pacientes disponibles: duración del seguimiento y el estado de la muerte, hemos montado curvas de Kaplan-Meier para estos grupos. Los genes que predicen la supervivencia del paciente de manera significativa (log-rank p-valor & lt; = 0,05), en por lo menos un tipo de cáncer, se muestran en la Tabla S2. Los productos de estos 50 genes median muchas vías que interactúan en el cáncer, como se representa en la Figura S2 (KEGG vía de enriquecimiento, p-valor ~4.29E-4).
significado de la expresión génica del cáncer específico y doble cambio. La significancia fue atestiguado por B-H corrección de valor de p, y todos los genes que se muestran tienen B-H valor de p & lt; = 0.05. Bar-parcelas muestran la (no corregida p-valor) -log10. Los triángulos muestran el pliegue del cambio iniciado sesión del gen correspondiente en el cáncer en comparación con fenotipos saludables e inflamación de los pacientes. FDA aprobó biomarcadores de cáncer están marcados con (*) guía empresas
Para cada gen que figuran en la Tabla S2, hemos añadido los siguientes recursos:. (I) la CNV que afectan de manera significativa la correspondiente loci de genes en todos los tipos de tumores como se analiza en la base de datos Tumorscape [44]; (Ii) el porcentaje de inmunohistoquímica (IHC) tinción positiva en el cáncer como se detecta en la base de datos ProteinAtlas [45]. Se consideró que los genes positivos para todos los criterios enumerados en la Tabla S2 son más propensos a ser candidatos de biomarcadores de cáncer comunes. TFRC, VEGFA y MET son los mejores candidatos potenciales. Estos genes se han asociado por separado para muchos tipos de cáncer en la literatura (Tabla S3).
Discusión
tipos de cáncer han sido examinados por separado para la identificación de biomarcadores. Hoy en día, hay un esfuerzo emergente para buscar marcadores de cáncer universales. Los datos de alto rendimiento recientemente disponibles a partir de muestras de cáncer del paciente hacen que esta tarea sea más asequible en el contexto del análisis integrador. Este estudio se llevó a cabo dentro de un marco de este tipo
.
El cáncer es una enfermedad de múltiples etapas, en el que las células normales se transforman progresivamente a las malignas. Este proceso implica la regulación del factor de transcripción (TF) para asegurar la transcripción de genes necesarios [46]. Asumimos que TFS regulados en el cáncer tendría su actividad explicarse por su codificación de nivel de la expresión génica y alteraciones genómicas. La hipótesis de que TFS asociados con el cáncer podrían interactuar entre sí de manera modular, de tal manera que los acontecimientos del cáncer que activa terminar perturbar la función de este módulo. Los biomarcadores comunes a muchos tipos de cáncer podrían estar entre estos genes diana TF. Luego seguimos el flujo de trabajo representada en la Figura 1 para apuntar importantes genes comúnmente regulados en el cáncer que codifican proteínas accesibles. Asumimos que se centra en TFS nos guiará para encontrar la parte más valiosa de información sobre el cáncer, lo que podría ser medido por la expresión de genes [47]. Adición de datos de la CNV para filtrar importante TFS reforzará este enfoque. Considerando que, en el análisis de todos los genes regulados y regiones cromosómicas alterado de manera significativa sin ninguna contextualización en términos de los reguladores (TFS) va a diluir el biomarcador del cáncer común entre muchos resultados falsos positivos
.
Como primer paso en la búsqueda de biomarcadores de cáncer comunes , hemos tratado de identificar la red conectada mínima participación de TFS, cuya actividad está regulada en los tumores. Hemos integrado genómica y datos transcriptómica de un panel de líneas celulares de cáncer, junto con la regulación TF inferido a partir de la expresión génica utilizando TFactS, que ha sido previamente demostrado ser capaz de inferir con precisión la regulación TF o el estado de actividad de una lista de genes expresados [30] . El uso de líneas celulares en este paso se justifica por la disponibilidad de ambos datos genómicos y de expresión. Además, la construcción de MCN significativa requiere datos a partir de células homogéneas, que no es el caso de la mayoría de las muestras de cáncer primarios, en los que las alteraciones genómicas y la expresión de genes difieren entre las células cancerosas y las células del estroma, e incluso entre los diferentes clones de células de cáncer. Se identificaron 88 TFS, que podrían ser los principales reguladores en líneas celulares de cáncer. Este paso es, sin embargo, limitada por la TFS representados en TFactS, a pesar de que la muestra El TFS más estudiados en la literatura. Este paso también podría ser mejorada teniendo en cuenta otras alteraciones genómicas, tales como mutaciones. Sin embargo, los datos de alteración del genoma entero no estaban disponibles aún para todas las líneas celulares estudiadas.
Por análisis de la interacción proteína-proteína, MCN conexión para la mayoría de los 88 TFS se ha identificado desde la red proteoma humano curada. El MCN contiene ambos TFS y otras proteínas. de enriquecimiento de análisis reveló que este MCN reúne las principales vías de conducción conocidos múltiples tipos de cáncer. Sorprendentemente, las vías de la respuesta inmune también fueron enriquecidos en MCN, que se identificó en base a datos de la línea celular, descartando cualquier efecto micro-ambiental tumor en estos resultados. Esto sugiere un doble papel jugado por este módulo de TFS conectados tanto en el cáncer y la inflamación. Los resultados de nuestro procedimiento de control negativo sugirieron que el MCN asociada al cáncer constituye un módulo significativa. la mayoría de TFS centrales de este módulo son susceptibles de actuar como los principales "colectores" de perturbaciones marginales.
En una segunda etapa, que arbitrariamente limitado nuestro análisis de los genes objetivo de los diez más céntricas MCN TFS. de enriquecimiento de análisis de estos genes reveló un contexto cáncer de las vías de más de representación, como se esperaba. Dado que nuestro objetivo fue identificar los genes que podrían ser fácilmente probaron en pacientes que han filtrado esta lista de genes de 157 genes que codifican para las proteínas secretadas y transmembrana. Mediante la comparación de su expresión en un grupo de 8.525 pacientes, hemos identificado un conjunto de 86 genes específicos del cáncer expresados diferencialmente en el cáncer frente a fenotipos normales y la inflamación. Incluyen tres de las seis proteínas aprobados por la FDA para el diagnóstico de cáncer específico: PSA /KLK3, EGFR y AFP. La expresión de estos tres genes se pudo comprobar en otros tipos de cáncer. PSA, antígeno específico de próstata, por ejemplo, aunque ampliamente usado en el diagnóstico del cáncer de próstata, se informó también en cánceres de riñón, de estómago y de mama [48] - [50]. Estos resultados proporcionan una validación interna de nuestra metodología.
Hemos tratado de restringir aún más el análisis teniendo en cuenta el potencial valor pronóstico en al menos un tipo de cáncer. Esto se realizó mediante la asociación de la expresión génica para la supervivencia del paciente en los conjuntos de datos del TCGA. 50 genes predijeron significativamente la supervivencia en al menos un tipo de cáncer. Cada uno de estos genes podría ser investigado por separado en el tipo de cáncer para el pronóstico correspondiente. Estos genes están involucrados de manera significativa e interconectada en muchas vías de cáncer (Figura S2). Sin embargo, las citoquinas inmunomoduladoras y quimiocinas también se enriquecieron en esta lista de genes, lo que podría sugerir que algunos de estos genes puede no distinguir completamente pacientes con cáncer de de aquellos con enfermedades inflamatorias.
Se identificaron tres biomarcadores potenciales común al cáncer, es decir, TFRC, VEGFA y MET como lo demuestra por: (i) de genes de expresión en cáncer, en comparación a la normalidad y la inflamación; (Ii) la expresión génica significativamente vinculada a la supervivencia del paciente en al menos dos tipos de cáncer; (Iii) que corresponde CNV focalmente amplificado de manera significativa en los tumores; (Iv) las proteínas se tiñen positivo en más de 80% de los cánceres. VEGFA promueve la angiogénesis. Su potencial de diagnóstico fue investigado por separado en muchos tipos de cáncer (Tabla S3). MET, es un conocido receptor de la tirosina quinasa oncogénica para el factor de crecimiento de hepatocitos. También se asocia con muchos tipos de cáncer (Tabla S3). Además, se ha informado como un marcador para las células madre de cáncer en: próstata, cabeza y cuello, hígado, cerebro y pulmón [51] - [56]. VEGFA y MET sinergia en la angiogénesis podría ser objeto de la terapia anti-tumoral más eficaz [57]. TFRC, receptor de transferrina, se sabe que se expresa en muchos tipos de tumores (Tabla S3). La expresión de VEGFA y TFRC es comúnmente regulados por HIF y MYC, que promueven la angiogénesis y la proliferación, respectivamente [58] - [60]. La conexión entre estos dos TFS a través de sus genes diana es conocido para conferir una ventaja metabólica a tumores en condiciones de hipoxia, que es una condición común en enfermedades malignas [61], [62].
En resumen, nuestra estrategia identificó una red de TFS que regulan 50 posibles biomarcadores de cáncer común. Los datos actualmente disponibles en TCGA, Tumorscape y ProteinAtlas bases de datos apuntaban a los genes VEGFA, TFRC y MET como potenciales candidatos. conocimiento literatura asociada a estos genes corrobora nuestro enfoque. En su conjunto, todas estas observaciones podrían sugerir investigar más a fondo la utilidad de VEGFA, MET y TFRC como biomarcadores de cáncer comunes. Esto podría ser realizado por la detección directa de estos biomarcadores o mediante la comprobación de la presencia de auto-anticuerpos dirigidos contra proteínas de cáncer de potenciales en el suero del paciente, un enfoque que ha ganado mucho interés en el campo del diagnóstico de cáncer [4], [63].
Materiales y Métodos
Análisis de microarrays
Los datos de microarrays de 950 realizados por laboratorios GlaxoSmithKlein (GSK) en diferentes líneas celulares de cáncer fueron descargados de ArrayExpress (e-MTAB-37) . El método de normalización RMA se aplicó utilizando el paquete de XPS de R /Bioconductor [64]. La expresión de genes en cada línea celular se realizó en duplicados o triplicados. Se realizó la prueba de Kolmogorov-Smirnov para seleccionar los genes expresados diferencialmente en cada línea celular en comparación con los demás. Un umbral de corrección de Bonferroni se aplicó sobre los valores de p. Los genes con un e-valor de & lt; = 10 se consideraron como significativamente expresadas diferencialmente en la línea celular correspondiente.
Transcripción Reglamento análisis factorial
Cada lista de genes regulados en cada línea celular fue sometido a TFactS para predecir TFS regulados [30]. TFactS firmar menos Catálogo (versión 2) contiene 6.823 reglamentos que vinculan 345 TFS únicas a sus 2.650 genes objetivos únicos. Para cada lista de genes regulados, TFactS predice el TFS cuyos objetivos se enriquecen en las listas presentadas utilizando el test de Fisher. En este estudio, el catálogo más grande signo menos se utiliza en lugar de la restringida un signo sensible. TFactS fue ejecutado usando BatchTFactS parámetros por defecto (www.tfacts.org). TFS con una puntuación de correo valor positivo (-log10 (e-valor)) se consideraron como significativos. TFS que no fueron significativas en todas las líneas celulares se descartaron antes de que el ajuste del modelo.
Genómica Copia Número Variación Análisis
Los datos genómicos de las líneas celulares anteriores también fueron puestos en libertad por GSK. conjuntos SNP arrays de datos disponibles en ArrayExpress fueron descargados (E-MTAB-38). Ellos fueron analizados utilizando el paquete de aroma Affymetrix en el R /Bioconductor [65]. Brevemente se aplicó un cuantil normalización seguido por el resumen CRMA y corregido por chip y PCR de fragmentos de longitud efectos [66]. A continuación, el algoritmo de GLAD se aplicó a números de copias primas para la segmentación [67]. Los datos segmentados fueron sometidos luego a logís- algoritmo para encontrar regiones alterado de manera significativa en todos los cromosomas X e Y. excepto un umbral q-valor por defecto de 0,25 se utilizó para seleccionar regiones significativas [35]. Antes de cálculo de matriz de correlación a base de CNV y el ajuste del modelo, los valores de la CNV para cada gen en las regiones cromosómicas alterado de manera significativa se normalizaron como sigue: (i) para cada una de las regiones significativas informado logís--, se determinó el valor de la mediana de la significativa picos de la CNV; (Ii) cada gen en una región cromosómica significativa se ha asignado el valor de esta mediana. Los valores de la CNV estaban en log2-relación como enviada por logís-. Se obtuvo la localización cromosómica de los genes utilizando los genes Ensembl 64 de base de datos con la liberación humana "GRCH37.p5" en la herramienta web Biomart [68].
Identificación de la TF Mínimo Conectado regulado en líneas celulares de cáncer
con el fin de identificar un conjunto de TFS correlacionados que son comúnmente regulados en el cáncer, se considera 305 líneas celulares, los cuales se dispone de datos tanto SNP expresión y. Cada TF tiene tres mediciones en cada línea celular: regulación de las puntuaciones TF estimados por TFactS (-log10 (e-valor)), expresiones que codifica TF-gen (de microarrays) y las variaciones del número de copias del TF-locus (a partir del análisis normalizado logís- mediana). Tres matrices, con TFS en filas y líneas celulares en las columnas, se podrían construir a partir de estos datos: una matriz de regulación del TF, una matriz de expresión de gen que codifica TF-y una matriz CNV TF-locus. En cada una de estas matrices, hemos calculado las correlaciones de cada TF con los otros TFS utilizando el coeficiente de correlación de Pearson. Estas correlaciones podrían ser representados como perfiles de correlación TF-TF. A continuación, hemos montado el siguiente modelo para cada TF:
R = β
0+ β
1 * E + β
2 * C
, Donde:
(R ) TF-TF perfil de correlación basado en TFactS partituras, solamente TFS regulados significativamente en al menos una línea de células se utilizaron; (E) TF-TF perfil de correlación basado en la expresión de genes; perfil de correlación (C) TF-TF de las regiones importantes identificados por el algoritmo logís-, estas correlaciones se calcularon utilizando loci copiar valores de la mediana normalizada variación del número.
Cada TF tiene significativa
β
1
(valor de p & lt; = 0,05) y
β
2 gratis (valor de p & lt; = 0,05) se consideró como correlativamente regulada en el cáncer.