Extracto
Un desafío clave en el análisis de datos de alto rendimiento experimentos biológicos es a menudo manejar el bajo número de muestras en los experimentos en comparación con el número de biomoléculas que se miden simultáneamente. La combinación de datos experimentales usando tecnologías independientes para iluminar las mismas tendencias biológicas, así como complementar entre sí en una perspectiva más amplia, es una forma natural para superar este desafío. En este trabajo se investigó si la integración de la proteómica y transcriptómica de datos a partir de un modelo animal de cáncer de cerebro utilizando la metodología basada en el análisis conjunto de genes, podría mejorar la interpretación biológica de los datos relativos al análisis más tradicional de los dos conjuntos de datos individualmente. El modelo de cáncer de cerebro utilizado se basa en pasos en serie de material de tumor cerebral humano trasplantado (glioblastoma - GBM) a través de varias generaciones en ratas. Estos trasplantes de serie conducen con el tiempo para genotípica y cambios fenotípicos en los tumores y representan un modelo médicamente relevante con un raro acceso a las muestras y donde consiguientes análisis de conjuntos de datos individuales han revelado relativamente pocos resultados significativos por su cuenta. Se encontró que el análisis integrado tanto un mejor desempeño en términos de medida de significación de sus resultados en comparación con los análisis individuales, así como proporcionar una verificación independiente de los resultados individuales. Por lo tanto un mejor contexto para la interpretación biológica global de puedan ser alcanzados de los datos
Visto:. Petersen K, T Rajcevic, Abdul Rahim SA, Jonassen I, Kalland K-H, Jiménez CR, et al. (2013) Gene conjunto de análisis de datos integrado basado revela diferencias fenotípicas en un modelo de cáncer de cerebro. PLoS ONE 8 (7): e68288. doi: 10.1371 /journal.pone.0068288
Editor: Ying Xu, de la Universidad de Georgia, Estados Unidos de América
Recibido: 28 Febrero, 2013; Aceptado: 28-may de 2013; Publicado: 9 Julio 2013
Derechos de Autor © 2013 Petersen et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo fue apoyada por la Sociedad Noruega del cáncer, el Consejo de Investigación de Noruega, Innovest AS, Helse-Vest, hospital Universitario de Haukeland, el Programa de Investigación Bergen traslacional, el Centro de Investigación de público Santé Luxemburgo, el Europeo 6ª Comisión Contrato Programa Marco de 504.743 y la Genómica funcional programa (FUGE) en Noruega la financiación de la plataforma nacional de Bioinformática. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
el rápido progreso en el desarrollo de tecnología para la evaluación de la información de múltiples ángulos sobre los genes, las proteínas y metabolitos, ha dado lugar a una creciente expectativa de un gran potencial para nuevos descubrimientos en la comprensión de las actividades moleculares celulares. tecnologías de control individuales se han comercializado para revelar una imagen global mediante la captura de información sobre la mayoría de las entidades de un tipo, como por ejemplo los genes transcritos codificados en el genoma o un gran número de proteínas presentes en una muestra preparada. Obviamente, una extensión natural es la combinación de varios tipos de datos para revelar más información sobre los procesos biológicos a nivel molecular. Para obtener de este potencial esperado de descubrimientos, varios retos fundamentales tienen que ser enfrentados. Conjuntos de datos de alto rendimiento tienen por naturaleza un gran desequilibrio entre el número de muestreos y número de variables medidas, lo que lleva a los desafíos en relación con la interpretación y la confianza de las estimaciones de los resultados del análisis. Y la interpretación de varios conjuntos de datos que evalúen muestras de diferentes ángulos en combinación requiere un nuevo modelo teórico que puede evaluar cuestiones biológicas y la importancia de las respuestas predichas. Un modelo integrado con éxito debe evaluar cuestiones biológicas relevantes con mayor confianza en las respuestas predichas en comparación con los métodos de los tipos de conjuntos de datos individuales, a pesar del aumento de la complejidad del modelo. En este trabajo se presenta un enfoque de análisis combinado para la interpretación de alto rendimiento de microarrays y proteómica conjuntos de datos en dos fenotipos diferentes de tumores obtenidos por los trasplantes de serie de GBM humanos en el SNC de ratas [1], [2].
GBM representa un grupo heterogéneo de tumores cerebrales malignos [3] y es una de las formas más mortales de cáncer en seres humanos. La supervivencia media de los pacientes afectados sólo ha mejorado desde un promedio de 12 meses a 14,5 meses después del diagnóstico en los últimos 5 años debido a las mejoras en la norma de atención [4]. Para hacer frente a la compleja cuestión en el fondo molecular de GBM humanos, un modelo GBM humana se desarrolló en ratas inmunodeficientes [1], [2], [5], que desacopla parcialmente dos principales características fenotípicas y monumentos de este tumor,
es decir
invasión y la angiogénesis. Estas dos características hacen GBM difíciles de tratar por las terapias disponibles. El modelo se basa en los xenotrasplantes de serie de esferoides GBM humanos en el cerebro de ratas inmunodeficientes, en los que inician el crecimiento de GBMs primarios. El fenotipo de la primera generación tumor muestra una naturaleza altamente invasiva en el cerebro de rata, mientras que por pasos en serie en los animales, el tumor se convierte en un tumor angiogénico de crecimiento más rápido, con abundante vasculatura, y menos invasión. Los fenotipos de tejidos modelo y el cerebro se ilustran en la Figura 1.
Una representación esquemática del modelo de tumor y los fenotipos obtenidos después del trasplante en ratas desnudas. El primer trasplante en ratas desnudas a menudo como resultado un fenotipo invasivo, mientras que el trasplante de serie de los tumores resultó en fenotipo angiogénico después de varias generaciones.
Como ya se ha mencionado, el análisis de datos y la interpretación biológica de tecnología de alto rendimiento conjuntos de datos generados en la escala de los genomas y proteomas es en general un reto, debido a la gran desequilibrio entre el número de muestras y el número de moléculas está probando. Para identificar un cambio significativo estadístico en el nivel de expresión de un único gen en el nivel de cambio que es interesante para la interpretación biológica, se requieren muchas repeticiones independientes en el experimento. La naturaleza compleja de la MBG xenotrasplantes paso en serie modelo de rata, y la disponibilidad limitada de forma natural de los donantes de material tumoral, han dado lugar a un conjunto limitado de pares de muestras coincidentes con el fenotipo invasivo y angiogénico que se proyectarán por microarrays y proteómica. Además, un alto nivel de variación individual entre muestras se espera y se ha observado la hora de abordar el conjunto de datos transcriptómica en el trabajo anterior [1], [6]. El fondo molecular del interruptor de fenotipo se abordó en los niveles de expresión diferencial de ARN [1] y las proteínas [7] - [9], donde una amplia validación que incluye un gran número de pacientes con GBM y análisis funcionales condujo a nuevos biomarcadores candidatos de una determinada fenotipo [7] - [9]. sin embargo, el reto sigue siendo para identificar las vías moleculares particulares reflejadas por el enriquecimiento de determinados conjuntos de genes, lo que llevaría a una mejor comprensión biológica de la patología subyacente.
Hay dos estrategias generales para contrarrestar los desafíos que pesan dimensionalidad de los datos de alto rendimiento análisis son (i) analizar conjuntos de
a priori
moléculas biológicamente relacionados definidos en el momento en lugar de moléculas individuales y (ii) para integrar los resultados de varios análisis independientes posiblemente de diferentes experimentos de alto rendimiento, tanto para encontrar evidencia que soporta las mismas tendencias biológicas y para complementarse entre sí para una interpretación más rica. El análisis conjunto de los términos ontología de genes excesivamente en una lista de genes expresados diferencialmente en comparación con el conjunto de datos es un ejemplo temprano de la estrategia (i), mientras que el conjunto de genes de enriquecimiento de análisis - GSEA [10] y el gran número de variantes de enriquecimiento métodos basados en [11], [12] representa la evolución posterior. Existen varios métodos de meta-análisis de experimentos independientes sobre las mismas muestras, desde Rango sencilla producto basado en la combinación de los resultados individuales de la lista [13] para más complejo el análisis de variables múltiples métodos para identificar tendencias similares en todos los conjuntos de datos tales como co-inercia basada Análisis (CIA) [14], [15]. métodos de análisis multivariado requieren un número mínimo de muestras en un conjunto de datos, y la CIA requiere exactamente las mismas muestras de estar presente en todos los conjuntos de datos, a menudo haciéndolos inadecuados en la práctica, como en nuestro caso GBM. Subramanian et al demostraron la flexibilidad de GSEA como una herramienta para los compañeros de analizar varios experimentos independientes micorarray en muestras relacionadas biológicamente. Aquí extendemos esta línea de pensamiento para cruzar la barrera entre diferentes tecnologías de alto rendimiento.
En este trabajo se aplicó el método de análisis conjunto de genes co-interpretar los dos conjuntos de datos en el contexto de la otra. La anotación de los genes y las proteínas identificadas se interpretan en relación con los fenotipos invasivos y angiogénicos, y se compara con los resultados de análisis regulares de ontología de genes de los conjuntos de datos individuales. Este enfoque pone de relieve cómo apoyan y refuerzan mutuamente en nuestra interpretación combinada, así como se complementan entre sí en una mejor imagen detallada de las diferencias fenotípicas en las fases invasoras y angiogénicos del modelo de cáncer de cerebro. Los resultados muestran un fuerte apoyo estadística entre los resultados de microarrays y proteómica, que también se refleja en la interpretación biológica de los datos a través de una alta concordancia con los resultados de los análisis individuales. Para demostrar aún más la validez del enfoque propuesto, los resultados se contrastan con Rango del producto meta-análisis de los mismos dos conjuntos de datos. También se aplica el método a una pareja independiente publicado a principios de los conjuntos de datos de microarrays y proteómica, volviendo a descubrir con éxito las principales conclusiones de la publicación original.
Materiales y Métodos
Experimento diseño em
cinco pares de muestras correspondientes invasivos y angiogénicos de los modelos de xenoinjertos, procedentes de cinco pacientes individuales, se utilizaron en total en los microarrays y proteómica experimentos. Cuatro pares de muestras se prepararon para el análisis de microarrays y se hibridaron a ocho Applied Biosystems Genoma Humano Microarrays Encuesta v.2.0 (Array expreso adhesión A-MEXP-503) en una carrera de la hibridación, como se describe en [6]. Dos pares de muestras se prepararon para el análisis de proteómica y se procesan en tres experimentos iTRAQ como se describe en [9]. Un par de muestras se superponen entre las dos tecnologías
Preprocesamiento y normalización
Los datos de microarrays se importaron en el paquete de análisis de datos J-Express 2012 [16] (http:. //jexpress.bioinfo. no), para el pre-procesamiento y normalización. Se extrajeron las intensidades de señal primas, controles filtrados, y los datos se normalizaron cuantil [17]. Además se log2 los datos transformados y cada par de muestras se combinó con una sola columna de log-ratio. Los datos de la proteómica se preprocesados de datos en bruto a los péptidos cuantificados como se describe en [9], incluyendo la anotación en el origen del péptido de cualquiera de las células huésped, las células tumorales o de origen desconocido, en base a homología de secuencia con las bases de datos de rata y humanos. En este trabajo se utiliza el conjunto de datos completos proteómica de 3359 perfiles de proteínas.
Expresión diferencial Estadísticas
Las estadísticas (RP) Rango de producto [13] fue utilizado tanto para los transcriptómica y proteómica conjuntos de datos de genes y proteínas de rango de acuerdo a la expresión diferencial entre las muestras invasivas y angiogénicos. RP se utilizó también en los conjuntos de datos reducidos que contienen sólo las transcripciones única de mapeo y proteínas utilizadas para el análisis integrado de los datos de las dos tecnologías. RP se llevó a cabo en la suite 2012 Análisis J-Express.
Gene Ontología El exceso de representación Análisis
J-Express utiliza una prueba exacta de Fisher para evaluar estadística excesiva de genes anotados con un determinado gen Ontología (GO) plazo (www.geneontology.org, [18]) en una lista más pequeña de interés en comparación con un conjunto de datos de referencia. En este trabajo se compararon las listas superiores del análisis de la expresión diferencial de peste bovina en un nivel de significación dada (q-valor) contra el conjunto de datos se realizó en el análisis de RP. p-valores que figuran en los términos de GO en la tabla de resultados son nominales,
es decir. No
ajustados para múltiples pruebas, y deben evaluarse con esto en mente. archivo de ontología de genes OBO utilizado fue fechado 2010 3 ª dic filtrada archivo de asignación de Homo sapiens ontología de genes utilizado fue de fecha 29 de Nov 2011. Sólo GO términos presentes en el archivo de OBO están incluidos en el análisis.
conjunto de genes de enriquecimiento Análisis
Como una alternativa al análisis sobrerrepresentación de GO, el conjunto de genes de enriquecimiento de análisis (GSEA) [10] también se aplicó para evaluar y clasificar los términos de GO anotación de los dos conjuntos de datos. En contraste con el análisis sobre-representación, GSEA y los enfoques relacionados no funcionan con una lista limitada de interés fijo para evaluar. En su lugar, evaluar la distribución de los genes anotados con un determinado plazo GO a través del conjunto de datos de referencia. En GSEA la distribución se utiliza para definir un subconjunto natural de los genes anotados llamados el borde delantero (LE) que contribuye a la puntuación de la serie de genes (GO plazo en este caso), y que puede ser seguido por una interpretación más cerca biológica . Los análisis se realizaron con la aplicación GSEA en J-Express 2012. Como la métrica Rango del producto es intrínsecamente incompatible con el sistema de puntuación de peso por defecto de GSEA, optamos por una métrica de puntuación para evaluar registro pliegue de genes conjuntos en nuestras muestras pareadas. Esta es la métrica más comparable a la utilizada por el método del producto Rango al ordenar logcocientes de muestras pareadas antes de combinarlos en un rango del producto. Otros parámetros se utilizaron con la configuración predeterminada: permutación método: genes, el número mínimo de miembros: 10, número máximo de miembros: 500.
descripciones de tendencias Basado en ontología de genes
Cada conjunto de datos se analizaron de forma independiente Rango de producto, análisis GO sobrerrepresentación y GSEA. El mismo procedimiento se llevó a cabo primero con el foco en la regulación positiva en muestras invasivas sobre muestras angiogénicos, a continuación, con el foco en la regulación positiva en muestras angiogénicos más muestras invasivas. El GO términos de genes y anotaciones de las listas superiores fueron seleccionados de forma manual para los términos relevantes funcionalmente a la angiogénesis y la invasión, y las tendencias principales de esta lista resumida.
Asignación de transcripción y proteína identificadores entre conjuntos de datos
p
el humano ID Entrez gene para los genes específicos en el microarray ABI fue utilizado como el identificador común entre las transcriptómica y conjuntos de datos de la proteómica. Utilizando el servicio de identificación del convertidor en línea en BioMart Portal Central (http://central.biomart.org), la proteína identificada SwissProt identificadores del conjunto de datos proteómica se asigna primero a su correspondiente Entrez Gene identificadores humano o de rata. La rata Entrez Gene IDs de las proteínas identificadas como de origen anfitrión, fueron asignadas aún más al ser humano Entrez Gene identificadores por sus genes homólogos usando el servicio de recuperación de gen de BioMart, con los ID de transcripción Ensembl como el identificador de enlace.
Después de completar el mapeo, fue entonces posible analizar las transcripciones correspondientes a las principales proteínas expresadas diferencialmente como un conjunto de genes en los datos de la transcriptómica, como se ilustra en la Figura 2B. Las barras horizontales azules representan proteínas correspondientes transcripciones y cómo se distribuyen en los datos de microarrays. El mismo análisis se realiza en sentido inverso para la transcripción de proteínas en los datos de la proteómica correspondiente
A:. Los conjuntos de datos se analizaron para determinar la expresión diferencial de forma independiente mediante Rango del producto, ontología de genes sobre-representación (GO ORA) y GSEA. Los métodos evalúan diferentes fracciones de los conjuntos de datos como biológicamente relevante cuando ordenados para la expresión diferencial, como se ilustra para el conjunto de datos transcriptómica (TR). RP y GO ORA en nuestro caso, sólo se identifica la parte superior de ~ 1% de la lista de genes ordenados en general como relevantes, tanto para la transcriptómica y proteómica análisis. GSEA por el contrario identificado subconjuntos borde de ataque (LE) que abarca ~ 20% de la lista de genes en general. B: enfoque basado GSEA para la integración de la proteómica se superponen parcialmente y transcriptómica conjuntos de datos. Las principales entidades expresados diferencialmente de un conjunto de datos se asignan a las entidades correspondientes del otro conjunto de datos y se evaluaron como un conjunto de genes en GSEA. PR: conjunto de datos de Proteómica, TR:. Transcriptómica conjunto de datos
Disponibilidad Pública de Datos
Los datos de microarrays se han anotado según MIAME [19] y se depositan en ArrayExpress (http: //www.ebi.ac.uk/arrayexpress), no la adhesión E-MTAB-1185. La matriz de datos normalizado para los datos de la proteómica cuantitativa está disponible en S2 Archivo.
Rango Producto metanálisis
Los subconjuntos coincidentes de las proteínas y las transcripciones de los microarrays y proteómica conjuntos de datos se identificaron por primera vez. Luego se clasificaron individualmente de acuerdo a la expresión diferencial entre las muestras invasivas y angiogénicos utilizando el producto estadísticas Rango (RP) [13]. Las filas resultantes se utilizaron entonces como la entrada a RP en una segunda etapa meta-análisis para identificar los pares de proteínas de transcripción altamente clasificados en ambos análisis individuales.
Independiente de microarrays y proteómica conjunto de datos Análisis de validación
el enfoque de la CIA [15] examinó el rendimiento de su método en la mixorarray publicado y proteómica datos disponibles para el ciclo de vida de
Plasmodium falciparum,
un parazyte la malaria [20]. Se utilizaron los mismos conjuntos de datos publicados, disponibles como cuadros S1 y S2 S1 en el archivo de su publicación, y log2 transformado los valores de la expresión lineal para ambos conjuntos de datos antes de proceder con el análisis GSEA. Los conjuntos de datos contienen 4 etapas de vida asexual consecutivos: merozoito, anillo, trofozoitos y schizout. Hicimos una definición aproximada de las transcripciones expresadas en una etapa de la vida como las transcripciones que tienen un valor de la expresión mínima de 1.000, produciendo conjuntos de genes en el rango de tamaño de 97 a 203, y de proteínas, la expresión de un valor mínimo de 50, con un rendimiento conjuntos de genes en el intervalo de tamaño de 10-77 (conjuntos de genes se enumeran en S3 archivo). Los conjuntos de genes de transcripción se analizaron con base para el enriquecimiento en las 4 etapas de la vida en los datos de la proteómica utilizando GSEA en J-Express (clase única, ponderada de puntuación logfold), y el gen de la proteína en base fija de manera similar en los datos de microarrays.
resultados
resultados del análisis de datos individuo se establecen
la Tabla 1 resume los resultados del análisis individual, la aclaración de las tendencias que se pueden encontrar en el modelo proteómica y transcriptómica de datos cáncer de cerebro de configuraciones de forma individual tradicional métodos de análisis en combinación con la ontología de genes (www.geneontology.org, [18]). La figura 2A ilustra las proporciones de las listas de genes totales que los diferentes métodos reportan los resultados de.
A pesar de que hay varios términos GO /tendencias encontraron solapamiento entre las proteómica individuales y los resultados transcriptómica, que parecen estar resaltando algunos términos generales para los tumores angiogénicos. Para el fenotipo invasivo hay más coherencia en términos de GO solapamiento entre la proteómica y microarrays resultados y las tendencias de consenso resaltados de la Tabla 1, que para el tipo angiogénico.
conjunto de genes enfoque basado en el análisis de datos integrada
sugerimos un nuevo enfoque de análisis integrado para la co-análisis de conjuntos de datos con sólo un conjunto parcial de las entidades correspondientes. Mediante la cartografía de las transcripciones de las proteínas correspondientes (ver M & amp; M) que pueden evaluar cómo los mejores transcripciones expresados diferencialmente distribuir como un conjunto de proteínas en los datos de la proteómica, y cómo las principales proteínas expresadas diferencialmente distribuir como un conjunto de transcripciones en el microarray datos. Ver Figura 2B. En primer lugar, identificamos la parte superior hasta reguladas proteínas usando RP en el conjunto de proteínas asignadas a un determinado nivel de significación, tanto aumentada en invasiva (I) y angiogénico (A), de imágenes y de los conjuntos correspondientes de las transcripciones utilizando GSEA en el microarray de datos completa conjunto. Del mismo modo identificamos la parte superior hasta reguladas transcripciones utilizando RP en el conjunto de las transcripciones asignadas a un determinado nivel de significación, tanto en muestras invasivas y angiogénicos, de imágenes y de los correspondientes conjuntos de proteínas utilizando GSEA en los proteómica conjunto de datos completos.
Microarray resultados RP apoyo proteómica datos de muestras invasivas.
Como se ve en la Figura 3A, panel izquierdo, hay un enriquecimiento significativo en los datos de la proteómica de las proteínas correspondientes a las transcripciones expresados diferencialmente regulados hasta en el los datos de microarrays. El enriquecimiento en muestras invasivas es consistente con la sobre regulación de las transcripciones en las muestras invasivas en los datos de microarrays. El panel derecho muestra para la comparación, que no hay tal tendencia significativa de proteínas correspondientes a las transcripciones hasta reguladas en las muestras angiogénicos
A:. La izquierda - transcripción de proteínas enriquecidas en muestras invasivas correspondiente, a la derecha - transcrito correspondiente proteínas enriquecidas en muestras angiogénicos. B: a la izquierda - proteínas correspondientes transcripciones enriquecido en muestras invasivas, derecha - proteína proteínas enriquecidas en muestras angiogénicos correspondiente
El borde de ataque que consiste en 47 combinaciones de transcripción /proteína a partir de este conjunto de genes se muestra en la Tabla 2. , y representa el punto de partida de la interpretación biológica de esta co-análisis integrado.
Proteómica RP resultados apoyan los datos de microarrays en muestras angiogénicos.
Figura 3B, panel derecho, muestra el significativo el enriquecimiento de los microarrays de datos de las transcripciones correspondientes a la diferencialmente expresado proteínas en los datos de la proteómica. El enriquecimiento en muestras angiogénicos es consistente con la sobre regulación de las proteínas en muestras angiogénicos en los datos de la proteómica. El panel izquierdo muestra para la comparación de que no existe una tendencia significativa para las transcripciones correspondientes a las proteínas reguladas en las muestras invasivas.
El borde de ataque que consiste en 43 transcripciones respaldada por datos de proteínas, se muestra en la Tabla 3, y la inspección llanura de la lista revela muchos genes que anteriormente se encontraban relacionados con la angiogénesis.
Comparación con el Método Estándar y datos Validación Independiente
Un meta-análisis simple del modelo de cáncer de cerebro y de microarrays proteómica conjuntos de datos no revelaron correspondientes pares de transcripción y proteínas importantes que se expresan diferencialmente entre las muestras invasivas y angiogénicos. (Invasiva vs angiogénicos top 20 pares,
q
= 83,9%, frente a angiogénico invasivos top 20 pares,
q
= 78,1%, ver S4 Archivo).
El GSEA los resultados de la evaluación de las principales proteínas expresadas en las diferentes etapas del ciclo de vida de
Plasmodium falciparum
contra los conjuntos de datos transcriptómica para las mismas etapas del ciclo de vida se recogen y se presentan en S3 archivo. Del mismo modo son los resultados para las principales transcripciones expresado analizados contra los proteómica conjuntos de datos de las diferentes etapas. Estos son contrastados con los resultados en la Tabla 2 de la obra original [20].
Discusión
Gene conjunto de métodos basados menudo eluden más de análisis de expresión diferencial de genes directa por gen, y han recibido alguna atención en los últimos años. Otra alternativa para fortalecer el poder estadístico en un experimento; decir un experimento de microarrays, a través de la adición de más muestras (repeticiones) para la prueba estadística para calcular a partir de, es combinar los resultados de varios experimentos independientes, que juntos mostrar una tendencia significativa. A veces esto se conoce como un meta-análisis, dependiendo del nivel de abstracción de los datos originales, ya veces como un enfoque integrado. Común a ambos es la necesidad de asignar entidades de diferentes conjuntos de datos entre sí y el uso de una prueba estadística adecuada para evaluar el modelo combinado. Como se ha demostrado para el modelo de cáncer de cerebro conjuntos de datos, un rango de producto meta-análisis periódico falla en este caso para identificar un apoyo significativo entre los conjuntos de datos y formas alternativas de relación con los conjuntos de datos en un enfoque integrado se pide.
ve en la Tabla 1, los diferentes análisis enfoques tradicionales tienen dificultades para encontrar resultados verdaderamente estadísticamente significativos por sí mismos. Las tendencias descubiertas son significativos en términos de la diferencia general entre el fenotipo invasivo y angiogénico, pero no son ni muy específico ni asociado con los niveles de confianza convincentes.
Con base en los resultados de los análisis manuales (continuación en la Tabla 1) que se puede concluir que el tipo invasivo de los tumores experimentales se conecta con los términos de ontología de genes indica conjuntos de genes implicados en el desarrollo del sistema nervioso central, que es procesos y regulación, según la evaluación de GO sobrerrepresentación análisis de los datos de transcriptómica y por el enfoque GSEA en tanto los proteómica y transcriptómica datos. Esto está de acuerdo con la apariencia fenotípica y el comportamiento de tumores invasivos, que se asemejan a células madre similares a más inmaduro, capaces de infiltrarse en las estructuras vecinas, al igual que las células madre neurales pueden hacer en el cerebro en desarrollo. El fenotipo angiogénico, sin embargo, está conectado con los genes relacionados con la angiogénesis tal como se evaluó mediante análisis de RP, GO análisis exceso de representación en la proteómica, así como GSEA en transcriptómica que también incluían la representación de términos vinculados con el ciclo celular, el crecimiento y la proliferación.
a diferencia de los análisis de los distintos conjuntos de datos, el análisis integrado muestra dos importantes tendencias estadísticamente significativas: 1) se encuentra hasta reguladas transcripciones en el fenotipo invasivo evaluado en conjunto como un conjunto de proteínas significativamente hasta reguladas juntos en el fenotipo invasivo, 2) hasta reguladas proteínas en el fenotipo angiogénico evaluado juntos se encuentra como un conjunto de transcripciones significativamente hasta reguladas juntos en el fenotipo angiogénico. Como muestra la Figura 3, los bordes anteriores de estos conjuntos se que abarca aproximadamente el 20% de la lista completa de fondo. De ahí nuestro enfoque de co-análisis identifica conjuntos de genes importantes en las mismas listas de genes fondo todos los análisis de la persona en la Tabla 1 fueron evaluar.
Un fuerte coherencia entre los resultados de los análisis integrados en la Tabla 2 y los resultados de los análisis individuales más débiles de Tabla 1 se confirma mediante inspección llanura de los nombres de las proteínas en la Tabla 2 y el dominio del desarrollo neuronal y descripciones relacionadas con la actividad. Además ofrecemos una lista de los términos de ontología de genes más relevantes las 47 proteínas en la Tabla 2 se anotan con, y estos son coincidentes con claridad el alcance de los términos identificados por análisis individuales (en particular, el cuadro S1 S9 en archivos). En el caso del fenotipo invasivo de este modelo experimental GBM la célula tumoral infiltración (humano) del tejido cerebral host (rata) es tan grande que es prácticamente imposible aislar o eliminar quirúrgicamente el tumor puro por medios quirúrgicos, que es también uno de los principales problemas de los pobres éxito del tratamiento quirúrgico por sí solo para GBM humanos. Por lo tanto las muestras de tejido tumoral de este fenotipo se "contaminado" en gran medida por el tejido huésped (rata) cerebral. Las proteínas identificadas por el análisis integrado como diferencialmente expresado como un conjunto, aumentada en el fenotipo invasivo, así como los resultados de GSEA de la proteómica (Tabla S9 en S1 de archivos) y las comparaciones cruzadas manuales utilizando la Rama de Análisis de Ingenio y Human Protein Atlas confirmado esta situación a nivel de proteínas. Casi la mitad (17 de 36 proteínas únicas - Tabla 2) se encuentran en las proteínas de datos vinculados a la localización celular del cerebro (componente celular) y son uno de los nervios (sinapsis, la unión neuromuscular, la densidad postsináptica, vesículas sinápticas, membrana de la vesícula presináptica, zona activa presináptica , cuerpo celular neuronal, etc.) o de origen glial (vaina de mielina, la mielina compacta, etc.) y en su mayoría proteínas del huésped o compartir la proteína de homología de secuencia con el anfitrión.
Además, tanto el GO sobrerrepresentación análisis (Tabla S7 en S1 de archivos) y GSEA (Tabla S11 en archivo S1) de los datos de la transcriptómica están fuertemente dominados por términos relacionados con el cerebro que indican el origen de host en lugar de las células tumorales.
la tabla 3 muestra la puesta a punto de las transcripciones regulado en las muestras angiogénicas que son apoyados por los datos de la proteómica, la tendencia más dominante la coincidencia con los resultados de los análisis individuales están proceso de desarrollo y formación de vasos sanguíneos. En particular, la presencia de la angiogénesis concreta término anotar tres genes (Vav3, ANXA2 y anxa2p2) en la Tabla 3 es muy interesante. Esta es la primera vez que mediante ensayos nivel molecular sido capaces de indicar el plazo que refleje un
de facto
la angiogénesis en tumores finales generación (Figura 1), siendo una de las características fenotípicas más importantes del animal glioma generación tardía modelo, así como una de las señas de identidad del glioma de alto grado en el paciente. Por otra parte la expresión de ANXA2 fue validado a fondo en el nivel de la inmunohistoquímica en muestras de tejido adicionales de modelos de xenoinjerto de GBM, así como en gran número de más de 200 gliomas muestras clínicas de diversos grados en una forma de un microarray de tejido como se muestra en nuestra investigación anterior . De hecho nos confirmó una fuerte regulación de ANXA2 en xenoinjertos angiogénicos en comparación con las invasoras, así como un aumento significativo en la expresión ANXA2 en gliomas de alto grado (grado III y IV) en comparación con los grados bajos (grado I y II) [9] .
el exceso de representación de las proteínas de membrana localizada (membrana plasmática, ER, GA y en algunos casos el Mt) visto en la Tabla 3, se puede explicar por la configuración experimental del experimento de la proteómica, que incluía una etapa de enriquecimiento para proteínas de membrana. Por lo tanto el análisis integrado también tendrá un sesgo hacia las transcripciones con productos de los genes en estos compartimentos celulares. Esto también puede explicar el hecho de que no vemos el apoyo para la firma del ciclo celular, el crecimiento y la proliferación que fue visto como una tendencia importante en los análisis individuales (Tabla S12 en Archivo S1 en particular). Tras un examen más de la localización celular de las transcripciones subyacentes de la tendencia en la Tabla S12 en S1 de archivos, la mayoría de estos fueron anotados como situados en el núcleo, y las proteínas correspondientes se lo tanto, menos probable ser recogidos en la fracción específica de la membrana en el experimento de la proteómica.
análisis individuales que apunta hacia términos de adhesión celular (Tabla S11 en archivo S1) son compatibles con el enfoque integrado (Tabla 3, MSN) y están en conformidad con el fenotipo invasivo en el que la adhesión celular parece puede ser