Extracto
El aumento de la disponibilidad y la madurez de la tecnología de microarrays de ADN ha llevado a una explosión de cáncer de perfiles de estudios para la identificación de biomarcadores de cáncer, y la predicción de la respuesta al tratamiento. El descubrimiento de relaciones complejas, sin embargo, sigue siendo la tarea más difícil, ya que requiere la compilación y eficiente la consulta de datos de diversas fuentes. A continuación, se describe la matriz de respuesta al estrés Profiler (correa), un código abierto, basado en la web de recursos para el almacenamiento, el perfil, la visualización y el intercambio de datos genómicos de cáncer. casas correa de múltiples cáncer de microarrays de datos con mayor énfasis en los estudios de radioterapia, y toma un enfoque de biología de sistemas para la integración, la comparación y la validación cruzada de múltiples estudios sobre el cáncer de perfiles. La base de datos es una plataforma completa para el análisis comparativo de los datos de expresión génica. Para un uso efectivo de las matrices, proporcionamos herramientas de fácil uso y visualización interactiva que pueden mostrar los resultados de los datos y consulta. La correa es basada en la web, independiente de la plataforma, y libremente accesible en http://strap.nci.nih.gov/
Visto:. Johnson S, Issac B, Zhao S, M Bisht, Celiku O, Tofilon P, et al. (2012) Correa: un recurso integrado para la generación de perfiles de Alto Rendimiento del cáncer de datos genómico a partir de estudios de respuesta a estrés. PLoS ONE 7 (12): e51693. doi: 10.1371 /journal.pone.0051693
Editor: Sui Huang, Instituto de Biología de Sistemas, Estados Unidos de América
Recibido: 9 Agosto, 2012; Aceptado: 5 Noviembre 2012; Publicado: 17 Diciembre, 2012
Este es un artículo de acceso abierto, libre de todos los derechos de autor, y puede ser reproducido libremente, distribuir, transmitir, modificar, construir, o de otra forma utilizado por cualquier persona para cualquier propósito legal. El trabajo está disponible bajo la advocación de dominio público Creative Commons CC0
Financiación:. Este trabajo fue apoyado por el Programa de Investigación Intramural de los Institutos Nacionales de Salud, Instituto Nacional del Cáncer, Centro de Investigación del Cáncer. Los gastos de publicación de este artículo fueron sufragados en parte por el pago de los cargos por página. En este artículo, por tanto, debe ser marcada presente anuncio, de conformidad con 18 USC Sección 1734 exclusivamente para indicar este hecho. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:. SJ y SZ están afiliados a SAIC, Frederick, Inc. Autores y PT son KC PLOS ONE miembros de la Junta Editorial. No hay patentes, productos en desarrollo o los productos comercializados para declarar. Esto no altera la adhesión de los autores a todas las políticas de PLoS ONE sobre los datos y compartir materiales, como se detalla en línea en la guía para los autores.
Introducción
microarrays de ADN se utilizan con éxito para clasificar tumores e identificar nuevos biomarcadores asociados con el cáncer (por algunas críticas recientes, véase [1]). Las variantes genéticas y las diferencias en los genomas personales no sólo perfiles con cáncer de impacto, y son a menudo responsables de cómo el paciente y el cáncer responden al tratamiento. En particular, la respuesta al estrés celular, ya sea inducida por fármacos citotóxicos, la hipoxia, o la radiación ionizante puede variar mucho, y su base genética es objeto de gran interés. Estamos especialmente interesados en la aclaración de las bases genéticas de la respuesta de la radioterapia en busca de firmas genéticas altamente predictivos. La radioterapia es un componente central de tratamiento contra el cáncer [2], pero ha sido relativamente poco estudiada: una mirada a los recursos públicos, como PubMed o bases de datos de matriz muestra que los estudios de radioterapia constituyen menos del 1% del número total de registros
por lo general, cada estudio individual implica una serie de pasos de análisis estadísticos y cuantitativos (véase [3] para un resumen de los pasos típicos), y puede apuntar a genes y productos génicos que son cruciales para la enfermedad y el tratamiento. Sin embargo, la naturaleza escaso, de alta dimensión del espacio de datos de microarrays [4], y el gran número de genes implicados en las vías a menudo sutiles y complejos, requieren metanálisis para comparar y agregar los resultados de diferentes estudios. Compatibilidad entre plataformas sólo se puede conseguir una vez dentro de la plataforma problemas de coherencia se han abordado plenamente y los resultados de tales estudios son tan buenos como el método de identificación de genes. MAQC consorcio ha encontrado generalmente que la preparación adecuada de la muestra es suficiente para mejorar dramáticamente MultiLab y correlaciones multiplataforma [5]. La utilidad de este tipo de análisis se documentó en la implementación de la herramienta CellMiner, un programa basado en la web para la integración de los datos de perfil molecular en el ADN, ARN, proteínas y niveles farmacológicos en las células NCI-60 de cáncer ampliamente estudiados [6]. Varios otros estudios han encontrado añaden complejidad para el metanálisis debido a la considerable diversidad en la fuente, de la muestra y tipos de plataformas [7] - [9]. Las dos principales tecnologías de microarrays se diferencian en el diseño básico, utilizan microarrays de ADNc de larga duración transcripciones impresas en las diapositivas y las matrices de oligonucleótidos en base a más corto constituyen una oligonucleótidos sintetizados in situ. Una cuestión importante es si el diseño para medir los niveles de expresión de cada muestra en un microarray diferente (utilizando un solo color, o de un solo canal, arrays), o en lugar de comparar los niveles de expresión relativos entre un par de muestras en cada microarray (dos color o arrays de dos canales). Hay ventajas y desventajas entre los dos enfoques. arrays solo color permiten una mayor flexibilidad en el análisis, mientras que las matrices de dos colores se pueden controlar por algunos problemas técnicos al permitir una comparación directa en una sola hibridación [10]. Una reciente comparación de métodos de una y de dos colores en las mismas plataformas encontró buen acuerdo general en los datos producidos por los dos métodos [11]. El procedimiento Z transformación puntuación para normalizar los datos es un método estadístico conocido tanto en neuroimagen y estudios psicológicos y recientemente ha utilizado en el meta-análisis de datos de microarrays de diferentes plataformas [12], y es especialmente adecuado para el desarrollo de bases de datos [13].
la riqueza de datos también ha dado lugar a la creación de una amplia gama de recursos. En un extremo del espectro, los repositorios de datos como Gene Expression Omnibus (GEO) [14] proporcionar acceso a los datos experimentales en bruto; en el otro extremo, herramientas como Oncomine [15] de manera más ambiciosa, pero por lo general a un costo, proporcionan las instalaciones para meta-análisis de datos de la matriz. Sin embargo, hasta donde sabemos, ninguno de los recursos libres existentes se centran en estudios de respuesta de estrés o radioterapia combinadas con salidas de visualización.
Desarrollamos correa, un recurso accesible desde la web libre para hacer frente a la necesidad de consultar, comparar el perfil y visualizar los resultados de diferentes experimentos de microarrays. los datos de la correa de anfitriones de diversos estudios sobre el cáncer (actualmente de 12 tipos diferentes de tejidos), y se extenderá aún más en el futuro. Se utilizó método de puntuación Z para normalizar los datos, ya que los valores normalizados internamente no cambian con la adición posterior de nuevos conjuntos de datos. Todos los datos se asignan a los identificadores de genes Entrez para la consistencia en la comparación. La interfaz fácil de usar facilita la exploración de una amplia gama de investigadores, incluyendo los que tienen poca experiencia en bioinformática.
En el resto de este trabajo se describen brevemente las características de construcción y de núcleo de correa de
. materiales y Métodos
Arquitectura
La arquitectura de tiempo de ejecución de la correa se describe en la Figura 1. La arquitectura es de 3 niveles. El diseño básico de la arquitectura es una mejora de nuestra herramienta CellMiner publicado previamente [6]. El nivel inferior representa las fuentes de experimental (microarrays), (línea celular) meta datos y herramientas externas que se invocan para visualizar los datos. El nivel intermedio representa cómo se procesan los datos, almacenados y puestos a disposición del usuario. Los pasos de pre-procesamiento se realizaron antes de la implementación. En esta etapa, se accedió a los datos de la fila inferior, procesadas (R utilizando secuencias de comandos), y se almacenan en el repositorio de datos de banda (compuesta por una base de datos MySQL, y otros archivos almacenados en el sistema de archivos del servidor). El lado derecho de la capa media representa los "servicios" de análisis que están disponibles en tiempo de ejecución para el usuario. Estos incluyen el filtrado de los datos (de acuerdo a las consultas construidos por el usuario), la visualización de los resultados, y las opciones para descargar los datos. Estos servicios están disponibles como servicios web y están alojados en un servidor Apache. El nivel superior representa la interfaz de usuario (implementado usando PHP, Javascript, AJAX y HTML), y está organizado en torno a tres módulos principales (genes, líneas celulares, y Arrays).
El diagrama representa una vista en tiempo de ejecución de la arquitectura de la correa. El nivel inferior representa las fuentes de datos experimentales, meta datos, y herramientas externas que se invocan para visualizar los datos. El nivel intermedio representa cómo se procesan los datos, almacenados y puestos a disposición del usuario. El lado derecho de la capa media representa los "servicios" de análisis que están disponibles en tiempo de ejecución para el usuario. El nivel más alto representa la interfaz de usuario, y está organizado en torno a tres módulos principales (genes, líneas celulares, y Arrays).
Datos Repositorios
Cuatro principales repositorios de datos residen en el backend de la correa: (1) gen asociado anotación de información derivada del Centro Nacional de información Biotecnológica (NCBI, http://www.ncbi.nlm.nih.gov/), (2) el gen de pre-procesado de datos de microarrays de expresión de perfiles moleculares ( incluidas las estadísticas pre-computados), (3) los metadatos sobre las líneas celulares, y (4) de metadatos en la información asociada a la plataforma.
La disposición estructurada de las mesas promueve la consulta y la integración de los datos fenotípicos, metadatos y molecular eficiente la información del perfil de diversos estudios. La base de datos es compatible con múltiples sesiones de consulta concurrentes.
Los repositorios se almacenan como una base de datos relacional MySQL (http://www.mysql.com).
Preparación de datos
La microarrays de datos se obtuvieron como archivos rAW siempre que estén disponibles o bien como autor depositada archivos normalizados a partir de la base de datos de GEO [14], ArrayExpress [16] experimentos, o de la propia. Dos tipos de plataforma se utilizan predominantemente en estos estudios:. ADNc de dos colores (Array Cáncer Institute-Nacional ROSP 8K humana y sobre todo Agilent microarrays de genoma humano), y matrices de un solo color (actualmente albergamos datos del chip de genes Affymetrix iluminación)
los datos en bruto se evaluó la calidad y normalizado por la Lowess [17], o MAS5 [18] métodos para ADNc y Affymetrix arrays, respectivamente. transformación Z-score se utilizó para obtener una escala uniforme a través de diferentes estudios y plataformas, que es necesaria para comparar los datos de diferentes estudios. pruebas estadísticas calculadas pre-se realizaron en tres complejidad a nivel de anidado.
En el nivel superior, cada estudio se sometió a un análisis ANOVA realizado entre todos los controles y los casos para dar un significado global del diseño del estudio.
un análisis de ANOVA nivel de los tejidos se implementa como un segundo nivel de comparación entre todos los controles y los casos para cada tipo de tejido en un estudio.
a nivel experimento, para cada línea celular /muestra, una comparación de casos y controles se lleva a cabo mediante el análisis de la prueba t.
Pre-procesamiento y cómputo de las pruebas estadísticas se realizan en el medio ambiente: R (http://www.r-project.org/) .
interfaz
La interfaz de usuario es un aplicación basada en web implementada utilizando R, PHP (http://www.php.net/) y Python (http: //www. python.org/). La aplicación se implementa en un servidor Apache HTTP (http://httpd.apache.org/) en el Instituto Nacional del Cáncer (NCI).
Características Core
Acceso a los datos y la presentación está organizada en torno a tres conceptos principales o módulos: (1) Genes, (2) líneas celulares, y (3) Arrays. consultas de datos definidos por el usuario flexibles se pueden iniciar desde cualquiera de los módulos; las opciones de visualización de datos para los resultados se muestran en las vistas integradas y pueden, en función de la consulta, la participación cruzada entre módulos. Varios enlaces a recursos externos promueven un enfoque de biología de sistemas. La tabla 1 muestra un resumen de las características esenciales de cada módulo. estadísticas pre-calculada (como se describe en la sección anterior) permitir la visualización de gráficos eficaz e intuitiva.
Los genes
El módulo de genes permite a las preguntas de genes centrada en los estudios de correa de microarrays. Las consultas se pueden basar en los identificadores de genes o proteínas, sinónimos, descripciones de genes, o la localización cromosómica. Los resultados incluyen las matrices asociadas y estudios, y una recopilación de la información genética-anotación, localización espacial dentro del genoma visualizada en el navegador UCSC Genoma [19], y mapas de entorno de red generadas a partir de las redes de interacción proteína-proteína [20]. Las consultas también se pueden construir utilizando las listas de genes definidos por el usuario o generados, por ejemplo, de ontología de genes (GO) [21].
Una consulta típica genocéntrica (véase la figura 2 un ejemplo de flujo de trabajo) se inicia mediante la identificación de estudios de perfiles de la expresión de un gen (lista) de interés. Los perfiles de expresión y su significación estadística se visualizaron luego por medio de diagramas de caja, y barplots (que muestran estudios de nivel, y las diferencias de casos y controles de nivel experimental). Si la entrada consiste en una lista de genes, una opción heatmap interactivo permite expresiones de visualización de los genes en los estudios seleccionados. El mapa de calor se visualizó utilizando el programa Java Treeview [22].
Por lo general, un flujo de trabajo iniciada desde el módulo de genes involucra 1) introduciendo un gen de interés (o lista de genes), 2) Visualización y selección de los estudios que ofrece el gen, 3) la elección de una opción de visualización, y 4+) se presentan y la inspección de la visualización elegido. El ejemplo mostrado es para el gen "ABL1.".
Para mayor comodidad, el módulo de genes incluye una utilidad de conversión de identificación de genes, que puede ser utilizado para mapear de un tipo de identificación de genes (por ejemplo, , símbolo de genes Entrez) a otro (por ejemplo, Entrez geneid).
líneas celulares
El módulo de líneas celulares proporciona metadatos sobre las líneas celulares disponibles y estudios asociados. Las consultas de este módulo están adaptados para permitir la selección de los estudios completos, por el tejido de origen, o una línea celular individual. Se pueden hacer comparaciones de las muestras dentro de un estudio o entre los estudios. (Ver Figura 3 para un ejemplo de flujo de trabajo.) Genes expresados diferencialmente en estudios de interés se identifican en base a los análisis de la prueba t de casos y controles de selección (línea celular) y análisis de ANOVA (estudios con más de un grupo). El filtro predeterminado se establece en p = 0.05, pero puede ser personalizado por el usuario.
Las líneas celulares iniciado flujo de trabajo suele comenzar con 1) la selección de una línea celular (o tejido) de interés (en este caso "LCL" ), 2) la inspección de los metadatos línea celular, y los estudios asociados, 3) la comparación de estudios de interés con una muestra MetaMap significado de la expresión diferencial de genes individuales para la línea celular dado, y 4+) la inspección de los genes individuales a través de diagramas de caja y barplots .
las matrices
el módulo de matrices proporciona una visión general de los contenidos actuales de la base de datos, incluyendo el número de estudios, información sobre las plataformas, contribuyentes, y disponible meta-información. los datos pre-procesados o datos de la fuente original se pueden descargar de este módulo. consultas integradas de este módulo permiten la realización de estudios de comparación de muestras comunes o unión de los genes dentro de los estudios seleccionados.
Un flujo de trabajo de ejemplo se muestra en la Figura 4. Las matrices pueden ser filtrados por el estímulo de selección utilizado en el estudio. Dado nuestro interés por los efectos de la radiación ionizante, la mayor parte de las matrices en el repositorio tienen "radiación" como estímulo.
El flujo de trabajo matrices suele comenzar con 1) la inspección de las matrices disponibles y la selección de un estudio de interés, 2 ) de visualización de las condiciones experimentales y la selección de un p-valor umbral para la significación de la diferenciación de la expresión génica, y 3) el estudio de expresiones mapa de calor. La comparación de varias matrices también se puede iniciar desde la página general.
Expresión diferencial de veinticuatro genes identificados por Rieger et al [24] que son importantes para la respuesta a la radiación. En el paso 1 muestra un mapa de calor de varios estudios (para Estudios 4, 6 y 14). En el Paso 2 CDKN1A perfil genético fue comparada en estudios con (Estudios 2-5), y sin radiación como estímulo (Estudio 14 con la respuesta a la hipoxia).
Validación
La radioterapia es un componente central del tratamiento del cáncer. Sin embargo, la respuesta de la radiación a menudo varía considerablemente entre los distintos pacientes [23]. Por lo tanto, es importante identificar los genes que predicen la respuesta a la radiación. Igualmente importante es para validar los resultados de un análisis de datos independientes con un diseño experimental similar.
Para ilustrar la funcionalidad de la correa, se utilizó un estudio realizado por Rieger et al [24] en las células linfoblásticas de sangre periférica procedentes de pacientes con la toxicidad aguda por radiación y el grupo control de pacientes con toxicidad leve. El uso de perfiles de expresión génica, los autores informaron de 24 genes altamente predictivos de respuesta a la radiación. Hemos tratado de explorar la expresión de estos 24 genes en varios estudios independientes de base de datos de correa, y encontramos 18 genes cambiaron de manera significativa entre los estudios seleccionados. Para probar si podemos reproducir los hallazgos de los autores, por primera vez seleccionado 3 estudios, 2 estudios (estudios de 4 y 6) que contiene células linfoblásticas tratados con diferentes dosis de radiación, y como control negativo, elegimos 1 estudio (Estudio 14) con el vástago células de tejido del SNC con el estímulo hipoxia. Un mapa de calor multi-estudio (Figura 5, Etapa 1) en el subconjunto de genes mostró una regulación selectiva de la subconjunto de genes en los estudios 4 y 6, pero no en el estudio 14, lo que confirma el papel de estos genes en respuesta a la radiación. De particular, CDKN1A es una respuesta al daño del ADN, la regulación del ciclo celular gen reportado ser inducida por la radiación [25], [26]. Exploramos el perfil comparativo de gen CDKN1A en una serie de estudios con diversas líneas de células de nuestra base de datos que se tratan con (Estudios 2-5) o sin radiación como estímulo (Estudio 14). A perfiles de genes comparativa a través de múltiples estudios (Figura 5, Etapa 2) mostró una inducción significativa del gen selectivamente en estudios tratado de radiación. Además de la inducción se encuentra a tener ningún efecto en la radiación de dosis baja (0,4 Gy en el Estudio 3) que indica la respuesta celular a la radiación depende de la tasa de dosis utilizada.
Conclusiones
Correa es un proceso abierto recursos -acceso desarrollado principalmente para apoyar la investigación sobre los efectos del estrés con mayor énfasis sobre la radiación ionizante sobre el cáncer en un contexto de biología de sistemas. Actualmente los datos de veintiún estudios han sido integrados y accesibles a través de amplias opciones de consulta, y una interfaz basada en web fácil de usar. Con el apoyo de métodos de análisis estadísticos y cuantitativos en el fondo, el recurso supera los límites de las bases de datos dedicadas a la exploración de los datos en bruto, por lo que es posible inferir el conocimiento no trivial (como los genes expresados diferencialmente en múltiples estudios).
En la actualidad debido a la limitación del número de estudios disponibles, puede tener importancia biológica limitada. Sin embargo, el marco de la base de datos es flexible y permitiría a las extensiones con los datos de otros tipos de estudios sobre el cáncer que le ayudarán en nuevos hallazgos.
La base de datos se actualiza periódicamente con nuevos estudios y características. Tenemos la intención de, por ejemplo, para permitir la construcción de las redes de interacción utilizando la literatura de minería de texto, y la información de la base de datos de la proteína humana de referencia (HPRD) [27] y el conjunto de genes de enriquecimiento de análisis y visualizaciones.