Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: MGEX-BDU: Una base de datos de mamíferos Útero de Catalogación Expresión-base de los genes a través de condiciones, incluyendo la endometriosis y cervical Cancer

PLOS ONE: MGEX-BDU: Una base de datos de mamíferos Útero de Catalogación Expresión-base de los genes a través de condiciones, incluyendo la endometriosis y cervical Cancer


Extracto

Antecedentes

perfiles de expresión génica del tejido útero tiene se lleva a cabo en diversos contextos, pero una cantidad significativa de los datos sigue siendo poco utilizado, ya que no está cubierto por los recursos generales existentes.

Metodología /Principales conclusiones

comisariado 2254 conjuntos de datos de 325 útero relacionado escala masiva estudios de expresión génica en la especie humana, de ratón, rata, vaca y cerdo. entonces derivamos computacionalmente una "puntuación de fiabilidad" para el estado de cada expresión génica (transcrito /inactivo), para cada posible combinación de condiciones y ubicaciones, en función del grado de acuerdo o desacuerdo a través de conjuntos de datos. Los datos y la información derivada ha sido compilado en el
M

ammalian

G

eno

Ex

pression

T

Terus

d

ata

b

ase gratis (MGEX-BDU, http : //resource.ibab.ac.in/MGEx-Udb/). La base de datos se puede consultar con los nombres de genes /nº ID, ubicaciones sub-tejido, así como diversas condiciones tales como el cáncer de cuello uterino, endometrio y ciclos de trastornos, y los tratamientos experimentales. En consecuencia, la salida sería a) transcritos y genes inactivos enumeran para la condición /ubicación consultado, o b) el perfil de expresión del gen de interés en diversas condiciones uterinas. Los resultados también incluyen la puntuación de fiabilidad para el estado de expresión de cada gen. MGEX-UDB también proporciona información relacionada con las anotaciones de ontología de genes, las interacciones proteína-proteína, transcripciones, promotores y estado de la expresión mediante otras técnicas de secuenciación, y facilita varios otros tipos de análisis de los genes individuales o co-expresó grupos de genes.

Conclusiones /Importancia

En breve, MGEX-UDB permite una fácil catalogación de genes co-expresados ​​y también facilita el descubrimiento de bio-marcador para diversas condiciones uterinas

Visto:. Bajpai AK, Davuluri S, Chyrashekar DS, Ilakya S, M Dinakaran, Acharya KK (2012) MGEX-BDU: Una base de datos de mamíferos Útero de Catalogación Expresión-base de los genes a través de condiciones, incluyendo la endometriosis y el cáncer cervical. PLoS ONE 7 (5): e36776. doi: 10.1371 /journal.pone.0036776

Editor: Zhanjiang Liu, de la Universidad de Auburn, Estados Unidos de América

Recibido: 10 Enero, 2012; Aceptado: 5 Abril 2012; Publicado: 11-may 2012

Derechos de Autor © 2012 Bajpai et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Financiación:. Este trabajo fue apoyado por el Departamento de Tecnología de la Información [subvención número DIT /R & amp; D /BIO /15 (5) /2008 a KKA & amp; una subvención institucional bajo el centro de excelencia esquema] Gobierno de la India. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:. Los autores declaran que el autor correspondiente (Kshitish K. Acharya) está afiliada a iBáb tanto, un instituto de investigación académica y, Shodhaka Life Sciences Pvt. Ltd. Esta última es una empresa comercial de reciente creación, que actualmente se dedica principalmente a la investigación y la formación. También cuenta con dos productos relacionados con la búsqueda en la literatura y la prueba en línea para el empleo y cursos relacionados con la biología. En el futuro, la compañía tiene la intención de proporcionar servicios de bases de datos y software desarrollos. Los autores confirman la afiliación a la empresa y la participación del autor correspondiente como el director de la empresa. También confirman que esto no altera su adhesión a todas las políticas de PLoS ONE en los datos y materiales de uso compartido.

Introducción

Útero es un importante órgano de mamífero que debe ser bien estudiado por su papel en funciones normales, tales como la migración de esperma, la implantación del embrión y la nutrición fetal, así como trastornos múltiples [1], [2]. El cáncer cervical es una de las principales causas de muerte por cáncer en mujeres en todo el mundo [3]. Del mismo modo, el cáncer de endometrio, la endometriosis y la infertilidad debido a las funciones uterinas defectuosos han sido también importantes problemas de salud humana. Todavía se desconoce mucho acerca de la fisiología normal y detalles patológicas del tejido del útero.

La comprensión de la estructura y los mecanismos de regulación de la expresión génica es fundamental para la mayoría de los aspectos de la biología, incluyendo los estados normales y anormales del útero de los mamíferos. detección a gran escala de los patrones de expresión de genes es más fácil en el nivel de transcripción en comparación con el nivel de proteína. Microarrays habilitadas genoma amplia transcripción de perfiles y se han utilizado ampliamente para estudiar diversos fenómenos biológicos.

limitaciones Las variaciones en el nivel de expresión de los genes y el estado, a través de los resultados de los experimentos de microarrays [4], han causado en los servicios públicos de estos datos de expresión génica. Normas recomendadas para los experimentos de microarrays y la presentación de informes [5] - [7], y la mejora de los métodos de meta-análisis [8] - [11] podría facilitar un mejor uso de los datos comunicados. Mientras que los científicos hoy en día parecen preferir los métodos basados ​​en la secuenciación de transcripción de perfiles [12], [13], el valor de los datos de microarrays ya existentes no puede ser subestimada. otros datos de expresión de genes de alto rendimiento de microarrays y se han recopilado en múltiples bases de datos útiles /repositorios (para una lista, ver http://www.startbioinfo.com/gene-expression). Sin embargo, las ineficiencias en las opciones de búsqueda específicas a las condiciones fisiológicas y experimentales también limitan la explotación de las bases de datos disponibles. También se ha observado que una cantidad significativa de los datos faltan en tales bases de datos [14], [15]. La compilación de la mayor parte de los datos de expresión en un solo lugar sería un gran reto debido a dos razones principales: a) la recopilación de los datos dispersos en la literatura es una tarea laboriosa, pero no parece haber ninguna alternativa; b) no ha habido un medio conveniente para derivar información útil a través de diferentes plataformas, estudios y tipos de datos (datos sin procesar /procesado o sólo las llamadas finales). Nuestro equipo anterior gastó alrededor de 3 años para compilar minuciosamente los datos de expresión génica de los testículos de los mamíferos, y luego se aplica el nuevo procedimiento de evaluación de la fiabilidad basada en el consenso para derivar un estado binario de expresión para cada gen [15].

Un esfuerzo similar se requiere para el tejido útero. cantidad significativa de datos de microarrays es de hecho disponible para el tejido del útero de los mamíferos [16]. Ha habido un par de bases de datos específicas a un componente del útero como el tejido endometrial, (endometrial Base de datos: http://www.endometrialdatabase.com y SCCPIR endometrio Recursos Base de datos: http://endometrium.bcm.tmc.edu/edr ) oa una condición, la CCDB, cervical gen del cáncer de base de datos [17]. Sin embargo, no ha habido una base de datos específica útero. Con la intención de recopilar el máximo de datos de expresión génica uterina y ayudará a la investigación sobre diversos aspectos del útero de los mamíferos existentes, hemos creado la base de datos de expresión de genes de mamíferos Útero (MGEX-UDB), y estamos informar de la misma.

Resultados

contenido base de datos

datos (a) considerados para la puntuación: en la actualidad, la base de datos abarca 325 estudios con 2254 conjuntos de datos correspondientes a 1092 'estado de expresión en Ubicaciones específicas y condiciones "(ESLCs) para humanos, ratones , rata, vaca y cerdo. Alrededor del 83% de los datos en MGEX-UDB es a partir de estudios sobre la especie humana (Figura 1). La base de datos proporciona 970 ESLCs diferentes para personas (23,735 genes), 91 para el ratón (24.428 genes), 15 para la rata (14,497 genes), 8 de vaca (10.875 genes), y 8 para el cerdo (1.720 genes). La base de datos tiene el número máximo de estudios para el cáncer de cuello de útero (38% de todos los estudios). Los próximos estudios más abundantes corresponden a cáncer de endometrio y la endometriosis (aproximadamente el 13% estudios para cada uno). Otras condiciones que contribuyen incluyen las, leiomioma, leiomiosarcoma, neoplasia intraepitelial normales (CIN cervicales), hiperplasia endometrial, ciclos de endometrio, la gestación, el tratamiento con productos químicos /hormonas y knockout estudios de transfección y asociados con genes específicos (Figura 2). La mayoría de los informes relacionados con la enfermedad son a partir de tejidos humanos y /o líneas celulares. Mientras que los estudios relacionados con el tratamiento hormonal, la implantación del embrión y el tejido normal son comunes en el ratón, los estudios sobre el tratamiento químico /hormonal y endometriosis son comunes en rata. En caso de vaca y cerdo, los estudios relacionados con el embarazo son comunes.

Otras especies incluyen la vaca y cerdo. Entre los datos recogidos de GEO o "PubMed & amp; GEO ", el 85% de los estudios también estaban presentes en ArrayExpress, a pesar de que esto no se indica en la figura.

(y estudios) en MGEX-UDB correspondiente a diversas condiciones fisiológicas y patológicas uterinos. "Otros" representan post-parto, genética-ablación, la inseminación artificial y la implantación del embrión. Los estudios considerando los tejidos que se utilizan como controles, pero pueden no ser absolutamente "normal" se han agrupado en
'pueden ser normales'
categoría (ejemplos: "el tejido normal adyacente al tumor /tejido de cáncer", "tratado con vehículo ").

de los 325 estudios identificados para la recopilación de datos, 295 artículos de investigación publicados fueron curada para recoger la información asociada a cada lista de genes. En los casos restantes, la información requerida fue curada directamente desde los repositorios; no había ninguna publicación correspondiente para estos experimentos. De todos los estudios, alrededor del 55% se obtiene exclusivamente a partir de la literatura. Los datos restantes procedían de la Expresión Génica Omnibus (GEO) [18], ArrayExpress [19] y otros repositorios solo, o en combinación con la literatura (Figura 1). En la base de datos, el 90% de los estudios corresponden a un nivel de expresión del ARNm y el 10% corresponde a los estudios de expresión a nivel proteómico. La mayoría (91%) de los informes de nivel de ARNm de vino de la tecnología de microarrays, que también contribuye a 72% de los conjuntos de datos totales. Affymetrix (66%) es el principal contribuyente entre las plataformas de microarrays, seguido de costumbre arrays de cDNA (21%) (Figura 3). Estudios a pequeña escala basados ​​en la transcripción reversa reacción en cadena de la polimerasa (PCR), PCR cuantitativa en tiempo real, técnicas de transferencia, etc., también contribuyeron conjuntos de datos. Entre los conjuntos de datos totales, el 52% tienen & gt; 500 genes en cada uno, el 8% de ellos tienen 50-500 y el 40% restante contiene & lt; 50 genes (Figura 4). En la mayoría de los casos, los conjuntos de datos correspondientes a los estudios a pequeña escala eran de los experimentos de validación de un estudio de la expresión génica escala masiva.

"otros" incluyen conjuntos de datos contribuyeron principalmente por plataformas de GE Healthcare y Illumina.

(con recuento de genes) recogidos de diversas fuentes. En caso de "PubMed & amp; GEO "y" PubMed & amp; ArrayExpress ", las listas de genes más pequeños provino de experimentos de validación y se recogieron a partir de PubMed, mientras que los datos procesados ​​primas /siempre se obtuvieron de los repositorios (GEO /ArrayExpress) guía empresas
B) Los datos no considerados para la puntuación.: MGEX-UDB también tiene datos de secuenciación. Tales datos no pudieron ser empleados en anotar el consenso debido a la incompatibilidad de estos tipos de datos con el actual sistema de puntuación computacional. La secuenciación de generación de datos siguiente (NGS) se incluyó para las células HeLa con expresión diferencial exige condiciones de tratamiento 2, de 3 estudios. Se proporcionan enlaces a otros conjuntos de datos relevantes NGS (crudos). Mayor parte de la secuencia de datos, sin embargo, se corresponde con etiquetas de secuencia expresada (EST).

Un ejemplo
( "el estadio IIA no queratinizado carcinoma cervical de células escamosas")
jerarquía de las condiciones y sub -condiciones, para el que se han recogido los datos, y las opciones previstas en la consulta desplegable y cargar páginas de MGEX-UDB. Actualmente la base de datos permite que hasta cuatro niveles de la jerarquía que desea consultar.

interfaz web

características de consulta.

MGEX-UDB proporciona múltiples opciones de consulta. Para realizar una consulta por un gen, el usuario puede introducir identificadores de uno de los siguientes tipos: nombres, símbolos, sinónimos, identificación de genes Entrez, y genes palabras clave /descripciones. basado en la condición de búsqueda se puede hacer seleccionando la condición de interés de las opciones del menú desplegable de condiciones fisiológicas o experimentales en diferentes niveles de jerarquías para una especie elegido. Por ejemplo, los genes transcritos o latentes se pueden obtener para el cáncer de cuello uterino humano, así como, condición carcinoma de células escamosas. Del mismo modo, las consultas se pueden restringir a una región específica del tejido (sub-tejido), y del tipo de célula. También hay una opción para elegir un tipo específico de la población, tales como raza caucásica, en el caso de los humanos, y tipos de cepas tales como C57BL6 o Sprague-Dawley en el caso de los ratones y ratas, respectivamente.

Salida.

Para la búsqueda basada en los genes, la base de datos proporciona una lista de idéntica así como los genes parcialmente coincidentes en diferentes especies. Cada gen en esta página se puede hacer clic para obtener información básica sobre el gen, sus promotores, estado de expresión, los productos (transcripciones y proteínas), Gene Ontología (GO) anotaciones, las interacciones proteína-proteína, referencias cruzadas a otros recursos importantes de la bioinformática, y citas en PubMed pertinentes. la información genética básica consiste en la secuencia, loci y resumen gen. Transcripción incluye información de identificación transcripción, la secuencia de codificación y el exón-intrón detalles. detalles cubren el promotor de inicio del sitio de transcripción (TSS), el potencial secuencia promotora y su posición cromosómica. La proteína proporciona información diferentes isoformas de la proteína (s), con la secuencia correspondiente, la función, el peso molecular y la longitud de aminoácidos. se muestra el estado (s) La expresión del gen, junto con una puntuación de fiabilidad, para múltiples regiones de tejido /sub-tejido y tipos de células en diferentes condiciones fisiológicas y experimentales. La fuente original de los datos de expresión se muestra en un panel independiente. Además de esto, la base de datos muestra un estado de expresión indicativo (s) en base a los datos de secuenciación (EST & amp; NGS)., Para diversos tejidos /condiciones uterinas

consulta con una condición (búsqueda basado en la condición) proporciona listas de genes transcritos y latente en el estado consultado. En cada una de estas dos listas, se muestra la "puntuación de fiabilidad 'de cada gen. De hecho, los genes están dispuestos en el orden descendente de sus puntuaciones. GO anotaciones también se muestran para los primeros 100 genes. El usuario puede exportar la lista completa de los genes, junto con sus puntuaciones de fiabilidad. Las referencias a las bases de datos de origen considerados para la puntuación se pueden ver en esta página de salida. Al hacer clic en cualquier gen en la página de resultados será similar en efecto a la consulta específica de genes descrita en el párrafo anterior. La opción "Analizar" en la página de salida permite al usuario realizar un análisis rápido de las funciones /procesos significativos de los genes seleccionados. El usuario puede iniciar rápidamente GO análisis y la alineación de secuencias múltiples (de los genes, las proteínas y los promotores), y acceder fácilmente a las vías pertinentes y registros de polimorfismo de nucleótido único (SNP). La base de datos también permite la co-expresión, la interacción proteína-y analiza vía, y ofrece la visualización de las redes entre el conglomerado seleccionado de genes utilizando GeneMANIA herramienta de análisis funcional [20].

La base de datos incluye una navegación fácil de los genes y condiciones. Además, se proporcionan enlaces a los datos relacionados con el útero (NGS y copiar las variaciones del número), con un índice de condiciones, y otros recursos.

Discusión

Una cantidad significativa de los datos de microarrays es publicada que no se encuentra en ninguna de las bases de datos o repositorios [14], [15] ampliamente utilizados. La compilación de estos datos tiene que ser manual y sería un proceso que lleva tiempo tomando. Hemos iniciado el tejido sabia compilación de los datos de expresión de genes de mamífero con el objetivo de utilizar los datos existentes para la catalogación de los patrones de expresión génica. Un estudio comparativo [15] de las bases de datos con consultas específicas de condición indica la superioridad de tal tejido sabia biocuration de los datos de expresión génica. Una comparación similar de MGEX-BDU con otros repositorios /bases de datos mostró que el primero proporciona sistema de consulta fácil y proporciona una mayor cantidad de estudios y los genes pertinentes (detalles en la sección de estadísticas de la base de datos).

La fuerza de la 'fiabilidad el marcador ', para el estado de la expresión binaria, es proporcional a la cantidad de conjuntos de datos y el acuerdo a través de ellos, para cualquier condición correspondiente. Hay algunas limitaciones [15] en tales puntuaciones basadas en el consenso de los estados de expresión binarios. Sin embargo, este método de consenso binaria sí ofrece una ventaja significativa sobre la mayoría de los otros métodos de metanálisis en la obtención de un consenso semi-cuantitativa. Funciona a través de plataformas y tecnologías, independientemente de la disponibilidad de los datos en bruto /procesados, siempre y cuando se haya hecho la llamada final.

La visualización jerárquica de los genes transcritos /inactivo en condiciones específicas puede ser una representación útil de la transcripción perfiles. Las puntuaciones más altas indican la consistencia en estado de expresión de los genes correspondientes a través de muestras biológicas (utilizado en diferentes estudios) y las tecnologías. De hecho, la consistencia parece ser mantenido durante muchos genes a pesar de las variaciones en la tecnología, tales como la plataforma de microarrays, métodos de aislamiento de ARN y estadísticas, así como las muestras, que también podría variar en términos de poblaciones /cepas y otros aspectos relacionados tales como la edad, las interacciones sociales y la dieta. Las listas resultantes se pueden utilizar para identificar los genes que tienen una fuerte asociación con cualquier fisiológica de estado /condición en el tejido del útero de los mamíferos. Por ejemplo, el usuario puede obtener una lista de genes que se transcriben o latentes en la condición de la enfermedad de interés y se comparan con los que tienen la condición de expresión opuesta en la condición normal. Una lista de unión de genes a través de las dos condiciones se puede derivar y jerarquizada basada en los resultados. Dicha lista se incluyen los genes con diferentes grados de asociación con la enfermedad. A modo de ejemplo, los genes
"transcritas en el cáncer de cuello de útero, pero en estado latente en /útero cuello uterino normal"
con puntajes altos de fiabilidad puede ser mejor candidato biomarcadores que los genes generalmente identificados como diferencialmente expresado por un solo estudio.
CDKN2A
, que es un marcador ya conocido para el cáncer de cuello de útero [21], [22], es un tal gen que tiene un récord de 318
'estado transcrito en el cáncer de cuello de útero'
a partir de 79 estudios de PubMed, 6 de GEO, 1 de ArrayExpress y 2 de caArray, y 88 para
'estado latente en el útero normal ", España a partir de 32 estudios de PubMed y 1 de GEO. Por el contrario, algunos de los principales genes de la lista inactiva por cáncer de cuello uterino también estaban latentes en útero normal, y por lo tanto son menos propensos a tener una fuerte asociación con la enfermedad. Por lo tanto, la salida obtenida a través de condiciones puede ser utilizada para diferenciar los genes que tienen fuerte asociación con una condición uterina de aquellos con débil o ninguna asociación. Este enfoque podría preparar una nueva forma de lista de posibles dianas diagnósticas, pronósticas y terapéuticas para los trastornos relacionados con el útero. Este proceso puede ser utilizado para obtener clústeres de refinados de genes co-expresó.

Los grupos de genes obtenidos por MGEX-UDB pueden ser útiles no sólo para entender los mecanismos moleculares y vías asociadas, pero también para dilucidar los mecanismos de la regulación transcripcional, la identificación enfermedad en estadio, la priorización de genes y las predicciones de función génica. Hemos iniciado algunos estudios en el análisis del promotor de algunos de los grupos importantes de genes co-expresó. La lista compilada (después de un gran esfuerzo de selección) de las referencias de las listas de genes que corresponden a cada estado y ubicación de interés puede ser particularmente útil para los usuarios interesados ​​en la aplicación de otros métodos de metanálisis de los datos de expresión génica
.
Desde MGEX-UDB proporciona la mayor parte o la totalidad de los genes asociados con una condición específica, que puede servir como un buen punto de partida para cualquier tipo de análisis funcional para varias condiciones uterinas. MGEX-UDB también proporciona una oportunidad para comparar los patrones de expresión de genes a través de sutiles variaciones en las condiciones y tratamientos. Por ejemplo, se puede comparar el estado de expresión de los informes de tejido normal no tratadas con los de las muestras simuladas /tratados con vehículo (puede ser normal); tejidos adyacentes al tumor (puede ser normal) con los tejidos tumorales que carecen-(normal); capas uterinas /ciclos; las etapas del cáncer, etc - en todos los estudios.

Los recursos ya existentes que corresponden a uterinos específica sub-tejidos /condiciones son ventajosas en algunos aspectos en comparación con MGEX-UDB. Por lo tanto, hemos incluido enlaces a esos recursos en nuestra base de datos. CCDB [17], una base de datos específica para el cáncer de cuello de útero, no sólo proporciona arriba /abajo genes regulados, metilados, mutadas y amplificados, sino que también da información sobre miRNAs relacionados con el cáncer de cuello uterino. Endometrial Base de Datos (http://www.endometrialdatabase.com) y la Base de Datos de Recursos SCCPIR endometrio (http://endometrium.bcm.tmc.edu/edr) compilan varios informes de expresiones de genes diferenciales en condiciones de endometrio. Pero, aparte de estar limitada a condiciones específicas, su cobertura gen parece ser menos de MGEX-UDB. Asimismo, no están diseñados para proporcionar un estado de expresión de consenso a través de meta-análisis, o para facilitar dicho proceso. Por otra parte, las bases de datos específicos de tejido tales como el tigre [23] y TiSGeD [24] proporcionan genes específicos del útero, pero no permiten consultas específicas para las enfermedades y /o condiciones experimentales.

Futuros desarrollos

El trabajo actual nos ha llevado 3 años, debido principalmente a las tareas de curación manual implicados. Los datos correspondientes a algunas condiciones y especies aún no se ha incluido y el marcador para el estado binario tiene sus limitaciones. Tenemos la intención de actualizar la base de datos con los datos de más especies de mamíferos y condiciones uterinas por: a) invitar a colegas científicos para cargar los datos, y b) nuestros propios esfuerzos siguientes fondos adicionales. También estamos planeando para mejorar el sistema de puntuación de muchas maneras: a) Asignación de diferente peso, basado en el número de muestras, hibridaciones y experimentos de validación; b) incorporar un consenso sobre el estado de la expresión diferencial junto con el transcrito de estado /inactivo; c) tal vez en colaboración con otras organizaciones, establecer métodos para incorporar datos de otros datos de expresión de genes de alto rendimiento, tales como NGS y EST, mientras que deriva del consenso.

Resumen

El nuevo desarrollo MGEX-UDB está destinado a impulsar varios tipos de esfuerzos por los biólogos que trabajan en el tejido del útero. Las aplicaciones /características importantes de esta base de datos son los siguientes. A) Incluye una gran cantidad de forma manual compilado los datos de expresión de genes correspondientes al útero de diversos informes y bases de datos. B) Se proporciona un catálogo de genes co-expresados ​​en diversas condiciones normales y anormales del útero. C) Proporciona una "puntuación de fiabilidad" para indicar el grado de acuerdo o contradicciones de la condición de expresión a través de microarrays y estudios proteómicos pertenecientes a una condición /de tipo celular específico, para cada gen. D) También utiliza la secuencia de datos en diversos tejidos /condiciones uterinas para indicar el estado de expresión de cada gen. E) Se puede consultar con normal o cualquiera de las condiciones patológicas en el útero, así como los genes, de ratón, rata y especie humana. F) Además del estado de expresión junto con fiabilidad calificaciones de varias condiciones uterinas, la base de datos proporciona un fácil acceso a otros datos básicos importantes, tales como las secuencias de los genes, las proteínas y las transcripciones, GO anotaciones, las interacciones proteína-proteína y las citas relevantes . G) Permite realizar la secuencia y el análisis funcional de los conjuntos de co-expresaron los derivados de los cúmulos. H) Cada gen es también una referencia cruzada a otros recursos bioinformáticos útiles. I) que proporciona un fácil acceso a la lista compilada de las referencias de las listas de genes correspondientes a diversas condiciones uterinas, útiles para diversos enfoques de meta-análisis. Todas estas características son propensos a catalizar el proceso de catalogación de transcripción, y varios otros esfuerzos de investigación relacionados con el útero.

La figura representa la recopilación de datos (parte superior), arquitectura (parte central) y operación (parte inferior) de la base de datos.

Materiales y Métodos

la recolección de datos

Una estrategia de búsqueda fue cuidadosamente diseñado para recoger los artículos relevantes publicados en la literatura, (procedimiento detallado se puede encontrar en http://dx.doi.org/10.1038/npre.2011.2101.3). En pocas palabras, esto implicó la identificación de combinaciones de términos de consulta /frases para cada herramienta de búsqueda, la obtención de las citas utilizando múltiples herramientas y luego la compilación de los éxitos en una lista de la Unión no redundante con la función Cita-Compilador (http://www.shodhaka.com /compilador). Un ejemplo de los juegos completos de la estrategia de búsqueda y consulta se puede encontrar en la sección de preguntas frecuentes de la base de datos. El objetivo era recoger las citas relacionadas con la expresión de genes escala masiva en el tejido del útero. La evaluación inicial de los artículos se realizó para verificar la pertinencia, mediante la lectura de los resúmenes. Los artículos identificados como relevantes fueron entonces buscaron la lista de genes informó a expresar, hasta reguladas, las reguladas, etc por una lectura minuciosa texto completo. las listas de genes de estos artículos pertinentes se obtuvieron de manuscritos, notas complementarias o sitio web de los autores. Las principales repositorios como el GEO [18] y ArrayExpress [19], y otros repositorios como Oncomine [25], Base de datos de Stanford Microarray (SMD) [26], Centro para la base de datos de información genética Biología expresión (CIBEX) [27], caArray (https://array.nci.nih.gov/caarray), Gemma (http://www.chibi.ubc.ca/Gemma/) y la expresión pública de perfiles de recursos (PEPR) [28] también se realizaron búsquedas para la gran los datos de expresión génica escala pertenecientes al tejido del útero de los mamíferos. Se recogió cuando estén disponibles los datos procesados, como el método de puntuación sólo requiere la decisión final acerca de la situación actual /ausencia de los genes. Si no había datos procesados, los datos en bruto se descargó y se procesa utilizando métodos estándar adecuadas como se recomienda en los paquetes de Bioconductor (http://www.bioconductor.org).

Junto con la lista de genes, la información asociada, como el estado de la expresión, las especies, los tejidos y sub-tejido o línea celular, de tipo celular, y las correspondientes condiciones fisiológicas o experimentales se obtuvieron de las publicaciones o repositorios. Este conjunto de parámetros de base se denominará en adelante como "estado de expresión en Ubicación específica y Condiciones '(ESLC). Las "condiciones" incluyen estado normal fisiológica, las enfermedades, los ciclos de endometrio, la gestación, el tratamiento con hormonas y /u otros productos químicos, etc. Un vocabulario controlado se fijó para cada condición, para mantener la uniformidad y de sacar el consenso entre los estudios similares. La Figura 5 ilustra la jerarquía de una condición y multi-nivel sub-condiciones. Otra información acerca de las listas de genes incluye el número de muestras, la edad de los individuos, número de aislamientos de ARN e hibridaciones, y los detalles de principal, así como experimentos de validación (ejemplo: plataformas, sondas y métodos estadísticos). Estas listas de genes, junto con la información anotada (en adelante, los conjuntos de datos) se cargan en la base de datos. El número mínimo de genes por conjunto de datos fue de 3, el máximo fue de 21609, y el promedio fue de 8554. Cada entrada se cotejará con al menos otro investigador y, en un promedio de 0,7% de errores (por ejemplo, el nombre del chip genético, tipo de población , se detectaron transcurso del tiempo de tratamiento) y se rectifica.

a 'puntuación de fiabilidad' fue derivado para cada ESLC de cada gen, utilizando los procedimientos descritos anteriormente [15], para indicar el grado de acuerdo o desacuerdo a través de conjuntos de datos, que se corresponden con las condiciones y ubicaciones para cada especie iguales o similares. Las puntuaciones más altas indican que los genes correspondientes se informaron de forma consistente a transcribir o latente. Los genes con bajas calificaciones de las mismas condiciones /similares indicarían que, o menor número de estudios correspondientes o presencia de contradiciendo informes para el estado de la expresión específica bajo consideración.

También se compilan los datos de secuenciación relacionados con uterinos tejidos /condiciones. Mientras se recogieron informes sobre la secuenciación de ARN a partir de la literatura, los datos de EST fue tomada directamente de UniGene [29].

creación de bases de datos

Perl script CGI basado se utilizó para crear una interfaz para la entrada de las listas de genes y la información correspondiente. Una base de datos interna en se utiliza para convertir los identificadores de genes a partir de los conjuntos de datos en los identificadores de genes Entrez. Estos identificadores de genes Entrez se ponen en cola-configurado para descargar otra información relacionado con el gen. módulo LWP (http://search.cpan.org/~gaas/libwww-perl-5.836/lib/LWP.pm) se utiliza para conectarse a NCBI y la información requerida se descargó con la ayuda de NCBI E-Utilidades (http : //eutils.ncbi.nlm.nih.gov/entrez/query/static/eutils_help.html). La información descargada incluye símbolo oficial de genes, alias, secuencia de genes, resumen gen, localización cromosómica, el potencial secuencia promotora [-1,000 a 200 pb] y todas las secuencias de transcripción (junto con detalles exón-intrón) correspondiente a cada gen. información relacionada con la proteína ha sido descargado de UniProt (http://www.uniprot.org; [30]). Del mismo modo, los sitios de inicio de transcripción se descargaron de DBTSS (ftp://ftp.hgc.jp/pub/hgc/db/dbtss/; [31]), versión 7.0. Cuando la información no estaba disponible en DBTSS para un gen, el extremo 5 'de la secuencia genética correspondiente NCBI se utilizó para representar la posición TSS. la información genética de Ontología fue descargado desde el sitio ftp de la base de datos (ftp://ftp.geneontology.org/pub/go/; [32]) y la proteína-proteína interacción de información ha sido descargado de BioGrid (http://thebiogrid.org /download.php; [33]), versión 3.1. EST datos ha sido descargado de UniGene (ftp://ftp.ncbi.nih.gov/repository/UniGene; [29]). códigos de Perl fueron escritos para asegurar la incorporación automática de los datos descargados en la base de datos. ClustalW ha sido descargado de http://www.clustal.org/clustal2/y se integra en la base de datos, para proporcionar las instalaciones para realizar el análisis de secuencias múltiples.

Sistema de Gestión de Base de Datos de MySQL relacionales (RDBMS) se utiliza para almacenar datos. Una tabla está dedicada a almacenar la información básica relacionada gen que incluye el nombre del gen, locus y transcripción de datos. Otra tabla se utiliza para almacenar los identificadores de genes tales como el nombre del gen, la descripción de genes, símbolo oficial de genes y la identificación de genes NCBI, identificadores de sonda plataforma de microarrays, etc. cuadros separados se mantienen para almacenar información relacionada con las especies, tipo de célula, tejido, línea celular y las condiciones que constituyen ESLC. Cada entrada en estas tablas no redundantes se etiqueta con el identificador único. Los resultados obtenidos del sistema de puntuación se mantienen como modelo de tabla. Cada archivo corresponde a ESLC única, que se nombra usando identificadores de las tablas ESLC. La arquitectura de base de datos completa y función se representa en un esquema de la Figura 6.

Reconocimientos

Nos gustaría dar las gracias a Bhaskar Mudhagantgi y Nisha Ann Vishwan la curaduría algunos de los estudios y contribuir a la primaria

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]