Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: DBGC: una base de datos gástrico humano Cancer

PLOS ONE: DBGC: una base de datos gástrico humano Cancer


Extracto

La base de datos de cáncer gástrico humano (DBGC) es una base de datos global que integra diversas fuentes de datos relacionados con el cáncer gástrico humano. proyectos humanos gástricas relacionadas con el cáncer transcriptómica, proteómica proyectos, mutaciones, biomarcadores y genes sensibles a fármacos de diferentes fuentes se recogieron y se unifican en esta base de datos. Por otra parte, las estadísticas epidemiológicas de los pacientes con cáncer gástrico en China y la información clínico-anotado con casos de cáncer gástrico también se integraron en el DBGC. Creemos que esta base de datos facilitará en gran medida la investigación sobre el cáncer gástrico humano en muchos campos. DBGC está disponible gratuitamente en http://bminfor.tongji.edu.cn/dbgc/index.do

Visto: C Wang, Zhang J, M Cai, Zhu Z, W Gu, Yu Y, et al . (2015) DBGC: Una base de datos de cáncer gástrico humano. PLoS ONE 10 (11): e0142591. doi: 10.1371 /journal.pone.0142591

Editor: Arun Sreekumar, Baylor College of Medicine, Estados Unidos |
Recibido: 18 de febrero, 2015; Aceptado: 24 Octubre 2015; Publicado: 13 Noviembre 2015

Derechos de Autor © 2015 Wang et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Disponibilidad de datos: Los datos son availabe a través de Datadryad (https://datadryad.org). El número de acceso único es: doi:. 10.5061 /dryad.271dk

Financiación: Este trabajo fue parcialmente apoyado por becas de la Fundación Nacional de Ciencias Naturales de China (81172329, 31571363, 81372644, 81372645 y 8157111077), chino Programa nacional de alta Tecnología (2012AA02A504 y 2012AA02A203), proyecto internacional de cooperación de Shanghai Comisión de Ciencia y Tecnología (12410706400), Fundación para la Innovación de la medicina de translación de Shanghai Jiao Tong University School of Medicine (15ZH1002 y 15ZH3001), Fundación Fong Shu Fu Tong y gastrointestinal Carcinoma biobanco Proyecto de Shanghai Jiao Tong University School of Medicine. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción

Como uno de los cánceres más comunes, el cáncer gástrico es la tercera más alta letalidad y la cuarta más alta morbilidad de todos los cánceres en todo el mundo [1]. De acuerdo con las estadísticas GLOBOCAN en el año 2012, los nuevos casos de cáncer gástrico contados casi un millón (952.000), y más de 700.000 muertes fueron causadas por cáncer gástrico; casi la mitad de estos pacientes provenían de China (405.000 nuevos casos y 325.000 muertes) [1, 2]. Aunque tanto la letalidad y la morbilidad del cáncer gástrico han disminuido en los últimos años, la tasa de supervivencia a 5 años sigue siendo bastante baja [3]. Por lo tanto, el cáncer gástrico seguirá siendo uno de los retos más difíciles para los investigadores y los médicos durante mucho tiempo [4].

Los investigadores de todo el mundo han completado muchos genómica, transcriptómica, la proteómica y las investigaciones epidemiológicas y clínicas en relación con la patogénesis y las terapias de cáncer gástrico [5-10]. Estas investigaciones han generado grandes cantidades de datos relevantes para el cáncer gástrico, y la velocidad de estas investigaciones se está acelerando con el rápido crecimiento del conocimiento del cáncer, la disminución de los costos de detección y cómputo, y la propagación de la Internet [11]. Estos datos contienen información importante para investigar y curar el cáncer gástrico. Sin embargo, debido al conocimiento de fondo limitado de médicos e investigadores fundamentales, el potencial de estos datos puede no estar completamente desarrollada. Las nuevas tecnologías y métodos de investigación todavía requieren el desarrollo; Sin embargo, la baja eficiencia en la gestión de datos es una limitación principal de este desarrollo [12]. Debido a la acumulación a largo plazo de la investigación descentralizada, estos datos y sus formatos sólo satisfacen las necesidades individuales, a falta de integración y normalización y que resulta en la diversificación, isomerización, y la disección de los datos del cáncer [13, 14].

en la actualidad, se han previsto estudios clínicos fundamentales y abundantes en relación con el cáncer gástrico o en curso. Varios tipos de datos se almacenan en diferentes sistemas de bases de datos [13], sin compartir o comunicación. Por lo tanto, fuertemente correlacionada información permanece aislado, en lo que se llama "islas de información". Por un lado, la disección de datos aumenta la dificultad de la minería de datos, mientras que por otro lado, se evita que los médicos de hacer un uso completo de los resultados de la investigación fundamental para el desarrollo de ensayos clínicos y aplicaciones y mantiene los investigadores fundamentales de la realización de los estudios exploratorios eficientes que hacen referencia a información clínicamente relevante [15].

en esta situación, la recuperación de información general sobre el cáncer gástrico no es una tarea fácil, y porciones de estos datos pueden desaparecer en el océano de Internet, lo que sería muy desafortunado.

Esta investigación se aprovechó de los recursos de Internet y publicaciones del Centro chino para el control y Prevención de Enfermedades (CDC) y el Centro de cáncer gástrico de Diagnóstico y Tratamiento, clave Laboratorio de Neoplasias gástricas en Shanghai. En este estudio se recogen sistemáticamente diversos tipos de datos relacionados con el cáncer gástrico, integró estos recursos de datos después de la filtración y la normalización, y finalmente formó la primera base de conocimiento global para el análisis del cáncer gástrico.

Materiales y Métodos

recursos de datos

La base de datos de cáncer gástrico humano (DBGC) ha integrado los siguientes recursos relacionados con el cáncer gástrico: Read
estadísticas epidemiológicas de los pacientes con cáncer gástrico en china a partir de las publicaciones de los CDC

la información clínico-patológico sobre el tejido de cáncer gástrico después de la resección quirúrgica de los pacientes diagnosticados en el hospital Ruijin de Shanghai

Los datos biológicos moleculares en el cáncer gástrico de los recursos públicos en línea (incluyendo mutaciones gástricas relacionadas con el cáncer, biomarcadores, los genes sensibles al fármaco, proyectos y transcriptómica correspondientes genes expresados ​​diferencialmente, y proteómica proyectos y las correspondientes proteínas expresadas diferencialmente)

datos de la investigación primas del Instituto de Shanghai de Cirugía Digestiva y Shanghai clave Laboratorio de Neoplasias gástricas

Recogida de datos

1) estadísticas epidemiológicas de los pacientes con cáncer gástrico en china.

El CDC ha tenido un sistema de información del cáncer establecido desde hace muchos años y ha acumulado abundante información epidemiológica de los pacientes con cáncer en china. Las estadísticas epidemiológicas del cáncer gástrico, incluyendo el número de caso, el número de la muerte, la tasa de incidencia (tasa bruta, tasa ajustada por edad y tasa acumulada), la tasa de mortalidad (tasa bruta, tasa ajustada por edad y tasa acumulada), y la incidencia (o mortalidad) la distribución por grupos de edad se extrajeron manualmente a partir de las publicaciones de los CDC. DBGC 1.0 cubre todas las estadísticas epidemiológicas para todas las regiones típicas de la China de los años 2004 a 2009, y las estadísticas adicionales se incluirá en la versión actualizada.

2) la información clínico-patológico sobre el tejido de cáncer gástrico.

información clínico-patológico fue proporcionada por el hospital Ruijin de Shanghai. Los métodos de clasificación y estadificación usados ​​generalmente para el diagnóstico de cáncer gástrico fueron anotados utilizando casos diagnosticados de cáncer gástrico en el Hospital Ruijin. cáncer gástrico tejidos típicos de diferentes etapas y tipos fueron seleccionados de un biobanco cáncer gástrico que hemos mantenido durante años. Toda la información del paciente fue anónima y se aplica el anonimato antes de nuestro análisis.

3) los datos biológicos moleculares en el cáncer gástrico de los recursos públicos en línea.

se extrajeron y curada de recursos en línea de datos de biología molecular. transcriptómica datos se obtuvieron de la base de datos GEO (http://www.ncbi.nlm.nih.gov/geo/) y base de datos EBI (http://www.ebi.ac.uk/). proteómica datos fueron extraídos de la literatura publicada a través de la lectura manual y la normalización [16, 17]. mutación datos se obtuvieron de la base de datos dbVar (http://www.ncbi.nlm.nih.gov/dbvar/), la base de datos OMIM (http://www.ncbi.nlm.nih.gov/omim/), base de datos HGMD (http://www.hgmd.org/), y la literatura publicada [18, 19]. Todos los datos de los biomarcadores fueron extraídos de la literatura publicada [20, 21]. genes relacionados con las drogas fueron extraídos de la base de datos PharmGKB (http://www.pharmgkb.org/), base de datos CancerDR (http://crdd.osdd.net/raghava/cancerdr/) y la literatura publicada [22, 23]. Hemos diseñado normas detalladas de extracción para cada tipo de recurso de datos de biología molecular, y cada procedimiento de recogida de datos tenía que seguir estas normas para garantizar la coherencia de los datos. El procedimiento de recogida detallada se proporciona a continuación:
datos
La transcriptómica:

Busca en la base de datos GEO usando las siguientes palabras clave :( "neoplasias del estómago" [MeSH Terms] o "cáncer de estómago" [All Fields] ) y "Homo sapiens" [porgn].

Filtra los resultados manualmente, y seleccionar las publicaciones relacionadas con el cáncer gástrico humano para la extracción de la información posterior.

Clasifica los programas de tamaño de la muestra y el tipo de muestra .

Extraer información de publicación (título, tiempo de publicación, tipo de experimento, el tipo de tejido, cantidad de muestra, descripción de la muestra, muestra de experimento, la muestra de control, plataforma, GSE ID, ID de GSM, enlaces de descarga, y las citas bibliográficas ) de forma manual, en referencia a MIAME (mínima información sobre un experimento de microarrays).

pre-procesar datos en bruto (archivos de matriz de la serie en la base de datos GEO) usando Perl para eliminar las diferencias de diversas plataformas.

Extraer los genes expresados ​​diferencialmente utilizando el lenguaje R

los datos de proteómica:

Buscar datos en bruto en PubMed usando las siguientes palabras clave: ( "proteómica" [MeSH Terms] OR "proteómica" [ ,,,0],Todos los campos]) Y ( "neoplasias del estómago" [MeSH Terms] o ( "estómago" [All Fields] Y "neoplasias" [All Fields]) o "neoplasias del estómago" [All Fields] OR ( "gástrico" [All Fields] y "cáncer" [All Fields]) O "cáncer gástrico" [All Fields]).

Filtra los resultados manualmente, y seleccionar los proteómica publicaciones relacionadas con el cáncer gástrico humano para la extracción de la información posterior.

Utilice estos documentos como la literatura de semillas y filtrar las referencias de nuevo.

Clasificar las publicaciones de tamaño de la muestra y el tipo de muestra.

leer manualmente los documentos y extraer información de la publicación (título, tiempo de publicación, muestra la cantidad, el experimento de ejemplo, control de ejemplo, descripción de la muestra, el método de la tecnología utilizada, el cambio veces, hasta reguladas cantidad de proteínas, la cantidad de proteína regulada hacia abajo, y la referencia) y el correspondiente hasta reguladas proteínas y abajo-regulados proteínas (sobre la base de las conclusiones de la autores) guía empresas
los datos mutación:
.
Buscar en las bases de datos OMIM, HGMD y dbVar utilizando las palabras clave "cáncer gástrico" y extraer información de mutación (genes, el tipo de mutación, la descripción de ADNc , descripción de AA completa, descripción de AA, y la referencia): perfil
Buscar en PubMed usando las siguientes palabras clave:. ( "mutación" [MeSH Terms] o "mutación" [All Fields]) y ( "neoplasias del estómago "[MeSH Terms] o (" estómago "[All Fields] Y" neoplasmas "[All Fields]) o" neoplasias del estómago "[All Fields] OR (" gástrico "[All Fields] Y" cáncer "[All Fields]) O "cáncer gástrico" [All Fields]).

Filtra los resultados manualmente, y seleccionar los documentos relacionados con el cáncer gástrico humano para la extracción de la información posterior.

Tome estos documentos como la literatura y el filtro de semillas las referencias de nuevo.

Lea estos documentos y extraer información mutación manualmente (gen, el tipo de mutación, la descripción de ADNc, descripción completa de AA, descripción de AA, y referencia).

Eliminar datos duplicados a partir de las cuatro fuentes

los datos de biomarcadores:.

Buscar en PubMed usando las siguientes palabras clave: gratis ( "marcadores biológicos" [MeSH Terms] o ( "biológicos" [Todos campos] y "marcadores" [All Fields]) O "marcadores biológicos" [All Fields] OR "biomarcadores" [All Fields]) Y ( "neoplasias del estómago" [MeSH Terms] o ( "estómago" [All Fields] AND " neoplasias "[All Fields]) o" neoplasias del estómago "[All Fields] OR (" gástrico "[All Fields] AND" cáncer "[All Fields]) O" cáncer gástrico "[All Fields]).

Filtra los resultados manualmente, y seleccionar los documentos relacionados con el cáncer gástrico humano para la extracción de la información posterior.

Tome estos documentos como la literatura de semillas y filtrar las referencias de nuevo.

Lea estos documentos y extraer mutación información de forma manual (nombre biomarcador, nombre completo, tipo, estadio, descripción, el mecanismo, la sensibilidad, la especificidad y de referencia).

Clasifica los biomarcadores por tipo de biomarcador, etapa, especificidad y sensibilidad.

los datos sensibles de drogas:.

Buscar en PharmGKB utilizando las palabras clave "cáncer gástrico" y extraer manualmente la información sensible a los fármacos (nombre del medicamento, el nombre de genes, el tipo de gen, el mecanismo, y la referencia)

Buscar en PubMed usando las siguientes palabras clave: "resistencia" [All Fields] AND ( "neoplasias del estómago" [MeSH Terms] o ( "estómago" [All Fields] Y "neoplasias" [All Fields]) o "neoplasias del estómago "[All Fields] OR (" gástrico "[All Fields] y" cáncer "[All Fields]) O" cáncer gástrico "[All Fields])

filtrar los resultados manualmente, y seleccionar los documentos relacionados con resistencia humana medicamento contra el cáncer gástrico para la extracción de la información posterior.

Tome estos documentos como la literatura de semillas y filtrar las referencias de nuevo.

Resumir los 19 medicamentos que se utilizan generalmente para el tratamiento clínico de cáncer gástrico (5- fluorouridina, camptotecina, carboplatino, cisplatino, docetaxel, doxorubicina, clorhidrato de doxorubicina, epirubicina, etopósido, fluorouracilo, irinotecan, leucovorina, mitomicina C, oxaliplatino, paclitaxel, tamoxifeno, trastuzumab, vinblastina y vincristina).
Tomando "cisplatino" como por ejemplo, la búsqueda en PubMed utilizando palabras clave: Read ( "cisplatino" [MeSH Terms] o "cisplatino" [All Fields]) y "resistencia" [All Fields] AND ( "neoplasias del estómago" [MeSH Terms] o ( " estómago "[All Fields] Y" neoplasmas "[All Fields]) o" neoplasias del estómago "[All Fields] OR (" gástrico "[All Fields] Y" cáncer "[All Fields]) O" cáncer gástrico "[Todos los campos ]).

Filtra los resultados manualmente, y seleccionar los documentos relacionados con la resistencia a fármacos contra el cáncer gástrico humano para la extracción de la información posterior.

Tome estos documentos como la literatura de semillas y filtrar las referencias de nuevo.

Lea estos documentos y extraer información sensible a los fármacos de forma manual (nombre del medicamento, el nombre de genes, el tipo de gen, el mecanismo, y referencia).

Hemos anotado todos los genes y fármacos de esta base de datos para ayudar los usuarios comprender mejor y utilizar estos recursos de datos. Los genes son anotado según NCBI (http://www.ncbi.nlm.nih.gov), HGNC (http://www.genenames.org/), Ensembl (http://feb2014.archive.ensembl.org /) y gene Tarjetas (http://www.genecards.org/). Las drogas son anotados de acuerdo a DrugBank (http://www.drugbank.ca/).

Por otra parte, también se incluyen las mutaciones detectadas en el proyecto TCGA para describir los genes en el DBGC. Los usuarios pueden encontrar todas las mutaciones de un gen determinado detectado en el proyecto TCGA. Estas mutaciones fueron procesados ​​por ICGC (https://dcc.icgc.org) en base a datos del TCGA y referenciado por cada mutación en el DBGC

Además., Se han llevado a cabo varios proyectos de investigación fundamentales relacionados con el cáncer gástrico por nuestro equipo de investigación. Descripciones de los proyectos y los datos en bruto se proporcionan en el DBGC para su descarga y su posterior análisis.

Base de datos de construcción

El DBGC es una base de datos relacional con una capa de datos MySQL. Una interfaz fácil de usar diseñado para organizar y recursos de datos de visualización utilizando HTML y JavaScript. La interacción entre la capa de datos y la interfaz web se completó utilizando la plataforma Java EE.

Resultados y Discusión

Base de datos Descripción

Esta base de datos se compone principalmente de tres sistemas de datos longitudinales , datos biológicos epidemiológicos, clinicopatológicos y moleculares (Fig 1). Los datos biológicos moleculares consisten en transcriptómica gástricas relacionadas con el cáncer, la proteómica, la mutación, y los datos de biomarcador de genes sensibles a fármacos. Las estadísticas globales de estos datos se enumeran en la Tabla 1. Además de las estadísticas epidemiológicas de los pacientes con cáncer gástrico en China y la información clínico-anotado con casos de cáncer gástrico, todos estos datos fueron extraídos de las bases de datos públicas, publicaciones y bibliografía publicada.


Interfaces de base de datos

1) Búsqueda rápida (figura 2). El módulo de función de búsqueda rápida hace que la identificación de la función de un gen o proteína en el cáncer gástrico es posible a través de la introducción de palabras clave en el cuadro de búsqueda situado en la barra de navegación. El resultado de la búsqueda le dirá si el gen o proteína se expresa diferencialmente en cualquier proyecto o proyectos de proteómica transcriptómica y si ha sido identificado como un biomarcador para el cáncer gástrico o de un gen sensible a los fármacos. Por otra parte, si el gen tiene cualquier mutación que está relacionado con el cáncer gástrico, una lista detallada se mostrará en la página de resultados. Por ejemplo, el uso de "EGFR" como palabra clave, podemos concluir que fue identificado como un gen regulado en marcha GSE51936 y GSE27342 y como un gen regulado hacia abajo en GSE29630. La proteína correspondiente del gen EGFR se identificó como una proteína regulada hasta en 3 proyectos de proteómica (PubMed IDs: 23161554, 24263233 y 24722433). EGFR ha sido reportado como un factor de pronóstico del cáncer gástrico y está relacionada con la resistencia a los medicamentos al irinotecan, que es un medicamento que se usa comúnmente para el tratamiento del cáncer gástrico. Cuatro mutaciones de EGFR relacionados con el cáncer gástrico han sido reportados (c.2361G & gt; A, c.2402A & gt; G, c.2573T & gt; G, c.2588G & gt; A).

2) Explorar y Buscar (Fig 3). Uso de la navegación, los usuarios pueden hacer clic en los elementos correspondientes para examinar los recursos de datos proporcionados en el DBGC. La información detallada se enumeran a continuación. También hemos establecido varios criterios de búsqueda para cada tipo de recurso de datos a través del cual se mostrarán todos los elementos de datos que cumplen las condiciones.

3) Nuestra base de datos se diferencia de otros recursos en línea, debido a la inclusión de epidemiológica estadísticas de los pacientes con cáncer gástrico en china. Los usuarios pueden comparar las estadísticas por sexo (masculino y femenino), zona (urbana y rural), y la edad al momento del diagnóstico o la muerte. número de caso, el número de la muerte, la tasa de incidencia y la tasa de mortalidad en un año oscilan seleccionada se pueden visualizar tanto en formato gráfico y la tabla (figura 4).

Discusión

El cáncer gástrico es un cáncer líder a nivel mundial, tanto en la mortalidad y morbilidad. Mayor incidencia y mortalidad del cáncer gástrico se observan en las regiones de Asia, particularmente en China. Los datos estadísticos epidemiológicos de cáncer gástrico en esta base de datos se obtuvieron principalmente de las publicaciones de los CDC, que ha participado en estudios de tumores malignos durante varias décadas y ha establecido archivos completos de los pacientes con tumores malignos en China. Estos datos han jugado un papel importante en la promoción de la prevención del cáncer y la formulación de políticas de salud en China [24-26]. A través de la recuperación de los datos de epidemiología del cáncer gástrico en esta base de datos, los investigadores y los médicos pueden determinar rápidamente las tendencias epidemiológicas de cáncer gástrico en China.

mutaciones relacionadas con el cáncer gástrico, biomarcadores, genes sensibles a fármacos, proyectos y transcriptómica correspondientes diferencialmente los genes expresados, y proteómica experimentos y las correspondientes proteínas expresadas diferencialmente fueron recogidos manualmente a partir de bases de datos en línea y la literatura publicada. La función de búsqueda rápida proporcionada por el DBGC permite a los investigadores para identificar la función de un gen o proteína en el cáncer gástrico. Estos genes y proteínas expresadas diferencialmente contienen abundante información importante sobre el cáncer gástrico, y muchos estudios analíticos podrían realizarse mediante ellos.

Nuestro equipo de investigación se ha dedicado a la investigación del cáncer gástrico durante muchos años y ha acumulado una experiencia considerable en el tumor la investigación epidemiológica, clinicopathology cáncer gástrico y la investigación de biomarcadores, la creación de biobancos, la investigación mecanismo biológico molecular, análisis de la bioinformática y la construcción de bases de datos a gran escala [27-30]. Para proporcionar herramientas de investigación y análisis que son más conveniente y práctico para los investigadores del cáncer gástrico, se construyó esta base de datos. La versión actual es la 1.0. Debido a las grandes cantidades de datos generados por diferentes plataformas experimentales en diferentes campos son enormemente dispersa y heterogénea, alguna información útil puede haberse perdido en nuestro proceso de recolección de datos. Vamos a seguir la recuperación de estos datos y la actualización de los datos más recientes desde hace mucho tiempo para asegurar la puntualidad y la exhaustividad de los datos. En la próxima versión, tenemos la intención de cubrir las nuevas humanos gástricas relacionadas con el cáncer, mutaciones y genes marcadores biológicos sensibles al fármaco. transcriptómica datos serán el énfasis de la próxima versión, en la que se volvieron a analizar todos los proyectos transcriptómica para extraer los genes expresados ​​diferencialmente en diferentes valores de cambio veces. De este modo, los usuarios pueden consultar si un determinado gen se expresa de forma diferente en la configuración del tipo de muestra y se pliegan valor de cambio.

Conclusión

La base de datos se describe en este artículo, el DBGC, es un amplio y Web base de datos -hacerlas accesibles de cáncer gástrico humano. Esta base de datos se ha integrado una variedad de recursos de datos relacionados con el cáncer gástrico y proporcionado varios módulos funcionales y fáciles de usar basada en web. Creemos que la DBGC será una herramienta importante para los médicos de cáncer gástrico, los científicos de investigación fundamental tumorales, los investigadores del genoma del cáncer, responsables de políticas de salud del gobierno, y los pacientes con cáncer gástrico.

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]