Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: PROKINO: Una ontología para el Análisis Integral de proteína quinasas en Cáncer

PLOS ONE: PROKINO: Una ontología para el Análisis Integral de proteína quinasas en Cáncer


Extracto

Antecedentes

Las proteínas quinasas son una familia grande y diversa de enzimas que son genómicamente alterado en muchos cánceres humanos. orientando esfuerzos de secuenciación del genoma del cáncer han dado a conocer los perfiles mutacionales de los genes de la proteína quinasa de muchos tipos diferentes de cáncer. Si bien los datos de mutaciones en las proteínas quinasas se cataloga actualmente en diversas bases de datos, la integración de los datos de mutación con otras formas de datos de las proteínas quinasas tales como la secuencia, estructura, función y vía es necesario identificar y caracterizar mutaciones clave que causan cáncer. análisis integrador de los datos de la proteína quinasa, sin embargo, es un reto debido a la naturaleza dispar de las fuentes de datos de la proteína quinasa y formatos de datos.

Resultados

A continuación, describimos PROKINO, una proteína quinasa específica ontología, que proporciona un vocabulario controlado de términos, su jerarquía y relaciones unificando secuencia, estructura, función, la mutación y la vía de la información sobre las proteínas quinasas. La representación conceptual de tales diversas formas de información en un lugar no sólo permite un rápido descubrimiento de información significativa en relación con una proteína quinasa específica, sino que también permite el análisis de integración a gran escala de los datos de la proteína quinasa en formas que no son posibles a través de otros recursos-quinasa específica. Hemos realizado varios análisis de integración de datos PROKINO y, como ejemplo, se encontró que un gran número de mutaciones somáticas (~288 mutaciones distintas) asociado con el
neoplasia hematopoyética
tipo de cáncer mapa para sólo 8 quinasas en el ser humano kinome. Esto está en contraste con
glioma
, donde las mutaciones se extienden más de 82 quinasas distintas. También proporcionamos ejemplos de cómo el análisis de datos basado en la ontología se puede utilizar para generar hipótesis comprobables relativa a las mutaciones cancerosas.

Conclusión

Se presenta un marco integrado para el análisis de integración a gran escala de datos de la proteína quinasa . Navegación y análisis de los datos de la ontología se pueden realizar utilizando el navegador ontología disponible en:. Http://vulcan.cs.uga.edu/prokino

Visto: Gosal G, Kochut KJ, Kannan N (2011) PROKINO : Una ontología para el Análisis Integral de las proteínas quinasas en cáncer. PLoS ONE 6 (12): e28782. doi: 10.1371 /journal.pone.0028782

Editor: H. Fazlul Sarkar, Wayne Facultad de Medicina de la Universidad del Estado, Estados Unidos de América

Recibido: 27 Julio, 2011; Aceptado: 15 Noviembre 2011; Publicado: December 14, 2011

Derechos de Autor © 2011 Gosal et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Financiación:. Los fondos para este trabajo fue proporcionado por la Sociedad Americana del cáncer (RSG-10-188-01-TBE) y la Coalición de cáncer de Georgia (CCG). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción

el cáncer es causado por una acumulación de mutaciones, a menudo en un subconjunto de genes que confieren supervivencia y el crecimiento ventaja. La familia de genes de la proteína quinasa, que controla las vías de señalización clave asociados con el crecimiento celular y la supervivencia, es una de las familias más representadas sobre-de oncogenes [1]. secuenciación de 518 exones de la proteína quinasa codificados en el genoma humano específica (llamados en conjunto la kinome), ha revelado cientos de mutaciones en el dominio de la proteína quinasa [2]. Aunque estas mutaciones se catalogan actualmente en diversas bases de datos [3], [4], [5], la identificación y la caracterización experimental de mutaciones clave que causan cáncer es esencial para el desarrollo de nuevas terapias para el cáncer.

Caracterización experimental de cáncer mutaciones, sin embargo, requiere que primero se formulan las hipótesis correctas basadas en el análisis de los datos existentes. En particular, el análisis de los datos de mutación a la luz de otras formas de datos disponibles sobre las proteínas quinasas tales como la secuencia, estructura, función y vía es necesaria para desarrollar y probar nuevas hipótesis sobre el impacto funcional de las mutaciones del cáncer [6], [7], [8], [9]. análisis integrador de los datos de la proteína quinasa, sin embargo, es un reto debido a la naturaleza dispar de fuentes y formatos de datos de la proteína quinasa. Por ejemplo, un investigador interesado en la localización estructural de una mutación del cáncer, o la distribución de mutaciones de la cinasa en diversos tipos de cáncer, tiene que pasar por el proceso propenso tiempo y error de la recogida y análisis de datos de diferentes fuentes, a menudo en datos diferente formatos. Aunque varios recursos-quinasa específica como KinBase [10], KING [11], PKR [12] y KinMutBase [4] se han desarrollado, estos recursos se centran en gran medida en uno, o unos pocos tipos, de los datos de la proteína quinasa (por ejemplo, la secuencia , estructura, o mutación), dejando a un lado el desafío de integración de datos.

las ontologías [13] se han convertido en una herramienta poderosa para el análisis integrador y cuantitativo de los datos biológicos [14], [15], [16] , [17]. Al capturar el conocimiento del dominio en forma de conceptos (clases) y las relaciones, las ontologías proporcionan una representación conceptual de datos de manera que las computadoras pueden leer y los humanos pueden entender. Por ejemplo, para una respuesta automática e informado a la consulta "mutaciones de la cinasa asociada con los tipos de cáncer", el ordenador tiene que entender los conceptos, "mutaciones de la cinasa" y "tipos de cáncer", y las relaciones entre los conceptos, a saber, "
asociado con "
. Es esta representación conceptual de los conocimientos que distingue a las ontologías de bases de datos relacionales, y permite la integración eficiente y extracción de diversos conjuntos de datos [18]. De hecho, varias ontologías se han desarrollado para capturar y extraer la riqueza de información sobre los genes (GO) [19], la secuencia [20], las vías (http://rgd.mcw.edu/tools/ontology/ont_search.cgi
)
, la modificación de proteínas [21] y otros [20], [22]. ontologías se centró en las familias de proteínas seleccionadas, tales como la familia de la proteína fosfatasa y la familia de transportadores también se han desarrollado [23]. Sin embargo, hasta ahora, no se ha informado de una ontología centrada capturar el estado del conocimiento sobre la familia de proteínas quinasa.

A continuación, se presenta la proteína quinasa Ontología (PROKINO). PROKINO proporciona un vocabulario controlado de términos y relaciones que conectan la secuencia, estructura, función, vía, y los datos de mutaciones en las proteínas quinasas. PROKINO se codifica utilizando el Lenguaje de Ontologías Web (OWL) (http://www.w3.org/TR/owl-ref/), un lenguaje de ontologías autoría recomendado por el consorcio World Wide Web (http: //www.w3. org /). La integración de los diversos conjuntos de datos en un formato legible por la máquina no sólo permite la navegación de las diversas formas de la proteína quinasa de datos en un solo lugar, sino que también permite consultas globales sobre los datos existentes en formas que no son posibles a través de recursos-quinasa específica existentes. Por ejemplo, las consultas agregadas como "cargos de quinasas asociadas con el tipo de cáncer" o "cargos de mutaciones cancerosas localizadas en varios sub-dominios quinasa" pueden ser fácilmente realizaron con PROKINO y el lenguaje de consulta SPARQL ontología (http: //www.w3 .org /TR /RDF-SPARQL-consulta /). Se describe la importancia de este tipo de consultas en el descubrimiento de conocimiento y la generación de hipótesis. Una consulta de agregado "cargos de mutaciones de la cinasa en diversos tipos de cáncer", por ejemplo, reveló que las mutaciones asociadas con
neoplasia hematopoyética
(288 mutaciones distintas) se dirigen principalmente sólo 8 quinasas en el kinome humano, en comparación con
glioma
, donde las mutaciones se extienden más de 82 quinasas distintas. Del mismo modo, las consultas como "mutaciones de orientación características funcionales quinasa" se pueden usar para generar nuevas hipótesis sobre el impacto estructural y funcional de mutaciones del cáncer. También se describe un navegador que permite una navegación rápida y un examen de los datos PROKINO, accesible en:. http://vulcan.cs.uga.edu/prokino

Métodos

PROKINO Organización del Conocimiento

Para conceptualizar la riqueza de conocimientos sobre varios conceptos secuencia de la proteína quinasa, estructura, función y enfermedades vías, hemos introducido clave (clases) y relaciones (propiedades del objeto) en PROKINO. Estas clases, organizadas de manera jerárquica, y las relaciones entre estas clases, representan y describen el conocimiento de la proteína quinasa de una manera análoga a un experto en el campo.

Por ejemplo, un experto quinasa que describe una mutación particular podría describir el mutación en el contexto del gen en el que se encontró la mutación, la quinasa codificada por el gen, el grupo o familia de la quinasa pertenece a, la quinasa subdominio la mutación se encuentra en, y las vías en las que participa el gen mutado . El esquema PROKINO ha sido diseñado para capturar e integrar el conocimiento de la proteína quinasa usando los términos y relaciones similares a los utilizados normalmente por un experto (Figura 1). Por ejemplo, la relación entre las clases de "mutación" "Gene" y es descrito por el "
hasMutation" Alquiler de la propiedad (Figura 1), mientras que el "
LOCATEDIN" Alquiler de la propiedad corresponde a la relación entre la "mutación" y "clases" subdominio. Del mismo modo, la secuencia de una quinasa que pertenece está representado por el "
hasSequence" Alquiler de la propiedad entre el "gen" y "clases" secuencia, y los subdominios asociados a una secuencia particular es conceptualizado por el "
hasSubDomain "
relación (Figura 1). La vía de la información y la reacción relacionada con quinasas es conceptualizado por el "
participatesIn"
relación entre "Gene" y "Camino", y "
hasReaction"
entre "Camino" y "Reacción". Para cruzar los datos PROKINO referencia a bases de datos y fuentes externas, la clase "DbXref" y "
hasDbXref"
relación han sido introducidos (véase la Figura 1).

La figura muestra conceptos (clases) organizada en una jerarquía de clases sub-clase (que se muestra como óvalos). Las relaciones (propiedades del objeto) entre clases se muestran como líneas de color rojo. Los detalles internos (propiedades) de datos de clases se muestran como líneas de color marrón. Las instancias de clases se muestran como rectángulos. El esquema de la ontología completa se puede acceder desde la página web PROKINO, y también proporciona como figura S1.

La razón de ser de la representación de datos de la proteína quinasa en la forma descrita anteriormente es que proporciona un contexto para interpretar los datos de la mutación . Esto se puede ilustrar mediante la mutación sin sentido
p.L858M Hoteles en
EGFR gratis (Figura 1).
p.L858M
es una mutación en
EGFR
quinasa que tiene el tipo "sentido erróneo". La mutación está implicada en el cáncer de
carcinoma
y situado en el dominio de sub VII, que corresponde a la N-terminal del segmento de activación (indicado como
Activación del segmento-NT
en la Figura 1) . La proteína codificada por el
EGFR
gen participa en una ruta de
La señalización por EGFR
, que incluye
EGFR dimerización
como uno de sus reacciones. Otras clases y subclases están igualmente conectados a la mutación
p.L858M
a través de las relaciones descritas en la Figura 1, proporcionando una visión integrada de todos los datos que serían necesarios para proporcionar un contexto estructural y funcional para el
p. L858M
mutación.

Además de las principales clases y propiedades de los objetos descritos anteriormente, varias subclases adicionales y propiedades de los objetos han sido definidos en PROKINO para capturar y representar el conocimiento disponible en la secuencia de la proteína quinasa totalmente, estructura, la función y la enfermedad. Por ejemplo, las subclases de la clase "mutación" - "ComplexMutation", "DeletionMutation", "InsertionMutation", "SubstitutionMutation" y "OtherMutation" - capturar información sobre los tipos de mutaciones identificadas en quinasas. Del mismo modo, los tres sub-categorías de dicha clase "FunctionalFeature" - "ModifiedResidue", "TopologicalDomain", "SignalPeptide" - capturar información sobre las características funcionales específicas. Esta organización jerárquica de las clases en PROKINO se muestra en la Figura 1.

Además de las propiedades de los objetos, propiedades clave de datos se han introducido para describir la organización interna de los conceptos y facilitar la extracción de datos y la extracción. Por ejemplo, la propiedad de los datos, "
hasOtherName"
, almacena los otros nombres por los que un gen puede ser conocido en la literatura (sinónimos). Por ejemplo,
EGFR
también se denomina como
EGFRvIII
,
ERBB1
,
ERBB
, o
Mena Hoteles en la literatura. Con la inclusión de la "
hasOtherName" propiedad data
, toda la información pertinente a
EGFR
puede obtenerse con independencia de lo que el nombre de genes se utiliza como una consulta.

Con un conjunto grande de las clases y propiedades relacionadas con quinasas en el esquema diseñado (véase la figura S1 para el esquema completo), PROKINO, representa una conceptualización explícita y organización del conocimiento acerca de las proteínas quinasas humanas. PROKINO actualmente contiene 351 clases, 25 propiedades de los objetos y las 27 propiedades de datos (cuadros S1, S2 y S3 para la lista completa) información sobre la captura de secuencia de la proteína quinasa, la estructura, la función, la vía y la enfermedad.

PROKINO Población

PROKINO se ha rellenado con datos de fuentes de datos que están bien cuidadas y mantenidas. Los datos adquiridos se ha almacenado como instancias en el esquema descrito anteriormente (Figura 1).

adquisición y almacenamiento de datos

Secuencia.

Los datos en relación con la secuencia de la proteína quinasa y clasificación tienen han obtenido de KinBase [10], el repositorio para la secuencia de quinasa y clasificación. Los 538 genes de quinasa actualmente identificadas en el genoma humano se han clasificado en los grupos principales y las familias en base a la similitud de secuencia en el dominio quinasa. Ya que la clasificación KinBase es ampliamente aceptado por la comunidad quinasa, hemos adoptado el mismo esquema de clasificación en PROKINO. El proceso automático de adquisición de datos y la población de KinBase incluye la extracción, la integración y la población de la información de 538 proteínas quinasas humanas y su clasificación en diferentes grupos, familias y subfamilias. La información relativa a los nombres de genes, sinónimos y posición cromosómica también se obtiene a partir KinBase. Los conocimientos adquiridos se rellena como las instancias de la clase "ProteinKinaseDomain", que se clasifica su vez en grupos, familias y subfamilias como subclases. Además, los datos de la secuencia de los genes de la proteína quinasa en formato FASTA ha sido extraído y poblada como instancias de la clase "Secuencia".

Función.

La información sobre los dominios funcionales y características funcionales asociadas con quinasa dominios se han obtenido a partir de UniProt [24], un recurso curada a información funcional de la proteína. La información sobre los dominios reguladores asociados con dominios de quinasa, estructuras cristalinas resueltas para cada quinasa, isoformas identificadas para quinasas, residuo modificado, péptido señal, dominio topológico, localización celular y la especificidad de tejido también se obtiene de UniProt. Los dominios funcionales relacionados con las proteínas quinasas son pobladas como instancias de la clase "FunctionalDomain", y referencias cruzadas a Pfam [25], una base de datos de la familia de proteínas, a través de la clase "DBxRef". Del mismo modo, la información sobre las estructuras cristalinas se rellena como instancias de la clase "Estructura" con referencias cruzadas a la Protein Data Bank (PDB) [26]. información característica funcional se almacena como instancias de la clase "FunctionalFeature", con sub-clases basadas en el tipo de entidad, tales como "ModifiedResidue", "TopologicalDomain" y "SignalPeptide".

Enfermedades.

a pesar de que las proteínas quinasas se han asociado con varias enfermedades humanas, la versión actual de PROKINO se centra principalmente en el cáncer. La información relativa a mutaciones cancerosas se obtiene de COSMIC [3], que es uno de los recursos más antiguos y curada para almacenar información sobre las mutaciones somáticas adquiridas asociadas con cánceres humanos. Además de las mutaciones, otra información, como los sitios primarios, la histología primaria, muestras, descripción y otras características relevantes también se han obtenido y almacenado como instancias de la clase "mutación". La clase "mutación" está especializada en sub-clases basadas en el tipo de mutación, es decir, compleja, supresión, inserción, sustitución y otros. Las referencias a PubMed, MEDLINE y bases de datos COSMIC se proporcionan en la clase "DbXref".

Camino.

Los datos se obtiene a partir Camino Reactome, un recurso vía curada y revisada manualmente [27] . Vías y la reacción se almacenan como instancias de la clase "BiochemicalEvent". En aras de la claridad, hemos adoptado los mismos términos /conceptos utilizados en Reactome para representar la información vía. "BiochemicalEvent" es un concepto que se utiliza tanto en Reactome y PROKINO para representar los procesos biológicos que convierten las entidades de entrada a las entidades de salida. "Camino" y "Reacción" son subclases bajo "BiochemicalEvent" (Figura 1). Por ejemplo,
La señalización por EGFR
es una instancia de la clase "Camino", que se relaciona con la clase "reacción" por el "
hasReaction" Alquiler de la propiedad (Figura 1). La clase "Reacción" tiene varias reacciones para una determinada vía.
EGFR dimerización
es una de las reacciones en el
La señalización por EGFR
vía (Figura 1). Esta reacción "
consume"
un complejo llamado
EGF: EGFR [membrana plasmática]
, y "
produce"
un complejo,
EGF: dímero EGFR [plasmática membrana]
. Ambos complejos se almacenan como miembros de la clase "complejo".

quinasa subdominios.

Para proporcionar un contexto estructural para mutaciones del cáncer, hemos incorporado la información subdominio en PROKINO. Sub-dominios corresponden a los elementos básicos motivos conservados /estructurales que definen la quinasa dominio catalítico [28]. La notación subdominio es ampliamente utilizado para describir la organización estructural de motivos y segmentos reguladores que componen el dominio catalítico. Actualmente, la información subdominio de quinasas humanos no está disponible de cualquier recurso público. El recurso de la proteína quinasa (PKR) proporciona información de sub-dominio en algunas quinasas (18), pero no en todas las quinasas. Para capturar la información de sub-dominio en PROKINO, hemos utilizado un motivo modelo, que captura los motivos principales que corresponden a cada una de las XII subdominios en el dominio quinasa [6], [29]. El motivo modelo se ejecuta en todo el UniProt secuencias y cósmica para identificar la ubicación de inicio y final del sub-dominios en secuencias. Las ubicaciones de inicio y fin de subdominios han sido almacenados en PROKINO como instancias de la clase "subdominio". Debido a los límites de sub-dominios son difíciles de delimitar para proteínas quinasas divergentes, tales como las quinasas atípicos, la clase sub-dominio no se rellena para todas las proteínas quinasas.

Automatización de adquisición de datos y actualizaciones

Hemos creado un sistema de software especializado para rellenar automáticamente PROKINO de las fuentes anteriormente descritas. El software está escrito utilizando el lenguaje de programación Java. El software realiza todas las funciones necesarias para la creación de la ontología y la población automática, incluyendo la adquisición de datos, el análisis y el procesamiento, así como la creación de instancias y las conexiones entre ellos utilizando las relaciones definidas en el esquema Prokino. La ontología poblado se codifica y salida en OWL, un lenguaje de creación de ontologías y el intercambio recomendado por el World Wide Web Consortium. Nuestro software también utiliza Jena, un ampliamente utilizado de programación de aplicaciones basado en Java (API) (http://jena.sourceforge.net/) para analizar, crear y realizar consultas de Descripción de Recursos (RDF) (http: //www.w3 .org /RDF /
) Opiniones y ontologías OWL.

Las ontologías, y por lo tanto todas las aplicaciones y los recursos que utilizan los software, están obligados a evolucionar con el tiempo. PROKINO integra el conocimiento de fuentes dispares sin modificar cualquiera de los datos originales. Por lo tanto, cualquier cambio en las fuentes de datos utilizadas en la creación PROKINO requieren los cambios correspondientes en la ontología para asegurar que corresponde al día y consistente. Las fuentes de conocimiento utilizadas en PROKINO están sujetos a modificaciones frecuentes y se actualizan de forma regular. Por ejemplo, UniProt se actualiza cada tres semanas y cósmico aproximadamente cada dos meses. Para el conocimiento integrado en la ontología sea actual y consistente con los datos existentes disponibles en las fuentes de padres, PROKINO será actualizado por nuestro proceso de llenado automático de forma regular, también. se incluirá la información sobre la versión de todas las fuentes de datos utilizadas para poblar PROKINO, también. Para asegurar que las necesidades de la comunidad de usuarios están satisfechos, las modificaciones y extensiones de esquema necesarios serán introducidos en las nuevas versiones PROKINO en los momentos apropiados. Todas las versiones de PROKINO se archivará junto con la información acerca de las diferencias entre las versiones. El ciclo de vida de la ontología se realizará un seguimiento por un sistema de control de versiones [30], y cualquier versión previa de PROKINO será fácilmente accesible.

Resultados y Discusión

PROKINO Evaluación

Debido a que la proceso de desarrollo de la ontología es costoso y consume mucho tiempo, una cuidadosa evaluación de los contenidos ontología es necesaria para determinar su idoneidad para servir a la finalidad prevista de su desarrollo. PROKINO ha sido evaluada por su precisión y utilidad. Hemos utilizado dos enfoques para evaluar la exactitud de los contenidos PROKINO: (i) un enfoque manual en el que un conjunto de instancias y las relaciones entre ellos son seleccionados al azar y la cotejará con el contenido de fuentes originales, y (ii) una consulta basada en enfoque en el que los datos de la ontología se solicita información que puede ser fácilmente Cruz validado con datos de fuentes originales.

enfoque Manual.

en el enfoque manual, las unidades de prueba fueron escogidos para evaluar un amplio la cobertura del contenido de la ontología. La exactitud de los datos se comprobó mediante la validación de cruz con las fuentes de datos originales. La integración de los datos en Prokino también se verificó mediante la evaluación de las propiedades de objeto y de datos introducidos para la exactitud. Por ejemplo,
relación EGFR
de quinasa con las vías representado como una propiedad "
partcipatesIn"
se verificó la exactitud de cruz validar el contenido en PROKINO con los datos originales disponibles en Reactome. Nuestra verificación no se ha detectado ningún error en PROKINO. Los detalles de la evaluación se muestran en la Tabla S4.

Enfoque basado en consultas.

Además del enfoque manual, se utilizó un enfoque basado en consultas para verificar el contenido de la ontología. El lenguaje de consulta SPARQL se utilizó para realizar las consultas. Por ejemplo, la consulta "recuento de las estructuras cristalinas de las proteínas quinasas todos" dio lugar a 200 golpes para
Cdk2 gratis (Figura 2). Este resultado fue cruzada validado por el control de la
Cdk2
entrada "AP" en UniProt. Del mismo modo, la consulta "recuento de las isoformas de todas las proteínas quinasas" dio lugar a 20 golpes para
FGFR2
y 19 para
FGFR1 gratis (Figura 3). Esta cruzada fue validado mediante la comprobación de
FGFR1 Opiniones y
FGFR2
entradas de isoformas en UniProt. Del mismo modo, "cargos de quinasas asociadas a las vías" resultaron en 11 vías de
SRC
, y 10 para
PKACA gratis (
PRKACA Hoteles en Reactome). Este resultado fue también una validación cruzada con la fuente original, es decir, Reactome (Figura 4). Del mismo modo, "cargos de quinasas implicadas en diversos tipos de cáncer" dieron como resultado la mayor cantidad de visitas a
BRAF
(30 tipos de cáncer) (Figura 5), ​​que fue una validación cruzada de la base de datos cósmicos.

se muestran los diez principales quinasas en el orden descendente de los recuentos. El eje Y muestra el número de estructuras resueltas para cada uno de diez quinasas sobre-representados. Estructuras resueltas con inhibidores se incluyen en el recuento total. El eje X indica los nombres quinasa. Aurora quinasa está etiquetado como AURA. La consulta SPARQL utilizado para generar esta figura se puede ver y excuted desde el navegador PROKINO seleccionando la opción "Consulta 1" en la sección "Consultas de ejemplo" pestaña en la página principal.

Los 10 quinasas se muestran en orden de sus valores descendente. El eje Y muestra el número de isoformas validados para cada uno de los kinass. La consulta SPARQL utilizado para generar esta figura se puede ver y excuted desde el navegador PROKINO seleccionando la opción "Consulta 2" en la sección "Consultas de ejemplo" pestaña en la página principal.

Top 10 con los más quinasas número de vías se muestran en orden descendente. La consulta SPARQL para generar esta figura se puede ver directamente y excuted desde el navegador PROKINO seleccionando la opción "Consulta 3" en la sección "Consultas de ejemplo" pestaña en la página principal.

Los diez quinasas son en orden descendente orden de sus valores. La consulta SPARQL para generar esta figura se puede ver directamente y excuted desde el navegador PROKINO seleccionando la opción "Consulta 4" en la pestaña "Consultas de ejemplo" en la página principal.

PROKINO Aplicación

El compendio de conocimiento representado en PROKINO se puede utilizar para una variedad de aplicaciones tales como la minería de datos, minería de texto y anotación del genoma. En particular, la representación de los diversos datos de la proteína quinasa en forma legible por máquina permite realizar consultas sobre los datos agregados complejos ontología, en formas que no son posibles a través de los recursos existentes-quinasa específica. A continuación, se describen algunas de estas consultas para ilustrar cómo los datos Prokino se pueden utilizar para el descubrimiento de conocimiento y la generación de hipótesis. Las consultas, que han sido formuladas en SPARQL, también proporcionan una evaluación inicial de la utilidad de PROKINO.

Consulta 1.

Las consultas SPARQL "cargos de mutaciones sin sentido en sustitución de los tipos de cáncer", y " cargos de proteínas quinasas que tienen mutaciones de sentido erróneo "se realizó en Prokino para analizar la distribución de mutaciones de la cinasa en diversos tipos de cáncer. Análisis de los resultados generados por esta consulta reveló que la distribución de las mutaciones de la quinasa es notablemente diferente para diferentes tipos de cáncer (Figura 6). En particular,
carcinoma gratis (1168 mutaciones),
glioma gratis (180),
melanoma maligno gratis (201),
neoplasia hematopoyética gratis (288), y
neoplasia linfoide gratis (164) son altamente sobre-representado en mutaciones de la cinasa en comparación con otros tipos de cáncer (Figura 6). Por otra parte, los 288 y 164 mutaciones asociadas con
hematopoyética neoplasia
y
neoplasia linfoide y mapa de sólo 8 y 12 quinasas, respectivamente. Esto está en contraste con
glioma
, donde las mutaciones se extienden más de 82 quinasas distintas. Aunque este hallazgo podría ser el resultado de la polarización en la secuenciación de kinomes cáncer de tipos de cáncer seleccionados, también es posible que sólo unas pocas vías de señalización (asociado con los 8 quinasas) se alteran en
hematopoyética neoplasia
, en comparación con
glioma
. Estas observaciones tienen implicaciones en la orientación de la kinome mutado para las terapias, y en la generación de nuevas hipótesis para estudios experimentales.

Como se menciona en el texto,
haematopoietic_neoplasm
dispone de 288 mutaciones en 8 quinasas, mientras que
glioma
dispone de 180 mutaciones distribuidas en 82 quinasas. La consulta SPARQL para generar esta figura se puede ver directamente y excuted desde el navegador PROKINO seleccionando la opción "Consulta 5a" y "5b consulta" en la sección "Consultas de ejemplo" pestaña en la página principal.

Consulta 2.

en base a la observación de consulta 1, consultas SPARQL adicionales se pueden realizar para obtener más información sobre las 8 quinasas asociadas a
hematopoyética neoplasia
. Por ejemplo, la consulta solicitando para los "cargos de proteínas quinasas que tienen mutaciones sin sentido en
neoplasia hematopoyética
" indica que
ABL1
,
KIT
,
FLT3
y
JAK2
están mutados con más frecuencia en comparación con otras quinasas (Figura 7). Esta observación es consistente con los hallazgos reportados en la literatura [31], [32], más-cruz validar el contenido de la ontología.

se muestran Top 10 hits en orden descendente de los recuentos. La consulta SPARQL para generar esta figura se puede ver y excuted desde el navegador PROKINO seleccionando la opción "Consulta de 6" en la pestaña "Consultas de ejemplo" en la página principal.

Consulta 3.

consulta 2 (arriba) puede ser refinado para obtener hipótesis comprobables respecto a mutaciones del cáncer. Por ejemplo, las consultas solicitando características funcionales y localización sub-dominio para
ABL1
mutaciones asociadas en
neoplasia hematopoyética
reveló que
Y253F
está situado en la funcionalmente importantes
La glicina rica bucle gratis (Sub-dominio I; el cuadro S5), y se ha modificado la propiedad residuos "
fosfotirosina
". Con esta información, se puede formular una hipótesis comprobable que "
Y253F
mutación anormal contribuye a
ABL1
funciones alterando el estado de fosforilación de la glicina ricos en bucle".

Además de las consultas descritas más arriba, hemos formulado varias consultas adicionales sobre PROKINO. Los resultados obtenidos de estas consultas se proporcionan como cifras suplementarios (ver Figuras S2, S3, S4, S5, S6, S7, S8, S9). La consulta SPARQL mismos están dentro de la figura S10.

Future Directions

PROKINO es una ontología de términos y relaciones captura el estado del conocimiento sobre la familia de la proteína quinasa. Representación del conocimiento proteína quinasa en forma de ontología permite la minería y sistemas a nivel de análisis eficaz de los datos de la proteína quinasa, como se ha demostrado a través de varias consultas SPARQL. Para habilitar la navegación y análisis integrador de los datos de la ontología, un navegador de la ontología se ha desarrollado. El navegador se puede acceder desde http://vulcan.cs.uga.edu/prokino.

Mientras que la versión actual de PROKINO se centra en gran medida en los genes de la proteína quinasa humanos, información sobre otros organismos modelo puede ser incorporado en PROKINO a través de la adición de nuevas clases y propiedades de los datos en el esquema de la ontología. Del mismo modo, la cantidad de información generada en los sustratos de la proteína quinasa a través de los datos de fosfo-proteómica de alto rendimiento se puede incorporar para integrar los datos de cáncer con los datos de la proteómica. Además, anticipamos Prokino para ser útil en el suministro de anotación consistente de mutaciones identificadas en los estudios de secuenciación del genoma del cáncer.

Uso de consultas específicas hemos demostrado cómo los datos en la ontología se pueden usar para generar nuevas hipótesis con respecto a la estructural y funcional impacto de las mutaciones. En particular, la observación de que casi 288 mutaciones se correlacionan con sólo ocho quinasas en
neoplasia hematopoyética
es nueva y ofrece nuevas hipótesis para estudios de seguimiento. Del mismo modo, la predicción de que
Y253F
mutación altera el estado de fosforilación de los ricos bucle de glicina en ABL tirosina quinasa puede ser probado experimentalmente.

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]