Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: bayesiano Pathway Analysis de cáncer de microarrays Data

PLOS ONE: bayesiano Pathway Analysis de cáncer de microarrays Data


Extracto

High Datos biológicos Rendimiento (HTBD) requiere métodos de análisis detallados y desde una perspectiva de ciencias de la vida, estos resultados de análisis más sentido cuando se interpreta en el contexto de vías biológicas. Las redes bayesianas (BN) capturan las interacciones tanto lineales y no lineales y manejar eventos estocásticos en un marco probabilístico que representa el ruido haciéndolos candidatos viables para el análisis HTBD. Recientemente, hemos propuesto un enfoque, llamado bayesiano Pathway Analysis (BPA), para analizar el uso de HTBD BNs en el que las vías biológicas conocidas se modela como BN y las vías que mejor explican la HTBD dada se encuentran. BPA utiliza la información de cambio veces para obtener una matriz de entrada para anotar cada vía modelado como un BN. La puntuación se consigue utilizando el método bayesiano-Equivalente Dirichlet y el significado se evalúa mediante la asignación al azar a través de programa previo de las columnas de la matriz de entrada. En este estudio, mejoramos en el sistema de BPA mediante la optimización de los pasos involucrados en "Datos de preprocesamiento y Discretización", "Evaluación de Importancia" "Scoring", y "Software y aplicación Web". Hemos probado el sistema mejorado de conjuntos de datos sintéticos y ha logrado más de 98% de precisión en la identificación de las vías activas. El enfoque general se aplicó en conjuntos de datos de microarrays reales del cáncer con el fin de investigar las vías que son comúnmente activo en diferentes tipos de cáncer. Se han comparado nuestros resultados sobre los datos reales fija con un enfoque pertinente exigida la vía de señalización de Análisis de Impacto (SPIA)

Visto:. Korucuoglu M, S Isci, Ozgur A, Otu HH (2014) bayesiano Pathway Analysis de cáncer Los datos de microarrays. PLoS ONE 9 (7): e102803. doi: 10.1371 /journal.pone.0102803

Editor: Raya Khanin, Memorial Sloan Kettering Cancer Center, Estados Unidos de América

Recibido: 14 Febrero, 2014; Aceptado: 24 Junio ​​2014; Publicado: 18 Julio 2014

Derechos de Autor © 2014 Korucuoglu et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Financiación:. Este trabajo fue apoyado por el Consejo de Investigación Tecnológica (TÜBITAK) el número de concesión 111E042 (HHO) Científicos y Técnicos. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción

red bayesiana (BN) modelos han ganado popularidad para el aprendizaje de las vías biológicas a partir de los datos de microarrays de expresión génica [1], [2]. BNs representan la estructura de dependencias para un conjunto de variables aleatorias utilizando gráficos dirigidos acíclicos y se han utilizado cada vez con mayor popularidad en las matemáticas y las ciencias computacionales en los últimos 20 años. Sin embargo, las aplicaciones actuales de BN se limitan a estructurar el aprendizaje a partir de datos observados y, por tanto, trabajar sólo en unos pocos cientos de variables como la estructura de los algoritmos de aprendizaje son complejas computacionalmente. Esto, a su vez, da lugar a un uso ineficiente de HTBD, que contienen un número mayor de variables
.
Desde una perspectiva de ciencias de la vida, los resultados de análisis de datos tienen más sentido cuando se interpreta en el contexto de las redes biológicas y caminos. métodos basados ​​en análisis de genes individuales previamente establecido se han extendido a escala y de red vía su mayoría a lo largo de las líneas de análisis conjunto de genes (GSA) [3], [4] o de ontología de genes (GO) los enfoques basados ​​en [5] - [7], el cual se centra en la determinación de los conjuntos de genes predefinidos o clases que son regulados de manera significativa. Sin embargo, estos enfoques consideran los genes de entrada y los conjuntos de genes diana y clases simplemente como
listas Opiniones y no incorporan en sus modelos de la topología a través de la cual los genes en estas clases interactúan entre sí. Otros enfoques comerciales populares, como el ingenio Pathway Knowledge Base (Ingenuity Inc., California) o PathwayAssist (Ariadne Genomics, California), también conocidos como identificar las vías activa basada en HTBD simplemente teniendo en cuenta el número de genes compartidos por la lista de entrada y el ruta de destino. Todos los métodos aferomentioned utilizan alguna variación de la idea principal de que una clase funcional es relevante para el HTBD observado si la clase posee una cantidad estadísticamente significativa de la lista de genes de entrada.

Hemos propuesto recientemente un enfoque, llamado Pathway Bayesiano Análisis (BPA), para el análisis de HTBD usando BNs [8]. En el marco de BPA vías conocidas se modelan como BN y el HTBD procesada se utiliza para anotar cada red para evaluar su aptitud para los datos observados; la consecución de un flujo de trabajo que incorpora en su modelo de la topología de las vías. Desde entonces se han enfoques que modelan la topología de la vía en cierto grado en el análisis de HTBD [9] - [14]. En términos de aplicabilidad general y la relación directa con la salida de BPA, se ha utilizado la vía de señalización de Análisis de Impacto (SPIA) [15] en nuestras comparaciones. SPIA combina la medida de activación de la vía basada GSA con una novela puntaje vía de perturbación, que refleja el grado en que la desregulación de los genes en la vía está en concordancia con la jerarquía de señalización.

En el enfoque de BPA, son vías recuperado de la base de datos KEGG [16]. Cada entrada (nodo) en la vía se asigna a un único identificador interno y un módulo de conversión lleva a cabo la asignación necesaria entre los ID de expresión génica de entrada y los ID de los nodos vía. las entradas se repiten en la vía se fusionan y se representan como un nodo único, conservando las relaciones de borde. La teoría BN utiliza Dirigido acíclicos gráficos (DAG), pero no puede existir ciclos en las vías biológicas. Esto se supera mediante el método Spirtes 'donde las representaciones gráfica de los modelos de ecuaciones estructurales [17] se convierten en gráficos acíclicos colapsadas tal que d-separaciones en el gráfico colapsado conllevan las mismas relaciones independentistas definidos por el modelo. Con este fin, una vía biológica se modela como una BN, que ahora puede ser probado contra los datos de entrada para evaluar su condición física.

BPA asume en dos grupos (por ejemplo, el caso frente a control) los datos de expresión génica normalizados como entrada. La matriz de observación para anotar cada DAG se obtiene mediante la generación de los valores de cambio veces (FC) para cada par de muestras en los dos grupos. En esta matriz, las columnas representan los genes en el DAG y las filas representan las comparaciones por pares. Si hay
N
1 | y
N
2
muestras en los dos grupos, la matriz de observación consiste en
N
1 × N
2
filas. Cada columna representa el FC para el gen correspondiente en cada uno de los
N
1 x N
2
comparaciones por pares. Estos valores son continuas FC discretizaron utilizando un punto de corte de 2. Si el valor FC es mayor que 2 o inferior a 0,5 (es decir, el gen está desregulado), que se convierte en 1, y de lo contrario se convierte en 2.

el grado en que una vía explica dado HTBD se mide utilizando el equivalente Dirichlet bayesiano (BDE) partido en el método de tamaño de muestra equivalente [18]. En esta fase, el BN se actualiza con la matriz de observación durante el cálculo de la puntuación. La significación estadística de esta medición se evalúa mediante pruebas contra conjuntos de datos generados mediante la aplicación de la asignación al azar a través de programa previo en el que el resultado observado es posicionada contra las puntuaciones obtenidas a partir de conjuntos de datos aleatorios. Bootstrapping se aplica a las columnas de la matriz de observación proporcionar una asignación al azar de las filas, que se utilizan en la puntuación. Los resultados se evalúan en términos de p-valores nominales y valores tasa de falso descubrimiento (FDR) de corrección para las pruebas múltiples hipótesis
.
En este trabajo, tenemos dos objetivos fundamentales. Nuestro primer objetivo es mejorar el sistema de BPA mediante el uso de las siguientes estrategias. Con el fin de optimizar la fase de discretización, tratamos de igual amplitud, igual frecuencia, K-means, columna K-means, bi-direccionales K-means, y Umbral automático Discretización [19], [20] además de la fuerza de corte -off niveles ofrecidos por BPA. En la fase de puntuación, se aplicó el criterio de información de Akaike (AIC) [21], criterio de información bayesiano (BIC) [22], y factorized Normalizada máxima verosimilitud (fNML) [23] y se compararon los resultados con el sistema de puntuación BDe. La fase de evaluación de la significación se cambió para que los conjuntos de datos aleatorios se obtuvieron en el nivel de la señal de genes. En este enfoque, las muestras en cada una de las dos clases se permutan al azar para proporcionar nuevos conjuntos de datos [24]. Cada nuevo conjunto de datos (con nuevas asignaciones de clases para cada muestra) se ejecuta a través del flujo de trabajo completo y se calcula un valor de puntuación. De esta manera, superar los casos en que el enfoque de BPA actual falla para proporcionar conjuntos de datos aleatorios. En la prueba de estos nuevos enfoques, se generaron los datos de microarrays sintético que simula la expresión génica de
N
vías donde un subconjunto,
N
a
, de estas vías está activo. Un criterio de rendimiento es evaluado por la exactitud de la predicción de las vías activa y pasiva. Además de mejorar el uso de memoria y CPU del algoritmo, también hemos añadido nuevos organismos para los cuales el sistema de BPA se pueden utilizar y proporcionamos un portal web en http://bioinfo.unl.edu/bpa/que alberga el stand- versión independiente del software optimizado junto con un tutorial y ejemplos de conjuntos de datos.

Nuestro segundo objetivo de este estudio es aplicar el enfoque de análisis de la vía mejorada en conjuntos de datos reales del cáncer. Con este fin, hemos descargado conjuntos de datos reales de microarrays de base de datos GEO del NCBI con respecto a los cánceres de vejiga, cerebro, mama, colon, hígado, pulmón, ovario y tiroides. Se investigaron las vías que son comúnmente identificados como activos en estos diversos conjuntos de datos de microarrays cáncer.

Métodos

clase de etiqueta Permutación

En el sistema de BPA original, la matriz de datos de observación para la BN de puntuación se compone de los niveles discretizados FC 2-nivel de los genes en la red para ser calificados. El grado en que una vía explica dado HTBD se mide utilizando el "equivalente Dirichlet bayesiano" (BDE) puntuación y la significación estadística de esta medición se evalúa mediante la asignación al azar a través de programa previo en el que el resultado observado es posicionada contra las puntuaciones obtenidas a partir de conjuntos de datos aleatorios. conjuntos de datos aleatorios que se obtienen mediante el cambio de la estructura de las columnas de la matriz de observación a través de muestreo con reemplazo de cada columna por separado.

En la Tabla 1, se muestran dos instancias de ejemplo de tales matrices de entrada. Aquí, las columnas indican los genes y las filas indican la comparación por pares de las muestras en los dos grupos de la muestra (por ejemplo, cáncer vs. normal). El método de aleatorización aferomentioned (empleado originalmente por BPA) funciona correctamente cuando una matriz de observación como en la Tabla 1 (a) es el caso en el que una columna dada no consiste solamente de un tipo de observación. Sin embargo, si la matriz de observación resulta ser como en la Tabla 1 (b), donde las columnas representan sólo un tipo de observación, la aleatorización de las columnas de la matriz de observación no dará lugar a ningún cambio. Por lo tanto, las puntuaciones obtenidas por los conjuntos de datos aleatorios serán los mismos, por lo que la evaluación de importancia casi imposible de alcanzar. Es posible obtener matrices como en el último caso, es decir, una matriz en una columna dada consiste únicamente en el mismo nivel, cuando un gen muestra el mismo grado y la dirección de cambio entre las dos clases. En otras palabras, si un gen en una determinada vía es consistentemente 2 o más FC aumentada en una clase frente a la otra, nos terminamos teniendo la columna para este gen a consistir sólo en el mismo nivel de discretización.

con el fin de superar este problema, se aplicó el método de permutación se ha descrito anteriormente para seleccionar al azar conjuntos de datos de expresión de genes [24]. Esta aleatorización se realiza mediante la sustitución de las muestras de cada clase al azar. Supongamos que tenemos un conjunto de datos compuesta por 10 normal y 10 muestras de cáncer. En un caso de la permutación, por ejemplo, 3
er, 5
º y 6
º muestras normales son sustituidos con 1
st, 7
º y 9
th muestras de cáncer. La matriz de observación es generada por la comparación por pares de los valores de la señal sobre el nuevo orden de dos clases seguido de discretización. Este procedimiento se repite
B Opiniones tiempos y puntuaciones de la vía se calculan utilizando las matrices discretized. Como resultado, la significación estadística de la puntuación observada puede evaluarse con precisión a través de la clasificación contra puntuaciones obtenidas a partir de diferentes matrices de observación generados por estos
B
azar conjuntos de datos. Si la puntuación de una ruta dada es Sn, su valor p se evaluó a través de donde
I (a)
es 1 si
a
es "verdadero" y 0 en caso contrario. El significado de cada vía se informa como esta p-valor nominal y la tasa de falso descubrimiento correspondiente (FDR) calcula utilizando el procedimiento Benjamini-Hochberg [25]

Discretización

BPA utilizó un método de discretización tal que el valor FC continua se representa como 1 si es mayor de 2 o menos de ½ (es decir, un gen se dysregulated), y como 2 de otra manera. Otro uso de la discretización 2-nivel es la elección de un valor de corte de 3, es decir, el FC se representa como 1 si su valor es mayor que 3 o menos de un tercio y como 2 de otra manera. En discretización 3 nivel con el valor de corte 2, el pliegue del cambio se representa como 1 si su valor es mayor que 2, tal como 2 si es menor que ½, y como 3 de otra manera. En discretización de 3 niveles con el valor de corte de 3, el cambio veces se representa como 1 si su valor es mayor que 3, como si es menos de 2 1/3 y 3 como lo contrario.

este estudio, se proponen nuevos métodos de discretización [19], [20] para ser utilizados en el procesamiento de los valores de cambio veces observados para el uso de métricas de puntuación bayesiana. Un
N
-by-
M
matriz
E
se utiliza para denotar la matriz observada FC, donde
N
es el número de comparaciones por pares y
M
es el número de genes.
E (n, m)
denota el valor de comparación FC
n
para el gen
m
.
E (n,
:) denota FC de datos de comparación
n
para todos los genes, y
E (:, m)
denota los datos de FC gen
m Opiniones de todas las comparaciones.

Igualdad Ancho Discretización (EWD).

EWD divide la fila de la matriz de observación
n
en
k intervalos
de igual anchura entre
e (n,:)
min
y
e (n,:)
max
. Así, los intervalos de comparación
n
tienen anchura
w
=
(E (n,:)
max CD -
E (n,:)
min)
/
k
, con puntos de frontera en
E (n,:)
min + w, E (n,:)
min + 2W, ... , E (n,:)
+ min (k - 1) w
donde
k
es un entero positivo

Igualdad Discretización de frecuencia (EFD)
..
EFD divide la ordenada
E (n, :)
en
k
intervalos de manera que cada intervalo contiene el mismo número de valores de FC.

K-significa Discretización .

K-significa divide
E (n, :)
en
k
intervalos de k-means clustering de modo que los valores de FC similares de comparación
n
se colocan en el mismo intervalo de

columna K-medias Discretización (Co-k-means) guía
Co-k-medias divisiones
E.. (:, m)
en
k
intervalos de k-means clustering de modo que los valores de FC similares para el gen
m
se colocan en el mismo intervalo.

bidireccional K-significa Discretización (Bi k-means).

En el bi-k-means método ambas k-medias y co-k-medias se aplican, respectivamente, con el parámetro
k + 1 |, dando a cada valor FC dos discretized valores. Si el producto de los dos valores es igual o mayor que
x
2
, y menos de
(x + 1)
2
, el valor discretizado final de este valor de la expresión es
x
, donde
x
es un número entero positivo que van desde
1 | a
k
.

Discretización Umbral automático .

Hay dos opciones para la integración en el umbral automático, que determina de forma iterativa los valores de corte, reduciendo al mínimo la varianza. Los datos enteros FC
E
se divide en dos intervalos de acuerdo a un determinado valor de corte en la opción global. La opción local de este método se divide
E (:, m)
en dos intervalos de acuerdo con los valores de corte definidos para cada columna (gen) por separado

Scoring

. Además del sistema de puntuación BDe, proponemos las siguientes métricas de puntuación a utilizar en el sistema de BPA.

criterio de Información de Akaike (AIC).

AIC es uno de los criterios de información más utilizados , que selecciona el modelo que minimiza la probabilidad negativo penalizado por el número de parámetros [21]: donde es el de máxima verosimilitud del modelo de
M
,
D
se observa de datos, y p es el número de parámetros en el modelo.

criterio de Información Bayesiano (BIC).

BIC es otro criterio de información ampliamente usados ​​y a diferencia de AIC, BIC es consistente y mejora en el rendimiento con muestras de gran tamaño [ ,,,0],22]. BIC se define como:..

BIC difiere de la AIC sólo en el segundo período, que depende del tamaño de la muestra
N

factorized Normalizada máxima verosimilitud (fNML)

Silander et al. [23] desarrolló la puntuación fNML basado en la probabilidad máxima normalizada (NML) de distribución [26], [27]. Dado un conjunto de datos
D
, el criterio de selección de modelo NML elige el modelo de
M Opiniones de los cuales es más grande. donde la normalización se realiza sobre todos los conjuntos de datos
D '
del mismo tamaño que
D
. Después de tomar el logaritmo, la puntuación se encuentra en una forma de penalizados diario de probabilidad dada
G
= {
G
1 |, ...,
G
m
} como el padre situado en el DAG (es decir,
G
i
es el conjunto principal del nodo
X
i Hoteles en el DAG): donde la suma va normalizando sobre toda la posible
D
i
vectores columna. A pesar de que el término de penalización tiene un número exponencial de términos, puede ser evaluado de manera eficiente el uso de un algoritmo de tiempo lineal introducido en [28]. Calculando el término de penalización para cada variable en el conjunto de datos, el NML se convierte en factorized.

conjuntos de datos

Hemos generado redes de regulación transcripcional sintéticas y produjimos datos de expresión génica con el ruido simulados utilizando SynTReN v1.12 [29]. Hemos creado 55 redes sintéticas que imitan a las vías biológicas con tamaños que van desde 7 a 200. Se seleccionaron al azar 20 de los 55 conductos de estar activo y SynTReN generado los correspondientes conjuntos de datos de expresión de muestras de ensayo 20 y 20 de control con 2249 genes en forma de ruido 4%
nivel.
Para probar el rendimiento optimizado y mejorado BPA en conjuntos de datos reales, se utilizó 1 de vejiga, cerebro 2, 2 de mama, de colon 1, 2 hígado, pulmón 1, 1 de ovario y 2 conjuntos de datos de cáncer de tiroides . En la elección de los conjuntos de datos, se fijó la plataforma para ser Affymetrix para evitar el sesgo y los conjuntos de datos utilizados en muestras tumorales y normales están claramente definidos y las muestras de cáncer son lo más homogéneo posible. La mayor parte de los datos del chip procedían de la Affymetrix HG-U133 Plus 2.0 GeneChip, que se compone de más de 54.000 conjuntos de sondas que representan a más de 47.000 transcripciones que proporcionan una imagen completa del transcriptoma humano. Otros tipos de chips incluyen HG-U133A y HG-U133A_2, que representan aproximadamente 22.000 probesets. Antes de la aplicación del enfoque propuesto, los datos de microarrays en bruto se ha normalizado el uso de Affymetrix Microarray Analysis Suite (MAS) 5.0 algoritmo [30].

Para cada conjunto de datos, se aplicó el método de análisis propuesto con 1000 permutaciones y evaluado vías significativas con un p-valor nominal de 0,05 y un FDR de 0,25.

resultados

En el cuadro S1, enumeramos los niveles de precisión (si una red se denomina correctamente activo /inactivo) de los diferentes esquemas de discretización de 10 conjuntos de datos simulados (D
1-D
10). De acuerdo con los resultados de la simulación, el mejor método es la discretización de k-medias 2-nivel de discretización aplicado a las filas de la matriz de observación. Este enfoque consigue una precisión de 0,962 ± 0,031. Por lo tanto, se utiliza 2-nivel de método de k-medias como el método de discretización para los experimentos para determinar el mejor criterio de puntuación
.
Los conjuntos de datos, que se utilizan para la medición del desempeño de los métodos de discretización, también se utilizan para la evaluación de los métodos de calificación. La precisión de predicción obtenidos se enumeran en la Tabla 2. De acuerdo a los resultados de la simulación, el mejor método de puntuación es el método fNML, que estima si una ruta está activa o no con una precisión de 0,984 ± 0,016. Por lo tanto, el nivel 2-k-medias métodos de discretización y scoring fNML se utilizan para el análisis de datos reales de microarrays ya que esta combinación logra la más alta precisión.

En la tabla 3 se indican los microarrays 12 verdadero cáncer conjuntos de datos (números de GEO, tipos de cáncer, y el número de muestras) y el número de vías identificado como activo por BPA y SPIA análisis. En los cuadros S2 y S3, enumeramos la lista completa de las vías que se consideren activa por parte del BPA y métodos SPIA para cada conjunto de datos de microarrays verdadero cáncer, respectivamente. En total, BPA identificó 171 vías que se han encontrado significativa en al menos uno de los conjuntos de datos. 15 de estas vías se han encontrado para ser significativa en al menos la mitad de los conjuntos de datos y por lo tanto potencialmente representar mecanismos comunes a diferentes tipos de cáncer (véase la Tabla S2).

También investigamos el carácter común de significativa vías en los tipos de cáncer representados por dos conjuntos de datos, excepto para el cáncer de tiroides, que ha resultado en muy pocas vías importantes. Estos resultados para el análisis BPA se resumen en la Figura 1. En el caso de conjuntos de datos del cerebro y cáncer de hígado, las vías comunes consisten en 52% y 59% del conjunto de datos con el menor número de vías. En los conjuntos de datos de cáncer de mama, se observa un menor grado de acuerdo (~31%). Estos elementos comunes son 60%, 41% y 52% para los conjuntos de datos de cerebro, de mama y de hígado, respectivamente, mediante el análisis de SPIA. Sin embargo, SPIA utiliza un subconjunto de las vías investigados por el sistema de BPA. Si tenemos en cuenta sólo las vías en la base de datos SPIA, los puntos en común en el análisis de BPA son 73%, 45% y 71% para el cerebro, mama, hígado y conjuntos de datos, respectivamente.

En la figura 2 se indican el número de vías identificadas por los dos métodos de análisis de la base de datos cuando la vía se limita a la utilizada por SPIA. En promedio, el número de vías resultó ser significativamente activo por ambos métodos es de aproximadamente 60% de las vías del algoritmo con el menor número de vías activas.

Aunque el sistema de BPA mejorado superó el viejo sistema de BPA en conjuntos de datos sintéticos (datos no mostrados), se compararon los resultados de ambos métodos en los datos de microarrays verdadero cáncer. La lista de las vías consideró significativa por el viejo sistema de BPA se representa en la Tabla S4. El viejo análisis reveló BPA 127 vías activa en al menos uno de los conjuntos de datos de cáncer y 18 de las vías se encontró que eran comunes al menos a la mitad de los conjuntos de datos. En el cuadro S5, se indican las cantidades de vías identificadas como activa entre los sistemas de BPA e indicar el número de vías comúnmente identificados por los dos métodos en cada conjunto de datos de cáncer.

Estos resultados en los conjuntos de datos verdadero cáncer ( Tablas S4 y S5) indican que el sistema de BPA de edad no exhibir consistencia para algunos de los conjuntos de datos (por ejemplo 57 vs. 1 vía identificado por el nuevo vs. viejo PBA en los datos "de la vejiga" fijados; 16 vs. 3 vías identificadas por el nuevo frente de edad PBA en el conjunto de datos "mama"; 58 frente a 0 vía identificado por el nuevo frente de edad PBA en los datos de "pulmón" establecidos; y 10 frente a 0 vía identificado por el nuevo frente de edad en PBA el conjunto de datos "tiroides"). Creemos que esto se debe principalmente al método de prueba de permutación introducido en el nuevo sistema de BPA en el que el viejo sistema no puede generar conjuntos de datos aleatorios en las rutas con dirección veces el cambio constante de sus miembros (véase el cuadro 1). Parte de la mejora del rendimiento se puede atribuir a los métodos de discretización de puntuación y optimizados incorporadas en el nuevo sistema de BPA. Los viejos y nuevos Sytems BPA muestran, en promedio, un 28% de solapamiento entre las vías identificadas en cada conjunto de datos. Este nivel de acuerdo es significativamente menor que la observada entre los nuevos métodos de BPA y SPIA, que mostró que el 60% de solapamiento en promedio. Por otra parte, se obtuvo un solapamiento del 25% en promedio entre los antiguos métodos de BPA y SPIA cuando se consideraron las vías identificadas para cada uno de los microarrays de datos reales del cáncer fijados por los dos métodos.

También se aplicó el método de BPA en la mejora línea celular de cáncer de conjunto de datos de microarrays NCI-60 utilizado para describir el método de análisis conjunto de genes de enriquecimiento (GSEA) [31]. Este conjunto de datos contiene los resultados de microarrays (se ejecutan en la plataforma Affymetrix HGU95Av2) para 50 de las líneas de células NCI-60 (www.broadinstitute.org/gsea/datasets.jsp~~number=plural). Se utilizó este conjunto de datos para identificar las vías desregulados después de una mutación en el gen p53 supresor de tumor. De las 50 muestras, 17 son de tipo salvaje y 33 mutaciones conductoras en el gen p53. Las vías identificadas como activa por BPA, debido a las mutaciones en p53 se enumeran en la Tabla 4.

Discusión

Nuestras simulaciones de datos sintéticos identificados k-means clustering como el mejor método de discretización realizar . Nos encontramos con este resultado razonable de k-medias utiliza la distribución de los datos para minimizar el error cuadrático medio total con respecto a los valores discretized y las ocurrencias reales FC. También se basa en los resultados de los datos sintéticos, el método de puntuación que produjo la más alta precisión fue el de máxima verosimilitud (fNML) puntuación normalizada factorizada [23]. Este resultado también se esperaba ya que se ha demostrado que el sistema de puntuación BDe es muy sensible a la elección de la hiper-parámetros anteriores y AIC y BIC requieren algún ajuste manual de parámetros y no funcionan bien con pequeños conjuntos de datos, que a veces es el caso con HTBD [32]. fNML por el contrario es un método de puntuación optimizado basado teoría de la información que no tiene parámetros ajustables.

En el análisis de los datos reales de microarrays utilizando BPA, la vía que salió en la mayor parte de los datos del cáncer fija como significativamente activa ( 8/12) es la vía de moléculas de adhesión celular (CAMs). CAMs se encuentran en la superficie celular y participan en la actividad de una célula de unión con otras células. Una de las características principales de las células de cáncer es el crecimiento no controlado donde las células son inmunes a la inhibición dependiente de la densidad. las células cancerosas continúan creciendo, formando múltiples niveles, incluso cuando se aumenta la densidad celular. Esto se debe principalmente al mal funcionamiento en CAMs, que se ha demostrado que desempeñan un papel importante en la progresión del cáncer [33] y de alteración importantes vías de transducción de señales [34]. Específicamente, las CAM se han demostrado estar involucrados en el cerebro [35], de la vejiga [36], de mama [37], el hígado [38], de pulmón [39] y la tiroides [40] cáncer; los conjuntos de datos de cáncer en el que el sistema propuesto se ha encontrado la vía CAM como se activa de manera significativa.

Otras vías que necesitan ser enfatizado son "Citrato (TCA /ácido tricarboxílico) ciclo", "complemento y la cascada de la coagulación" y "adipocytokine señalando "las vías que se encuentran para ser significativamente activa en 7 conjuntos de datos de cáncer de cada ciclo de 12. Citrato, también conocido como el ciclo del ácido tricarboxílico (ciclo de Krebs) o el ciclo de Krebs, es parte de la respiración celular. Es una serie de reacciones químicas que se utilizan por todos los organismos aeróbicos para generar energía. Su importancia fundamental para muchas vías bioquímicas sugiere que fue una de las primeras partes del metabolismo celular evolucionar [41]. Un estudio reciente identificó este ciclo como una vía metabólica específica del cáncer [42]. En una amplia gama de células tumorales incluyendo los tipos incluidos en nuestros conjuntos de datos, se encontró que una mutación causa este ciclo para funcionar a la inversa. Complementar y vía de coagulación en cascada puede ser explicada en dos partes: el sistema del complemento es una cascada proteolítica en el plasma sanguíneo y un mediador de la inmunidad innata, un mecanismo de defensa no específica contra los patógenos, y la coagulación de la sangre es otra serie de conversiones de la proteasa-proenzima-a serina . Esta vía se identifica como significativo para este tipo de mama y cáncer de hígado en un mapa cáncer funcional, que ha sido establecido tras el análisis de perfiles de expresión funcionales de KEGG vías enriquecidos significativamente a través de diferentes entidades tumorales asignados a diferentes clases de tumores [43]. vía de señalización adipocytokine se correlaciona positivamente con la producción de leptina, que es un importante regulador de la ingesta de energía y la tasa metabólica. La leptina y adiponectina son las más abundantes y adipocitocinas las moléculas mejor estudiadas en esta clase hasta el momento. Recientes hallazgos biológicos tumorales sobre el papel de los más prominentes adipocitocinas leptina y adiponectina, que están involucrados en el crecimiento tumoral, invasión y metástasis, muestran los efectos de adipocitoquinas a cerebrales y de mama [44], los tipos de conjuntos de datos de cáncer en el que el sistema de BPA encontraron esta vía como activado de manera significativa. Ha habido otros estudios adicionales que han demostrado la relación de adipocitoquina vía de los cánceres de pulmón y el hígado [59], señalización [60].

Nuestros resultados de los datos sintéticos muestran que el sistema de BPA mejorado identifica la actividad de una vía con más del 98% de precisión. Aunque no existe un estandar de oro en la evaluación de las vías activas en relación con los datos reales de microarrays de un determinado fenotipo, la reproducibilidad de BPA en los mismos tipos de cáncer ha sido más del 50% en promedio. Cuando la base de datos vía se limita a la utilizada por SPIA, esta reproducibilidad supera el 70%. Por último, cuando se consideran todos los conjuntos de datos de cáncer, el acuerdo entre los dos métodos es de alrededor de 60%. Dada la variación técnica y biológica, un alto grado de superposición entre los diferentes esquemas de la vía de análisis de este tipo es muy prometedor.

En un intento de identificar patways específicos para determinados tipos de cáncer, hemos investigado las vías que se encuentran constantemente para ser activo para los mismos tipos de cáncer (y no activos para los otros tipos de cáncer) por el sistema de BPA actual. Para el cáncer de cerebro, "vía de la enfermedad de Parkinson (hsa05012)" fue encontrado activo en ambos conjuntos de datos de cáncer del cerebro y sólo en uno de los 10 conjuntos de datos de cáncer restante. la enfermedad de Parkinson (PD) es uno de los trastornos neurodegeneretive más comunes asociados con la pérdida de células en la región de la sustancia negra del mesencéfalo [45]. Recientemente, se han realizado estudios que enlazan los mecanismos moleculares y disposiciones genéticas de la enfermedad de cáncer. Las mutaciones en PARK2, una de las causas más comunes de PD de inicio temprano, se ha demostrado que desempeñan un papel central en glioblastomas [46] que muestra cambios en los residuos casi idénticas, tanto en el PD y las muestras de cáncer de cerebro. La identificación de esta vía tan activo casi de forma única y coherente en los conjuntos de datos de cáncer cerebral implica que el BPA es capaz de identificar las vías biológicamente significativos sobre la base de la HTBD subyacente. En los conjuntos de datos de cáncer de hígado, "el metabolismo de la biotina (hsa00641)" y "la degradación del ácido 3-cloroacrılico (hsa00780)" se han encontrado vías para estar activo sólo en los dos conjuntos de datos de hígado.

El conocimiento de la salud

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]