Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: evaluación del riesgo de cáncer gástrica causada por Helicobacter pylori CagA Usando Secuencia Markers

PLOS ONE: evaluación del riesgo de cáncer gástrica causada por Helicobacter pylori CagA Usando Secuencia Markers


Extracto

Antecedentes

Como marcador de
Helicobacter pylori
, gen asociado a citotoxina a (cagA) se ha revelado como el principal factor de virulencia que causa enfermedades gastroduodenales. Sin embargo, los mecanismos moleculares que subyacen en el desarrollo de diferentes enfermedades gastroduodenales causadas por
H cagA positivo. pylori
infección siguen siendo desconocidos. Los estudios actuales se limitan a la evaluación de la correlación entre las enfermedades y el número de motivos de Glu-Pro-Ile-Tyr-Ala (EPIYA) en la cepa de CagA. Para comprender mejor la relación entre la secuencia de CagA y su virulencia con el cáncer gástrico, hemos propuesto un enfoque basado en la entropía sistemática para identificar los residuos relacionados con el cáncer en las regiones intermedias de CagA y empleó un método de aprendizaje supervisado para los casos de cáncer y sin cáncer clasificación.

Metodología

Un cálculo basado en la entropía se utilizó para detectar residuos clave de secuencias que intervienen CagA como biomarcador del cáncer gástrico. Para cada residuo, tanto la entropía combinatoria y fondo entropía se calcularon, y se utilizó la diferencia de entropía como el criterio para la selección de residuos función. Los valores de características se incorporan después en máquinas de vectores soporte (SVM) con el núcleo Función de base radial (RBF), y dos parámetros fueron sintonizados para conseguir el valor óptimo F mediante el uso de red de búsqueda. Otros dos métodos de clasificación secuencia populares, la explosión y HMMER, también se aplicaron a los mismos datos para la comparación.

Conclusión

Nuestro método alcanzado el 76% y el 71% de precisión de clasificación de Asia occidental y oriental subtipos, respectivamente, que se desempeñaron significativamente mejor que BLAST y HMMER. Esta investigación indica que las pequeñas variaciones de aminoácidos en los residuos importantes podrían conducir a la varianza virulencia de las cepas CagA resultantes en diferentes enfermedades gastroduodenales. Este estudio proporciona no sólo una herramienta útil para predecir la correlación entre la nueva cepa CagA y las enfermedades, sino también un nuevo marco general para la detección de biomarcadores de secuencias biológicas en estudios de población

Visto:. Zhang C, Xu S, Xu D (2012) Evaluación del riesgo de cáncer gástrico causado por
Helicobacter pylori CagA
Uso de marcadores de secuencia. PLoS ONE 7 (5): e36844. doi: 10.1371 /journal.pone.0036844

Editor: Niyaz Ahmed, Universidad de Hyderabad, India

Recibido: 13 Noviembre 2011; Aceptado: April 11, 2012; Publicado: 15 de mayo de 2012

Derechos de Autor © 2012 Zhang et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Financiación:. Este trabajo fue parcialmente apoyado por el Instituto Nacional de la Salud [número de concesión R21 /R33 GM078601] y el intercambio internacional y la Oficina de Cooperación de la Universidad de Medicina de Nanjing, china. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción


Helicobacter pylori (H. pylori) es una bacteria
en forma de hélice Gram-negativas que habitan en el estómago humano y afecta a más de la mitad de la población mundial [1], [2], [ ,,,0],3]. Estudios recientes han demostrado que se asocia con enfermedades gastroduodenales, incluyendo úlceras duodenales [4], úlceras gástricas [5] y gastritis crónica. Más importante aún, es un factor de riesgo significativo para el desarrollo de cáncer gástrico [6], [7], [8]. Ha sido clasificado como Clase 1 carcinógeno humano por la Organización Mundial de la Salud desde 1994 [1].

Como marcador de
H. pylori
, el gen A asociado a la citotoxina (cagA) ha sido revelado por análisis adicional de ser el factor de virulencia importante.
H. pylori
cepas que portan el gen cagA aumentar el factor de riesgo de las enfermedades gastroduodenales por tres pliegues sobre cagA-negativo cepas [6], [9], [10]. CagA, que está codificada por el gen cagA, es una proteína de 125-140 kDa. Contiene 1142-1320 aminoácidos y tiene una región variable en la región C-terminal en el que varias secuencias cortas (tales como EPIYA motivo) repiten 1-7 veces. Después de
H. pylori
colonizar en la superficie del epitelio gástrico, CagA se puede transloca en la célula epitelial gástrica a través de un sistema de secreción de tipo IV. Una vez inyectado en la célula huésped, CagA se localiza en la membrana plasmática y puede ser fosforilada por tirosina quinasas de la familia Src en los residuos de tirosina específicos de un cinco-amino-ácido (EPIYA) motivo [11], [12], [13] , [14]. CagA tirosina fosforilada luego se une específicamente a SHP-2 tirosina fosfatasa 11,15 para activar una fosforilasa, que hace que el efecto de cascada que interfiere con la vía de transducción de señales de la célula huésped, lo que conduce a una reestructuración del citoesqueleto de la célula huésped y la formación de fenotipo colibrí [11], [16]. Al mismo tiempo a través de la activación de mitogen-activated proteína quinasa (MAPK), quinasa regulada por señal extracelular (ERK) [17] y quinasa de adhesión focal (FAK), CagA también puede causar la disociación celular y el crecimiento del tumor infiltrante [18], [19 ], [20], [21]. Tal proceso hace CagA un factor de virulencia más importante en
H. pylori
[22].

Dentro de la región variable de CagA, hay algunas diferentes secuencias intermedias entre esos motivos EPIYA. Una copia de EPIYA además secuencia de intervención se identifica como un segmento EPIYA. Cuatro tipos singulares de segmentos EPIYA se han encontrado en CagA, definida como EPIYA-A, -B, -C y -D [11]. El CagA aislado de los países de Asia oriental, designados como CagA de Asia oriental, contiene motivos EPIYA-D EPIYA-A, EPIYA-B y. El CagA de los países occidentales, EPIYA-D, se sustituye por EPIYA-C. Más fuerte actividad de unión fosforilación motivo del motivo EPIYA-D da lugar a mayores cambios morfológicos que lo que el motivo EPIYA-C puede causar en las células infectadas [11]. Es el aumento de la actividad de unión de este EPIYA-D del motivo y cambios morfológicos resultantes que lo identifica como un factor potencial para explicar la mayor incidencia de cáncer gástrico en los países del Este de Asia [23], [24].

Estudios previos revelaron una variación en el número de repeticiones EPIYA motivos tanto para Asia Oriental y occidental CagA, que puede afectar a las actividades biológicas. Yamaoka et al. [25] encontró que en Colombia y EE.UU., la capacidad de los
H cagA positivo. pylori
para causar atrofia de la mucosa gástrica y metaplasia intestinal podría estar relacionado con el número de motivos EPIYA en la cepa CagA. Argent et al. [16] llegó a la misma conclusión después. Sin embargo, las opiniones contrarias fueron publicadas por Lai et al. [26] sobre la base de los hallazgos de ninguna relación entre el número de motivos EPIYA en la cepa CagA y la enfermedad clínica dentro de 58 aislamientos de Taiwán. Teniendo en cuenta el tamaño y la limitación geográfica de estos estudios, la validez de esta conclusión es cuestionable. Aparte del número de las repeticiones de motivos EPIYA, la diferencia en la secuencia de las cepas en las regiones variables también podría causar una diferencia significativa de la virulencia, que podría relacionarse con las diferentes capacidades de patógenos
H. pylori
[27].

Debido a las secuencias complejas y variantes de CagA, las relaciones entre el polimorfismo de CagA y enfermedades clínicas se convierta en un problema de investigación muy interesante. Sin embargo, los mecanismos moleculares que subyacen a diferentes enfermedades gastroduodenales causadas por
H cagA-positivas. pylori
infección siguen siendo desconocidos. Hasta ahora la mayoría de los estudios son todavía limitados al descubrimiento o la evaluación de la correlación entre el número de motivos y enfermedades CagA EPIYA [28].

En este trabajo, se propone un método sistemático para analizar no sólo el número de motivos EPIYA en las secuencias de CagA, sino también los patrones de secuencias específicas de las regiones intermedias. En primer lugar, introducimos cálculo de la entropía para detectar los residuos dentro de la región variable de CagA como los biomarcadores de cáncer gástrico. A continuación, empleamos un procedimiento de aprendizaje supervisado para clasificar el cáncer y no cáncer mediante el uso de la información de residuos detectados en CagA como las características. Elegimos máquinas de vectores soporte (SVM) como un clasificador binario y comparar nuestro método con otros. Nuestro enfoque no sólo demuestra nuestra hipótesis de que la secuencia de región variable de CagA contiene información para distinguir diferentes enfermedades, sino que también proporciona una herramienta útil para predecir la correlación entre las cepas y enfermedades novela CagA y para detectar el biomarcador también.


Métodos

datos preprocesamiento

en base a la descripción anterior en la Ref. [15], hemos nombrado el motivo EPIYA y las siguientes regiones intermedias R1, R2, R3, R3 ', R4 y R4' (Figura 1). La Figura 2 muestra la relación de posición entre el motivo EPIYA (R1) y otras regiones de intervención mediante el uso de los tipos CagA A-B-D (subtipo de Asia Oriental) y A-B-C (subtipo Western) como ejemplos. R2 es relativamente conservadas a través de ambos subtipos, pero hay diferencias significativas entre las regiones que intervienen R3 y R3 ', así como entre R4 y R4'. El subtipo de Asia Oriental y el subtipo occidental fueron tratados como dos grupos independientes. a continuación, sus datos fueron procesados ​​y los resultados fueron analizados dentro de cada grupo por separado.

Todas las regiones intermedias fueron extraídos de las secuencias de CagA y puestos en los grupos de subtipos correspondientes, y luego los múltiples alineamientos de secuencias se aplicaron para cada grupo por separado utilizando Clustal X versión 2.0.3 [29]. Los perfiles de secuencias (Figura 1) se generó utilizando el WebLogo 3 [30].

Detección de Residuos

Desde CagA se relaciona con casi todas las enfermedades gastroduodenales y simple análisis de los motivos EPIYA repeticiones no produce ninguna diferencia estadísticamente significativa entre esas enfermedades, la información que indica una enfermedad específica podría estar oculto en las regiones intermedias. Esta investigación supone que existe un conjunto de residuos o combinaciones de residuos que podrían ser útiles como un marcador de una enfermedad específica. Este estudio se centra en el cáncer gástrico y utiliza los grupos de cáncer /no cancerosas como el ejemplo.

Sobre la base de las secuencias alineadas para cada región intermedia, los residuos específicos se identificaron mediante la comparación de la diferencia de entropía combinatoria [31] entre los grupos de cáncer y no cancerosas. Este procedimiento incluye las siguientes etapas:

En primer lugar, dividimos los múltiples alineaciones dadas para todas las regiones que intervienen en dos grupos: grupo de cáncer gástrico y el grupo sin fines de cáncer. Para cada columna de múltiples alineaciones, se calcula la entropía de fondo (Ec. 1) y la entropía combinatoria (Ec. 2), que se describe de la siguiente manera: (1) donde representa el número de secuencias en el grupo
k
. indica el número de residuos de tipo en la columna
i Red de grupo
k
. es el número de residuos de tipo en la columna
i
. representa el número total de secuencias en la alineación (2), donde

A continuación, se calcula la diferencia de entropía entre la entropía y la entropía combinatoria de fondo:.. (3)

La figura 3 ilustra el concepto de entropía utilizando tres casos extremos. En el caso de P1, los aminoácidos están 'al azar y se distribuyen de manera uniforme "sobre todos los grupos y no se conserva ninguna significativamente patrón para esta posición. Caso P2 representa un patrón 'conservada a nivel mundial "y todos los aminoácidos son los mismos en ambos grupos. En el caso de P3, algunos aminoácidos específicos solamente se conserva en grupos particulares, y diferentes grupos tienen diferentes aminoácidos. Llamamos a este caso "conserva localmente '.

De acuerdo con los resultados del cálculo de la diferencia de entropía para los tres casos anteriores, la entropía es combinatoria para ambos casos conservados a nivel mundial' 'y' 'local conserva. Para el caso 'distribuidos de forma aleatoria y uniforme', obtiene el valor máximo. Podemos distinguir los casos "conservadas" y "distribuidas al azar y de manera uniforme 'basado en la entropía combinatoria, pero no ayudar a recoger caso' conservada localmente 'de todo' conservada 'casos. Cuando consideramos la entropía de fondo, al mismo tiempo, obtiene el valor máximo, 0 y el valor medio para el caso 'distribuidos al azar y de manera uniforme "," globalmente conserva' caso 'conserva localmente' caso, respectivamente. Por último, las diferencias en los tres casos anteriores son :,, y obtiene el valor mínimo. Por lo tanto, la diferencia de entropía es una medida adecuada para la detección de un patrón de secuencia 'conservan localmente'.

Feature-entropía Cálculo

Con base en el cálculo anterior, se puede determinar que la agrupación correcta puede reducir al mínimo la diferencia de entropía para aquellos residuos que pertenecen al caso 'conservada localmente'. Para realizar una prueba, una secuencia se selecciona mientras el resto de las secuencias se dividen en un grupo de cáncer gástrico y un grupo no cáncer. Para todos los residuos seleccionados, la secuencia seleccionada se coloca en el grupo de cáncer gástrico para calcular la diferencia de entropía, y luego se coloca en grupo no cáncer para obtener la correspondiente diferencia de entropía. Por último, se obtiene para todos los residuos seleccionados que se utilizan como la entropía característica.

Clasificación de las secuencias CagA

conjunto de datos.

Se realizaron búsquedas en el Centro Nacional de Información Biotecnológica (NCBI ), el Swiss-Prot /temblar y DDBJ base de datos y la proteína obtuvo 535 cepas de
H. pylori
proteína CagA. Entre ellos, hay 287 cepas de subtipos de Asia oriental y 248 cepas del subtipo occidentales. En el grupo subtipo del Este de Asia, 47 de 287 cepas son de pacientes con cáncer gástrico y el resto son de otras enfermedades. En el grupo subtipo occidental, hay 37 cepas de los pacientes con cáncer gástrico, y los restos son de otras enfermedades o los controles normales, incluyendo 24 cepas de voluntarios cuyo (enfermedad) el estado de salud era desconocido.

Flujo de trabajo.

la figura 4 muestra el flujo de trabajo del procedimiento de clasificación /predicción:

Seleccione una cepa que la cepa de prueba

Aplicar un procedimiento de arranque para el resto de las cepas de conseguir. las cepas de formación.

se calcula la entropía característica de la cepa utilizada en base a cepas de formación y guardarlo como los datos de prueba.

se calcula la entropía característica para cada cepa en el conjunto de entrenamiento basado en la cepa la formación de cepas y guardarlos como los datos de entrenamiento.

Generar modelo de clasificación mediante el uso de los datos de entrenamiento.

Clasifica los datos de prueba de acuerdo con el modelo de clasificación.

Repita este procedimiento cinco veces y, a continuación, calcular el promedio como el resultado final.

Bootstrapping.

una cuestión importante en la construcción de un modelo de clasificación en este caso es la gran diferencia de los tamaños de las muestras entre cancerosas y no cancerosas grupos, lo que podría causar sesgo en los resultados de clasificación. Se aplicó un procedimiento de bootstrapping para abordar esta cuestión. En cada grupo de subtipo, para cada uno de los conjuntos de datos de entrenamiento /prueba, se incluyeron todas las muestras no cancerosas, y luego cepas se extrajeron de forma continua desde el grupo de cáncer de forma aleatoria hasta alcanzar el mismo tamaño del grupo no cáncer. En este caso, se utilizaron todos los datos disponibles, aunque se utilizaron muestras de cáncer en múltiples ocasiones dan su menor tamaño en comparación con el grupo sin cáncer. Este procedimiento se aplicó cinco veces para generar cinco conjuntos de entrenamiento independientes para cada secuencia de prueba. El resultado de la clasificación /predicción es el promedio de los cinco resultados independientes.

La validación cruzada.

Debido a que el tamaño de los datos es pequeña, una licencia-un-out (LOO) procedimiento de validación cruzada se realizó. Esto no es sólo una evaluación del rendimiento del clasificador en los datos de entrenamiento /prueba, sino también una estimación del poder de predicción para los casos nuevos.

SVM.

Hemos elegido como SVM clasificador binario y utilizamos el vectores de características de entropía para entrenar y probar el clasificador. En el caso de las dos clases de clasificación margen suave, la función de decisión es una combinación lineal ponderada se define de la siguiente manera: (4) donde representa un núcleo función definida por el usuario que mide las similitudes entre el vector de características de entrada y los vectores de características en la formación conjunto de datos. es el peso asignado al vector de características de formación e indica si una cepa CagA se ha marcado con la clase positivo (1) o una clase de negativo (-1). El problema de optimización primario toma la forma: minimizar (5) sujeto a (6), donde. m es el número total de cepas. es una variable de holgura que mide el grado de clasificación errónea del dato. es un parámetro de coste que permite la negociación fuera error de entrenamiento contra la complejidad del modelo. w es el vector normal y b es el desplazamiento.

Después de comparar los resultados del polinomio, tanh y núcleos de base radial de Gauss, el resultado obtenido con el kernel RBF trabajó el mejor, donde los núcleos de base radial (RBF de Gauss :) son para el aprendizaje de propósito general cuando no hay conocimiento previo acerca de los datos. Se empleó la SVM
Paquete de luces (http://svmlight.joachims.org/) [32] para construir nuestra aplicación. Los parámetros y estaban sintonizados para conseguir el mejor modelo para la formación de datos como se muestra en la siguiente. Todos los demás parámetros de SVM se ajustan a sus valores predeterminados de evaluación

Rendimiento

Con el fin de evaluar el desempeño del clasificador, una variedad de medidas de rendimiento se aplica:.. Exactitud, sensibilidad y especificidad. Un verdadero positivo (TP) es una secuencia relacionada con el cáncer clasificado como tal, mientras que un falso positivo (FP) es un no-cáncer secuencia relacionada clasificadas como relacionadas con el cáncer, un falso negativo (FN) es una secuencia relacionada con el cáncer clasificado como no el cáncer se relaciona y un verdadero negativo (TN) es una secuencia no relacionada con el cáncer clasificado como no relacionados con el cáncer. La precisión, la sensibilidad (Sn), especificidad (E) y el coeficiente de correlación Matthews (MCC) de clasificación se define como sigue: (7) (8) (9) (10) Dado que sólo hay dos parámetros para el kernel RBF y se son independientes, se aplicó una rejilla de búsqueda para determinar los parámetros óptimos del clasificador. Se utilizó un medio armónicas de sensibilidad y especificidad de la función objetivo de optimizar el rendimiento del modelo para el conjunto de entrenamiento, que se define de la siguiente manera: gratis (11)
Resultados

detección de residuos y característica de cálculo de

la Tabla 1 enumera todos los principales residuos detectados mediante el cálculo de la diferencia de entropía en cada región de interposición de ambos subtipos occidentales y de Asia oriental. Aunque hay algunas variaciones geográficas de las secuencias de CagA entre el mundo occidental y subtipos de Asia oriental, algunos residuos comunes todavía podían encontrarse para distinguir los grupos de cáncer y sin cáncer. Se sugiere que estos residuos pueden ser muy importantes en la determinación de la virulencia de CagA y la relación entre CagA y algunas enfermedades específicas.

El residuo posiciones se muestran en la Figura 5. En un estudio previo [27] revela que los diferentes segmentos EPIYA se pueden unir a las diferentes quinasas, por ejemplo, EPIYA-R2 y EPIYA-R3 /R3 'se unen a la C-terminal Src quinasa (Csk) mientras EPIYA-R4 y EPIYA-R4' se unen a la SHP-2 quinasa para causar el fenotipo colibrí. La interacción CagA-Csk regula a la baja CagA-SHP-2 de señalización que perturba las funciones celulares para controlar la virulencia de CagA. Se encontró que la mayoría de los residuos detectados pertenecen a R2 y 'regiones y pocos residuos en R4 /R4' R3 /R3 regiones se han detectado. Esto puede deberse a que R4 /R4 'tiene la secuencia más conservadas que R2 y R4 /R4' es más corta que R3 /R3 '. Sugerimos que los diferentes patrones de residuos en R2 o R3 regiones /R3 'pueden cambiar la capacidad de la regulación negativa de la señalización CagA-SHP-2, por lo tanto, el cambio de la virulencia de CagA.

Ren et al. encontrado que los multimerizes CagA en células de mamífero [33]. Este multimerización es independiente de la fosforilación de la tirosina, pero está relacionado con el motivo "FPLxRxxxVxDLSKVG" que se denomina motivo CM en la región que interviene el R3 '. Dado que la multimerización es un requisito previo para la CagA-SHP-2 de señalización desregulación compleja y posterior de SHP-2, el motivo CM juega un papel importante en
H cagA positivo. pylori
patogénesis mediada gástrica. Con múltiples motivos cm
H. pylori
cepas son muy probablemente asociadas con enfermedades gastroduodenales graves [33], [34], pero esta observación no puede explicar por qué diferentes enfermedades gastroduodenales se pueden desarrollar con el mismo número exacto de motivos CM. Nuestro estudio detectó dos residuos en el motivo de CM región intermedia R3 ', lo que podría dar lugar al cambio de multimerización, cambiando así la virulencia de CagA. Esto está en consonancia con un descubrimiento anterior [35] que la diferencia entre la secuencia de CM de Asia Oriental y el Occidental CM determina la afinidad de unión entre CagA y SHP-2.

Mientras que los principales residuos detectados pueden revelar algunas diferencias entre el cáncer y los grupos no cancerosas, ningún residuo único puede ser un marcador para el cáncer, como se muestra en la Figura 5. Esta investigación predice que una combinación especial de todos o parciales residuos detectados podría tener una alta correlación con una enfermedad particular. Para verificarlo, varios modelos estadísticos lineales, por ejemplo, regresión lineal y regresión logística, se aplicaron a las características detectadas para evaluar la importancia de cada resto y la correlación entre los residuos seleccionados y el cáncer. Sin embargo, ninguno de los modelos anteriores eran capaces de producir un resultado estadísticamente significativo. Dado que las características no pueden ser colocados por los modelos lineales simples para predecir el cáncer, la aplicación de un método de aprendizaje automático para analizar y clasificar estos datos se hace necesario.

Formación de parámetros para la clasificación

Usando el grupo occidental como subtipo el ejemplo, una rejilla suelta-búsqueda se realizó por primera vez y (Figura 6A) y encontró que el mejor es en torno a obtener el valor de F más alta con la tasa de LOO validación cruzada 76%. A continuación, una búsqueda de malla más fina se llevó a cabo en el barrio y se obtuvo un mejor valor F, con un 79,7% LOO validación cruzada al. El mismo procedimiento se utilizó para el grupo de Asia Oriental subtipo y la mejor tasa de LOO validación cruzada 72,6% se alcanzó a.

(A) El gráfico de contorno de valor de F como resultado de una suelta de rejilla de búsqueda en un hiper rango de parámetros para el grupo subtipo occidental. (B) El gráfico de contorno de valor de F como resultado de una suelta de rejilla de búsqueda en un rango de parámetros para un grupo hiper subtipo occidental mezcladas al azar con el valor más alto F.

Dado que no existen estudios previos o métodos computacionales sobre el mismo tema, que evalúan el rendimiento de nuevo método de esta investigación es difícil. Para evaluar el contenido de información de las secuencias en términos de su poder exigente para predecir cáncer, se empleó un procedimiento de barajado al azar para crear el grupo de control. En primer lugar, todas las secuencias del subtipo occidental fueron colocados juntos para construir una piscina secuencia. En segundo lugar, elegimos al azar el mismo número de secuencias como grupo de cáncer de la piscina secuencia y trataron el resto de las secuencias como el grupo de no-cáncer. Entonces, todo el procedimiento de formación se aplicó a los datos nuevos que se baraja para encontrar el mejor. Las etapas anteriores se repitieron cinco veces para generar cinco conjuntos de datos barajados independientes. El que tiene la más alta
F
valor, lo que equivale a un 46,6% fue seleccionada y su gráfico de contorno se muestra en la Figura 6B. Esta evaluación barajar al azar también se aplicó a los datos de subtipo de Asia oriental y el mejor
F
valor fue de 54,3%. La comparación de las dos parcelas muestra la diferencia significativa de
F
valores entre los datos con correcta agrupación de casos de cáncer y sin cáncer en la formación y los mejores datos mezcladas al azar. El resultado sugiere que las regiones que intervienen son informativos para distinguir entre los grupos de cáncer y sin cáncer y nuestro método se puede utilizar la información de manera eficaz.

Clasificación Rendimiento

Existen principalmente tres categorías de clasificación de secuencia métodos: A partir característica, la distancia basada en la secuencia y el modelo basan. El método que hemos descrito en este documento pertenece a la categoría basado en funciones. Se seleccionaron dos de las herramientas de clasificación secuencia más populares como los métodos representativos de otras dos categorías para la comparación. BLAST [36] fue elegido para la categoría basada en la secuencia de distancia, ya que es la herramienta de comparación de secuencia más ampliamente utilizado. Para la categoría basada en el modelo, el modelo oculto de Markov es el método típico para el análisis de secuencias y su herramienta ampliamente utilizada, HMMER [37], fue seleccionado. Para el procedimiento de clasificación de ambos BLAST y HMMER, utilizamos los parámetros por defecto de las herramientas, aplicamos el mismo LOO validación cruzada como nuestro método, y utilizamos las mismas fórmulas de evaluación que figuran en la sección Método.

Cuadro 2 enumera los resultados de la clasificación para los tres métodos. El método SVM se comporta significativamente mejor que los otros dos enfoques. BLAST logra una precisión cercana al método de entropía-SVM, pero predijo muchos falsos negativos con baja sensibilidad. MARTILLO logra una alta sensibilidad pero con poca especificidad. Teniendo en cuenta
F
valores y
MCC
valores, la predicción de resultados de BLAST y de martillo son casi al azar.

El resultado de la clasificación y el gráfico de contorno (Figura 6) apoyar firmemente nuestra hipótesis, es decir, la información de los residuos seleccionados en intervenir regiones se puede utilizar para clasificar la relación entre las secuencias de CagA y cáncer gástrico, aunque la diferencia entre los perfiles de los grupos de cáncer y no cancerosas no es muy fuerte.

Comparación entre los diferentes enfermedades


H. pylori
la infección se asocia con la mayoría de las enfermedades gastroduodenales, entre los que el cáncer gástrico es la más severa que causa más de 700.000 muertes cada año en todo el mundo [38]. Desde
H. pylori
es un principal factor de riesgo de cáncer gástrico (CG), el descubrimiento del mecanismo de
H. pylori
mediación de GC se convierte en una tarea de primer orden en este campo. En comparación con otras enfermedades, la información de diagnóstico de GC a partir de datos pública es relativamente precisa, y es otra razón importante centrarse en GC en este documento. Nuestros estudios no se limitan a GC, sin embargo. También tratamos de evaluar las relaciones entre la variación de secuencias de CagA y diferentes enfermedades.

Como la mayoría de los datos se obtuvieron de las bases de datos públicas sin información de diagnóstico preciso, antes de aplicar nuestro método a los datos CagA, que comisariada manualmente las anotaciones de enfermedades para todas las cepas mediante la revisión de la literatura. Tabla S1 enumera las distribuciones de las principales enfermedades, tanto para el mundo occidental y los grupos de subtipos del este Asain. Debido a la limitación de números de deformación de algunas enfermedades, tales como gastritis atrófica (AG) y úlcera gástrica (GU), que finalmente recogieron gastritis crónica (CG) y la úlcera duodenal (UD) como los grupos de control para la evaluación. El grupo DU en el subtipo de Asia Oriental contiene 79 cepas, y un procedimiento de bootstrapping se aplicó a todos los demás grupos para hacer el mismo número de cepas como el grupo de Asia Oriental DU. Este paso garantiza todas las comparaciones en la misma escala, ya que el valor de la entropía combinatoria depende del número de secuencias. Se utilizó la fórmula (3) para calcular la diferencia de entropía de cada posición entre GC y grupos CG /DU, y después se añadió a todas las diferencias de entropía como la diferencia total entre GC y grupos CG /DU, como se muestra en la Tabla S2. Al comparar los resultados entre los dos grupos dentro del mismo subtipo geográfica (Asia oriental o subtipo Occidental), es compatible con la opinión clínica de que la gastritis tiene relaciones más fuertes con cáncer que al uranio empobrecido [39] (en general, los casos de gastritis puede contener algunos no declarada o no diagnosticada casos metaplasia intestinal crónica y gastritis atrófica, con la que los pacientes tienen un alto riesgo de desarrollar GC). Al considerar la misma enfermedad de par entre los dos subtipos geográficas, sino que también explica la diferencia entre la virulenta de Asia Oriental y los subtipos occidentales. Además, debido a la gran similitud entre los diferentes grupos de enfermedades del subtipo de Asia Oriental, incluso con más datos, todavía no podemos llegar a la misma precisión de la clasificación como el grupo subtipo occidental.

A partir de los resultados anteriores, CagA secuencias muestran un potencial para distinguir múltiples enfermedades gastroduodenales. Con el fin de evaluar el rendimiento de clasificación, se utilizó grupo DU para reemplazar grupo no cancerosas, y luego se aplica todo el procedimiento de clasificación de nuevo sin bootstrapping, puesto que estas dos grupos enfermedades tienen tamaños comparables. Tabla S3 muestra los resultados de la clasificación. Aunque desde el punto de vista clínico, DU tiene la correlación negtive con GC entre todas las enfermedades gastroduodenales [40], el rendimiento de clasificación de dos grupos de subtipos fue sólo ligeramente mejorado. Por lo tanto cepas CagA relacionados con el cáncer podrían tener algunos patrones de secuencias únicas en comparación con todas las demás enfermedades gastroduodenales. Por lo tanto, afinar un subconjunto del grupo de control puede no ser capaz de mejorar la precisión de la clasificación.

Discusión

Aunque la investigación indica que hay marcadores de secuencia para diferenciar entre grupo y grupo del cáncer no oncológico , los principales perfiles de esos dos grupos son demasiado similares para distinguir mediante el uso de métodos tradicionales ya que las secuencias de CagA son en general muy conservadas. Por lo tanto, nos hemos centrado en la identificación de los residuos informativos, la cuantificación de la información de estos residuos seleccionados, y luego usarlo para diseñar un clasificador que puede predecir si una nueva secuencia pertenece al grupo cáncer o el grupo sin cáncer. Este método no sólo arroja luz sobre las relaciones entre las secuencias de CagA y cáncer gástrico, pero también puede proporcionar una herramienta útil para el diagnóstico o pronóstico de cáncer gástrico.

Los mecanismos de
H. pylori
causando las diferentes enfermedades gastroduodenales aún no están claros, sin embargo, es probable que diversas enfermedades gastroduodenales causadas por
H. pylori
cuota de infección por algunos patrones de secuencia en las regiones intermedias. Las pequeñas variaciones de aminoácidos en los residuos importantes podrían conducir a la varianza virulencia de las cepas CagA resultantes en diferentes enfermedades gastroduodenales. Mientras CagA podría ser un marcador para la detección de potencial de riesgo de cáncer, utilizando CagA solo para distinguir todas las enfermedades gastroduodenales no es realista. Como un estudio futuro, vamos a desarrollar nuevos modelos que se diferencian diversas enfermedades gastroduodenales de cagA y otros genes.

Apoyo a la Información sobre Table S1. .
Número de cepas en cada enfermedad
doi: 10.1371 /journal.pone.0036844.s001 gratis (DOC) sobre Table S2. .
Diferencia entre la entropía total del cáncer gástrico y otros dos grupos de enfermedades
doi: 10.1371 /journal.pone.0036844.s002 gratis (DOC) sobre Table S3. Clasificación de rendimiento
entre el cáncer gástrico y grupos con úlcera duodenal, tanto para el mundo occidental y los subtipos de Asia oriental
doi:. 10.1371 /journal.pone.0036844.s003 gratis (DOC)

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]