Extracto
Antecedentes
El pronóstico de recurrencia del cáncer es una importante área de investigación en bioinformática y es un reto debido a las muestras de pequeño tamaño en comparación con el gran número de genes. Ha habido varios intentos de predecir la recurrencia del cáncer. La mayoría de los estudios emplearon un enfoque supervisado, que utiliza sólo unas pocas muestras marcadas. semi-aprendizaje supervisado puede ser una gran alternativa para resolver este problema. Ha habido pocos intentos basados en hipótesis múltiples para revelar las funciones detalladas de los genes del cáncer identificados en la recurrencia.
Resultados
Con el fin de predecir la recurrencia del cáncer, que propone un nuevo algoritmo de aprendizaje semi-supervisado basado en un enfoque gráfico de regularización. Se transformaron los datos de expresión génica en una estructura gráfica para el aprendizaje semi-supervisado y los datos de interacción de proteínas integradas con los datos de expresión génica para seleccionar los pares de genes relacionados funcionalmente. Entonces, que predijo la recurrencia del cáncer mediante la aplicación de un enfoque de regularización a la gráfica construida que contiene ambos nodos etiqueta y etiqueta.
Conclusiones
La tasa promedio de mejora de la precisión para tres diferentes conjuntos de datos de cáncer fue de 24,9 % en comparación con métodos supervisados y semi-supervisado existentes. Se realizó el enriquecimiento funcional de las redes de genes utilizados para el aprendizaje. Identificamos que esas redes de genes se asocian significativamente con las funciones biológicas relacionadas con el cáncer de recurrencia. Nuestro algoritmo fue desarrollado con C ++ estándar y está disponible en los formatos de Linux y MS Windows en la biblioteca STL. El programa ejecutable está disponible gratuitamente en:. Http://embio.yonsei.ac.kr/~Park/ssl.php
Visto: Parque C, Ahn J, Kim H, Parque S (2014) Integrativa Construcción del gen de red para analizar la recurrencia del cáncer utilizando el aprendizaje semi-supervisado. PLoS ONE 9 (1): e86309. doi: 10.1371 /journal.pone.0086309
Editor: Peter Csermely, Universidad de Semmelweis, Hungría
Recibido: 3 Julio, 2013; Aceptado: 9 de diciembre de 2013; Publicado: 31 Enero 2014
Derechos de Autor © 2014 Park et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo fue apoyado por la Fundación Nacional de Investigación de Corea subvención (NRF), financiado por el gobierno de Corea (MSIP) (NRF-2012R1A2A1A01010775). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
la identificación de biomarcadores de cáncer para el diagnóstico y el pronóstico es uno de los campos de investigación más importantes en la bioinformática. El uso de biomarcadores de cáncer precisos puede ayudar a determinar el tratamiento apropiado basado en el estado del paciente. Estos biomarcadores pueden ser presentados como una lista de genes o estructura de la red de genes. la expresión génica basado Microarray se ha utilizado para identificar estos biomarcadores [1], [2], [3]. Además, varios estudios recientes han utilizado no sólo los datos de expresión de genes, sino también datos interactome para mejorar el rendimiento predictivo. genes relacionados con el cáncer conocidos no son distinguibles por nivel de expresión genética por sí sola. Chuang
et al
. demostró que la integración de los datos interactome y transcriptoma era útil para la identificación de sub-redes funcionales coexpressed, y las interacciones de las sub-redes actuó como un marcador con una mayor precisión de clasificación [4]. Taylor
et al
. analizado modularidad global en las redes de interacción de proteínas y reveló que el cubo intermodular, uno de los dos tipos de hubs, fue más frecuentemente asociada con la oncogénesis [5]. Ahn
et al
. propuso un método novedoso y clasificación exacta mediante la integración de ambos datos interactome y transcriptoma [6]. También construyeron las redes de genes específicos del cáncer derivados de su método de clasificación y revelaron que los genes relacionados con el cáncer en una red juegan un papel importante en el cáncer [6].
Aunque la expresión de genes y datos interactome son muy útiles para el cáncer la investigación, el relativamente pequeño número de muestras en comparación con el número de genes conduce a desafíos en el análisis [7]. La fiabilidad de descubrimiento de genes expresados diferencialmente en dos diferentes condiciones se reduce en muestras pequeñas. Ha habido intentos de superar esta limitación de los datos de expresión génica basada en microarrays [8]. Shi
et al
. mencionó que la obtención de datos de microarrays con la información de seguimiento clínico es mucho tiempo, costoso y limitado por la disponibilidad de muestras [9]. Estos resultados implican que los enfoques basados en el aprendizaje supervisado existentes que sólo utilizan los datos etiquetados todavía tienen limitaciones.
Un enfoque para complementar las pequeñas cantidades de datos con la etiqueta es semi-aprendizaje supervisado, que es una combinación de supervisión VISED y métodos no supervisados. combina el aprendizaje semi-supervisado marcados y no marcados de datos para construir un modelo de aprendizaje con una mayor precisión [10]. En general, la clasificación semi-supervisada se utiliza cuando hay más datos que los datos no etiquetados etiquetados. En tal caso, se cree que el conocimiento de los datos sin etiqueta será útil en la inferencia de reglas de clasificación precisa durante el proceso de aprendizaje.
Recientemente, los enfoques basados en aprendizaje semi-supervisado han sido ampliamente aplicado a biológica análisis de datos, incluyendo las interacciones genéticas. Usted
et al
. desarrollado un clasificador semi-aprendizaje supervisado basados en el gráfico que pueda predecir las interacciones genéticas sintéticas pares [11]. Dado que los perfiles de interacción genéticos pueden ayudar a crear una mejor comprensión de los vínculos entre los genes y las vías funcionales, un algoritmo exacto para predecir las interacciones genéticas es muy deseable a pesar de la falta de una red funcional de genes de alta precisión. enfoques de aprendizaje semi-supervisado también se han aplicado a los estudios relacionados con el pronóstico. Nguyen
et al
. propuso un método basado en el aprendizaje semi-supervisado para predecir genes implicados en la enfermedad infiriendo ambos genes de la enfermedad y sus vecinos a través de las redes de interacción de proteínas [12]. Bair
et al
. propuesto la utilización de los datos clínicos disponibles y los datos de expresión génica para identificar el subconjunto de los genes utilizados para realizar la agrupación semi-supervisado [13]. Su método se utilizó para revelar subtipos de cáncer y predecir la supervivencia del paciente. Joshua Smith
et al
. los perfiles de expresión génica utiliza para identificar un clasificador gen asociado con un alto riesgo de metástasis y muerte por cáncer de colon [14].
Como se mencionó anteriormente, los enfoques semi-supervisado pueden complementar las limitaciones del análisis de datos de expresión génica, tales como la falta de una clase clínica asignado para cada paciente. Shi
et al
. propone un clasificador semi-supervisada basada en la separación de baja densidad que puede identificar de alto riesgo y pacientes de bajo riesgo [9]. Ese estudio, que utiliza etiqueta y etiqueta muestras de expresión de genes, mostraron una mayor precisión en comparación con los enfoques existentes sobre la base de aprendizaje supervisado. Sin embargo, no ha habido un intento de aplicar tanto el aprendizaje semi-supervisado y la integración de los datos interactome y transcriptoma para superar el pequeño número de muestras marcadas y para mejorar el rendimiento de clasificación y predicción. La integración de datos heterogéneos puede ayudar a distinguir los genes más importantes a partir de los datos de expresión de genes utilizados para construir clasificadores, como se mencionó anteriormente.
En este artículo, se utilizó el gráfico de regularización e integración de los datos del transcriptoma y interactome para construir una novela semi-supervisado clasificador basado en el aprendizaje de cáncer humano, y construyó una red de genes específica del cáncer. La regularización gráfico se basa en la "hipótesis del colector, 'donde la construcción de modelos de gráficos es una fase importante. En el diseño del modelo gráfico para la clasificación, se construyó la gráfica utilizando muestras de etiqueta y etiqueta como nodos. La conexión entre dos muestras se calculó usando los pares de genes informativos seleccionados. En la selección de pares de genes útiles, hemos integrado interacción proteína-proteína (PPI) de datos con los datos de expresión génica. datos de PPI proporcionan información acerca de la relación funcional entre las proteínas y se aplicó a los genes conectados por los IBP. Después de seleccionar pares de genes, se aplicó un sistema de puntuación propuesto en un artículo anterior [6]. Nos centramos en la mama, colorrectal y de próstata para predecir la recaída del cáncer. datos de expresión de ARNm de tres pacientes con cáncer incluyen ambas muestras no marcados y etiquetados.
Hemos demostrado que (i) la propuesta semi-supervisado de aprendizaje basado en la clasificación mejorada predicción de rendimiento en comparación con los métodos existentes, incluyendo TSVM, que es un semirremolque supervisado versión de SVM aprendizaje, (ii) el método propuesto es aplicable a diferentes tipos de cáncer, (iii) el método propuesto era robusta independientemente de la relación etiqueta de clase y (iv) la red de genes específica del cáncer derivado del clasificador era biológicamente significativo, y los genes específicos de cáncer de esta red jugaron un papel como miembros de los procesos biológicos complejos.
Métodos
datos de expresión génica
Para construir un clasificador semi-aprendizaje supervisado, primero integrado con IBP y identificado pares de genes informativos con las muestras marcadas. En segundo lugar, se construyó un modelo gráfico muestra basada en el uso de los genes informativos seleccionados con el fin de construir un clasificador.
Datos Descripción
Hemos descargado los conjuntos de datos de expresión de genes de tres tipos de cáncer de la Expresión Génica Omnibus (GEO ) de base de datos. La Tabla 1 resume las especificaciones detalladas de los conjuntos de datos. El GSE2990 conjunto de datos de expresión génica se compone de 125 tumores de mama invasivos clasificadas en dos grupos, alto y bajo riesgo de recurrencia; 64 muestras no tenían una etiqueta de clase. El conjunto de datos de expresión génica GSE17536 estaba compuesta de 177 pacientes con cáncer colorrectal. Las muestras se clasificaron en tres grupos:. 'Recurrencia,' 'sin recurrencia,' y 'sin etiqueta' basado en la observación de recurrencia dentro de los cinco años de seguimiento, las etiquetas fueron asignados a las muestras. Las muestras sin etiqueta no tenían datos de seguimiento clínico. El GSE17538 conjunto de datos de expresión génica se compone de 213 muestras de cáncer de colon, que también se clasificaron en los tres grupos mencionados anteriormente. Una descripción más detallada de los conjuntos de datos de acuerdo con la plataforma experimental se muestra en la Tabla S1 S2 en Archivo.
También descargado 194,988 IBP humanos a partir de la base de datos I2D, que incluía conocido, experimental, y predijo IBP . Debido a que las proteínas en estos IBP fueron mapeados en los símbolos de genes utilizando Universal Resource Protein (UniProt), se obtuvo 108,544 IBP después de la eliminación de los IBP y los IBP duplicados que contenían las proteínas que no fueron asignados a un símbolo de genes.
Descripción del sistema
en esta sección se describe un nuevo algoritmo de aprendizaje semi-supervisado gráfico basado en el pronóstico del cáncer. El gráfico se compone de nodos y bordes correspondientes a las muestras y las interacciones entre dos muestras, respectivamente. El gráfico se construye con las dos muestras marcadas y no marcadas de datos de expresión génica, y las muestras no marcados fueron etiquetados posteriormente en base a la geometría de la estructura gráfica. Por lo tanto, es muy importante para generar un gráfico basado en la muestra del conjunto de datos dado. Se propone un nuevo método gráfico de la construcción que se ha especializado para un conjunto de datos de microarrays. Sobre la base de este método gráfico de la construcción, hemos desarrollado un algoritmo de aprendizaje semi-supervisado que utiliza regularización gráfico.
En este enfoque, la gráfica en sí es un clasificador. Por lo tanto, los parámetros para la construcción de la gráfica implica que sean los factores clave del clasificador. Los resultados de la clasificación son dependientes de los parámetros. semi-aprendizaje supervisado generalmente utiliza la función o la información subyacente de los datos no etiquetados. Este enfoque supone que los datos no marcado es capaz de mejorar el rendimiento de clasificación. De acuerdo con esta característica distintiva de semi-aprendizaje supervisado, que aprovechar los datos no etiquetados para la construcción de un clasificador.
El método propuesto tiene dos fases. La primera fase consiste en determinar los parámetros óptimos candidatos a la regularización gráfico variando los intervalos de parámetros en
k
-fold validación cruzada. Después de esta fase, se construye la gráfica con las dos muestras de etiqueta y etiqueta. A continuación, identificamos si los resultados de la clasificación de regularización gráfico que se cambian o convergentes. Si se cambian, consideramos que los datos no marcados clasificados como datos recién etiquetados y las utilizamos para determinar los parámetros óptimos candidatos. En este proceso iterativo, se proporciona la información de las muestras sin etiqueta. El método de aprendizaje semi-supervisado anterior propuesto en [9] también se utiliza muestras sin etiqueta para construir un clasificador basado en la separación de baja densidad (LDS). La figura 1 muestra el flujo de trabajo que incluye el módulo de aprendizaje semi-supervisado para determinar los parámetros óptimos de nuestro método.
En primer lugar, se construye un gráfico de regularización con muestras etiquetadas únicamente mediante la variación de dos parámetros. En esta fase, se utiliza
k
-fold validación cruzada para determinar el conjunto de parámetros óptimos. A continuación, aplicamos semi-aprendizaje supervisado con el conjunto de parámetros óptimos obtenidos y predecir las etiquetas de las muestras desconocidas. El método propuesto utiliza información de la muestra no marcada para construir un clasificador mediante una iteración del procedimiento.
Los detalles del módulo de aprendizaje semi-supervisado en este flujo de trabajo se describen en las siguientes secciones. Este módulo consta de los siguientes tres pasos básicos: (1) la identificación de pares de genes informativa, (2) la construcción de ejemplos de gráficos con los genes seleccionados, y (3) la regularización de la gráfica y la predicción de las etiquetas de las muestras sin etiqueta. El flujo de trabajo del módulo semi-aprendizaje supervisado se muestra en la Figura 2.
Aplicamos un enfoque regularización gráfica para el aprendizaje semi-supervisado, y el propósito del método propuesto es predecir las etiquetas de las muestras sin etiqueta.
identificación de los pares de genes informativos
Hay decenas de miles de genes en microarrays de datos, y sólo algunos de ellos son específicos para la clasificación de la muestra. pares de genes informativos indican interacciones que se diacrítica en las dos clases contrarias de muestras marcadas. Adoptamos y modificamos nuestro esquema propuesto anteriormente para la identificación de las interacciones en el conjunto de datos de expresión de genes [6]. En ese estudio, hemos demostrado que la intensidad de algunas interacciones puede ser diferente entre las células normales y células tumorales. También dilucidado que los cambios en el nivel de interacción podría ser la causa o el efecto de la tumorigénesis, y que la modificación de los complejos de proteínas podrían afectar a diversas interacciones, como resultado de la tumorigénesis.
La medición de los cambios en las interacciones puede considerarse como la identificación del grado de dependencia entre dos genes. Un valor de correlación grande entre dos genes como un grado de cambio indica que existe una fuerte dependencia entre los dos genes. Basado en este razonamiento, se propone un sistema de puntuación para calcular la fuerza de la conexión entre dos genes que están conectados por los IBP. Utilizando esta medida, podemos facilitar la selección de las interacciones informativos de expresión génica de datos, ya que la red específica del cáncer fue construido sobre la base de una función de puntuación similares. En otras palabras, podemos elegir las interacciones especificados para la recurrencia del tumor utilizando el sistema de puntuación propuesto. La puntuación de los dos genes se calcula por la siguiente ecuación: donde
g
IC
1 y
g
IC
2 son vectores de la expresión del ARNm valor del gen
i
en muestras de clase 1 y 2, respectivamente, y
g
jC
1 y
g
jC
2 son vectores del valor de la expresión del ARNm del gen
j
en muestras de clase 1 y clase 2. Sólo los pares de genes con un valor de puntuación mayor que
umbral
g
se consideran como significativamente diferente entre dos clases. Este sistema de puntuación se realiza sólo con las muestras marcadas en el conjunto de datos de expresión génica. Un ejemplo sencillo de calcular los valores de puntuación se muestra en la Figura S1 S1 en el archivo.
Construcción de las basadas en muestras Gráfico
construye un gráfico basado en muestras de regularización. El peso de un par de la muestra se calcula por el coeficiente de correlación de Pearson (PCC) entre dos vectores de muestra que se componen de los genes como elementos, donde los genes se obtienen a partir de pares de genes informativos. Tanto etiquetados y las muestras no marcados se utilizan en el gráfico. La función de peso es la siguiente: donde
S
*
i
y
S
*
j ¿Cuáles son los vectores del valor de la expresión del ARNm de la muestra
i
y muestra de
j
, respectivamente, de los pares de genes seleccionados con valores mayores que
umbral
s
. Suponemos que existe una relación significativa entre dos muestras cuando están altamente asociados entre sí con un patrón positivo o negativo. Podemos transformar el conjunto de datos de expresión génica en una estructura gráfica que puede ser regularizada. Un ejemplo sencillo de cálculo del valor de peso se muestra en la Figura S1 S1 en el archivo.
Regularización de la gráfica
Sobre la base de la estructura gráfica basada en la muestra derivada del método mencionado anteriormente, etiquetas son asignados a los nodos no marcados. Para lograr esto, empleamos un enfoque básico de regularización. Para la regularización de la gráfica, se estima un marco de regularización en base a los supuestos del colector. La función de coste para la regularización es la siguiente: donde
y
y
Y
indican, respectivamente, las etiquetas y las etiquetas iniciales estimadas para los datos de etiqueta y etiqueta.
W
ij
indica el peso entre el nodo
i
y el nodo
j
. El número total de ambos nodos etiqueta y etiqueta es
n
, y el número de nodos etiquetados es
l
. En nuestro problema,
y
indica muestras etiqueta y etiqueta de conjunto de datos, el cáncer y
W
ij
se obtiene utilizando la función de ponderación definida en el capítulo anterior. El uso de la función de costos, medimos la coherencia con el etiquetado inicial con el primer término, y se le asigna una penalización para la regularización mediante el segundo término. Usando el segundo término, se calcula la diferencia ponderada entre dos nodos sin tener en cuenta si están o no están etiquetados. El principal propósito de esta función de coste es reducir al mínimo la diferencia ponderada entre todos los nodos. Este proceso se refiere a la regularidad y es equivalente al algoritmo de propagación etiqueta. En nuestro caso, no es necesario volver a asignar etiquetas a los datos etiquetados porque ya han sido comprobados clínicamente. Por lo tanto, en el primer término de la función de coste,
y
i
está forzada a tomar igual a
y
i
. Como resultado, la función de coste se puede transformar en la siguiente función con un gráfico Laplaciano.
donde
L
es la gráfica no normalizado de Laplace y
D es un
matriz diagonal de la matriz de peso
W
. Esta función penaliza a cambios en la etiqueta rápida en
Y
entre dos puntos de datos cierre de acuerdo con la matriz de peso dado. Se han propuesto varias aproximaciones para minimizar esta función por encima de
y
u
, donde
y
u
indica la etiqueta estimado para los datos sin etiqueta y
y
l
indica los datos etiquetados. La minimización de la función con respecto a
y
u
la convierte en la siguiente función.
Podemos predecir las etiquetas para los datos no etiquetados utilizando este cálculo. Ya que no se centran en el desarrollo del nuevo algoritmo de aprendizaje semi-supervisado, empleamos un enfoque general de regularización de la gráfica muestra ponderada, y es suficiente para aplicar el enfoque general para nuestro problema.
Resultados
hemos realizado experimentos para obtener la combinación óptima de dos umbrales para la puntuación de un par de genes y el peso de la gráfica basada muestra. Por último, comparamos nuestro método con varios métodos existentes con el fin de evaluar su rendimiento. Por último, analizamos la red producidos por nuestro método con la lista de genes relacionados con el cáncer conocido.
La obtención de los parámetros óptimos
Se han utilizado dos parámetros para identificar tanto los pares de genes informativos y asignar pesos a la muestra pares . Para encontrar combinaciones óptimas de estos dos parámetros, que mide la precisión del modelo de clasificación propuesto el uso de
k
-fold validación cruzada mediante la variación de estos dos parámetros. Hemos cambiado el
umbral
g
valor entre 0,15 a la 0,6 en intervalos de 0,05 y el
umbral
s
valor entre 0,72 a 0,9 en intervalos de 0,02. En general, hemos realizado 100 experimentos diferentes, la variación de estos dos umbrales y la medición de la exactitud de cada experimento promediando la
k
precisiones generado durante el
k
-fold validación cruzada. Figura S2 en File S1 representa el flujo de trabajo de la evaluación de nuestro método. Para medir la exactitud del método semi-aprendizaje supervisado, que sólo se utiliza la etiqueta muestras y supusimos que algunas de las muestras estaban sin marcar. El uso de estos dos grupos de muestras etiqueta y etiqueta, se construyó el gráfico y se realizó la regularización.
Para determinar la clasificación de las muestras sin etiqueta, se aplicó un método heurístico llamada normalización de masas de clase (CMN) propuesto por [15]. En general, la regla de decisión asigna la etiqueta 1 al nodo
i
Si el valor calculado después de la regularización es superior a 0,5, y la etiqueta 0 en caso contrario. Sin embargo, este enfoque decisión sólo es eficaz cuando las clases están bien separadas. Puesto que los datos de expresión génica no siempre tienen el mismo número de muestras para cada clase, adoptada CMN para identificar la etiqueta de clase final. CMN ajusta el criterio para determinar la etiqueta de clase de acuerdo con la relación de la masa de las clases
.
Los resultados experimentales obtenidos a partir de la variación de parámetros se muestran en la Figura 3. Se realizó 100 experimentos diferentes, la variación de los dos valores de umbral para cada conjunto de datos. Para cada experimento, se realizó un
k
-fold validación cruzada y un promedio de los
k
precisiones. El propósito de este proceso fue comparar la precisión de la clasificación en 100 experimentos diferentes. También llevamos a cabo los mismos experimentos con un conjunto de datos ajustada, que tenía el mismo número de muestras para grupos tanto de recurrencia y la no repetición ya que las diferentes proporciones de etiquetas de clase pueden afectar el rendimiento del clasificador. Nuestro método utiliza semi-supervisado basado en el aprendizaje de regularización gráfica, que está influenciada por la estructura geométrica de la gráfica, para clasificar la etiqueta. Si las proporciones relativas de dos clases difieren considerablemente, las etiquetas de un pequeño número de muestras no pueden propagarse a través del gráfico. Esto puede afectar al rendimiento de la clasificación. Todos los conjuntos de datos de cáncer seleccionados se dividieron en grupos de la muestra original y ajustadas. En el resto de este artículo, se describe un experimento realizado con estos dos grupos. Se obtuvieron dos valores de umbral óptimo con una precisión máxima para cada conjunto de datos, como se muestra en la Figura 3. También encontramos los umbrales óptimos mientras se cambia el
k
valor de validación cruzada. Los resultados experimentales de
k = 5
y
k = 20
se describen en la Tabla S1 S5 en Archivo. Los resultados experimentales se muestran en la Tabla 2. Para mostrar una eficacia de datos sin etiqueta, también se realizó a cabo los experimentos que varían el número de muestras sin etiqueta. El resultado experimental demostró que el exactitud se ha mejorado de acuerdo con el aumento del número de muestras sin etiqueta. Este resultado experimental se muestra en la Tabla S1 S6 en Archivo.
Se realizó 100 experimentos diferentes al cambiar dos valores umbral y 100 obtenidos precisiones promedio para cada conjunto de datos utilizando la validación cruzada de 10 veces. Encontramos el máximo, mínimo y promedio precisiones para cada conjunto de datos en dos casos. (1) Se llevó a cabo la validación cruzada de 10 veces más de 100 veces, variando los dos umbrales de las muestras originales como se muestra en la Tabla 1. Además se realizó (2) fuera de 10 veces validación cruzada más de 100 veces, variando los dos umbrales después equilibrar el número de muestras en las dos clases. Nosotros muestras tomadas al azar 27, 73, y 83 de los grupos de no repetición GSE2990, GSE17536, y GSE17538, respectivamente.
La comparación con los métodos existentes
Se comparó la método propuesto con tres algoritmos de clasificación supervisada típicos implementadas en Weka 3.6.8, a saber, máquinas de vectores soporte (SVM) [16], Naïve Bayesiano [17], y Random Forest [18]. Además, también comparamos nuestro método con TSVM, que es una versión semi-aprendizaje supervisado de SVM y se implementó en SVM-luz.
Se comparó la precisión, incluyendo las sensibilidades y especificidades, del método propuesto y otros métodos de uso de 10 veces la validación cruzada. Hemos dividido el conjunto de datos en dos grupos como se mencionó anteriormente, y repetimos el experimento 15 veces cada uno por tres tipos de cáncer. Se calcularon los valores medios de precisión, sensibilidad y especificidad para cada conjunto de datos en el grupo ajustado. La sensibilidad y la especificidad de TSVM no podían ser calculados desde que TSVM de SVM-luz proporcionada exactitud, precisión, y el recuerdo. La Tabla 3 resume el resultado de estas pruebas. En el grupo original, la exactitud de este método era generalmente mejor que la de los métodos de comparación. En particular, la diferencia de rendimiento entre el método propuesto y otros algoritmos en el grupo ajustado fue mayor que en el grupo original. Si la proporción de etiquetas de clase está sesgada en un conjunto de datos de entrenamiento, el clasificador puede ser montado sobre-hacia una etiqueta más grande. La proporción de etiquetas de clase en el grupo original fue sesgada hacia la etiqueta de no repetición, "-1". Por lo tanto, la sensibilidad y la especificidad de la mayor parte de los métodos de comparación, incluyendo nuestro método, eran diferentes. Desde la predicción de ambas etiquetas es importante en la predicción de la recurrencia del cáncer, mayor sensibilidad y especificidad de clasificación son mejores. En el grupo ajustado, nuestro método tenía mayor sensibilidad, especificidad y exactitud de los métodos de comparación. En general, hemos confirmado que el método propuesto tuvo un rendimiento superior al de los otros métodos.
La precisión media aumentó un 24,9% en comparación con los cuatro métodos existentes. Por ejemplo, como se muestra en la Tabla 3, la precisión del método propuesto fue 0.725 y la exactitud de TSVM fue 0,543 para el conjunto de datos de cáncer de mama sin ajuste de la relación etiqueta de clase, un aproximado mejora del 33%. El coeficiente medio de mejora para todos los conjuntos de datos fue del 24,9%. Cinco de los seis conjuntos de datos experimentales incluidos los grupos de la muestra ajustados, y la precisión del método propuesto fue superior a los métodos existentes. La diferencia media en la precisión del método propuesto y sus competidores fue 0.139. También se obtuvieron los valores de AUC para cada conjunto de datos experimentales. Como se muestra en la Figura 4, el método propuesto mostró un valor AUC particularmente mayor para el conjunto de datos de cáncer de mama y un valor de AUC más alta en comparación con otros métodos existentes para cuatro de los seis conjuntos de datos experimentales.
Se compararon los valores de AUC de la método propuesto y otros algoritmos de aprendizaje supervisado.
Además, se realizó una prueba independiente, donde se aplicó el alivio-F para seleccionar los genes informativos en lugar de PPI. También se realizó un análisis estadístico de la diferencia significativa en la precisión para la comparación entre los métodos. Los resultados experimentales detallados se describen en la información de apoyo de la Tabla S1, el cuadro S3 y S4 en la Tabla S1 Archivo.
Discusión
El rendimiento de un método de clasificación se ve influenciada por la proporción de la formación datos en cada clase. La contribución computacional del método propuesto es la determinación de la exactitud coherente de las diferencias en la proporción de clase. Esto es ventajoso ya que el número de muestras para cada clase no se puede ajustar durante la prueba independiente. Además, a pesar de clasificación basado en el aprendizaje semi-supervisado se ha aplicado a conjuntos de datos de microarrays, los resultados del método propuesto demuestran que el enfoque basado en la "suavidad suposición 'fue suficiente para la aplicación clínica.
Para reducir el dimensión de los datos de microarrays, hemos seleccionado conjuntos de genes con fuertes interacciones biológicas. Por lo tanto, la gráfica basada en muestras de regularización se construyó sobre la base de los conocimientos biológicos. El conjunto de genes seleccionado puede ser referido como una red de genes de recidiva específico. Nuestro análisis demostró que esta red de genes era biológicamente significativo en lo que respecta a la recurrencia del cáncer. Para el análisis de la red de genes del cáncer de recidiva-específica, hemos enriquecido el conjunto de genes informativa derivada del conjunto de parámetros óptimos utilizando la base de datos de ontología de genes (GO) y Bingo [19]. Entre los muchos términos enriquecido GO, nos centramos en los relacionados con la recurrencia del cáncer. Entre varios términos relacionados con la recurrencia, nos centramos en los términos de GO relacionados con la "proliferación" y se analizaron las redes sub-génicas para los GO términos, en referencia a la literatura. Para analizar mejor los detalles de las redes sub relacionados con la proliferación en cada cáncer, ilustramos las redes utilizando Cytoscape [20], como se muestra en la Figura 5, la Figura S3 en File S1, y la figura S4 en File S1.
los nodos de color naranja son los oncogenes.
el método propuesto identifica la red sub-gen BRCA1 compuesto por, CCND1, STAT1, y CCNB1, que se muestra en la Figura 4, que estaba conectado el BRCA1 oncogén primaria con otro oncogén CCND1 y dos genes de cubo-estructurada, CCNB1 y STAT1. Asumimos que estos sub-redes de genes estaban relacionados con la recurrencia del cáncer de mama. Los genes CCND1, ccnb1, y STAT1 BRCA1 vecinos también se han notificado a tener un papel importante en la recurrencia del cáncer de mama. CCND1 es un gen principal en la regulación de la progresión del ciclo celular, y Shu
et al
. informado de una asociación entre el riesgo de cáncer de mama y la supervivencia en base a polimorfismos CCND1 [21]. CCNB1 un gen Oncotype DX se informó que STAT1 fue significativamente relacionados con la activación de IFN-γ y sus efectos antitumorales [22], [23]. Si la expresión STAT1-dependiente de las proteínas del MHC se mejora, la proliferación tumoral y la supervivencia son inhibidas por la activación de IFN-γ. Desmedt
et al
. llegó a la conclusión de que la activación de STAT1 juega un papel importante en la muerte de las células tumorales y la activación de genes de apoptosis [23].
Conclusiones
En este estudio, hemos propuesto una novela semi-aprendizaje supervisado método basado en la regularización gráfico con el fin de predecir la recurrencia del cáncer. También puso de manifiesto que las redes de genes específicos de recidiva derivados del método propuesto contienen muchos genes relacionados con la recurrencia. Hemos integrado los datos de PPI con los datos de expresión de genes para producir un conjunto de genes informativo y para analizar el proceso biológico relacionado con la recurrencia.