Extracto
Estudios recientes sugieren que la desregulación de las vías, en lugar de genes individuales, puede ser crucial en el desencadenamiento de la carcinogénesis. La desregulación vía es a menudo causada por la desregulación simultánea de más de un gen en la vía. Esto sugiere que genes robusto par combinaciones pueden explotar las reacciones biomoleculares subyacentes que son relevantes para la desregulación vía y por lo tanto podrían proporcionar mejores biomarcadores para el cáncer, en comparación con los genes individuales. Con el fin de validar esta hipótesis, en el presente trabajo, se utilizó genes combinaciones de pares, llamados dobletes, como entrada a los algoritmos de clasificación del cáncer, en lugar de los valores de expresión originales, y hemos demostrado que la precisión de la clasificación se ha mejorado constantemente a través de diferentes conjuntos de datos y clasificación algoritmos. Hemos validado el enfoque propuesto el uso de nueve conjuntos de datos de cáncer y cinco algoritmos de clasificación, incluyendo Análisis Predicción para micromatrices (PAM), árboles de decisión C4.5 (DT), Naive bayesiano (NB), Apoyo Vector Machine (SVM), y k-vecinos más cercanos (
k-
NN)
Visto:. Chopra P, Lee J, Kang J, Lee S (2010) Mejora de cáncer Clasificación de Precisión El uso de pares de genes. PLoS ONE 5 (12): e14305. doi: 10.1371 /journal.pone.0014305
Editor: Joel S. Bader, Johns Hopkins University, Estados Unidos de América
Recibido: February 2, 2010; Aceptado: 18 Noviembre 2010; Publicado: December 21, 2010
Derechos de Autor © 2010 Chopra et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo fue apoyado por el segundo cerebro Corea 21 Proyecto Grant, Microsoft Research Asia Grant, una Fundación Nacional de Investigación de subvención financiado por el gobierno de Corea Corea (NRF) (MEST) (2.010 a 0.015.713, desde 2009 hasta 0.086.140), y una ciencia y Corea Fundación de Ingeniería (KOSEF) subvención financiado por el gobierno de Corea (MEST) (R01-2008-000-20564-0). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
el uso de microarrays de ADN ha dado como resultado la identificación y el seguimiento de numerosos genes marcadores de cáncer. Estos genes han sido ampliamente utilizados para diferenciar no sólo muestras de tejido canceroso de las sanas normales, sino también entre diferentes sub-tipos de cáncer [1] - [3]. Desde el punto de vista del diagnóstico, es importante identificar correctamente el tejido canceroso de manera que el tratamiento más adecuado se puede administrar tan pronto como sea posible
.
Numerosos clasificadores se han propuesto y evaluado por su precisión comparativa en el cáncer de identificar correctamente tumores [4] - [7]. El más prominente de estos clasificadores son PAM [8], SVM [9], [10],
k-
NN [11], DT [12], que alcanzaron el Top Par (TSP) [13], y
k-
Inicio alcanzaron el par (
k-
TSP) [6]. Los resultados de estos estudios indican que no hay clasificador único que tiene la más alta precisión para todos los conjuntos de datos de microarrays de expresión. En este trabajo, se introduce un nuevo método que utiliza pares de genes para mejorar la precisión global de los métodos de clasificación existentes, sin alterar los algoritmos subyacentes.
La investigación reciente ha puesto de manifiesto que las vías biomoleculares pueden ser más fuertes biomarcadores para el cáncer, como en comparación con la desregulación de los genes individuales [14]. La desregulación de un subconjunto diferente de genes asociados a la misma vía, puede resultar en la desregulación de la vía. Inspección de combinaciones de genes pueden por lo tanto ser más eficaz para la clasificación del cáncer en comparación con la inspección independientemente genes individuales. Motivado por que, el método propuesto utiliza la información derivada de las combinaciones de pares de genes, en lugar de los valores de expresión de los genes originales. Nosotros usamos la información derivada como la entrada a los métodos de clasificación existentes. Se demuestra que estas combinaciones de pares de genes, llamados dobletes, mejorar constantemente la precisión de la clasificación de los algoritmos de clasificación existentes.
La importancia del método propuesto es que sin cambiar los algoritmos de clasificación subyacentes podemos mejorar significativamente el rendimiento de la algoritmos de construcción de dobletes y simplemente mediante el uso de ellos como entrada, en lugar de los valores de la expresión de genes en bruto. Los dobletes se pueden construir de varias maneras. En el presente trabajo, hemos experimentado con tres diferentes tipos de dobletes:
sumdiff
,
mul
y
signo
dobletes. La
sumdiff
dobletes están construidos tomando la suma y la diferencia de todos los pares de los vectores de expresión de genes de tal manera que un doblete se representa como un vector suma o diferencia de dos vectores de genes. El
mul
dobletes están construidos de manera similar mediante la adopción de multiplicación y el
firmar
dobletes se construyen mediante la adopción de los signos de las diferencias de los dos vectores de genes. Se refieren a la sección de "Materiales y Métodos" para más detalles.
Resultados
LOOCV
se llevó a cabo (
Deja Un hacia fuera Validación Cruzada
) para medir la exactitud de la clasificación basada en doblete. Para probar una muestra, todas las muestras, pero la prueba, se utilizan para calcular la de genes, y los genes están dispuestos de acuerdo con los valores absolutos de las puntuaciones descendente. La fórmula utilizada para calcular el puntaje es (1), donde representan las medias de la clase; representan las varianzas; y representan el número de muestras para las dos clases y, respectivamente.
A continuación, seleccionamos el 0.2% más alto, 0,4%, 0,6%, 0,8%, 1%, 2%, 4%, 10% de la número total de genes en el conjunto de datos para la toma de dobletes. Podamos aún más los dobletes de modo que ningún gen aparece más de una vez en el último set de dobletes. El algoritmo que utilizamos para formular estos dobletes únicas del conjunto de datos de microarrays de expresión original, se describe de la siguiente manera
Entrada
:. Expresión Génica Matrix con los genes y las muestras, clase vector para las muestras y para el número de los genes necesarios para el análisis
salida
:.. dobletes únicos
1. Calcular t-resultados de la matriz utilizando vectores clase
2. hacer una lista ordenada de todos los genes, en la disminución de valor de su absoluta T-score.
3. tomar la parte superior genes de la lista ordenada, y extraer sus valores de expresión de. La nueva matriz de expresión tiene filas y columnas.
4. Hacer dobletes de obtener una nueva matriz, con filas y columnas.
5. Calcular t-resultados de la matriz utilizando vectores clase.
6. Haga una lista ordenada de todos los dobletes en, en la disminución de valor de su absoluta T-score.
7. Inicializar como una lista vacía
8. forall
dobletes
en
do (decreciente t-score absoluta); Si ninguno de los genes en el doblete está en, a continuación, añadir doblete a
9. Volver
La precisión de los algoritmos originales se mide utilizando todos los valores de expresión de los genes primas como entrada. Nos referiremos a la precisión del algoritmo original, por ejemplo para PAM, como PAM, y la precisión obtenida utilizando
sumdiff /mul /firmar
dobletes como entrada al PAM como
sumdiff /mul /signo-
PAM, respectivamente. La Figura 1 compara la precisión del clasificador PAM estándar a la de
sumdiff /mul /muestra de
PAM, obtenido a partir de los genes superiores%, para los nueve conjuntos de datos que figuran en la Tabla 1. Se puede observar que, incluso teniendo un pequeño porcentaje de la parte superior genes y hacer dobletes podría mejorar el rendimiento de PAM. El
sumdiff /mul /PAM muestra de
clasificador supera el clasificador PAM estándar en muchos conjuntos de datos.
Para los dos conjuntos de datos, sistema nervioso central y DLBCL, esta ganancia es sustancial. Por ejemplo, con
muestra de
PAM usando los mejores genes de 2%, la precisión aumentó de 82,4% a 91,2% para el conjunto de datos del SNC; y para el conjunto de datos DLBCL, la precisión aumentó de 85,5% a 97,4%. El promedio de precisión del clasificador PAM para los nueve conjuntos de datos ha aumentado del 88,7% al 90,6%, 89,3% y 91,7% con
sumdiff
,
mul
y
muestra de
PAM con altos 2% de genes, respectivamente.
Podemos hacer dos observaciones de este resultado. Se requiere sólo un pequeño número de los mejores genes para lograr mejoras y que las mejoras son bastante consistentes a través de los conjuntos de datos. Con el fin de demostrar si estas observaciones siguen siendo válidos para otros métodos de clasificación, hemos realizado los mismos experimentos usando diferentes métodos de clasificación, incluyendo el DT, NB, SVM y
k-
clasificadores NN.
Figura 2 muestra los resultados de la comparación con DT. La precisión de DT se ha mejorado constantemente a través de los nueve conjuntos de datos. En algunos casos, las mejoras fueron significativas. Por ejemplo,
sumdiff-
DT mejoró la exactitud de DT de 64,8% a 77,3% en el conjunto de datos Pros.2 utilizando los mejores 4% de genes; del 73,6% al 93,1% en el conjunto de datos de la leucemia con sólo los mejores 0,2% de genes; y de 80,5% a 98,7% en el conjunto de datos DLBCL con sólo los mejores 0,2% de genes. Del mismo modo,
multi-
DT mejoró la precisión de la DT de 64,8% a 84,1% en el conjunto de datos utilizando los mejores Pros.2 0,4% de genes; del 84,9% al 100% en el conjunto de datos con los mejores Pros.3 0,4% de genes; y de 80,5% a 97,4% en el conjunto de datos DLBCL con el 1% más genes. Por último,
muestra de
DT mejoró la precisión de la DT de 84,9% a 97,0% en el conjunto de datos utilizando los mejores Pros.3 0,2% de genes; desde 73,6% a 95,8% en el conjunto de datos de la leucemia con la parte superior 0,6% de genes; y de 77,4% a 93,6% en el conjunto de datos de colon con los mejores 0,6% de genes. En promedio, durante los nueve conjuntos de datos, la exactitud de DT se mejoró de 78,9% a 85,2%, 84,2% y 89,1% utilizando
sumdiff
,
mul
y
signo
dobletes con los mejores genes 0,8%, respectivamente.
del mismo modo para NB, la precisión se mejoró significativamente con
sumdiff
y
mul
dobletes. El resultado se muestra en la Figura 3. Una observación interesante es que hicimos para NB
firmar
dobletes rendimiento siempre es peor que los otros independientes del número de la parte superior genes utilizados para la generación doblete. Esto se debe a que los dobletes
signo
transforman los valores de expresión en variables binarias que indican el orden del nivel de expresión entre los genes en los pares de genes y los valores binarios transformados no conservan suficiente información para calcular la probabilidad de clases utilizadas para la clasificación . Por lo tanto, los
signo
dobletes no son adecuados para los clasificadores NB. No obstante, las mejoras de rendimiento con
sumdiff
y
mul
dobletes fueron sustanciales. En el conjunto de datos Pros.1, tanto
sumdiff /multi-
NB mejoró la precisión del 62,8% al 91,2%, con los mejores genes 0,2%; en el conjunto de datos de colon, la precisión se mejoró de 56,5% a 87,1% y el 88,7% con el 1% de genes, respectivamente. Finalmente, en el conjunto de datos DLBCL, la precisión se mejoró de 80,5% a 96,1% y 92,2%, con los mejores 0,2% de genes, respectivamente. En promedio, la precisión se mejoró de 81% a 90,7% y 89,5% con
sumdiff
y
mul
dobletes con los mejores genes 0,2%, respectivamente.
SVM es conocido por ser uno de los más robustos clasificadores en muchos dominios. Aunque su actuación fue convincente por sí mismo, se observó que en algunos casos nuestro enfoque doblete mejoró significativamente su rendimiento. El resultado se muestra en la Figura 4. En el conjunto de datos de colon, la ganancia de rendimiento fue de lo más sorprendente. La precisión se mejoró de 82,3% a 87,1%, 87,1% y 93,6% con
sumdiff /mul /signo
dobletes con el 1% de genes, respectivamente. En el conjunto de datos Pros.2, la precisión se mejoró de 76,1% a 80,7%, 84,1% y 85,2% con la parte superior 8%, 0,2% y 1% de genes, respectivamente. En promedio, la precisión se mejoró de 91,2% a 92%, 91,9% y 89,4% con
sumdiff /mul /firmar
dobletes con los mejores 4% de genes, respectivamente.
por último, para
k-
NN, el mismo se observó, como se muestra en la Figura 5. para
k-NN
, la ganancia de rendimiento fue sustancial en casi todos los conjuntos de datos. Por ejemplo, en el conjunto de datos de la leucemia, la precisión se mejoró de 84,7% a 98,6%, 98,6%, y 100% con
sumdiff /mul /signo
dobletes con el 2%, 0,8% y 0,2% de genes , respectivamente. En promedio, la precisión se mejoró de 84,3% a 91%, 90,1% y 90,7% con
sumdiff /mul /firmar
dobletes con los mejores 4% de genes, respectivamente.
otros dobletes que el
signo
en el clasificador NB, el uso de tres dobletes condujeron a un mejor desempeño de los clasificadores de línea de base. tasas de precisión media de los clasificadores basales de más de los nueve conjuntos de datos variaron del 79% al 91% (es decir, DT = 79%, kNN = 84%, NB = 81%, SVM = 91%, y PAM = 89%). Por otro lado, sus tasas medias con dobletes mantenido en un rango superior, o del 89% al 92% (es decir,
muestra de
DT = 89%,
sumdiff-
kNN = 91 %,
sumdiff-
NB = 89%,
sumdiff-
SVM = 92%, y
multi-
PAM = 90%; todas las figuras con los mejores 4% de genes ). Los clasificadores de referencia mostraron una diferencia de rendimiento sustanciales entre ellos. Cuando se trata de dobletes, sin embargo, la diferencia se reduce al mínimo y el rendimiento se ha mejorado. Todos los tres tipos doblete casi igualmente contribuyeron a la mejora del rendimiento a través de varios conjuntos de datos (excepto el
signo
dobletes en el NB). El
sumdiff /mul /firmar
dobletes con los mejores 4% de genes precisiones medias marcadas durante los cinco clasificadores de 88,7% (std. 3,4), 88,5% (std. 3.8), y el 85,4% (std. 9.9 ), respectivamente. Los
sumdiff
dobletes demostraron un rendimiento ligeramente mejor que los otros hicieron. Este resultado es posiblemente atribuible al hecho siguiente: El
sumdiff
dobletes captar tanto de las relaciones hacia arriba y hacia abajo (es decir, hasta arriba, abajo, abajo y arriba-abajo) y de las relaciones de orden del valores de expresión de cada par de genes. Por el contrario, el
mul
dobletes capturar sólo la primera, y el
signo
dobletes capturar este último solo. (Vea la sección de Materiales para más detalles.)
Discusión
Un estudio reciente sugiere que la desregulación vía de nivel es más importante para la carcinogénesis de la desregulación de los genes individuales [14]. Una vía es típicamente desregulado por la desregulación de más de un gen que está asociado con la vía. Esto apoya nuestra motivación para utilizar dobletes como características para la clasificación, ya que los dobletes podrían capturar potencialmente más información sobre el nivel de desregulación vía de los genes individuales. En este estudio, sin embargo, los dobletes se agruparon de diversas vías; es decir, no se limita a las de los pares de genes que pertenecen a las mismas vías. Al permitir que todas las posibles combinaciones de genes, hemos tratado de captar no sólo las interacciones directas intra-vía, sino también algunas de las posibles asociaciones entre las vías indirectas. Tenemos la intención de seguir en nuestro trabajo futuro, los casos en los que sólo se utilizan los dobletes intra-vía.
Una serie de estudios independientes han atestiguado la eficacia de la combinación de pares de genes. Zhou y sus colegas han introducido una técnica llamada
de segundo orden análisis de correlación
en el que se utilizan las correlaciones por pares de genes para la clasificación funcional de los genes [15]. Su enfoque funciona de la siguiente manera: En primer lugar computarizada son todas las correlaciones por pares de genes dentro de cada conjunto de datos (correlaciones 1er orden); a continuación, los patrones de correlación se analizaron a través de múltiples conjuntos de datos (correlaciones de 2º orden). La selección se hace de los pares de genes que muestran altas correlaciones en múltiples conjuntos de datos, y los dobletes formulario seleccionado. Un doblete se representa como un vector de modo que su dimensión y valor, respectivamente, corresponden a un conjunto de datos y para el valor de correlación del par de genes en el conjunto de datos correspondiente. Los dobletes A continuación se agrupan usando la correlación como similitud métricas. Los dobletes agrupados juntos se consideran para compartir funciones similares, ya que se convierten-dentro y fuera de forma colectiva a través de conjuntos de datos.
También hemos desarrollado técnicas de integración de datos de microarrays que se aprovechan de las relaciones entre los genes, como
correlación firma
[16] y
firma cubo
[17]. El
firma correlación
proyecta los datos de microarrays de expresión heterogéneos en un espacio de información coherente que un gen está representado por el vector de sus correlaciones en contra de una serie de genes señal. Si se utiliza el mismo conjunto de puntos de referencia, microarrays de datos heterogéneos, que no podría haber sido combinados directamente, se pueden integrar, debido a que las firmas de correlación de los genes tienen dimensiones compatibles. El
cubo de la firma
generaliza los principios de la firma de correlación, proporcionando un marco de minería de datos de microarrays heterogénea, donde los datos se representan en términos relativos (es decir, las relaciones entre genes). Por lo tanto, el algoritmo de minería es coherente aplicable en toda conjuntos de datos. Además de la integración de datos de microarrays, también hemos aplicado el principio al problema de la agrupación y hemos introducido un nuevo marco de la agrupación,
SignatureClust
[18].
SignatureClust
datos de microarrays racimos después de la proyección en un espacio firma definida por un conjunto de genes señal elegidos por el usuario, lo que permite a los biólogos a obtener diferentes perspectivas de los mismos datos subyacentes simplemente cambiando los genes Landmark.
también se ha demostrado que la información inter-gen es útil a efectos de clasificación del cáncer. El
k-
TSP explota los cambios en los niveles de expresión de los pares de genes con el fin de mejorar la precisión de la clasificación [6]. El
k-
TSP clasificador utiliza pares de genes que son similares a los dobletes
signo
. El
k-
TSP clasificador identifica los pares de genes cuya expresión órdenes se invierten constantemente a través de las clases; es decir, si en la mayoría de las muestras de control y en la mayoría de las muestras de cáncer, entonces el
k-
TSP clasificador que se refiere al par de genes y como un buen indicador de las clases. El
k-
TSP clasificador encuentra los pares Top-, conocidos como (Top Pares de Scoring) TSP, y las utiliza para determinar las clases. El
k-
TSP clasificador combina la predicción de cada TSP mediante el voto por mayoría ponderada para determinar la clase final de una muestra. Recientemente, el
k-
algoritmo TSP también se ha utilizado para mejorar la precisión de la clasificación del clasificador SVM [19].
Nuestro método es diferente de la
k-
clasificador TSP en tres aspectos importantes. En primer lugar, -TSP está diseñado para trabajar con un solo tipo de emparejamiento gen (similar a nuestros dobletes
signo
), mientras que nuestro método no se limita a tipos específicos de emparejamiento. En el presente trabajo, hemos definido tres dobletes, es decir,
sumdiff
,
mul
y
firman
, pero varios otros dobletes también se pueden utilizar con el marco propuesto. En segundo lugar, nuestro método de usos existentes así clasificadores en lugar de diseñar nuevos modelos de clasificación establecido. Esto fue posible gracias a nuestro método separa el emparejamiento paso de genes (es decir, el paso de extracción de características) de la construcción del modelo de clasificación. Por último, el
k-
TSP clasificador utiliza la frecuencia como una métrica para asignar puntuación a sus pares de genes, mientras que nosotros utilizamos fiable
t-resultados
. Tabla 2 resume los resultados de precisión de los dobletes y los clasificadores de línea de base, así como la exactitud de TSP y
k-
TSP. TSP se refiere al caso en el que sólo se utilizó la única TSP más influyente para la clasificación. El TSP y
k-
clasificadores TSP reportaron un sólido rendimiento, superando a la mayoría de los clasificadores de línea de base. Aún así, los dos clasificadores están a la altura con el fin de nuestro estudio. Este estudio es importante ya que se demostró que un simple método de extracción de características basadas en doblete mejora notablemente la exactitud de los clasificadores convencionales de todo el camino hasta el nivel de los algoritmos de clasificación especializadas como TSP y
k-
TSP.
los 15 dobletes y sus asociados KEGG vías para la CNS de datos se muestran en la Tabla 3. Una posible explicación de por qué la exactitud doblete es más alta que las de los clasificadores de línea de base podría ser que las vías asociadas con cada elemento del doblete de alguna manera están entrelazados unos con otros, y por lo tanto formar un biomarcador más robusto en comparación con cada uno de los caminos tomados individualmente. Sin embargo, se requiere una investigación más robusta antes de cualquier hipótesis puede ser validada. En nuestro trabajo futuro, tenemos la intención de llevar a cabo un análisis sistemático de estos dobletes superiores, sus vías asociadas y sus posibles vínculos con el cáncer.
Hemos demostrado que la combinación de los datos de expresión de pares de genes aumenta la precisión de los clasificadores. También hemos demostrado que el aumento del número de genes para la fabricación de dobletes no necesariamente resulta en un aumento proporcional en la precisión. Esto es importante porque podemos conseguir una precisión muy alta a pesar de que se utiliza un subconjunto muy pequeño del número total de genes. Por lo tanto, la complejidad computacional de dobletes de computación, que potencialmente pueden ser cuadrática para el número total de genes en el conjunto de datos, no es crítica, ya que sólo se utiliza un subconjunto muy pequeño de los genes.
Los genes que comprenden la parte superior dobletes también proporcionan resultados fácilmente interpretables, en comparación con otros métodos como la SVM. Aunque SVM puede proporcionar una mayor precisión que los demás, es esencialmente una caja de negro y no pueden obtener ciertas ideas con respecto a los genes de biomarcadores. Dobletes, por otra parte, son fácilmente interpretable. Dobletes identificar qué genes y qué pares de genes pueden servir como biomarcadores para la clasificación de los tumores.
En el futuro, tenemos la intención de analizar estos dobletes a través de conjuntos de datos y tipos de cáncer para seleccionar más robustos pares de genes biomarcadores del cáncer. Sobre todo, vamos a investigar cómo los dobletes individuales se asignan a las relaciones reales genes ", tales como la supresión o estimulación, y cómo funcionan las relaciones con respecto a la carcinogénesis. Asimismo, se pretende que el examen de la eficacia de dobletes en la clasificación de conjuntos de datos multi-clase de cáncer.
Conclusión
La contribución de este trabajo es doble. En primer lugar, se ha introducido dobletes, un nuevo método para combinar los datos de expresión de pares de genes. pares de genes son marcadores biológicos más robustas en comparación con los genes individuales, quizás reflejando el hecho de que los genes interactúan para realizar una función molecular y la desregulación de los genes en la interacción, en lugar de genes independientes, pueden ser responsables de la desregulación de las vías críticas. En segundo lugar, hemos combinado dobletes con clasificadores convencionales para producir clasificadores cuya precisión es mayor que la de los originales. Hemos validado el marco usando cinco clasificadores bien conocidos que incluyen PAM, DT, NB, MVS y kNN. Hemos demostrado que los dobletes pueden ser fácilmente incorporados en los clasificadores existentes sin tener que cambiar los algoritmos subyacentes, y que el uso de dobletes podemos mejorar constantemente la precisión de la clasificación de los algoritmos originales a través de diferentes conjuntos de datos.
Materiales y Métodos
Gene dobletes
que no haya
N
genes en una muestra de tejido, y deja que haya
M
tales muestras de tejido. El conjunto de datos cáncer podría entonces ser representada como matriz de dimensión. Entonces, denotaría el valor de la expresión
i-ésimo
gen, en el
j-ésima muestra de
,. El vector de genes = denotaría el valor de la expresión
i-ésimo
gen a través de los
M
muestras de tejido, y el vector columna = representaría el
j-ésimo
muestra de tejido a través de la
N
genes. Las etiquetas de clase para las muestras de tejido están representados por = vector, en donde, el conjunto de todas las etiquetas de clase. Para nuestro problema de clasificación binaria, donde denota canceroso y denota muestras de tejido normal.
Para cada par de genes en un conjunto de datos, definimos un vector doblete positivo y negativo de un vector doblete como (2) (3)
por lo tanto, para nuestro conjunto de datos con los genes, que tienen dobletes positivos y negativos dobletes, y nuestro conjunto de datos de microarrays original de dimensión se transforma en una matriz. Cada fila de esta nueva matriz representa un doblete (positivo o negativo). Denotamos esta matriz como, con la dimensión, donde; por lo tanto, los dobletes definidos son conocidos como
sumdiff
dobletes. En otra variación de hacer dobletes, definimos el
mul
dobletes como: (4) y
firmar
dobletes como: (5)
El
sumdiff
dobletes tomas de primer plano, las relaciones de los valores de expresión de pares de genes abajo-abajo (es decir, dobletes positivos) y arriba-abajo (es decir, dobletes negativas). Además, los dobletes negativos capturan el orden de los valores de expresión entre los genes en el par de genes. Obsérvese por favor que los datos fueron procesados para tener un valor mínimo de 10 y un máximo de 16.000. A partir de entonces, los valores fueron convertidos a través. Entonces, todas las muestras fueron normalizados a media cero y varianza unidad. El
mul
dobletes no sólo captar las relaciones existentes hasta arriba, abajo, abajo, y arriba-abajo de pares de genes, sino también ampliar las relaciones a través de la multiplicación. Sin embargo, el
mul
dobletes no captan las órdenes de expresión entre los genes. Por otro lado, el
signo
dobletes captura de pedidos de expresión de genes entre sí sola.
métodos de clasificación de datos de microarrays y
Los datos de microarrays se ha tomado de varios estudios, como se muestra en la Tabla 1. Estos son los mismos conjuntos de datos que se utilizaron en [6] para la comparación de TSP y
k-
TSP con varios clasificadores. Los microarrays se componen de los datos de expresión para los tejidos asociados con el colon, sangre, pulmón, mama, próstata, y cáncer del sistema nervioso central. El número de muestras y el número de genes en cada estudio se muestran también en la Tabla 1. Para los clasificadores de línea de base, se utilizaron las implementaciones disponibles en Bioconductor (por PAM) [20] y Weka (por DT, NB, SVM y kNN) [21].
Clasificación de precisión
utilizar el
LOOCV gratis (
Deja Un hacia fuera Validación cruzada
) método para estimar la precisión del clasificador. Para cada muestra en el conjunto de datos, utilizamos el resto de las muestras en el conjunto de datos para predecir la clase de la muestra. La precisión de la clasificación de cada conjunto de datos es la relación entre el número de las muestras clasificadas correctamente (verdaderos positivos + verdaderos negativos) al número total de muestras de ese conjunto de datos.
Reconocimientos
Este documento es una versión sustancialmente ampliada de nuestro trabajo preliminar presentado en el 2009 IEEE Conferencia Internacional sobre Bioinformática y Biomedicina [22]. El documento presentado en la conferencia presentó los resultados preliminares limitados sólo a un algoritmo de clasificación en particular, PAM. En este trabajo prolongado, que generalizamos los hallazgos al demostrar que la información derivada de robustas pares de genes podría mejorar la exactitud de la clasificación del cáncer independiente de los algoritmos de clasificación subyacentes. También hablamos sobre la interpretación de los pares de genes en los dobletes altamente indicativos y su asociación con el cáncer.