Extracto
análisis de datos de microarrays se ha demostrado proporcionar una herramienta eficaz para el estudio de cáncer y enfermedades genéticas. Aunque las técnicas de aprendizaje automático clásicos han aplicado con éxito para encontrar los genes informativos y para predecir la clase de etiquetas para las nuevas muestras, las restricciones comunes de análisis de microarrays, tales como muestras de pequeño tamaño, un espacio de atributos grandes y altos niveles de ruido todavía limitan sus aplicaciones científicas y clínicas. El aumento de la interpretación de los modelos de predicción al tiempo que conserva una alta precisión ayudaría a explotar la información contenida en los datos de microarrays de manera más eficaz. Con este fin, evaluamos nuestros sistemas basados en reglas de la máquina de aprendizaje evolutivo, BioHEL y GAssist, en tres conjuntos de datos de microarrays cáncer públicas, la obtención de modelos simples basados en reglas para la clasificación de las muestras. Una comparación con otros clasificadores de muestras de microarrays de referencia en base a tres diversos algoritmos de selección de características sugiere que estas técnicas de aprendizaje evolutivo pueden competir con los métodos del estado de la técnica como máquinas de vectores soporte. Los modelos obtenidos alcanzan una precisión de más del 90% en dos niveles de validación cruzada externa, con el valor añadido de facilitar la interpretación mediante el uso de sólo las combinaciones de simples reglas if-then-else. Como beneficio adicional, un análisis de la literatura minera revela que priorizaciones de los genes informativos extraídos de conjuntos de reglas de clasificación de BioHEL puede superar el ranking de genes obtenidos a partir de una selección de características de conjunto convencional en términos de la información mutua puntual entre los términos de las enfermedades referidas, y los nombres normalizados de láminas superior clasifican los genes
Visto:. Glaab e, J Bacardit, Garibaldi JM, Krasnogor N (2012) que usa la máquina basada en reglas de aprendizaje para la Enfermedad Gen Candidato Priorización y Muestra Clasificación de los datos de expresión de genes del cáncer. PLoS ONE 7 (7): e39932. doi: 10.1371 /journal.pone.0039932
Editor: Christos A. Ouzounis, El Centro de Investigación y Tecnología, Hellas, Grecia
Recibido: 29 Enero, 2012; Aceptado: 29-may de 2012; Publicado: 11 Julio 2012
Derechos de Autor © 2012 Glaab et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Reconocemos apoyo por el programa Marie-Curie en etapa temprana-Formación (MEST conceder-CT-2004- 007597), por el Reino Unido de Ingeniería y Ciencias físicas Research Council (EP /E017215 /1, EP /H016597 /1 y EP /J004111 /1) y la Biotecnología y Ciencias Biológicas de Investigación (BB /F01855X /1). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
perfiles de expresión génica y análisis de datos es un método ampliamente utilizado para obtener nuevos conocimientos sobre la regulación de procesos celulares en los sistemas biológicos de interés. Para este propósito, los métodos estadísticos comunes y técnicas de aprendizaje automático se pueden emplear, incluyendo los métodos de agrupamiento para descubrir las clases de muestras biológicas relacionadas, los métodos de selección para identificar los genes informativos y métodos de clasificación para asignar etiquetas de clase a muestras de células con las condiciones biológicas desconocidas.
Aquí nos centramos en el análisis de la expresión génica supervisada de datos de microarrays cáncer utilizando la función de selección y clasificación de los métodos. Seguir avanzando en la exactitud y la interpretación de los modelos de clasificación de microarrays es de gran interés práctico, ya que un diagnóstico de cáncer más precisa utilizando microarrays ayudaría a evitar la selección de una terapia inadecuada.
A pesar de las precisiones alta de predicción ya se han alcanzado en muchos microarrays conjuntos de datos de cáncer, los modelos son a menudo muy complejos y difíciles de interpretar, y carecen de robustez cuando se aplica en los datos externos de otras plataformas experimentales. En concreto, se presentan los desafíos de los pequeños tamaños de muestra, un gran número de genes poco informativos, altos niveles de ruido, varios valores atípicos y sesgo sistemático. Mientras que los experimentos a menudo pueden llevarse a cabo con una alta reproducibilidad en un único laboratorio, los resultados obtenidos con base en diferentes tecnologías de chip y procedimientos experimentales de los diferentes laboratorios a menudo son difícilmente comparables. Algunos de estos problemas pueden resolverse mediante el uso de métodos de normalización entre estudios y análisis de microarrays integradora [1], [2] o mediante la combinación de datos de microarrays con los datos clínicos [3], [4]. técnicas de aprendizaje Conjuntos Para obtener más mejoras, en estudios anteriores que hemos empleado [5] - [7] y los datos integrados de vías celulares, redes de co-expresión y las interacciones moleculares en el análisis [8] - [11]. Sin embargo, sigue existiendo la necesidad de métodos de predicción más preciso, robusto y de fácil interpretación.
Con el fin de aliviar algunos de los problemas típicos de los estudios de microarrays actuales y mostrar los beneficios de los sistemas de aprendizaje automático evolutivo basado en reglas para microarrays clasificación de la muestra, como resultado de las capacidades de la computación evolutiva y la interpretabilidad mejorada de reglas de decisión, evaluamos nuestros sistemas de aprendizaje automático previamente desarrolladas BioHEL [12] - [15] y GAssist [16] - [20] en tres gran escala, pública cáncer de microarrays conjuntos de datos.
métodos de aprendizaje evolutivo ya se han aplicado con éxito en diferentes estudios de microarrays, por ejemplo, para la selección de subconjuntos informativos de genes [21] - [23], para el agrupamiento y biclustering [24] - [26] y la clasificación de la muestra [27] - [29]. Por otra parte, en los últimos años nuevos enfoques basados en reglas de clasificación fueron probados con éxito en la matriz de datos de alta dimensión gen [30] - [33], proporcionando gobierno humano-interpretables establece como modelos
Los sistemas de aprendizaje automático presentan en. En este trabajo se combinan estos dos paradigmas, búsqueda evolutiva y aprendizaje de reglas, proporcionando tanto una exploración del espacio de búsqueda eficaz y un modelo mejorado interpretabilidad. En particular, las reglas conjuntivas de BioHEL pueden señalar que el experimentador potencial asociación funcional entre los genes [34], y sus disposiciones de rango de valores proporcionar al usuario una indicación de si un gen tiende a ser hacia arriba o hacia abajo-regulada en la condición biológica correspondiente, dado el rango de valores completa en todas las muestras. Un ejemplo de todo el protocolo de análisis se muestra en la Fig. 1. En primer lugar, normalizar cada conjunto de datos de microarrays y pre-filtro de los atributos para reducir la dimensionalidad. A continuación, aplicamos nuestros algoritmos de aprendizaje
BioHEL
[12] - [15] y
GAssist
[16] - [20] en combinación con diferentes algoritmos de selección de características utilizando un esquema de validación cruzada y repetir este proceso con tres clasificadores alternativas (véase el protocolo experimental). En el último paso, la predicción de resultados generados y las sondas genéticas (más tarde conocido por sus correspondientes genes) que fueron considerados como más informativo por el sistema de aprendizaje son analizados estadísticamente y el uso de un enfoque de minería de texto para encontrar asociaciones entre los términos de las enfermedades referidas, y . estandarizadas correspondientes identificadores de genes
El protocolo consta de tres pasos: 1) Pre-procesamiento; 2) análisis supervisado; . 3) Post-análisis
Vamos a discutir estos pasos en detalle de acuerdo con la siguiente estructura: En la sección Métodos proporcionamos una descripción paso a paso de nuestros experimentos y explicar cada uno de los utilizados técnicas en detalle, que tratan en primer lugar con los criterios de selección de función, luego con la BioHEL sistemas de aprendizaje automático y GAssist, y finalmente con los conjuntos de datos y métodos de tratamiento previo. La sección de resultados contiene los resultados de la predicción de la ejecución de BioHEL, GAssist y los clasificadores alternativos en los tres conjuntos de datos de microarrays de cáncer. Por otra parte, esta sección presenta un análisis posterior de los resultados utilizando la minería literatura biomédica. En la sección de Conclusiones, proporcionamos un panorama sobre otras posibles extensiones del marco de clasificación.
En resumen, el objetivo general del estudio era obtener modelos más biológicamente interpretables para clasificar las muestras de cáncer de microarrays, que permiten una robusta priorización de los biomarcadores putativos y llegar precisión de la predicción de la competencia. En lugar de ajustar los algoritmos o re-desarrollar desde cero para maximizar la precisión a costa de mayor complejidad, el objetivo se logró mediante un nuevo análisis de tuberías que investiga cómo los diferentes algoritmos se benefician de la función de selección externa, y que explota los beneficios conocidos de la evolución existente algoritmos en términos de exploración y explotación del espacio de búsqueda, y de métodos de aprendizaje basados en reglas en cuanto a la interpretabilidad.
métodos
Protocolo Experimental
Nuestro análisis de tuberías para comparar ambos característica de selección y métodos de predicción para la clasificación de las muestras de microarrays se compone de tres pasos básicos: los datos de pre-procesamiento, el análisis de los datos y análisis posterior de los resultados supervisado
En la primera etapa, los microarrays de datos son pre-procesados. y normalizado (véase la sección Conjuntos de datos). A continuación, se realiza una validación cruzada externa [35], es decir, en cada ciclo de la validación cruzada, en primer lugar se aplica un método de selección de función en la formación de datos actuales y el subconjunto resultante de características se utiliza para clasificar las muestras conjunto de ensayo con un método de aprendizaje automático. Este procedimiento se emplea el uso tanto de 10 veces la validación cruzada (CV, con divisiones aleatorias sino escisiones consistentes a través de todas las comparaciones) y dejar uno fuera CV (LOOCV) y diferentes combinaciones de selección de características y algoritmos de clasificación. En concreto, los métodos de selección incluyen el filtro univariado "parcial por mínimos cuadrados de funciones basadas Selección" (ENNIV), el filtro combinatoria "basadas en la correlación Selección de características" (CFS) [36] y el método de selección de entidad integrada "basan Random Bosque Selección de características "(RFS, todos los métodos de selección se discuten en detalle más adelante). Los métodos de clasificación incluyen nuestros propios métodos y BioHEL GAssist, una máquina de vectores soporte [37], un clasificador Random Forest (RF) [38] y el "Análisis de Predicción de Microarreglos" método (PAM) [39]; ver diagrama de flujo de la Fig. 1.
En el último paso del protocolo, se utiliza un análisis de la literatura minera para comparar las clasificaciones de sondas genéticas informativas (referido como
genes
en la sección Resultados, porque todas las sondas genéticas seleccionadas podría ser asignada a un identificador único gen a través de la información de asignación proporcionado por el fabricante chip), obtenido a partir de métodos de selección de características clásicas y de un post-tratamiento de los modelos basados en reglas generadas por el enfoque BioHEL.
Conjuntos de datos
Todos los métodos son evaluados en tres conjuntos de datos de microarrays cáncer público representativas de tres tipos diferentes de cáncer: cáncer de próstata (52 muestras tumorales frente a 50 controles) [40], linfoma difuso (58 muestras de linfoma de células B grandes vs. 19 muestras de linfoma folicular) [41], y un conjunto de datos obtenidos a partir de cáncer de mama del Centro Médico Queens colaborar en Nottingham (84 muestras luminales vs. 44 muestras no luminal) [6], [42] - [44] (véase la Tabla 1 ). Los detalles de cada conjunto de datos y pre-procesamiento método utilizado en esta evaluación comparativa se proporcionan en el material S1. Todos los conjuntos de datos pre-procesados también están disponibles en línea (http://icos.cs.nott.ac.uk/datasets/microarray.html), incluyendo los subconjuntos de validación cruzada después de la selección de características.
característica Métodos de selección
el elevado número de características (sondas genéticas) y el relativamente pequeño número de observaciones (muestras) en los estudios de microarrays típicos plantean diversos problemas estadísticos, que son conocidos como la "maldición de la dimensionalidad" en el aprendizaje automático (ver [45]). Por lo tanto, después de la normalización y el filtrado previo de las bases de datos originales, aplicamos diferentes enfoques de selección de características para extraer conjuntos compactos de atributos discriminatorios anteriores a la aplicación de los métodos de clasificación. Por otra parte, con el fin de evaluar en qué medida nuestra máquina de aprendizaje evolutivo se acerca BioHEL y GAssist son capaces de clasificar las muestras sin selección previa atributo, se evalúa el rendimiento predictivo de estos enfoques con y sin una función de selección externo dedicado.
para dar cuenta de la diversidad de los métodos de selección de características, tres tipos de criterios de selección se consideran por separado: un filtro univariado (PLSS [46]), un filtro combinatoria (CFS [36]) y un enfoque de selección incorporado (RFS [38]) . Es importante destacar que sólo tenemos en cuenta los algoritmos que están garantizados para tener un tiempo de ejecución factible incluso en grandes bases de datos, y en vez de tratar de identificar todas las características relevantes, apuntamos a evitar la selección de características redundantes, lo que puede degradar el rendimiento de la clasificación (ver [47 ] para una comparación de la
todos los problemas
selección pertinente en contra de la
mínimo óptimo problema
selección considerada aquí). Para una revisión general de la selección de características acerca de la bioinformática, véase [48].
Para todos los métodos de selección de función del tamaño máximo característica subconjunto se establece en 30 para evitar exceso de montaje, reducir la complejidad del modelo y la probabilidad incluyendo características de falsos positivos (sin embargo, se permiten los métodos para seleccionar de forma flexible a menos de 30 funciones). Este límite superior se seleccionan de acuerdo con los resultados de los estudios que estiman el número aproximado de características que deben seleccionarse en diferentes tipos de estudios de microarrays para obtener sólo las sondas genéticas con valor informativo significativo en el atributo de resultado (utilizando diferentes modelos para calcular las puntuaciones de significación de p-valor , ver [49] - [51]). Los métodos de selección se describen en detalle en los siguientes párrafos.
parcial de mínimos cuadrados de selección de funciones base (ENNIV)
Como representante de un filtro univariado clásica, un método que utiliza el menos parcial (PLS) se emplea Squares [52] algoritmo. En concreto, las características están clasificadas por los valores absolutos del vector de pesos definen el primer componente latente en un modelo PLS que se basa en los datos de entrenamiento. Como se muestra anteriormente [53], el orden de características obtenidos a partir de este enfoque es equivalente a la F-estadístico utilizado en el análisis de la varianza (ANOVA). Así, en lugar del cálculo PLS, la propia F-estadística podría haber sido utilizado, pero PLSS proporciona una manera más eficiente de llevar a cabo el cálculo (el algoritmo de SIMPLS rápido [54] se utiliza para este propósito).
correlación base de selección de funciones (SFC)
el método de filtro combinatoria CFS [36] búsquedas de subconjuntos de características que tienen una alta correlación con la variable de resultado, pero una baja correlación entre sí. Este concepto se formaliza por la siguiente puntuación de las características subconjunto: (1) ¿dónde está el subconjunto seleccionado de características, es la correlación media-clase de entidad y la correlación media-función característica. Mientras que el denominador reduce la puntuación de características correlacionadas para eliminar las variables redundantes, el numerador promueve características con alta correlación con la variable de clase para retenerlos discriminadores como poderosos. Como se propone en la publicación original SFC, se empleó un codicioso primero el mejor estrategia de búsqueda para explorar el espacio de características subconjunto [36].
Bosque aleatorio de selección de características basadas (RFS)
A diferencia de el CSA y el algoritmo PLSS, la selección de atributos basado en el clasificador Random Forest [38] utiliza un método directamente integrado en el algoritmo de predicción. En concreto, un modelo Random Forest se construye mediante la formación de muchos árboles de decisión binarios, sin podar el arranque submuestras de los datos de entrenamiento. La importancia de una característica puede evaluarse basándose en la medida de Gini nodo de índice de impurezas [55], mediante el cálculo de la disminución media de esta medida (ODM) de nodos padre a sus nodos descendientes directos sobre todos los nodos del árbol, o alternativamente, por la media disminución de la precisión (MDA). Diferentes estudios de aprendizaje automático se han obtenido resultados diferentes con respecto a la robustez comparativo de la MDA y ODM [56], [57], pero en los datos de expresión de genes de microarrays los resultados para estas dos medidas de impurezas se han observado a ser muy similares [58]. Así, sólo el criterio MDG será considerado en este estudio. Un subconjunto característica se obtiene del atributo correspondiente clasificación mediante la selección de las características principales (aquí, se elige de modo que los tamaños de subconjuntos obtenidos son comparables a los del método CFS)
Clasificación:. BioHEL y GAssist
BioHEL (Bioinformática-Oriented Learning jerárquica) [12] - [15] es un sistema de aprendizaje automático evolutivo que emplea el iterativo regla de aprendizaje (IRL) paradigma [59], [60] (el código fuente de BioHEL está disponible en Internet: http: //icos.cs.nott.ac.uk/software/biohel.html). El procedimiento IRL comienza con una regla de vacío y el conjunto completo de observaciones como entrada. reglas de clasificación se añaden iterativamente para el conjunto de reglas hasta que su combinación cubre todas las muestras. Los resultados finales se estructuran los conjuntos de reglas, también conocido como
listas de decisión
[61]. Un conjunto de reglas de ejemplo real obtenida en el conjunto de datos de cáncer de próstata se muestra en la Fig. 2 y destaca los diferentes tipos de reglas en BioHEL:
reglas conjuntivas
, que puede proporcionar información sobre las posibles asociaciones entre los genes funcionales;
reglas del rango de valores
, que destacan el preferencial arriba o hacia abajo-regulación de los genes en diferentes condiciones biológicas y la robustez de una asignación de clase en cuanto a la anchura relativa o estrechez de un rango de valores de expresión; y
reglas predeterminadas, que se aplican si se corresponde ninguna de las reglas específicas anteriores. Cada vez que una nueva regla de decisión se ha aprendido y se añade a un conjunto de reglas correspondiente, las observaciones que se retiran las cubiertas de los ejemplos.
"Exp (x)" es la abreviatura de "Expresión del gen x", donde x es un símbolo de genes HUGO "," representa el y-operador conjuntivo, "[x, y]" es un intervalo de valores de expresión en el que el valor del atributo debe estar para cumplir una premisa de la regla, y "- "es un operador de asignación de clase, seguida de la clase de salida de la regla. Regla 5 es una regla que se aplica por defecto si no hay regla anterior se corresponde.
Para explorar el espacio de búsqueda de posibles reglas de manera eficiente, BioHEL utiliza un estándar generacional Algoritmo Genético (AG) que se aplica en cada IRL iteración para encontrar la mejor regla para las muestras que aún no han sido cubiertas por las normas que se encuentran en las iteraciones anteriores. Dado que el gas son no determinista, múltiples repeticiones del proceso de aprendizaje de reglas con conjuntos de entrenamiento idénticas se pueden utilizar para aumentar la probabilidad de encontrar la regla óptima. Además, las repeticiones del proceso de aprendizaje completa (es decir, la generación de un conjunto de reglas completa y no sólo una única regla) también se pueden aplicar, con el fin de combinar varios conjuntos de reglas a una predicción mayoritaria votación por consenso y se benefician de los efectos de la varianza reductores de conjunto de aprendizaje [62].
con el fin de encontrar la mejor regla en cada iteración IRL, la función de aptitud utilizado en el GA cuentas tanto de la exactitud y la generalidad, es decir, el número de observaciones cubiertos, de una regla . En BioHEL, esta función de aptitud se basa en la descripción Longitud mínima (MDL) principio [63] y las recompensas reglas con.
de alta precisión, es decir, reglas que clasifican correctamente la mayoría de las muestras, España
alta cobertura , es decir, normas que responden a muchas muestras, y las reglas
de baja complejidad, es decir, con los predicados simples.
La definición exacta de la función de la aptitud de BioHEL ha sido presentado y discutido en otra parte [15]. Sin embargo, en cuanto a la cobertura general, vale la pena mencionar que las normas en BioHEL que cubren un determinado porcentaje mínimo de observaciones reciben una recompensa alta, pero después de superar este umbral, la recompensa adicional para cubrir más muestras es menor.
BioHEL ha sido fuertemente influenciada por su software predecesor
GAssist
[16] - [20] (http://icos.cs.nott.ac.uk/software/gassist.html), de la que ha heredado la representación del conocimiento. En contraste con el enfoque IRL empleado en BioHEL, GAssist es un sistema clasificador de aprendizaje al estilo de Pittsburgh [64], es decir, las personas que se desarrollaron en un AG generacional son las reglas de clasificación no individuales, sino conjuntos de reglas que representan soluciones tentativas completa del problema de minería de datos . Para la definición exacta de la fórmula de la aptitud de GAssist, véase [16].
comparaciones empíricas anteriores de BioHEL y GAssist han demostrado que GAssist tiende a obtener mejores resultados en pequeños conjuntos de datos, mientras que su sucesor BioHEL ofrece un rendimiento superior en grandes conjuntos de datos , tanto en términos de número de instancias y /o el número de atributos. Por lo tanto, empleamos ambos métodos aquí para investigar su poder predictivo con respecto a los datos de microarrays. En particular, BioHEL fue el único predictor para los que fue posible una aplicación en los datos de microarrays sin función de selección externo en un tiempo de ejecución factible para las carreras LOOCV, por lo tanto, se aplicó este método de aprendizaje con y sin función de selección externa.
el procedimiento de validación cruzada, BioHEL y los algoritmos de referencia y métodos de selección alternativa se han integrado en nuestro software de análisis de datos de microarrays basado en la web a disposición del público
ArrayMining
[5].
métodos de evaluación y parámetros de ejecución
El método de evaluación principal utilizado en este estudio es un esquema de validación cruzada conocida como
de dos niveles externa de validación cruzada
[35]. En un
externa de validación cruzada, el algoritmo de selección de características se aplica independientemente a cada conjunto de entrenamiento generada a través de los ciclos del procedimiento de validación. Este enfoque evita el sesgo de selección de los clásicos de validación cruzada interna, en la selección de características se realiza solamente una vez en todo el conjunto de datos antes de la validación cruzada [65].
de dos niveles
validación cruzada externo utiliza una validación cruzada anidada adicional para optimizar los parámetros para el algoritmo de predicción usando una red de búsqueda. Aplicamos este segundo nivel de la validación cruzada para adaptarse a los parámetros para el punto de referencia alternativo predictores SVM, RF, y PAM.
BioHEL se utiliza con los mismos parámetros por defecto como se indica en [15], excepto para el número de iteraciones, que se establece en 500 y las probabilidades de generalización y especialización que se exponen a 0,5. GAssist se aplica utilizando sus parámetros por defecto [19] excepto por el número de iteraciones que se establece en 500 también. Tanto GAssist y BioHEL se llevaron a cabo 100 veces para cada conjunto de entrenamiento con diferentes semillas aleatorias. Cada ejecución dio lugar a un conjunto de reglas. Se utilizó un conjunto de los 100 conjuntos de reglas resultantes para predecir el conjunto de prueba correspondiente
.
Con el fin de comparar BioHEL y GAssist contra los métodos comúnmente utilizados para clasificar las muestras de microarrays, todo el procedimiento de validación cruzada se aplicó a tres alternativas clasificadores de referencia: una máquina de vectores de soporte (SVM) [37], un clasificador azar forestal (RF) [38] y el "Análisis de Predicción de Microarreglos" método (PAM) [39]
la máquina de vectores de soporte. que utilizamos es un núcleo lineal C-SVM desde el e1071-paquete del entorno de aprendizaje estadístico R, un contenedor para la biblioteca LibSVM bien conocido. Otros polinomio núcleos y el núcleo función de base radial se probaron sin proporcionar resultados superiores en nuestros experimentos (datos no mostrados). Esta observación se adapta muy bien a los hallazgos anteriores en la literatura, según la cual las SVM núcleo lineal realizan a menudo similar o mejor en los datos de microarrays de SVMs utilizando polinomio núcleos de grado superior [66], [67]. Para emplear el método de RF y el PAM, se utilizaron los paquetes correspondientes R
randomForest
y
pamr
que están ambos disponibles en el sitio web de la Red Integral R Archive (CRAN, http: //cran .R-project.org).
para la comparación de nuestro método con las alternativas de la literatura sólo se consideran los enfoques que utilizan la validación cruzada para la evaluación, ya que los métodos basados en una sola partición conjunto aleatorio de entrenamiento /prueba son ahora considerado por muchos como poco fiable [65]. Por la misma razón, también excluye los métodos de la literatura utilizando la validación cruzada interna en lugar de validación cruzada externa, siempre que ello se establece claramente por los autores.
Desde el análisis estadístico de más alto nivel de los microarrays de datos puede depender significativamente en el procedimiento de pre-procesamiento de datos, que, además, investigar la solidez de la predicción y la selección de características para diferentes resultados pre-procesamientos aplicados al mayor conjunto de datos de referencia. Nuevos pre-procesados se obtuvieron mediante el uso de dos filtros factor de cambio diferentes y 4 configuraciones diferentes para el número máximo de elementos seleccionados, y todo el protocolo de análisis se ejecutó de nuevo para cada una de estas variantes. La estabilidad de los resultados se analizó tanto en términos de los resultados de la predicción con validación cruzada y el número de elementos seleccionados compartidos a través de todos los ciclos CV-(ver Material S1 de los resultados y la discusión de todos los análisis de robustez).
es importante destacar que los modelos de predicción obtenidos sólo son aplicables a las muestras de la misma plataforma, tipo de células, las condiciones ambientales y procedimiento experimental. Sin embargo, como nuestros clasificadores apoyan tanto los datos de entrada continuos y discretized, son compatibles con la mayoría de los métodos de normalización entre estudios que se han propuesto en la literatura para ampliar la aplicabilidad de los modelos de aprendizaje automático a través de diferentes plataformas experimentales (que hemos desarrollado previamente una marco de software que proporciona acceso a varios de estos métodos de integración multiplataforma línea correspondiente [5]).
Análisis de la literatura minera de genes seleccionados
La expresión diferencial estadísticamente significativa de los genes y su utilidad como predictores en un modelo de aprendizaje automático para la clasificación de las muestras pueden indicar asociaciones funcionales entre estos genes y las condiciones biológicas de las células bajo consideración (en sentido estricto, nuestros modelos utilizan sondas genéticas en lugar de los genes, pero ya hemos obtenido una asignación única para todas las sondas seleccionadas, nos referiremos a sus genes correspondientes en la siguiente). Sin embargo, a pesar de estas fuentes de información son útiles para la priorización de los genes candidatos de enfermedades en estudios biomédicos, única evidencia experimental o conocimientos previos de la literatura pueden demostrar una asociación funcional con las condiciones biológicas de interés.
Uno de los más genes candidatos prometedores obtenidos a partir de nuestro análisis del conjunto de datos de cáncer de mama se evaluó con éxito en un estudio experimental en colaboración con el Centro Médico de la Reina en Nottingham por inmunohistoquímica utilizando microarrays de tejidos a través de 1140 muestras de cáncer de mama invasivo (véase nuestra publicación anterior [6], la visualización del conjunto de datos en [68], y la sección de resultados abajo), sin embargo, una validación experimental de todos los genes de alta clasificación en todos los conjuntos de datos de microarrays de cáncer tres no estaba dentro del alcance de este estudio.
por lo tanto, en para examinar posibles asociaciones entre las condiciones de la enfermedad representada por los tres conjuntos de datos y los genes informativos obtenidos a partir de los métodos de selección de características y los atributos que aparecen con más frecuencia en los conjuntos de reglas de BioHEL, se aplicó un análisis de la literatura minera de estos genes usando artículos de texto completo de la base de datos PubMed. En concreto, anotamos putativo asociaciones entre los nombres normalizados de mejor clasificado de genes y las condiciones de la enfermedad de un vocabulario controlado (Medical Subject Headings (MeSH) las posiciones de enfermedades) mediante la determinación de la frecuencia de ocurrencia y co-ocurrencia de los términos correspondientes y calculando el punto a punto información mutua (PMI) [69]. El PMI de dos términos y, que se producen con relativa frecuencia f () y f (), y co-ocurren con relativa frecuencia f (,) en una base de datos de documentos se define como sigue: (2)
La términos de enfermedades MeSH específicos utilizados aquí fueron "las neoplasias prostáticas" para el conjunto de datos de cáncer de próstata ", neoplasias de la mama" para el conjunto de datos de cáncer de mama, y "linfoma de células B" para el conjunto de datos linfoma de células B (artículos de PubMed se anotan manualmente por expertos con estos y otros términos del tesauro MeSH controlada vocabulario). El PMI-valor para un par de términos gen /enfermedad por lo tanto se puede utilizar para clasificar y priorizar las posibles asociaciones funcionales, y los sistemas de puntuación basados en PMI similares han sido previamente utilizado para clasificar la similitud de genes y medicamentos que utilizan la literatura minera [70].
desde el PMI-resultados para los pares de plazo solo gen /enfermedad no son lo suficientemente fiable para comparar la utilidad de los diferentes priorizaciones de genes de la enfermedad, lo primero que calcula la suma de PMI-resultados positivos en todos los mejor clasificado de genes obtenidos de o bien los métodos de selección de características o los atributos que ocurren con mayor frecuencia en la BioHEL norma indica. Los genes con PMI-resultados negativos, al considerarlas irrelevantes y la puntuación correspondiente se ponen a cero, ya que la magnitud de las puntuaciones negativas es probable sujetos a ruido aleatorio. Las sumas de las puntuaciones finales se compararon con las puntuaciones correspondientes para 100 conjuntos de genes de tamaño adaptado seleccionados al azar de las plataformas de microarrays correspondientes. puntuaciones de significación p-valor se estimaron por la proporción de veces mayor PMI-resultados se lograron por el modelo al azar en comparación con los métodos de selección de algoritmos. Los genes de alta clasificación se definieron como aquellos genes que habían sido seleccionados por al menos dos métodos diferentes de selección de función, (es decir, genes correspondientes a una selección ensemble), lo que resultó en conjuntos compactos de menos de 20 atributos seleccionados para cada uno de los tres conjuntos de datos (véase la sección resultados). El mismo número de genes fueron seleccionados de las características más frecuentes en el BioHEL reglas conjuntos con el fin de obtener una comparación justa entre esta selección de características basadas en BioHEL y la función de selección de conjunto obtenida a partir de los métodos de selección dedicados.
resultados y Discusión
Comparación de los resultados de la predicción
Una visión general de los resultados de la predicción comparativos obtenidos con todas las combinaciones de selección, los métodos y conjuntos de datos de predicción característica se da en la Tabla 2 para 10 veces CV y la tabla 3 para LOOCV. A continuación los resultados de todos los conjuntos de datos se discuten.
cáncer de próstata
En el conjunto de datos de cáncer de próstata, los mejores resultados de la predicción con BioHEL se alcanzaron sin función de selección externa, proporcionando una exactitud promedio de 94% (10 veces CV), o cuando se combina con el filtro BioHEL PLSS (prom. acc. 94%, LOOCV). Entre los clasificadores de referencia alternativos considerados en este estudio (SVM, RF y PAM, véanse los cuadros 2 y 3) sólo la combinación PLS /PAM consigue la misma precisión de 10 veces CV y la combinación SFC /RF alcanza una exactitud ligeramente superior para LOOCV (95%).