Extracto
Temporal de modelado y análisis y, más concretamente, ordenamiento temporal son problemas muy importantes en los campos de la bioinformática y la biología computacional, como el análisis temporal de los acontecimientos que caracterizan un determinado proceso biológico podría proporcionar una mejor aproximación a su desarrollo y progresión. En particular, en el caso del cáncer, la comprensión de la dinámica y la evolución de esta enfermedad podría conducir a mejores métodos para la predicción y el tratamiento. En este trabajo abordamos, desde un punto de vista computacional, el
ordenamiento temporal
problema, que se refiere a la construcción de una colección ordenada de datos biológicos multi-dimensionales, colección que refleja una evolución en el tiempo preciso de los sistemas biológicos. Se introduce un nuevo enfoque, basado en el aprendizaje por refuerzo, más precisamente, en
Q-learning
, para el problema de ordenamiento temporal biológica. La evaluación experimental se realizó a través de varios conjuntos de datos de microarrays de ADN, dos de los cuales contienen datos de expresión génica del cáncer. Las soluciones obtenidas se correlacionan bien con el orden correcto dado (en los casos en que se prevea para la validación), o para el tiempo de supervivencia global de los pacientes (en el caso de los conjuntos de datos de cáncer), lo que confirma el buen desempeño de la modelo y que indica el potencial de nuestra propuesta propuesto
Visto:. Czibula G, Bocicor IM, Czibula IG (2013) ordenamiento temporal de cáncer de microarrays de datos a través de un enfoque basado en aprendizaje por refuerzo. PLoS ONE 8 (4): e60883. doi: 10.1371 /journal.pone.0060883
Editor: Frank Emmert-Streib, la Universidad Queen de Belfast, Reino Unido
Recibido: December 25, 2012; Aceptado: March 4, 2013; Publicado: April 2, 2013
Derechos de Autor © 2013 Czibula et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo fue parcialmente apoyado por el Programa operativo sectorial de Desarrollo de Recursos Humanos 2007-2013, cofinanciado por el Fondo Social Europeo, bajo el número de proyecto POSDRU /107 /1,5 /S /76841 con el título "modernos estudios de doctorado: la internacionalización y la interdisciplinariedad" . Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
los avances de las últimas décadas en el campo de la biología han dado lugar a un aumento exponencial en la cantidad de información biológica. Dependiendo del tipo y el propósito de los experimentos biológicos, los datos recogidos pueden variar de las secuencias de nucleótidos o proteínas, estructuras o funciones, a las interacciones moleculares y las vías metabólicas. El análisis de estos datos revela importantes conocimientos sobre diferentes procesos biológicos y, finalmente, conduce a una mejor comprensión de los organismos vivos.
Los procesos biológicos son en su mayoría dinámico y, por lo tanto, con el fin de caracterizar con precisión ellos, los científicos necesitan información dinámica. Sin embargo, la mayor parte de datos existente es estática, porque a menudo es más difícil y desafiante para seguir un determinado proceso en toda su desarrollo. Por ejemplo, en el caso de una enfermedad, en ciertas situaciones, sólo es posible para extraer datos de una piscina actual de los pacientes, en lugar de seguir los mismos pacientes durante el curso completo de la enfermedad. Por lo tanto, la necesidad de extraer información dinámica a partir de datos estática y aparece una posible forma de alcanzar este objetivo sería inferir ordenaciones temporales a estos datos.
En el presente trabajo abordamos, desde un punto de vista computacional, lo biológico
ordenamiento temporal (TO) problema
, que se refiere a la construcción de una colección ordenada de datos biológicos multi-dimensionales, colección que refleja una evolución temporal exacta de un determinado proceso biológico. La división celular y el crecimiento, el desarrollo, el linaje celular, el metabolismo, o, más en particular, ciertas clases de enfermedades (como el cáncer) son sólo algunos ejemplos de este tipo de procesos biológicos dinámicos. Los datos de entrada multi-dimensionales pueden ser el resultado de varios experimentos biológicos: expresión de la proteína, DNA microarrays, SNP arrays, alteraciones del número de copias cromosómicas, comparativo hibridación genoma. En este trabajo, nos limitamos a considerar los conjuntos de datos que consisten en muestras derivadas de los experimentos de microarrays de expresión génica.
El
problema de ordenación temporal
aborda en este trabajo se definirá en la siguiente, y la importancia del problema se hará hincapié. También se presentan varios enfoques relacionados para resolver el problema A, ya existentes en la literatura.
El planteamiento del problema y relevancia
modelado y análisis temporal y, más concretamente, ordenamiento temporal es una línea de investigación importante dentro de múltiples campos. Desde una perspectiva de aprendizaje de máquina, en muchas situaciones, Solicitud de un determinado conjunto de datos de instancias en el tiempo proporciona información más significativa que la asignación a determinadas clases. Por lo tanto, el problema general de ordenamiento temporal es comparable, como importancia, para el problema de clasificación [1].
Dentro de la bioinformática y el marco de la biología computacional, el problema ordenamiento temporal puede expresarse de diversas formas. Una definición de este problema se refiere a la determinación y descripción de la secuencia de acontecimientos que caracterizan un proceso biológico. Si el proceso en cuestión es el cáncer, por ejemplo, el objetivo es encontrar un orden temporal de las alteraciones genéticas y de la vía que se producen durante la génesis y evolución de esta enfermedad. Se sabe que la mayoría de los tumores se desarrollan a causa de mal funcionamiento de las redes de señalización complejos que sean el resultado de mutaciones que aparecen en ciertos genes clave (oncogenes o genes supresores de tumor) [2]. Por lo tanto, el estudio de la orden en que suceden estas mutaciones podría conducir a una mejor comprensión de la evolución del cáncer. Existen varios trabajos en la literatura que abordan el problema de ordenamiento temporal, ya que se ha descrito anteriormente y éstos se presentará en la siguiente subsección
.
El problema ordenamiento temporal puede también ser formulado como el problema de construir una colección ordenada de datos biológicos multi-dimensional, colección que refleja una evolución temporal exacta de un determinado proceso biológico. El objetivo final es encontrar ciertos patrones en los datos de entrada que varían con el tiempo y los utilizan de manera eficiente con el fin de ser capaz de ofrecer una caracterización adecuada del proceso en cuestión. En lo que concierne a esta dirección del estudio, existen principalmente dos trabajos que han abordado este problema y estos también serán discutidos en la siguiente subsección. Mencionamos que abordemos el problema de ordenamiento temporal, formulado en esta segunda forma.
Una de las aplicaciones más importantes de este problema se encuentra dentro del campo de la investigación sobre el cáncer. La mayoría de los experimentos humanos con cáncer proporcionar datos sin información temporal, ya que a menudo es demasiado difícil, o incluso imposible, seguir los mismos pacientes durante el pleno desarrollo de la enfermedad. En lugar de ello, las muestras experimentales se recogen de las piscinas actuales de los pacientes, cuyas enfermedades se encuentran en diferentes etapas de avance y por lo tanto cada muestra refleja un grado diferente de la progresión del cáncer. La construcción de una serie temporal correcta de estas muestras podría, por una parte, proporcionar información significativa sobre el complejo proceso de la evolución del cáncer. Por otra parte, el orden temporal podría ser utilizado para la predicción de los tiempos de supervivencia de los pacientes recién diagnosticados: suponiendo que para los pacientes en los datos de entrada iniciales establecidos los tiempos de supervivencia se proporcionan, cuando los nuevos pacientes, con tiempos de supervivencia desconocidos se añaden a el conjunto de datos, el orden temporal recuperada para todo el conjunto de muestras (incluyendo los recién añadidos unos) podría ofrecer información sobre las expectativas de vida en general de los nuevos pacientes.
Literatura Opiniones sobre
el general a problema se sabe que es NP-completo [1], lo que significa que las soluciones exactas son muy difíciles de obtener y, por tanto, se han aplicado diversos métodos heurísticos para resolverlo. El problema general en su mayoría ha sido abordado por investigadores de la comunidad de inteligencia artificial (aprendizaje automático, minería de datos) [1], [3]. Dentro del campo de la minería de datos, hay muchos estudios que extraen la información temporal de diferentes tipos de textos (generales, médicos, artículos de prensa) [4] - [7]. Otras aplicaciones incluyen ordenar las fotos de las ciudades con el fin de observar su evolución en el tiempo [8] o la construcción de cronologías arqueológicas de diversos artefactos [9].
Desde el punto de vista de la bioinformática y la biología computacional, diferentes formas de la a problema han sido estudiados y un número significativo de investigaciones se centran en diversas formas de cáncer. Debido al hecho de que esta enfermedad es un proceso evolutivo, que es accionado por mutaciones y alteraciones de comportamiento de las células [10], una línea importante de ofertas de trabajo con el desarrollo de modelos e inferir órdenes temporales para describir cambios en las células de cáncer de ADN, así como a determinar el orden en que suceden los eventos de mutación de genes y variaciones de la vía durante la evolución del cáncer.
Varios modelos probabilísticos se han propuesto con el fin de recuperar el orden temporal y casual en el que las mutaciones ocurren en el nivel de los genes y las vías , durante la progresión del cáncer [10] - [12]. En la obra de Hjelm
et al.
[11], el objetivo es estudiar la evolución cromosómica en las células cancerosas mediante la introducción y el uso de modelos probabilísticos generativos gráficas. Gerstung
et al.
[10] proponer un modelo probabilístico basado en redes bayesianas, más específicamente en una clase de modelos gráficos llamados ocultos conjuntivas redes bayesianas (H-CBNS), que se propuso previamente para estudiar la acumulación de mutaciones y sus interdependencias en la progresión del cáncer [12]. Las pruebas se realizaron en los conjuntos de datos que contienen datos de mutación transversales que pertenecen a diferentes tipos de cáncer (de colon, de páncreas y de glioblastoma primario) y las conclusiones son que estos H-CBNS proporcionar un modelo intuitivo de la tumorigénesis [10].
Un enfoque diferente a este problema se basa en builduing modelos de árboles de posibles eventos de mutación de genes [13] - [17]. Desper
et al.
[13], [14] proponer un modelo de árbol de la oncogénesis y mediante el uso de datos del genoma de hibridación comparativa que muestran que, bajo ciertos supuestos, su algoritmo infiere el árbol correcto de eventos (donde un evento se ve como una pérdida o una ganancia en un determinado cromosoma brazo). Su enfoque se basa en la idea de un máximo peso de ramificación en un gráfico. Esta metodología propuesta fue desarrollada posteriormente por Beerenwinkel
et al.
, Cuyo modelo de incluir varios árboles oncogenéticas, correspondientes a múltiples secuencias temporales de acontecimientos que pueden conducir al cáncer [15], [16]. Pathare
et al
[17] analizar la progresión del cáncer oral con modelos de:.. Árboles distancia introducidas por Desper
et al
[14] y la mezcla de árboles oncogenéticas introducidas por Beerenwinkel
et al.
[15], [16].
también se han propuesto enfoques matemáticos para abordar el problema de la identificación de la secuencia temporal de las mutaciones que conducen a la progresión del cáncer [18], [19]. Attolini
et al.
[18] introducir un enfoque matemático evolutivo llamado Volviendo sobre los pasos evolutivos en Cáncer (RESIC), con el fin de identificar el orden temporal de las mutaciones genéticas en el desarrollo del cáncer y ponen a prueba en varias cáncer colorrectal , glioblastoma y conjuntos de datos de leucemia. Este método fue desarrollado en [19] con el fin de incorporar, además de las alteraciones genéticas, las modificaciones de las vías de señalización moleculares por los que avanza el cáncer.
Otra línea de investigación se centra en la importancia de una formulación diferente de la A problema. Dentro de esta línea de trabajo, el problema es la construcción de una colección ordenada de datos biológicos multi-dimensional que refleja una evolución temporal precisa de un proceso biológico. Abordamos el problema A desde el punto de vista de esta segunda definición. A nuestro entender, hay principalmente dos trabajos que abordan el problema biologiocal A como se ha formulado anteriormente, ambas con el uso de datos de expresión génica obtenidos a partir de experimentos de microarrays. Estos se presentarán brevemente a continuación.
La primera técnica, que utiliza los datos de expresión de genes del cáncer, se introduce por Gupta y Bar-Joseph [20]. Los autores demuestran formalmente que, bajo ciertos supuestos biológicos en el conjunto de datos de entrada, la única solución del problema del viajante de comercio (TSP) representa el orden temporal correcto, con una alta probabilidad. La TSP se define utilizando las muestras que componen los datos de entrada, que se caracterizan por los datos de expresión de genes multi-dimensionales, como vértices y las distancias entre ellos se calculan usando el Manhattan () métrica. El método se aplica en un conjunto de datos de 50 pacientes con glioma y los resultados muestran una buena correlación con la duración de la supervivencia de los pacientes. Además, un clasificador que utiliza el orden obtenido se define, lo que demuestra que superar otros clasificadores desarrollados para la tarea considerada y genes clave que están asociados con el cáncer son identificadas.
El segundo estudio que se aproxima a esta forma de la biológica a problema es introducido por Magwene
et al.
[21] y el método propuesto se basa en árboles de expansión mínimos y PQ-árboles. El algoritmo de árbol de expansión mínimo se aplica sobre un grafo no dirigido ponderado, donde cada nodo está representado por una instancia del conjunto de datos, representada por los datos de microarrays multidimensionales. La eficacia de este método se ha demostrado mediante pruebas de los algoritmos en los conjuntos de datos artificiales, así como en los conjuntos de datos de expresión génica de series temporales derivadas de los experimentos de microarrays de ADN
.
La principal contribución de este trabajo es que se introduce una enfoque novedoso para la TO problema, formulado como el problema de construir una colección ordenada de muestras biológicas multidimensionales, basado en el aprendizaje de refuerzo. Aprendizaje por refuerzo [22] es una aproximación a la inteligencia de la máquina en la que un agente [23] puede aprender a comportarse de una manera determinada mediante la recepción de castigos o recompensas sobre sus acciones elegidas. A lo mejor de nuestro conocimiento, el TO problema no ha sido abordado en la literatura utilizando el aprendizaje por refuerzo, hasta el momento. Varios experimentos realizados en diferentes conjuntos de datos de microarrays de ADN muestran que el enfoque basado en el aprendizaje con éxito refuerzo propuesto identifica ordenaciones temporales precisas de las muestras biológicas dadas.
Métodos
En esta sección se presenta el refuerzo de aprendizaje basadas propuesta para la identificación de un ordenamiento temporal de una serie de muestras biológicas. A pesar de que en este estudio se restringe a los datos de expresión génica obtenidos a partir de experimentos de microarrays, la aplicabilidad de nuestro método es más general y puede ser utilizado con diferentes tipos de datos biológicos multi-dimensionales.
Para empezar, presentamos el fundamentos de
refuerzo
aprendizaje, a continuación detallamos nuestro enfoque.
aprendizaje por refuerzo. Antecedentes
El objetivo de los sistemas de construcción que pueden adaptarse a sus entornos y aprender de sus experiencias ha atraído a investigadores de muchos campos, incluyendo la informática, las matemáticas, las ciencias cognitivas [22].
aprendizaje por refuerzo (RL) [24] es un enfoque de la inteligencia de la máquina que combina dos disciplinas para resolver con éxito los problemas que ni la disciplina puede abordar de forma individual:
La programación dinámica
y
aprendizaje supervisado
. En la literatura de aprendizaje de máquina, RL se considera que es el tipo más fiable de aprendizaje, ya que es el más similar al aprendizaje humano. Ofertas de aprendizaje
Refuerzo con el problema de cómo un agente autónomo que percibe y actúa en su entorno puede aprender a elegir acciones óptimas para lograr sus objetivos [25]. El campo de la
agentes inteligentes
[26] es una importante área de investigación y desarrollo en el campo de la inteligencia artificial, los agentes están considerando nuevos medios importantes en la conceptualización e implementación de sistemas de software complejos. Un agente es una entidad computacional, tales como un sistema de software o un robot, situado en un determinado environnment, que es capaz de percibir y actuar sobre su entorno y es capaz de actuar autonoumously con el fin de cumplir sus objetivos de diseño. Los agentes están actuando en nombre de los usuarios, son
flexibles
[27], lo que significa que son
reactiva gratis (capaz de responder a los cambios que se producen en su entorno),
proactivo gratis (capaz de exhibir un comportamiento dirigido meta) y también tienen un
habilidades sociales gratis (son capaces de interactuar con otros agentes).
aprendizaje por refuerzo es útil en una gran cantidad de problemas prácticos, como aprender a controlar los robots autonoumous [28], el aprendizaje para optimizar operatons en fábricas o aprender a jugar juegos de mesa. En todos estos problemas, un agente artificial tiene que aprender (por refuerzo) para elegir acciones óptimas con el fin de lograr sus objetivos.
En un escenario de aprendizaje por refuerzo, el sistema de aprendizaje selecciona las acciones a realizar en el entorno y recibe
recompensas gratis (o
refuerzos
) en forma de valores numéricos que representan una evaluación de las acciones seleccionadas [29]. En RL, el equipo se da simplemente un objetivo a conseguir. Entonces, el ordenador aprende cómo lograr ese objetivo mediante interacciones de ensayo y error con su entorno. aprendizaje por refuerzo está aprendiendo qué hacer - cómo asignar acciones a situaciones - con el fin de maximizar la recompensa numérica. El alumno no se le dice qué acciones tomar, como en la mayoría de las formas de aprendizaje de la máquina, sino que debe descubrir qué acciones producen la más alta recompensa por probarlos. En un problema de aprendizaje por refuerzo, el agente recibe el premio como una retroalimentación del medio ambiente; la recompensa se recibe al final, en un estado terminal, o en cualquier otro estado, donde el agente tiene la información correcta sobre lo que hizo bien o mal. El agente aprenderá a seleccionar las acciones que maximizan la recompensa recibida.
El objetivo del agente, en una tarea de RL es maximizar la suma de los refuerzos recibidos cuando a partir de un estado inicial y proceder a un estado terminal.
Uno de los problemas de aprendizaje por refuerzo tiene tres partes fundamentales [22].
El entorno
está representado por "estados". Por la interacción con el medio ambiente, un sistema RL aprenderá una función que asigna a los estados acciones.
La función de refuerzo
. El objetivo del sistema de aprendizaje por refuerzo se define utilizando el concepto de una función de refuerzo, que es la función de los refuerzos que el agente trata de maximizar. Esta función asigna pares estado-acción para refuerzos. Después de una acción que se realiza en un cierto estado, el agente recibirá una evaluación de la acción en una forma de una recompensa escalar. El agente aprenderá a realizar aquellas acciones que maximicen la cantidad total de la recompensa recibida en un camino desde el estado inicial a un estado final [30].
El valor (utilidad) Función
es un mapeo de los estados a los valores del estado. El valor de un estado indica la conveniencia de que el Estado y se define como la suma de las recompensas recibidas en un camino de ese estado a un estado final. El agente va a aprender a elegir las acciones que conducen a estados que tienen una utilidad máxima [30]
Una tarea general RL se caracteriza por cuatro componentes:.
a
espacio de estado
que especifica todas las posibles configuraciones del sistema;
un
espacio de acción
que enumera todas las acciones disponibles para el agente para llevar a cabo el aprendizaje;
a
función de transición
que especifica los resultados posiblemente estocásticos de tomar cada acción en cualquier estado;.
a
función de recompensa Windows que define la posible recompensa de tomar cada una de las acciones
en cada paso de tiempo, el sistema de aprendizaje recibe alguna representación del estado del medio ambiente, se necesita una acción y un paso más adelante que recibe una recompensa escalares y se encuentra en un nuevo estado. Los dos conceptos básicos detrás de aprendizaje por refuerzo son de prueba y error, la búsqueda y la recompensa tardía [31]. La tarea del agente es aprender una política de control, que maximiza la suma esperada de las recompensas recibidas, con recompensas futuras con descuento exponencial en función de su demora, donde se define como (es el factor de descuento para las futuras recompensas).
Un aspecto importante en el aprendizaje por refuerzo es el
exploración. El agente tiene que ser capaz de explorar su entorno, intentando nuevas acciones (tal vez no las óptimas) que puede llevar a las selecciones de acción futuro mejor [32]
Hay dos diseños básicos RL a tener en cuenta:.
el agente aprende un
función de utilidad gratis (
T
) a los estados (o estados historias) y lo utiliza para seleccionar las acciones que maximizan la utilidad esperada de sus resultados.
el agente se entera de un
función de acción-valor gratis (
Q
) dando la utilidad esperada de tomar una acción determinada en un estado determinado. Esto se llama
Q-learning
.
Un agente que aprende las funciones de utilidad [33] deben tener un modelo del entorno con el fin de tomar decisiones, ya que tiene que conocer la estados a los que va a llevar su acción. En un
Q-learning
escenario, en el que el agente aprende una función de acción-valor, no hay necesidad de tener un modelo del entorno.
Nuestro enfoque. Metodología
Vamos a considerar, en la siguiente, que es el conjunto de datos de entrada, que consiste en () muestras multidimensionales:, cada muestra se identifica con un conjunto de características. Para el tipo considerado de datos, cada función está representado por un gen y tiene como valor un número real, la medición del nivel de expresión del gen en cuestión. . Por lo tanto, cada muestra puede ser codificada por un vector de dimensión n, donde se encuentra el nivel de expresión del gen de la muestra
Nuestro enfoque consiste en dos pasos:
1. Los datos pre-procesamiento.
2.
RL
diseño de tareas.
En la siguiente vamos a describir estos pasos.
Datos de pre-procesamiento.
microarrays de ADN permiten la medición de miles de niveles de expresión génica para cada muestra, por tanto, la dimensionalidad de los datos de entrada pueden ser extremadamente alta. Además del hecho de que esto podría conducir a la ineficiencia en tiempo de cálculo y el espacio, en la mayoría de los casos, muchos genes pueden ser irrelevante para la tarea de pedido y pueden incluso aumentar la cantidad de ruido en los datos, lo que lleva a una disminución en el rendimiento de la temporal sistema de pedidos. Por lo tanto, el objetivo de la etapa de pre-procesamiento es la eliminación de los genes que no ofrecen ninguna información significativa, o, equivalentemente, la selección de aquellos genes que son más importantes para un ordenamiento temporal precisa.
A medida que la final objetivo consiste en analizar y temporalmente ordenar conjuntos de datos que comprenden muestras extraídas de pacientes con cáncer, en la siguiente, se describe un método de pre-procesamiento de la orientación de estos tipos particulares de conjuntos de datos. Tales conjuntos de datos por lo general ofrecen una serie de datos para cada muestra, además de los vectores de expresión de genes reales. Una de estas piezas adicionales de información que se encuentran regularmente en los conjuntos de datos de cáncer es la supervivencia global, es decir, el tiempo de supervivencia de los pacientes, a partir del momento en que se tomaron las muestras. A partir de la intuición de que, en el caso general, dos pacientes que tienen tiempos de supervivencia similares podrían también estar relativamente cerca en el orden temporal, decidimos utilizar esta pieza de información para la identificación de un subgrupo de genes que son relevantes para la tarea de realizar el pedido.
durante la etapa de pre-procesamiento, un análisis estadístico se llevó a cabo en el conjunto de datos con el fin de encontrar un subconjunto de características (genes) que son relevantes para la tarea considerada. El análisis estadístico de las características que se realiza con el fin de reducir la dimensionalidad de los datos de entrada, mediante la eliminación de las características que no están correlacionados con la información biológica adicional seleccionado para el conjunto de datos dado. Más exactamente nuestro objetivo es la identificación de genes que no influyen significativamente en la identificación ordenamiento temporal.
Para determinar las dependencias entre las características y la información biológica adicional dada, se utiliza el coeficiente de correlación de Pearson [34]. La correlación de Pearson es una medida estadística de la correlación lineal entre dos variables aleatorias que indican cómo altamente correlacionado las variables son. Una correlación de Pearson de entre dos variables e indica que no existe una relación lineal entre las variables. Una correlación de Pearson de o se produce cuando las dos variables que se comparan son linealmente monotónicamente relacionada. Una correlación de Pearson [35] implica que de una ecuación lineal describe la relación entre y con todos los puntos de datos sobre una línea que para los que aumenta a medida que aumenta. Una correlación de puntos implica que todos los datos se encuentran en una línea para la cual disminuye a medida que aumenta.
Como se ha mencionado antes, el objetivo de este paso es eliminar del conjunto de características de esas características (genes) que están muy poco correlacionadas con la información biológica suplementaria seleccionada (que es, en el caso de conjuntos de datos de cáncer, el tiempo de supervivencia). En consecuencia, se calcula el coeficiente de correlación de Pearson entre cada gen y el tiempo de supervivencia y mantenemos sólo aquellos genes que tienen el valor absoluto de la correlación superior a un determinado umbral (se elige de manera que se garantice una reducción radical de dimensionalidad).
la propuesta
RL
tarea para el a problema.
Como se indicó anteriormente, el problema a consiste en determinar un orden temporal precisa de las muestras de entrada, que refleje la evolución temporal y el desarrollo de un determinado proceso biológico dinámica (por ejemplo, cáncer). Desde un punto de vista computacional, el problema A se puede ver como el problema de generar una permutación de que maximiza la similitud Sim general de la secuencia de muestras consideradas en el orden: (). La similitud general Sim tenemos en cuenta en el presente documento resume las similitudes sobre todas las muestras adyacentes y tiene que ser maximizada.
La similitud general de Sim para la secuencia de muestras se define como en la ecuación (1) :( 1) donde indica la similitud entre los vectores dimensionales y y se define como. . Aquí se denota por la distancia euclidiana y es una constante grande
Se define la tarea RL asociado a la A problema de la siguiente manera:
El espacio de estados (entorno del agente) constará de estados , es decir. El
inicial ¿Le ha estado del agente en el medio es. Un estado alcanzado por el agente en un momento dado después de que ha visitado los estados y ha seleccionado las acciones es un estado
Terminal gratis (final o meta) si el número de estados visitados por el agente en la secuencia actual es (es decir, ) y todas las acciones seleccionadas son distintos, es decir.
el espacio de acción consiste en acciones disponibles para el problema del agente de resolución, y que corresponden a los posibles valores que se utilizan para representar una solución (permutación de), es decir, dónde.
La función de transición entre los estados se define como en la Fórmula (2). (2) dónde. Esto significa que, en un momento dado, a partir de un estado del agente puede moverse en estados sucesores, mediante la ejecución de una de las posibles acciones. Se dice que un estado que es accesible desde el Estado, es decir, es el
vecino gratis (
sucesor
) estado de.
Las transiciones entre los estados son equiprobables , la probabilidad de transición entre un estado
s
y cada estado vecino es igual, ya que cada estado tiene de posibles estados sucesores (véase la fórmula (2)).
la función recompensa será se define a continuación (fórmula (3)).
Vamos a considerar un camino en el medio ambiente se ha definido antes de la inicial a un estado final, donde el estado y es un
vecino
de Estado (). Teniendo en cuenta la tarea RL se define anteriormente, el medio ambiente puede ser visualizado como un árbol. En este entorno de tipo árbol, un camino formado por los vértices distintos (estados) en la que cada par adyacente de vértices está vinculado por un arco (acción).
La secuencia de acciones obtenidos después de las transiciones entre los estados sucesivos de la ruta será denotado por, dónde. La secuencia se conoce como la configuración de la acción
servicios asociados a la ruta. El
configuración de acción de servicios asociados a un camino da una secuencia de muestras.
Un camino se llama
válida si todas las acciones dentro de su
configuración de acción de
son distintos y cada muestra de la secuencia es más similar a la muestra que sigue inmediatamente en la secuencia ordenada que a cualquier otra muestra, es decir, y.
el
configuración de acción de servicios asociados a un
camino
válido puede ser visto como un posible fin de que las muestras de entrada, es decir, una permutación que da el orden temporal de las muestras consideradas, que deben ser, en cierto grado, en correlación con el tiempo de supervivencia, en el caso cuando las muestras se representan por los datos extraídos de pacientes con cáncer. En consecuencia, podemos asociar a un
válida ruta
, un valor que representa denotado por la similitud global (véase la ecuación (1)) de la secuencia.
A El problema formulado como un problema RL consiste en una formación del agente para encontrar un camino desde la inicial a un estado final que tenga la máxima similitud global asociado. Después del proceso de aprendizaje por refuerzo, el agente va a aprender a ejecutar esas transiciones que maximizan la suma de las recompensas recibidas en un camino desde la inicial a un estado final.
Nuestro objetivo es la obtención de un
válida
trayectoria que tiene la similitud global máximo de la secuencia de muestras correspondientes a la configuración de acción asociado, por lo tanto, se define la función de refuerzo de la siguiente manera (fórmula (3)) :( 3), donde por denotamos la recompensa recibida por el agente en el estado, después de su historia en el medio ambiente es.
el agente recibe una recompensa negativo en caminos que no son válidos, por lo tanto, aprenderá a explorar caminos válidos solamente. Teniendo en cuenta la recompensa se define en la fórmula (3), ya que el objetivo de aprendizaje es maximizar la cantidad total de premios recibidos en un camino desde la inicial a un estado final, se puede demostrar que el agente está capacitado para encontrar una ruta válida que maximiza la similitud global de la ordenación asociada.
el proceso de aprendizaje.
Durante la etapa de formación del proceso de aprendizaje, el agente determinará su
óptima política de Hoteles en el medio ambiente, es decir, el mapeo de los estados a las acciones que maximiza la suma de las recompensas recibidas.
para la formación de la
pARA agente
, se propone un enfoque ellas el aprendizaje, en el que el agente se entera de un valor de acción