Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: Gen de selección jerárquica y el sistema Fuzzy genética para la clasificación de datos de microarrays cáncer

PLOS ONE: Gen de selección jerárquica y el sistema Fuzzy genética para la clasificación de datos de microarrays cáncer


Extracto

Este documento presenta un enfoque novedoso para la selección de genes basado en una modificación sustancial del proceso analítico jerárquico (AHP). El AHP modificado integra sistemáticamente los resultados de los métodos individuales de filtro para seleccionar los genes más informativos para la clasificación de microarrays. Se emplean cinco métodos de clasificación individuales, incluyendo la prueba t, la entropía, la curva de características operativas del receptor (ROC), Wilcoxon y la relación señal-ruido para clasificar los genes. Estos genes clasificados son entonces considerados como entradas para el AHP modificado. Además, un método que utiliza modelo difuso estándar aditivo (FSAM) para la clasificación del cáncer basado en genes seleccionados por AHP También se propone en este documento. FSAM aprendizaje tradicional es un proceso de aprendizaje híbrido que comprende la estructura de supervisión y puesta a punto parámetro supervisado. algoritmo genético (GA) se incorpora en el medio de formación sin supervisión y supervisado para optimizar el número de reglas difusas. La integración de GA permite FSAM para hacer frente a la naturaleza de alto dimensional a baja-muestra de los datos de microarrays y por lo tanto mejorar la eficiencia de la clasificación. Los experimentos se llevaron a cabo en numerosos conjuntos de datos de microarrays. Los resultados demuestran el predominio rendimiento de la selección de genes basados ​​en AHP contra los métodos de clasificación en simples. Además, la combinación de AHP-FSAM muestra una gran exactitud en la clasificación de datos de microarrays en comparación con varios clasificadores que compiten. Por tanto, el enfoque propuesto es útil para los médicos y los médicos como un sistema de apoyo a las decisiones que se pueden implementar en la práctica médica real

Visto:. Nguyen T, Khosravi A, D Creighton, Nahavandi S (2015) jerárquica de genes Sistema de selección y Fuzzy genética para la clasificación de datos de microarrays cáncer. PLoS ONE 10 (3): e0120364. doi: 10.1371 /journal.pone.0120364

Editor Académico: Enrique Hernández-Lemus, Instituto Nacional de Medicina Genómica, MEXICO

Recibido: noviembre 20, 2014; Aceptó 8 de febrero de 2015; Publicado: 30 Marzo 2015

Derechos de Autor © 2015 Nguyen et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Disponibilidad de datos: Dos conjuntos de datos LBDCG y la leucemia se puede descargar desde los 2 enlaces siguientes: http://old.biolab.si/datasets/DLBCL.tab~~number=plural http://old.biolab.si/datasets/leukemia.tab~~number=plural Once conjuntos de datos para la validación independiente de la propuesta método se puede descargar desde el siguiente enlace:. http://linus.nci.nih.gov/~brb/DataArchive_New.html

Financiación: Esta investigación es apoyada por el Consejo de investigación australiano (Descubrimiento de Grant DP120102112) y el Centro de Investigación en Sistemas inteligentes (CII) de la Universidad de Deakin

Conflicto de intereses:.. los autores han declarado que no existen intereses en competencia

Introducción

Un gran número de genes no pueden ser posiblemente analizados por los métodos tradicionales. microarrays de ADN es una técnica que permite a los investigadores a analizar la expresión de muchos genes rápidamente. microarrays de ADN incluye un proceso que etiquetada ARNm a partir de un tubo de ensayo se extiende sobre la micromatriz, que se compone de miles de puntos. Cada mancha de ADN, lo que representa un gen, contiene múltiples hebras idénticas de ADN. Las moléculas de ARNm etiquetados se mueven alrededor de los microarrays de encontrar y seguir con sus parejas perfectas. La cantidad de ARNm unido a cada punto de la matriz especifica el nivel de expresión de los diferentes genes.

Así pues, la tecnología de microarrays de ADN ayuda a los científicos a descubrir las causas genéticas de las anomalías que surgen en el funcionamiento del cuerpo humano. Un microarray de ADN permite a los investigadores identificar todas las diferencias en la expresión génica entre los dos tipos de células diferentes, por ejemplo, entre las células normales (sanas) y enfermos (cáncer), en un solo experimento. Aplicaciones de los datos de microarrays de ADN para la clasificación de la enfermedad en base a diferentes patrones de expresión de genes desempeñan un papel fundamental en la investigación médica. Clasificación de los datos de microarrays es necesaria para la práctica clínica real, sobre todo en el diagnóstico de enfermedades del corazón, enfermedades infecciosas y el estudio del cáncer. Esta tarea plantea un enorme desafío para los investigadores en las estadísticas y la inteligencia computacional también debido a la naturaleza de alto dimensional a baja-muestra de los datos de microarrays.

Wu et al. [1] empleado un modelo de Bayes ingenuo Laplace para la clasificación de los datos de microarrays. El método toma en cuenta los efectos de grupo y es robusto a los valores atípicos, que se observan comúnmente en los datos de expresión de genes debido a razones ya sea químicas o eléctricas. Chopra et al. [2] Otros empleos de genes combinaciones de pares como insumos para los algoritmos de clasificación del cáncer en lugar de los perfiles de expresión de genes originales.

Basford et al. [3] considerado tanto supervisadas y no supervisadas de clasificación de los datos de microarrays. La clasificación supervisada es identificar agrupaciones de tejidos a partir de los genes, mientras que ofertas técnica sin supervisión con la agrupación de genes a partir de los tejidos. Alternativamente, un protocolo de cálculo para la predicción de marcadores de genes en tejidos de cáncer se utiliza para el análisis de múltiples tipos de cáncer en Xu et al. [4].

Yu et al. [5] propone un método de submuestreo usando la idea de optimización de colonia de hormigas para clasificar los datos de microarrays de ADN desequilibradas. Giugno et al. [6] En otro enfoque introducido un método de clasificación de datos de microarrays de las reglas de asociación. Los autores sugirieron que los intervalos de transcripción de expresión demuestran de manera competente subtipos discriminar en la misma clase.

Recientemente, Reboiro-Jato et al. [7] construido una herramienta interactiva basada en la web para evaluar el rendimiento de clasificación discriminativo de la hipótesis de encargo en forma de conjuntos de genes relacionados biológicamente. La herramienta es capaz de proporcionar información para el análisis de la valoración diagnóstica y las decisiones de gestión clínica.

Aunque se han propuesto muchos métodos para la clasificación de los datos de microarrays, que sólo puede proporcionar resultados no intuitivos de clasificación, que no sean integrales y aplicables a los clínicos en la práctica real. El comportamiento de la técnica de clasificación debe ser entendida mediante el uso de herramientas humanas como las reglas lingüísticas. Afortunadamente, esta tarea puede llevarse a cabo por medio de la lógica difusa, que fue introducido en 1960. Aplicación de la lógica difusa puede proporcionar a los médicos con una mejor comprensión de los datos y explicaciones sobre cómo se dan los resultados de diagnóstico. Por otra parte, la lógica difusa ofrece una buena capacidad para manejar datos con ruido /que faltan, que es un problema común en los datos de microarrays [8-10].

Inspirado por las circunstancias anteriores, este documento propone un método que utiliza modelo aditivo estándar difuso (FSAM) para la clasificación de datos de microarrays cáncer. Para mejorar la eficiencia de FSAM en el tratamiento de datos de alta dimensión bajo la muestra de microarrays, algoritmo genético (GA) se incorpora en el proceso de aprendizaje FSAM para optimizar la estructura de reglas FSAM.

Antes de realizar FSAM genética para microarrays la clasificación de datos, un subconjunto de los genes más informativos se debe seleccionar entre miles de genes. Proponemos en este documento una novela de selección de genes mediante la modificación del proceso analítico jerárquico tradicional (AHP) [11], que luego puede ser desplegado para integrar cuantitativamente los resultados de una serie de métodos de clasificación de genes individuales.

métodos de selección genética

datos Microarray comúnmente recogió con el número de genes (a menudo en miles) es mucho mayor que el número de muestras. Por lo tanto, muchas de las técnicas estándar inapropiada u computacionalmente imposible en el análisis de estos datos. El hecho es que no todos los miles de genes son discriminativo y necesarios para la clasificación. La mayoría de los genes no son relevantes y no afectan al rendimiento de la clasificación. La adopción de tales genes en cuenta aumenta la dimensión del problema, conduce a la carga de cálculo, y presenta ruido innecesario en la práctica de clasificación [9]. Por lo tanto es crucial para seleccionar un pequeño número de genes, llamados genes informativos, que puede ser suficiente para una buena clasificación. Sin embargo, el mejor subconjunto de genes a menudo se desconoce [12].

criterios de selección de genes comunes son métodos de filtro y la envoltura. métodos de filtro ocupan todas las características en términos de su bondad utilizando la relación de cada gen individual con la etiqueta de clase basada en una métrica de puntuación univariado. Los genes mejor clasificados son elegidos antes de haberse desplegado técnicas de clasificación. En contraste, los métodos de envoltura requieren la técnica de la selección de genes para combinar con un clasificador para evaluar el rendimiento de clasificación de cada subconjunto de genes. El subconjunto óptimo de los genes se identifica con base en el ranking de rendimiento derivado de la implementación del clasificador en todos los subgrupos que se encuentran. El procedimiento de filtro no es capaz de medir la relación entre los genes, mientras que el enfoque envoltorio requiere un gran gasto computacional [13].

Breve revisión de la literatura de los métodos de selección de genes

Ha habido un número de genes técnicas de selección en la literatura para la clasificación de datos de microarrays de ADN. Liu et al. [14] presentó un método de selección de genes conjunto basado en la información mutua condicional para la clasificación de microarrays cáncer. subconjuntos de genes múltiples sirven para capacitar a los clasificadores y las salidas se combinan mediante un enfoque de votación.

Del mismo modo, Leung y Hung [15] inició un enfoque de filtro múltiple múltiple envoltura para la selección de genes para mejorar la precisión y solidez de la clasificación de los datos de microarrays. Liu et al. [16] sugiere otro método, llamado selección de genes conjunto de agrupación, para derivar múltiples subconjuntos de genes. El método se basa en virtud de la teoría de la información y aproximada de Markov.

Bolón-Canedo et al. [17] En otro enfoque investigaron un método de selección de genes que abarca un conjunto de filtros y clasificadores. Se empleó un enfoque de votación para combinar las salidas de los clasificadores que ayudan a reducir la variabilidad de las características seleccionadas en diferentes dominios de clasificación.

Por otro lado, Bicego et al. [18] propuso un enfoque híbrido generativa-discriminativo uso de las características de los modelos interpretables extraídos del tema para la clasificación de datos de microarrays de expresión. Orsenigo y Vercellis [19] examinaron las técnicas de aprendizaje no lineal múltiple para la reducción de dimensionalidad para la clasificación de los datos de microarrays. Del mismo modo, Ramakrishnan y Neelakanta [20] estudiaron un enfoque de co-ocurrencia de información teórica-inspirado entropía para la selección de características para la clasificación de los datos de microarrays de ADN.

Recientemente, Du et al. [21] sugiere un algoritmo de selección de genes hacia adelante para seleccionar eficazmente los genes más informativos de los datos de microarrays. El algoritmo combina la técnica de datos aumentada y pena de L
2-norma para hacer frente a un problema en las pequeñas muestras ya la capacidad de selección de grupo, respectivamente.

En este documento, para mejorar la robustez y estabilidad de los clasificadores de datos de microarrays , introducimos un nuevo método de selección de genes basado en una modificación de la AHP. La idea detrás de este enfoque es ensamblar los genes de élite de diferentes métodos de selección genética clasificación a través de una jerarquía sistemática.

Las siguientes subsecciones examinan el fondo de los métodos de selección genética de filtro común, que son seguidos por nuestra propuesta.

Tenga en cuenta que los siguientes métodos de selección genética se llevan a cabo mediante la clasificación de los genes a través de métricas de puntuación. Son pruebas estadísticas sobre la base de dos muestras de datos en el problema de clasificación binaria. Las medias de las muestras se indican como μ
1 y μ
2, mientras que σ
1 y σ
2 son las desviaciones estándar de la muestra, y
n

1 y
n

2 son los tamaños de las muestras.

de dos muestras t-test

La prueba t de dos muestras es una prueba de hipótesis paramétricos que se aplica para comparar si la diferencia media entre dos muestras de datos independientes es realmente significativa. La estadística de prueba se expresa por: (1) En la aplicación de t-test para la selección de genes, la prueba se realiza en cada gen mediante la separación de los niveles de expresión basados ​​en la variable de clase. El valor absoluto de
t
se utiliza para evaluar la importancia de los genes. Cuanto mayor sea el valor absoluto, el más importante es el gen.

prueba de entropía

entropía relativa, también conocido como Kullback-Liebler distancia o divergencia es una prueba suponiendo clases se distribuyen normalmente. La puntuación de la entropía para cada gen se calcula utilizando la siguiente expresión: (2) Después de que el cálculo se realiza para cada gen, se seleccionarán los genes con las puntuaciones más altas de entropía para servir como entradas a las técnicas de clasificación

Receptor. característica de funcionamiento (ROC)

Denotar las funciones de distribución de
X
en las dos poblaciones como
F

1 (
x
) y
F

2 (
x
) Las funciones de la cola se especifican, respectivamente,
T

i (
x
) = 1-
F


i gratis (
x
),
i
= 1,2. La
ROC
se da como sigue: (3) y el área entre la curva y la línea recta (AUC) se calcula por: (4) Cuanto mayor sea el
AUC
, menor es la superposición de las clases. Para la aplicación de selección de genes, los genes con la mayor
AUC
por lo tanto será elegido.

método de Wilcoxon

La prueba de suma de rangos de Wilcoxon es equivalente a la prueba U de Mann-Whitney , que es una prueba para la igualdad de los lugares de población (medianas). La hipótesis nula es que dos poblaciones encierran funciones de distribución idénticas mientras que la hipótesis alternativa se refiere al caso de dos distribuciones difieren con respecto a las medianas. No se requiere la suposición de normalidad con respecto a las diferencias entre las dos muestras. Por eso se utiliza esta prueba en lugar de la prueba t de dos muestras en muchas aplicaciones cuando se refiere la hipótesis de normalidad

Las principales etapas de la prueba de Wilcoxon [22] se resumen a continuación:.
Reunir todo muestras de las dos poblaciones y ordenarlos en el orden ascendente.

la estadística de Wilcoxon se calcula mediante la suma de todas las filas relacionadas con las muestras del grupo más pequeño.

la decisión hipótesis es tomada en base a la p-valor, que se encuentra en el cuadro de distribución de la suma de rangos de Wilcoxon.

en las aplicaciones de la prueba de Wilcoxon para la selección de genes, los valores absolutos de las estadísticas de Wilcoxon estandarizados se emplean para clasificar los genes

relación señal a ruido (SNR)

SNR define la separación de clases en relación métrica por:. (5) donde
c
es el vector de clase,
f


i
es el
i
ª vector de características. Al tratar a cada gen como una característica, transformamos el SNR para la selección de características para el problema de la selección de genes para la clasificación de datos de microarrays.

SNR implica que la distancia entre las medias de dos clases es una medida para la separación. Además, la desviación estándar pequeña favorece la separación entre clases. La distancia entre los valores medios se normalizó por lo tanto por la desviación estándar de las clases [23].

Una nueva selección de genes por AHP
modificado
Cada uno de los criterios anteriores se pueden emplear para obtener la clasificación de los genes y luego para seleccionar los genes más grandes en la clasificación de los métodos de clasificación. No siempre se logra la confianza de utilizar un único criterio para la selección de genes. Teniendo en cuenta este criterio, se debe utilizar es insegura. Esta pregunta se inspira una idea de tener en cuenta la clasificación de todos los criterios en la evaluación de los genes. A través de esta forma, los genes de élite de cada criterio se ensamblan de manera sistemática para formar los subconjuntos de genes más informativos y estables para la clasificación. Es una práctica difícil de combinar la clasificación de todos los criterios porque los rangos de estadísticas de criterios son diferentes. El criterio genera una mayor gama de estadísticas dominaría los que tienen un rango inferior. Para evitar este problema, utilizamos AHP en la evaluación de genes. El despliegue AHP se trata comúnmente con criterios cualitativos en sus evaluaciones se derivan de los expertos. Sin embargo, el conocimiento de los expertos a menudo está limitado particularmente cuando el problema a resolver se lleva a cabo en una amplia serie de criterios referidos a diversas áreas del conocimiento. Esto aboga por el uso de criterios cuantitativos en el AHP. A continuación se presenta una propuesta novedosa vis-à-vis un procedimiento de clasificación de utilizar criterios cuantitativos a la AHP para el problema de la selección de genes. Los criterios utilizados en este documento son las cinco pruebas estadísticas es decir, t-test, la entropía, la República de China, Wilcoxon, SNR.

El método AHP aplicado la manera más amplia en la toma de decisiones multicriterio complejo se realiza a menudo con una estructura de árbol de criterios y sub-criterios [24]. Debido a la naturaleza de los criterios seleccionados aquí, la estructura de árbol tiene tres niveles de jerarquías como se ilustra en la Fig. 1.

Cinco criterios se consideran simultáneamente durante la aplicación de AHP. Los cinco criterios son todas cuantitativas de modo que intuitivamente podemos poner cifras reales de estos criterios en elementos de la matriz de clasificación por pares. Sin embargo, esto distorsionaría la matriz en relación con otras matrices que describen las evaluaciones y juicios con respecto a otros criterios. aplicaciones convencionales de análisis jerárquico a menudo se basan en la escala de calificación Saaty [1, 9] y las proporciones aproximadas, por ejemplo, 1, 3, 5, 7, 9 para construir matrices de comparación por pares [24, 25]. En esta investigación, se propone la escala [1, 10] para la clasificación por importancia o significado de un gen en comparación con otros genes. Esta escala se aplicará a todos los criterios en la aplicación de AHP.

Supongamos
X =
(
x


ij
) es el
n
×
n
-Dimension matriz de juicio por parejas en la que cada elemento de
x


ij
representa la importancia relativa de los genes
i
sobre gen
j
con respecto a un criterio determinado,
n
es el número de genes. La característica recíproca induce las siguientes limitaciones (6) (7) Si gen
i
es absolutamente más informativo que el gen
j
, entonces tenemos
x

ij = 10. En consecuencia gen
j
debe ser absolutamente menos importante que el gen
i
y
x

ji = 1/10. Donde
x

ij = 1, esto indica que dos genes son igualmente informativo. Cuanto mayor sea el valor de
x

ijε [1,10], el más importante del gen
i
es en comparación con el gen
j
. Elemento
x

ij que es mayor que 1 se llama un elemento superior. De lo contrario
x

ij se llama un elemento inferior, ya que es más pequeño que 1.

Vamos a definir la distancia
d

ij entre dos genes
i
y
j
con respecto a un criterio determinado (por ejemplo, t-test, la entropía, la República de China, Wilcoxon o SNR) por el valor absoluto de la resta entre dos estadísticas
c


i
y
c


j Red de dos genes. gratis (8)
Tenga en cuenta que para todos los criterios, mayor será la estadística, el más importante es el gen. El procedimiento para la adquisición de elementos de comparación de matrices recíprocas se describe a continuación, donde
C_max
es la distancia máxima de genes en relación con el criterio dado,
C_max
=
max gratis (
d


ij
), ∀
i
,
j
∈ [0,
n
], y
c
es una variable temporal.

Clasificación procedimiento.

Para todos los pares de dos genes
i
y
j gratis (9) SI (
c


i

c


j
) ENTONCES
x


ij
=
c
ELSE
x


ij
= 1 /
c
END IF

FIN DE

las expresiones de x
ij asegurar que los elementos superiores de las matrices de juicio serán distribuidos en el intervalo [1, 10]. Tenga en cuenta que a través de los cálculos del método de clasificación cuantitativa, las relaciones superiores pueden ser números reales dentro de [1, 10] para que puedan caracterizar más rigurosamente el significado juicio contra la escala original Puntuación Saaty. Por ejemplo, considere cuatro criterios cuantitativos A, B, C, y D con los valores respectivos 0.9, 1.3, 8.7, y 9.2. De acuerdo con la escala de calificación de Saaty, los criterios B y A (D y C) se consideran "igualmente importante" y las relaciones de
x


BA
y
x


DC
será igualmente asignado a 1:
x


BA
=
x


CC
= 1. Obviamente, la diferencia entre B y A (o D y C), aunque pequeño, se descuida. Sin embargo, con nuestro método de clasificación, las relaciones de
x


BA
y
x


DC
son asignados con mayor precisión y de forma diferente 1.4337 =
x


BA

x


DC
= 1,5422. Del mismo modo, en la escala de calificación Saaty, el criterio C se considera absolutamente más importante que el criterio A y B, y la relación de
x


CA
y
x


CB ¿Cuáles son ambas asignadas 9. En nuestra escala, la proporción
x


CA
y
x


CB
se le asignará de manera diferente 9,4578 y 9,0241, respectivamente. De ahí que la sentencia "absoluta importancia" es relajado y reemplazado por juicios más rigurosos con diferentes números reales 9.4578 y 9.0241 en lugar de la misma cantidad aproximada 9 para ambos
x


CA
y
x


CB
.

Después de matrices de comparación se construyen, análisis jerárquico calcula vectores propios que demuestran la clasificación de las puntuaciones de los genes. Los cálculos de la AHP se describen brevemente en la Tabla 1.

Si bien la aplicación del AHP, se requiere la matriz ser constante y por lo tanto sus elementos deben ser transitiva, es decir
x


ik
=
x

ij
x

jk. Para verificar la consistencia de la comparación de la matriz X, Saaty [25] sugiere calcular el índice de consistencia (CI) y luego Relación de consistencia (CR) sobre la base de grandes muestras de matrices de juicios puramente al azar. Deje
ε
= [
ε

1, ...,
ε


n
]
T sea un vector propio y λ un valor propio de la matriz cuadrada
X
, así: (10) (11) (12) CR no debe exceder de 0,1 si el conjunto de sentencias es consistente aunque CRs de más de 0.1 (pero no mucho más ) a veces tienen que ser aceptados en la práctica. CR igual a 0 implica los juicios son perfectamente consistentes.

Cuando se hayan completado los cálculos para cinco criterios, se obtiene la matriz de desempeño denominada opción que consiste en cinco vectores propios que tiene la forma que se muestra en la Tabla 2.


Finalmente el ranking de los genes es la multiplicación de la matriz de desempeño y el vector que representa el peso importante de cada criterio. El vector de peso se puede obtener mediante la evaluación del nivel importante de cada criterio en relación con el objetivo usando el mismo procedimiento como se describe anteriormente. Sin embargo, para evitar una resolución sesgo, consideramos cinco criterios que tienen un nivel igualmente importante con respecto a la meta. A continuación, el vector de peso es (1/5; 1/5; 1/5; 1/5; 1/5)
T. Es, pues, evidente que la clasificación de los genes es normalizan automáticamente y muestra el nivel de importancia de cada gen teniendo en cuenta no sólo un único criterio, pero todos los criterios simultáneamente. Más altos de clasificación genes son seleccionados para la clasificación después. En este trabajo, a declarar el rendimiento de las técnicas de clasificación, se determina una serie amplia gama de genes. Los detalles del número de genes seleccionados se presentan en la sección experimental.

Sistema Fuzzy genética para la clasificación de datos de microarrays

modelo aditivo estándar Fuzzy (FSAM)

El sistema FSAM
F
:
R


n

→ R


p
consta de
m
if-then reglas difusas, que en conjunto puede uniformemente aproximada continua y acotada funciones medibles en un dominio compacto [26, 27]. Si partes de conjuntos difusos
Un


j

R


n
puede ser cualquier tipo de funciones de pertenencia. Del mismo modo, el entonces parte fuzzy sets
B Opiniones

j

R


p
puede ser eligió arbitrariamente porque utiliza solamente FSAM el baricentro
c


j
y el volumen
V

j
B Opiniones

j
para calcular la salida
F gratis (
x
) dado el vector de entrada
x
εR
n. gratis (13)
Cada uno de los
m
reglas difusas en la forma de la palabra
"Si x = a


j

a continuación, Y = B Opiniones

j

"
está representado por un parche de reglas difusas de la forma a
j × B
j⊂R
n × R
p. Por lo tanto, FSAM cubre gráficamente el gráfico de la approximand
f
con
m
parches de reglas difusas. Si partes conjunto
Un


j

R


n
se caracteriza por la función set conjunta
una


j
:
R


n


[0, 1] que los factores:. conjunto difuso A continuación, la parte B
j⊂R
p se modela de manera similar por la función de pertenencia
b


j
:
R


p


[0, 1] que tiene el volumen (o área)
V

j y baricentro
c


j
. Los pesos convexas expresadas por: (14) inducen la salida FSAM
F gratis (
x
) como una suma convexa del conjunto centroides parte-entonces. FSAM en particular, o borrosa sistema en general requiere del orden de
k

n + normas p-1 para caracterizar la función
f
:
R


n

→ R


p
en un dominio compacto.

el aprendizaje es un proceso vital de FSAM para construir una base de conocimiento que es una estructura de reglas difusas si-entonces. El proceso de aprendizaje FSAM incluye convencionalmente dos pasos básicos: a) aprendizaje no supervisado para la construcción if-then reglas difusas y b) aprendizaje supervisado para los parámetros de la regla de afinación [28]

El aprendizaje supervisado con frecuencia se inicia a partir de un conjunto inicializado al azar. de parámetros y termina cuando se cumplen los criterios de parada determinados. Como proceso de formación cuesta mucho tiempo y con frecuencia se encuentra atrapado en mínimos locales, la inicialización de parámetros es, pues, una cuestión trivial. El proceso de aprendizaje sin supervisión, que a menudo se logra mediante un método de agrupamiento, por ejemplo, fuzzy c-means, ayuda para inicializar los parámetros de reglas difusas con mayor habilidad (Fig. 2).

Microarray datos que normalmente se asocian con la naturaleza de alta dimensión que conduce la clasificación FSAM a un sistema de explosión regla frente la maldición de la dimensionalidad [29]. Con un gran número de reglas, FSAM requiere un gran número de muestras para entrenar el sistema. Sin embargo, esto se contradice con la característica de bajo ejemplo de los datos de microarrays de expresión génica. Por tanto, es esencial para optimizar la estructura de reglas para mejorar la eficiencia del proceso de aprendizaje y la capacidad de generalización de FSAM.

En este trabajo, se propone el uso de un proceso de aprendizaje evolutivo, es decir, GA, para optimizar el número de reglas difusas antes de que se realiza el aprendizaje supervisado. El componente de aprendizaje evolutivo está diseñado también para aliviar el coste computacional del aprendizaje supervisado éxito. Toda la integración entre GA y FSAM para formular un sistema difuso genética se ilustra en la Fig. 3. Los detalles de cada componente de aprendizaje se presentan en los apartados siguientes.

aprendizaje no supervisado por los c-means difusos (FCM) agrupación

El método FCM agrupación [30] se aplica para inicializar los parámetros de FSAM. Organizamos los datos de entrada y de salida correspondientes a una observación única de p + 1 dimensiones donde
p
es el número de entradas y una salida que corresponde a la clase de objeto de clasificación. Denotar
x

i es la observación
i
º organizada (
i
= 1, ...,
N
),
x

i se presenta como sigue: (15) donde es el
j
ª entrada del
i
ésima observación y
salida
i
es la salida de la
i
observación XX. Al agrupar la muestra de
N
observaciones que tienen el formato anterior, que son capaces de derivar la

C, como consecuencia agrupaciones correspondientes con
C
reglas difusas del FSAM. Una vez que se completó la agrupación FCM, centros de las agrupaciones resultantes se asignan a los centros de las funciones de pertenencia (MFS). Los centros de la salida de cada regla serán asignados igual al valor de salida de la agrupación correspondiente. Las anchuras de las FMs de cada regla se inicializan basan en la desviación estándar de los datos.

El
SINC
función de pertenencia
sin
(
x
) /
x
recomienda como la mejor forma para un conjunto difuso en la aproximación de funciones se utiliza para construir si-entonces reglas difusas [31]. El
j
ª función set sinc (Fig. 4) centrado en el
m


j
y anchura d

j Hotel & gt ; 0 se define de la siguiente manera:. (16) La ejecución de la FCM agrupación de un número de veces igual al tamaño de la población GA, estamos en condiciones de obtener la población inicial de GA, que se describe en la siguiente

Fuzzy optimización de la estructura regla por GA

a GA [32] es un poco ortodoxo técnica de búsqueda o de optimización operado en una población de
n
individuos artificiales. Los individuos se caracterizan por cromosomas (o genomas)
S

k,
k = {
1,
...
,
n}
. El cromosoma es una cadena de símbolos, que son llamados genes, S
k = (S

k1
, ..., S

kM
), y
M
es una longitud de cuerda. Los individuos son evaluados a través de cálculo de una función de aptitud. Para evolucionar a través de generaciones sucesivas, GA realiza tres operadores genéticos básicos:. La selección, cruce y mutación

Un método de selección de rueda de la ruleta se utiliza para seleccionar a las personas que van a producir una población intermedia. Los padres son seleccionados en base a su condición física. Los cromosomas tienen más posibilidades de ser seleccionados si son mejores (tienen mayor aptitud) que los otros. Imagínese todos los cromosomas de la población se colocan en una rueda de ruleta, y cada uno tiene su lugar muy grande de acuerdo a su función de aptitud
.
La rueda gira y el punto de selección indica qué cromosoma se selecciona cuando se detiene la rueda. Es obvio que el cromosoma con la aptitud grande será seleccionado más veces (regla de competir en la teoría de la evolución).

El operador de cruce selecciona al azar pares de la población intermedia y lleva a cabo de 1 punto de cruce. Los genes de los cromosomas de los padres son seleccionados para crear nuevas crías.

Finalmente, los individuos se mutan y forman la nueva población. Los mutación impide la caída de todas las soluciones de la población en un óptimo local del problema a resolver. Unos trozos escogidos al azar se pasa de 1 a 0 o de 0 a 1.

A través de la evolución cromosomas, GA busca la mejor solución (s) en el sentido de la función de aptitud dado. Empleamos GA para entrenar la FSAM complicada que comprende muchos parámetros. La función de aptitud se ha diseñado con el objetivo de reducir el número de reglas difusas y también para disminuir el error de aprendizaje al mismo tiempo. Se propone la siguiente fórmula: (17) Donde
m
es el número de reglas difusas,
n
es el número de muestras de datos, y es el término de error definido por la siguiente ecuación :( 18) donde
y


i
es el valor real y
F gratis (
x


i
) es la salida de la FSAM. Parámetros de FSAM se codifican en los genes de los cromosomas GA /individuos. 6; 10; 6; 10; 6; 10;

El conocimiento de la salud

Los signos de cáncer cerebral o tumor

Afortunadamente, en los últimos años ha habido una gran cant

Superviviente del cáncer de Deterioro de Riesgo de Vida a Término Insurance

La lucha contra el cáncer en sí misma es un evento extremada

El ejercicio reduce el riesgo de otro tipo de Cancer

Haciendo Noticias La Sociedad Americana del Cáncer estima

Septiembre es el Mes de Awarness Cáncer Infantil

Meet Marshall Herencia Cuando Marshall desarrolló neurobl

Cómo conseguir el cáncer y cómo no Cancer.

whos alguien tenía una dieta occidental típica y estilo de v

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]