cáncer de clasificación y función de selección Resumen
(gen) juega un papel importante en el descubrimiento de conocimiento en los datos genómicos. A pesar de la regresión logística es uno de los métodos de clasificación más populares, no induce la selección de características. En este trabajo, presentamos una nueva función híbrida L
2 1/2 regularización (HLR), una combinación lineal de L
1/2 y L
2 sanciones, para seleccionar el gen correspondiente en el Regresión logística. El enfoque HLR hereda algunas características fascinantes de L
1/2 (escasez) y L
2 sanciones (efecto en variables altamente correlacionadas están dentro o fuera de un modelo de agrupación en conjunto). También hemos propuesto un nuevo enfoque univariado umbral HLR para actualizar los coeficientes estimados y desarrolló el algoritmo de descenso de coordenadas para el modelo de regresión logística HLR penalizado. Los resultados empíricos y simulaciones indican que el método propuesto es altamente competitivo de los diversos métodos del estado de la técnica
Visto:. Huang HH, Liu XY, Liang Y (2016) Selección de características y clasificación de cáncer a través de Sparse la regresión logística con el híbrido de L
2 1/2 Regularización. PLoS ONE 11 (5): e0149675. doi: 10.1371 /journal.pone.0149675
Editor: Fengfeng Zhou, de la Universidad de Jilin, China
Recibido: 18 Septiembre, 2015; Aceptado: 2 Febrero de 2016; Publicado: May 2, 2016
Derechos de Autor © 2016 Huang et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Disponibilidad de datos:. Todo relevante los datos están dentro del apoyo de sus archivos de información en papel y
Financiación:.. Este trabajo fue apoyado por la Ciencia y Tecnología de Macao Desarrollar Fondos (subvención Nº 099/2013 /A3) de Macao RAE de China
Conflicto de intereses: una patente relacionada con un nuevo
1 función /2-2 regularización (HLR) L híbrido, una combinación lineal de L1 y L
1/2 sanciones, para seleccionar las variables relevantes en alto demensional de datos está actualmente pendiente. Esto no altera nuestra adhesión a las políticas de PLoS ONE en el intercambio de datos y los autores materials.The han declarado que no existen intereses en competencia.
1. Introducción
Con los avances en las técnicas moleculares de alto rendimiento, los investigadores pueden estudiar la expresión de decenas de miles de genes simultáneamente. cáncer de clasificación basado en los niveles de expresión de genes es uno de los problemas centrales en la investigación del genoma. La regresión logística es un método de clasificación popular y tiene una interpretación estadística explícita que puede obtener las probabilidades de clasificación en relación con el fenotipo del cáncer. Sin embargo, en la mayoría de los estudios de expresión génica, el número de genes típicamente muy superior al número de tamaño de la muestra. Esta situación se denomina problema de alta dimensión y bajo tamaño de la muestra, y el método de regresión logística normal no se puede utilizar directamente para estimar los parámetros de regresión.
Para hacer frente al problema de la alta dimensionalidad, una de las técnicas populares es el método de regularización. Un método de regularización conocido es el L
1 penalidad [1], que es la contracción y la selección de operador menos absoluta (Lasso). Se está llevando a cabo la contracción continua y la selección de genes al mismo tiempo. Otro tipo L métodos de regularización
1 norma general incluyen la pena recortado sin problemas-absoluta-desviación (SCAD) [2], que es simétrica, nonconcave, y tiene singularidades en el origen para producir soluciones dispersas. El Lasso adaptativo [3] penaliza a los diferentes coeficientes con los pesos dinámicos de la L
1 penalti. Sin embargo, la L
1 Tipo de regularización pueden producir la selección de funciones incompatibles en algunas situaciones [3] y, a menudo introduce sesgo adicional en la estimación de los parámetros de la regresión logística [4]. Xu
et al
. [5] propuso la L
1/2 pena máxima con un método que puede ser tomado como un representante de L
q (0 & lt;
q Restaurant & lt; 1) las sanciones, tanto en escasez y computacional eficiencia, y ha demostrado muchas propiedades atractivas, tales como insesgamiento y Oracle propiedades [5-7]. Sin embargo, similar a la mayoría de los métodos de regularización, la L
1/2 pena ignora la correlación entre las características y, por consiguiente incapaz de analizar los datos con estructuras dependientes. Si hay un grupo de variables entre las que las correlaciones por pares son muy altos, entonces el L
medio método tiende a seleccionar sólo una variable a representa el grupo correspondiente. En el estudio de la expresión génica, los genes son a menudo altamente correlacionados si comparten la misma vía biológica [8]. se han hecho algunos esfuerzos para hacer frente al problema de las variables altamente correlacionadas. Zhou y Hastie propusieron pena de Red elástica [9], que es una combinación lineal de L
1 y L
2 (la técnica Ridge) sanciones, y tal método hace hincapié en un efecto de agrupamiento, donde los genes fuertemente correlacionados tienden a estar en o fuera del modelo juntos. Becker
et al
. [10] propuso el elástico SCAD (SCAD - L
2), una combinación de SCAD y L
2 sanciones. Mediante la introducción de la L
2 término de penalización, elástico SCAD también trabaja para los grupos de predictores.
En este artículo, se propone el HLR (híbrido L
1/2 + 2 regularización) de aproximación a ajustarse a los modelos de regresión logística para la selección de genes, donde la regularización es una combinación lineal de la L
1/2 y L
2 sanciones. La L
pena de 1/2 logra la selección de características. En teoría, una función de penalización estrictamente convexa proporciona una condición suficiente para el efecto de agrupamiento de variables y la L
2 penalización, garantiza la convexidad estricta [11]. Por lo tanto, la L
2 pena induce el efecto de agrupación de manera simultánea en el enfoque HLR. Los resultados experimentales sobre los datos de expresión de genes artificiales y reales en este trabajo demuestran que nuestro método propuesto es muy prometedor.
El resto del artículo se organiza como sigue. En la Sección 2, primero se definió el enfoque HLR y presentamos un algoritmo eficiente para resolver el modelo de regresión logística con la pena de HLR. En la sección 3, se evaluó el rendimiento de nuestro enfoque propuesto en los datos simulados y cinco de expresión génica conjuntos de datos públicos. Nosotros presentamos una conclusión del documento en la Sección 4.
2. Métodos
2.1 Regularización
Supongamos que el conjunto de datos
D
tiene
n
muestras
D
= {(
X
1,
y
1), (
X
2
y
2), ..., (
X
n
,
y
n
)}, donde
X
i
= (
x
i
1,
x
i página 2, ...,
x
ip
) es
i
ª muestra con
p
dimensional y
y
i
es la variable dependiente corresponde
Para cualquier valor no negativo
λ
, la forma normal de regularización es:. (1) donde
P gratis (
β
) representa el término de regularización. Hay muchos métodos de regularización propuestos en los últimos años. Uno de los métodos más populares es la L
1 regularización (Lasso), donde. Los demás L
1 Tipo regularizaciones incluyen SCAD, el lazo de adaptación, Red elástica, Etapa sabia Lasso [12], Dantzig selector [13] y SCAD elástico. Sin embargo, en la investigación genómica, el resultado de la L
1 Tipo de regularización no podrá suficientemente escasa para la interpretación. En realidad, un microarray típico o conjunto de datos de RNA-seq tiene muchos miles de predictores (genes), y los investigadores a menudo el deseo de seleccionar menos informativos, pero los genes. Junto a esto, la L
1 regularización es asintóticamente sesgado [14,15]. Aunque la L
0 regularización, en donde, se obtienen las soluciones más escasa, lo que tiene que hacer frente a un problema de optimización combinatoria NP-duro. Para obtener una solución más concisa y mejorar la exactitud predictiva del modelo de clasificación, tenemos que pensar más allá de la L
1 y L
0 regularizaciones a la L
q (0 & lt;
q
& lt; 1) regularización. La L
1/2 regularización puede ser tomado como un representante de la L
q (0 & lt;
q Hotel & lt; 1) las sanciones y ha permitido una representación analítica de umbral expresiva [5]. Con la representación de umbral, la resolución de la L
1/2 regularización es mucho más fácil que resolver el L
0 regularización. Por otra parte, la L
1/2 pena es insesgamiento y tiene propiedades oráculo [5-7]. Estas características están haciendo la L
pena de 1/2 se convirtió en una herramienta eficaz para los problemas de alta dimensionalidad [16,17]. Sin embargo, debido a la falta de sensibilidad de los datos altamente correlacionados, la L
1/2 pena tiende a seleccionar sólo una variable para representar al grupo correlacionada. Este inconveniente se puede deteriorar el rendimiento de la L
1/2 método.
2.2 híbrido L
2 1/2 Regularización (HLR)
Para cualquier fijo no negativo λ
1 y λ
2, definimos el híbrido L
2 1/2 regularización (HLR) criterio: (2) donde
β
= (
β
1, ...,
β
p
) son los coeficientes a estimar y
el estimador HLR es el minimizador de la ecuación (2) : (3)
Vamos α =
λ
1 /(1 +
λ
2), a continuación, la solución de la ecuación (3) es equivalente para el problema de optimización: (4)
llamamos a la función
α