Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: Selección robusta de supervivencia del cáncer de firmas de alto rendimiento genómica de datos mediante submuestreo doble

PLOS ONE: Selección robusta de supervivencia del cáncer de firmas de alto rendimiento genómica de datos mediante submuestreo doble


Extracto

La identificación de firmas relevantes para el resultado clínico del paciente es una tarea fundamental en los estudios de alto rendimiento. Firmas, compuestas de características tales como ARNm, miRNAs, SNPs u otras variables moleculares, son a menudo no se solapan, a pesar de que se han identificado a partir de experimentos similares, considerando las muestras con el mismo tipo de enfermedad. La falta de consenso se debe principalmente al hecho de que los tamaños de muestra son mucho más pequeños que el número de características candidato para ser considerado, y por lo tanto la selección de la firma sufre de gran variación. Proponemos un robusto método de selección de la firma que mejora la estabilidad selección de algoritmos de regresión penalizados para predecir el riesgo de supervivencia. Nuestro método se basa en una agregación de múltiples posiblemente inestables, firmas, obtenidos con el algoritmo de lazo preacondicionado aplicada a submuestras aleatorias (internos) de una cohorte dada de datos, donde la firma agregada está encogido por una simple estrategia de umbral. El método resultante, RS-PL, es conceptualmente simple y fácil de aplicar, basándose en parámetros ajustados automáticamente por la validación cruzada. la selección de la firma robusta utilizando RS-PL opera dentro de un marco de submuestreo (externa) para estimar las probabilidades de selección de características en múltiples ensayos de RS-PL. Estas probabilidades se utilizan para la identificación de características fiables para ser incluido en una firma. Nuestro método se evaluó en conjuntos de datos de microarrays de neuroblastoma, adenocarcinoma de pulmón y cáncer de mama, la extracción de firmas sólidas y relevantes para predecir el riesgo de supervivencia. Firmas obtenidas por nuestro método de predicción consiguen un alto rendimiento y robustez, constantemente durante los tres conjuntos de datos. Los genes con alta probabilidad de selección, de nuestras firmas sólidas han sido reportados como el cáncer relevante. El orden de los coeficientes del predictor asociadas con firmas fue bien conservado a través de múltiples ensayos de RS-PL, lo que demuestra la capacidad de nuestro método para la identificación de una firma consenso transferible. El software está disponible como un paquete de R RSIG en CRAN (http://cran.r-project.org)

Visto:. Lee S, Rahnenführer J, Lang M, De Preter K, P Mestdagh, Koster J, et al. (2014) Selección robusta de supervivencia del cáncer de Firmas de Alto Rendimiento Genómica de datos mediante submuestreo doble. PLoS ONE 9 (10): e108818. doi: 10.1371 /journal.pone.0108818

Editor: Ioannis P. Androulakis, Universidad de Rutgers, Estados Unidos de América

Recibido: 13 de diciembre de 2013; Aceptado: 5 Septiembre 2014; Publicado: 8 Octubre 2014

Copyright: © 2014 Lee et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Financiación:. Los autores Agradecemos el apoyo de la Deutsche Forschungsgemeinschaft (DFG) dentro del Collaborative Research Center SFB 876 (http://sfb876.tu-dortmund.de) "Suministro de información por los recursos limitados Análisis", proyecta A3 y C1. L. Varesio fue apoyado por becas de la Asociación Italiana para la Investigación del Cáncer, la red ENCCA, el Ministerio de Salud de Italia. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción

identificación de las características relevantes de grandes conjuntos de datos ha sido un foco de muchos campos de investigación durante mucho tiempo. Con la aparición de las tecnologías de perfiles genómicos de alto rendimiento, robustez está siendo percibido como un factor importante en la selección de características [1], [2]. En términos generales, una característica es robusto si se elige por un método invariablemente de la composición de la cohorte, asumiendo que todas las muestras provienen de la misma distribución de la población. Si un algoritmo identifica muchas de estas características robustas, entonces el algoritmo puede ser considerado como sólido también. La robustez es un factor crítico especialmente en los estudios clínicos, cuando el propósito es o bien para identificar los actores clave en los sistemas biológicos subyacentes, o para desarrollar pruebas clínicamente útiles.

Los estudios clínicos Desafortunadamente general se realizan sin una consideración explícita de robustez de su diseño experimental. Un ejemplo típico es llevar a cabo la selección de características en una sola partición de datos de cohortes disponibles, a continuación, para determinar el éxito de la selección utilizando el resto de los datos (a menudo llamado como un conjunto de prueba). Cuando tamaños de las muestras son pequeñas, como en la mayoría de los estudios clínicos, tales prácticas pueden conducir a la identificación de diversas firmas de múltiples estudios que parecen perfectamente bien en su propia evaluación, pero no tienen éxito cuando se aplican a los datos de otros estudios.

en este artículo se propone un algoritmo para hacer frente a los problemas antes mencionados, basado en las ideas bien estudiados de submuestreo [3] y la agregación [4]. Nuestro marco consiste en dos pasos de submuestreo: (i) un
submuestreo exterior
paso, que estima el rendimiento de predicción de los modelos y la probabilidad de selección de características, y (ii) un
submuestreo interior
paso , que obtiene un modelo sólido mediante la agregación de muchos, posiblemente inestables, modelos, donde se obtiene cada modelo a partir de una submuestra

En el submuestreo exterior, que esencialmente ejecutar bootstrapping [3] para estimar dos cantidades:. las probabilidades de selección de las características y el rendimiento de predicción de los modelos integrados por firmas robustas. La estimación de las probabilidades de selección de funciones utilizando submuestras también se ha utilizado en Davis et al. [1], en el contexto de la elección de la mejor combinación de una función de selección y un algoritmo de clasificación por separado para maximizar tanto la frecuencia de selección de características y precisión de la clasificación. En nuestro método, función de selección y ajuste del modelo se realizan simultáneamente, y es una propiedad intrínseca que las características relevantes deben ser elegidos con alta probabilidad. Por ello utilizamos las probabilidades de selección estimados para la construcción de las firmas sólidas, no para encontrar la mejor combinación.

El uso de agregación para producir firmas robustas como en nuestra etapa de submuestreo interior se ha utilizado en diferentes contextos. Abeel et al. [5] considera promedios simples y ponderados de vectores de decisiones de las máquinas de vectores soporte (SVMs) [6] y la función recursiva de eliminación utilizando SVM [7], donde cada vector de decisión se obtiene a partir de una muestra de arranque. En Escoba, Do y Subramanian [8], se ha propuesto un marco modificado para inclinarse estructuras en las redes bayesianas. Estas obras, sin embargo no abordan el problema de la identificación de firmas sólidas de los resultados de supervivencia censurados, un tipo típico de respuestas en la investigación clínica. Además, los métodos tales como SVMs no tienen ninguna garantía de que tales características importantes serán seleccionados con una alta probabilidad sobre diferentes submuestras.

Nuestra selección sólida se basa en argumentos teóricos desarrollados recientemente para el algoritmo de lazo ampliamente utilizado [9] y una extensión llamado algoritmo de lazo acondicionado previamente [10], que se introducen en la siguiente sección.

regresión de Cox con la Pena Lasso

consideremos una muestra de cohorte que consiste en
n
pacientes, en los que cada uno de los pacientes se perfila por un
p
-dimensional vector de características x

i
y una anotación de supervivencia:
t
i
es la duración de la supervivencia en el tiempo y
e
i
es un indicador de un evento clínico tal que
e
i = 1
si un evento ha ocurrido, y
e
i
= 0 en caso contrario.

en la regresión de Cox [11], el riesgo de un paciente que tiene un evento en tiempo de
t
se modela mediante una función, donde
h

0 (
t
) es la función de riesgo base, la parte exponenciación describe el efecto de las covariables, y. Una estimación del vector de coeficientes
β
se obtiene mediante la estimación de máxima verosimilitud, es decir, (1) donde es el logaritmo de la verosimilitud parcial definido por

Aquí
E
es un conjunto de índices de enumerar todos los eventos y es un conjunto de índices de los pacientes en situación de riesgo con respecto a la hora de un evento
i
. El segundo término de la ecuación. (1) es un regularizador penalizar la complejidad de
β
, con y. A menudo llamamos la regularización con
α = 1
como el lazo o, y el que tiene
α = 0
como el canto o la pena. Lazo selecciona características mediante el establecimiento de los coeficientes en
β
exactamente a cero para las características irrelevantes, mientras que el canto no realiza la función de selección por sí mismo. Para la comparación detallada de los dos, nos referimos a Gui y Li [12]. Para 0 & lt;
α
. & Lt; 1, el regularizador se llama la red elástica [13], lo que tiende a seleccionar todas las covariables correlacionados juntos

acondicionados previamente Lasso

El preacondicionaron algoritmo de lazo [10] es un procedimiento de dos pasos diseñado para hacer frente a los problemas de alta sesgo en las estimaciones del lazo cuando el número de características
p
es muy grande en comparación con el número de pacientes
n
. Los dos pasos son

etapa de preacondicionamiento:.

Lasso paso: ajustar un modelo de

El primer paso crea resultados precondicionados de las características dadas y los datos de supervivencia. . El acondicionamiento previo se lleva a cabo mediante el método supervisado principales componentes [14], que primero se ubica características por su correlación individual a los resultados de supervivencia, y luego encontrar un umbral de validación cruzada que da la mejor predicción de rendimiento si las características puesto más alto que el umbral se utilizan en la regresión después de haber sido proyectado sobre los primeros componentes principales. Los resultados previamente acondicionados se producen como resultado de la predicción para cada vector de características en un conjunto de entrenamiento. Aquí es de valor real, mientras que el resultado original contiene un valor de tiempo de supervivencia y un indicador de evento.

El segundo paso utiliza lazo para ajustar un modelo lineal a los vectores de características originales y el resultado previo de adaptación. Desde reacciones preprogramadas son escalares, podemos usar lo común regresión de mínimos cuadrados con la pena de lazo, (2)

Este problema se puede resolver de manera eficiente con la regresión de mínimos ángulo (LARS) algoritmo [15]. Después de que se encuentre una solución, una predicción de riesgo lineal se puede calcular para cada instancia de prueba x y se compara con el riesgo de supervivencia en las formas del modelo de Cox.

La consistencia y Firma robusta Selección

Supongamos que se obtiene mediante la resolución de la ecuación. (1) con
n
ejemplos, en los ejemplos que se generan con un parámetro desconocido de la población bajo el modelo de Cox. Una noción importante en las estadísticas relativas a la selección de características robustas es el
coherencia en términos de selección de variables
, (3)

Es decir, selecciona las mismas características que con el aumento de la probabilidad como el número de pacientes aumenta . Esto implica que si
n
es lo suficientemente grande o la convergencia en la ecuación. (3) es lo suficientemente rápido para un fijo
n
, a continuación, los subconjuntos de características elegidas por varias utilizando diferentes muestras de tamaño
n
será la misma con alta probabilidad, ya que todos ellos serán cerca de las características a elegir por. Por lo tanto para la selección sólida en estudios clínicos en los que el número de pacientes
n
es relativamente pequeña y no es fácil de aumentar, preferimos el uso de un método de convergencia rápida en la consistencia.

Recientemente se ha se muestra que bajo el
condiciones irrepresentable
[16] o de forma equivalente el
condiciones de estabilidad barrio
[17], las estimaciones consistentes se puede obtener mediante lazo, a pesar de estas condiciones por lo general se rompen en situaciones reales. El algoritmo de lazo acondicionado previamente [10] es una alternativa a Lasso, produciendo estimaciones consistentes, por ejemplo, cuando . Para los mínimos cuadrados ordinarios con la pena de lazo, se demuestra que cuando se elige el parámetro de regularización ser, entonces cada elemento activo de lo elige con probabilidad estrictamente positiva [18]. Por lo tanto, una intersección de conjuntos de características obtenidas a partir de ensayos de rutina de carga será no vacío, y ser coherente con el aumento exponencial de probabilidad como
n
crece. Sin embargo, los argumentos se basan en suposiciones que son fuertes y no violó fácilmente en la práctica, y por lo tanto la propiedad deseada no puede seguir. Otra modificación de lazo se ha sugerido el uso de ponderación aleatoria de la regularizador lasso [19]. Este algoritmo produce estimaciones consistentes en condiciones menos restrictivas que el enfoque anterior, pero requiere que se especifique un parámetro adicional "debilidad" que no es sencillo determinar en su entorno aleatorio.

Nuestro método de selección sólida se basa en el siguiente tres observaciones críticas. En primer lugar, el lazo previamente acondicionado tiene una mejor convergencia en la consistencia de lazo cuando [10]. En segundo lugar, la variación en los modelos se puede reducir por el modelo de promedio combinado con submuestreo [4] (paso submuestreo interior). Y en tercer lugar, las características relevantes deben ser seleccionados con probabilidad positiva con el lazo bajo ciertas condiciones [18], y por lo tanto van a aparecer más a menudo que las características irrelevantes en múltiples ensayos con submuestras aleatorias (paso submuestreo externa).

Un robusto la firma se define como sigue: dado un índice de sub-muestra al azar del sistema y una estimación obtenida con los ejemplos correspondientes a
I
, la solidez de una función de un índice por se define como la probabilidad de ser seleccionado entre todos los ensayos con submuestras aleatorias, donde todos los parámetros, en su caso, se supone que ser ajustado para cada
I
. Un
firma robusta
se define como un conjunto de características robustas, cuyas probabilidades de selección están por encima de un cierto umbral, es decir, España
Las dos definiciones anteriores se han adaptado de Meinshausen y Bühlmann [19]. Después de evaluar la probabilidad de selección de características de submuestreo exterior, lo usamos para identificar una firma sólida estimado, (4)

Métodos

El flujo de trabajo de nuestro método recientemente desarrollado es esbozada en la Figura 1. La panel de la izquierda (a) muestra RS-PL, nuestro procedimiento de selección robusta con el algoritmo previo de adaptación Lasso, que produce un vector de coeficientes para cada índice de tren azar del sistema de
I
. En el panel derecho (B), se estima la probabilidad de selección de cada elemento elegido por el algoritmo RS-PL para cada conjunto de tren al azar
I
, poniendo a prueba el rendimiento de los predictores también.

Panel A: nuestro algoritmo de núcleo (abreviado como RS-PL) lleva a cabo la selección robusto con un submuestreo interior, utilizando el método de lazo preacondicionado (PL) en el interior. Potencialmente vectores de coeficientes de modelo inestable que se suman y luego encogido para producir un sólido modelo de vectores. Panel B: un submuestreo exterior se utiliza para evaluar el rendimiento de predicción de RS-PL y para estimar probabilidades de selección de características. Las proporciones (63,2% :36.8%) son elegidos para parecerse a los ratios de muestreo eficaces en el programa previo.

Nuestra RS-PL método está diseñado para mejorar la robustez de los métodos de selección basados ​​en la firma de lazo-, en particular, el lazo preacondicionado (PL). PL y RS-PL realizan tanto la selección de la firma y la estimación de una función de predicción, al mismo tiempo de una manera fuertemente acoplado. Por lo tanto, la mejora de la robustez en la selección de la firma tiende a mejorar la predicción del rendimiento. Más específicamente, los predictores de RS-PL se basan en un conjunto de modelos lineales de rasgos escogidos, y por lo tanto la robustez en la selección de la firma está conectado directamente a la estabilidad de los modelos de conjunto y de su resultado predicción.

Selección robusta con preacondicionado lazo (RS-PL)

Nuestro algoritmo sugeridos RS-PL en la Figura 1 (a) corresponde a una etapa de submuestreo interno en todo el marco, donde estableció un índice de tren
I
se divide en un conjunto de sub-tren
J gratis (63,2%) y un conjunto de ajuste (el resto). Estas proporciones se eligen para parecerse al número efectivo de muestras en bootstrapping [3]. En comparación con otras estrategias de submuestreo, como
k
-fold validación cruzada, esta forma particular de submuestreo es conocida por proporcionar la mejor estimación de cuando el ruido en los datos es moderada [20].

prefiltrado.

En la RS-PL, primero eliminar características poco informativos de cada conjunto de tren (I) cuya desviación estándar valores están por debajo de un percentil predefinido de los valores de la desviación estándar de todos los componentes. Este filtrado es opcional, pero facilita la selección de características. En particular, una serie de características deseables candidatos
p
puede determinarse usando el Lema 6.7 [21], lo que indica que el número de características para ser elegido con consistencia estadística con el lazo y el lazo preacondicionado está delimitada por un precio una muestra de tamaño
n
. En otras palabras,
p qué debería ser mayor que. Por ejemplo,
p
podría ser de hasta unos pocos miles cuando
n = 176 y
. En nuestros experimentos que esperábamos que sería 5~10 y redujo el número de características de candidatos como lo sugiere el lema usando prefiltrado.

acondicionados previamente Lasso.

En el centro de RS-PL, le utilizar el algoritmo de lazo preacondicionado (abreviado como PL) se discutió anteriormente, debido a sus características superiores para los casos con. PL en el interior del RS-PL puede ser sustituido por otros algoritmos, siempre que producen vectores de coeficientes de los modelos lineales, tales como la regresión de Cox con la pena de lazo.

Agregación y encogimiento de Firmas.

Para cada conjunto de sub-tren, obtenemos un vector de coeficiente estimado como resultado de la resolución de la segunda etapa del preacondicionado lazo en la ecuación. (2). Para T
= 100 en al azar sub-conjuntos de trenes, por ejemplo, se obtiene estimó vectores de coeficientes respectivamente. Puesto que los vectores de coeficientes son de modelos lineales, podemos agregarlos por un simple promedio, es decir,

Aquí, el coeficiente de vector agregada se denota con la letra
I
, ya que se produce para cada conjunto de tren
I Hoteles en efecto.

el número de características para ser seleccionados por el vector agregada tiende a ser bastante grande, ya que el conjunto de componentes no nulas en que es lo mismo como la unión de firmas obtenidas con, como se indicó anteriormente. Por lo tanto, "reducir" los coeficientes en el uso de una estrategia de umbral simple: para los valores de umbral, donde y son los más pequeños y los más grandes magnitud de los componentes en, nos encontramos con un umbral de tal manera que la firma encogido y sus correspondientes coeficientes producen los mejores resultados de la predicción más tuning conjuntos, en los conjuntos de ajuste vienen del submuestreo interior en la Figura 1 (a). Denotamos el robusto vector de coeficientes agregada y encogido, el resultado final de RS-PL, como, construido de la siguiente manera: (5)

Estimación de la probabilidad de selección, la predicción de rendimiento y robustez

La algoritmo en la figura 1 (B) corresponde a una etapa de submuestreo de afuera, donde todos los datos de cohortes con
n
pacientes están divididos en un conjunto de tren
I gratis (63,2%) y un conjunto de pruebas ( el resto), al azar para T
= a cabo 100 veces.

preprocesamiento.

Hay dos pasos de preprocesamiento separados para cada conjunto de tren (
I
) y cada uno equipo de prueba. Esta separación es muy importante para la estimación precisa de la predicción del rendimiento. Por ejemplo, cuando aplicamos de integración y normalización de los algoritmos, como el robusto análisis multi-array (RMA) [22] a los datos de microarrays, tenemos que aplicar RMA por separado en un tren de juguete y un conjunto de pruebas, ya que de otra RMA utilizará información de un montaje de prueba para preprocesar una composición, y viceversa, y por lo tanto tal práctica puede producir estimaciones de exactitud de predicción demasiado optimistas en la prueba.

como alternativa, la RMA (frma) algoritmo congelados [23] se puede aplicar independientemente de microarrays individuales, utilizando microarrays de referencia a nivel mundial para la normalización. Debido a la independencia, frma necesita ser aplicado sólo una vez para todos los arrays, independientemente de las divisiones de tren /prueba.

predicción del riesgo.

Para la predicción, una estimación robusta y encogida coeficiente en la ecuación. (5) obtenido por RS-PL se usa para comparar el riesgo de los pacientes que tienen un evento en tiempo
t
, en términos del modelo de riesgo proporcional de Cox [11]. En este modelo, la razón de riesgo registro de comparar el riesgo de dos pacientes (con perfiles y) becomesfrom la definición de la función de riesgo (riesgo). La razón de riesgo proporciona una estadística para comprobar las diferencias en los patrones de supervivencia. Vale la pena señalar que el riesgo de referencia
h

0 (
t
) se anula y no juega ningún papel en la expresión anterior, haciendo la comparación del riesgo tan simple como comparar los valores de predictores lineales y. Esto nos permite utilizar un rango de correlación entre los predictores lineales y los tiempos de supervivencia para evaluar el desempeño de predicción, como veremos en la siguiente sección
.
Por otro lado, el riesgo de referencia
h

0 (
t
) pueden estimarse con el fin de producir las probabilidades de supervivencia para los pacientes individuales. Una estimación de
h

0 (
t
) es sugerido por Cox y Oakes [24], donde se encuentran los distintos tiempos de eventos y
d

es el número de eventos a
t
I
. A continuación, la función de supervivencia (la probabilidad de sobrevivir al menos en cuando
t
) para un paciente x puede ser calculada por, España
Medidas para la predicción del rendimiento.

Para medir la predicción el rendimiento, utilizamos el
índice de concordancia
[25], que es la fracción de todos los pares de pacientes comparables cuyos resultados son concordantes con las predicciones. Un par de los pacientes se considera que es utilizable a excepción de los casos en que ambos pacientes tienen eventos al mismo tiempo, o uno tiene más corto tiempo de supervivencia censurado que el otro que tiene un evento. Para explicar formalmente, supongamos que una predicción está disponible para cada paciente cuyo tiempo de supervivencia está dada por con un indicador de evento. Considere las siguientes funciones del indicador orden [26] para, España
A continuación, el producto de las dos medidas de las funciones de orden si la orden de un par de predicciones es concordante (producto = 1), disconcordant (-1), o no comparable (0) a la orden del par de tiempo de supervivencia correspondiente. El índice de concordancia se define como la fracción de pares concordantes entre todos los pares comparables, que tiene un valor entre 0 y 1. Aquí es una función indicadora de regresar 1 si el argumento es cierto, y 0 en caso contrario. Tenga en cuenta que el numerador de arriba cuenta el número de todos los pares concordantes, donde el denominador cuenta el número de todos los pares comparables (concordantes o disconcordant). Esta medida puede ser descrito como un AUC generalizada (área bajo la curva ROC) valor, donde los valores & gt; 0,5 implican correlación positiva y los valores & lt; 0,5 implican correlación negativa. Para las predicciones de valor binario, el índice de concordancia pasa a ser igual a las AUC.

Medidas para la robustez.

Con el fin de medir la solidez de la selección de la firma, se utiliza el
índice de Jaccard
y el
rango-penalizado Kuncheva índice
.

el índice
Jaccard
mide la solidez de las firmas de diferentes tamaños, posiblemente, y se define como un tamaño medio de superposición entre subconjuntos de características relativas al tamaño de su unión [2]. Que denota el conjunto de características elegidas con por, que se define como:. (6): perfil
El índice de Jaccard va de 0 a 1, y los valores mayores indican mayor solapamiento con respecto

Si los tamaños de firmas pueden ser controlados, las medidas más precisas de robustez están disponibles, a saber, el índice de Kuncheva [27] y la distancia Canberra [28], en lugar del índice de Jaccard que puede resultar en una evaluación parcial de la robustez. En concreto, el índice Kuncheva proporciona una estimación no sesgada de la superposición media entre firmas, y las medidas de distancia Canberra qué tan bien el fin de la contribución de características se conserva entre las firmas en promedio. En comparación con el índice de Jaccard, estas dos medidas requieren firmas para ser del mismo tamaño para la comparación. La fracción entre el índice Kuncheva y la distancia de Canberra, que se denota como el
rango-penalizado Kuncheva índice
, se calcula como un resumen de las dos medidas de robustez. Que denota las características elegidas de la contracción en un extra, y el rango de magnitud de la función de TH en por, el índice Kuncheva rango-penalizado se expresa de la siguiente manera (
p
es el número total de candidatos características), (7)

Los valores de este rango de índice de 0 (cero solapamiento, es decir, la función de las filas no se conserva) a ∞ (superposición perfecta, es decir, la perfecta conservación de los rangos de características).

extra La contracción de los modelos
.
El número de características en una firma descrito por varía dependiendo de los datos y métodos, pero es normalmente mayor que 50. Cuando se prefieren las firmas más pequeñas para una investigación en profundidad de las características, descrito firmas por puede ser encogido aún más por la elección de la parte superior
G
características de acuerdo con la magnitud de su coeficiente.

Esto se utiliza posteriormente para una evaluación de la aplicación de este método para comparar la robustez y la predicción del rendimiento de las firmas que consiste en un pequeño número de características.

selección probabilidades de características y Firmas robusto.

La probabilidad de selección de una característica, un índice por
k
, se estima por su frecuencia de aparición entre el T
a cabo ensayos de submuestreo exteriores, es decir, donde es una función indicadora que es igual a 1 si la declaración
s
es cierto, o 0 en caso contrario. Teniendo en cuenta estas probabilidades y una probabilidad de selección de línea de base
π
, construimos una firma sólida de acuerdo con la Ec. (4).

Lista de Algoritmos para la comparación

Nuestro algoritmo sugeridos RS-PL, donde el prefijo "RS" es sinónimo de "robusta selección", se compara con los siguientes algoritmos. RS-L es el mismo que RS-PL, excepto que PL interior del RS-PL se reemplaza con la regresión de Cox con la pena de lazo. En lo que sigue, la totalidad de RS-PL en la Figura 1 (a) se sustituye con los algoritmos descritos, que no hacen uso de nuestro marco RS: PL es el algoritmo de lazo previo de adaptación. L es la regresión de Cox con la pena de lazo. Dev es un método sencillo que selecciona las 100 mejores prestaciones con la mayor desviación estándar a través de microarrays. A continuación se realiza una regresión de Cox canto, utilizando sólo estas características. Este tipo de métodos es conocido por ser estable [29]. Cor es otro método univariado, la elección de los 100 mejores características con los rangos más altos en términos de su correlación individual a la anotación de la supervivencia (medido por el índice de concordancia). Una cresta de regresión de Cox se realiza en las entidades seleccionadas después. CLI es una regresión de Cox sin penalización usando solamente covariables clínicos. El paquete BatchExperiments [30] para la I se utilizó para el cálculo paralelo de algoritmos.

Resultados

Preparación de datos

Se analizaron tres conjuntos de datos que contiene los perfiles de expresión de ARNm de un total de 742 pacientes con cáncer que fueron adquiridas mediante el uso de la tecnología de microarrays de Affymetrix. Los datos fueron obtenidos por tres entidades distintas, neuroblastoma, adenocarcinoma de pulmón y cáncer de mama, que se resumen en la Tabla 1. CEL archivos fueron descargados de la Expresión Génica Omnibus o la plataforma R2 (http://r2.amc.nl). Para pre-procesamiento, el algoritmo de RMA congelados [23] se aplicó a CEL archivos individuales para crear resúmenes de nivel probeset. Solamente los microarrays con la GNUSE mediana [31] Los valores ≤1 (control de calidad) y con la información clínica adecuada (supervivencia global) fueron incluidos en este estudio. Las características de los tres conjuntos de datos antes y después del procesamiento previo se resumen en las Tablas 2, 3 y 4 (ver Figura S1 para los correspondientes gráficos de Kaplan-Meier).


Las características obtenidas a partir de preprocesamiento se denotan por
probesets
, que corresponden a (partes de) los exones o genes en función de las plataformas de microarrays. El número total de probesets (características) varían en función de las plataformas de microarrays: HG-U133A Plus 2.0 plataforma contiene 54675 probesets (HG-U133A contiene alrededor de 10000 probesets menos), y la plataforma v1.0 humano Exon ST contiene 1432143 probesets, de acuerdo con la NetAffx probeset v33.1 anotación de Affymetrix. Cada probeset tiene un resumen de los valores de expresión correspondiente
sondas Hoteles en los datos originales de la CDA, donde 9~11 (HG-U133A) o sondas (1~4 humano Exon ST V1.0) constituyen un probeset. Para el conjunto de datos del neuroblastoma (Humana Exon ST v1.0), nos centramos en la probesets nivel básico como las características correspondientes a los exones que cumplían con tres criterios: hibridación único, localización única en uno de los cromosomas humanos, y la presencia de genes asignaciones válidas . El uso de la anotación probeset NetAffx, esto dio lugar a 228476 características. Cuando se aplicó el prefiltrado, la probesets con desviación estándar menor que el percentil 99 de la desviación estándar de todas las funciones se descartaron para cada conjunto de tren al azar
I
, resultando en 2285 funciones. Para el adenocarcinoma (HG-U133 Plus 2) y el cáncer de mama (HG-U133A) conjuntos de datos, nos centramos en la probesets de grado A como las características correspondientes a los genes con la hibridación única y localización única. El uso de la anotación NetAffx, esto dio lugar a 28476 (adenocarcinoma) y 20492 (cáncer de mama) presenta, respectivamente. Cuando se aplicó el prefiltrado, la probesets con desviación estándar menor que el percentil 90 de la desviación estándar de todas las características fueron descartados para cada conjunto de tren al azar
I
, resultando en 2848 (adenocarcinoma) y 2050 funciones (cáncer de mama) .

covariables clínicas se utilizan sólo para el método Cli, incluyendo los siguientes atributos: la edad al momento del diagnóstico, el estado de MYCN y la etapa para el neuroblastoma INSS; la edad, el tabaquismo, el sexo, el estadio y el estado MYC para el adenocarcinoma de pulmón; edad, el estadio, el tamaño del tumor y el grado del cáncer de mama.

Firmas robustos

Los algoritmos RS-PL, RS-L, PL, L, Dev, Cor y se pusieron a prueba dentro de Cli nuestro marco de evaluación (Figura 1: B), usando las mismas divisiones aleatorias de datos a través de diferentes métodos para la comparación razonable (véase el cuadro S1 para la supervivencia distribución temporal de los trenes y de prueba). Esto dio lugar a una secuencia de vectores de coeficientes como una salida de cada método. Estos fueron utilizados para estimar la probabilidad de selección de cada característica,. Para el conjunto de datos del neuroblastoma, la probabilidad de línea de base se establece en la probabilidad de selección estimado de la covariable estado de amplificación MYCN (). Para los otros dos conjuntos de datos, se definió un valor arbitrario () y se obtuvieron las firmas sólidas.

cualitativo validación de firmas robustas.

Tablas 5, 6 y 7 muestran las características incluidas en firmas sólidas producidas por RS-PL, para el neuroblastoma, el adenocarcinoma de pulmón y cáncer de mama, respectivamente (véanse los cuadros S2, S3, S4 y de las correspondientes listas de características elegidas y su probabilidad de selección). En cada tabla, las frecuencias de selección de características se muestran en la segunda columna. En cuanto a neuroblastoma, estaban disponibles con resolución exón nivel de datos, por lo que los valores de frecuencia de selección se promediaron a través de múltiples exones si más de un exón se identificó de forma estable de un gen.

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]