Extracto
Antecedentes
El estudio conjunto de varios conjuntos de datos se ha convertido en una técnica común para aumentar el poder estadístico para detectar biomarcadores obtenidos a partir de estudios más pequeños. El enfoque seguido en general se basa en el hecho de que a medida que el número total de muestras aumenta, esperamos tener un mayor poder para detectar las asociaciones de interés. Esta metodología ha sido aplicada a la asociación y los estudios de transcriptómica debido a la disponibilidad de conjuntos de datos en el dominio público en todo el genoma. Si bien este enfoque está bien establecida en bioestadística, la introducción de nuevos modelos de optimización combinatoria para abordar esta cuestión no ha sido explorado en profundidad. En este estudio, se introduce un nuevo modelo para la integración de múltiples bases de datos y se muestra su aplicación en la transcriptómica.
Métodos
Nos proponemos un nuevo problema de optimización combinatoria que se ocupa de la cuestión central del biomarcador detección en conjuntos de datos integrados. soluciones óptimas para este modelo ofrecen una selección de características de un panel de biomarcadores potenciales. El modelo que proponemos es una versión generalizada de la
(α
,
β) -k
-Feature problema Set. Se ilustra el comportamiento de esta nueva metodología a través de una tarea desafiante meta-análisis que incluyó seis próstata cáncer de microarrays conjuntos de datos. Los resultados se comparan con la herramienta meta-análisis RankProd popular y de lo que puede ser obtenido mediante el análisis de los conjuntos de datos individuales por sí solos métodos estadísticos y combinatorias.
Resultados
La aplicación del método integrado resultó en una firma más informativo que la clasificación basada en meta-análisis o resultados de conjuntos de datos individuales, y supera los problemas derivados de los conjuntos de datos del mundo real. El conjunto de genes identificados es altamente significativo en el contexto del cáncer de próstata. El método utilizado no se basa en la homogeneización o la transformación de los valores de una escala común, y al mismo tiempo es capaz de capturar los marcadores asociados a subgrupos de la enfermedad
Visto:. Puthiyedth N, C Riveros, R Berretta , Moscato P (2015) Un enfoque de optimización combinatoria para Nueva Selección de características integrado Utilización de diferentes conjuntos de datos: un estudio Transcriptomic cáncer de próstata. PLoS ONE 10 (6): e0127702. doi: 10.1371 /journal.pone.0127702
Editor Académico: Holger Fröhlich, Universidad de Bonn, Centro Internacional de Bonn-Aquisgrán para TI, Alemania