Extracto
Es un reto para agrupar los pacientes con cáncer de cierto tipo histopatológico en subtipos moleculares de importancia clínica e identificar las firmas de genes directamente relacionados con los subtipos. la agrupación enfoques actuales tienen limitaciones inherentes, que les impiden medir la sutil heterogeneidad de los subtipos moleculares. En este trabajo se presenta un nuevo marco: SPARCoC (Sparse-CoClust), que se basa en una novela Común-fondo y el modelo de descomposición Sparse-primer plano (CSD) y la técnica de co-agrupación de bloque máximo de Mejoras (MBI). SPARCoC tiene claras ventajas en comparación con los enfoques utilizados ampliamente alternativas: la agrupación jerárquica (hclust) y no negativo matriz de factorización (NMF). Aplicamos SPARCoC al estudio de adenocarcinoma de pulmón (ADCA), un tipo histológico muy heterogénea, y un desafío significativo para los subtipos moleculares. Para la prueba y verificación, utilizamos la expresión de genes de alta calidad de datos de perfiles de pacientes ADCA pulmón, e identificar firmas genéticas de pronóstico, que podría agrupar los pacientes en subgrupos que son significativamente diferentes en su supervivencia global (con valores de p & lt; 0,05). Nuestros resultados sólo se basan en perfiles de expresión génica de análisis de datos, sin incorporar cualquier otra característica de selección o de información clínica; somos capaces de replicar nuestros hallazgos con los conjuntos de datos completamente independientes. SPARCoC es ampliamente aplicable a los datos genómicos a gran escala para potenciar el patrón de descubrimiento e identificación de genes del cáncer
Visto: Ma. S, D Johnson, Ashby C, D Xiong, Cramer CL, Moore JH, et al. (2015) SPARCoC: un nuevo marco para el patrón molecular descubrimiento y la identificación de genes del cáncer. PLoS ONE 10 (3): e0117135. doi: 10.1371 /journal.pone.0117135
Editor Académico: Xia Li, de la Universidad Médica de Harbin, China
Recibido: 27 Agosto, 2014; Aceptado: 19 de diciembre de 2014; Publicado: 13 Marzo 2015
Derechos de Autor © 2015 Ma et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Disponibilidad de datos: El marco SPARCoC (Sparse-CoClust para el patrón y el descubrimiento del cáncer de subtipificación molecular) es implementado en MATLAB y el código fuente está disponible en:. http://bioinformatics.astate.edu/code
Financiación: SM con el apoyo de Hong Kong Consejo de Investigación de Subvenciones (RGC) Esquema de Carrera Temprana (ECS) (Proyecto ID: 439513 CUHK). S.Z. con el apoyo de NSF (CMMI-1161242). J. M. está apoyado por el NIH subvenciones LM010098 y LM009012. Este trabajo también es apoyado en parte por el Instituto Nacional de Salud subvenciones del Centro Nacional para Recursos de Investigación (P20RR016460) y el Instituto Nacional de Ciencias Médicas Generales (P20GM103429). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
Hay un gran interés en el desarrollo de métodos computacionales eficaces para estudiar los datos genómicos masivos de perfiles, como todo el genoma de los datos de expresión de genes, de los pacientes con cáncer. Debido a la heterogeneidad del tumor del cáncer (ver [1-5]), que es bien conocido por el campo, es un reto para analizar los datos genómicos con el fin de agrupar los pacientes con cáncer de un determinado tipo de cáncer histológico o patológico en diferentes subgrupos moleculares ( subtipos) de importancia genética, biológica y clínica, e identificar los genes del cáncer o patrones de genes que son directamente relevantes para distinguir los diferentes subtipos. Los esfuerzos de investigación en cáncer de subtipos moleculares y genes descubrimiento firma podría potenciar a importantes aplicaciones médicas y traducciones clínicos tales como el diagnóstico molecular, el pronóstico y la medicina personalizada.
Recientemente hay estudios en caracterizaciones moleculares completos de diferentes tipos de cáncer, incluyendo el de mama estudio de cáncer molecular [6-9], el cáncer colorrectal (CRC) de clasificación [10], adenocarcinoma de cáncer de pulmón (ADCA) o de células escamosas (SQ) subtipificación [11-15]. La subtipificación molecular de cada uno de estos estudios consiste en la aplicación de un agrupamiento específico o método biclustering /co-agrupación. La agrupación jerárquica (hclust) [16], la factorización de la matriz no negativa (NMF) [17], la agrupación de integración (iCluster) [18] y ConcensusClusterPlus [19] son los varios métodos populares que se utilizan actualmente en los subtipos moleculares de estos estudios de cáncer de mama, colorrectal cáncer o cáncer de pulmón, etc [6-15].
Sin embargo, los métodos de la agrupación existentes [por ejemplo, 16-19] tienen limitaciones inherentes. Por lo general funcionan bien para distinguir los diferentes tipos histológicos o patológicas de los cánceres, pero no para distinguir subtipos moleculares detallados finas de un tipo de cáncer heterogénea histológico. También debido al desafío computacional en el análisis de grandes datos genómicos, la mayoría de los métodos actuales optan por utilizar un modelo de cálculo aproximativo como base. Los enfoques actuales generalmente preproceso de los datos de todo el genoma de genes o la función de selección; o se basan en gran medida en la información clínica para guiar la agrupación de pacientes con cáncer [11-15]. Sin embargo, pre-procesamiento de los datos puede perder la información de los genes importantes o patrones de genes asociados con el cáncer, y de ser demasiado dependiente de la información clínica potencialmente introducir un sesgo de subtipificación molecular heterogénea cáncer. Las limitaciones de los actuales métodos de la agrupación se tratarán más en detalle en la siguiente sección Métodos.
Al darse cuenta de una de las limitaciones inherentes de los métodos existentes es que las características comunes en el fondo de los datos genómicos a gran escala de cáncer los pacientes pueden oscurecer la detección de variaciones de datos raras pero cruciales, es decir, las características genómicas importantes que definen los subtipos moleculares detallados finos de pacientes. Al igual que en el procesamiento de imágenes, cuando se presenta con miles de fotos de vigilancia de la misma área de fondo, si pudiéramos eliminar la distracción del fondo común y sólo se centran en la información de primer plano interesante escasa, se podría detectar con facilidad y claridad los patrones importantes. A continuación, presentamos SPARCoC (Sparse-CoClust), un nuevo marco de agrupamiento no supervisado para descubrir patrones moleculares y subtipos moleculares de cáncer. El marco se basa en un esquema conocido como common-fondo-descomposición escasa primer plano (CSD) y una técnica conocida como bloque máximo de Mejoras (MBI) de tablero de ajedrez co-agrupación. Este nuevo marco parece tener ventajas significativas en la subtipificación molecular del cáncer y la identificación de firma de genes. Como veremos más adelante con un ejemplo (fig. 1A) que la agrupación de elementos comunes (que es la filosofía detrás de casi todos los métodos de la agrupación existentes) es fundamentalmente defectuoso en el contexto de los subtipos moleculares del cáncer. En lugar de ello, la capacidad de detectar la anomalía oculta detrás del fondo común es la característica principal de nuestro nuevo enfoque
(a) Un ejemplo artificial:. Dada la matriz de la expresión génica de entrada M, ¿dónde están los "genes de interés" ¿oculto? (Es decir, que son los genes importantes para distinguir los posibles subtipos moleculares diferentes?) Los genes "interesantes" no se detectan fácilmente a partir de la matriz M dada usando los métodos actuales de agrupación populares, por ejemplo, NMF o hclust. Sin embargo, pudimos ver claramente el "primer plano" (un compañero de grupo de tamaño de 5 x 5, se muestra en verde de la matriz Y) después de que la matriz X de distracción "de fondo" se elimina a través de la descomposición. Los genes "interesantes" (filas 10-14) se expresan diferencialmente de muestras /10-14 columnas de la matriz Y. (B) El nuevo marco de la agrupación. Este nuevo marco incluye dos módulos: el fondo común y la descomposición escasa-primer plano (CSD) y el bloque máximo de Mejoras (MBI) co-agrupación. Dada una matriz M, el módulo de la CDS se descompondrá M y generar un "primer plano" matriz Y; Entonces, el módulo de co-agrupación MBI funcionará en la matriz Y y la salida de los co-grupos, la información de grupos de muestras y grupos de genes que están asociados con ciertos grupos de muestras.
Nuestro marco de la agrupación lleva a cabo la agrupación por "escasa-primer plano" comunalidad
,
mientras que muchas agrupaciones métodos actuales por lo general llevan a cabo por la agrupación "fondo" comunalidad
.
Evaluamos este nuevo marco para el estudio de adenocarcinoma de pulmón (ADCA), que es un tipo histológico de cáncer de pulmón heterogénea extrema (http://www.cancer.gov/cancertopics/) y que ahora es un paradigma para la subtipificación molecular. Los estudios de cáncer de pulmón por muchos investigadores ya han demostrado la viabilidad de clasificación de cáncer (descubrimiento clase y clase de predicción) en base a perfiles de expresión génica de pacientes con cáncer [20 a 24, 13, 14]. Muchos estudios conducen la expresión génica agrupación y la búsqueda de la expresión génica firmas; Sin embargo, las firmas de genes pronósticos publicados de diferentes estudios no tienen (o muy pocos) genes en común [25]. Esta falta de superposiciones pueden indicar que muchos genes están implicados en la patología del cáncer de pulmón; igualmente, probablemente, también puede ser una consecuencia de dificultades imprevistas con la agrupación basada en un pequeño número de genes después de recortar y pre-procesamiento.
Aplicamos SPARCoC para analizar la expresión de genes de todo el genoma de datos de perfiles de pacientes ADCA pulmón. Estos conjuntos de datos (en conjunto con perfiles de más de 600 muestras de pulmón de pacientes ADCA) son de alta calidad y se recogen con amplia información clínica de los pacientes. SPARCoC podría agrupar los pacientes ADCA ADCA de pulmón y de pulmón en estadio basándose en sus perfiles de expresión génica en subgrupos con resultados significativamente diferentes de supervivencia clínicos, y las firmas de genes identificados, cuando se verifique el uso completamente independientes de pacientes conjuntos de datos de perfiles, podría separar a los pacientes en subgrupos de los resultados de supervivencia distintas . En concreto, el análisis de Kaplan-Meier de la supervivencia global de ADCA de pulmón y los pacientes ADCA la etapa I del pulmón con la firma de 128 genes identificados demostró que los grupos de alto y bajo riesgo son significativamente diferentes en su supervivencia general (con valores de p & lt; 0,05). Tenga en cuenta que el proceso de pulmón ADCA pacientes agrupación, identificación de la firma de genes, análisis de supervivencia y de validación cruzada es clásica en el campo (Los lectores interesados se conocen, por ejemplo, [11-15]).
Creemos nuestro nuevo SPARCoC marco, cuando se aplica al perfil genómico de los pacientes con cáncer, lo que potencialmente podría conducir a nuevos descubrimientos en el estudio de los subtipos moleculares del cáncer para guiar a los tratamientos médicos y nueva identificación de los genes del cáncer o patrones de genes para el pronóstico del cáncer o como objetivos médicos.
Métodos
SPARCoC: un nuevo marco para el patrón de descubrimiento molecular y el gen del cáncer de identificación
Nuestro nuevo marco agrupación (Fig. 1) incluye dos módulos: el común de fondo y sparse- la descomposición de primer plano (CSD) y el bloque máximo de Mejoras (MBI) co-agrupación. La siguiente es una visión general y algunos breves discusiones de los dos módulos. En el módulo de la CDS, el modelo computacional se basa en la optimización de escasa; en el módulo de co-agrupación, se adoptó un modelo de optimización de bloque. Como se discute en detalle en lo siguiente, nuestra SPARCoC marco tiene nuevas características que hacen que sea muy eficaz en el patrón de descubrimiento molecular, y nuestro modelo de cálculo es diferente del modelo de sólido análisis de componentes principales (RPCA) y otra agrupación actual y biclustering /co -clustering métodos.
Un ejemplo para ilustrar la idea de nuestro marco de la agrupación con descomposición CDS y MBI co-agrupación (ver Fig. 1)
Este ejemplo contiene tres archivos (ver S1 de archivos para los detalles de los archivos de ejemplo): M.csv, Y.csv, y X.csv. La matriz de fondo X (tamaño: 20 x 20; entrada de valores que van de 1 ~ 100) es una matriz de rango uno generado de forma aleatoria en MATLAB; la matriz Y en primer plano (tamaño: 20 x 20 con valores de entrada de todo listo para ser 0, excepto para un compañero de grupo de tamaño de 5 x 5 con valores de entrada de todo listo para ser 10) se añade a la matriz de fondo X, se obtiene la M matriz (tamaño: 20 x 20), que ahora es una matriz de rango y dos. Cuando se da la M.csv (la matriz M), nuestro modelo de descomposición CSD vuelva exactamente X.csv (la matriz X) y Y.csv (la matriz Y) como se indica (Tenga en cuenta que el modelo CSD hemos utilizado es el (M3) modelo, que se especifica más adelante, con K = 1 y el nivel de ruido δ = 0). Cuando se prueba el rendimiento de los instrumentos de mercado en la Y.csv (la matriz Y), se obtiene la correcta exactamente co-racimo de tamaño: 5 × 5. Este ejemplo muestra que nuestra artificial nuevo marco agrupación basa en la descomposición de la CDS y el co-agrupación MBI puede separar de manera efectiva la información de primer plano "interesante" (de los genes interesantes y muestras de interés) de la información de fondo. Nos gustaría señalar que incluso con este sencillo ejemplo, es difícil para otros enfoques de clúster, como el NMF, para separar correctamente las muestras interesantes de las otras muestras cuando se da la matriz M.
El Común -Antecedentes y minimalista-primer plano de descomposición (CSD) módulo
utilizado los dos modelos siguientes para common-fondo y la descomposición escasa-plano:. (M1) y (M2)
(Modelo 1 ) el modelo es escribir una matriz M dado como la suma de tres matrices: X, y y Z, de una manera tal que M = X + y + Z, mientras que X es un mismo valor de la matriz en forma de X = x * ι donde x es un vector de decisión y ι es el todo-uno vector fila, y Z es la matriz de ruido. En concreto, el modelo en cuestión es (M1)
Tenga en cuenta que X por lo tanto tiene una estructura común en vectores en el sentido de que todos los vectores columna de X son los mismos.
Debe señalarse que nuestro modelo común-vector es teóricamente diferente del modelo RPCA propuesto en Candes et al. [26] y Chandrasekaran et al. [27]. La principal diferencia es RPCA requiere X para ser de bajo rango, pero nuestro modelo (M1) requiere que X sea un rango y un matriz especial. La L
1 norma en el objetivo de (M1) naturalmente promueve la escasez en Y. matriz Recientemente, un modelo similar para la extracción de fondo de formación de imágenes también se consideró de forma independiente por Li, Ng y Yuan [28] en el contexto de procesamiento de imágenes para aplicaciones en sistemas de videovigilancia. Solucionamos (M1) mediante el llamado método de alternancia Dirección de multiplicadores (ADMM), que es una rutina de optimización de primer orden, lo que permite resolver modelos muy grandes de tamaño.
(Modelo 2) Considerar la expresión génica matrices m
k de la misma dimensión m × n y k = 1, 2, ..., K. Índice k denota una condición dada. Para un k dado, matriz M
k = (a
k
ij) m × n contiene el nivel de expresión del gen i en el punto de tiempo j, donde i = 1, 2, ..., m y j = 1, 2, ..., n. Podemos modelar la fluctuación fondo del nivel de expresión por una matriz de bajo rango, y las restantes matrices dispersas a continuación reflejan los conocimientos adquiridos que "muestra" la expresión de los genes "interesantes" o "activos". Esta información se puede utilizar para analizar la relación o correlación entre la expresión génica de nivel /patrón y el tipo /subtipos. El modelo de optimización de interés es: (M2), donde ǁY
iǁ
0 es el L
0-norma (también conocido como la cardinalidad) de Y
i, denota el nivel de ruido, y
i & gt; 0 es un poco de parámetro de ponderación apropiadamente elegido. El modelo de relajación convexa correspondiente es:. (M3)
Tenga en cuenta que (M3) se convierte en un modelo común en vectores (M1), cuando agregamos una restricción adicional X = x * ι a ella
Consulte lo siguiente para el pseudo código para el fondo común y un modelo de descomposición escasa-primer plano (M1)
entrada:. la matriz de datos
M
, y el parámetro δ nivel de ruido.
salida: el vector común de fondo
x
y la matriz dispersa-primer plano
y
Inicio:.
(inicialización ). Definir la función lagrangiana aumentada de (M1):
Tenga en cuenta que
D
es el multiplicador de Lagrange asociado con la restricción de igualdad en (M1), y
r Hotel & gt; 0 es un parámetro de penalti. Establecer los valores iniciales:
Y
: =
Y
0,
Z
: =
Z
0,
D
; =
D
0. valor establecido para el parámetro
r
. Ajuste el contador de bucle
k
: = 0.
(Reducción al mínimo de la función lagrangiana aumentada con respecto a
x
,
Y
,
Z
alternativamente). Resuelve los siguientes tres problemas sencillos de optimización secuencial:
(Actualización del multiplicador de Lagrange). Calcule gratis (criterio de parada)
. Si se cumple cierto criterio de parada, y luego se detiene. De lo contrario, establezca
k
: =
k
1, y vaya al Paso 1.
(Salida de
x
y
Y
). El vector de salida común de fondo
x
k + 1