humano
Extracto
Introducción
Los avances en tecnologías de alto rendimiento han generado diversos marcadores moleculares informativos para la predicción de los resultados del cáncer. De largo no codificante del ARN (lncRNA) y la metilación del ADN como nuevas clases de marcadores prometedores están surgiendo como moléculas clave en cánceres humanos; Sin embargo, la utilidad pronóstica de tales datos moleculares diversa que queda por explorar.
Materiales y Métodos
Hemos propuesto un cálculo de tuberías (IDFO) para predecir la supervivencia del paciente mediante la identificación de biomarcadores relacionados con el pronóstico, utilizando múltiples datos moleculares de tipo (mARN, microARN, la metilación del ADN, y lncRNA) de 3198 muestras de cinco tipos de cáncer. Se evaluó el rendimiento predictivo de ambos datos moleculares individuales y los datos moleculares de tipo de múltiples integrados en la estratificación de la supervivencia del paciente, y se comparó su importancia relativa en cada tipo de cáncer, respectivamente. Se realizó un análisis de supervivencia multivariante mediante regresión de Cox para investigar el impacto de los marcadores identificados-IDFO y las variables tradicionales en el resultado clínico.
Resultados
Utilizando el enfoque IDFO, hemos obtenido un buen rendimiento predictivo de la conjuntos de datos moleculares (en arranque precisión: 0,71 a 0,97) en cinco tipos de cáncer. Sorprendentemente, lncRNA fue identificado como el mejor predictor de pronóstico en las cohortes validadas de cuatro tipos de cáncer, seguido de la metilación del ADN, ARNm, y luego microARN. Encontramos la incorporación de datos moleculares de tipo de múltiples mostró poder predictivo similar a los datos moleculares de tipo único, pero con la excepción de las combinaciones de metilación del ADN lncRNA + en dos tipos de cáncer. El análisis de supervivencia de los modelos de riesgo proporcional confirmó una alta robustez para lncRNA y la metilación del ADN como factores pronósticos independientes de las variables clínicas tradicionales.
Conclusión
Nuestro estudio proporciona una idea de la comprensión sistemática del rendimiento pronóstico de diversa molecular datos en ambos patrones individuales y agregados, que pueden tener una referencia específica a los estudios posteriores sobre
Visto: Xu L., Ji L, L Changning, Liang Cai Z, Yinghui L, Yu L, et al. (2015) Comparación de la utilidad pronóstica de los diversos datos moleculares entre lncRNA, la metilación del ADN, microARN, y el ARNm de los cinco cánceres humanos. PLoS ONE 10 (11): e0142433. doi: 10.1371 /journal.pone.0142433
Editor: Rossella Rota, Ospedale Pediatrico Bambino Gesú, ITALIA
Recibido: July 9, 2015; Aceptado: 21 Octubre 2015; Publicado: 25 Noviembre 2015
Derechos de Autor © 2015 Xu et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Disponibilidad de datos: Los datos son los datos del paciente. Debido a las restricciones éticas, están disponibles en el Atlas del Genoma del Cáncer (TCGA) Portal de Datos para los investigadores que cumplan con los criterios de acceso a los datos confidenciales de datos:. Https://tcga-data.nci.nih.gov/tcga/
financiación:. Los autores no tienen ningún soporte o financiación reportar
Conflicto de intereses:. Los autores han declarado que no existen intereses en competencia
Introducción
predicción del pronóstico del cáncer es crucial para controlar el sufrimiento, la progresión y la muerte de los pacientes. la predicción exacta de los resultados puede ser utilizado clínicamente para seleccionar la mejor de varias terapias disponibles para los pacientes de cáncer y mejorar sus posibilidades de supervivencia [1, 2]. Tradicionalmente, el pronóstico se basa en parámetros patológicos clínicos tales como el estadio del tumor, metástasis, y la edad de diagnóstico patológico [3]. Recientemente, un número de biomarcadores moleculares distintivos han sido objeto de reconocimiento y aplicada para acceder a la evolución clínica de los pacientes, tales como (estados de fosforilación, receptores de la superficie celular) a base de proteínas, basado en el ADN (SNP, de la CNV), y el ARN de base ( ARNm, microARN, ncRNA) [4-7]. Además, existe una creciente evidencia que sugiere que a largo ARN no codificante (lncRNA) y la metilación del ADN pueden mediar resultados supresores de tumores oncogénicos o, lo que representa nuevas clases de biomarcadores prometedores [5]. Sin embargo, la mayoría de los estudios se centran en cualquiera de los dos linaje cáncer simple o en los datos de plataforma individuales, mientras que una comparación exhaustiva para determinar el poder pronóstico relativo para cada clase de moléculas de un cáncer específico lo ideal sería proporcionar una plataforma de diagnóstico más eficaz. Esto también permitiría la consideración de si la orientación de los biomarcadores conjuntos proporcionaría un mejor control de los cánceres [2]. A pesar de la creciente disponibilidad de datos que describen estas diversas moléculas, los estudios previos o marcos disponibles /tuberías no han investigado estas preguntas.
Las estrategias como RT-PCR e inmunohistoquímica han investigado un número considerable de biomarcadores de pronóstico [8- 10]. Sin embargo, la mayoría de los biomarcadores fueron encontrados por "conjeturas" en lugar de
a través de
un enfoque sistemático, en todo el genoma. Además, sólo unos pocos se han utilizado en un entorno clínico y queda por determinar [4] la utilidad de la mayoría de estos marcadores basados en laboratorio húmedo. Más recientemente, el uso de perfiles de alto rendimiento, sistemas de computación, como los enfoques de aprendizaje automático [11-16] y diferentes modelos de supervivencia [17-19] se están aplicando para identificar biomarcadores candidatos con los valores de pronóstico para la enfermedad. Si bien estas metodologías han acumulado gran cantidad de firmas moleculares con unas precisiones, poca investigación sistemática ha llevado a cabo para determinar el poder pronóstico de diversas firmas moleculares y su importancia relativa. Esto es porque la mayoría de los estudios sufren de una o varias de las siguientes cuatro problemas: (i) la deficiencia de perfiles moleculares, (ii) limitada a linaje cáncer solo, (iii) estrategias subdesarrollados para explorar predictores óptimos en términos de datos de alta dimensión y tumor heterogeneidad. Se encontró gran cantidad, sin embargo, el proyecto Atlas del Genoma del Cáncer (TCGA) la suma total de los datos genómicos para aumentar el entendimiento de las patologías clínicas de diferentes plataformas moleculares en los cánceres humanos [20-23], lo que ayudaría a la traducción de los datos biológicos en la utilidad pronóstica.
en este estudio, se han puesto en marcha una tubería para identificar biomarcadores relacionados con el pronóstico en los perfiles de múltiples ómicas incluyendo ARN-ss, la metilación del ADN chip de grano, y microARN-ss y se comparó su poder pronóstico relativo en cinco tipos de cáncer TCGA . Durante el proceso de modelado, los biomarcadores cruciales para el resultado clínico fueron clasificados y seleccionados utilizando nuestro enfoque iterativo de eliminación de características óptimo (IDFO). Por otra parte, se evaluó las utilidades de predicción de tanto individuales como predictores integrado multi-ómicas para investigar su contribución para modelar el rendimiento y la capacidad de predicción de diversos factores predictivos moleculares en respectivos cánceres fueron evaluados en la prueba de conjuntos independientes. Se utilizó el análisis de supervivencia para determinar la utilidad pronóstica de los predictores identificados IDFO-solos o en combinación con variables clínicas. Además, para facilitar el uso de nuestro enfoque, también implementó un código de origen R disposición del público (CAPM.R), que permite a los investigadores para construir modelos de pronóstico para otros conjuntos de datos. Nuestro estudio proporciona un sistema de evaluación dinámica del riesgo para la predicción de pronóstico del cáncer, que no sólo revela la utilidad pronóstica de datos multi-ómicas a través de los tipos de cáncer, sino que también facilita la comprensión de lncRNA y la metilación del ADN como potenciales marcadores de pronóstico en la progresión tumoral.
Materiales y Métodos
Conjuntos de datos
Hemos reunido a 3198 muestras tumorales disponibles para el público en datos basados en arreglos entre los cinco tipos de cánceres de El proyecto Atlas del Genoma del cáncer (TCGA), que han sido publicados en [20, 24-27] (Tabla a en S1 del archivo se describen las distribuciones de muestras detalladas). Se seleccionaron todas las muestras tumorales en base a los siguientes criterios: (a) las firmas (transcripciones de ARNm /lncRNA /microARN, sondas de metilación del ADN) ausente en el 50% de las muestras tumorales fueron retirados como irrelevante, (b) las muestras con información clínica emparejado ( por ejemplo, el tiempo de supervivencia, edad, estadio tumoral), (pacientes c) tumorales con solamente un máximo de un mes de supervivencia después de la cirugía fueron excluidos para evitar cualquier posible confusión influencia de complicaciones postoperatorias. La mayoría de las muestras tumorales fueron compuestas por tres conjuntos de datos de perfiles moleculares diferentes, que eran ARN-ss, ss-microARN, y la metilación del ADN chip de grano. Se extrajeron cuatro tipos de firmas moleculares como predictores de pronóstico de los tres perfiles de datos moleculares, incluyendo lncRNA mRNA y firmas de los perfiles de ARN-ss, firmas de metilación del ADN eran de la metilación del ADN chip de grano 450k /27k, y las firmas de microARN eran de la microRNA- perfiles de SEQ. Para cada perfil de datos moleculares, se seleccionaron al azar de dos tercio de las muestras tumorales para construir (es decir, 'tren') modelos de predicción para identificar los mejores predictores de rendimiento, y el tercio restante de las muestras se utilizaron para una prueba independiente de estos predictores. Los conjuntos de datos que corresponden a los diferentes tipos de cáncer se analizaron por separado. Por otra parte, para predecir el resultado de los pacientes, las muestras tumorales fueron asignados a una "buena" o "mala" grupos de resultados como etiquetas pronóstico. El umbral de dos grupos de resultados se definió sobre la base de la caracterización clínica de los cánceres respectivos (que tienen la ventaja de producir dos grupos de resultados con igual tamaño en cada cáncer).
dicotomización de datos de supervivencia
Estamos dichotomized los datos de supervivencia censurados para cada tipo de cáncer mediante la asignación de un umbral de tiempo de corte como: 2 años para los pacientes con adenocarcinoma de colon (EPOC), 3 años de pulmón carcinoma de células escamosas (LUSC), carcinoma cystadeno serosa (OV), uterina carcinoma endometrioide corpus (UCEC), y 5 años para el carcinoma invasivo de mama (BRCA). Los pacientes que vivieron más allá de la hora de cierre fueron etiquetados como "buen pronóstico" los fallecidos fueron etiquetados como "mal pronóstico". Los pacientes con tiempos de supervivencia censurados que eran antes fueron excluidos del umbral de corte (por ejemplo, menos de 1 mes)
Pre-procesamiento de perfiles genómicos y epigenoma
RNA-seq:. TCGA ARN-ss nivel 2 de datos se normalizaron y procesada por el cálculo de la base de lecturas por kilo por millón asignada lee valor (RPKM) para la expresión de transcripciones lncRNA /ARNm. Para que coincida con las transcripciones ensamblados en detallados lncRNAs /ARNm, todas las transcripciones fueron alineados con el genoma humano por la lista de referencia de la UCSC (GRCh37 /hg19), mientras que las transcripciones con & gt; la mitad de sus longitudes con en un lncRNA /ARNm se identificaron como un partido [28]
Micro RNA-seq:. los niveles de expresión de microARN se analizaron
a través de
datos de nivel 3 secuenciación TCGA microARN (Illumina Genoma analizador & amp; HiSeq 2000). Las expresiones calculadas para la alineación de las transcripciones a un miARN particular, fueron recuperados de los archivos ambas isoformas de miARN y cuantificación (disponible en el portal de datos junto con TCGA metafiles anotación de cada conjunto de datos) [29]
La metilación del ADN chip de grano:. La conjuntos de datos de metilación del ADN en la mayoría de las cohortes de tumores se componen de la iluminación 450K y /o plataformas de gama 27K. En consecuencia, hemos seleccionado las GPC superposiciones (medidos con el tipo Infinium ensayo II) que estaban presentes en ambas de las dos plataformas (Infinium 450K y 27K) y no tenía valores que faltan más de 10% en todas las muestras de cada tipo de cáncer, respectivamente .
Firma metodología de evaluación: IDFO
El enfoque IDFO se compone de tres métodos básicos (figura 1):
El pronóstico del riesgo Priorización (PRP) Puntuación. Había un gran número de variables candidatas dentro de los perfiles moleculares diferentes, que costarían enorme cálculo durante el entrenamiento del modelo. Para superar esta "maldición dimensión", hemos desarrollado esta estrategia de clasificación pre-biomarcador: pronóstico del riesgo Priorización (PRP) para detectar a las variables de pronóstico más representativos como funciones de entrenamiento inicialmente modelo para cada perfil molecular, respectivamente. En este proceso, hemos explorado dos pasos:
un cálculo de para extraer expresados diferencialmente /firmas metilados
x
i
entre los dos grupos de resultados. Como fórmula, (1) Aquí fue el valor medio de expresión /metilación de la firma
x
i Hoteles en el grupo 1
er, y fue el valor medio de expresión /metilación de
x
i
en el
ed grupo 2,
σ
fue la desviación estándar de dos grupos respectivos, 1 = el grupo uno, 2 = el grupo dos.
P
unicox
, un cálculo de Cox univariante
p valor Red de firma molecular
x
i
, que utiliza los valores de expresión /metilación de
x
i
como variable para un análisis de supervivencia de regresión de Cox univariante.
Por último, el
PRP
valor de riesgo Red de la firma
x
i
se calculó como el uso de esta fórmula, (2) donde derivada de la ecuación 1.
construcción
Modelo. Para evaluar integralmente la capacidad de pronóstico de moléculas multi-plataforma a los respectivos tipos de cáncer, se utilizó 5 modelos de aprendizaje automático en combinación con 4 estrategias de extracción de características para establecer una tubería de rendimiento. Se utilizaron otros dos pasos: la construcción de modelos y la selección de características. Se propusieron cinco algoritmos de aprendizaje automático (véase en métodos suplementarios en S1 Archivo) en la construcción de modelos, que son máquinas de vectores soporte (SVM), k-vecinos más cercanos (KNN), la regresión logística (RL), bosque aleatorio (RF) y NaiveBayes ( NÓTESE BIEN). El rendimiento de cada clasificador se evaluó utilizando el método Bootstrap-632, utilizando esta fórmula, (3) Donde
n
fue el número total de repeticiones, y fueron los
i
º
exactitud y la precisión de tren experimento de prueba. Aquí nos separamos dos tercios de las muestras para la formación y uno tercios de muestras para las pruebas, las cuales fueron extraídas de los conjuntos de entrenamiento originales.
La selección de características. En este procedimiento, se proponen cuatro estrategias de extracción de características, es decir, como SVM-RFE, RF-IS, LASSO y la SSP (métodos suplementarios en S1 Archivo) para determinar el conjunto óptimo de características ampliamente. El procedimiento de selección de características se inició con el algoritmo de PRP ocupó el n-top-ponderado características (para números detallados ver Métodos complementarios y la Figura A en S1 Archivo) y luego iterativamente eliminado un número o una fracción de las características menos importantes /cruciales determinados en base a respectiva se obtuvieron las estrategias de extracción hasta la más alta precisión de arranque. Durante el proceso de optimización de función, una precisión media de 10.000 veces al azar re-muestreo con reemplazo se calculó como la exactitud estimación para cada conjunto de características seleccionadas iterativos. Para evaluar la estabilidad de las filas cuentan con PRP, una simulación de Monte Carlo utilizando el paquete R GMCT [30] También se realizó seleccionando al azar un número igual características para los modelos moleculares respectivos de cada tumor. Por último, el modelo más alto de arranque fue identificado como el mejor modelo de pronóstico y sus características descartadas se ensayaron a continuación en el equipo de prueba para la validación independiente. La construcción de modelos, análisis estadísticos y gráficos se realizaron utilizando Bioconductor (www.bioconductor.org) guía empresas
Este diagrama de flujo que contiene tres pasos básicos:. (I) Puntuación en PRP de características moleculares, (ii) la construcción del modelo y (iii) la optimización y validación función.
Estadísticas
de Student
t
pruebas se utilizaron para comparar las firmas diferenciales expresado (ARNm, lncRNAs, la metilación del ADN, y microRNAs) entre los dos grupos de riesgo. El signo de Wilcoxon rank test fue adoptado para evaluar la significación estadística de distribución de supervivencia de los dos grupos de pronóstico clasificados por modelos MCPHR, por esta fórmula, (4) Donde
S
1 y
S
2 fue la tasa de supervivientes en dos grupos de riesgo,
V
1 y
V
2 fue la varianza de
S
1 y
S
2.
se utilizó la prueba probabilidades relación comparar el ajuste de dos modelos (por ejemplo, modelos de predicción IDFO con y sin variables adicionales) que se basado en el cálculo de los coeficientes de probabilidad. La función de probabilidad se calcula utilizando esta fórmula, (5) donde
S gratis (
t
i
) era la función de supervivencia que mostraba la proporción de la
i
º
paciente con vida en el momento
t
; La función de densidad
f gratis (
t
i
) era la probabilidad de morir en el pequeño intervalo de tiempo
t
;
w
i
fue la tasa de supervivencia media ponderada calculada a partir de, donde
V
i
fue la variación de las tasas de supervivencia ;
n
fue el número total de pacientes en cohortes respectivas. El análisis de Kaplan-Meier y log-rank modelos de probabilidad se utilizaron para probar las diferencias en la supervivencia y las curvas de Kaplan-Meier fueron elaboradas en base a la mediana de la puntuación de riesgo. Los
valores de p
en todas las pruebas estadísticas de menos de 0,05 se consideraron significativos. Los análisis estadísticos anteriores se realizaron con los paquetes R:. "Supervivencia" y "survcomp '
multivariado de regresión de riesgos proporcionales de Cox
El modelo de Cox multivariado de regresión de riesgos proporcionales, como el más popular de los modelos matemáticos se aplicó método para estimar las razones de riesgo, riesgos relativos, los correspondientes intervalos de confianza del 95% (IC) y las curvas de supervivencia mediante el uso de varios /múltiples variables explicativas (variables moleculares y /o clínica). Como un ejemplo, un modelo paramétrico se basa en la distribución exponencial utilizando esta fórmula, (6) Cuando,
h gratis (
t
) era la función de riesgo, el
x
1,
x
2
... x
k
eran las covariables, y
β
1,
β
2
...
,
β
k
fueron los coeficientes de covariables respectivos, en donde,
β & gt; 0
representa el factor de riesgo relacionado con la covariable 'mal pronóstico', por el contrario,
β & lt; 0
indicó la covarianza protegida factor relacionado con "buen pronóstico". La constante de
α
en este modelo representa un peligro diario de línea de base, ya que log
h gratis (
t
) =
α
o
h gratis (
t
) =
exp gratis (
α
) cuando todos los
x
valores fueron de cero.
Los puntajes de riesgo
.
R gratis (
t
) se calculó para el pronóstico de riesgo de cada paciente, y se define como una combinación lineal de las variables predictoras ponderados por sus respectivos coeficientes de regresión de Cox, y se calcula mediante esta fórmula, ( 7) En caso de
R gratis (
t
) fue la puntuación de riesgo del paciente
t
,
h gratis (
t
) era el valor de riesgo calculado por el modelo de regresión de Cox (deriva por la ecuación 6)
R: códigos. CAPM
para permitir a los usuarios aplicar nuestra línea construida a otros conjuntos de datos, se implementó un público disponible el código fuente R (CAPM.r) para realizar la predicción del pronóstico del cáncer, que está disponible gratuitamente en http://www.escience.cn/people/lixu/index.html.
resultados
Evaluación del rendimiento pronóstico de diversos datos moleculares
el diagrama de flujo de nuestro estudio se muestra en la figura 2. Hemos reunido a 3198 muestras tumorales disponibles para el público en datos basados en arreglos entre los cinco tipos de cáncer TCGA: carcinoma invasivo de mama ( BRCA) [26], adenocarcinoma de colon (EPOC) [27], carcinoma de células escamosas de pulmón (LUSC) [25], uterino corpus endometrioide carcinoma (UCEC) [31] y el carcinoma seroso cystadeno (OV) [24]. Los cinco tipos de cáncer fueron elegidos porque sus cohortes TCGA incluyen suficientes muestras con múltiples tipos de datos moleculares e información clínica (Tabla A en S1 Archivo). Cada tipo de cáncer se compone de cuatro perfiles de datos moleculares, incluyendo (i) lncRNA: Illumina HiSeq 2000 RNA Secuenciación V2; (Ii) ARNm: ARN Illumina HiSeq 2000 Secuenciación V2; (Iii) la metilación del ADN: El ADN humano Illumina Infinium metilación 27K, 450K; (Iv): microARN: Illumina Genoma Analizador /2000 HiSeq plataforma de secuenciación de microARN. Con el fin de evaluar ampliamente el poder predictivo de los cuatro tipos de firmas moleculares a sus respectivos tipos de cáncer, se construyó un grupo de 5 clasificadores (SVM [32], KNN [33], NaiveBayes [34], randomForest [35], logística multinomial de regresión [14]) en combinación con 4 cuentan con estrategias de extracción: El Absoluto de contracción y de selección de operador (LASSO) [36], Recursive Feature basada máquina de vectores de soporte eliminación (SVM-RFE) [37], el espectro importancia del bosque aleatorio de selección de características menos basada (RF-IS) [38], y la selección eliminada de priorización de función (PFS) (métodos suplementarios en S1 archivo) para construir un oleoducto computacional pronóstico que nombró como el método de funciones de optimización iterativo Supresión (IDFO, ver Métodos y figura 1).
Este ducto contiene cuatro procedimientos principalmente: I) El procesamiento de datos. Hemos reunido una colección de 3198 muestras de tumor en cinco tipos de cánceres humanos, que consta de cuatro tipos de datos moleculares, incluyendo: lncRNA, microARN, ARNm, y la metilación del ADN. Cada tipo de datos moleculares en los respectivos tipos de cáncer se procesó en la matriz basada en matrices usando métodos de preprocesamiento CAPM. II) la clasificación de funciones. características moleculares asociados con el pronóstico se analizaron y se clasifican de acuerdo con el algoritmo de PRP. Para cada tipo de datos moleculares, se seleccionaron de mayor peso 100 firmas como los conjuntos de características iniciales en cada uno de los cinco tipos de cáncer, respectivamente. III) La construcción de modelos y la selección de características. En este proceso, hemos adoptado cinco clasificadores en combinación con cuatro algoritmos de selección de función para establecer la línea base la predicción del pronóstico. Durante el proceso de selección de características, cada grupo de funciones se entrenó con 10.000 veces la aleatorización y el panel distintivo de mejor rendimiento con la más alta precisión de arranque fue elegido para cada tipo de datos moleculares por cáncer. IV) Validación. Para evaluar el poder predictivo de los datos de cada moleculares, las mejores características que realizan se aplicaron más de prueba independiente en cada uno de las cohortes de cáncer, respectivamente.
Durante el proceso de optimización característica, los clasificadores para cada tipo de datos moleculares fueron inicialmente entrenado por el pronóstico del riesgo Priorización algoritmo (PRP; véase Métodos) clasificado características y luego eliminado de forma iterativa un número o una fracción de las características menos importantes /cruciales que fueron determinadas por las estrategias de extracción de características de cuatro hasta que se observó el panel óptima de características. Para evaluar la estabilidad del método PRP, una simulación de Monte Carlo (MCS) también se llevó a cabo para seleccionar el mismo tamaño de características como la validación al azar para los perfiles respectivos de cada tumor. Un clasificador con la más alta precisión de arranque [39] fue identificado como el modelo óptimo y los mejores predictores de rendimiento se ensayaron a continuación en las cohortes de prueba independientes. Las actuaciones de cada modelo de datos moleculares ( 'tren') en combinación con estrategias de selección respectiva de características se destacan en la figura 3a-3e. Hemos observado que, 1) la precisión de arranque de todos los clasificadores variaron de 0,71 a la 0,97 (cuadro B S1 del archivo), lo que indica un buen rendimiento del enfoque IDFO para varios tipos de cáncer; 2) los conjuntos de características PRP clasificado como resultado una precisión significativamente superior en comparación con conjuntos de características MCS seleccionados al azar (con una precisión media: PRP = 0,81, MCS = 0,59; unilateral prueba de Wilcoxon:
P Hotel & lt; 1.12e -5); 3), y no hubo ninguna diferencia aparente entre los algoritmos de clasificación con respecto a los tumores, y el rendimiento de diversas firmas moleculares no varió significativamente entre los tipos de cáncer, lo que confirma un muy robusto de datos genómicos y epigenéticos en la predicción del pronóstico; 4) de todos los 20 modelos óptimos pronósticos (5 cánceres * 4 conjuntos de datos moleculares), 12 de 20 (60%) fueron obtenidos por el algoritmo de la SSP, seguido de LASSO (30%) y SVM-RFE (10%), lo cual indica que nuestro enfoque novedoso de selección de características propuesta tuvo un buen rendimiento similar a los métodos tradicionales (Tabla B en S1 archivo). Posteriormente, para comparar el rendimiento predictivo de los cuatro tipos de firmas moleculares con una validación objetiva, aplicamos los mejores predictores de pronóstico de cada modelo de formación a un conjunto de pruebas independientes. Cabe destacar que, como se muestra en la figura 3f, las firmas lncRNA ilustran el mejor rendimiento en cuatro tipos de cáncer: BRCA (ensayo de deformación precisión: 0,78,
N
pruebas Conjunto
= 159), EPOC (ensayo de deformación precisión: 0,85,
N
configuración de prueba
= 48), LUSC (ensayo de deformación precisión: 0,77,
N
equipo de prueba
= 56), y OV (precisión de prueba: 0,79,
N
sub> em> prueba
= 75). La metilación del ADN fue el segundo mejor predictor de BRCA (juego exactitud de la prueba: 0,76,
N
configuración de prueba
= 73), EPOC (ensayo de deformación precisión: 0,79,
N
equipo de prueba
= 67), LUSC (ensayo de deformación precisión: 0,77,
N
configuración de prueba
= 42), el cáncer de ovario (conjunto de prueba de precisión: 0,7,
N
equipo de prueba
= 146), y los terceros mejores predictores en UCEC (conjunto exactitud de la prueba: 0,8,
N
equipo de prueba
= 81). mRNA y microRNA como marcadores de referencia clínicos tradicionales, se clasificaron inferior a nuestras expectativas iniciales. mRNA fue el tercer mejor predictores en BRCA (conjunto de prueba de precisión: 0,64,
N
configuración de prueba
= 159), EPOC (ensayo de deformación precisión: 0,64,
N
equipo de prueba
= 48), LUSC (ensayo de deformación precisión: 0,76,
N
em> prueba
= 56) y OV (prueba establecer la precisión: 0,6,
N
equipo de prueba
= 75). datos de microARN resultaron en poder de predicción peor en comparación con todos los otros tipos de datos. Además, debido a la notable actuación de lncRNAs en la estratificación de la supervivencia del paciente, se realizó además la recuperación de la literatura para examinar la posibilidad de que cualquier evidencia de la correlación entre lncRNAs defender-IDFO y la progresión de pronóstico. De los 157 predictores lncRNA óptimos en cinco tipos de cáncer (21 en BRCA, 36 en EPOC, 33 en LUSC, 41 en VO, 37 en UCEC), 22 lncRNAs habían sido previamente reportados en la literatura (Tabla F y la Figura B en S1 Archivo). Estos resultados sugieren que nuestro enfoque podría potencialmente identificar lncRNAs pronóstico asociado confiables, y que postulaban la lncRNAs recientemente identificados, ya sea en forma aislada o como marcadores de compuestos, puede ser crucial para la práctica clínica
.
(AE) Los mejores modelos de predicción de cada los datos moleculares de cinco cánceres humanos a través de diferentes estrategias de selección de función (columnas de características indica las estrategias de selección: Lasso, PFS, SVM-RFE, RF-IS, y MCS; filas indican firmas moleculares), (F) precisiones de prueba de conjunto de cuatro tipos de molecular firmas en cinco tipos de cáncer TCGA (filas indican los tipos de datos moleculares, las columnas indican los tipos de cáncer). Con el fin de distinguir los resultados entre la formación y las pruebas, hemos utilizado los elementos de color azul para los resultados del entrenamiento (Figura 3A-3E) y elementos de color rojo para resultados de análisis. * = BRCA mama carcinoma invasivo; EPOC = adenocarcinoma de colon; LUSC = carcinoma de pulmón de células escamosas; UCEC = uterino Corpus endometrioideo carcinoma; VO = cystadenocarcinoma seroso.
Integración de los biomarcadores múltiples ómicas con el pronóstico de predicción
Los estudios recientes sugiere las firmas multi-ómicas integrados podrían mejorar eficazmente el rendimiento de los modelos [28, 40]. Para explorar si tales hipótesis era apropiado para la predicción de supervivencia global dicotomizada, hemos ampliado nuestro enfoque IDFO para investigar el comportamiento de los modelos de integración de datos moleculares de tipo múltiple en cinco tipos de cáncer. Como modelos integradores requieren muestras no sólo compuesta de perfiles múltiples ómicas, sino también aquellas que cumplen los criterios de pronóstico, se observó una final de 20 grupos de datos multi-ómicas integrados en los cinco tipos de cáncer, incluyendo 15 grupos de doble combinación y 5 triples : combinación grupos (véase la Tabla C en S1 archivo). Como no había un número suficiente de muestras de microARN-ss superpuestos con los otros tres perfiles moleculares, las firmas de microARN fueron excluidos en el análisis de modelos integrados. Tabla C en S1 del archivo aparece la precisión de predicción ( "test") de los 20 modelos integrados. En suma, el 80% de las combinaciones integradas de datos multi-ómicas no mostró mejora significativamente el poder predictivo en comparación con sus datos individuales moleculares (Figura 4A-4C), excepto para los modelos de metilación del ADN lncRNA + en dos tipos de cáncer de OV y UCEC (Fig 4D y 4E) (OV: unilateral prueba de Wilcoxon, metil ADN + lncRNA
vs
metil ADN:.
P Hotel & lt; 1.2e-4, metil ADN + lncRNA
vs
lncRNA:
P Hotel & lt; 4.7E-3; UCEC:. metil ADN + lncRNA
vs
metil ADN:.
P Hotel & lt; 1.7e-4, metil ADN + lncRNA
vs
lncRNA:
P Hotel & lt; 8.2e-5).. Además, con el aumento de tipos moleculares, el rendimiento de grupos triples combinación fue de acuerdo con el nivel medio de los modelos moleculares de tipo único con perturbaciones limitadas en los cinco tipos de cáncer. En consecuencia, la mayoría de los modelos integrados de datos multi-ómicas mostraron capacidad predictiva similar con sus respectivos modelos de datos moleculares individuales, lo que sugiere el contenido de información de los datos multi-plataforma integrada en gran medida podría ser redundante en términos de estratificación de la supervivencia del paciente. Resultados similares se observaron también en un estudio de tratamiento de modelado reciente cáncer de mama [1].
(A) BRCA (N
se solapa
= 178), (B) EPOC (N
se solapa
= 161), (C) LUSC (N
se solapa
= 97), (D) VO (N
se solapa
= 145), (E) UCEC (N
se solapa
= 84). Para los modelos respectivos de cada tipo de cáncer, se realizó 10.000 veces de la división aleatoria con 2/3 y 1/3 de la formación de pruebas utilizando tubería IDFO. La caja roja punteada indica el rendimiento significativamente mejor de dos modelos integrados en (D) OV y (E) UCEC comparación con los modelos de tipos de datos individuales (por las dos caras test de Wilcoxon,
P Hotel & lt; 0,01); la caja azul punteada indica los tres modelos de tipos de datos individuales de sr, LNR y metanfetamina. El grupo integrado se compone de dos doble y triple combinación de combinación modelos de la firma molecular. grupo de individuos tiene los tres modelos de tipos de datos moleculares individuales. La línea gris a través de siete cajas muestra los patrones predictivos de grupos integrados y grupos individuales. N
se solapa
es el número de muestra de solapamiento se produjo en los tres perfiles de datos moleculares (ARNm, lncRNA y la metilación del ADN), LNR = lncRNA, mr = ARNm, met = metilación del ADN, mr + = LNR ARNm + lncRNA, mr + met = ADN ARNm + metilación, LNR + met = lncRNA + metilación del ADN, mr + + LNR met = + ARNm de ADN lncRNA + metilación
análisis de supervivencia:. validación de los predictores IDFO en los datos de supervivencia censurados
Además de examinar la asociación entre predictores IDFO y el resultado clínico en BRCA, EPOC, LUSC, UCEC y OV, se sometieron los mejores predictores de perfiles de datos respectivos a la multivariado de regresión de Cox de riesgos proporcionales ( MCPHR) el análisis [41] para evaluar la correlación de IDFO-predictores de riesgo pronóstico e investigar sus utilidades clínicas.