Extracto
La validación de biomarcadores múltiples genes para los resultados clínicos es uno de los temas más importantes para el pronóstico del cáncer. Una importante fuente de información para la validación virtual es el elevado número de conjuntos de datos disponibles cáncer. Sin embargo, la evaluación del rendimiento pronóstico de una expresión genética a lo largo de los conjuntos de datos es una tarea difícil para los biólogos y los médicos y también mucho tiempo a los Estadísticos y bioinformáticos. Por lo tanto, para facilitar las comparaciones de rendimiento y validaciones de biomarcadores de supervivencia para los resultados del cáncer, desarrollamos SurvExpress, una base de datos de expresión de genes en todo el cáncer con resultados clínicos y una herramienta basada en la web que proporciona el análisis de supervivencia y la evaluación del riesgo de cáncer de conjuntos de datos. La entrada principal del SurvExpress es sólo la lista de genes de biomarcadores. Hemos generado una base de datos de cáncer de recoger más de 20.000 muestras y 130 conjuntos de datos con información clínica censurado que cubre más de 20 tumores de tejidos. Hemos implementado una interfaz web para realizar la validación de biomarcadores y las comparaciones en esta base de datos, donde un análisis de supervivencia multivariante se puede lograr en aproximadamente un minuto. Se demuestra la utilidad y simplicidad de SurvExpress en dos aplicaciones de biomarcadores de cáncer de mama y el cáncer de pulmón. En comparación con otras herramientas, SurvExpress es la más grande, más versátil, y más rápida herramienta gratuita disponible. SurvExpress web se puede acceder en http://bioinformatica.mty.itesm.mx/SurvExpress (un tutorial está incluido). La página web se puso en práctica en JSP, JavaScript, MySQL y R.
Visto: Aguirre-R Gamboa, Gómez-Rueda H, Martínez-Ledesma E, Martínez-Torteya A, Chacolla-Huaringa R, Rodríguez-Barrientos A, et al. (2013) SurvExpress: Una herramienta de validación de biomarcadores en línea y bases de datos para los datos de expresión génica utilizando cáncer análisis de supervivencia. PLoS ONE 8 (9): e74250. doi: 10.1371 /journal.pone.0074250
Editor: William C. S. Cho, Hospital Queen Elizabeth, Hong Kong
Recibido: 21 Abril, 2013; Aceptado: 31 de julio de 2013; Publicado: 16 Septiembre 2013
Derechos de Autor © 2013 Aguirre-Gamboa et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Los autores agradecen el apoyo financiero de la Cátedra de Bioinformática CAT220 en el ITESM (Tecnológico de Monterrey) y otorga CONACyT 83929 y 140601. los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito.
Conflicto de intereses:. los autores han declarado que no existen intereses en competencia
Introducción
el cáncer causa millones de muertes en todo el mundo. Para mejorar los tratamientos, se han propuesto varios biomarcadores para la predicción del riesgo y la respuesta al tratamiento. Recientes biomarcadores publicados en muchos tipos de cáncer contienen numerosos genes y se basan principalmente en la expresión génica. Han sido generados utilizando microarrays de perfiles y últimamente por las tecnologías de RNA-Seq. A menudo, los biomarcadores identificados son desarrollados para un tejido específico de cáncer y subtipos. En el cáncer de mama, por ejemplo, se han propuesto más de 40 biomarcadores que contiene entre 3 y 512 genes y cuyo rendimiento de pronóstico o predictivo depende de la terapia, el estado del receptor de la hormona, y el número de genes [1], [2]. Por otra parte, la evaluación del rendimiento de los biomarcadores propuestos en diferentes poblaciones o la evaluación de biomarcadores que compiten son tareas difíciles a pesar de que cientos de conjuntos de datos públicos disponibles. Las principales limitaciones son el tiempo y los recursos necesarios para la adquisición, el procesamiento, la normalización, el filtrado y la modelización estadística de grandes conjuntos de datos de expresión génica. Esto es importante ya que varios de los motivos implicados en el fracaso de los biomarcadores en los ensayos clínicos están relacionados con el análisis de datos [3]. Para el análisis de biomarcadores, se han propuesto como herramientas ITTACA, kmplot, RecurrenceOnline, bc-GeneExMiner, Gobo, y PrognoScan [1], [4] - [9]. Sin embargo, estas herramientas tienen restricciones graves (Tabla 1), lo que complica y la limitación de la evaluación de biomarcadores múltiples genes en el cáncer. Algunas de las principales limitaciones que se prevea un solo gen en el momento o un conjunto específico de genes; centrándose en la mama o cáncer de ovario o de conjuntos de datos a una plataforma de expresión Affymetrix gen particular; que requiere la carga de datos de expresión génica Affymetrix (archivos CEL); y el uso de una sola cantidad por gen a pesar de que algunas plataformas de microarrays proporcionan más probesets.
Para resolver estos problemas y para facilitar las comparaciones de rendimiento y validaciones de biomarcadores pronósticos y predictivos para los resultados del cáncer, desarrollamos SurvExpress. SurvExpress es una herramienta completa base de datos de expresión génica y la web basado en proporcionar análisis de supervivencia y evaluación de riesgos en los conjuntos de datos de cáncer utilizando una lista de genes biomarcadores como entrada. La herramienta está disponible en http://bioinformatica.mty.itesm.mx/SurvExpress. La herramienta incluye un tutorial que describe el análisis de opciones, parcelas, las tablas, los conceptos clave relacionados con el análisis de supervivencia, y los métodos representativos para identificar biomarcadores de datos de expresión génica.
Materiales y Métodos
Adquisición de Base de Datos
Los conjuntos de datos se obtuvieron principalmente de GEO (http://www.ncbi.nlm.nih.gov/geo/) y TCGA (https://tcga-data.nci.nih.gov) después de haber buscado palabras clave relacionadas con las tecnologías de cáncer, la supervivencia y la expresión génica. Además, unos pocos fueron obtenidos de sitios web de autor y de ArrayExpress (http://www.ebi.ac.uk/arrayexpress/). La fuente de datos utilizada se muestra en la interfaz web. Favorecimos tipos de cáncer se proporcionaron dos cohortes y conjuntos de datos que contienen los datos de supervivencia de más de 30 muestras en las que la censura y el indicador de tiempo hasta la muerte, recurrencia, la recaída, o metástasis diferentes arriba. Los datos clínicos fueron proporcionados por los autores de conjuntos de datos a través de correo electrónico personal cuando no está disponible en línea en los repositorios correspondientes. Los conjuntos de datos fueron anotados a partir de archivos de proveedores que se encuentran hasta septiembre de 2012, y fueron cuantil normalizado y log2 transforman cuando sea necesario. De TCGA, todos los conjuntos de datos se obtuvieron a nivel del gen (nivel 3). datos de recuentos de ARN-Seq se transforman log2. En algunos tipos de cáncer donde se encontraron muchos conjuntos de datos para la misma plataforma de expresión génica, también ofrecemos un meta-base fusionado. En los meta-bases, bases de datos fueron cuantil normalizado; medios probesets se igualaron la conservación de la desviación estándar de cada cohorte; y conjuntos de datos fueron combinadas por probeset ID. Por el momento proporcionamos meta-bases de mama, de pulmón y cáncer de ovario. Para facilitar la búsqueda de genes y las conversiones entre los identificadores de genes, se utilizó la información genética humana y obtiene a partir de la NCBI sitio ftp (ftp://ftp.ncbi.nih.gov/gene/DATA/GENE_INFO/Mammalia/Homo_sapiens.gene_info.gz). Para simplificar la interfaz de usuario, conjuntos de datos fueron agrupados por órgano o tejidos relacionados con el uso de ontologías de la enfermedad [10].
Interfaz Web Implementación
Dos interfaces de usuario simples y ligeros HTML basado en las páginas de servidor Java, JavaScript , R, Ajax, Apache, MySQL y se llevaron a cabo (Figura 1A). En el
Entrada Mi página, los usuarios introducen la lista de genes basado en identificadores de genes compatibles NCBI (símbolo oficial, Entrez, Ensembl, HGNC, u otros) y seleccione el conjunto de datos de destino. Los usuarios también pueden elegir la forma de tratar a los genes que tienen más de una sonda. El
Análisis Mi página extractos de las filas de conjuntos de datos relacionados con los genes en el biomarcador y la entrega de una interfaz web. Entonces, los usuarios pueden evaluar el biomarcador en una variedad de formas, incluyendo el encendido y apagado genes específicos, estratificar las muestras por la información disponible clínica (por ejemplo, estadio, grado, edad, los resultados bioquímicos, y estado de la mutación), especificando muestras de entrenamiento y de prueba, y pesando genes en lugar de utilizar el accesorio Cox. Los resultados se muestran en las parcelas comunes y flexibles listas para publicar y tablas dentro de la página
Análisis
. Una versión en PDF de los resultados también se puede obtener.
El panel A muestra un diagrama esquemático del flujo de trabajo SurvExpress mientras que el panel B muestra instantáneas de las interfaces de marcado los campos de entrada requeridos. En el primer
Entrada Mi página web, el usuario puede pegar la lista de genes (etiquetados con el número 1, que puede ser símbolos, identificación de genes Entrez y otros identificadores) y elegir el conjunto de datos de alrededor de 140 conjuntos de datos disponibles ( etiquetadas con 2 y 3). SurvExpress valida y busca en los genes y el conjunto de datos para mostrar la página web
Análisis
donde el usuario selecciona el resultado censurado (etiqueta 4) y visualiza los resultados (parte inferior derecha de la ampliación en la Figura 2). Todo el proceso se puede lograr en menos de un minuto para un número sensible de genes.
Índice de Pronóstico Estimación
El índice de pronóstico (PI), también conocida como la puntuación de riesgo, se utiliza comúnmente para generar grupos de riesgo. El PI se conoce como el componente lineal del modelo de Cox [11], PI =
β
1x
1 + β
2 x
2 + ... + β
px
p
donde
x
i
es el valor de la expresión y de la
β
I
puede obtenido de la Cox apropiado. Cada
β
I
se puede interpretar como un coeficiente de riesgo. SurvExpress implementa dos procedimientos para estimar los
β
coeficientes. El primer procedimiento es el modelo clásico de Cox, donde todos los genes se incluyeron en un modelo único. El montaje se realiza en R (http://cran.r-project.org) utilizando el
supervivencia
paquete. En el segundo procedimiento, el usuario puede especificar un peso para cada gen en lugar de utilizar los valores de la Cox apropiado. Tal opción es útil para hacer comparaciones con biomarcadores calculados con modelos matemáticos distintos de Cox.
Riesgo Estimación
SurvExpress implementa dos métodos para generar grupos de riesgo. El primer método (por defecto) genera los grupos de riesgo división de la PI ordenado (valores más altos de riesgo más alto) por el número de grupos de riesgo que salen de igual número de muestras en cada grupo. Para dos grupos de riesgo, esto es equivalente a dividir el PI por la mediana. El segundo método para producir grupos de riesgo utiliza un algoritmo de optimización de la PI ordenada. En pocas palabras, para dos grupos, una prueba de log-rank se lleva a cabo a lo largo de todos los valores de la PI organizado. A continuación, el algoritmo elige el punto de división, donde el valor de p es mínimo. Este procedimiento se generaliza por más de dos grupos de optimizar repetidamente un grupo de riesgo en el tiempo hasta que no se observan cambios. Los detalles de este procedimiento se describen en el tutorial proporcionado en el sitio web SurvExpress.
Salidas
Las salidas incluyen corresponden a las métricas y parcelas comunes que se utilizan para evaluar el rendimiento de los datos de supervivencia. Un ejemplo de los resultados generados por SurvExpress se muestra en la Figura 2. El panel A muestra los gráficos de Kaplan-Meier por grupo de riesgo, la prueba de log-rank de las diferencias entre los grupos de riesgo, la estimación del índice de riesgo, y los índices de concordancia, que la estimación la probabilidad de que los sujetos con un mayor riesgo experimentará el evento después de sujetos con un riesgo más bajo [12]. El panel B muestra una asociación visual de la información clínica disponible para los grupos de riesgo. El panel C ilustra un mapa de calor de los valores de expresión génica. El panel D muestra los diagramas de caja de los valores de expresión génica a través de grupos de genes junto con el p-valor de la diferencia correspondiente. Panel E muestra la trama optimización grupo de riesgo. Panel F muestra fragmentos de las tablas para los coeficientes beta incluyendo correspondientes valores de p Cox, índice de pronóstico por muestra, y la información de ajuste de Cox de la
supervivencia
paquete en R. Otro Búsqueda avanzada parcelas están también disponibles en el tutorial proporcionado en SurvExpress. Otras parcelas avanzados »incluyen SurvivalROC que estima sensibilidades dependientes del tiempo y las características específicas de los grupos de riesgo la supervivencia [13], pero necesita unos pocos minutos en calcular. parcelas adicionales, los detalles y las interpretaciones de los resultados se describen en el tutorial proporcionado en el sitio web SurvExpress.
Esta figura muestra los resultados de un meta-base de cáncer de mama incluidos en SurvExpress. El panel A muestra la curva de Kaplan-Meier para los grupos de riesgo, índice de concordancia, y p-valor del log-rank la prueba de igualdad de las curvas de supervivencia. El panel B muestra la información clínica disponible relacionada con el grupo de riesgo, índice de pronóstico, y los datos de resultado. El panel C muestra una representación de mapa de calor de los valores de la expresión de genes. El panel D muestra un diagrama de caja a través de grupos de riesgo, incluida la prueba de p-valor de la diferencia mediante la prueba t (o F-test para más de dos grupos). Panel E muestra la relación entre los grupos de riesgo y el índice pronóstico. Panel F muestra fragmentos de tablas con el resumen de la instalación Cox y los índices pronósticos. Los detalles figuran en SurvExpress Tutorial.
Resultados y Aplicaciones |
Base de datos
A pesar de que la recolección de datos continuará, hasta la fecha hemos recogido alrededor de 20.000 muestras de cáncer distribuidos en 140 conjuntos de datos que cubren más de 20 tejidos (Tabla 2). La principal limitación para incluir más conjuntos de datos es que la ausencia de censurar la información en repositorios. Sin embargo, la colección SurvExpress supera a la de otras herramientas similares en términos de cobertura de tejido, número de muestras, estimación predictor multivariado, y la funcionalidad (Tabla 1). De los 20 tipos de cáncer, los más representados por su número de conjuntos de datos fueron mama, hematológicas, pulmón, cerebro y ovario, alcanzando alrededor del 70% de la colección de bases de datos. Es sorprendente que la mayoría de las herramientas existentes se concentran principalmente en el cáncer de mama a pesar de que un número similar de bases de datos está disponible para otros tipos de cáncer. En consecuencia, una de las ventajas inmediatas de SurvExpress es la disponibilidad para realizar el análisis de gran alcance para estos tipos muy estudiados de cánceres. Además, SurvExpress permitirá la validación de biomarcadores en los tipos de cáncer que no han sido considerados por otras herramientas tales como riñón, hígado, aparato digestivo, páncreas, hueso, cabeza y cuello, y de útero. En la interfaz web, sino que también a los usuarios que sugiera o enviar datos para aumentar la cobertura y el cáncer de conjunto de datos
Interfaz Web
Los dos interfaces web comprenden tres secciones:.
Entrada , Análisis de Opiniones y
resultados
(Figura 1B). El
página de entrada es de fácil manejo
escribir o pegar una lista de genes y establezcan la meta de datos (números del 1 al 3 en la Figura 1B). También incluye un enlace al tutorial que describe todas las opciones y ofrece interpretaciones amplias de las salidas. La posterior
Análisis
y
Resultado Mi página se obtiene en pocos segundos (aproximadamente 1 segundo por cada gen y 200 muestras). En el
Análisis
sección, el usuario especifica el resultado del conjunto de datos seleccionado en el que se realizó el análisis (número 4 en la Figura 1B). El
Resultados
sección (Figura 2) se obtiene pocos segundos después de la presentación de un análisis. En esta sección se incluye salidas como las curvas de Kaplan-Meier para los grupos de riesgo, la comparación visual de la información clínica de los grupos de riesgo, un mapa de calor de los valores de la expresión génica, diagramas de caja de la expresión del gen por gen y el grupo de riesgo, una parcela del riesgo proceso de optimización de grupo, mesas de los coeficientes de Cox, índices pronósticos e información apropiado Cox, y un vínculo para obtener las secuencias de comandos R utilizados.
Validación y Aplicaciones |
Debido a las limitaciones en otras herramientas, comparaciones múltiples genes a través de herramientas no eran posibles. Aún así, SurvExpress puede proporcionar resultados similares a otras herramientas cuando se utiliza un solo gen. Sin embargo, para evaluar la funcionalidad y las estimaciones de SurvExpress, hemos realizado dos análisis que evalúan el rendimiento de los biomarcadores pronósticos conocidos y propuestos. Se utilizó el biomarcador OncotypeDX de recurrencia en el cáncer de mama y dos biomarcadores publicadas para la supervivencia del cáncer de pulmón.
OncotypeDX biomarcador para el cáncer de mama.
A modo de ejemplo para probar un biomarcador en varios conjuntos de datos, hemos utilizado los 16 genes OncotypeDX [14]. OncotypeDX calcula una puntuación de recurrencia que se ofrece sobre todo a principio de su carrera, el estrógeno positivo, ganglios linfáticos cánceres de mama negativo. Los genes incluidos son
AURKA
,
BAG1
,
BCL2
,
BIRC5
,
CCNB1
,
CD68
,
CTSL2
,
erbB2
,
ESR1
,
GRB7
,
GSTM1
,
MKI67
,
MMP11
,
MYBL2
,
PGR
, y
SCUBE2 gratis (
ACTB
,
GAPDH
,
GUSB
,
RPLP0
, y
TFRC
genes utilizados como referencia en el ensayo de RT-PCR no se usaron aquí). Para calcular la puntuación, OncotypeDX utiliza un algoritmo de ponderación equivalente a un peso multiplicado por la expresión de genes normalizado por la referencia [14] correspondiente. En SurvExpress utilizamos Cox apropiado (como una aproximación ya que los datos de la expresión génica no está normalizado para hacer referencia a genes) en cuatro conjuntos de datos de cáncer de mama (Tabla 3). Otros ajustes fueron el promedio máximo de fila de los genes con múltiples probesets, y dos grupos de riesgo se dividieron en la mediana del índice de pronóstico. Para probar el biomarcador en varias condiciones, los conjuntos de datos fueron elegidos para reflejar los pacientes adecuados para el ensayo (Wang [27] y Ivshina [26]), los pacientes con información parcial, además de diferentes eventos (TCGA [25]), y los pacientes sin información clínica (Kao [15]). Los resultados que se muestran en la Figura 3 y se resumen en la Tabla 4 sugieren que, en general, Oncotype DX puede separar grupos significativamente bajo y alto riesgo en los cuatro conjuntos de datos analizados. Por otra parte, se obtuvieron índices satisfactorios de concordancia y las áreas bajo la curva ROC. Estos resultados se pueden obtener usando SurvExpress en unos pocos minutos. Para demostrar las características analíticas de SurvExpress, también se realizó la evaluación de supervivencia estratificar las muestras usando los grados tumorales proporcionados por los autores (AJCC etapa en el conjunto de datos TCGA y el grado en el conjunto de datos Ivshina). Los resultados representativos para el conjunto de datos Ivshina se muestran en la Figura 4. La figura sugiere que el rendimiento, propuesta por el índice de concordancia y la prueba de log-rank para los grupos de riesgo, disminuye a lo largo del grado. Los resultados para el conjunto de datos TCGA se muestran en el tutorial disponible en el sitio web SurvExpress.
CENSURANDO muestras se muestran como marcas "+". El eje horizontal representa el tiempo al evento. Conjunto de datos, evento de resultado, escala de tiempo, índice de concordancia (IC), y el valor p de la prueba de log-rank se muestran. curvas rojas y verdes denotan grupos de alto y bajo riesgo, respectivamente. Los números rojos y verdes, bajo el eje horizontal representa el número de individuos que no presenten el caso del grupo de riesgo correspondiente a lo largo del tiempo. El número de personas, el número de censura, y el IC de cada grupo de riesgo se muestran en las inserciones superior derecha.
Leyendas como en la Figura 3.
Para el cáncer de pulmón no microcítico (CPNM), se han propuesto al menos 16 biomarcadores
Comparación de dos biomarcadores de cáncer de pulmón
. [16]. Aquí se compararon dos biomarcadores propuestos para la supervivencia de NSCLC que intentan predecir el mismo evento (supervivencia) y utilizar un número similar de genes; sin embargo, los genes son diferentes. . El primer biomarcador CPNM fue propuesto por Boutros
et al
[17] y contiene los siguientes genes:
STX1A
,
HIF1A
,
CCT3
,
HLA-DPB1
,
RNF5
, y
Mafk
. El segundo biomarcador CPNM fue propuesto por Chen
et al.
[18] y contiene los genes
dusp6
,
MMD
,
STAT1
,
ERBB3
, y
LCK
. Por lo tanto, es de interés clínico para comparar su rendimiento. Para esto, se realizó un análisis en SurvExpress utilizando el promedio máximo de fila de los genes con múltiples probesets, dos grupos de riesgo por medio índice de pronóstico, y Cox apropiado. Se utilizó un especial de pulmón acumulación meta-base en nuestro grupo de investigación, que se compone de más de 1.000 muestras obtenidas de seis autores (Bild [19], Raponi [20], Zhu [21], Hou [22], Instituto Nacional del Cáncer [23 ], Okayama [24]), la plataforma de la expresión génica equivalente Affymetrix, y que contiene todos los genes de biomarcadores.
Los resultados muestran que ambos biomarcadores son capaces de grupos de riesgo independientes que se caracterizan por diferencias en su expresión de los genes (véase Kaplan-Meier y diagramas de caja, respectivamente, en la Figura 5). No obstante, el valor p de la separación del grupo de riesgo, el índice de concordancia, y la significación de los coeficientes fueron ligeramente mejores en el biomarcador Chen. Para el análisis de los biomarcadores más profundamente, hemos probado el biomarcador por autor base de datos utilizando la funcionalidad SurvExpress estratificación (esto también se puede conseguir realizando un análisis conjunto de datos SurvExpress por el autor). Los resultados para los seis autores se resumen en la Tabla 5. Tres ejemplos representativos se muestran en la Figura 6. Los resultados muestran que el biomarcador Boutros falla en cuatro conjuntos de datos (la prueba de log-rank de la diferencia en los grupos de riesgo no es significativo) mientras que la Chen biomarcador funciona mejor en casi todos los conjuntos de datos. En resumen, estos resultados sugieren que el rendimiento de Chen biomarcador es superior.
curvas de Kaplan-Meier como en la Figura 3. Mapa de calor muestra la expresión de cada gen (filas) a lo largo de las muestras (columnas) en grupos de riesgo. Baja expresión está representado en los grados verdes y alta expresión en los grados de color rojo. coeficientes beta correspondientes de la instalación de Cox se muestra. Dos estrellas (**) marca genes cuya disposición valor de p & lt; 0,05, una estrella (*) para los genes significativos marginales que tienen valor de p & lt; 0,10, y no hay estrellas de genes cuya valor p es & gt; 0,1. Los diagramas de caja comparar la diferencia de la expresión génica entre los grupos de riesgo mediante una prueba t.
Leyendas como en la Figura 3.
Conclusión
en comparación con otras herramientas, SurvExpress es el más grande y el más versátil herramienta gratuita para realizar la validación de biomarcadores múltiples genes para la expresión de genes en cánceres humanos. El análisis requiere sólo la lista de genes y se puede realizar en aproximadamente un minuto por cada conjunto de datos. Las aplicaciones más comunes para probar el rendimiento de los biomarcadores incluyen la evaluación de un biomarcador en otras poblaciones o estado clínico y la comparación de biomarcadores de la competencia. Hemos demostrado que estas dos aplicaciones de SurvExpress comparar el rendimiento de un biomarcador de cáncer de mama en varios conjuntos de datos, incluyendo los grados de tumor, y la determinación de la mejor biomarcador de dos biomarcadores alternativos de cáncer de pulmón. Llegamos a la conclusión de que SurvExpress es una herramienta web valioso y mundial y base de cáncer con resultados clínicos diseñados para evaluar rápidamente los biomarcadores de expresión génica.