Extracto
En la última década, el tratamiento optimizado para el cáncer de pulmón de células no pequeñas tenían lugar a un mejor pronóstico, pero la supervivencia global es todavía muy corto. Para una mejor comprensión de las bases moleculares de la enfermedad que tenemos para identificar biomarcadores relacionados con la supervivencia. A continuación se presenta el desarrollo de una herramienta en línea adecuado para el tiempo real meta-análisis de microarrays de datos publicados cáncer de pulmón para identificar biomarcadores relacionados con la supervivencia. Se realizaron búsquedas en los repositorios caBIG, GEO y TCGA para identificar las muestras con los datos de expresión génica publicados e información supervivencia. El análisis de regresión de Cox univariante y multivariante, la trama de supervivencia de Kaplan-Meier con el cociente de riesgos instantáneos y el valor de rango logarítmico P se calculan y se representa en R. La herramienta de análisis completo se puede acceder en línea en: www.kmplot.com/lung. Todos juntos 1.715 muestras de diez conjuntos de datos independientes se integraron en el sistema. Como muestra, se utilizó la herramienta para validar 21 biomarcadores de supervivencia asociada previamente publicados. De éstos, la supervivencia fue mejor predicha por CDK1 (p & lt; 1E-16), CD24 (p & lt; 1E-16) y CADM1 (p = 7E-12) en los adenocarcinomas y por CCNE1 (p = 2.3E-09) y VEGF ( p = 3.3E-10) en todos los pacientes con CPNM. genes adicionales se correlacionaron significativamente con la supervivencia incluyen RAD51, CDKN2A, OPN, EZH2, ANXA3, ADAM28 y ERCC1. En resumen, hemos establecido una base de datos integrada y una herramienta en línea capaz de análisis uni y multivariante para
in silico
validación de nuevos biomarcadores candidatos en el cáncer de pulmón de células no pequeñas
Visto:. Győrffy B, P Surowiak, Budczies J, Lánczky a (2013) Supervivencia en línea del software de análisis para evaluar el valor pronóstico de los biomarcadores Uso Transcriptomic de datos en células no pequeñas de cáncer de pulmón. PLoS ONE 8 (12): e82241. doi: 10.1371 /journal.pone.0082241
Editor: P. Srikumar Chellappan, H. Lee Moffitt Centro de Cáncer & amp; Research Institute, Estados Unidos de América
Recibido: 27 Julio, 2013; Aceptado: 22 Octubre 2013; Publicado: 18 de diciembre 2013
Derechos de Autor © 2013 Győrffy et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Los autores trabajo fue apoyado por la subvención OTKA 83154 PD, por el proyecto Predict (concesión no. 259303 de la Health.2010.2.4.1.-8 llamamiento de la UE) y por la concesión de KTIA U_BONUS_12-1-2013-0003. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
a pesar de que las opciones de tratamiento del cáncer de pulmón han mejorado significativamente en la última década que lleva a una mejor supervivencia para los pacientes con todas las etapas de la enfermedad, que sigue liderando las muertes relacionadas con el cáncer en los Estados Unidos con 160 mil muertes cada año [1 ]. Con aproximadamente 85% de todos los casos el tipo más común de cáncer de pulmón es el cáncer no microcítico de pulmón (NSCLC), que incluye adenocarcinoma, carcinoma de células escamosas, carcinoma de células grandes, carcinoma bronquioloalveolar y [2]. De manera similar a otras entidades de cáncer que podemos esperar nuevos subtipos moleculares que surjan en el futuro, como ahora es bien aceptado que la microscopía de luz histológico basado en la subdivisión utiliza sólo una de las muchas manifestaciones fenotípicas de los cambios genéticos que subyacen en el desarrollo del cáncer de pulmón [2].
la identificación de genes cuya expresión alterada se asocia con diferencias de supervivencia podría encerrar el conocimiento para identificar aquellas que podrían servir como indicadores de estado biológico del tumor. En esencia hay dos escenarios posibles: por ejemplo biomarcador puede ser o bien un gen individual o una firma que comprende un conjunto de genes. Mientras que numerosos genes individuales asociados con la supervivencia se han publicado en los últimos treinta años, los nuevos modelos de pronósticos moleculares de múltiples genes basados en microarrays utilizando firmas genómicas sólo han surgido en los últimos diez años [3], [4], [5], [6] , [7], [8], [9], [10], [11], [12], [13], [14], [15], [16], [17], [18], [ ,,,0],19]. Un pre-requisito para la reproducibilidad de tales firmas genómicas es la disponibilidad de datos en bruto, que sólo está garantizada por las publicaciones de los últimos seis años [9], [10], [11], [12], [13], [ ,,,0],14], [15], [16], [17], [18]. Sorprendentemente, en dos casos no es la firma en su conjunto, pero los genes como marcadores de pronóstico importantes cada uno de forma individual han sido identificadas [15], [19].
El descubrimiento inicial de un marcador pronóstico debe ser seguido por varios validación estudios. Entonces, los resultados de estos se sintetizan habitualmente en un meta-análisis que incluye un gran número de preferiblemente más de mil pacientes. Aquí, mediante la unión de los datos relevantes de varios estudios, la potencia estadística se incrementa y estimaciones más precisas se puede lograr. Varios meta-análisis anteriores se esforzaron para llevar a cabo un meta-análisis de estudios previos para tales genes candidatos solitarios incluyendo VEGF [20], MMP9 [21], ciclina E [22], la survivina [23] y CDK1 [24].
a continuación, hemos integrado los conjuntos de datos disponibles a nivel de transcriptómica genoma y luego utiliza esta base de datos para llevar a cabo un meta-análisis de supervivencia sugerido previamente asociado biomarcadores candidatos. También hemos creado un portal global para tales meta-análisis que permite la validación de nuevos candidatos expresa y sin esfuerzo bioinformático a gran escala en un marco automatizado.
Materiales y Métodos
Construcción de la base de datos de microarrays cáncer de pulmón
exploró el cáncer de red Informática Biomédica (caBIG, http://cabig.cancer.gov/, muestras de microarrays se publican en el proyecto caArray), el gene Expression Omnibus (GEO, http: //www. ncbi.nlm.nih.gov/geo/) y Atlas del Genoma del cáncer (TCGA, http://cancergenome.nih.gov) para identificar los conjuntos de datos de cáncer de pulmón utilizando las palabras clave "pulmón", "cáncer", "células pequeñas" "NSCLC", "supervivencia", "GPL96", "GPL3921" y "GPL570" (y los nombres alternativos de las plataformas de microarrays). La búsqueda se limitó a las publicaciones con los datos de microarrays de expresión génica de forma simultánea disponibles y las características clínicas publicadas, incluyendo la supervivencia. Para probar la aleatoriedad, se realizó una prueba de los rangos de pares para los datos clínicos recogidos incluyendo edad, sexo, antecedentes de tabaquismo, la histología, estadio, el grado, el éxito de la cirugía, la radioterapia y la quimioterapia aplicada para todos los pacientes en WinStat 2013. Para la prueba de los rangos de pares, las muestras se clasificaron en primer lugar según los conjuntos de datos. A continuación, cada muestra ( "X") en la serie se comparó con todos los valores que se producen más tarde en la lista de todas las muestras ( "Y") - asumiendo la aleatoriedad, la probabilidad de X & gt; Y es 1/2. Las correlaciones entre las variables clínicas y la supervivencia fueron investigados y gráficos de Kaplan-Meier para éstos se representaron usando WinStat 2013. Entre las diferentes plataformas de microarrays, Affymetrix HG-U133A (GPL96), HG-U133 Plus 2.0 (GPL570) y HG-U133A 2.0 ( GPL3921) fueron incluidos, ya que estos se utilizan con regularidad y porque estas matrices tienen 22,277 sonda fija en común. El uso de los mismos conjuntos de sonda permite medir el mismo gen con una precisión similar, escala relativa y el rango dinámico.
Para evitar posibles sesgos debido a errores de matriz, hemos llevado a cabo un control de calidad para todas las matrices. En esto, el fondo (entre 19 y 218), el Q prima (entre 0,5 y 14), el porcentaje de llamadas presentes (más de 30%), la presencia de bioB- /C- /D- picos, la GAPDH 3 ' a 'relación (por debajo de 4,3) y la beta-actina 3' 5 relación a 5 '(por debajo de 18) fueron controlados. Los valores umbral corresponden a la gama de 95% de las matrices como se ha descrito anteriormente [25]. El control de calidad no era posible que GSE4573 que para este conjunto de datos sólo los datos normalizado MAS5 estaba disponible. Un filtrado fue añadido a la base de datos para excluir las matrices potencialmente sesgados. Además, se compararon todos los archivos de microarrays utilizando la expresión de todos los genes clasificados para detectar microarrays de re-publicado en diferentes estudios.
Puesta en marcha del servidor para la supervivencia en línea cálculo
Los archivos unprocessed.CEL MAS5 se normalizó en el medio ambiente: R (http://www.r-project.org) utilizando la biblioteca simpleaffy (http://bioinformatics.picr.man.ac.uk/simpleaffy/). Hemos seleccionado MAS5 para la normalización ya que se clasificó entre los mejores métodos de normalización cuando se contrasta con los resultados de las mediciones de RT-PCR en nuestro estudio anterior [26]. Por otra parte, MAS5 se puede aplicar a las matrices individuales, lo que permite futuras ampliaciones sin soldadura de la base de datos. Para la base de datos completa, se conservaron sólo las sondas comunes medidos en las tres plataformas de gama (n = 22.277). Entonces, un segundo normalización de escala se realizó para centrar la expresión media de cada matriz a 1,000 - esta técnica puede reducir significativamente los efectos de lote. La expresión de genes y datos clínicos se integraron usando PostgreSQL, un sistema de base de datos objeto-relacional de código abierto (http://www.postgresql.org/).
Para evaluar el valor pronóstico de un gen, cada percentil (de expresión) entre los cuartiles inferior y superior se calcularon y se utilizó el umbral de mejor rendimiento como punto de corte final en un análisis de regresión de Cox univariante. Histología, grado, estadio, el sexo y los antecedentes de tabaquismo se pueden utilizar en el análisis multivariante. Sin embargo, el análisis multivariado utiliza menos pacientes como el análisis univariado porque no cada paciente tiene toda la información clínica. De Kaplan-Meier de supervivencia parcela y la razón de riesgo con intervalos de confianza del 95% y el valor de rango logarítmico P se calcularon y se representaron en I usando la función "survplot" del paquete Bioconductor "supervivencia". La secuencia de comandos R utilizado por el software para realizar el análisis de Kaplan-Meier y para identificar el mejor punto de corte se encuentra disponible como secuencia de comandos R S1.
La vía computacional entera se hace accesible para el reanálisis en una plataforma independiente en línea disponibles software que se ejecuta en un servidor Debian Linux (http://www.debian.org) basado en Apache (http://www.apache.org). Las secuencias de comandos en el lado del servidor se han desarrollado en PHP, éstos controlan la interfaz de usuario, las solicitudes y la entrega de los resultados. El paquete RODBC proporciona una capa de middleware entre R y la base de datos PostgreSQL. Esta plataforma se puede llegar en internet a través de http://www.kmplot.com/lung.
La validación de biomarcadores previamente publicado supervivencia asociada
Una búsqueda en PubMed se realizó para identificar la supervivencia del cáncer de pulmón biomarcadores asociados utilizando todas las combinaciones de las palabras clave "cáncer de pulmón", "NSCLC", "adenocarcinoma", "carcinoma de células escamosas", "supervivencia", "expresión génica", "firma" y "meta-análisis". Sólo se incluyeron los estudios publicados en Inglés. Los criterios de elegibilidad incluyen también las investigaciones del biomarcador en al menos 50 pacientes - biomarcadores descritos en modelos experimentales solamente se omitieron. Para cada gen /firma las condiciones exactas en las que se identificó se han recuperado, y éstos se han utilizado como el filtrado de la selección de los pacientes para el análisis de supervivencia.
Para visualizar el rendimiento de los diversos biomarcadores en conjuntos de datos incluyendo diferente número de pacientes, hemos generado gráficos de embudo que representan la razón de riesgo (y los intervalos de confianza) en el eje horizontal respecto al tamaño de la muestra en el eje vertical para cada conjunto de datos. También hemos añadido una opción para la interfaz en línea para realizar simultáneamente el análisis en cada uno de los conjuntos de datos individuales. Por último, la significación se fijó en p & lt; 0,01
Resultados
Construcción de la base de datos de microarrays cáncer de pulmón combinado
Se identificaron todos juntos 1.715 pacientes, 1.120 en siete conjuntos de datos GEO, 133. pacientes en TCGA y 462 pacientes en caArray. No hubo muestras publicados repetidamente. Una muestra (GSM370984) no dos parámetros en el control de calidad - esta matriz se excluyó de todos los análisis. Además, en 215 matrices de un parámetro estaba fuera del rango de 95% de todas las matrices - estas matrices pueden ser excluidos de los análisis seleccionando la opción "excluir a las matrices de valores atípicos" en la interfaz de línea. La supervivencia global fue publicado por 1.405 pacientes y se publicó tiempo hasta la primera progresión de 764 pacientes. Hemos recogido la edad, sexo, historia de tabaquismo, la histología, estadio, el grado, el éxito de la cirugía, la radioterapia y la quimioterapia aplicada para todos los pacientes - ninguno de estos parámetros fue significativa en el test de rangos pares indicando una distribución aleatoria de los datos. Un resumen de estas propiedades clínicas para cada conjunto de datos utilizado se presenta en la Tabla 1. La supervivencia de los pacientes estratificados según el subtipo, género, historia de tabaquismo y la etapa se presenta en la Figura 1.
Set -up de la plataforma de análisis de supervivencia en línea en
Hemos empleado parcelas de Kaplan-Meier para visualizar la asociación entre el gen bajo investigación y la supervivencia. Antes del análisis, los pacientes fueron filtradas utilizando los parámetros clínicos disponibles para incluir sólo aquellos pacientes en los que la relevancia del gen debe evaluarse. Además de las opciones de filtrado específicos para los parámetros clínicos, hemos implementado un algoritmo que incluye el uso de todos los percentiles entre el cuartil inferior y superior para identificar el mejor punto de corte de realizar.
Para nuestro conocimiento, desarrollo actual es el primer sistema que permite en tiempo real el análisis multivariado de la supervivencia de los genes en las cohortes de transcriptómica disponibles.
La validación de biomarcadores con CPNM previamente publicados
Se identificaron 21 previamente publicados de supervivencia asociada genes individuales y 7 de genes firmas de expresión (aparece en el cuadro S1 ). Cada uno de estos candidatos de biomarcadores se investigaron en una cohorte con características clínicas similares a los de los pacientes en los que se describieron originalmente. Para los genes medidos por varios conjuntos de sondas en los microarrays, los que tienen la más alta calidad fueron utilizados (alta calidad: la expresión media de 500 o la expresión máxima de más de 1000, la baja calidad: la expresión promedio por debajo de 100, intermedios: todas las otras sondas). En caso de que haya varias sondas de alta calidad, entonces se utilizó el mejor rendimiento. Los resultados del análisis se presentan en la Tabla 2 y la Figura 2.
El metanálisis de estos genes y de las firmas en la respectiva cohorte muestra arrojó CCNE1, CDC2 y CADM1 como los de mejor desempeño genes individuales (A-C) y la firma de Yamauchi et al. (RE). Un gráfico de embudo que representa las razones de riesgo (con intervalos de confianza) frente al número de muestras para CDC2 y VEGF muestra una estimación más fiable con el tamaño de las bases más grandes (E-F).
Discusión
la importancia de biomarcadores de cáncer se pone de relieve por el éxito del gen HER2 en cáncer de mama. La expresión de alto HER2 fue primero un marcador de peor supervivencia, pero la introducción de la terapia anti-HER2 dirigida cambiado la imagen:. Hoy pacientes HER2 positivos tienen un mejor pronóstico en comparación con las mujeres con enfermedad HER2 negativo [27]
Aquí , mediante el uso de una base de datos integrada de los diez conjuntos de datos previamente publicados transcriptómica, se validó la asociación con la supervivencia de un conjunto de genes en el cáncer de pulmón de células no pequeñas. En general, se encontró que las asociaciones más fuertes para los que también investigado en un metanálisis anterior (VEGF, CCNE1 y CDK1). Para todos estos genes expresión más alta se asoció con una supervivencia más corta. Con más de 5.000 pacientes, el meta-análisis de VEGF [20] emplea el mayor número de pacientes - nuestro análisis también confirmó la correlación de la expresión de VEGF y la supervivencia global en pacientes con CPNM por tanto univariante y multivariante. La importancia de VEGF es debido a la disponibilidad de agentes dirigidos inhiben directamente su activación. Curiosamente, para uno de los genes (CDK1) un meta-análisis anterior en realidad rechazó una correlación entre el gen y la supervivencia [24]. En contraste, nuestros resultados representan una validación independiente a gran escala del gen. En los genes individuales, sólo unos pocos se asociaron con una mayor supervivencia cuando se muestra una expresión más alta - estos incluyen CADM1, ANXA3, ADAM28, XIAP y XAF1. Future focalización terapéutica de estos sólo será posible utilizar un enfoque diferente que para la mayoría de los genes en los que una mayor expresión da lugar realmente a una supervivencia más corta
.
Después de la cirugía, alrededor de dos tercios de las recidivas de la enfermedad en etapa temprana se producen en sitios distantes . Por lo tanto, la erradicación de la micrometástasis debe tener una alta prioridad tan pronto como sea posible. Un metaanálisis previo de todos los ensayos que investigaron los beneficios de la quimioterapia demostró una mejora del 5% en la supervivencia global [28]. Esta ventaja de supervivencia con quimioterapia también se mantuvo a 9 años de seguimiento. Por estas razones, el uso de la quimioterapia adyuvante es el tratamiento estándar actual para pacientes con NSCLC etapa temprana. En nuestro sistema de análisis que hemos integrado el uso de la quimioterapia para permitir la validación de los genes específicamente relacionados con la supervivencia en pacientes tratados con quimioterapia.
Un factor etiológico importante para el cáncer de pulmón es el tabaquismo, que representa casi el 85% de todos casos. el desarrollo del cáncer de pulmón es similar a otros tipos de cáncer mediante la participación de una progresión gradual a una transformación maligna impulsado por el efecto conjunto de los cambios genéticos inducidos por carcinógenos inhalados [29]. Al mismo tiempo, el número de nunca antes fumadores pacientes con cáncer de pulmón también está aumentando [30]. La recopilación de nuevos conocimientos sobre el mecanismo subyacente y los factores etiológicos en estos pacientes es necesario comprender mejor la enfermedad y para desarrollar nuevas estrategias de tratamiento [2]. En nuestra base de datos que teníamos la historia de tabaquismo de 1.042 pacientes (187 de éstos no fumador) y la herramienta metaanálisis también se incluye la opción de restringir a cualquiera fumador en cohortes que no fumaban de pacientes. las opciones de filtrado adicionales incluyen el uso de género (los datos están disponibles para los 1.564 pacientes) y puesta en escena (697 pacientes). Las combinaciones de estas opciones permiten validar biomarcadores candidatos en sub-cohortes que tienen un tamaño no alcanzado por cualquiera de los anteriores estudios individuales.
Con anterioridad, dentro del proyecto reto de los directores para el adenocarcinoma de pulmón, el uso combinado de clínica y información de la expresión génica realiza mejor para predecir el pronóstico [17]. El análisis multivariante en el software en línea permite comparar las variables clínicas y moleculares. Desafortunadamente, no toda la información clínica se publica para cada paciente - esto limita considerablemente el potencial de cualquier análisis multivariado incluyendo ambas variables clínicas y de expresión de genes
También se debe mencionar algunos problemas con meta-análisis que pudiera afectar a su validez. - éstos incluyen los sesgos relacionados con la selección de los pacientes, a la heterogeneidad clínica, a diferentes medidas de resultado, con las técnicas metodológicas y estadísticas [31]. Una opción para la prueba de sesgos está trazando el tamaño de la muestra contra el tamaño del efecto, ya que es generalmente desigual y asimétrica en presencia de un sesgo [32]. Básicamente, sin sesgo, la mayor variación se debe observar la mayoría de los estudios pequeños y menos en los grandes estudios. Este es el concepto del gráfico en embudo original que hemos empleado para demostrar la correlación entre las tasas de riesgo y tamaño de las muestras de dos genes seleccionados. Hemos añadido una opción de análisis de nuestra herramienta para ejecutar los cálculos en cada conjunto de datos por separado para permitir la rápida construcción de este tipo de análisis para cualquier gen.
Por último, también hemos evaluado previamente publicados firmas de expresión génica para predecir la supervivencia. Hoy en día, la aplicación clínica de las firmas de múltiples genes es todavía controvertida, ya que muchos de ellos lo hacen el pronóstico no superan usando parámetros convencionales. Aquí, de siete firmas, dos eran capaces de predecir la supervivencia en la etapa I [13], y en todos los pacientes con NSCLC [14].
En resumen, mediante la utilización de todo el genoma de microarrays conjuntos de datos publicados en los últimos cinco años, se han integrado con éxito una base de datos a gran escala adecuada para el
in silico
validación de biomarcadores candidatos en el cáncer de pulmón de células no pequeñas.
Apoyo a la Información sobre Table S1. List de genes implicados en conjuntos de genes previamente publicados
doi:. 10.1371 /journal.pone.0082241.s001 gratis (XLS)
R script S1. guión
R utilizado para generar de Kaplan-Meier parcelas
doi: 10.1371 /journal.pone.0082241.s002 gratis (R)