Extracto
Antecedentes
integración de datos pública puede ayudar a superar las dificultades en la aplicación clínica de los perfiles de microarrays. Hemos integrado varios conjuntos de datos de cáncer de ovario para identificar un predictor reproducible de supervivencia.
Metodología /Principales conclusiones
Cuatro conjuntos de datos de microarrays de diferentes instituciones que comprenden 265 tumores en etapas avanzadas se vuelven a procesar de manera uniforme en un solo conjunto de datos de entrenamiento, también ajuste por la variación entre laboratorios ( "batch-efecto"). Se empleó el análisis de supervivencia de componentes principales supervisado para identificar los modelos de pronóstico. Los modelos fueron validados de forma independiente en una cohorte de 61 pacientes mediante un GeneChip matriz personalizada y un 229-array de datos a disposición del público. correspondencia molecular de los grupos de efectos-alto y bajo riesgo entre la formación y la validación de datos se demostró utilizando Mapeo Subclase. Previamente establecido fenotipos moleculares en el 2
nd conjunto de validación se correlacionaron con los grupos de efectos de alto y bajo riesgo. Se utilizó un análisis representativo y funcional vía para explorar las redes de genes asociados con fenotipos alto y bajo riesgo. Un modelo de 19 genes mostró un rendimiento óptimo en el conjunto de entrenamiento (mediana de SG 31 y 78 meses, p & lt; 0,01), 1
conjunto de validación st (mediana de SG de 32 meses frente al que aún no es alcanzado-; p = 0,026) y 2
nd conjunto de validación (mediana de SG 43 frente a 61 meses, p = 0,013) mantener el poder pronóstico independiente en el análisis multivariante. Hubo una fuerte correspondencia molecular de los respectivos tumores de alto y bajo riesgo entre la formación y el conjunto de validación 1
st. Los tumores de bajo y de alto riesgo fueron enriquecidos para los subtipos moleculares y las vías favorables y desfavorables, previamente definido en el
conjunto pública 2ª validación.
Conclusiones /Importancia
cáncer
Integración de la generada con anterioridad microarrays de datos pueden llevar a robustos y ampliamente aplicables predictores de supervivencia. Estos predictores no son simplemente una recopilación de los genes de pronóstico, pero parecen un seguimiento de los fenotipos moleculares verdaderos de bueno- y pobres en resultados
Visto:. Konstantinopoulos PA, Cannistrà SA, Fountzilas H, Culhane A, K Pillay, Rueda B , et al. (2011) Análisis integrado de varios conjuntos de datos de microarrays identifica un reproducible Supervivencia Predictor del cáncer de ovario. PLoS ONE 6 (3): e18202. doi: 10.1371 /journal.pone.0018202
Editor: Chad Creighton, Baylor College of Medicine, Estados Unidos de América
Recibido: 17 Noviembre 2010; Aceptado: February 23, 2011; Publicado: 29 Marzo 2011
Derechos de Autor © 2011 Konstantinopoulos et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este estudio contó con el apoyo a través de la (concesión de carrera Desarrollo de Dimitrios Spentzos, y el Proyecto de 4 a Daniel Cramer /Stephen Cannistrà) NIH /NCI P50CA105009 cáncer ovárico SPORE, el Programa de Formación de Investigación clínica, Beth Israel Deaconess Medical Center y de la División Harvard-MIT de Ciencias de la Salud y tecnología, Boston, a Panagiotis Konstantinopoulos, el Fondo Shopkin Weisman Bernice, el Fondo de Investigación del cáncer ovárico en memoria de Amy Simon Sachs, el Fondo de LeAnn, y las hermanas contra el cáncer ovárico. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
cáncer de ovario
epitelial (EOC) presenta un ejemplo de la promesa y retos de la utilización de análisis de microarrays para la investigación de biomarcadores de pronóstico. Sobre la base de su curso clínico muy heterogéneo [1], [2], [3] (incluso dentro de EOC avanzada, lo que representa más del 70% de los casos) y el poder discriminatorio modesta de los factores pronósticos convencionales (cantidad de enfermedad residual después de la cirugía inicial, la edad, el grado del tumor, e histológico subtipo [1], [4], [5]), los estudios de microarrays se persiguió en un intento de dar cuenta de la complejidad molecular y biológica de la enfermedad [6], [7], [8] , [9], [10]. Sin embargo, ninguno produjo una expresión genética que ha sido apropiado para uso clínico. Esto se debe en gran parte a, entre otras razones, de tamaño variable o pequeña muestra, la falta de una adecuada validación, o de inclusión de subtipos (células claras, papilar, mucinoso COE), que constituyen entidades moleculares distintas [11]. Mientras que en conjunto estos estudios pueden ser suficientes para identificar las firmas útiles, la combinación de datos o los resultados analíticos es difícil por muchas razones, incluyendo el uso de una variedad de plataformas de gama, diferentes enfoques de normalización y análisis de datos, y la variabilidad en los protocolos experimentales y selección de los pacientes. Finalmente, en muchos casos no está claro si las firmas de pronóstico reflejan fenotipos de la enfermedad estable reproducibles o son simplemente una combinación de genes de pronóstico. Estas limitaciones, que no son únicos para el cáncer de ovario, demuestran los desafíos que limitan la aplicación de las firmas de microarrays en el tratamiento del cáncer y la investigación, especialmente en los cánceres con mayor disponibilidad limitada de recursos de tejidos apropiados.
En un esfuerzo por abordar estos retos, hemos reunido, curada, y procesado una colección de 265 genes en bruto arrays de expresión a partir de cuatro informó anteriormente estudios de ovario cáncer de microarrays [10], [12], [13], [14] la aplicación de la normalización coherente de datos, control de calidad y análisis métodos. Un modelo multi-gen fue identificado en este conjunto compuesto que luego fue validado de forma independiente en dos cohortes tumorales separados, uno de los cuales fue perfilado en un GeneChip matriz personalizada y el otro era un estándar a disposición del público oligonucleótido gama de datos [15]. Por último, hemos demostrado que este modelo de múltiples genes no es simplemente pronóstico de resultado, sino que refleja reproducibles fenotipos de cáncer de ovario y parece seguir simultáneamente la desregulación de varias vías biológicas o oncogénicos en esta enfermedad.
Resultados
Desarrollo de múltiples genes clasificadores de pronóstico en la formación integrada creada
la figura 1 muestra el flujo de trabajo de nuestro estudio (diagrama consorte). Se diseñó un chip de genes de matriz personalizada que incluía aproximadamente 650 superiores realizar genes candidatos identificados mediante la aplicación del análisis de supervivencia de componentes principales supervisada en cada uno de los cuatro conjuntos de datos previamente comunicados. A continuación, se combinaron los cuatro conjuntos de datos de microarrays en un conjunto de entrenamiento compuesta (con exclusión de 39 muestras de valores atípicos), que consistía en 239 matrices tumorales (Tabla 1, Figura 1). La agrupación jerárquica en el conjunto de entrenamiento combinado reveló que, antes de la aplicación del algoritmo de ajuste por lotes, cada conjunto de datos claramente separados de todas las otras que reflejan la variación experimental no biológico ( "efecto de lote"), mientras que después del ajuste para el efecto por lotes, muestras de tumores de todos conjuntos de datos fueron bien mezclados (Figura 2).
archivos de datos en bruto (Affymetrix CEL) de cuatro informes anteriores se utilizaron microarrays de datos de diferentes instituciones. Las muestras fueron excluidos de valores atípicos y efecto lote se ajustó resultante en el conjunto de entrenamiento final (239 matrices). 650 genes fueron seleccionados mediante la realización de análisis de supervivencia en cada conjunto de datos y se utilizaron para desarrollar modelos de pronóstico en el conjunto de entrenamiento final. Los datos pre-procesamiento (control de calidad y el ajuste por lotes) y la normalización resulta en un conjunto integrado de formación se realizó por separado de la selección de los 650 genes, los cuales fueron escogidos de forma independiente por el análisis de supervivencia de realizar en cada uno de los 4 conjuntos de datos (MD Anderson, Penn, DUKE , BIDMC). Estos preseleccionados 650 genes fueron utilizados para desarrollar modelos de pronóstico en el entrenamiento conjunto unificado. Estos modelos fueron validados de forma independiente en dos conjuntos de datos independientes: una cohorte de 61 tumores utilizando una matriz personalizada que contiene los genes preseleccionados 650 y un 229 a un tumor de ovario recientemente publicado microarrays cáncer de conjunto de datos. La correspondencia de los fenotipos de bajo y alto riesgo se evaluó mediante Submap.
El escalamiento multidimensional del conjunto de entrenamiento combinado reveló que, antes de la aplicación del algoritmo de ajuste por lotes, cada conjunto de datos claramente separada de toda la otros ( "efecto de lote"), mientras que después de la corrección del efecto de lotes, muestras de todos los conjuntos de datos estaban bien entremezclada.
posteriormente utilizamos la piscina de los 650 genes marcadores (sin el conocimiento de su el rendimiento de la matriz de medida) con el fin de generar múltiples genes clasificadores de pronóstico en el conjunto de entrenamiento combinado. Los genes asociados con la supervivencia (p & lt; 0,05) se clasifican en base a sus absolutos coeficientes de regresión de Cox, y modelos de pronóstico con el primer puesto genes se desarrollaron utilizando supervisó el análisis de supervivencia de componentes principales [16]
Dado que nuestro objetivo era. desarrollar oligogene firmas de pronóstico que identificó por primera modelos con el menor número de genes que podrían proporcionar información pronóstica en el conjunto de entrenamiento integrado. Los modelos con tan sólo 2 genes distinguidos entre un grupo de bajo riesgo y alta para la supervivencia en el conjunto de entrenamiento combinado (HR = 1,7; p = 0,003). A continuación, se evaluaron los modelos con mayor número de genes en el conjunto de entrenamiento y se dio cuenta aumentado progresivamente cocientes de riesgo (CR) hasta que no hubo una meseta, con SHR estables, estadísticamente significativas entre los 14 y los 19 genes (es decir, HR = 2.1-2.3, p & lt; 0,001). De estos modelos, el modelo 19-gen mostró el mejor rendimiento de pronóstico, como es evidente por su razón de riesgo mayor en comparación con los otros. El mejor modelo de pronóstico (19 genes, Tabla 2) se distingue entre un grupo de bajo riesgo alto y (mediana de SG 31 y 78 meses, respectivamente, log rank p & lt; 0,01, la permutación p = 0,02) (Figura 3)
el modelo 19-gen distinguido entre un grupo de bajo riesgo alto y en el conjunto de entrenamiento con una mediana de SG de 31 meses y 78 meses, respectivamente (log rank p & lt; 0,01, permutación p = 0,02), una alta y una baja -Riesgo grupo para el sistema operativo en el 1
er conjunto de validación (mediana de SG de 32 meses frente a que aún no es alcanzado, respectivamente, log rank p = 0,026), y un grupo de bajo riesgo y alta para el sistema operativo en el segundo conjunto de validación (mediana de SG de 43 meses frente a 61 meses, respectivamente, log rank p = 0,013).
La validación independiente de los clasificadores de pronóstico de múltiples genes
El 19-gen pronóstico clasificador se aplicó sin ninguna modificación adicional al conjunto de validación 1
er que incluía datos de expresión obtenidos de una cohorte independiente de la etapa avanzada de cáncer de ovario (Tabla 1, n = 61), utilizando nuestra matriz personalizada que contiene los 650 genes seleccionados previamente; estos genes habían sido seleccionados sin conocimiento previo acerca de su desempeño pronóstico en el conjunto de validación. El modelo 19-gen distinguido entre un máximo y un grupo de bajo riesgo (mediana de SG de 32 meses frente aún no alcanzó-respectivamente, log rank p = 0,026, a los 33 meses de seguimiento medio, Figura 3). Es de destacar que cuando priorizamos los 19 genes en función de su correlación con los principales componentes del conjunto de datos o el peso de su contribución al modelo, incluyendo los clasificadores 8-19 parte superior genes fueron también válida para el pronóstico en el 1er conjunto de validación (Texto S1 ).
el clasificador pronóstica 19-gen también se aplicará sin ninguna modificación adicional al segundo conjunto de validación que incluía datos de expresión a partir de 229 cánceres de ovario (Tabla 1, n = 229). Una vez más, el modelo 19-gen distingue entre un máximo y un grupo de bajo riesgo (mediana de SG de 43 meses frente a 61 meses, respectivamente, log rank p = 0,013, Figura 3). Al igual que en el conjunto de validación 1
st, cuando priorizamos los 19 genes en función de su correlación con los principales componentes o su peso de contribución al modelo, incluyendo los varios clasificadores 8-19 parte superior genes fueron también válida para el pronóstico en el segundo conjunto de validación (Texto S1).
Es importante destacar que intentamos reproducir el poder pronóstico de las dos firmas se informó anteriormente, a partir de los conjuntos de datos BIDMC y Duke, respectivamente [6], [10]. Ni firma era reproducible en cualquiera de los dos conjuntos de validación independientes (Texto S1). Razonando que esto puede ser debido a diferentes algoritmos de análisis aplicadas en los estudios anteriores, hemos intentado construir nuevas firmas usando el método de supervivencia de componentes principales supervisada por separado en cada uno de los 4 conjuntos de datos que componen el conjunto de entrenamiento integrado. Una vez más, ninguna de estas firmas se pudo validar en cualquiera de los dos conjuntos independientes (Texto S1). Estas observaciones ponen de relieve el valor de la integración de múltiples conjuntos de datos de expresión con el fin de obtener las firmas ampliamente reproducibles.
importancia pronóstica independiente del clasificador ajustado por factores pronósticos clínicos y patológicos conocidos
Se realizó un análisis multivariante y formalmente estableció que el modelo 19-gen mantuvo la significación pronóstica independiente, ajustados por factores de confusión, tanto en los dos conjuntos independientes de validación (Figura 4A y Tabla 3) formación y. En concreto, la razón de riesgo (HR) de la muerte de la desfavorable frente al grupo favorable fue 2,47 en el conjunto de entrenamiento (IC del 95%, 1,71 a la 3,56; p & lt; 0,01), 2,2 en el 1
conjunto de validación st (95% CI, 1,01 a la 7,76; p = 0,04), (Figura 4A) y 1,59 en el 2
nd conjunto de validación (IC del 95%, 01/05 a 02/04; p = 0,03), (Tabla 3). Debido a que sólo 8/229 (3%) de los tumores eran conocidos para ser definitivamente con citorreducción subóptima en el 2
nd conjunto de validación, el estado de reducción de volumen se incluyó en el análisis multivariante de la
nd validación 2 fijado como "groseramente visibles "frente a" ninguna "enfermedad residual visible después de la cirugía. Cabe destacar que el valor pronóstico independiente del perfil celebrado cierto independientemente de si nota baja se definió como grado 1 o de grado 1 y 2 de la enfermedad (Tabla 3).
A) Valor pronóstico del perfil de expresión génica de 19 ajustado por factores pronósticos conocidos por regresión de riesgos proporcionales de Cox en el entrenamiento y validación de sistemas 1
st. B) Análisis de Kaplan-Meier para el sistema operativo como una función del perfil de 19 genes para subconjuntos homogéneos de pacientes con estado óptimo y subóptimo de reducción de volumen en el conjunto de entrenamiento. C) La combinación de citorreducción óptima y de bajo riesgo el perfil de 19 genes se asoció con una mediana de SG de 119 meses en el conjunto de entrenamiento y que aún no han alcanzado en el conjunto de validación, mientras que la combinación de citorreducción subóptima y de alto riesgo 19 perfil -Gene se asoció con una mediana de SG de 23 meses en el conjunto de entrenamiento (HR = 7,3 IC 95% 3,4-13,5) y 21 meses en el
1 st conjunto de validación (HR = 5,8; IC del 95% 2.1- 16).
los datos de respuesta a la quimioterapia estaban disponibles sólo para el 1er conjunto de validación. Cuando incluimos respuesta a la quimioterapia (es decir, el logro de una respuesta clínica completa (CCR) después de la primera línea de quimioterapia versus ningún logro de CCR) en el análisis multivariado para el 1er conjunto de validación, el perfil de 19 genes mantuvo su importancia pronóstica independiente (HR = 3,96, IC del 95% 1,56 a 10,1;. p = 0,004)
Figura 4B muestra también que el perfil 19-gen era todavía pronóstico de OS cuando se aplica en los subconjuntos homogéneos de pacientes con estado óptimo y subóptima de reducción de volumen en la formación conjunto. Este subconjunto de análisis no pudo realizarse en el 1
er conjunto de validación, debido a las limitaciones del tamaño de la muestra, y en el
conjunto de validación 2º porque sólo 8/229 tumores (3%), fueron sin duda conocido por estar con citorreducción subóptima .
modelos de expresión génica y el estado de reducción de volumen fueron los más fuertes predictores independientes de la supervivencia; Por lo tanto, estábamos interesados para evaluar su poder pronóstico combinado, que también se muestra en la Figura 4C. En particular, la combinación de citorreducción óptima y de bajo riesgo el perfil de 19 genes se asoció con una mediana de SG de 119 meses en el conjunto de entrenamiento y que aún no han alcanzado en el 1
er conjunto de validación, mientras que la combinación de citorreducción subóptima y de alto riesgo el perfil de 19 genes se asoció con una mediana de SG de 23 meses en el conjunto de entrenamiento (HR = 7,3; IC del 95%: 3,4 a 13,5) y 21 meses en el 1
er conjunto de validación (HR = 5,8, IC 95%: 2,1 a 16) lo que demuestra que la combinación de las dos variables es mucho más potente que cualquiera de ellos individualmente. Esta combinación no puede ser evaluada en el 2
nd conjunto de validación, ya que sólo el 3% de los tumores se conoce definitivamente a ser citorreducción subóptima.
correspondencia molecular de todo el genoma de los grupos de alto y bajo riesgo entre la conjuntos de entrenamiento y validación
Con frecuencia es claro si los modelos de expresión de genes de pronóstico son sustitutos para subyacente fenotipos moleculares o biológicos más amplios, o simplemente una combinación de pronósticos genes individuales. Con el fin de probar la hipótesis de que nuestros modelos de pronóstico son el seguimiento de los fenotipos moleculares de alta en comparación con el cáncer de ovario de bajo riesgo, se utilizó una metodología (subclase Mapping-Submap) que es singularmente adecuado para evaluar la correspondencia molecular de todo el genoma de los subtipos de pre-especificado en conjuntos de datos independientes e incluso técnicamente dispares [17]. En concreto, se investigó si los tumores de bajo riesgo alto o en el entrenamiento combinado expuesto fueron molecularmente homóloga con tumores de bajo riesgo alto o en el 1
er conjunto de validación, por encima y más allá del puñado de genes contenidos en los modelos. Esto se hace mediante la demostración de enriquecimiento del perfil genético del "alto riesgo" (o de "bajo riesgo") grupo en el conjunto de entrenamiento para un gran número de marcadores de genes para el "alto riesgo" (o de "bajo riesgo") del grupo en el conjunto de validación y viceversa. Como se muestra en la Figura 5A, para el modelo de 19 genes, los tumores de alto y bajo riesgo en el conjunto de entrenamiento combinado correspondían con alto grado de certeza estadística con tumores de alto y bajo riesgo, respectivamente, en el conjunto de validación (Tabla S1). Este resultado se reprodujo usando varios subconjuntos de genes marcadores para el modelo de 19-gen.
Análisis Submap de la correspondencia de todo el genoma (similitud) entre los respectivos grupos de alto y bajo riesgo en la formación y 1
st validación conjunto. La leyenda muestra la relación entre el color y los valores p ajustados-FDR. el color rojo indica una alta confianza para la correspondencia; de color azul denota la falta de correspondencia (Tabla S1). B) Análisis funcional de genes y el análisis funcional de representación en las muestras de la enfermedad de alto y bajo riesgo. El análisis conjunto de genes (GSA) a través de una amplia gama de genes expresados diferencialmente reveló 8 vías que fueron consistentemente expresan estadísticamente significativamente diferente. (Efron-Tibshirani GSA, p & lt; 0,05). conjuntos seleccionados vías de genes se muestran que fueron representados entre los tumores de alto riesgo y de bajo riesgo por análisis de representación funcional utilizando EASE (dentro del sistema FDR ≤0.01). Una lista completa de estas vías se encuentra en los cuadros S2, S3 y S4. Los asteriscos (*) indican las vías que son expresados de manera similar en los grupos de pronóstico correspondiente en el 2
nd conjunto de validación.
Para el 2
nd validación de datos, favorables (C3 y C6) y desfavorables (C1, C2, C4, C5) subtipos moleculares de pronóstico ya habían sido definidos por los autores [15]. Por lo tanto, se evaluó si estos subtipos moleculares definidos previamente se reprodujeron en los grupos de bajo y de alto riesgo como se define en nuestro perfil de 19 genes en el 2
nd conjunto de validación (Figura 3). De hecho, en la 2
nd conjunto de validación, el grupo de bajo riesgo (como se define por el perfil de 19 genes) se enriqueció para el subtipos favorable (C6 C3 y) y el grupo de alto riesgo fue enriquecido para los subtipos desfavorables, como se define anteriormente [15] (2 caras exacta de Fisher p = 0,0016).
Pathway análisis en grupos de enfermedades de alto y bajo riesgo
con el fin de comprender mejor la complejidad de la vía de alta y la enfermedad de bajo riesgo, se realizó vía y representacional análisis para identificar las vías comentadas y grupos funcionales de genes que estaban sobrerrepresentados (Avanzado) en los perfiles de genes de las dos categorías de riesgo en el amplio conjunto de entrenamiento (la matriz personalizada, por diseño, contenía demasiado pocos genes para llevar a cabo este análisis en el conjunto de validación).
GSA vía de análisis se realizó sobre una amplia gama de genes expresados diferencialmente entre los grupos de alto y bajo riesgo [utilizando una prueba t p de 0,01 (3264 genes ) hasta un mínimo de 0.0001 (1698 genes)], y reveló ocho vías (Figura 5B), que fueron consistentemente estadísticamente significativa expresados diferencialmente (Efron-Tibshirani GSA test, p. & lt; 0,05)
también realiza funciones de representación análisis utilizando EASE entre los genes que se upregulated y regulados a la baja en las altas frente a los pacientes de bajo riesgo (usando una prueba t p & lt; 10
-6). Encontramos 22 y 54 vías representados entre los genes upregulated y downregulated en los tumores de alto riesgo, respectivamente, en un umbral FDR dentro del sistema de 0,01. Una lista completa de estas vías se encuentra en los cuadros S2, S3 y S4, mientras que las vías seleccionadas se presentan en la Figura 5B.
Curiosamente, varias de estas vías (Figura 5B), que se upregulated en tumores de alto riesgo, es decir, "interacción de citoquinas-receptores de citocinas", "comunicación celular", "interacción ECM-receptor", "invasión patógena", "crecimiento celular", y el bajo riesgo de tumores, es decir, la "diferenciación", también se expresaron de manera similar en el alto y bajo riesgo los tumores se informó anteriormente en el
conjunto 2ª validación [15].
modelos de expresión génica pronóstico reflejan la activación de vías oncogénicas conocidas en muestras de tumores individuales
Dado que la GSA o EASE no pueden asignar el estado de activación de la vía de muestras tumorales individuales, hemos aplicado previamente desarrolló la expresión de genes "lecturas" que resultan de la activación experimentalmente controlada de las vías oncogénicas específicas (src, b-catenina y E2F3) que se ha demostrado que no son de importancia pronóstica en el cáncer de ovario [12]. Descubrimos que en el conjunto de entrenamiento 239-tumoral, los odds-ratios de activación de Src y b-catenina vías en nuestra alta grupo de bajo riesgo frente fueron 3,42 (IC 95% 1,89-6,18) y 2,77 (IC del 95%: 1.59- 4.8) respectivamente, mientras que el odds-ratio para E2F3 fue 0,251 (IC del 95%: 0,141-0,446). Esto es consistente con estudios anteriores que indican que la activación de Src y b-catenina vías están asociados con un mal resultado mientras que la activación de E2F3 se asocia con buenos resultados, e indica que nuestro análisis captura información biológicamente relevante que no es inmediatamente evidente al examinar el contenido de el perfil 19-gen. En el análisis multivariante incluyendo el modelo 19-gen y las 3 vías oncogénicas, el modelo 19-gen mantiene significado pronóstico independiente, mientras que los patrones de activación de las vías oncogénicas no lo hicieron (datos no mostrados).
Discusión
a pesar de la idoneidad de los perfiles de expresión génica para el pronóstico se ha demostrado en el cáncer de ovario [6], [8], [10], varios desafíos deben ser abordados antes de que sea una herramienta útil clínicamente. Anteriores estudios de microarrays de pronóstico fueron limitados por el tamaño de la muestra, la variabilidad entre laboratorios, la falta de enfoques analíticos externa (de estudio) la validación, no estandarizados y la inclusión de subtipos histológicos con perfiles genéticos distintos y resultados (es decir, de células claras, y los cánceres mucinosos) [11 ]. En este estudio describimos una tubería éxito que también puede ser útil para esfuerzos similares en otros tipos de cáncer. Nos vuelve a procesar e integrado los datos en bruto a partir de cuatro separados, previamente generadas microarrays de datos [10], [12], [13], [14] procedentes de diferentes laboratorios y se ejecutan en diferentes plataformas, en un conjunto grande y homogéneo, con exclusión de mucinoso y clara EOC celulares, maximizando de este modo a nuestro alcance para identificar perfiles robustos y reducir al mínimo los resultados positivos falsos. Hemos corregido la variación experimental no biológico ( "efecto de lote") [18], que era claramente evidente en todos los estudios (Figura 2) y compuso una cohorte entrenamiento final de 239 tumores. También se utilizó un método de análisis de supervivencia estandarizada que se compara favorablemente con otros métodos aplicados en los datos de microarrays [16], [19]. El modelo de pronóstico resultante se validó dos veces, en dos conjuntos separados e independientes. Esta es la primera vez, a nuestro conocimiento, para que esto se ha intentado en esta enfermedad. Los tumores incluidos en las dos cohortes de validación se originaron de diferentes instituciones y se llevaron a cabo en diferentes laboratorios y períodos de tiempo que los tumores incluidos en la cohorte de formación combinada. Un chip personalizado se utilizó para el conjunto de validación 1
er, y se utilizó una gran disposición del público el conjunto de datos de todo el genoma como un conjunto 2
nd validación, mientras que las muestras de entrenamiento fueron previamente se ejecutan en diferentes (todo el genoma) plataformas de muchos años anteriores. Además del rigor de este proceso de validación, el uso de conjuntos de datos disponibles al público y de un chip de diseño personalizado minimiza el costo de la introducción de la tecnología de genes de perfiles para la práctica clínica habitual.
Un modelo de 19-gen con pronóstico óptimo el rendimiento en el conjunto de entrenamiento discriminado entre un grupo de bajo riesgo y alta para el sistema operativo en los dos conjuntos de validación, mientras que mantiene su asociación independiente con la supervivencia en el análisis multivariante de ajustar por factores de confusión conocidos clínico-patológicas. Es de destacar que se informó anteriormente firmas de expresión génica de conjuntos de datos individuales que componen el conjunto de entrenamiento [6], [10], o modelos recién generadas usando nuestra metodología actual en estos conjuntos de datos, no eran reproducibles en cualquiera de los dos conjuntos de datos de validación independientes. Esto sugiere que nuestra estrategia de integrar información de diferentes conjuntos de datos dispares y técnicamente en un conjunto de entrenamiento compuesto aumenta nuestra capacidad de capturar los patrones de expresión de genes de pronóstico muy reproducibles. La variabilidad en las estimaciones razón de riesgo para el perfil de 19 genes entre la formación y dos conjuntos de validación, probablemente refleja las diferencias entre las distintas cohortes clínicas, cuyas características son idénticas rara vez en los estudios de microarrays. Por ejemplo, el 2
nd conjunto de validación parece está mayoritariamente compuesto de pronóstico, los pacientes por lo tanto mejores citorreducción óptima. No obstante, esto subraya aún más la validez del perfil cuando se aplica a una amplia gama de poblaciones de pacientes con cáncer de ovario.
modelos de expresión de genes eran tan potentes como de reducción de volumen de estado, el predictor clínico conocido más fuerte de la supervivencia en avanzado EOC [4 ], y la combinación óptima de reducción de volumen y de bajo perfil de riesgo definido una población con una meseta de supervivencia a largo (70% de supervivencia a los 5 años en entrenamiento y 1
conjunto de validación st). Por el contrario, la combinación de citorreducción subóptima y de alto riesgo perfil define una población con sólo el 10% de supervivencia a los 5 años. Tan poderosa estratificación pronóstica en avanzado EOC no es posible con los factores clínicos convencionales en el momento del diagnóstico y pueden ser útiles para la estratificación de los pacientes de alto riesgo que se consideran para los enfoques de investigación utilizando estrategias de mantenimiento y /o consolidación, o de bajo riesgo médicamente inestables los pacientes que pueden evitar la quimioterapia intraperitoneal relativamente tóxicos [20].
Nuestro estudio también tuvo como objetivo investigar marchitarse el perfil no es simplemente una combinación matemática de las 19 variables de pronóstico, sino que también es el seguimiento de los fenotipos moleculares de alta versus baja Alto Riesgo de cáncer de ovario. Utilizando una metodología (Submap) que es singularmente adecuado para evaluar la semejanza genómico amplio de subtipos identificados en múltiples, independientes y conjuntos de datos dispares [17], se confirmó que los grupos de bajo y alto riesgo asignados por nuestros modelos de pronóstico fueron homólogas molecularmente entre conjuntos de entrenamiento y validación, lo que sugiere que no hemos validado simplemente una función de previsión matemática, sino también los fenotipos moleculares verdaderos de bueno- y pobres en los resultados. En el segundo conjunto de validación, los subtipos moleculares de resultados ya habían sido establecidas por los autores [15]. Nuestra conclusión de que estos subtipos moleculares estaban sobrerrepresentados (enriquecido) en los grupos de alto y bajo riesgo identificados por nuestro perfil de 19 genes, aún da fe de la idea de que el perfil es el seguimiento de los fenotipos de resultados verdaderos y reproducibles en EOC.
Si bien es más allá del alcance de nuestro estudio para investigar el papel biológico preciso de cualquier vía específica, es de destacar que las vías que se upregulated en el grupo de alto riesgo han sido implicados en la carcinogénesis de ovario y /o asociada con la enfermedad agresiva y un peor pronóstico [21], [22], [23]. Por otra parte, las vías que fueron representados entre los genes sobreexpresados en tumores de alto riesgo han sido también han asociado con un resultado inferior [24], [25], [26], dando plausibilidad biológica de los fenotipos que hemos descubierto. Es importante destacar que varias de estas vías (Figura 5B) también se expresaron de manera similar en los altos y bajo riesgo tumores reportados previamente en el
nd conjunto de validación a disposición del público 2, lo que demuestra la reproducibilidad de las redes biológicas asociadas con el bien y el mal en los resultados entre el diferentes conjuntos de datos [15].
Finalmente, se aprovecharon de la expresión de genes previamente desarrollado "leer outs" que resulta de la vía de activación oncogénica experimentalmente controlada (src, b-catenina y E2F3) para evaluar el estado de activación en muestras de tumores individuales [12], [27]. Aunque hay un debate en curso acerca de cómo el análisis de la vía oncogénica descrito por Bild et al. [12]. se aplicó en un estudio particular, [28], el método de análisis de la vía oncogénica original descrito por Bild et al. no ha sido cuestionada. En consonancia con los datos anteriores conocidos, src y vías de b-catenina se activan con mayor frecuencia en alto riesgo en comparación con los tumores de bajo riesgo, mientras que lo contrario era cierto para la vía E2F3 [12], [27], [29]. La novela asociación del estado de activación de la vía oncogénica con un fenotipo "capturado" por un marcador de perfil 19-gen, de los cuales ninguno de los genes de la ruta es un miembro, demuestra que la inferencia biológica en los estudios de microarrays no debe limitarse al enfoque aplicado con frecuencia de cribado de una lista de los principales genes marcadores en una firma de pronóstico. Es de destacar que estas vías oncogénicas perdieron significado pronóstico independiente en el análisis multivariante cuando se incluyó el perfil, lo que sugiere que nuestro clasificador pronóstico es la captura de fenotipos complejos y que las diferencias de resultados en el cáncer de ovario no se puede explicar adecuadamente por la desregulación de una sola vía oncogénica o señalización.
En conclusión, nuestro enfoque ejemplifica cómo la integración y el análisis disciplinado de los ricos de contenido de información de los publicados, pero el cáncer de microarrays conjuntos de datos dispares pueden superar las limitaciones anteriores y conducir al desarrollo de clasificadores de pronóstico robustos y potencialmente ampliamente aplicables. Una matriz personalizada también puede ser una herramienta práctica en el estudio y tratamiento del cáncer.