Extracto
Uno de los principales retos en el desarrollo de biomarcadores de pronóstico de cáncer de próstata es el celular heterogeneidad en muestras de tejido. Hemos desarrollado un análisis objetivo Cluster-correlación (CC) para identificar cambios de expresión génica en diversos tipos de células que se asocian con la progresión. En la etapa de Cluster, las muestras se agruparon (no supervisado), basado en los valores de expresión de cada gen a través de un modelo de mezcla combinado con un modelo de regresión lineal múltiple en el que se utilizaron los datos por ciento de tipo celular para la descomposición. En la etapa de correlación, se utilizó el test de Chi-cuadrado para seleccionar los posibles genes de pronóstico. Con el análisis de CC, se identificaron 324 genes expresados de manera significativa (68 tumorales y 256 genes expresados celular estroma) que fueron fuertemente asociados con el estado de recaída bioquímica observada. Importancia Análisis de Microarray (SAM) y luego se utilizó para desarrollar un clasificador de siete genes. El clasificador se ha validado el uso de dos conjuntos de datos independientes. La precisión de la predicción global y la sensibilidad es del 71% y 76%, respectivamente. La inclusión de la suma de Gleason al clasificador de siete gen planteó la precisión de la predicción y la sensibilidad de 83% y 76%, respectivamente, sobre la base de pruebas independiente. Estos resultados indican que nuestro modelo de pronóstico que incluye ajustes de tipo celular y el uso de la puntuación de Gleason y la firma de siete gen tiene alguna utilidad para predecir los resultados para el cáncer de próstata para los pacientes individuales en el momento del pronóstico. La estrategia podría tener aplicaciones para mejorar el rendimiento marcador en otros tipos de cáncer y otras enfermedades
Visto:. Chen X, Xu S, M McClelland, Rahmatpanah M, Sawyers A, Jia Z, et al. (2012) Un exacta del cáncer de próstata pronosticador Usar una firma Seven-Gen Plus puntuación de Gleason y Teniendo Tipo de Célula La heterogeneidad en cuenta. PLoS ONE 7 (9): e45178. doi: 10.1371 /journal.pone.0045178
Editor: Bart O. Williams, Instituto Van Andel, Estados Unidos de América
Recibido: 17 de mayo de 2012; Aceptado: August 16, 2012; Publicado: 28 Septiembre 2012
Copyright: © Chen et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo fue apoyada por los Institutos nacionales de la Salud socios estratégicos para la Evaluación de cáncer de Firmas (SPECS) Consorcio subvención U01 CA1148102 y la Red Nacional de Detección temprana del cáncer del Instituto de Investigación (EDRN) Consorcio CA152738 U01 subvención. Este trabajo también fue apoyado por la Universidad de California del Premio desarrollo de la carrera Facultad Irvine (ZJ) y conceder P30CA62203 del Centro Integral del Cáncer de Chao Familia en la Universidad de California de Irvine (ZJ y DAM). Además, este trabajo fue apoyado en parte por el Departamento de Congreso dirigido programas de Investigación Médica de Defensa de conceder W81XWH-08-1-0720, y por la Universidad de California de Irvine Instituto para la Investigación del Cáncer del subsidio de estudios Fellowship (T32CA009054 del Instituto Nacional del Cáncer) ( FR). Los proveedores de fondos tenido ningún papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:. D. Mercola y M. McClelland son miembros de la junta de Proveri Inc., que tiene una licencia de los Regentes de la Universidad de California para el desarrollo de ensayos clínicos para el cáncer de próstata. Los otros autores declaran no tener ningún conflicto de intereses con esta publicación. Esto no altera la adhesión de los autores a todas las políticas de PLoS ONE en los datos y materiales de uso compartido.
Introducción
El cáncer de próstata es el cáncer masculino más frecuentemente diagnosticado y la segunda causa principal de muerte por cáncer en hombres en los Estados Unidos [1]. La prostatectomía radical es una opción efectiva cuando el cáncer está localizado en la glándula de la próstata [2], [3]. Sin embargo, en el momento del diagnóstico es difícil determinar qué pacientes puerto enfermedad agresiva que se repetirá después de los tratamientos diseñados para curar y que son indolentes y adecuada para la profilaxis y otras estrategias. enfermedad recurrente comúnmente conduce a la metástasis, la causa principal de muerte por cáncer de próstata [4], [5]. Por lo tanto, un tema de actualidad importante en la gestión clínica es la determinación de indicadores pronósticos confiables que distinguen el cáncer indolente de las que se repita. Los sistemas de clasificación como los nomogramas de Kattan [6], la clasificación de D'Amico [7], y CAPRA (Cáncer de próstata de la Evaluación de Riesgos) Nota [8] que incorporan la medición de varios marcadores clínicos preoperatorios y postoperatorios se puede utilizar para predecir el probabilidad de recurrencia después de la prostatectomía radical. Sin embargo, los pacientes con cáncer de próstata con características clínicas y patológicas similares no pueden ser diferenciadas por estos sistemas de clasificación como riesgo individual no es tomada en cuenta con precisión. Amplios esfuerzos anteriores han tratado de identificar los cambios de expresión génica entre los casos agresivos y casos indolentes [9] - [11]. enfoques analíticos estándar, tales como t-test, el análisis de microarrays importancia (SAM) [12] y modelos lineales para datos de microarrays (LIMMA) [13], se han aplicado a estos estudios. Unos biomarcadores pronósticos y reproducibles clínicamente útiles han surgido. Una de las razones que representa dicha inconsistencia entre los estudios podría ser la heterogeneidad en términos de composición celular,
es decir
, las muestras de tejidos utilizados para los ensayos eran generalmente mezcla de varios tipos de células con diferentes porcentajes [14] - [16], así como la heterogeneidad genética de la policlonal y la naturaleza multifocal de cáncer de próstata. Por lo tanto, la expresión del gen observados cambios entre las muestras pueden deberse en parte a la diferencia en la composición de las células de estas muestras [16]. Sin embargo, dicha composición heterogeneidad rara vez se toma en cuenta en los estudios de biomarcadores porque no ha habido una forma sencilla de hacer frente a dicha variación a través de la expresión génica análisis periódicos.
Aquí investigamos si una composición variable de tipo celular juega un papel importante en la identificación de genes expresados diferencialmente. Hemos desarrollado un modelo de análisis de conglomerados-correlación [17] que incorpora un modelo de regresión lineal múltiple para examinar la composición tipo de células para las muestras de composición conocida. Se demuestra que este método puede ser utilizado para identificar los genes expresados diferencialmente entre la recaída bioquímica y muestras de pacientes no recaída después de la prostatectomía. La aplicación de este enfoque hemos observado más de trescientos los cambios de expresión génica y clasificado estas predominantemente en los genes de las células tumorales expresados o genes de las células del estroma expresado. Se identificó un subconjunto de genes celulares expresaron siete tumorales que exhibe los cambios más significativos y utiliza estos para derivar un clasificador. entonces el clasificador fue probado en dos conjuntos de datos independientes con alta precisión y sensibilidad. Un modelo de clasificación de peinado esta firma de siete genes con suma de Gleason tuvo un rendimiento aún mejor predicción. Nuestros resultados proporcionan nuevos conocimientos sobre el desarrollo de pronóstico del cáncer de próstata.
Materiales y Métodos
Las muestras del enfermo de cáncer de próstata y análisis de microarrays
Conjunto de datos 1 se utilizó para la formación. Contiene muestras de tejido congelado 136 de post prostatectomía obtenidos de 82 sujetos por escrito el consentimiento informado aprobado por el Consejo de Administración de la UCI Oficina de Investigación Institucional de Revisión (IRB). El IRB aprobado específicamente este estudio anualmente (HS#2005-4806). Todos los tejidos fueron recogidos en la cirugía y es acompañado a patología para su revisión expedita, la disección y broche de congelación en nitrógeno líquido. Los "top" y las secciones de "fondo" de microdissected manualmente (véase el Manual de microdisección) tejidos congelados se utilicen para determinar la composición del tejido. Las secciones de tejidos congelados de descanso microdissected manuales se utilizan para la preparación de ARN y la hibridación de microarrays. La composición de los tejidos (células tumorales epiteliales, células del estroma, células epiteliales de la HPB y glándulas quísticas dilatadas) se determinó por los miembros de un equipo de cuatro patólogos tres de los cuales están certificados, mientras que el cuarto es equivalente certificada (Reino Unido, FRCP) utilizando métodos descritos anteriormente [15]. Se proporcionó a la gráfica de caja de los datos porcentuales de tejido se muestra en la Figura S3. Los datos resultantes de microarrays se han depositado en el Omnibus (GEO) de bases de datos de expresión génica con el número de acceso GSE8218 [16]. De las 136 muestras, 80 muestras eran de pacientes con recaída bioquímica, 50 muestras de pacientes con recaída bioquímica no con un seguimiento de 3 a 80 meses y 6 muestras de sujetos normales. marcadores convencionales clínicos tales como antígeno prostático específico (PSA), post-prostatectomía suma de Gleason, la edad, el estadio patológico, también se recogieron y se presentan en la Tabla S1 y S2.
Establece
Datos 2 y 3 son conjuntos de pruebas independientes. Conjunto de datos 2 [GSE25136 [18]] contenían 79 muestras que consistían en 42 muestras de recaída bioquímica no recayeron y 37 bioquímicos. Conjunto de Datos 3 [GSE3325 [19]] se compone de 13 muestras clasificadas como benignas 4, 5 primaria, y 4 muestras de cáncer de próstata metastásico. En nuestro estudio, hemos tratado el 4 benigno y las 5 muestras de cáncer de próstata primarios como muestras no recaída bioquímica y 4 muestras de cáncer de próstata metastásico como muestras de recaída. Las plataformas de microarrays para el conjunto de datos 2 y 3 son Affymetrix U133A y U133 Plus 2.0, respectivamente. La información de los componentes del tejido se calculó mediante el software CellPred [16] debido a la falta de información porcentaje tipo de células para los dos conjuntos de datos independientes. Mensaje de prostatectomía sumas de Gleason, supervivencia libre de enfermedad Times, la edad, se recogieron estadio patológico y se presentan en la Tabla S1 y S2.
Análisis estadístico
Cluster-Correlación modelo de análisis.
hemos desarrollado un novedoso procedimiento de análisis Cluster-correlación (CC) [17] para la determinación de la expresión diferencial de genes en diferentes tipos de células. El análisis de CC se lleva a cabo en 2 etapas, es decir, un paso agrupación sin supervisión, y una etapa de correlación (Figura S1).
El paso del clúster sin supervisión se basa en dos supuestos principales. Supuesto 1, los valores de la expresión de genes observado como por una gama de expresión es la suma de las contribuciones de los diferentes tipos de células que componen la muestra (. Ecuación 1). (1) En caso de
Z
i
es el indicador de clúster para el
i
ésima muestra,
p
y
tumorales y el estroma p
es
son conocidos porcentajes [16] para
i
ésima muestra,
β
kT
y
β
kS ¿Cuáles son los coeficientes de tipo de células tumorales y el estroma que determine el resultado de la regresión lineal múltiple para el
k
º clúster y
ε
i
es el error residual. Cada contribución de tipo celular es a su vez debido al producto del porcentaje de el tipo de célula presente y el coeficiente de expresión de tipo celular individual para un gen dado. Supuesto 2, los coeficientes de expresión de tipo célula individual
β
T
y
β
S Opiniones de un gen dado puede variar de los resultados bioquímicos de la muestra,
por ejemplo, , España estado de recurrencia bioquímica. Partiendo de estas premisas, las muestras de los pacientes forman una mezcla de distribución que puede ser analizada con el algoritmo EM (expectativa de maximización) [20]. El algoritmo EM encuentra las soluciones óptimas a través de un cálculo iterativo. Los resultados del algoritmo de EM son dos pliegues. En primer lugar, las muestras fueron asignados a varios grupos (no supervisado) en base a los valores de expresión de cada gen. En segundo lugar, estamos en condiciones de determinar el alcance de la expresión de un gen por las células tumorales y las células del estroma.
En la etapa de correlación, se seleccionaron los genes para que los casos de recaída y no de recaída fueron bien distinguen por la supervisión procedimiento de agrupamiento. Para cada gen, formamos una tabla de contingencia de 2 × 2 con una dimensión como el estado de la recaída observada y la otra dimensión que la supervisión agrupación resultado (identidad del clúster). Se utilizó una prueba de Chi-cuadrado para calcular el valor de p para cada gen (cada tabla de contingencia). Los genes con valores de p & lt; 0,005 fueron seleccionados como altamente correlacionado entre el grupo de miembros no supervisado y observado
Para los genes significativos identificados en la etapa de correlación, se determinó si su expresión se expresa predominantemente en las células tumorales y el estroma. Células. Se definieron dos modelos restringidos con respecto a las células tumorales y las células del estroma. En el modelo restringido tumoral, suponemos solamente
β
T
varía con la pertenencia al clúster. En el modelo restringido el estroma, suponemos solamente
β
S
varía con la pertenencia al clúster. Los dos modelos restringidos fueron comparados utilizando el criterio bayesiano de información (BIC) [21]. Se selecciona el modelo con la puntuación más pequeña BIC. Las diferencias de 2 o más entre dos puntuaciones BIC es considerado como un fuerte indicio a favor de un modelo sobre otro [22]
El algoritmo de análisis de CC y el conjunto de datos de prueba están disponibles en http:. //www.pathology.uci . edu /facultad /Mercola /UCISpecsHome.html y puede aplicarse a los conjuntos de datos de expresión dado el conocimiento de la distribución de los tipos de células.
Herramientas estadísticas en R.
A modificado la función cuantil normalización "REFnormalizeQuantiles "[14] se utilizó para llevar a cabo la normalización de los conjuntos de datos 2 y 3 haciendo referencia Conjunto de datos 1. Debido a que la sonda fija para la plataforma U133A es el subconjunto de los de la plataforma U133 plus 2.0, se llevó a cabo la normalización de la sonda común conjuntos de las dos plataformas.
análisis significativo de microarrays (SAM) [12] del paquete "siggenes", aplicado en la I, se utilizó para seleccionar los genes más importantes obtenidos a partir del análisis de conglomerados en dos etapas.
Análisis de Predicción de microarrays (PAM) [23] del paquete "pamr", aplicado en la I, se utilizó para desarrollar un clasificador de pronóstico utilizando un conjunto de entrenamiento y el rendimiento del clasificador fue probada usando conjuntos independientes. Conjunto de datos 1 fue tratado como un conjunto de entrenamiento, y conjuntos de datos 2 y 3 fueron tratados como unidades de prueba.
Un servicio web basado en R, CellPred [16] disponible en http://www.webarray.org se utilizó para predecir el porcentaje composición de células de conjuntos de datos 2 y 3 con el fin de identificar las muestras enriquecidas de células tumorales para la prueba del clasificador. Las muestras para análisis se eligieron a partir de conjuntos de datos 2 y 3, utilizando el criterio de & gt;. Composición de las células epiteliales del tumor del 50% de acuerdo con CellPred
análisis de los datos de inmunohistoquímica
Con el fin de validar el tipo de célula. especificidad de la expresión del ARN predijo aquí, se comparó la intensidad de la expresión de tipo celular,
β
T
, con la expresión de la proteína correspondiente en las células tumorales y el estroma como se observa en el Human Protein Atlas (HPA; www.humanprotein .atlas.org). Cada anticuerpo HPA se aplicó a secciones histológicas individuales de cada uno de los tres sujetos normales y dos secciones histológicas de cada uno de 12 pacientes con cáncer de próstata, generando así tres imágenes de alta resolución para los casos normales y 24 imágenes de alta resolución a partir de los 12 pacientes con cáncer. Todas las imágenes fueron descargadas proporcionando de este modo todos los valores de píxeles de los tres canales de color. El nivel de expresión de la proteína se sintetiza mediante la escala: rojo, fuerte; naranja, moderada; amarilla, débil; y negro, negativo a lo dispuesto por HPA. Dos observadores, un tablero patólogo certificado (DAM) y un segundo observador (XC) clasifican además el nivel de expresión de la proteína mediante la adición de moderado a fuerte, débil a moderada, y muy débil de acuerdo con la intensidad del color IHC y se resumen los siete niveles utilizando una código numérico: 5, fuerte; 4, de moderada a fuerte; 3, moderado; 2, débil a moderada; 1, débil; 0,5, muy débil; y 0, negativo. Los niveles de expresión de proteínas en las células tumorales y el estroma se pueden estimar sobre la base del código numérico para cada imagen. Se recogieron datos de 71 anticuerpos relacionados con genes de las células tumorales expresado 49 (no hay anticuerpos HPA estaban disponibles para los 19 genes restantes). Se seleccionaron 28 anticuerpos expresados diferencialmente entre los sujetos normales y pacientes con cáncer de próstata para el estudio de correlación (anticuerpos con ningún cambio de expresión de proteínas entre los sujetos normales y pacientes con cáncer de próstata son considerados como la no diferencialmente expresados anticuerpos). Los 28 anticuerpos seleccionados están relacionados con genes celulares expresaron 23 tumorales. Para cada anticuerpo, el nivel de expresión de la proteína en el tumor y el estroma se promedia a través de las 12 muestras de pacientes. Se utilizaron los 672 observaciones IHC.
Resultados
Desarrollo de un clasificador pronóstico
Para el análisis de correlación de clústeres, se seleccionaron 130 conjuntos de muestras de cáncer de próstata obtenidos a partir del conjunto de datos 1 ,
es decir
. omitiendo las seis muestras normales restantes. Asumimos que el algoritmo EM del modelo de análisis CC categorizaría las 130 muestras en dos grupos de expresión y trataron los dos grupos de expresión como de bajo riesgo putativo y los grupos de alto riesgo (
cf.
Figura S1). A continuación, se realizó la prueba de Chi-cuadrado para medir la asociación entre los grupos de riesgo putativos y los grupos de recaída bioquímica y no recaída observadas. 324 genes fueron identificados con los valores de p menor que 0,005. Los 324 genes se clasifican además en 68 genes de células tumorales predominantemente expresado y 256 células de estroma predominantemente expresadas de acuerdo con las puntuaciones de BIC del estroma tumoral y modelos restringidos.
En nuestro estudio, se centran en la investigación de la célula tumoral expresado genes debido a que la mayoría de las muestras disponibles para pruebas independiente considerado de abajo son muestras enriquecido-tumorales. Los genes de células tumorales expresado 68 fueron considerados como genes candidatos para desarrollar un clasificador de pronóstico en base a su expresión génica diferencial entre la recaída observado y grupos ausencia de recaída y la aplicación de SAM. Sin embargo, no sería apropiado para llevar a cabo análisis de la expresión diferencial del componente de tumor directamente con todos los 130 muestras de conjunto de datos 1 debido a que los componentes del tejido estimados mostraron una gran variación de la composición porcentual tipo de célula entre estas muestras, incluyendo muestras con casi exclusivamente estroma. Así se seleccionaron primero 23 muestras con el porcentaje de células del tumor mayor de 50%. Entre 23 muestras de tumores de células enriquecidas seleccionados, 11 muestras son muestras no recaída y 12 muestras son muestras de recaída. El uso de los 68 genes como entrada a la SAM, identificamos los 7 genes más significativas entre los grupos de recaída y no recaída donde cada valor de p fue & lt; 0,002 (Tabla 1). El procedimiento general de desarrollar el clasificador de pronóstico se presenta como un diagrama de flujo en la Figura S1.
Para validar la precisión de la predicción, un niño de siete génica basada en PAM pronóstico clasificador se generó con el fin de llevar a cabo una cruz -Validación prueba usando las muestras enriquecidas con el tumor en el conjunto de datos 1. Para la validación cruzada, seleccionados al azar 9 recaída y 8 muestras de células tumorales no recaída enriquecidos como un conjunto de entrenamiento que salen del 3 recaída restante y 3 muestras no como una recaída equipo de prueba. entonces el clasificador basado en PAM fue probado en todas las rondas posibles (36300 ciclos) de la validación cruzada con una precisión del 74%, una especificidad del 72% y una sensibilidad del 77%. Estos resultados indican que el Seven-gen pronóstico clasificador tiene una alta precisión de la predicción, la especificidad y la sensibilidad después de la prueba de validación cruzada y podría ser eficaz para predecir los resultados de los pacientes con cáncer de próstata a partir de conjuntos de datos independientes.
Pruebas independientes de la siete-gen pronóstico clasificador
un obstáculo importante en el desarrollo de perfiles de pronóstico clínicamente útil para el cáncer de próstata ha sido la falta de generalidad a través de conjuntos de datos. Por lo tanto, hemos probado el clasificador pronóstico de siete genes en muestras extraídas a partir de dos conjuntos de datos independientes (Materiales y Métodos). Sin embargo se observó previamente que varios de los principales conjuntos de datos de análisis de expresión disponibles son muy heterogéneos con respecto a la composición del tipo de célula [16]. Las muestras de ensayo se seleccionaron sobre la base de que se componen de contenido de células tumorales al menos 50% según se juzga mediante la aplicación de CellPred [16]. Cuarenta y dos y siete muestras de células tumorales enriquecidos en conjuntos de datos 2 y 3, respectivamente, se reunieron el criterio. a continuación, cada caso se clasifica por PAM utilizando el clasificador de Pronóstico 7-gen. Tabla 2 muestra los resultados de la clasificación. La precisión global, la especificidad y sensibilidad de los dos conjuntos de datos de prueba fueron 71%, 65% y 76%. A fin de evaluar el poder del clasificador de pronóstico, se realizó un análisis de supervivencia de Kaplan-Meier (Figura 1) (el análisis de supervivencia de Kaplan-Meier se aplicó al conjunto de datos 2 sólo porque supervivencia libre de enfermedad tiempos no está disponible para el conjunto de datos 3. La comparación muestra que la mediana de la supervivencia libre de recaída de los pacientes en el grupo de bajo riesgo definidos por el siete gen clasificador pronóstico fue de 35 meses. el 73% de los pacientes en el grupo de alto riesgo tuvo recurrencia de la enfermedad dentro de los 5 años, mientras que el 63% de los pacientes del grupo de bajo riesgo se mantuvo libre de recaída durante al menos 5 años. la razón de riesgo estimado para el grupo de bajo riesgo y de alto riesgo fue de 2,6 con un valor de p significativo de 0,035 (prueba de rango logarítmico).
estimaciones de Kaplan-Meier de la supervivencia tiempo de 42 pacientes independientes en el conjunto de datos 2 (GSE25136) de acuerdo con el clasificador de siete genes.
a continuación, examinamos si cualquiera de los diversos valores de resultados clínicos, la puntuación de Gleason, PSA, edad , volumen, T etapa, la etapa N, y la etapa M, tenían valores de pronóstico que mejoraron el rendimiento del clasificador. Los siete genes, junto con cada uno de los resultados clínicos fueron desarrollados como nuevos clasificadores. En el análisis PAM, las contribuciones de los resultados clínicos y siete genes son uniformemente ponderada. Sólo la suma de post prostatectomía Gleason mejoró significativamente los resultados con una disminución sustancial del valor de p 0,035 hasta 0,009 por la prueba de rango logarítmico. La inclusión de la suma de Gleason con la firma de siete genes en el procedimiento de prueba utilizando la independiente del conjunto de datos 2 mejoró la precisión y la sensibilidad al 74% y el 84% para el conjunto de datos 2 (sólo Conjunto de datos 2 se utilizó para este análisis debido a la falta de disponibilidad de la suma de Gleason para el conjunto de datos 3). Dos pacientes recaen más observados se clasificaron en el grupo de alto riesgo. El análisis de supervivencia de Kaplan-Meier (Figura 2) muestra que la supervivencia media de los pacientes en el grupo de alto riesgo definido por el siete genes con el post-prostatectomía suma de Gleason clasificador pronóstico fue de 34,6 meses. El 75% de los pacientes en el grupo de alto riesgo tuvo recurrencia de la enfermedad dentro de los 5 años, mientras que el 71% de los pacientes en el grupo de bajo riesgo se mantuvo libre de recaída durante al menos 5 años. La razón de riesgo estimado para el grupo de bajo riesgo y de alto riesgo fue de 3,8 con un valor de p significativo de 0,009.
estimaciones de Kaplan-Meier de supervivencia de 42 pacientes independientes en datos de pruebas Conjunto 2 (GSE25136) de acuerdo con el clasificador de siete genes con la suma de Gleason determinada Patología quirúrgica. La variable suma Gleason tiene la misma ponderación que cada gen en la determinación de la clasificación.
Finalmente se realizó un análisis de Cox de riesgos proporcionales de regresión multivariante de la predicción hecha por nuestro clasificador en combinación con las variables clínicas de edad, PSA preoperatorio, el estadio patológico, y el margen quirúrgico, pero no con la suma de Gleason, que está incluido en nuestro clasificador. Sólo el valor p de la predicción por nuestro clasificador se acercó al nivel significativo (p = 0,0686). Los valores de p de otros predictores '' son mayores que 0,1. Los resultados indicaron que nuestro clasificador tuvo un mejor desempeño en la estratificación del riesgo. Añadimos este resultado al texto en la página 12-13. El resultado indicó que nuestro clasificador puede estratificar mejor el riesgo.
Validación de 23 genes que expresan la proteína del 68 Tumor conjunto de genes
Con el fin de validar los métodos aquí utilizados para la identificación de por células tumorales expresión específica, se comparó la expresión específica de tipo celular encontrado de ARN, es decir,
β
T
y
β
S
, con la observada para la expresión de la proteína respectiva en el tumor y las células del estroma proporcionadas por Human Protein Atlas (HPA) como una prueba de si la célula asignaciones específicas de los datos de expresión eran exactos. Se examinaron los 68 genes identificados aquí como específica de células tumorales. Esperábamos que los 68 genes identificados aquí como específica de células tumorales exhibirían expresión de la proteína que está más correlacionado con la expresión de la proteína observada en las células tumorales que en las células del estroma. El perfil de expresión de proteínas se llevó a cabo usando los valores de tinción observado immunochistochemical (IHC) observada en HPA como se describe (Materiales y Métodos). Se recogieron datos de 75 anticuerpos relacionados con 49 de los genes celulares expresado 68 tumores (no hay anticuerpos para el resto 19 genes) y luego seleccionamos el 23 de los 49 genes que exhiben expresados diferencialmente intensidades de anticuerpos entre los sujetos normales y pacientes con cáncer de próstata para el estudio de correlación . Para cada anticuerpo, el nivel de expresión de la proteína en el tumor y el estroma se promedia a través de las 12 muestras de pacientes. En los 672 observaciones IHC se utilizaron.
La contribución de la expresión génica del ARN de tumor y el estroma se obtuvo a partir del modelo de análisis CC para los 23 genes tumorales. En el estudio de correlación, que mide las dos correlaciones: correlación de la expresión de genes de proteínas en el tumor y el gen de la proteína de correlación de expresión en el estroma. Los resultados mostraron que la correlación tumor produjo un coeficiente de correlación de Pearson de 0,41 con un valor p significativo de 0,03 mientras que la correlación estroma era insignificante con correlación de (valor de p de 0,92) -0,02. Para la comparación, una revisión reciente de papel [24] que describe la correlación entre la proteína y la expresión génica de varios organismos incluyendo humano mostró que la correlación de 0,41 es comparable a la más alta correlación observada para
homo sapiens
(0,46, p & lt; 0,001). Figura S2 muestra un diagrama de dispersión de la expresión de proteínas
frente
la expresión de genes de nuestros datos. El estudio de correlación demuestra que los 23 genes informativos identificados por nuestro modelo de análisis propuesto CC están realmente identificados con precisión como los genes expresados de células tumorales.
Discusión
La hipótesis de que los clasificadores cancerosas sean más fiables si se pueden identificar -tipo de células heterogeneidad fue tomada en cuenta. Hemos desarrollado un nuevo análisis Cluster-Correlación donde la variación causada por la distribución de tipo celular se controla a través de regresión lineal múltiple (MLR). El análisis de CC se propone es un nuevo análisis de la expresión diferencial de genes. Hay dos características principales del análisis (Figura S1). En primer lugar, hemos incorporado porcentaje de células de tipo conocido en el análisis, evitando la falsa identificación debida exclusivamente a la composición variada de tipo celular entre muestras de tejido. En segundo lugar, se realizó un agrupamiento no supervisado, evitando el uso directo de la información de la recurrencia bioquímica que a menudo no es definitiva debido a la censura de datos. Las dos características exclusivas hacen análisis como CC mejor que analiza la expresión génica tradicional. En un estudio previo [17] Se comparó el modelo de análisis de CC con la expresión diferencial de genes tradicional de análisis como por SAM y LIMMA. Los resultados de simulación muestran que el nuevo modelo superó analiza la expresión diferencial de genes tradicional en términos de sensibilidad y especificidad. Además, cuando estos métodos se aplicaron a los datos de cáncer de próstata, el análisis CC puede identificar genes que están enriquecidos o asociados con las vías relacionadas con el cáncer de próstata significativamente tales como la vía de señalización Wnt, la interacción ECM-receptor, la adhesión focal y TGF
β
vía [17] señalización.
al utilizar el modelo de análisis de CC, se identificaron 68 genes de las células tumorales tratadas expresado como biomarcadores clínicos candidatos para una mayor investigación. Los siete genes más significativos de células tumorales expresado se identificaron mediante el análisis de muestras enriquecidas de células tumorales utilizando SAM. Estos siete genes fueron utilizados en PAM para formar un clasificador, que fue validado posteriormente en dos conjuntos de datos independientes. Para estas pruebas, se utilizó muestras de ensayo con & gt; 50% de contenido de células tumorales según lo estimado por CellPhred. Es imposible obtener muestras de tumores puras debido a la heterogeneidad tipo celular intrínsecos a la mayoría de los patrones de histología de Gleason y debido a grados variables de estroma y otros elementos con muestras de tejido seleccionadas para el análisis de microarrays de "tumores". Al comparar la precisión de la predicción de muestras seleccionadas con diversos porcentajes de células tumorales (muestras con & gt; de células tumorales 10% a & gt; 50% de células tumorales), se determinó que se obtuvo la mejor predicción cuando el porcentaje de células tumorales de una muestra dada fue mayor de 50%. Por lo tanto, la precisión, la sensibilidad y especificidad de nuestro resultado de pruebas independiente es probable que un
Red de subestimar el rendimiento que se obtendría utilizando para muestras tumorales más puros.
La principal limitación de la mayoría de biomarcadores anterior estudios de detección es que un único conjunto de datos clínicos se utilizó tanto para el descubrimiento y validación de firma. Recientemente, el primer estudio para realizar el descubrimiento de la firma y validación de datos independientes [25] utilizaron un algoritmo de recurrencia que dio lugar a una sensibilidad del 68%. La sensibilidad fue mejorado mediante la incorporación de PSA pero sólo si se define la segregación de recaída y no recaída subgrupos en los datos de prueba, que es similar a la estrategia de los estudios anteriores - descubrimiento y validación en el mismo conjunto de datos clínicos. Por el contrario, nuestra firma de siete gen fue descubierto por primera vez por los datos de entrenamiento y validado en los conjuntos de datos independientes.
A fin de evaluar el desempeño de nuestra firma de siete genes, se llevó a cabo una comparación basada en la predicción PAM entre nuestro firma genética y otras firmas de genes identificados en otros estudios. La Tabla 2 muestra la comparación de cinco diferentes firmas de genes - nuestra firma de siete gen, el gen de la firma Bismar [26], y las firmas de genes Glinski 1-3 [25]. Los resultados mostraron que nuestra firma de siete genes proporcionan la mejor precisión y el mejor equilibrio entre sensibilidad y especificidad en pruebas independientes.
Con el fin de proporcionar una comparación con un predictor independiente y precisa, también utilizó un sistema de clasificación CAPRA resultado [8] para determinar el riesgo de recurrencia para el conjunto de datos 1. el resultado mostró que la precisión de la puntuación CAPRA es sólo el 54%, que no es comparable a la precisión de nuestra firma. Esta discrepancia puede representar distinción en las características de nuestra población en comparación con la población empleada en el desarrollo de la CAPRA Nota [8].
En conclusión, la firma de pronóstico de siete gen está estrechamente asociada con la recurrencia bioquímica en los pacientes después prostatectomía radical. Esta firma sugiere aplicaciones prácticas, tales como la estratificación de los pacientes según el riesgo en los ensayos de tratamiento adyuvante y la identificación de dianas para el desarrollo de la terapia para la progresión del cáncer de próstata.
Apoyo a la Información
Figura S1.