Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: La construcción de un modelo estadístico para predecir genes cancerígenos

PLOS ONE: La construcción de un modelo estadístico para predecir genes cancerígenos


Extracto

Más de 400 genes del cáncer han identificado en el genoma humano. La lista no se ha completado todavía. Los modelos estadísticos que predicen los genes del cáncer pueden ayudar a la identificación de nuevos genes candidatos cáncer. Se utilizó el cáncer de próstata conocido (CaP) genes (identificados a través KnowledgeNet) como un conjunto de entrenamiento para construir un modelo de regresión logística binaria identificación de genes de PCA. validación interna y externa del modelo se llevó a cabo utilizando un conjunto de validación (también de KnowledgeNet), permutaciones, y los datos externos en genes con mutaciones de tumor de próstata recurrentes. Se evaluó un conjunto de 33 características de genes como predictores. Dieciséis de los 33 originales fueron predictores significativos en el modelo. Se encontró que un gen típico CaP es un factor de transcripción específico de la próstata, quinasa, o fosfatasa con alta varianza interindividual del nivel de expresión en el tejido de próstata normal adyacente y la expresión diferencial entre el tejido de próstata normal y tumor primario. genes de CaP pueden tener un efecto antiapoptótico y desempeñar un papel en la proliferación celular, la angiogénesis y la adhesión celular. Sus proteínas son susceptibles de ser ubiquitinada o sumoylated pero no acetilado. Se han propuesto una serie de nuevos candidatos de PCA. anotaciones funcionales de nuevos candidatos identificados antiapoptosis, la regulación de la proliferación celular, la regulación positiva de la actividad quinasa, la regulación positiva de la actividad de transferasa, la angiogénesis, la regulación positiva de la división celular, y la adhesión celular como las principales funciones. Proporcionamos la lista de las 200 mejores predijo genes ACC, que pueden ser utilizados como candidatos para la validación experimental. El modelo puede ser modificado para predecir los genes para otros tipos de cáncer

Visto:. Gorlov IP, Logothetis CJ, Fang S, Gorlova OY, Amos C (2012) La construcción de un modelo estadístico para predecir genes cancerígenos. PLoS ONE 7 (11): e49175. doi: 10.1371 /journal.pone.0049175

Editor: Ludmila Prokunina-Olsson, Instituto Nacional del Cáncer, de los Institutos Nacionales de Salud, Estados Unidos de América

Recibido: 3 Agosto 2012; Aceptado: 9 Octubre 2012; Publicado: 15 Noviembre 2012

Derechos de Autor © 2012 Gorlov et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Financiación:. Este estudio fue apoyado en parte por el H. Koch Centro de Investigación Aplicada David de cánceres genitourinarios, los Institutos nacionales de la Salud de la próstata CA140388-01 concesión de las esporas, y los Institutos nacionales de Salud Centro de cáncer programa de subsidios para CA016672 5 P30. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción

Un censo de los genes del cáncer humanos llevadas a cabo por Futreal
et al.
[1] y actualizado por Santarious
et al
. [2] para identificar 400 genes relacionados con el cáncer. Es obvio que esta lista de genes relacionados con el cáncer no es completa: una búsqueda en PubMed de la literatura llevada a cabo en junio de 2011 el uso del término "nuevo gen del cáncer" en el título identificado más de 100 artículos publicados en 2011 (datos no mostrados).

Desarrollo de un modelo predictivo de los genes del cáncer podría acelerar su identificación. En este estudio, hemos desarrollado un modelo estadístico para la predicción de genes del cáncer de próstata (CaP). Nuestro estudio fue motivado por el texto siguiente: i) Se han identificado una serie de genes relacionados con el CaP con una fuerte evidencia experimental, ii) muchos genes en el genoma humano se anotan ampliamente, y iii) a nivel de perfiles genoma de los datos de expresión génica es disponibles [3], [4]. En este estudio, hemos identificado los rasgos que son característicos de los genes ACP conocidos y los utilizó para predecir nuevos genes CaP.

Materiales y Métodos

Los genes ACP conocidos

Se utilizó el KnowledgeNet (KN; una literatura-minera algoritmo) enfoque para identificar los genes CaP [5]. El algoritmo de búsqueda KN para una asociación entre el gen y tanto en términos de primaria y secundaria (
es decir., España relacionadas). Como resultado, cada gen recibe una puntuación de confianza (CS): cuanto mayor sea el CS, más fuerte es la asociación del gen con un fenotipo especificado; en nuestro caso, el CP. Se identificaron un total de 707 genes con CSS que van desde 2,663 hasta 0,001 (Tabla S1) y utilizamos las 100 mejores genes como "genes ACP conocidos." Los otros 607 genes de la lista fueron considerados "genes CaP putativos." Los 14.641 genes restantes con un CS. & lt; 0,001 fueron considerados ". genes no-PCA" se excluyeron los 607 genes CaP putativos para crear un resultado binario bien definido para nuestro análisis

Debido a que nuestro término de búsqueda inicial para identificar los genes con CaP fue " cáncer de próstata ", el algoritmo busca los genes asociados con cualquier aspecto de la carcinogénesis de próstata, incluyendo la iniciación, progresión, recurrencia y la supervivencia. En otras palabras, se utilizó una definición amplia de genes CaP. Por supuesto, una búsqueda puede ser más específico,
por ejemplo
., "Recurrencia del cáncer de próstata", y esto se espera que produzca un conjunto de entrenamiento que será diferente de la lista que usamos.

modelo y variables

Un modelo de regresión logística binaria (BLR) se utilizó para discriminar entre lo "conocido CP" y los genes "no-PCA". Cada gen fue descrito por 33 variables (Tabla 1). Las variables fueron seleccionados sobre la base de la evidencia publicada por nosotros y otros que las variables individuales se asocian con CaP [6] - [11]. Una descripción detallada de las variables se puede encontrar en la Información de S1. Nos subclasificarán las variables en dos categorías: de próstata de tejidos específicos y no específicos. las variables específicos de tejido incluyen datos de expresión génica en tejidos normales y tumorales de próstata. Las variables no tejido-específicas fueron las que se puede aplicar a cualquier tipo de tejido,
por ejemplo, España "factor de crecimiento", las "variables" fosforilados.

Debido a que nuestro modelo de regresión fue naturalmente, no balanceada, con demasiados genes "no-PCA" y demasiado pocos genes con CaP, no podríamos utilizar un umbral de 0,5 para decidir si el gen era un PCA o gen "no-CP". El umbral de clasificación (0,05) fue elegido para asegurar que al menos 95% de los genes no CaP se predijo correctamente, y debido a que refleja la proporción de genes que se identificaron como el cáncer de próstata (707) en relación con el número total de genes estudiados en la fase de entrenamiento (14.641). Se seleccionó esta tasa relativamente alta de la clasificación correcta de los genes "no-PCA" para reducir el riesgo de experimental de seguimiento de falsos positivos, que pueden ser costosos.

En total, se utilizaron 15.348 genes. los datos de expresión de genes se un factor limitante de la inclusión de cada gen en el análisis. Se utilizó el conjuntos de datos disponibles públicamente GSE6919 [12], [13] y GSE21034 [13] de la Expresión Génica Omnibus (GEO) [3], [4] y se utiliza Amigo
2 [14] para identificar los genes asociados con función específica biológico, localización celular, y las modificaciones posteriores a la traducción. Se utilizó el número de ortólogos humanos reportados en la base de datos HomoloGene (http://www.ncbi.nlm.nih.gov/HomoloGene) como el índice de conservación evolutiva [15], [16].

Validación de el modelo

Para validar el modelo, que subclasificarán primera aleatoriamente los 200 genes con el más alto de disparo continuo en el descubrimiento y validación conjuntos. A continuación construimos el modelo BLR utilizando sólo el conjunto de descubrimiento y lo usamos para predecir los genes CaP en el conjunto de validación. Para la validación interna adicional, hemos construido el modelo BLR mediante el uso de los 100 mejores genes, con exclusión de los genes putativos CaP, y luego se aplica el modelo para calcular la probabilidad de que los genes putativos CaP. Esperábamos que la probabilidad de ser clasificado como un gen CP sería mayor para los genes putativos de lo que sería para los genes no CaP. Además, hemos realizado pruebas de permutación mediante la asignación al azar estado del gen CP. Construimos un modelo BLR para esos genes "falsas" CaP utilizando el mismo conjunto de variables que utilizamos para los genes CaP "reales" (
es decir
., Los identificados con KN). Se realizó este procedimiento 100 veces y se calculó el porcentaje del predicho correctamente los genes CaP.

Para la validación externa, nos registramos para ver si la probabilidad derivada del modelo de bienestar CaP de un gen relacionado fue mayor para los genes para que recurrente mutaciones somáticas en muestras de tumores de próstata son reportados en el Catálogo de mutaciones somáticas en el cáncer (cósmica) base de datos [17], [18]. También utilizamos los genes identificados como que tienen mutaciones somáticas recurrentes en los resultados de los estudios recientemente publicados de la secuenciación del exoma de muestras de tumores de próstata [19]. Observamos, sin embargo, que no usamos los datos de mutaciones somáticas para construir nuestro modelo.

¿Es la predicción de modelo específico de la próstata?

Para responder a esta pregunta, se identificaron los 100 pecho superior y la parte superior 100 los genes del cáncer de pulmón (Tabla S2) utilizando el mismo algoritmo KN se utilizó para identificar los genes de PCA. A continuación, se compararon los porcentajes de predecir correctamente los genes de mama y cáncer de pulmón con el porcentaje de genes predijo correctamente CaP.

Hemos construido modelos BLR sobre la base de sólo específicos ( "modelo específico") y no específica ( "modelo no específica ") predictores. A continuación, calcula los porcentajes de genes no-PCA y PCA predicciones correctas para cada modelo. El análisis estadístico se realizó con el programa SPSS versión 15.0.

Resultados

Predicción de genes CaP

Entre las 33 variables, 22 fueron significativas en el análisis univariable (Tabla S3), mientras que en el modelo multivariable BLR paso a paso hacia delante (razón de verosimilitud), 16 variables fueron significativas (Tabla 2). El modelo predijo correctamente el 96% de los genes de los no-PCA y el 55% de los genes con CaP y era más preciso que el modelo construido en los datos que incluye los genes putativos de la ACP, como los genes no-PCA, en el que el 96% de los no-CP genes y el 46% de los genes con CaP se predijo correctamente.

Tabla S4 muestra el top 200 genes predichos CaP e indica si se les conocía, putativo, o nuevos genes predicho. Ranking de los genes de acuerdo a las probabilidades derivada modelo-reconfigurado la lista basada en CS inicial:
AR gratis (receptor de andrógenos) se ocupa el séptimo lugar, no en primer lugar, que en la lista original, y
KLK3
(antígeno prostático específico [PSA]) fue cuarto, a pesar de que fue segundo en la lista original. En general, la correlación entre la CS y la probabilidad derivada modelo de relacionarse CaP fue de 0,32, df = 200;
p
= 2 × 10
-6. Tabla S5 muestra variables individuales que contribuyen a la probabilidad de que el gen se asocia con CaP.

Los genes putativos CaP tienen una mayor probabilidad de ser clasificado como CP relacionados

genes putativos CaP se espera que tengan una mayor probabilidad de ser CaP relacionados con que los genes no tiene CaP. Usamos nuestro modelo basado en los datos sin los genes putativos para estimar la probabilidad de que un gen putativo está relacionada CaP, la comparación de las proporciones de los genes predichos para ser CaP relacionados entre los genes conocidos, putativos, y no CaP. Las proporciones de los genes predichos estar relacionada CaP fueron 0,052 ± 0,002 para los genes no-PCA, 0,224 ± 0,017 para los genes putativos de CaP, y 0,547 ± 0,049 para los genes CaP conocidos. Como se señaló anteriormente, también construimos un modelo que incluyó los genes putativos CaP como genes no CaP. En general, la precisión de la predicción fue menor con este modelo, con las proporciones de los genes prevé que se CaP asociada siendo 0,037 ± 0,002 para los genes no-PCA, 0,217 ± 0,016 para los genes CaP putativos, y 0,455 ± 0,049 para la conocida CaP los genes.

es la predicción CaP específico?

Para saber si nuestro modelo predictivo es CaP específica, se identificaron las 100 principales genes de mama y de pulmón utilizando el enfoque basado en KN (Tabla S2 ). En general, la proporción de los genes del cáncer predijo correctamente fue mayor para la próstata (0,55 ± 0,03) que para los de mama (0,37 ± 0,02) y los cánceres de pulmón (0,31 ± 0,02). Para el modelo construido sobre la base de los predictores no específicos únicamente, la precisión fue mejor para los genes PCA (0,55 ± 0,02) que lo fue para los de mama (0,24 ± 0,02) y el cáncer de pulmón (0,21 ± 0,02) los genes. Y para el modelo basado en predictores específicas, la eficacia de la predicción también fue mayor para la próstata (0,30 ± 0,02) de lo que era para el pecho (0,08 ± 0,01) y cáncer de pulmón (0,08 ± 0,01) genes.

Descubrimiento y conjuntos de validación

Para la validación interna, se asignó aleatoriamente a las 200 genes relacionados con el PCA para el descubrimiento y validación conjuntos así que había 100 genes en cada grupo. Luego construyó el modelo BLR sobre la base del conjunto de descubrimiento y lo usamos para predecir los genes de PCA de el conjunto de validación. El modelo descubrimiento predijo correctamente 95% de los genes no CaP y 43 ± 5% de los genes ACC; predijo proporciones similares en el conjunto de validación: el 96% de los genes de los no-PCA y 38 ± 5% de los genes con CaP. Se realizó este procedimiento 100 veces.

permutaciones

Se asignó al azar a 100 CP estado de los genes de los 15.348 genes en la tabla original y construimos un modelo de predicción de los genes "falsas" utilizando el mismo 33 variables (Tabla 1). El procedimiento se realizó de 100 veces. Hubo un promedio de 0-2 variables significativas en el modelo gen maqueta, y esas variables varían de modelo a modelo. En promedio, 0,7 ± 0,2% simulacros de genes CaP se predijo correctamente, lo que es significativamente (
p Hotel & lt; & lt; 10
-6) inferior al porcentaje del predicho correctamente "verdaderos" genes PCA ( 55 ± 5%).

externo validación

Para la validación externa, se utilizaron los resultados del informe recientemente publicado sobre las mutaciones somáticas recurrentes en tumores de próstata [19]. Ese estudio identificó 20 genes-
BDH1, DKK1, Dlk2, FSIP2, GLI1, IKZF4, KDM4B, MGAT4B, NMI, NRCAM, PCDH11X, PDZRN3, PLA2G16, RAB32, SDF4, SF3A1, TBX20, TFG, TP53, España y
ZNF473- Windows que tienen mutaciones somáticas recurrentes. Diecisiete de estos genes (todos excepto
BDH1, FSIP2
, y
PLAG16
) estaban en nuestra lista original de 15.348 genes. Se encontró que la probabilidad generadas por el modelo de ser un gen CaP fue más de diez veces mayor para los genes con mutaciones somáticas recurrentes de lo que era para todos los demás genes: 0.082 ± 0.041
VS
0,007 ± 0,001;. df = 15.348,
t
= 5,4,
p Hotel & lt; 10
6 (Figura 1). Los otros predictores significativos fueron los factores de transcripción, el CS utilizan para clasificar los genes de PCA de la literatura minera, la proliferación celular, fosfatasas, factores de crecimiento, y la angiogénesis. Se obtuvieron resultados similares para los genes con los reportados CaP mutaciones somáticas de la base de datos COSMIC [18]. La probabilidad derivada modelo de ser un gen CaP fue el predictor más importante de genes con mutaciones somáticas recurrentes en tumores de próstata. Otros predictores fueron CS, quinasas, antiapoptótico, la proliferación celular, acetilado, membrana plasmática, y la angiogénesis.

La línea vertical representa un umbral de significación estadística.

Específico vs. inespecíficas Predictores

Hemos construido un modelo basado en sólo específicos (ocho variables) y solo (25 variables) predictores no específicos. En el modelo no específica, 11 variables fueron significativas (en orden de significación estadística decreciente): quinasas, fosfatasas, espacio extracelular, factores de transcripción, antiapoptóticos, transducción de señales, factores de crecimiento, proliferación celular, sumoylated, la adhesión celular y la angiogénesis. El modelo no específica predijo correctamente 95% de los no CaP y 40% de los genes ACC; que en base a variables específicas predijo correctamente el 95,5% de los no-CP y el 30,2% de los genes con CaP. Había cuatro predictores significativos de ese modelo (en orden de importancia estadística decreciente):. Expresión específico de la próstata (puntuación de enriquecimiento), la variación en el tejido adyacente, meta-análisis de la expresión génica, y meta-análisis de tres niveles

Discusión

Hemos identificado una combinación de rasgos que es característica de los genes CaP: un gen típico CaP es un factor de transcripción específico de la próstata, quinasa, o fosfatasa con alta varianza interindividual en el tejido de próstata normal adyacente y se expresa de forma diferente (upregulated o downregulated) en el tejido prostático normal y tumor primario. genes de CaP pueden tener un efecto antiapoptótico y desempeñar un papel en la proliferación celular, la angiogénesis y la adhesión celular. Sus productos son susceptibles de ser ubiquitinada o sumoylated pero no acetilado. Son propensos a estar involucrados en la transducción de señal y de ser un componente del espacio extracelular. Algunas de las características identificadas de los genes PCA (
por ejemplo, la proliferación celular
o angiogénesis) son evidentes, mientras que otros (
por ejemplo
., La especificidad tisular, una mayor varianza de la expresión génica en la próstata normal adyacente tejidos, o ubiquitinación) no son tan evidentes. Debido a varios factores diferentes están involucrados en el nombramiento de un gen que estar relacionado cáncer de próstata, diferentes genes muestran los efectos de diferentes predictores. Los predictores se indican en la Tabla S5.

Nuestro modelo también permite una clasificación de los genes que son, de acuerdo a la evidencia generada por el modelo, el CP relacionado y por lo tanto predictivo de nuevos genes CaP. Una breve descripción de los diez primeros novela predijo sigue genes CaP


UPK3A-
uroplakin. 3A; un miembro de la familia uroplakin, un grupo de proteínas transmembrana que forman complejos en la superficie apical del epitelio de la vejiga. Las mutaciones en
UPK3A
están asociados con adysplasia renal [20].


KITLG-
codifica el ligando del receptor de la tirosina quinasa. El gen se cree que juega un papel en la migración celular [21].


NPY-
ampliamente expresado en el sistema nervioso central y influye en muchos procesos fisiológicos, incluyendo la excitabilidad cortical, la respuesta al estrés, la comida ingesta, los ritmos circadianos, y la función cardiovascular.


GHR-
un miembro del tipo I citoquina de la familia del receptor.


SCGB1A-
un miembro de la familia secretoglobin de pequeñas proteínas secretadas. La proteína codificada se ha implicado en numerosas funciones, incluyendo anti-inflamación, la inhibición de la fosfolipasa A2, y el secuestro de ligandos hidrófobos.


NR3C1-
codifica el receptor de glucocorticoides, que puede funcionar como un factor de transcripción y un regulador de otros factores de transcripción.


JUP-
codifica una proteína que es un elemento estructural de placas submembranarias de desmosomas. Que forma complejos con cadherinas.


NPM1-
codifica una fosfoproteína que se mueve entre el núcleo y el citoplasma. El producto del gen se cree que está involucrado en varios procesos, incluyendo la regulación de la vía /p53 ARF.


CD177-
NB1, una ligada-glicosil-fosfatidilinositol
N
-glycosylated glicoproteína de superficie celular, fue descrito por primera vez en un caso de neutropenia aloinmune neonatal [22].


FAM55D-
cromosoma 11 marco de lectura abierto 33. Poco se sabe de este gen, pero se downregulated en el tumor de próstata.

Hemos llevado a cabo la anotación funcional de nuevos genes CaP mediante el uso de todos los 15.348 genes como un fondo para tener en cuenta el posible sesgo de selección. Para la anotación funcional, se utilizó la base de datos para anotación, y Visualización, Integrada Discovery (DAVID) [23]. Las principales funciones biológicas asociadas con los nuevos genes de CaP fueron antiapoptosis, la regulación de la proliferación celular, la regulación positiva de la actividad quinasa, la regulación positiva de la actividad de transferasa, la angiogénesis, la regulación positiva de la división celular, la adhesión celular, MAPKKK cascada, el desarrollo óseo y la regulación de localización celular. (Más información detallada se puede encontrar en la información de apoyo.) Existe un considerable solapamiento entre la descripción de la novela conocidos y previstos funciones CaP genes ': Antiapoptosis, la regulación de la proliferación celular, la regulación positiva de la actividad quinasa, la regulación positiva de la actividad transferasa, y MAPKKK cascada están presentes en ambas listas. La única función única asociada a los nuevos genes predichos CaP fue el desarrollo óseo en diez genes:
GHR, AMELX, TRAF6, FGF9, Smad1, CTGF, IGF-2, AMBN, FGF18, España y
PTN
.

los resultados de la validación interna demostró que los genes relacionados con la PCa no son una colección aleatoria de genes, sino que comparten una combinación de varias características. También demuestran que es poco probable que overfit el modelo. La validación externa demostró que la probabilidad generadas por el modelo de ser un gen CaP es el predictor más significativo de los candidatos CaP identificadas mediante el análisis de mutaciones somáticas recurrentes. Por otra parte, la presencia de mutaciones somáticas en muestras de tumores puede ser uno de los factores que elevan el CS y por lo tanto contribuyen a la mayor probabilidad de ser clasificado como un gen CaP conocido. De hecho, el CS fue la tercera predictor más significativo de los genes con mutaciones somáticas recurrentes. Sin embargo, fue más bajo que el
t
estadística de la probabilidad generadas por el modelo de ser un gen CP:. 5.5
vs
3.4. La proporción de los genes con mutaciones somáticas COSMICAS fue mayor entre los genes putativos CaP: χ
2 = 22,8, df = 1,
p Hotel & lt; 0,0001. La proporción estaba en el límite superior para los nuevos genes predichos CaP: χ
2 = 3,8, df = 1,
p = 0,05
. También se encontró que la probabilidad media derivada modelo de las publicadas 112 genes con una firma de selección positiva [24] fue mayor que la de un gen de medio en el genoma humano: de Student
t
test = 2,0, df = 30.495,
p = 0,04
. La superposición es modesto, pero significativo, sobre todo si tenemos en cuenta que la lista publicada de los genes del cáncer se generó para cualquier tipo de cáncer, mientras que en nuestro estudio nos centramos en el CP solamente.

Hemos demostrado que tanto específicos y los predictores no específicos son importantes: los modelos basados ​​en sólo específicos o no específicos únicamente predictores son menos eficientes que el modelo construido en la combinación de los rasgos. El modelo específico basado en predictor es más específico de la próstata que es el modelo basado en predictores no específicos.

Es evidente que la estructura del modelo de predicción depende en gran medida del conjunto de entrenamiento. Se utilizó una definición amplia de CaP con los siguientes términos secundarios: las células del cáncer de próstata, el riesgo de cáncer de próstata, Gleason,, neoplasias prostáticas independientes de andrógenos, la puntuación de Gleason, la prostatectomía, de próstata metastásico, cáncer de próstata humano, la prostatectomía radical, de próstata independiente de andrógenos, de próstata avanzado, el antígeno específico de la próstata, la próstata primario, benigno de la próstata, tumores de próstata, específico de la próstata, la carcinogénesis de próstata, y benigna de próstata. Aunque en su forma actual, el modelo está diseñado para predecir ampliamente definida genes CaP, que se puede ajustar para ser más específicos; por ejemplo, para predecir genes CaP de progresión. El elemento crucial aquí es definir un conjunto de entrenamiento fiable para los genes CaP asociados con la progresión del cáncer.

El modelo BLR es uno de los muchos algoritmos de clasificación disponibles. Para ver si otros métodos de clasificación podrían producir resultados similares, también se analizaron los datos mediante el uso de análisis discriminante lineal (LDA) y máquinas de vectores soporte (SVM). Hemos encontrado que LDA y BLR tienen eficacias de clasificación bastante similares: el 51% y el 55% correctamente clasificados genes ACC con el 95% y el 96% de los genes no CaP correctamente clasificados, esencialmente con el mismo conjunto de predictores significativos en el modelo. La validación también fue ligeramente mejor para el modelo BLR, con un 18% de los genes putativos CaP prevé que se CaP genes, en comparación con 22% para el modelo LDA. En comparación con el BLR, la SVM fue más eficiente en el conjunto de descubrimiento, predecir correctamente 84% de los genes conocidos y CaP 95% de los genes no-PCA; Sin embargo, en la validación, que predijo correctamente sólo el 34% de los genes con CaP, mientras que el modelo BLR predijo correctamente el 46% de los genes con CaP en el descubrimiento y el 44% en el conjunto de validación. Debido a que una mejor eficiencia de la validación, nos centramos en el modelo BLR.

El siguiente paso lógico sería la validación experimental de los nuevos candidatos CaP identificados por el modelo. Creemos que una de las mejores maneras de hacerlo sería con una plataforma de cribado de alto rendimiento. Por ejemplo, se puede utilizar la detección de RNAi de alto rendimiento de líneas de células de CaP. Después de silenciamiento de un gen candidato por RNAi, se puede estimar el efecto del gen sobre la proliferación celular, la migración, y la apoptosis. Los genes con un fuerte efecto en estos fenotipos asociados con el cáncer pueden ser analizados en el tejido humano para confirmar su papel en la tumorigénesis de próstata.

En conclusión, hemos desarrollado un modelo BLR basada en la bioinformática para la predicción de los genes asociados con CaP. El modelo permite la clasificación de genes humanos en función de su probabilidad de ser asociado CaP. Se identificaron una serie de nuevos candidatos ACC con altas probabilidades de estar relacionada CaP, y los candidatos pueden merecer la validación experimental. El enfoque se utilizó también se puede aplicar a otros tipos de genes y otros tipos de cáncer; actualmente estamos trabajando en el modelo para la predicción de genes del cáncer de pulmón.

Apoyo a la Información sobre Table S1. Empresas El 707 genes con CS que van desde 2.663 a la 0,001; se utilizó el top 100 de estos genes como
doi "genes ACP conocidos.": 10.1371 /journal.pone.0049175.s001 gratis (XLSX)
Tabla S2. Francia El top 100 de cáncer de mama y cáncer de pulmón de 100 genes identificados mediante el uso del enfoque KnowledgeNet
doi:. 10.1371 /journal.pone.0049175.s002 gratis (DOCX) sobre Table S3.
análisis univariable identificó 22 de las 33 variables originales originales como predictores significativos de genes CaP
doi:. 10.1371 /journal.pone.0049175.s003 gratis (DOCX) sobre Table S4.
Ranking de los 200 mejores genes de probabilidad generada por el modelo de relacionarse CaP. P, CP gen putativo; K, el CP gen conocido; NP, novela predijo gen CP
doi:. 10.1371 /journal.pone.0049175.s004 gratis (DOCX) sobre Table S5.
individual variables que contribuyen en la novela predijo genes CaP. las variables resaltadas contribuyen a una alta probabilidad de que un gen se asocia CaP. Para las variables binarias, factores positivos tienen el valor de 1; para las variables continuas, los predictores tienen un valor más alto que m + σ, donde m es una media y σ es la desviación estándar
doi:. 10.1371 /journal.pone.0049175.s005 gratis (XLS)
Información S1.
Descripción de las variables utilizadas para construir el modelo de predicción. Las variables se muestran en el orden en que se presentan en la Tabla 1.
doi: 10.1371 /journal.pone.0049175.s006 gratis (DOCX)

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]