Extracto
cáncer no microcítico de pulmón no microcítico (CPNM) tiene dos subtipos principales: adenocarcinoma (AC) y carcinoma de células escamosas (SCC). El diagnóstico y el tratamiento del CPNM se ven obstaculizadas por el limitado conocimiento sobre los mecanismos de la patogénesis de subtipos de NSCLC. Es necesario investigar los mecanismos moleculares relacionados con el AC y SCC. En este trabajo, hemos mejorado el algoritmo de análisis lógico para extraer las condiciones suficientes y necesarias para los estados de presencia (presencia o ausencia) de fenotipos. Hemos aplicado nuestro método a muestras de CA y SCC, y se identificaron las relaciones lógicas bajas y más altas entre los genes y dos subtipos de NSCLC. Las relaciones descubiertas eran independientes de los especímenes seleccionados, y su importancia se validó mediante la prueba estadística. En comparación con los dos métodos anteriores (el método de factorización de la matriz no negativa y el método de análisis pertinente), el método actual superó estos métodos en el índice de repetición y la clasificación de precisión en NSCLC y las muestras normales. Se obtuvieron biomarcadores. Entre los biomarcadores, los genes se han utilizado para distinguir de CA de SCC en la práctica, y otros seis genes fueron biomarcadores recién descubierto para distinguir subtipos. Además,
NKX2-1
ha sido considerada como una diana molecular para la terapia dirigida de AC, y otros genes pueden ser nuevas dianas moleculares. Por el análisis de genes ontología, se encontró que los dos procesos biológicos ( 'desarrollo epidermis' y 'adhesión celular') estaban estrechamente relacionados con el proceso tumoral de los subtipos de NSCLC. De manera más general, el método actual podría extenderse a otras enfermedades complejas para distinguir subtipos y la detección de las dianas moleculares para la terapia dirigida
Visto:. Su Y, Pan L (2014) Identificación de la lógica relaciones entre los genes y subtipos de Cáncer de pulmón de células no pequeñas. PLoS ONE 9 (4): e94644. doi: 10.1371 /journal.pone.0094644
Editor: Zhang Yan, de la Universidad Médica de Harbin, China
Recibido: noviembre 20, 2013; Aceptado: March 18, 2014; Publicado: 17 Abril, 2014
Derechos de Autor © 2014 Su, Pan. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Los autores 'trabajo es apoyado por la Fundación Nacional de Ciencias Naturales de China (Grant Nos. 61100145, 61033003 y 91130034). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
el cáncer de pulmón es la principal causa de muerte por cáncer en el mundo [1]. Se ha dividido en dos clases por la Organización Mundial de la Salud (OMS): el cáncer de pulmón de células no pequeñas (NSCLC) y cáncer de pulmón de células pequeñas (SCLC) [2]. NSCLC, que tiene dos subtipos principales: adenocarcinoma (AC) y el carcinoma de células escamosas (SCC), responsable de más de la mitad de todos los casos de cáncer de pulmón [2]. Sin embargo, menos de los pacientes con CPNM sobreviven más de cinco años [3]. La eficacia limitada de la diagnosis y el tratamiento de NSCLC es causada principalmente por la dificultad de distinguir los subtipos y el conocimiento limitado acerca de los mecanismos de la patogénesis de los subtipos de NSCLC.
NSCLC es una enfermedad del sistema, y la diferencia de AC y SCC puede reflejarse en el nivel celular y molecular. Los métodos tradicionales se basan en la morfología celular visual (por ejemplo, tamaño del tumor y las características histológicas) para distinguir subtipos, que se basan en el nivel celular [4] - [6]. Se ha propuesto que los métodos tradicionales podrían distinguir efectivamente SCLC de NSCLC debido a la clara distinción entre la morfología de las células de SCLC y el de células de NSCLC [7]. Sin embargo, la diferencia morfológica entre los subtipos de NSCLC sigue siendo poco clara [8]. datos de nivel moleculares múltiples (mRNA, microARN y datos de metilación) entre NSCLC y normal se han utilizado para el análisis de las disfunciones de NSCLC [9]. Se sugirió que la capacidad de discriminación de los genes obtenidos por los datos de ARNm fue significativa mayores que las de los datos de microARN y metilación. Por lo tanto, es razonable para recuperar valiosos genes y procesos biológicos que tienen una gran capacidad de discriminar entre AC y SCC en el ARNm.
Un agente terapéutico dirigido está diseñado para interferir con una diana molecular específica que desempeña un papel crucial para el crecimiento tumoral y la progresión [10]. Por ejemplo, que es un agente terapéutico específica para la terapia dirigida de CPNM, es un anticuerpo monoclonal para
VEGF
. El gen
VEGF
es crucial porque es más alto expresado en el cáncer de pulmón que en pulmón normal [11]. Por lo tanto, las moléculas que desempeñan funciones distintas entre el cáncer y normales pueden ser importantes para la selección de agentes terapéuticos. Aunque la terapia dirigida muestra beneficios clínicos, agentes dirigidos no han permitido a las terapias dirigidas a cambiar el resultado clínico de forma espectacular. Por otra parte, los horarios terapéuticos dirigidos existentes pueden ser adecuados para el pronóstico de un subtipo especial de NSCLC. Por ejemplo, sólo los pacientes con SCC no son mejores para usar [12]. Por lo tanto, es necesario investigar los mecanismos moleculares que están relacionados con los subtipos de NSCLC, para desarrollar métodos eficaces para distinguir de CA de SCC y nuevos agentes terapéuticos especiales para los subtipos de NSCLC.
Los patrones de expresión de varios genes se encuentran para ser especial para los subtipos de enfermedades. Por ejemplo, el gen
NKX2-1
se expresa en pulmón AC [13]. La caída de
NKX2-1
inhibición resultados de crecimiento en células de pulmón de AC. Por lo tanto, la presencia de pulmón AC depende de la expresión de
NKX2-1
[14]. Otro ejemplo está involucrado en la investigación del cáncer de esófago, la combinación de los genes
GATA6
y
SPRR3
pueda discriminar entre las epitelio normal, displasia de Barrett y el esófago de Barrett asociados CA [15]. Existen algunas relaciones especiales entre el par de genes (
GATA6
y
SPRR3
) y los fenotipos de cáncer de esófago. Estos ejemplos sugieren la existencia de relaciones entre los genes y los subtipos de enfermedades
Los métodos que identifican indirectamente relaciones gen-fenotipo se pueden dividir aproximadamente en tres pasos comunes:. Construir un gen-gen (o proteína-proteína) la red y una red fenotipo-fenotipo mediante la agrupación de los datos de interacción de varias bases de datos; conectar el gen-gen (o proteína-proteína) de red con la red fenotipo-fenotipo; utilizar un algoritmo (por ejemplo, de paseo aleatorio con reinicio en el algoritmo de red heterogénea) para inferir las relaciones gen-fenotipo pares [16], [17]. Sin embargo, el ruido de la integración de los datos limita la eficacia de la detección de las relaciones gen-fenotipo.
Muchos métodos han sido desarrollados para asociar directamente moléculas individuales a fenotipos. El método no negativo matriz de factorización (NMF) es un algoritmo de dimensionalidad-reductor para obtener un conjunto de metagenes y coeficientes asociados [18]. Cada fenotipo corresponde a una MetaGene. El coeficiente de un gen en una MetaGene representa la cercanía de la relación entre el gen y el fenotipo correspondiente a la MetaGene. Este método requiere filtrar varios datos para asegurar la condición no negativo, que puede pérdida alguna información útil. coeficientes de correlación lineal se utilizaron para medir las asociaciones genotipo-fenotipo entre las proteínas individuales en un microbio y fenotipos del microbio [19]. Slonim et al. utilizado el método de análisis de relevancia (RA) para inferir las relaciones gen-fenotipo mediante la estimación de la información mutua [20]. Sin embargo, los rasgos fenotípicos son a menudo influenciadas no por un único gen, pero por combinaciones de genes. La asociación minera regla (ARM) es una técnica de minería de datos para extraer reglas condicionales con la forma general [21]. Bowers et al. diseñado el método de análisis de la lógica para obtener reglas si-entonces de un elemento o una combinación de elementos a otra. Estudios previos se han realizado para inferir las relaciones lógicas entre los genes o proteínas utilizando el análisis de la lógica de pares y tripletes de datos de expresión o perfiles filogenéticos [22]. Sin embargo, a continuación, si no en reglas pueden tener muchos casos biológicos a menos que la relación inversa mantiene así [23].
En el presente trabajo, mejoramos el método de análisis lógico para extraer las condiciones necesarias y suficientes para que los estados de presencia (presencia o ausencia) de fenotipos [22]. El método actual tiene en cuenta tanto un único gen y un par de genes que pueden influir en fenotipos. Aplicamos el método para inferir las relaciones gen-subtipos basados en muestras de CA y SCC. Se sugiere que los patrones de expresión (expresión o no expresión) de los genes identificados son condiciones necesarias y suficientes para que los estados de presencia de CA o SCC. La eficacia del método actual se demuestra en NSCLC y las muestras normales. Nuestros resultados muestran que el método actual supera los dos métodos existentes (el método NMF y el método de RA) en índice de repetición y la precisión de clasificación. Este trabajo podría ayudar a encontrar los biomarcadores para distinguir los subtipos de enfermedades y diseñar novedosas específicas agentes terapéuticos para enfermedades, así como revelan los procesos biológicos que están estrechamente relacionados con las enfermedades.
Resultados
Hemos aplicado nuestro método para identificar las relaciones entre los genes y dos subtipos principales de CPNM (CA y SCC). Además, la comparación de rendimiento de nuestro método con los de los dos métodos anteriores (el método NMF y el método RA) se hizo mediante la comparación de dos medidas (el índice de repetición y la precisión de clasificación) en los datos de GSE18842 que contiene un número similar de NSCLC y especímenes normales. Los marcadores biológicos, así como los procesos biológicos que están estrechamente relacionados con los subtipos de NSCLC podrían ser obtenidos de varias relaciones interesantes entre los genes y subtipos de NSCLC.
Identificación de las relaciones gen-subtipo más bajo y más alto de lógica
Dado que el número de especímenes de CA () fue mucho mayor que la de las muestras de SCC () (Tabla 1), se seleccionaron al azar el número fijo (es decir) de las muestras de corriente alterna para asegurar el número similar de muestras para diferentes fenotipos. Concertamos las columnas de datos de la sonda binarios, así como las de datos de perfil de fenotipo, que corresponden a las muestras de CA seleccionado y todos los especímenes de SCC. Los nuevos datos de la sonda binarios y datos del perfil fenotipo se formaron por las columnas que se exija de datos de la sonda binarios y datos del perfil fenotipo, manteniendo las posiciones relativas de las columnas. Los nuevos datos de la sonda binarios tenían tamaño, donde las primeras columnas corresponden a los especímenes de CA, y las últimas columnas refered a los especímenes de SCC. Los nuevos datos del perfil fenotipo tenían tamaño, donde la primera fila representa AC y la segunda representada SCC. Por conveniencia, definimos la primera y segunda fila de los nuevos datos del perfil fenotipo como datos del perfil de corriente alterna y datos del perfil de SCC, respectivamente. Los subtipos de NSCLC de datos comprenden los nuevos datos de la sonda binario y los nuevos datos del perfil fenotipo. Hemos aplicado nuestro método a los subtipos de NSCLC de datos a las relaciones lógicas gen-subtipo de minas.
Identificación de sonda-subtipo relaciones lógicas superiores e inferiores.
A partir de los subtipos de NSCLC datos, se calculó el coeficiente de incertidumbre para un subtipo de NSCLC predicho por una sonda (o un par de sondas), así como el coeficiente de incertidumbre para una sonda (o un par de sondas) predicho por el subtipo en la dirección inversa. El mismo procedimiento se aplica a los datos de la sonda binarios aleatorios y datos de perfil de fenotipo. Los coeficientes máximos de incertidumbre aleatorios para pairwise lógica y triplete combinaciones se utilizaron como los umbrales de las relaciones lógicas inferior y superior, respectivamente. Es decir, la asociación de una sonda o un par de sondas con un subtipo fue considerado significativo si, y sólo si no se encontraron sus coeficientes de incertidumbre en ambas direcciones para ser mayor que el valor máximo obtenido a partir de los datos aleatorios. Sean y los umbrales de las relaciones lógicas inferior y superior, respectivamente. Obtuvimos lógicas combinaciones pareadas y combinaciones de tripletes lógica con la incertidumbre coeficientes superiores a y, respectivamente.
Debido a la importancia de la lógica de pares descubierto y combinaciones de tripletes no se puede verificar con exactitud por el conocimiento limitado de genes subtipo interacciones, una El análisis estadístico se merecía ser estimado [24]. Supongamos que el nivel de significación fue. Los valores de p fueron todos ceros para las combinaciones pareadas lógica y triplete descubiertos, que eran más pequeños que el nivel de significación. Los resultados de los análisis estadísticos mostraron que los pares y tripletes combinaciones lógicas descubiertas no interactúan de forma aleatoria.
A continuación, se evaluó la tasa de falso descubrimiento (FDR) para controlar la importancia mundial de la lógica de pares descubierto y combinaciones de tripletes . Ambos valores FDR para las combinaciones de pares y tripletes descubiertas eran cero, por lo tanto, todas las combinaciones pareadas lógica y triplete descubiertos no fueron generados por casualidad y todos ellos podrían representar a las asociaciones reales.
Además, se calculó la tasa de recurrencia de descubierto por parejas lógica y combinaciones de tripletes entre todos los ensayos aleatorios. Las relaciones lógicas con la tasa de recurrencia más grande que se considera como las relaciones que eran independientes de las muestras seleccionadas. Por último, hemos derivado sonda-AC relaciones lógicas más bajas y las relaciones lógicas superior sonda de corriente alterna (Tabla A y B en la Tabla S1).
Tenga en cuenta que los datos del perfil de CA y los datos del perfil de SCC eran complementarios vectores binarios. Si una sonda (o un par de sondas) se relaciona con el AC por la ésimo tipo de relaciones (superior) de la lógica más bajos, a continuación, la sonda (la sonda par) se relaciona con SCC por la ésimo tipo de relaciones más baja (alta) de lógica, donde el coeficiente de incertidumbre de la menor (mayor) relación lógica sonda-SCC es igual a la de la sonda-AC menor (mayor) relación lógica, pero. Por lo tanto, la sonda que tiene una estrecha relación con CA está también estrechamente relacionado con SCC. Por último, se obtuvo la sonda-AC /SCC relaciones lógicas más bajos y la sonda-AC /SCC relaciones lógica superior.
Identificación de genes y subtipo relaciones lógicas superiores e inferiores.
Cada sonda, que era centrado en este trabajo, se asigna a un solo gen. A la inversa, un gen puede ser detectada por más de una sonda. Por ejemplo, el
CLCA2
gen se detectó por cuatro sondas diferentes:
206164_at
,
206165_s_at
,
206166_s_at
y
217528_at
. Todas las cuatro sondas anteriores estaban relacionados con AC por el segundo tipo de relaciones lógicas inferiores. Por otra parte,,, y fueron los coeficientes de incertidumbre significa para cada una de las cuatro sondas relacionadas con el AC en ambas direcciones, respectivamente. Una relación lógica sonda conjunto-AC compone varias relaciones lógicas sonda de corriente alterna, donde las sondas se asocian a los mismos genes. En un conjunto de relaciones lógico-sonda de CA, la sonda-AC /SCC relación lógica con la mayor media de los coeficientes de incertidumbre en ambas direcciones se utilizan para generar un gen de CA relación lógica /SCC como se describe en la sección Materiales y Métodos. Por lo tanto,
CLCA2
estaba relacionado con el AC por el segundo tipo de relaciones lógicas más bajos y el coeficiente de la
CLCA2
-AC /SCC relación era.
De acuerdo con lo anterior método, gen-AC /SCC relaciones lógicas inferior se generaron a partir de la sonda-AC /SCC relaciones lógicas inferiores (Tabla a en la Tabla S2). Cada una de las sondas-AC /SCC relaciones lógicas menor de descanso genera una relación lógica inferior gen-AC /SCC. Por último, se obtuvo el gen de AC /SCC relaciones lógicas más bajos (Tabla A en la Tabla S3).
Hemos encontrado que si un gen se detectó por más de una sonda, y las sondas estaban relacionados con los subtipos por la lógica inferior relaciones, entonces los tipos de la sonda-AC /SCC relaciones lógicas menor eran los mismos. Se sugiere que las sondas que están asociados a los mismos genes pueden estar relacionados con los subtipos de la misma manera.
Se obtuvieron seis gen-AC /SCC relaciones lógica superior de sonda-AC /SCC relaciones lógica superior ( Tabla B en la Tabla S2). Cada una de las sondas-AC /SCC relaciones lógicas más alta de descanso genera una relación lógica superior gen-AC /SCC. Por último, se obtuvo gen-AC /SCC relaciones lógicas más altas (Tabla B en la Tabla S3).
En lo que sigue, discutimos ejemplos de relaciones lógicas que pueden inferirse de los fenómenos descritos previamente en la literatura.
Ejemplos de relaciones lógicas gen-subtipo más bajos.
Si cada uno de los genes
DSG3
,
CLCA2
,
DSC3
y
pKP1
se expresó, a continuación, SCC estaba presente, mientras que el AC estaba ausente. Además, si no se expresó cada uno de los genes anteriores, entonces SCC estaba ausente y AC estaba presente. Es decir, la expresión de cada uno de los genes anteriores era una condición suficiente y necesaria de la presencia de SCC así como la ausencia de AC. Nuestros resultados sugieren que los genes (
DSG3
,
CLCA2
,
DSC3
y
pKP1
) pueden distinguirse AC subtipo de SCC. Dado que los puentes intracelulares son uno de los más característicos de SCC, pero no de CA, las proteínas implicadas en estos puentes pueden ser de hasta reguladas en SCC solamente, tales como desmosome proteínas y las proteínas de unión intercelular [25].
Desmogleína 3
es la proteína codificada por
DSG3
. Esta proteína es un componente de glicoproteína transmembrana de unión a calcio de desmosomas en las células epiteliales de vertebrados. La proteína codificada por
DSC3
es una glucoproteína dependiente de calcio (
desmocolina 3
) que se requiere para la adhesión celular y la formación de desmosomas. La proteína codificada por
pKP1
pueden estar involucrados en el reclutamiento y la estabilización molecular durante la formación de desmosomas. La proteína codificada por
CLCA2
pertenece a la familia de proteínas de cloruro sensible la conductancia de calcio. Puede servir como molécula de adhesión de células de cáncer metastásico de pulmón. Los cuatro genes anteriores (
DSC3
,
DSG3
,
pKP1
y
CLCA2
) que están asociados a los desmosomas se encontró que eran hasta reguladas en SCC en comparación con el subtipo de CA [26]. En concreto,
DSG3
mostró una alta expresión en SCC, mientras que la baja expresión en CA [26].
DSC3
también se reguló en SCC exclusivamente [27], [28]. En los tumores primarios de pulmón,
DSC3
era un marcador de diagnóstico potencial para el carcinoma de pulmón de células escamosas [29].
pKP1
mostró unas veces mayor nivel de expresión en los CE que en ACS y pulmonar normal y por lo tanto pueden ser útiles en el diagnóstico histopatológico [28].
CLCA2
se ha deducido que se sobreexpresa específicamente en SCC [30].
Se encontró que el subtipo de CA (SCC) estaba presente (ausente) si y sólo si
NKX2-1
se expresó. Se infiere que la expresión de
NKX2-1
en la muestra de AC es mucho mayor que la de SCC.
NKX2-1
que se conoce como factor de transcripción tiroideo 1 (
TITF-1
) es un factor de transactivación que contiene homeodominio-, y se expresa en los bronquiolos terminales pulmonares y la periferia pulmonar predominantemente [31 ]. La presencia de
NKX2-1
proteína era frecuente en AC, mientras que en SCC
NKX2-1
estaba ausente [13]. Está de acuerdo con nuestros resultados.
Ejemplos de genes subtipo más alta relaciones lógicas.
Se seleccionaron las relaciones lógicas entre pares de genes mayores y SCC para su posterior análisis. pares de genes (
GPX2
,
ITGB8
) y (
GPX2
,
SLC2A12
) estaban relacionados con SCC, a través de una 'Y' relación lógica ( lógica superior tipo de relación). Se indica que
GPX2
,
ITGB8
y
SLC2A12
fueron todos expresaron si el espécimen fue SCC. Por otra parte, todos los genes
GPX2
,
ITGB8
y
SLC2A12
no se expresaron si la muestra fue de corriente alterna.
GPX2
se detectó a tener una mayor expresión en SCC en comparación con el AC y normal [32], [33]. Nos eran conscientes de la evidencia en la literatura de las relaciones entre los
ITGB8
,
SLC2A12
y los subtipos de NSCLC. Nuestro análisis generó varias relaciones nuevas.
No hay suficientes evidencias para las relaciones lógicas mayores para distinguir los subtipos de NSCLC. Por lo tanto, la mayoría de las relaciones entre pares de genes y los subtipos de NSCLC no han sido confirmados. A medida que la falta de conocimiento acerca de las relaciones entre los genes de regulación y subtipos, las relaciones exactas entre los pares de genes comunes y subtipos se merecen ser facturado.
Comparación de rendimiento
concertamos las columnas de binario datos de la sonda, así como las de datos de perfil de fenotipo, que corresponden a las muestras de NSCLC y las muestras normales de GSE18842. Los nuevos datos de la sonda binarios y datos del perfil fenotipo se formaron por las columnas que se exija de datos de la sonda binarios y datos del perfil fenotipo, manteniendo las posiciones relativas de las columnas. Los datos de NSCLC y normales comprenden los nuevos datos de la sonda binarios y datos del perfil fenotipo.
La aplicación de los tres métodos.
Hemos aplicado en primer lugar el método actual de los datos normales NSCLC y. Hemos establecido el, y se obtuvo la sonda-fenotipo menor relaciones lógicas. El significado y la importancia global de las relaciones descubiertas fueron verificados mediante la prueba estadística.
A continuación, se aplica el método de NMF a los datos normales NSCLC y. Filas con 's' se filtraron de los datos de la sonda binarios para garantizar la viabilidad del método NMF. Los datos de la sonda binario resto contenía filas y columnas. Debido a que dos grupos de muestras (CA y SCC) se incluyeron en los datos de la sonda binarios, elegimos como el parámetro de reducción de dimensionalidad para el método de NMF. Entre los obtenidos dos metagenes, la segunda MetaGene tuvo mayor nivel de expresión en casi todos (es decir) de las muestras de NSCLC, mientras más bajo nivel de expresión en casi todos (es decir) de las muestras normales. Las sondas dentro de la segunda MetaGene fueron ordenados de acuerdo a sus niveles de activación (Tabla S4). La primera sonda representó la sonda más estrechamente relacionados con el fenotipo NSCLC, mientras que la última sonda de la sonda representada menos estrechamente relacionados.
Por último, se aplicó el método de RA a los datos normales NSCLC y. Estamos ordenados por las sondas de la información mutua entre los perfiles de sonda y perfiles de NSCLC.
Tenga en cuenta que las correlaciones entre pares de genes y fenotipos podrían ser medidos por el método actual, pero no se podía medir por el NMF y RA métodos. Por lo tanto, desde este punto de vista, el método actual es superior a los dos métodos anteriores. Todos los tres métodos pueden encontrar los genes individuales estrechamente relacionados con fenotipos. Por lo tanto, sólo identificaron el gen-fenotipo relaciones lógicas más bajos por el método actual y se compararon los resultados con los obtenidos por los dos métodos anteriores.
Comparación de rendimiento para los tres métodos.
Hemos seleccionado dos conjuntos de datos implicados los genes que están relacionados con NSCLC. Un conjunto de datos contiene genes de alta frecuencia en el nivel de mRNA detectado por Huang et al. (Tabla S5) [9]. Se demostró que estos genes pertenecían a los mejores conjuntos de genes disfuncionales con buena capacidad de discriminación. Elegimos el conjunto de datos, ya que se recogió de GEO con el número de acceso GSE18842, que también fue la fuente del NSCLC y datos normales en este trabajo. El otro conjunto de datos contiene los genes arriba /abajo-regulados encontrados por Urgard et al., Donde los genes están regulados hacia abajo y los genes están regulados en el CPNM en comparación con el tejido normal (cuadro S5) [34]. Un total de genes fueron compartidos por los dos conjuntos de datos anteriores. Debido a que es difícil de validar los genes incluidos en cada conjunto de datos, es razonable considerar estos genes como los datos de la verdad para estimar el rendimiento de diferentes métodos de este trabajo.
Con el fin de estimar el rendimiento de la corriente método y comparar su rendimiento con los dos métodos anteriores (el método NMF y el método de RA), se calculó una medida: el índice de repetición que era la relación entre el número de genes detectados en los datos de la verdad para el número total de genes en el la verdad de datos. Tenga en cuenta que el índice de repetición puede estar sesgado por la naturaleza incompleta de los datos de la verdad. Además, se evaluó la precisión de la clasificación que se evaluó la capacidad de discriminación de sondas resultado.
Entre todos los genes detectados por las sondas obtenidas por el método actual, genes estaban en los datos de la verdad. Por lo tanto, la tasa de recuperación del método actual era. Para comparar la tasa de recuperación del método actual con los de los dos métodos anteriores, se seleccionaron los mejores sondas obtenidas por el método NMF y el método de RA, respectivamente. Nos encontramos y cero de los genes en los datos de la verdad han sido detectados por el método de NMF y el método de la AR, respectivamente. Por lo tanto, el índice de repetición de NMF y RA fueron y, respectivamente. El método actual tuvo mayor índice de repetición de NMF y RA.
Por fig. 1, encontramos que el método actual logra una mayor precisión que el método de clasificación NMF y el método de la AR. Además, la precisión media clasificación de nuestro método se acercó a (es decir), lo que significa que las sondas obtenidas por nuestro método tiene una gran capacidad de clasificación. En la figura, cada curva se mantuvo estable con poca fluctuación. Se indica que la precisión de la clasificación era poco sensible al número de sondas.
De acuerdo con cada método, nos constituye los genes en orden descendente por los coeficientes de genes relacionados con fenotipos. Nos SELECTE la parte superior genes, dónde. La precisión de la clasificación se calcula basándose en la parte superior genes. 'AR', 'NMF' y 'T' representa el método de análisis de relevancia, el método de factorización de la matriz no negativa y el método actual, respectivamente.
Biomarcadores y pares de genes clave
Los biomarcadores inferidas por gen-subtipo menor relaciones lógicas.
En la investigación anterior, se han notificado un total de genes que se utiliza para diferenciar entre AC y SCC, y estos genes son
DSG3
[26],
CLCA2
[30],
DSC3
[27],
pKP1
[28],
NKX2-1
[35], GJB5 [26], KRT6B [36], SERPINB13 [36], TP63 [37], TRIM29 [38],
KRT5
[28],
NTRK2
[28] y
DST
[39]. Estamos ordenados los genes que estaban involucrados en el gen-AC /SCC relaciones lógicas menor por orden decreciente de sus coeficientes. Curiosamente, todos los genes anteriores se incluyeron en la parte superior genes. Se sugiere que un gen que tiene alto coeficiente de incertidumbre puede distinguir claramente de CA de SCC.
Para obtener un conjunto de biomarcadores, que en primer lugar seleccionamos los genes mejor clasificados (Fig. 2). Debido a las dianas moleculares para agentes terapéuticos dirigidos juegan un papel crucial para el tumor, los biomarcadores para la terapia dirigida deben tener las funciones biológicas distintas entre NSCLC y normal. A continuación, un conjunto de intersección se genera entre los mejores genes y los genes implicados en el gen de NSCLC relaciones lógicas inferior (los genes se han obtenido en el apartado 'Comparación de rendimiento'). Por último, se cruzan genes fueron considerados como los biomarcadores para distinguir CA de SCC, así como nuevas dianas moleculares para agentes terapéuticos dirigidos. Es decir, el conjunto de biomarcadores comprendidas
DST
,
CLCA2
,
KRT5
,
DSG3
,
GJB5
,
SERPINB13
,
BNC1
,
TRIM29
,
LOC642587
,
pKP1
,
KRT6B
,
FAT2
,
GOLT1A
,
DSC3
,
NKX2-1
,
TP63
,
LASS3
,
PVRL1 Opiniones y
NTRK2
.
Hay genes relacionados con los subtipos de NSCLC por relaciones lógicas más bajos, y cada gen se introduce un coeficiente. Los genes se clasifican en función de coeficientes en orden descendente. La parte superior genes son seleccionados para identificar biomarcadores. Los nodos azules representan los biomarcadores identificados en este trabajo. Los nodos amarillos representan seis genes que no están relacionados con NSCLC en el NSCLC y las muestras normales. Los nodos rojos representan subtipos, es decir, AC y SCC.
pares de genes clave inferidas por gen-subtipo más alta relaciones lógicas.
Se agruparon juntos relaciones lógicas gen-subtipo más altas con el misma función lógica. Debido a que las dos funciones lógicas Y (Tipo 1) y XOR (Tipo 8) tienen interpretaciones biológicas más intuitivo que otras funciones lógicas, hemos restringido nuestro análisis a estas dos funciones lógicas. Los pares de genes clave se definieron como los pares de genes involucrados en relaciones lógicas gen-subtipo más altas con función lógica AND o XOR. Se obtuvieron pares de genes clave en total, dónde y pares de genes estaban relacionados con AC /SCC a través de las funciones lógicas AND y XOR, respectivamente (Tabla S6). Este resultado puede explicarse por los estrictos parámetros que elegimos.
Gene Ontología análisis
La ontología de genes (GO) es una vocabularios y clasificaciones sobre las anotaciones de los genes estructurados y controlados, y los productos génicos secuencias [40]. GO incluye tres categorías de términos: los procesos biológicos, funciones moleculares y componentes celulares. Nos centramos en los procesos biológicos que enriquecen los genes implicados en las relaciones lógicas inferiores. Así, en lo que sigue, cuando decimos GO términos, significa que los términos de GO en la categoría 'proceso biológico'.
De acuerdo con la sonda CA-pairwise asociaciones /SCC y sus coeficientes de incertidumbre, se obtuvo un conjunto de genes que contienen genes sin solapamiento y cada gen unidos un coeficiente. Un total de genes se clasificaron en orden descendente por los coeficientes y dado como entrada al gorila. El gorila dio GO términos significativos como "el desarrollo del tejido" (GO: 0009888), "desarrollo epidermis '(GO: 0008544), y' diferenciación de células epiteliales '(GO: 0030855) (Parte A en el Apéndice S1). Dado que los términos de GO significativos fueron recuperados sobre la base de los subtipos de datos de NSCLC, se ha de comprobar si los términos importantes GO también son significativos en NSCLC y las muestras normales. El mismo procedimiento se aplicó a los genes clasificados en base a los datos normales NSCLC y. La prueba reveló los términos de GO significativas con un valor significativo (Parte B en el Apéndice S1). En total, siete de los términos de GO en los subtipos de NSCLC de datos también fueron significativas en el CPNM y muestras normales (Tabla 2). Se indica que los siguientes siete procesos biológicos son importantes para la tumorigénesis de NSCLC:. Desarrollo de los tejidos, el desarrollo epidermis, diferenciación de células epiteliales, el desarrollo de la estructura anatómica, proceso de desarrollo, la adhesión celular y la adhesión biológica
Además, nos agrupado los genes estrechamente relacionados con los subtipos de NSCLC en dos grupos por los tipos de gen-SCC inferior relaciones lógicas. Hemos mapeado los genes que estaban relacionados con SCC (AC) por tipo) más bajas relaciones lógicas (para ir términos. Gene ontología análisis reveló los términos de GO con las puntuaciones de p-valor menor que los puntajes de enriquecimiento y más grandes que.