Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: Mejora de la clasificación del cáncer de pulmón El uso de funciones de base radial de red neuronal con las transformadas afines de Voss Representation

PLOS ONE: Mejora de la clasificación del cáncer de pulmón El uso de funciones de base radial de red neuronal con las transformadas afines de Voss Representation


Extracto

El cáncer de pulmón es una de las enfermedades responsables de un gran número de casos de muertes relacionadas con el cáncer en todo el mundo. El estándar recomendado para el cribado y detección precoz de cáncer de pulmón es la tomografía computarizada de baja dosis. Sin embargo, muchos pacientes diagnosticados mueren dentro de un año, lo que hace que sea esencial para encontrar enfoques alternativos para el cribado y detección precoz de cáncer de pulmón. Presentamos los métodos de cálculo que se pueden implementar en un sistema multi-genómica funcional para la clasificación, el cribado y detección precoz de las víctimas del cáncer de pulmón. Las muestras de los diez genes biomarcadores se informó anteriormente para tener la mayor frecuencia de mutaciones del cáncer de pulmón y las secuencias de genes normales de biomarcadores se recogieron, respectivamente, de las bases de datos NCBI cósmico y para validar los métodos computacionales. Los experimentos se realizaron sobre la base de las combinaciones de Z-curva y afines tetraedro transforma, histograma de Gradiente Orientado (HOG), perceptrón multicapa y Gaussian Función de base radial (RBF) redes neuronales para obtener una combinación apropiada de métodos computacionales para lograr una mejor clasificación de pulmón genes biomarcadores del cáncer. Los resultados muestran que una combinación de transformaciones afines de representación Voss, características genómicas HOG y red neuronal RBF Gauss perceptible mejora la precisión de la clasificación, especificidad y sensibilidad de los genes de biomarcadores de cáncer de pulmón, así como el logro de error cuadrático medio bajo

Cita.: Adetiba E, Olugbara OO (2015) Mejora de la clasificación del cáncer de pulmón El uso de funciones de base radial de red neuronal con las transformadas afines de Voss Representación. PLoS ONE 10 (12): e0143542. doi: 10.1371 /journal.pone.0143542

Editor: Xia Li, de la Universidad Médica de Harbin, China

Recibido: 17 Agosto, 2015; Aceptado: 5 Noviembre 2015; Publicado: Diciembre 1, 2015

Derechos de Autor © 2015 Adetiba, Olugbara. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Disponibilidad de datos: Para este estudio , el Catálogo de mutaciones somáticas en el cáncer (cósmica) es una base de datos de mutaciones somáticas en el cáncer humano que los autores utilizan. Top Ten de los genes con la mayor frecuencia de mutaciones en el pulmón tienen los siguientes símbolos: TP53, EGFR, KRAS, KMT2C, CDKN2A, NF1, STK11, KMT2D, ZNF521 y SMARCA4. Estos símbolos se obtuvieron de la base de datos Gene Comité de Nomenclatura HUGO (HGNC)

Financiación:.. Financiado por la Universidad de Tecnología de Durban Dirección de Investigación y Apoyo al Posgrado

Conflicto de intereses: Los autores han declarado que existen conflictos de intereses.

Introducción

el cáncer de pulmón es un tumor maligno en el tejido de los pulmones humanos que sigue siendo una de las causas más destacadas de los casos de muerte relacionados con el cáncer en todo el mundo [1]. Dosis bajas de tomografía computarizada (TC) es el estándar recomendado para el cribado y detección precoz de cáncer de pulmón [2]. Sin embargo, la tasa de supervivencia de cáncer de pulmón es muy baja y más de la mitad de los pacientes diagnosticados con la enfermedad mueren dentro de un año [3]. El cáncer de pulmón se desarrolla debido a un daño genético sostenido a las células pulmonares normales por agentes carcinógenos del humo del cigarrillo y de otras fuentes. Se informó que más de 50 estudios retrospectivos de fumar y el cáncer de pulmón para demostrar un avance notable en el riesgo de cáncer de pulmón para los fumadores o fumadores pasivos en comparación con los no fumadores [4]. De hecho, estudios recientes [5,6] han atestiguado a fumar como indiscutiblemente una de las principales causas de cáncer de pulmón, a pesar de que aproximadamente el 10% de los casos de cáncer de pulmón se atribuyen a los efectos cancerígenos de gas radón, arsénico, níquel, asbesto, de cromo y la susceptibilidad genética. La combustión del tabaco en los resultados de cigarrillos en los procesos químicos, tales como la pirólisis, oxidación, hidrogenación, descarboxilación y deshidratación de los constituyentes. Por lo tanto, más de 3000 productos químicos se producen fuera de qué carcinógenos responsable de los cánceres se hayan puesto en las fases de partículas y de vapor. Los carcinógenos en la fase particulada incluyen benzo (a) pireno, dibenzo (a) antraceno, 5-metilcriseno, benzofluoranthenes, nicotina, N-nitrosonornicotene, catecol, níquel, cadmio y polonio. Del mismo modo, los carcinógenos en la fase de vapor son hidrazina, cloruro de vinilo, uretano, formaldehído, óxidos de nitrógeno y nitrosodiethylamme. Estas gamas de productos químicos son o bien iniciadores de cáncer, carcinógenos completos, promotores tumorales o compañeros de carcinógenos. En consecuencia, se activan químicamente los oncogenes y desactivar los genes supresores de tumores en la célula pulmonar normal para producir mutaciones que dan lugar a tumores [7,8].

La disponibilidad de grandes volúmenes de datos de mutación cáncer de pulmón ha hecho de la el tratamiento de la enfermedad avanzar rápidamente más allá de los enfoques tradicionales, tales como la cirugía, la radioterapia y la quimioterapia. Para un tratamiento moderno de la enfermedad, las variedades de drogas para fomentar 'medicina personalizada' se han desarrollado para orientar las diversas mutaciones genéticas hacia detener el crecimiento del cáncer antes de que sea avanzado y metastásico. Estos fármacos han demostrado ser muy eficaz con menos efectos secundarios en comparación con las quimioterapias tradicionales. Los ejemplos de terapias dirigidas aprobados para el tratamiento del cáncer de pulmón incluyen gefitinib, erlotinib, bevacizumab, sorafenib y el péptido 28-amino-ácido (p28). Estas terapias se dirigen a las mutaciones en EGFR y TP53 [9-11]. Sin embargo, la necesidad de desarrollar métodos computacionales basados ​​genómicas para la clasificación, el cribado y detección precoz de cáncer de pulmón es muy decisivo. Esto es porque el CT baja dosis recomendada es una tecnología basada en la formación de imágenes que no se pueden utilizar para la detección de mutaciones [2,4,7,11]. Automático de clasificación basado genómico, cribado y detección precoz del cáncer de pulmón estarán de manera de ayudar a la hora de recomendar las víctimas de mutaciones genéticas conocidas en el pulmón para tomar ventaja de las terapias dirigidas disponibles o participar en los ensayos clínicos de nuevos fármacos.

En [12], se informó de marcadores de metilación del ADN y las redes neuronales como herramientas potencialmente viables para la clasificación automática de cáncer de pulmón en el cáncer de pulmón de células pequeñas (SCLC) y de células no pequeñas del cáncer de pulmón (NSCLC). Markey et al. [13] desarrolló una clasificación y un árbol de regresión (CART) entrenado con 26 funciones para clasificar 41 muestras clínicas como la enfermedad o no la enfermedad. Las características se calcularon a partir de espectroscopía de masas de las muestras de suero sanguíneo de cáncer de pulmón y los sujetos no cancerosas utilizando la relación y pico alturas-masa-carga de proteínas. Ramani y Jacob [14] diseñado un método de cálculo utilizando las propiedades estructurales y fisicoquímicas de las secuencias de proteínas. Utilizaron la red bayesiana en su método para clasificar los tumores de cáncer de pulmón en SCLC, NSCLC y clases comunes. Guan et al. [15] utilizaron máquinas de vectores soporte (SVM), el conocimiento y predicción Análisis biológico antes de microarrays (PAM) para clasificar el cáncer de pulmón adenocarcinoma. Los estudios antes mencionados son pasos necesarios en la dirección correcta, pero desentrañar el contenido de mutaciones de los tumores de pulmón no ha sido abordado por completo en la literatura. Esto implica que las promesas de las terapias dirigidas para detener rápidamente las mutaciones en el pulmón pueden ser difícil de alcanzar en ausencia de métodos pertinentes para el cribado y detección precoz de cáncer de pulmón mutaciones. Los investigadores han sugerido que los genes mutados de biomarcadores con frecuencia se pueden aprovechar mediante el diseño de kits para el cribado y detección precoz de cáncer de pulmón [16]. En línea con esta sugerencia, un método de predicción de cáncer de pulmón fue desarrollado en [17]. El método fue validado con conjuntos de datos de EGFR, KRAS y TP53, que son los tres genes mutados de biomarcadores con frecuencia superiores para predecir mutaciones en el cáncer de pulmón [16]. Ensemble y no Conjuntos variantes de perceptrón multicapa (MLP) de red neural y SVM se compararon para predecir seis clases de genes de biomarcadores y la mejor precisión de la predicción de 95,90% se obtuvo utilizando el MLP neural conjunto de la red [17].

el primer objetivo general de este estudio es ampliar la cobertura genómica del método descrito en [17] a catorce clases de los diez mejores genes mutados de biomarcadores de cáncer de pulmón con frecuencia. Se hizo hincapié en la literatura que el rendimiento de los algoritmos de clasificación puede verse afectada por un gran número de clases [18]. En consecuencia, el segundo objetivo de este estudio es descubrir un conjunto de características genómicas afines invariantes para una mejor clasificación de los genes de biomarcadores de cáncer de pulmón a pesar del mayor número de clases. Este objetivo se logró en particular mediante la exploración de los Z-curva y afines tetraedro transformadas de representación Voss, así como el histograma de Gradiente Orientado (HOG). Las transformadas Z-curva y afines tetraedro se utilizan como métodos de transformación de nucleótidos porque intrínsecamente generan dimensionalmente reducida representación de transformación Voss con menos coste computacional [19,20]. Por otra parte, los nucleótidos afines transformado son análogas a las señales de imagen de color, lo que hace que sea fácil utilizar el método HOG del dominio de procesamiento de imágenes para extraer un conjunto de características genómicas para mejorar la clasificación de genes de biomarcadores de cáncer de pulmón. El tercer objetivo de este estudio es obtener una combinación apropiada de métodos computacionales para una mejor clasificación de los genes de biomarcadores de cáncer de pulmón. Las combinaciones de transformaciones afines de representación Voss, método HOG, red neural MLP y Gauss Función de base radial (RBF) red neuronal hemos explorado experimentalmente para lograr este objetivo.

Materiales y Métodos

Conjunto de Datos

normal (no mutado) secuencias de nucleótidos de diez genes biomarcadores diferentes se obtuvieron del Centro Nacional de Información Biotecnológica (NCBI) de base de datos. La razón para la selección de la NCBI es que es una de las bases de datos más ampliamente utilizados en el Consenso Collaborative secuencia de codificación consorcio (CCDS). Las otras bases de datos CCDS son Ensembl Genome Browser, navegador de la Universidad de California en Santa Cruz Genoma y Wellcome Trust Sanger Institute (WTSI) Genome Browser. Las bases de datos CCDS proporcionan fácil acceso a la misma secuencia de ADN de referencia para cualquier gen marcador biológico, independientemente de las diferencias en los datos y los métodos utilizados para la secuenciación. El consorcio CCDS un seguimiento de las anotaciones de proteínas idénticas de alta calidad en el ratón de referencia y genomas humanos con un número de identificación estable llamado CCDS ID. La estabilidad de la ID CCDS se debe a que el consorcio hace constantemente esfuerzos para asegurar que CCDS existentes se actualizan constantemente por cualquier miembro colaborador [21]. El símbolo, descripción, ID CCDS y el número de nucleótidos de la parte superior genes biomarcadores del cáncer de pulmón diez utilizados para este estudio se muestran en la Tabla 1.

mutación de datos para este estudio fueron adquiridos desde el catálogo de los somática las mutaciones en la base de datos del cáncer (cósmica) y forman parte de los diez mejores genes de biomarcadores en el cáncer de pulmón. La base de datos COSMIC desarrollada y alojada por la WTSI contiene los casos de mutaciones somáticas curadas y archivados en los genes clave de biomarcadores del cáncer a través de muchas muestras de cáncer [22]. Los diez primeros genes de biomarcadores en la base de datos cósmica con la mayor frecuencia de mutaciones en el pulmón como en el momento de este estudio se llevó a cabo tienen símbolos TP53, EGFR, KRAS, KMT2C, CDKN2A, NF1, STK11, KMT2D, ZNF521 y SMARCA4 [23 ]. Los símbolos se obtuvieron de la base de datos HUGO Gene Comité de Nomenclatura (HGNC) y la mayoría de estos genes de biomarcadores se informó específicamente genes de biomarcadores como frecuentemente mutado en el cáncer de pulmón [24-29]. En total, se extrajeron muestras de 10784 mutaciones de cáncer de pulmón y el conjunto de datos utilizado para nuestra experimentación contiene catorce clases diferentes, que son
Normal
,
EGFR Supresión
,
EGFR Sustitución
,
KRAS Cambio
,
TP53 supresión
,
TP53 Sustitución
,
NF1 Sustitución
,
KMT2C Sustitución
,
CDKN2A Sustitución
,
STK11 Supresión
,
STK11 Sustitución
,
KMT2D Sustitución
,
ZNF521 Sustitución
y
SMARCA4 Sustitución
.

las estadísticas globales de las muestras curadas y únicas de datos normales y mutaciones se muestran en la Tabla 2. los datos de eliminación de mutación de los genes KRAS como biomarcadores, NF1, KMT2C, CDKN2A, KMT2D, ZNF521 y Smarca en el la base de datos cósmicos son inexistentes o muy pocos, que informó a nuestra decisión de excluirlos de nuestras muestras de datos.

La transformación de nucleótidos genómica en imágenes de color

El gen como unidad básica de la herencia se compone de una secuencia específica de ácido desoxirribonucleico (ADN) o ácido ribonucleico (ARN). Un ADN es un polímero compuesto de moléculas pequeñas llamadas nucleótidos que se pueden distinguir por cuatro bases. Estas bases son la adenina (A) = C
5 H
5 N
5, citosina (C) = C
4 H
5 N
3O, Guanina (G) = C
5H
5 N
5O y Timina (T) = C
5 H
6 N
2O
2. Por consiguiente, un ADN puede ser completamente especificado por una secuencia que consiste en los cuatro alfabetos {A, C, G, T}. La primera etapa esencial en el procesamiento de una secuencia de ADN requiere su conversión de una cadena de alfabetos en el equivalente numérico [30-32]. caracterización numérica de las secuencias de ADN puede ayudar en idear características genómicas apropiadas que capturan la esencia de la composición y distribución de base de una manera cuantitativa. Esto podría ayudar en la identificación de la secuencia de ADN y la comparación para detectar el grado de similitud o diferencia genética. La composición de base proporciona el contenido total de cada base en una secuencia de ADN y se determina fácilmente. Sin embargo, la distribución de base, que es más difícil de determinar es más informativo y da una mejor discriminación entre los diversos genes, incluso si los números composición de base son los mismos [31]. En consecuencia, tanto la composición de bases y la distribución de una secuencia de ADN se pueden explorar para caracterizar numéricamente secuencias genómicas.

El método de codificación numérica particular utilizado, determina qué tan bien se captura la composición de base y la distribución de una secuencia de ADN. Muchos métodos de codificación numéricos se han reportado en la literatura y cada una tiene sus puntos fuertes y débiles [33]. La transformación Voss es uno de los métodos más utilizados para la codificación numérica de nucleótidos [34,35]. Es un detector espectral eficiente de la distribución de base y características de periodicidad [33] y representa las secuencias de ADN con cuatro secuencias indicador binario como: (1) en la que 1 indica la presencia de la base b, en la posición n, 0 significa su ausencia en esa ubicación y N es la longitud de la secuencia de ADN que se codifica. Sin embargo, la representación Voss está altamente redundante [33]. Algunos otros métodos existentes, tales como el Z-curva y Tetrahedron transformaciones afines se pueden utilizar para hacer frente a la redundancia en la representación Voss [36]. Las representaciones Z-curva y el tetraedro reducir el coste computacional en las etapas posteriores de elaboración de secuencias de ADN.

La transformación Z-curva fue desarrollado para codificar secuencias de ADN con más semántica biológicos [37]. Se utiliza una representación geométrica adecuada para reducir el número de representaciones Voss de cuatro a tres en una forma compacta que es simétrica a las cuatro bases. El Z-curva contiene toda la información transportada por las correspondientes secuencias de ADN y por lo tanto, el análisis de una secuencia de ADN puede ser realizada por el estudio de la correspondiente curva de Z-[20]. Los vectores Z-curva 3 dimensiones se expresan como [20,36] :( 2)

La transformación tetraedro es similar a la transformación Z-curva, en el que las cuatro bases de nucleótidos se transforman en vectores de 3 dimensiones ese punto desde el centro de un tetraedro de sus vértices. Estos vectores de 3 dimensiones se definen como [36-37] :( 3) donde
r
,
g
y
b Hoteles en el subíndice de los vectores son de color rojo, indicadores verdes y azules. De hecho, la transformación tetraedro se ha referido en la literatura como la transformación 'RGB' de una secuencia de ADN [33].

Con el fin de procesar eficientemente los vectores rgb (ecuaciones 2 y 3) para obtener el correspondiente rgb imágenes, un número adecuado de ventanas que corresponde a la altura de la imagen (H), un tamaño de ventana apropiado que corresponde a la anchura de la imagen (W) y la superposición se eligen para definir tres matrices dimensionales alto x ancho. En este estudio, se determinó el número de ventanas en base a la longitud de la secuencia de ADN (N) en el gen de biomarcadores. Se utilizó el tamaño de la ventana de 200 y un solapamiento de 50 nucleótidos [38,39]. Las matrices se normalizaron en el intervalo de 0 a 255 para representar cada uno de ellos como una imagen en escala de grises. Estas tres imágenes en escala de grises se representan una imagen en color en el espacio de color RGB como.

Clasificación de patrones y extracción de características

La tarea de clasificación de patrones a ser realizada por un clasificador de patrones implica esencialmente la catalogación de datos brutos en clases deseadas a partir de los patrones intrínsecos en los datos. patrón de clasificación automática se ha realizado con precisión en diversas áreas de aplicación utilizando máquinas [40]. La complejidad de un clasificador de patrones depende en gran medida de la dimensión del vector de características y el número de las muestras de datos de entrenamiento. Una representación de entidad dimensiones compactas o de bajo que retiene el contenido descriptivas de la base de datos original es muy conveniente que los requisitos de memoria eficiente, acelerando el tiempo de procesamiento y minimizar la complejidad computacional de un clasificador de patrones. Algunos de los métodos de extracción de características y de reducción de dimensionalidad existentes en las estadísticas son Análisis de factores (FA), Análisis de Componentes Independientes (ICA) y el Análisis de Componentes Principales (PCA).

En la señal y el dominio de procesamiento de imágenes, varios otros métodos tienen ha desarrollado para extraer características representativas de un conjunto de datos original que da lugar a la reducción de dimensión. Estos métodos incluyen la cuantificación vectorial (VQ), Escala de funciones invariantes Transform (SIFT), aceleró características robustas (SURF), Análisis de Componentes Principales SIFT (PCA-SIFT), patrones binarios locales (LBP) y el histograma de Gradiente Orientado (HOG) [ ,,,0],41-44]. El HOG se describe particularmente en la literatura como una forma, aspecto y textura método de extracción fuerte [43-45]. Hemos seleccionado método HOG para su uso en este estudio debido a sus propiedades atractivas tales como una mejor invariancia de la iluminación. Por otra parte, un estudio anterior ha demostrado que el método HOG superó el método LBP para la extracción de características genómicas compactos [17]. En la implementación original del método HOG, un bloque de 3x3 de células y 9 contenedores se utiliza para generar un vector de características de 81 elementos de una imagen en escala de grises y probado para ser ideal para detección de peatones [44]. Sin embargo, debido a las dimensiones bajos de algunas imágenes genómicas, se aplicó dimensiones mínimas de bloque 2x2 de células y 9 contenedores para generar un vector de características HOG genómico compacto de 36 elementos de una imagen en escala de grises. La imagen en escala de grises se obtuvo una imagen en color de la secuencia de ADN utilizando el MATLAB partir. Las características genómicas HOG extraída posteriormente se comercializaban en un clasificador de patrones para clasificar los genes de biomarcadores de cáncer de pulmón.

En este estudio, dos clasificadores de patrones rivales del estado de la técnica exploraron para la clasificación de los genes de biomarcadores de cáncer de pulmón son el perceptrón multicapa (MLP) y la red neuronal red neuronal Función de base radial (RBF). Son ampliamente utilizados para resolver los problemas de la clasificación de patrones y función de aproximación [46-58]. Sin embargo, los clasificadores de patrones tienen fortalezas y debilidades intrínsecas debido a sus propiedades distintivas. MLP redes neuronales tienen la capacidad de detectar de forma implícita asociaciones compleja y no lineal entre las variables independientes y dependientes. Sin embargo, requieren más recursos de cálculo y son propensos al problema de sobreajuste. Por otro lado, las redes neuronales RBF tienen una fuerte ventaja de ser fácil de diseñar, tienen una buena capacidad de generalización, realizan robusta y son tolerantes de ruido de entrada [59]. Sin embargo, ellos no pueden funcionar mejor que las redes neuronales MLP en todas las circunstancias. El rendimiento de cada clasificador de patrones obviamente dependerá de la naturaleza del problema que se considera. MLP redes neuronales pueden producir una salida más apto para cruzar los datos de validación establecidas que las redes neuronales RBF, pero las redes neuronales RBF requieren menos pruebas y errores que las redes neuronales MLP. Además, cada clasificador de patrones puede llevar a cabo de forma diferente para las diversas funciones de aproximación. Dado que la función subyacente que se aproxima a nuestros datos experimentales no se conocía de antemano, nos pareció prudente experimentar con los dos clasificadores de patrones para descubrir el que funciona bien para la tarea de clasificación en este estudio.

Modelos experimentales y Evaluación del Desempeño

Cuatro modelos experimentales fueron considerados en este estudio para descubrir un conjunto de características genómicas afines invariantes y determinar una combinación adecuada de métodos computacionales para una mejor clasificación de los genes de biomarcadores de cáncer de pulmón. Fig 1 muestra el diseño de una arquitectura genérica para los cuatro modelos experimentales. Los modelos experimentales se llevaron a cabo utilizando el entorno de programación MATLAB R2012a. Sobre la base de los modelos experimentales, los experimentos se realizaron en un equipo que contiene una CPU Intel Core i5-3210M, que opera a una velocidad 2.50GHz, 6.00GB de RAM, 500 GB de disco duro y funciona con el sistema operativo de 64 bits de Windows 8. En todos los cuatro modelos experimentales, el conjunto de datos se divide en formación 70%, ensayo 15% y validación 15%. En el primer modelo experimental, la representación Z-curva se utilizó para obtener una imagen en color de la representación Voss, se utilizó el método HOG para generar un vector de características genómico de 36 elementos de la imagen en color y de la red neural MLP fue utilizado para clasificar la función de vector. En el segundo modelo experimental, la representación tetraedro se utilizó en lugar de la representación Z-curva utilizado en el primer modelo experimental. En consecuencia, el cambio del método de codificación de la Z-curva a la tetraedro es la diferencia entre el primero y el segundo modelos experimentales. En el tercer modelo experimental, la representación Z-curva se utilizó para obtener una imagen en color de la representación Voss, se utilizó el método HOG para generar un vector de características genómico de 36 elementos de la imagen en color y de la red neural gaussiana RBF se utilizó para clasificar el vector de características. El cuarto modelo experimental fue diseñado para utilizar la representación tetraedro en lugar de la representación Z-curva, que es la única diferencia entre este cuarto modelo experimental y el tercer modelo experimental.

Las configuraciones de la neural MLP redes para el primero y el segundo modelos experimentales son los mismos. Hay 36 neuronas en la capa de entrada debido a que el HOG genómico vector de características tiene 36 elementos. La capa de salida de la red neuronal MLP contiene 14 neuronas porque hay 14 clases en el conjunto de datos genómicos. Se ha sugerido que las capas más ocultas con un alto número de neuronas por lo general conducen a menos mínimos locales [60]. Por lo tanto, dos capas ocultas se consideraron y la red neural se ensayó con 100, 200, 300, 400 y 500 neuronas para determinar experimentalmente el número apropiado de las neuronas para cada una de las capas ocultas. La red neural MLP utiliza una función de activación lineal en la capa de entrada para transmitir las características exactas sin ninguna transformación. La función tangente hiperbólica se utilizó en las neuronas en las capas ocultas y de salida para aprovechar al máximo sus propiedades de no linealidad y diferenciabilidad. Estas propiedades son cualidades esenciales para un rendimiento óptimo de las redes neuronales MLP [60]. Por otra parte, la red neuronal MLP fue configurado con 500 épocas de formación, el aprendizaje tasa de 0,1, el tiempo máximo de entrenamiento de 120 seg, gradiente de rendimiento mínimo de 1e-6, comprobaciones de validación de 500 y objetivo de rendimiento de 0.

Las configuraciones de las redes neuronales gaussiana RBF en el tercer y cuarto modelos experimentales son los mismos. Las redes neuronales gaussiana RBF se configura para tener el objetivo MSE de 0, se extendió de 0,1, 36 neuronas en la capa de entrada y 14 neuronas en la capa de salida. Estas configuraciones se basan en el número de elementos de cada vector de características y el número de clases de genes de biomarcadores en el conjunto de datos. Sin embargo, una red neuronal RBF Gauss contiene normalmente una capa oculta y agrega automáticamente a las neuronas de la capa oculta hasta que se encuentra la media especificada cuadrado objetivo de error. El entrenamiento de las redes neuronales gaussiana RBF se detuvo cuando el número de neuronas de la capa oculta alcanza el valor máximo predeterminado de 534, que es el número de casos en el conjunto de datos de entrenamiento.

cuatro métricas de rendimiento diferentes comúnmente utilizados en la literatura para evaluar el rendimiento de un clasificador de patrones se utilizaron para evaluar cuantitativamente las actuaciones de la red neural clasificadores modelo MLP y gaussiana RBF. Estas métricas de rendimiento son la exactitud, error cuadrático medio (MSE), especificidad y sensibilidad. La precisión de un clasificador de patrones se puede calcular a partir de la matriz de confusión como el porcentaje de entidades correctamente clasificados. Esto es equivalente a la suma de los elementos diagonales de la matriz de confusión dividido por el número total de elementos de las clases. El MSE es la media del cuadrado de la diferencia entre la salida esperada y la salida real de un clasificador de patrones. La probabilidad de que un clasificador de patrones clasifica correctamente una instancia no positiva, como negativa se denomina especificidad o verdadera tasa negativa (TNR). La probabilidad de que las etiquetas de un clasificador de patrones las instancias de la clase de destino correctamente es la sensibilidad o la verdadera tasa positiva (TPR). Las características operativas del receptor (ROC) es la trama de la sensibilidad frente a 1-especificidad para ilustrar gráficamente la relación entre la sensibilidad y la especificidad de un clasificador de patrones [60-62].

Resultados experimentales

La los resultados comparativos de las transformadas Z-curva y el tetraedro se presentan primero en determinar si los conjuntos de características obtenidas con respecto a las dos transformaciones afines son invariantes. Las figuras 2 y 3 muestran, respectivamente, las parcelas espectro de potencia de las Z-curva y Tetrahedron representaciones de secuencias de ADN de genes de biomarcadores de la Tabla 1. Cada forma del espectro correspondiente obtenido utilizando la representación Z-curva (Fig 2) se puede ver que ser muy similares a la obtenida utilizando la representación tetraedro (Fig 3). Este resultado da una indicación de una fuerte similitud entre las representaciones Z-curva y el tetraedro. Las formas espectrales Z-curva de los genes de biomarcadores son únicamente diferentes entre sí (Fig 2) y la misma tendencia se observa a través de las formas de los genes de biomarcadores obtenidos utilizando la representación tetraedro (Fig 3). Se puede observar a partir de las dos figuras, que las formas espectrales del gen TP53 biomarcador tienen detalles espectrales densas con envolventes espectrales de las altas amplitudes. Por el contrario, las formas espectrales del gen EGFR biomarcador en las dos figuras contener detalles espectrales densas de amplitudes bajas con dos picos de altas amplitudes en K = 1,200 y K = 2400. Las formas espectrales del gen KRAS biomarcador en ambas figuras tienen espectral fina detalles que terminan antes de K = 600 sin mostrar ningún aumento visible. Las formas espectrales del gen KMT2C biomarcador tienen detalles espectrales planas con picos de gran amplitud en K = K = 5000 y 10000 en ambas figuras. Al igual que en las formas espectrales del gen KRAS biomarcador, las formas espectrales del gen CDKN2A biomarcador en ambas figuras tienen detalles espectrales finas que terminan antes de K = 500 a diferencia de las formas espectrales del gen biomarcador KRAS que terminan después de K = 500. El espectro formas de NF1, STK11, KMT2D, ZNF621 y genes de biomarcadores SMARCA4 todos tienen dos picos de diferentes amplitudes en diferentes valores de K, que es una indicación de la singularidad de estos genes de biomarcadores.

Además, las imágenes de color obtenidas usando el Z-curva y Tetrahedron representaciones de todos los genes de biomarcadores de la Tabla 1 se muestran respectivamente en las figuras 4 y 5. Es claramente observadas a través de la inspección visual subjetiva que las texturas de las imágenes correspondientes de biomarcador genes obtenidos usando los dos transformadas afines son similares. Por otra parte, se puede observar que las imágenes de TP53, KRAS, CDKN2A y STK11 genes biomarcadores tienen texturas pesadas y contienen manchas negras o verdes visibles en la esquina inferior derecha de las imágenes. Las texturas de las imágenes de EGFR, ZNF521 y SMARCA4 en ambas figuras son gruesos con sólo la imagen de SMARCA4 tener muy pequeño parche negro o verde en la esquina inferior derecha. Sin embargo, las imágenes de KMT2C, NF1 y KMT2D genes biomarcadores tienen texturas suaves. A pesar de que las texturas de las imágenes correspondientes son similares en cada gen marcador biológico, sus colores son diferentes.

Una evaluación objetiva analizando cuantitativamente las texturas de imágenes se realizó para complementar los resultados de la evaluación subjetiva de texturas de imagen de los genes de biomarcadores (figuras 4 y 5). Al hacer esto, hemos calculado los valores estadísticos de segundo orden Haralick de contraste y homogeneidad [63]. valor de contraste, se espera que por lo general para las texturas pesadas y valores bajos para texturas suaves. Los valores de homogeneidad son la inversa de los valores de contraste y cuanto mayor sea el contraste, más baja será la homogeneidad y vice versal. Los valores obtenidos para Haralick cada una de las imágenes en color de los diez genes de biomarcadores obtenidos usando las representaciones Z-curva y el tetraedro se muestran en la Tabla 3. La tabla muestra que los valores de contraste de las imágenes de color Z-curva transformadas clasifican de una manera similar como los de las imágenes en color tetraedro transformado (valor en el soporte denota el rango de un gen marcador biológico). Para las imágenes en color transformada Z-curva, el gen biomarcador KRAS ocupa el primer lugar con el valor más alto contraste de 13099, mientras gen KMT2D biomarcador ocupa el último lugar con un valor de contraste de 6358. Mientras tanto, para las imágenes en color tetraedro transformado, el gen CDKN2A ocupa el primer biomarcador con el valor más alto contraste de 13.495 mientras gen KMT2D biomarcador ocupa el último lugar con un valor de contraste de 6392.

los valores de homogeneidad de las imágenes en color Z-curva transformadas también se ubican en una manera similar a los de la tetraedro transformado imágenes en color. Para las imágenes en color transformada Z-curva, el gen biomarcador KRAS ocupa el primer lugar con un valor de 0,0342, mientras que la homogeneidad gen biomarcador KMT2D ocupa el último lugar con un valor de homogeneidad de 0,0445.

El conocimiento de la salud

¿Cuáles son los síntomas de neuroma acústico?

Un neuroma acústico es un tumor generalmente de crecimiento

¿Cuáles son los síntomas del cáncer de vejiga?

El cáncer de vejiga es una enfermedad que se presenta con ma

Los beneficios enfermizos: La empresa de capital de cáncer Treatment

El dólar Diagnóstico Nadie desea escucharlo, el diagnóstic

Los alimentos que combaten el cáncer

Los bebés que son alimentados con regularidad naranjas y los

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]