Extracto
distinción rápido entre el cáncer de pulmón de células pequeñas (SCLC) y los tumores de cáncer de pulmón de células no pequeñas (NSCLC) es muy importante en el diagnóstico de esta enfermedad. Además descriptores estructurales y fisicoquímicas de secuencias derivadas son muy útiles para la predicción de la máquina de aprendizaje de la proteína estructural y clases funcionales, proteínas de la clasificación y la predicción del rendimiento. En este documento, en este estudio es la clasificación de los tumores de pulmón basado en 1497 atributos derivados de propiedades estructurales y fisicoquímicas de las secuencias de proteínas (sobre la base de los genes definidos por el análisis de microarrays) investigados a través de una combinación de ponderación de atributos, supervisado y algoritmos de agrupamiento no supervisado. El ochenta por ciento de las características métodos de ponderación seleccionados, tales como autocorrelación, dipeptide composición y distribución de hidrofobicidad como la proteína más importante en los atributos de clasificación de SCLC, NSCLC y clases comunes de los tumores de pulmón. Los mismos resultados fueron observados por la mayoría de los algoritmos de inducción árbol, mientras que los descriptores de distribución hidrofobicidad eran elevados en las secuencias de proteínas comunes en ambos grupos y la distribución de carga en estas proteínas era muy bajo; que muestran las proteínas comunes estaban muy hidrofóbica. Además, las composiciones de dipéptido polar en las proteínas de SCLC eran más altas que las proteínas de NSCLC. Algunos modelos de agrupamiento (solo o en combinación con algoritmos de ponderación atributo) fueron capaces de casi clasificar proteínas de SCLC y NSCLC. algoritmo de inducción de árboles forestales Random, calculado en las hojas de una sola y 10 veces la validación cruzada) muestra más de 86% de precisión en la agrupación y la predicción de tres tumores de cáncer de pulmón diferentes. Aquí por primera vez la aplicación de herramientas de minería de datos para clasificar de manera efectiva tres clases de tumores de cáncer de pulmón en relación con la importancia de la composición de dipéptido, autocorrelación y el descriptor de distribución se ha informado
Visto:. Hosseinzadeh M, M Ebrahimi, Goliaei B, Shamabadi N (2012) Clasificación de los tumores de cáncer de pulmón basado en las propiedades estructurales y fisicoquímicas de las proteínas por los modelos de bioinformática. PLoS ONE 7 (7): e40017. doi: 10.1371 /journal.pone.0040017
Editor: Hassan Ashktorab, Howard University, Estados Unidos de América
Recibido: 27 Marzo, 2012; Aceptado: 30-may de 2012; Publicado: July 19, 2012
Derechos de Autor © 2012 Hosseinzadeh et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Los autores no tienen el apoyo o la financiación para reportar
Conflicto de intereses:. Los autores han declarado que no existen intereses en competencia
Introducción
cáncer
pulmón es la principal causa de muertes por cáncer. en todo el mundo. Entre los cánceres de pulmón, cáncer de pulmón de células no pequeñas (NSCLC) afecta a alrededor del 80% de los pacientes y, cuando se diagnostica en una etapa localizada, la supervivencia a 5 años es del 50%, mientras que disminuye al 8% y el 3% en el caso de afectación ganglionar o metástasis, respectivamente [1]. La inhalación del humo del tabaco y otros carcinógenos ambientales se considera un factor etiológico importante [2]. Los estudios epidemiológicos continúan proporcionando evidencia de que la variabilidad genética en la respuesta individual a los carcinógenos podría modificar la susceptibilidad al cáncer. Los polimorfismos de los genes implicados en la desintoxicación de sustancias cancerígenas, y los que modulan el daño y la reparación del ADN después de la exposición a los carcinógenos, se han relacionado con el riesgo de cáncer de pulmón [3].
Los pacientes con tumores de pulmón de células no pequeñas (escamosas , CA, y de células grandes) son tratados de manera diferente de aquellos con tumores de células pequeñas, por lo tanto, la distinción patológica entre estos dos tipos de tumor de pulmón es muy importante. Los patrones de expresión de genes hace posible la clasificación de sub adenocarcinoma en subgrupos que se correlacionaban con el grado de diferenciación del tumor, así como la supervivencia del paciente. por tanto, el análisis de la expresión génica promete extender y refinar el análisis patológico estándar [4]. Ha sido ampliamente aceptado que la carcinogénesis de pulmón es un proceso de múltiples etapas y cambios fenotípicos el resultado de la activación de oncogenes y la inactivación de genes supresores de tumores [5]. cáncer de pulmón de células no pequeñas (CPCNP) es la principal causa de mortalidad por cáncer en todo el mundo. En la actualidad no hay biomarcadores confiables están disponibles para guiar el tratamiento de esta afección. la tecnología de microarrays puede permitir biomarcadores adecuados para ser identificados, pero las plataformas actuales carecen de enfoque de la enfermedad y son por lo tanto probable que se pierda información potencialmente vital contenida en muestras de tejido de pacientes. Una combinación de secuenciación a gran escala en la empresa, el perfil de expresión génica y la secuencia pública y la minería de datos de expresión génica se utiliza para caracterizar el transcriptoma del NSCLC [6]. La identificación de un producto biológico pronóstico útil y marcadores moleculares tanto, es importante evaluar las características biológicas y moleculares que diferían de tumor, los ganglios linfáticos, metástasis de estadificación TNM en el cáncer de pulmón de células no pequeñas (NSCLC) con el fin de predecir el pronóstico y establecer métodos de prevención [7 ]. Una mejor comprensión de la patogénesis molecular de SCLC probablemente sugerir estrategias para el diagnóstico temprano y nuevas terapias moleculares dirigidas [8].
En estudios recientes, algunos clasificadores se utilizan para la clasificación de los genes del cáncer o proteínas, por ejemplo, KNN clasificador puede tener alguna utilidad para algunos problemas de clasificación de microarrays, que actúa en todo el conjunto de datos reducida dimensión no. Ellos muestran que el aumento de la dimensionalidad de estos conjuntos (teniendo en cuenta los pares, triples o cuatro-adas, en lugar de transcripción de las secuencias individuales, uno por uno) pueden conducir a mejoras significativas con cada dimensión adquirida [9]. En otro estudio, las características de las proteínas expresadas en maligno, benigno y ambos tipos de cáncer se compararon mediante diferentes técnicas de detección, la agrupación métodos, modelos de árboles de decisión y la inducción de reglas generalizado (GRI) algoritmos para buscar patrones de similitud en dos grupos de cáncer de mama benignos y malignos [10] o el desarrollo y prueba de un clasificador bayesiano ingenuo basada en las propiedades de secuencia de los genes y la función molecular y procesos biológicos en los que están involucrados con el fin de conocer sus características únicas que pueden ayudar a la identificación de nuevos genes del cáncer candidato [11 ] o la aplicación de un método sistemático que predice la implicación de los genes del cáncer mediante la integración de conjuntos de datos heterogéneos, apoyándose en: (i) las interacciones proteína-proteína; (Ii) los datos de expresión diferencial; y (iii) propiedades estructurales y funcionales de los genes del cáncer [12].
También en la clasificación de cáncer de pulmón, en varios estudios, los modelos de minería de datos se han utilizado. Por ejemplo, un modelo de clasificación y regresión árbol (CART) fue entrenado para clasificar 41 muestras clínicas como la enfermedad /no patológicos en base a 26 variables calculadas a partir de la relación masa-carga (m /z) y alturas de los picos de las proteínas identificadas por espectrometría de masas de muestras de suero sanguíneo de personas con y sin cáncer de pulmón [13], o un enfoque de comprobación de la formación a la clasificación molecular del cáncer no microcítico de pulmón de células resecado que en este estudio, un enfoque de comprobación de la formación se ha utilizado para poner a prueba la fiabilidad de las clasificaciones de no pequeñas de cáncer de pulmón de células humanas resecados (NSCLC) analizados por cDNA microarray [14] cDNA microarray de base. En el otro estudio, la clasificación de las líneas celulares de cáncer de pulmón individuo (SCLC y NSCLC) se ha realizado en base a marcadores de metilación del ADN mediante el uso de análisis discriminante lineal y redes neuronales artificiales, y, en consecuencia, este trabajo apoya la promesa de análisis de RNA de datos de metilación del ADN como un enfoque poderoso para el desarrollo de métodos automatizados para la clasificación de cáncer de pulmón [15]. En otro estudio de análisis de cáncer de pulmón base de datos de expresión de genes incorporada conocimiento previo con el método de clasificación basado en la máquina de vectores de soporte, junto con la aplicación de la máquina de vectores de soporte como el enfoque discriminante, y un método propone que incorpora el conocimiento previo en el cáncer de clasificación basado en datos de expresión génica para mejorar la precisión [16]. Para clasificar automáticamente las etapas del cáncer de pulmón tumor-nódulo-metástasis (TNM) de los informes de patología de texto libre utilizando la clasificación simbólica basada en reglas. Las matrices de medida de precisión y confusión se utilizaron para evaluar las etapas TNM clasificados por el sistema basado en normas simbólico. El sistema se evaluó frente a una base de datos de la estadificación equipo multidisciplinario de decisiones y un sistema de clasificación de texto basado en el aprendizaje de la máquina utilizando máquinas de vectores soporte [17]. características estructurales y fisicoquímicas de secuencia derivada con frecuencia se han utilizado en el desarrollo de modelos de aprendizaje estadístico para predecir las proteínas y péptidos de diferentes perfiles estructurales, funcionales y de interacción.
PROFEAT (Características de proteínas) es un servidor web para la informática comúnmente características estructurales y fisicoquímicas: se utiliza de proteínas y péptidos de secuencia de aminoácidos [18]. clases funcionales secuencia derivan estructural y características físico-químicas con frecuencia se han utilizado para la predicción de la proteína estructural y [19], [20], [21], [22], [23], las interacciones proteína-proteína [24], [25], [26], localizaciones subcelulares [27], [28] y péptidos de propiedades específicas [29] a partir de su secuencia. Estas características son muy útiles para representar y distinguir las proteínas o péptidos de diferentes perfiles estructurales, funcionales y de interacción, que es esencial para la aplicación con éxito de los métodos de aprendizaje estadístico en la predicción de los perfiles estructurales, funcionales y de interacción de proteínas y péptidos, independientemente de la similitud de secuencia [ ,,,0],30].
en este estudio, con la atención a la importancia de la clasificación de los tumores de pulmón en el diagnóstico y tratamiento de esta enfermedad y la aplicación y utilidad de las características estructurales y fisicoquímicas de secuencias derivadas de proteínas, clasificación de los 2 tipos de tumores de pulmón en base a las propiedades estructurales y fisicoquímicas de las proteínas investigadas mediante el uso de la bioinformática y herramientas de minería de datos.
Materiales y Métodos
Preparación de datos
análisis de microarrays de GSEA (db base de datos de conjunto de genes de enriquecimiento de análisis) que se utiliza para extraer los genes implicados en cualquiera de los tipos de tumores de pulmón (SCLC o NSCLC). Algunos genes fueron frecuentes en los tumores que se llaman así como conjunto común. Las proteínas para cada grupo de genes (SCLC = 59, 30 o NSCLC = COMÚN = 25) separado por servidor DAVID (http://david.abcc.ncifcrf.gov) y secuencias de la proteína extraída de UniProt base de conocimientos (Swiss-Prot y tiemblan) base de datos. Uno miles y noventa y siete proteínas características o atributos calculados por PROFEAT web (http://jing.cz3.nus.edu.sg/cgi-bin/prof/prof.cgi) incluyendo proteínas estructurales y fisicoquímicas. Un índice Fi.jkl se utiliza para representar el l
º valor de descriptor de la k
º descriptor de la j
ª función en el i
º grupo de funciones, que sirve como una referencia fácil para el manual PROFEAT proporcionado en la página de inicio de servidor y una lista de estos grupos de características mostró en la Tabla S1 (detalles han presentado en el Apéndice S1) [18]. Un conjunto de datos de estas proteínas características se importó en rápido Miner (Rapid Miner 5.0.001, Rapid-I GmbH, Stochumer Str. 475, 44227 Dortmund, Alemania) de software, y el tipo de tumor (SCLC, NSCLC o comunes) se estableció como el objetivo o la etiqueta de atributo.
Limpieza de datos
características duplicados eliminados mediante la comparación de todos los ejemplos entre sí sobre la base de la selección específica de atributos (dos ejemplos se supone igual, si todos los valores de todos atributos seleccionados eran iguales). Entonces atributos inútiles retiran del conjunto de datos. atributos numéricos que poseían las desviaciones estándar de menos de o igual a un umbral de desviación dada (0.1) asumió como para ser inútil y eliminado. Por último, las características de correlación (Pearson con correlación mayor que 0,9) se omite. Después de la limpieza, el número de atributos y registros disminuye y esta base de datos marcada como final la base de datos limpio (FCDB).
Atributo Ponderación
Para identificar las características más importantes y para saber los posibles patrones de características que contribuyen a los tumores de cáncer de pulmón, 10 algoritmos diferentes ponderaciones de los atributos fueron aplicadas al conjunto de datos limpiado (FCDB) como se describe a continuación.
Peso por ganancia de información.
Este operador calcula el pertinencia de una característica mediante el cálculo de la ganancia de información en la distribución de clases.
Peso por la relación de ganancia de información.
Este operador calcula la relevancia de una característica mediante el cálculo de la ganancia de información ratio para la distribución de clases.
Peso por regla.
Este operador calcula la relevancia de una característica mediante el cálculo de la tasa de error de un modelo OneR en el set de ejemplo y sin esta característica.
Peso desviación.
este operador creados pesos de las desviaciones estándar de todos los atributos. Los valores se normalizaron por el promedio, el mínimo o el máximo del atributo.
Peso de ji cuadrado estadística.
Este operador calcula la relevancia de una característica por la computación, para cada atributo del conjunto de entrada ejemplo, el valor de la estadística de chi-cuadrado con respecto al atributo de clase.
Peso por el índice de Gini.
este operador calcula la relevancia de un atributo mediante el cálculo del índice de Gini de la distribución de clases, si el conjunto de ejemplo dado se habría repartido de acuerdo con la función.
Peso por la incertidumbre.
Este operador calcula la relevancia de un atributo mediante la medición de la incertidumbre simétrica con respecto a la clase.
Peso de alivio.
Este operador mide la relevancia de características mediante el muestreo de ejemplos y comparando el valor de la función de corriente para el ejemplo más cercano del mismo y de una clase diferente. Esta versión también trabajó para varias clases y conjuntos de datos de regresión. Los pesos resultantes se normalizaron en el intervalo entre 0 y 1.
Peso por SVM (Apoyo Vector Machine).
Este operador utiliza los coeficientes del vector normal de una SVM lineal como pesos de características.
Peso por PCA (Análisis de componentes principales).
Este operador utiliza los factores de la primera de las componentes principales como pesos de características.
atributo Selección
Después de modelos de ponderación de atributos corrieron en la FCDB, cada atributo de proteínas (función) obtuvo un valor entre 0 y 1, que reveló la importancia de ese atributo en lo que respecta a un atributo de destino (tipo de tumores). Se seleccionaron todas las variables con pesos superiores a 0,50 y 10 nuevos conjuntos de datos creados. Estos conjuntos de datos recién formados se denominan de acuerdo con sus modelos de ponderación de atributos (ganancia de información, relación de ganancia de la Información, Regla, desviación, Chi cuadrado, el índice de Gini, Incertidumbre, Alivio, SVM y PCA) y se utilizaron para unirse con los modelos posteriores (supervisado y no supervisado ). Cada modelo de agrupación con o sin supervisión se llevaron a cabo 11 veces; la primera vez que se ejecuta en el conjunto de datos principal (FCDB) y después de los 10 conjuntos de datos de nueva formación (los resultados de ponderación de atributos).
La agrupación no supervisada Algoritmos
Los algoritmos de agrupamiento enumerados a continuación se aplicado en los 10 conjuntos de datos de nueva creación (generadas como los resultados de 10 diferentes algoritmos de ponderación de atributos (así como el conjunto de datos principal (FCDB).
K-medias.
Este operador utiliza los núcleos de estimar la distancia entre los objetos y las agrupaciones. Debido a la naturaleza de los granos, es necesario sumar sobre todos los elementos de una agrupación para calcular una distancia.
K-medoids.
Este operador representa una implementación de k-medoids. Este operador creará un atributo clúster si aún no está presente.
modelos de árboles de inducción
DecisionTrees.
Cinco modelos de inducción de árboles incluida la Decisión árbol, paralelo árbol de decisión, la decisión del tocón, árbol de azar y Random Forest corrió en el conjunto de datos principal (FCDB). un modelo de árbol de decisión paralela basada en el peso, que se entera de un árbol de decisión podado sobre la base de una prueba arbitraria relevancia función (atributo de sistema de ponderación como operador interno), aplicado a 10 diferentes conjuntos de datos creados a partir de la selección de ponderación de atributos (SVM, Índice de Gini, incertidumbre, PCA, Chi cuadrado, regla, Alivio, ganancia de información, la información de relación de ganancia y desviación).
Predicción máquina basada Dejar por un solo cabo 10 veces validación cruzada
árbol de decisión.
dieciséis modelos de aprendizaje automático se ejecutan en cuatro algoritmos de árboles de decisión (
Árbol de decisiones, paralelas árbol de decisión, la decisión Stump
y
Random Bosque
) con cuatro criterios diferentes (
Relación de ganancia, ganancia de información, Índice de Gini
y
Precisión
) en los 11 conjuntos de datos para encontrar un modelo (s adecuada ) para predecir la precisión y los errores de clasificación de clases basadas en los atributos de proteínas. Para calcular la precisión de cada modelo, de 10 veces la validación cruzada [14] se utiliza para entrenar y probar modelos en todos los modelos. Para llevar a cabo la validación cruzada, todos los registros se dividieron aleatoriamente en 10 partes, se utilizaron 9 conjuntos para la formación y el 10º uno para la prueba (dejar uno fuera). El proceso se repitió 10 veces y la exactitud de la precisión verdadero, falso y de un monto total. La precisión final reportados como el promedio de la precisión en las diez pruebas.
Resultados
Limpieza de datos
El primer conjunto de datos contiene 114 registros (secuencias de proteínas) con 1497 proteínas características . De estos registros, 59 fichas fueron clasificados como clase SCLC, 30 registros pertenecían a la clase de NSCLC y 25 registros fueron clasificados como de clase común. Después de la eliminación de duplicados, atributos inútiles, y las características correlacionadas (limpieza) de datos el número de proteínas características se redujo a 1089 características
Atributo Ponderación
Los datos se normalizaron antes de ejecutar los modelos.; se esperaba que todos los pesos serían entre 0 y 1. Características obtuvieron valores de peso superior a 0,50 con al menos el 50% de los algoritmos de ponderación considerados como proteínas características importantes (Tabla S2).
algoritmos de agrupamiento no supervisado
Dos algoritmos de agrupamiento no supervisado diferentes (K-medias y K-medoids) se han aplicado sobre FCDB y diez conjuntos de datos creados mediante la selección de características (ponderación) algoritmos. Ninguno de los algoritmos de agrupación fueron capaces de diferenciar plenamente las proteínas que participan en cualquier tipo de tumor de pulmón (Tabla S3).
modelos de árboles de inducción
Cinco modelos de inducción de árbol (árbol de decisión, en paralelo árbol de decisión , Decisión del tocón, árbol aleatoria y Random Forest) corrió en FCDB y 10 conjuntos de datos que generan después de realizar 10 algoritmos de ponderación de atributos. En total 151 árboles generados (modelo Random Forest sí incluía 10 modelos)
Varios modelos inducidos árboles simples, mientras que otros eran complicados.; 9 Decisión del árbol y de 35 modelos al azar forestal fueron los mejores árboles para distinguir claramente entre dos tipos de cáncer.
Distribución de hidrofobicidad fue el atributo más importante que se utiliza para construir el árbol cuando el modelo de árbol de decisión se aplica a la información de ganancia conjunto de datos ( Figura 1). Cuando el valor de esta característica es más de 30.628, las proteínas cayeron en la clase COMÚN. Los descriptores de autocorrelación y composiciones de dipéptidos fueron las otras funciones que se utilizan para construir el resto del árbol. Si la composición de ácido glutámico-cisteína ([F1.2.1.24]: dipéptido polar) fue de más de 0.087, la proteína pertenecía a un tumor SCLC y por otra parte cayó en la clase de NSCLC. Composición de los dipéptidos no polares en las proteínas de NSCLC era más que las proteínas de SCLC ([F1.2.1.218]: Met-Val) y encima de la cabeza, composiciones de dipéptidos de proteínas de SCLC son más polares que las proteínas de NSCLC ([F1.2.1.326]: Thr- Gly, [F1.2.1.98]: Phe-Val). . Los detalles de este modelo se han convertido en el siguiente
Tras puntos importantes se puede extraer de la trenza en general, han informado de estos resultados, por primera vez:
F1.2 (composición de dipéptido), F3.1 (Moran autocorrelación) y F5.3 (descriptor de distribución) fueron las proteínas características más importantes utilizados por los modelos de árboles de decisión para clasificar tres clases de cáncer de pulmón (SCLC, NSCLC, COMÚN).
distribución de hidrofobicidad (F5.3.1) en la clase común era muy alta, mientras que la distribución de las cargas (F5.3.5) fue muy baja (Figura 2).
en general, la composición de dipéptidos no polares en la clase de SCLC fue menor que las proteínas y la composición de dipéptido polar en proteínas asociadas SCLC común era más alta que la clase de NSCLC (Figura 1).
en el primer paso, si la distribución de la carga es igual o inferior a 22.703 las proteínas cayó en común de clase; dipeptide composición era otra característica importante para la elaboración de este árbol.
Máquina basada en la predicción de licencia de un cabo 10 veces cruzar a la validación
La precisión de los algoritmos de predicción inducidos se presentan en la Tabla S4. Casi, las precisiones de los medios de todos los modelos mostraron una precisión superior al 60%. Las precisiones más bajos ganaron cuando el modelo del tocón de árbol Decisión recibió un conjunto de datos Relieve con criterios de índice de Gini (41,89%). La mejor exactitud predicho logra cuando Random Forest modelo de árbol de decisión recibió un conjunto de datos con la Regla relación de ganancia (86.00%)
Discusión
El cáncer de pulmón se pueden dividir en dos grupos en función de la patología:. No el cáncer se forman pequeñas de pulmón no microcítico (CPNM) (80,4%) y el cáncer de pulmón de células pequeñas (16,8%) [31]. Los pacientes con tumor de pulmón de células no pequeñas son tratados de manera diferente de aquellos con tumores de células pequeñas. La distinción patológica entre el cáncer de pulmón de células pequeñas (SCLC) y el cáncer de pulmón de células no pequeñas es, por lo tanto, muy importante [4]. Muchos estudios han considerado a la clasificación de cáncer de pulmón [16], [32], [33], [34], [35], [36], [37], [38], [39]. Por ejemplo, se ha informado de los patrones de expresión de ARN asociados con pulmón de células sub clasificación no pequeñas de cáncer, pero hay diferencias sustanciales en los genes clave y las características clínicas de estos subconjuntos que ponían en duda su importancia biológica. En este estudio reciente, un enfoque de comprobación de la formación han utilizado para poner a prueba la fiabilidad de cDNA clasificaciones basadas en microarrays de no pequeñas de cáncer de pulmón de células humanas resecados (NSCLC) analizados por cDNA microarray. Estos resultados demostraron que el perfil de expresión génica puede identificar clases moleculares de NSCLC resecado que clasifica correctamente una cohorte de ensayo ciego, y se correlaciona con suplementos y evaluación histológica estándar [14]. En resumen, el apoyo extenso y detallado de la idea de que el gen de clasificación basado en la expresión de los tumores pronto se convertirá en clínicamente útil para el cáncer del pulmón han proporcionado [4]. Clasificación molecular del NSCLC usando un ensayo cuantitativo objetivo puede ser muy precisos y podría traducirse en una plataforma de diagnóstico para una amplia aplicación clínica [40].
descriptores estructurales y fisicoquímicas de secuencia derivada con frecuencia han sido utilizados en la predicción de aprendizaje automático de la proteína estructural y clases funcionales [19], [20], [21], [22], [23], [24], las interacciones proteína-proteína [24], [25], [26], [41], localizaciones subcelulares [27], [28], [42], [43], péptidos que contienen propiedades específicas [29], [44], los datos de microarrays [45] y la proteína de predicción de estructura secundaria [46]. Estos descriptores sirven para representar y distinguir las proteínas o péptidos de diferentes perfiles estructurales, funcionales y de interacción, explorando sus características distinguidas de composiciones, correlaciones, y la distribución de los aminoácidos constituyentes y sus propiedades estructurales y fisicoquímicas [18], [20], [ ,,,0],26], [30] y esto demostró que actualmente se utilizan descriptores de conjuntos son generalmente útiles para la clasificación de las proteínas y la predicción del rendimiento se pueden mejorar mediante la exploración de combinaciones de descriptores [47].
En este estudio, hemos utilizado estructural y las propiedades físico-químicas de las proteínas que permitan participar en cualquier tipo de tumores de pulmón para la clasificación de ellos y detectar más importantes propiedades de las proteínas que han participado en distinguen de los tumores de pulmón. Diversas técnicas de modelado se aplicaron a estudiar 1497 atributos de proteínas que participan en dos y cuatro tipos (datos no publicados) de cáncer de pulmón. Cuando el número de variables o atributos es suficientemente grande, la capacidad de procesar unidades se reduce significativamente. algoritmos de limpieza de datos se utilizaron para eliminar atributos correlacionados, inútiles o duplicados que se traduce en una base de datos más pequeña [48], [49]. Alrededor del 15% de los atributos desechados cuando estos algoritmos se han aplicado sobre los conjuntos de datos originales
Diez modelos de ponderación de atributos diferentes aplicados en el conjunto de datos limpiado final.; ya que cada algoritmo utiliza un patrón específico para definir las características más importantes, por lo tanto, los resultados pueden ser diferentes [50]. Los grupos funcionales que ofrece F5.3 (descriptores de distribución), F1.2 (composición dipéptido) y F3.1 (autocorrelación) fueron los más importantes atributos seleccionados por los modelos de ponderación de atributos para distinguir entre SCLC, NSCLC y clases comunes de los tipos de tumores de pulmón, como se define por 80% de los algoritmos de ponderación atributo (Tabla S2).
Además, en los árboles de decisiones apropiadas, resultados compatibles con algoritmos de ponderación de atributos se muestran y la misma proteína atribuyen grupos (F2.1, F3.1 , F5.3 y F1.2) seleccionado como los atributos más importantes en la clasificación de las proteínas del tumor de pulmón. Además, los árboles más inducidos mostraron atributos F5.3, la distribución de la hidrofobicidad de proteínas común era muy alta y la distribución de los residuos cargados en estas proteínas fue muy baja, por lo tanto, los resultados confirmaron las proteínas de clase comunes estaban muy hidrofóbica.
La importancia de la hidrofobicidad se ha puesto de manifiesto en algunos estudios [51], [52], [53]. Es bien sabido que la hidrofobicidad juega un papel importante en la determinación de las propiedades de los aminoácidos, péptidos y proteínas. En otro estudio, los residuos hidrofóbicos fueron predominantes en gama lenta de plegado, y con frecuencia residuos hidrofílicos se produjeron en el rango rápido. En general, el medio ambiente circundante de proteínas es el agua. Típicamente, las cadenas laterales de los residuos hidrofóbicos están enterrados en el interior de las proteínas para formar núcleo hidrófobo, que es, aparte de agua, mientras que las cadenas laterales de los residuos hidrófilos están expuestos a la superficie de las proteínas, que está cerca de agua molecular [ ,,,0],54]. Por lo tanto, los resultados de nuestro estudio, por primera vez, confirman que la importancia de la hidrofobicidad en permitir plegado rápido de las proteínas comunes entre los dos tipos de tumores de pulmón y el aumento de su capacidad para propiedad tumorigénico.
composición dipéptido era otros importantes grupos de características proteínas seleccionadas como importante en este estudio. En nuestros estudios recientes, se demostró que los dipéptidos específicos desempeñan un papel central en la clasificación del cáncer de mama y la estabilidad halo de proteínas y estabilidad térmica [10], [55], [56]. La importancia de la clasificación basada en la secuencia en la detección de diversas proteínas expresadas en el cáncer de mama y la importancia de dipéptido Ile-Ile en la agrupación de proteínas, se informó de allí [10]. En este trabajo, la mayoría de los modelos de árboles de decisión mostró que la composición de dipéptido polar en proteínas SCLC eran más de las proteínas de NSCLC y viceversa, dando como resultado proteínas con CPNM para mostrar más hidrofobicidad. Estos resultados se han reportado por primera vez y pueden ser uno de los principales factores para facilitar el SCLC tumores de distribución.
En este estudio, el descriptor de autocorrelación había otro grupo característica importante para la clasificación de los tumores de pulmón. descriptores de autocorrelación son una clase de descriptores topológicos, también conocidos como índices de conectividad molecular, describir el nivel de correlación entre dos objetos (secuencias de proteínas o péptidos) en términos de su propiedad específica estructural o físico-química [57], que se define a partir de la distribución de las propiedades de aminoácidos a lo largo de la secuencia [58]. Ocho propiedades de aminoácidos se utilizan para derivar los descriptores de autocorrelación: escala de hidrofobicidad [59]; índice de flexibilidad media [60]; polarizabilidad parámetro [61]; energía libre de la solución de aminoácidos en agua [61]; residuos de las superficies accesibles [62]; volúmenes de residuos de aminoácidos [63]; parámetros estéricos [64]; y la mutabilidad relativo [65]. Una de estudio reciente demostró que el AASA (la secuencia de aminoácidos de autocorrelación) la información es muy eficaz para representar la relación entre la secuencia de la proteína y las tasas de plegado correspondientes [54]. Así las propiedades de autocorrelación pueden desempeñar un papel importante en el plegamiento de tres tumores de cáncer de pulmón estudiado aquí y esta característica ha sido reportado por primera vez en este estudio. enfoque de autocorrelación tuvo éxito el uso para el modelado de propiedades moleculares, actividades biológicas [66], [67] y la predicción del contenido de hélice de proteínas [68]. En un estudio reciente, un método para reconstruir la distribución de la deformación por la modificación de la técnica de autocorrelación, "método de autocorrelación combinado" propone. En los experimentos utilizando un fantasma tumor y un tejido mamario extraído incluyendo un tumor de cáncer, cada imagen módulo elástico obtenido por el método de autocorrelación combinado y el modelo de tejido de elementos finitos 3-D muestra claramente la región más duro que el material circundante o tejido blando. Estos resultados ponen de manifiesto que el método de autocorrelación combinado es un medio prometedor para el diagnóstico de tumores [69], como se muestra en este documento.
algoritmos de agrupamiento no supervisado han sido ampliamente empleado en una variedad de áreas en las ciencias biológicas, incluyendo el diagnóstico y procesamiento de imágenes [70], EST [71], cáncer de detección [72], el análisis de promotor [71], genes y proteínas bioinformática [56], [73], [74], [75], [76]. En este caso, hemos utilizado dos métodos diferentes de agrupamiento no supervisado (K-medias y K-medoids) en FCDB y 10 conjuntos de datos creados a partir de los atributos de proteínas, que fueron asignados los pesos altos. Las prestaciones de estos algoritmos variaron significativamente. Algunos métodos fueron capaces de asignar casi la proteína de NSCLC en la clase correcta (por ejemplo, el algoritmo K-medoids, cuando se aplica a FCDB y desviación, Índice de Gini, ganancia de información, bases de datos PCA y la incertidumbre). Los resultados mostraron que el algoritmo K-medoids era casi capaz de clasificar proteínas de SCLC en la clase correcta cuando se ejecuta en el conjunto de datos de Chi cuadrado. Pero ninguno de algoritmo de agrupamiento fue capaz de clasificar correctamente las proteínas comunes en la clase respectiva (Tabla S3). Para mayor agrupación exacta de proteínas que pertenecían a ningún tipo de tumores de pulmón, otros modelos de clústeres como EM aplican a los datos con precisiones superiores (datos no publicados).
Como se muestra en la Tabla S4, las precisiones generales para la inducción de árboles