Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: Función de los Genes de cáncer asociados revelados por Modern univariante y multivariante Asociación Tests

PLOS ONE: Función de los Genes de cáncer asociados revelados por Modern univariante y multivariante Asociación Tests


Extracto

Copiar número variación (CNV) desempeña un papel en la patogénesis de muchas enfermedades humanas, especialmente el cáncer. Varios estudios de asociación de todo el genoma de la CNV se han realizado con el propósito de identificar el cáncer asociado CNV. A continuación se realizó un nuevo enfoque para el análisis del genoma completo CNV, con el objetivo de ser la identificación de asociaciones entre CNV de genes diferentes (CNV-CNV) a través de 60 líneas celulares de cáncer humano. Nuestra hipótesis es que estas asociaciones apuntan a las funciones de los genes asociados en el cáncer, y pueden ser indicadores de su posición en las redes de genes de los procesos de cáncer de conducción. Estudios recientes muestran que las asociaciones de genes a menudo no son lineales y no monótona. Con el fin de obtener una imagen más completa de todas las asociaciones de la CNV, se realizó un análisis univariado ómnibus mediante la utilización de pruebas de asociación dCov, MIC, y HHG, que son capaces de detectar cualquier tipo de asociación, incluyendo las relaciones no monótono. Para la comparación se utilizaron las pruebas de asociación de Spearman y Pearson, que detectan sólo las relaciones lineales o monótono. Aplicación de las pruebas dCov, MIC y HHG dio lugar a la identificación de dos veces más asociaciones en comparación con los encontrados por Spearman y Pearson solo. Curiosamente, la mayoría de las nuevas asociaciones fueron detectados por la prueba HHG. A continuación, se utilizó la capacidad de HHG dCov y de llevar a cabo el análisis multivariante. Se evaluó la asociación entre los genes de función desconocida y vías relacionadas con el cáncer conocidos. Nuestros resultados indican que el análisis multivariante es mucho más eficaz que el análisis univariante con el fin de atribuir funciones biológicas a los genes de función desconocida. Llegamos a la conclusión de que una combinación de pruebas de asociación ómnibus multivariados y univariados puede revelar información importante acerca de las redes de genes de los procesos de conducción de la enfermedad. Estos métodos se pueden aplicar a cualquier gen o conjunto de datos grande vía, lo que permite análisis más exhaustivo de los procesos biológicos

Visto:. Gorfine M, Goldstein B, Fishman A, Heller R, Heller Y, Lamm AT (2015) Función Los genes de cáncer asociado revelados por pruebas univariadas moderna y asociación multivariable. PLoS ONE 10 (5): e0126544. doi: 10.1371 /journal.pone.0126544

Editor Académico: Lin Chen, de la Universidad de Chicago, Estados Unidos |
Recibido: 27 de septiembre de 2014; Aceptado: 3 Abril 2015; Publicado: 12 de mayo de 2015

Derechos de Autor © 2015 Gorfine et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Disponibilidad de datos: Todos los datos relevantes están dentro del apoyo de sus archivos de información en papel y

Financiación:. Este trabajo fue financiado por los Institutos nacionales de Salud (subvención P01CA53996 a MG), los Centros de israelíes programa de investigación de excelencia (I-CORE), (Centro de n . 1796-1712 a ATL), la Fundación de Ciencias de Israel (subvención Nº 644/13 a ATL). ATL es un compañero de Taub - con el apoyo de la Fundación Taub. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción

variaciones en el número de copia (CNV) son una parte de la variabilidad genética humana normal. Decenas de miles de VNC se han reportado en la base de datos de Genómica variantes (DGV) sobre la base de muestras de control sanos [1,2]. Sin embargo, CNVs también son un componente importante de variación en el riesgo de enfermedad y la aparición de muchas enfermedades y trastornos, incluyendo cáncer, infección por VIH, el autismo y enfermedades psiquiátricas [3-5]. En el cáncer, CNV es una de las aberraciones somáticas más importantes que se encuentran [6]. Hoy en día el análisis de la CNV se ha convertido en una parte central de la investigación del cáncer y muchos estudios se centran en la detección de las VNC en el genoma humano en los tejidos y las células normales y enfermas. ([7,8], la DG V (http://projects.tcag.ca/variation)). En las clínicas se utiliza un número cada vez mayor de la CNV para el diagnóstico y terapia personalizada.

Mientras CNV individuales pueden ser detectadas por hibridación fluorescente in situ (FISH), la detección de genoma completo CNV requiere basada en microarrays de hibridación genómica comparada (CGH array plataformas) o la siguiente secuenciación de nueva generación (NGS) [6]. Estas plataformas generan un gran volumen de datos, por lo que el análisis de un gran desafío. Una de las principales tareas de análisis de datos CNV es la identificación y caracterización de las asociaciones entre la CNV y las enfermedades, lo que potencialmente puede ser impulsado por mecanismos biológicamente relevantes [9-11].

Varios estudios de asociación se han realizado con la finalidad de vincular las VNC para enfermedades [7,8,12]. Por ejemplo, Stamoulis et al. [11] se centraron en las relaciones entre monótonas CNV dentro ya través de los cromosomas; Bussey et al. [12] miraron de correlación de Pearson entre la CNV y los niveles de expresión génica. Aunque la mayoría de los estudios asociados CNV con perfil de expresión génica, muy pocos, si los hay, se han hecho intentos para asociar entre CNVs de diferentes genes detectados en el tejido enfermo, a pesar de la identificación de asociaciones entre genes es extremadamente importante para la comprensión de los procesos biológicos básicos y modelado redes reguladoras de genes. En este trabajo llevamos a cabo este tipo de enfoque para analizar los datos relacionados con el cáncer de la CNV. La razón era que, dado que la formación de la CNV es parte de la carcinogénesis, las asociaciones entre las VNC de genes sería indicativa de su papel en la carcinogénesis. Además, la identificación de estas asociaciones podría permitir la construcción de una red de genes de los procesos de enfermedad conducción.

Hasta la fecha, las pruebas de asociación más comúnmente utilizadas están basadas en el coeficiente de correlación de Pearson o Spearman de. la prueba de Pearson es sensible a la componente lineal en una relación entre dos variables, mientras que la prueba de Spearman detecta relaciones monótonas, tales como una sigmoide. Por lo tanto, ambas pruebas no son capaces de detectar las relaciones no monótono, tales como en forma de U, elipse, sinusoide, etc. Estudios recientes muestran que las asociaciones de genes son a menudo no lineal y no monótona [13-15]; Por lo tanto, con el fin de obtener una imagen no sesgada completa de todas las asociaciones de genes se debe aplicar otros métodos estadísticos.

Recientemente, se han propuesto varias pruebas estadísticas para detectar cualquier tipo de relaciones, incluyendo las no-monótono. En particular, Szekely et al. [16,17] sugirió una prueba, llamada dCov, basado en la distancia de covarianza y correlación a distancia; Reshef et al. [18] presentó una prueba basada en una novela medida de dependencia-el coeficiente máximo de información (MIC); y Heller et al. [19] propuso una prueba basada en rangos de distancias, llamado HHG. Extensos estudios de simulación que comparan entre HHG, dCov, MIC, Spearman y Pearson se han realizado [13,19]. Sus principales conclusiones fueron que HHG suele ser más poderoso que dCov y dCov suele ser más poderoso que el MIC en entornos no monótono.

Además de su ser herramientas de análisis univariados capaces de identificación de una amplia gama de tipos de asociación , dCov y HHG también son aplicables para el análisis multivariado, es decir, las pruebas de dependencia entre las variables X e y, cuando X e y son vectores en lugar de las variables individuales. Por lo tanto estas pruebas se pueden utilizar para identificar asociaciones entre las vías o entre un gen y una vía, incluso cuando el tamaño de la muestra es mucho más pequeña que la dimensión de X o Y.

El segundo objetivo de este trabajo fue demostrando la eficacia de pruebas de asociación que también son capaces de detectar las relaciones no monótono, tales como dCov, MIC y HHG para el análisis de conjunto de datos de asociación de genoma. Para este propósito se utilizó estas pruebas, junto con la prueba de Spearman y Pearson estándar en el análisis de los datos de la CNV derivados de 60 líneas celulares humanas de cáncer (NCI-60) [12]. Hemos encontrado que la aplicación de pruebas capaces de detectar cualquier tipo de relaciones, tales como dCov y HHG, para el análisis univariante, da como resultado la identificación de dos veces como muchas asociaciones en comparación con los encontrados por Spearman y Pearson solo. La mayor parte de las nuevas asociaciones fueron detectados por la prueba HHG. Por otra parte, el análisis multivariado mediante dCov y HHG fue capaz de asociar entre los genes de función desconocida de nuestro conjunto de datos y procesos biológicos básicos, proporcionando una pista de posibles funciones biológicas de estos genes.

Los métodos presentados aquí pueden ser útil en muchos otros entornos que requieren la detección de las asociaciones de genes y vías, tales como la reconstrucción de las redes y vías-una tarea importante en la biología de sistemas [20]. Este estudio demuestra que mediante el uso de estos métodos investigadores pueden descubrir más asociaciones de diversos tipos, y así tener una visión más amplia a su disposición cuando se trata de estudiar los fenómenos biológicos.

Resultados

Identificación de Ge- por gen asociaciones

con el fin de encontrar asociaciones entre las VNC relacionada con el cáncer, se utilizaron los datos obtenidos de la CNV por una matriz CGH de 60 líneas celulares de cáncer humano (NCI-60; [12]). Dentro de la matriz CGH se seleccionaron los clones que han conocido los símbolos de genes y, por coherencia, no hay valores que faltan en cualquier línea celular. El resultado contenía 99 genes. Además de las pruebas de asociación tradicionales, Spearman y Pearson, aplicamos tres pruebas, dCov, MIC y HHG, que también son capaces de detectar las relaciones no monótona. Una asociación se consideró significativa si el valor de p ajustados-FDR era inferior a 0,05 utilizando el procedimiento Benjamini-Hochberg [21]. Fuera de 4851 comparaciones por pares, Pearson o Spearman detectaron 254 asociaciones significativas, dCov detectado 256, MIC detectaron 157 y 400 HHG detectaron asociaciones significativas (véase la figura 1, Tabla 1, Figura S1, S1 y el cuadro de resultados detallados). La comparación de las tres pruebas capaces de detectar cualquier tipo de relaciones, a saber dCov, MIC y HHG, reveló que comparten 139 resultados significativos comunes. Por otra parte, 44 se encontró una asociación significativa sólo por dCov; 11 solamente por el MIC y 183 solamente por HHG (S1 figura, arriba a la derecha). La comparación de Pearson y Spearman con dCov y HHG reveló que 29 asociaciones significativas fueron descubiertos exclusivamente por Pearson o Spearman, sólo el 10 únicamente por dCov, mientras que 184 fueron descubiertos únicamente por HHG (figura 1).

CIM fue excluido debido a la pequeño número de hallazgos significativos proporcionadas por este método. El área de cada óvalo representa el número de pruebas significativas de cada método, y las intersecciones (enfatizados por diferentes colores) representan descubrimientos comunes. Evidentemente, Pearson o Spearman, dCov y HHG cuota de 185 descubrimientos; 184 pruebas fueron significativas por HHG pero no por Pearson, Spearman o dCov; 10 pruebas fueron significativas por dCov y no por Pearson, Spearman o HHG; 29 pruebas fueron significativas por Pearson o Spearman, pero no por dCov o HHG; dCov y HHG comparten 26 descubrimientos; Pearson o Spearman y dCov comparten 35 descubrimientos; y Pearson o Spearman y HHG comparten sólo 5 descubrimientos.

Por el número de asociaciones estadísticas significativas encontradas por dCov, MIC o HHG, pero no por Pearson o Spearman, el número encontrado por HHG era excepcionalmente grande. En concreto, mientras que el número de asociaciones significativas compartidos por Pearson o Spearman y HHG es de 190, Pearson y Spearman perdieron 210 asociaciones que han encontrado los HHG, mientras que HHG perdió sólo 64 asociaciones encontradas por Pearson o Spearman. En el análisis anterior, se combinaron los resultados de Pearson y de Spearman de la que se había ajustado p-valor inferior a 0,05, como si fueran un único método, a pesar de que esto da entonces una ventaja en comparación con otros métodos. Teniendo en cuenta esto, es tanto más interesante que HHG encontró que el 57% más asociaciones a continuación, Pearson y Spearman. Por lo tanto, llegamos a la conclusión de que el análisis basado en las pruebas de asociación tradicionales de Pearson y Spearman podía faltar una proporción significativa de todas las asociaciones posibles entre los genes.

Con el fin de demostrar la importancia biológica de las asociaciones detectadas por HHG echamos un vistazo más de cerca en los pares de genes asociados detectados. Un ejemplo de una asociación que sólo se encuentra por HHG es la asociación entre los genes Lyn y CTSB (Fig 2). LYN codifica una tirosina-proteína quinasa no receptor, un regulador de muchas de las vías de transducción de señales, mientras que CTSB codifica la catepsina B, un tiol proteasa que participa en la degradación intracelular y el recambio de las proteínas. No se conocen las interacciones biológicas directas entre estas dos proteínas, sin embargo, tanto interactúan directamente con una tercera proteína, la esfingosina quinasa 1 (SPHK1). SPHK1 cataliza la fosforilación de la esfingosina para formar la esfingosina-1-fosfato (S1P), una molécula de señalización de esfingolípidos clave implicada en el crecimiento celular, la supervivencia, la diferenciación y la motilidad. Interacción entre LYN y SPHK1 es esencial para la activación de SPHK1 [22]. Por otro lado, la interacción entre la catepsina B y SPHK1 se ha demostrado que regular a la baja los niveles de SPHK1
in vivo
[23] y para escindir que
in vitro
[24]. Estos datos experimentales demuestran que la asociación entre LYN y CTSB identificado por HHG es de hecho biológicamente relevante. Por otra parte, la existencia de la asociación entre la Comisión Nacional de Valores de puntos de Lyn y CTSB a LYN- SPHK1 y CTSB- SPHK1 interacciones como importantes para la carcinogénesis

primera línea consiste en tres hallazgos descubiertos solamente por Spearman o Pearson.; en segundo lugar, solamente por HHG; tercero, solamente por dCov; y en cuarto lugar, solamente por el MIC. Los valores de P (después de ajustar por múltiples ensayos) se indican en cada parcela.

Otro ejemplo de una asociación que sólo se encuentra por HHG es la asociación entre los genes y Cdkn1a TKT (figura 2). Cdkn1a códigos para CDK-1 interacción de proteínas (p21), un potente inhibidor de la quinasa dependiente de ciclina que regula la progresión del ciclo celular a través de la transición G1 /S de control. TKT códigos de transcetolasa, una enzima central de la vía de las pentosas fosfato. La asociación entre CDKN1A y TKT detectado por HHG refleja de hecho una relación entre las vías de estos dos genes pertenecen. Después de la progresión del ciclo celular de G1 a la fase S, no hay una regulación de la vía de las pentosas fosfato, que es responsable de la producción de ribosa-5-fosfato (R5P), necesaria para la síntesis de nucleótidos y ácidos nucleicos [25] . Todos los genes en los ejemplos anteriores están ubicados en distintos cromosomas o lejos el uno del otro en el mismo cromosoma; por lo tanto, la proximidad física no puede explicar las asociaciones basadas en la CNV.

Identificación de la función de genes usando pruebas de asociación multivariados

La detección de asociaciones entre pares de genes por análisis univariado es un buen comienzo para derivar información biológica de las los datos de la CNV, como se muestra arriba. Sin embargo, cuando se trata de un gran número de genes, la función y una relación a las vías biológicas de muchos genes son a menudo desconocido. Encontrar a asociaciones con genes conocidos puede arrojar luz sobre su posible función, pero el análisis multivariado podría proporcionar información adicional importante. Por lo tanto, hemos aplicado las pruebas multivariantes para la dependencia entre varios genes de función desconocida en nuestra base de datos y las vías conocidas, utilizando pruebas multivariantes dCov y HHG. En concreto, de los 99 genes en nuestro conjunto de datos, doce genes no tienen función conocida o relación con una vía biológica (Fig 3), tal como se determina mediante el uso de la vía KEGG ([26,27]; http://www.genome.jp/KEGG /herramienta /map_pathway1.html). Para detectar sus asociaciones con las vías conocidas, que primero asignado el resto de los genes a las vías basados ​​en KEGG vía mapper (S2 Tabla), y luego seleccionaron ocho vías biológicas experimentalmente demostrado que contienen al menos cinco genes de nuestro conjunto de datos (Fig 3). Además, la vía de la apoptosis, siendo uno de los mecanismos básicos relacionados con el cáncer, se incluyó en el estudio a pesar de que sólo dos genes de nuestro conjunto de datos se han asignado a la misma. A continuación, probamos las asociaciones entre cada par de genes de la vía entre los doce genes y nueve vías. Aplicamos dCov y HHG que eran, de las pruebas se utilizó anteriormente, las dos únicas pruebas capaces de análisis multivariado, es decir, las pruebas de asociación entre vectores (más detalles están disponibles en la sección Materiales y Métodos). En total, 108 se realizaron pruebas con cada método y un resultado de la prueba fue considerado significativo si su valor p ajustado-FDR era inferior a 0,05 utilizando el procedimiento Benjamini-Hochberg [21]. De los doce genes, seis genes mostraron asociaciones significativas con las vías (Figura 3A y en la Tabla S3).

En los paneles A y B, los genes (a la izquierda) y las vías (a la derecha) fueron analizados para la asociación de HHG y dCov. asociaciones significativas (después de ajustar por múltiples pruebas) están unidos por líneas: trazos de HHG, salpicado de dCov y sólida para ambos. A) Las asociaciones significativas entre los genes con función desconocida y las vías relacionadas con el cáncer. Las asociaciones que han encontrado los dCov y HHG están marcados. B) Las asociaciones significativas entre los genes con función conocida y vías relacionadas con el cáncer. Sólo las asociaciones que han encontrado los dCov se muestran como asociaciones significativas fueron encontrados por HHG.

Dos genes, LRRC32 y SPI1, se han encontrado para ser asociado con la mayoría de las vías, lo que sugiere que podrían ser intermediarios de transducción de señales , la regulación de abajo objetivos que pertenecen a estas vías. Estos resultados están de acuerdo con los resultados del análisis univariante, que asoció significativamente con ambos genes serina /treonina quinasa y PAK1 gen SPI1 también con HRAS, una GTPasa de la familia RAS. De hecho, de acuerdo con KEGG PAK1 vía mapper y HRAS pertenecen a la mayoría de las vías con las que se encontraron LRRC32 y SPI1 estar asociado. Por otra parte, tanto PAK1 y HRAS están implicados en la transducción de señales de proliferación y de su miss-regulación conduce a la transducción de señales anormales y cáncer [28,29]. De este modo, mientras que un análisis univariado se encontró asociación entre los genes de función desconocida y los genes individuales con función conocida, el análisis multivariado anterior podría señalar sus asociaciones con los procesos biológicos

Los otros cuatro genes asociados, AFF2, CLCN5., MYCN y TCL1A, se han encontrado para ser asociado cada uno a una o dos vías específicas que sugieren que constituyen los efectores en estas vías (ver ejemplos a continuación). No se encontraron asociaciones entre los otros seis genes y cualquiera de las vías.

En el análisis multivariante aplicado anteriormente para los genes de función desconocida, dCov y HHG descubrieron número similar de relaciones multivariantes significativos, 15 por dCov, y 13 por HHG, mientras que 8 fueron detectados por ambos métodos. Por lo tanto, nuestro análisis no reveló ninguna evidencia clara de la superioridad de un método sobre el otro en esta aplicación específica.

Además del análisis multivariante aplicado a los genes de función desconocida en el cáncer, recogimos dos genes del conjunto de datos , PIK3CA y MSH2, que han definido la función biológica y no pertenecen a ninguna de las ocho vías de acuerdo a KEGG, y realizado gen-vía de pruebas multivariantes de asociación por dCov y HHG, similares a las realizadas anteriormente para los genes de función desconocida. Mientras dCov encontraron 13 resultados significativos, HHG encontró ninguno (Figura 3B y Tabla S4).

Las asociaciones, detectados por dCov, entre MSH2 y el ciclo celular, la apoptosis, la adhesión focal, RAS, WNT y las vías de actina son consistentes con su función en la reparación del mal emparejamiento del DNA y su conexión con la división celular [31]. Del mismo modo, las asociaciones entre PIK3CA, y las siguientes vías: la apoptosis, actina, adhesión focal, señalización FoxO, señalización del receptor de células T, guían a los axones y Wnt (Figura 3B y Tabla S4) son soportados por gran cantidad de datos biológicos [32-35]. La relación de PIK3CA a estas vías, así como su papel fundamental en los cánceres humanos, es una consecuencia de que es un jugador clave en la activación de cascadas de implicados en el crecimiento celular, la supervivencia, la proliferación, motilidad y morfología [36] de señalización. La discrepancia en los resultados actuales de dCov y HHG (Fig 3B) es debido a la naturaleza lineal de la relación entre estos genes y las vías, y el hecho de que la fuerza de HHG está en encontrar relaciones no monótona. Por ejemplo, dCov descubrió una asociación significativa entre PIK3CA y de la vía para guía de axones. Mirando hacia atrás en el análisis univariante (Tabla S1) vemos que PIK3CA se encontró una relación significativa con HRAS, que pertenece a la vía de guiado de los axones, y esta asociación también se encontró por Pearson o Spearman. Estos resultados indican una fuerte relación lineal entre PIK3CA y HRAS (Fig 4). Del mismo modo, la asociación se encontró por dCov, pero no por HHG, entre MSH2 y los vía de señalización Ras puede explicarse por la asociación significativa encontrado por Pearson o Spearman entre MSH2 y REL gen, que pertenece a esta vía (S1 tabla y la figura 4 ). Se espera que las relaciones conocidas entre genes descubiertos por los métodos de laboratorio (tales como co-IP) o por análisis bioinformático de datos de alto rendimiento basados ​​en métodos orientados monótonas lineal clásico o serán fuertemente sesgados hacia relaciones lineales o monótono.

Gráficos de dispersión de PIK3CA frente HRAS (panel izquierdo) y MSH2 frente REL (panel derecho).

en conjunto, estos resultados proporcionan una prueba de concepto para la capacidad de análisis multivariante para revelar gen biológicamente relevante asociaciones -pathway.

Discusión

En este trabajo se realizó un nuevo enfoque para el análisis del genoma completo CNV, con el objetivo de ser la identificación de asociaciones entre CNV de genes diferentes (CNV-CNV) a través de 60 líneas celulares de cáncer humano. Se utilizaron pruebas de asociación modernas que pueden detectar las asociaciones no lineales y no monótonas y los ajustes aplicados en univariados, en un intento de identificar asociaciones entre genes. Nosotros también utilizamos ellos en la configuración de variables múltiples, en un intento de identificar asociaciones de genes de función desconocida con las vías relacionadas con el cáncer establecidos.

En conjunto, nuestro análisis univariante demuestra que las asociaciones entre la CNV de genes que se encuentran por HHG reflejan los verdaderos procesos biológicos . Esto sugiere que el análisis univariado por medio de pruebas estadísticas que se dirigen sólo las asociaciones lineales o monótono podría dar lugar a muchos descubrimientos importantes biológicamente restantes no revelado. Además, en este conjunto de datos, la superioridad de la prueba HHG sobre las otras pruebas capaces de detectar relaciones no monótono es obvia.

En el ajuste multivariante, la diferencia entre los genes altamente asociados (LLRC32 y SPI1) y los otros cuatro genes asociados es un ejemplo de cómo el análisis multivariante puede hacer alusión a la posición de un gen dentro de una vía. Aplicado a un conjunto de datos más grande y combinado con el análisis univariante, este análisis permitiría posicionamiento aún más refinado de un gen dentro de una vía
.
Seis genes no se asoció con ninguna de las vías. Esto puede ser debido a varias razones; uno de ellos es el número limitado de vías biológicas con las que se asocian los genes de función desconocida, como consecuencia de un número limitado de genes (99) con los datos completos de la CNV en la base de datos utilizados para este estudio. Otra razón podría ser limitados los datos biológicos reportados en KEGG, sin embargo, se prevé que esta situación mejore drásticamente en un futuro próximo debido a la acumulación continua de los datos de los estudios de biología de sistemas.

En caso de LRRC32 y SPI1 se discutió anteriormente, los resultados univariados y multivariados se complementan entre sí como se encontró que estos genes que se asocia con las vías por el análisis multivariante y a los miembros específicos de estas vías por el análisis univariado. Sin embargo, es importante señalar que esto no es una regla general. Como una prueba multivariante de independencia identifica dependencia entre dos vectores, mientras que un método univariado solo los bucles a través de pares de componentes y pruebas para la dependencia entre cada par de variables. Por lo tanto, es posible obtener pruebas univariantes no significativas pero una prueba multivariante significativo para el mismo conjunto de datos. De hecho, hay una posibilidad de no asociación entre cualquier par de genes individuales y sin embargo de una asociación multivariante con la vía completa. Esto puede ocurrir debido a los efectos combinados de las variables de la prueba múltiple. Por ejemplo, AFF2 se encontró que se asociaron significativamente con la vía de guiado de los axones (ajustado p-valor = 0,022), mientras que por el análisis multivariante asociaciones significativas entre AFF2 y cualquiera de los genes que constituyen la vía para guía de axones fueron encontrados por el análisis univariado. Esto podría ser el resultado de asociaciones débiles entre AFF2 y los miembros de la vía, o bien debido a una fuerte asociación con un miembro de vía que no estaba incluido en los datos. En cualquier caso, el análisis multivariado asociación entre genes y vía descubierto no podría haber sido deducida en base a los resultados de los análisis univariados.

En el caso contrario, dos genes, A y B, se pueden asociar mediante análisis univariante, mientras ninguna asociación entre el gen a y el gen de la ruta B pertenece a se encuentra en el análisis multivariante. Por ejemplo CLCN5 fue encontrado por el análisis univariante de estar asociado con MET y BCL2, ambos de los cuales pertenecen a la ruta de adhesión focal, que no se asocia con CLCN5 por pruebas múltiples. Un análisis multivariado reveló, sin embargo, las asociaciones entre CLCN5 y las vías de orientación y RAS Axon (figura 3). Ambas vías contienen MET, el único miembro de vía encontró asociado con CLCN5 por el análisis univariado. Se espera que tales resultados ya MET es una tirosina quinasa del receptor, la transducción de señales desde el exterior de la célula, y por lo tanto está en el comienzo de muchas vías, mientras que BCL2 es una proteína terminal en muchas vías. Esto significa que una asociación univariante con ellos no es lo suficientemente fuerte para detectar una asociación vía. La corroboración de que CLCN5 CNV están asociados con la vía de guiado de los axones proviene de la observación de que el 65,9% de los cánceres del sistema nervioso central tiene una pérdida de una o dos copias del gen CLCN5 (COSMOS, [30]).

Estos ejemplos demuestran la posible ventaja de pruebas multivariantes de independencia sobre pruebas univariantes cuando el objetivo es encontrar una relación entre un gen y un grupo de genes, como una vía, o la búsqueda de una asociación entre dos grupos de genes (por ejemplo, dos vías). En general, con el fin de obtener una imagen completa, tanto la asociación pone a prueba los tipos deben aplicarse.

El HHG las pruebas dCov y son pruebas de permutación, y el cálculo de muchas de estas pruebas pueden ser computacionalmente difícil. pruebas univariantes de distribución libre de un sabor similar al HHG se introdujeron recientemente en [37]. Estas pruebas pueden ser alternativas útiles a la prueba HHG cuando se examinan simultáneamente un gran número de pruebas univariadas

En resumen, nuestros resultados indican:. (1) El análisis multivariado es una herramienta muy útil para atribuir funciones biológicas de los genes de función desconocida; (2) El análisis univariante ómnibus, es decir, usando pruebas que detectan todo tipo de relaciones, podría descubrir muchas nuevas asociaciones importantes que no pueden ser detectados por las pruebas de asociación monótona lineales y comunes; (3) La prueba HHG superó a todos los demás en la búsqueda de pruebas univariado asociaciones; Y lo más importante, (4) Usando una combinación de asociaciones multivariados y univariados pruebas pueden revelar información importante acerca de las redes de genes y, en el contexto actual, sobre los procesos de cáncer de conducción.

Materiales y Métodos

bases de datos de CNV
datos
la hibridación genómica comparada (CGH) de un panel de 60 líneas celulares de cáncer humano (NCI-60) se obtuvo de [12,38]. El CGH contiene 349 clones. Después de excluir a los clones con los valores y los clones que falta con los símbolos de genes desconocidos, nuestro análisis se realizó sobre un conjunto de 99 clones CGH, que representa el 99 genes. Tabla S5 contiene aCGH datos brutos de NCI-60.

El análisis univariante

Asociación análisis se realizó sobre los 99 clones en función de su número de copias de cada una de las 60 líneas celulares de NCI-60. Hemos probado todas las posibles asociaciones por pares entre los 99 clones, la generación de 4851 pares. Se utilizaron las siguientes pruebas de independencia: (i) prueba basada en el coeficiente de correlación de Pearson [39] (ii) prueba basada en el coeficiente de correlación de Spearman [40] (iii) la distancia de covarianza (dCov) [16,17]; (Iv) coeficiente de información máxima (MIC) [18]; y (v) una prueba basada en rangos de distancias (HHG) [19]. Para cada método se ajustaron para comparaciones múltiples por FDR de Benjamini y Hochberg [21], y un resultado de la prueba fue considerado significativo si es ajustado valor de p fue menor o igual a 0,05.

En la siguiente proporcionamos un resumen de las pruebas. Asumamos que tenemos
N
observaciones independientes (
X


i
,
Y


i
),
i
= 1, ...,
N
, a partir de la distribución conjunta de (
X
,
Y
),
X
,
y

R
y nuestro objetivo es comprobar si existe una relación entre el
X
y
y
.

yo. Pearson coeficiente de correlación.

La muestra de Pearson coeficiente de correlación, denotado por
r


p
, es givenwhere y se define basa igualmente en
Y

1, ...,
Y


N
. El valor de
r


p
es entre -1 y 1.
r


p
es igual a 1 o -1 corresponde a los puntos de datos se extiende exactamente en una línea. Un valor de 0 implica que no existe una correlación lineal entre la
X
y
Y
. Si (
X
,
Y
) sigue la distribución normal bivariada, bajo la hipótesis nula de ninguna relación lineal entre el
X
y
Y gratis (es decir, el verdadero coeficiente de correlación es igual a 0), de la siguiente manera
t
distribución de Student con
N
- 2 grados de libertad [39]. Estudiante de este
t
distribución también posee aproximadamente, si la distribución de (
X
,
Y
) no es normal, pero el tamaño de la muestra es lo suficientemente grande. Hemos aplicado esta prueba mediante el uso de la función con cor.test método de parámetros = 'Pearson' en el paquete
Estadísticas
de R (http://www.r-project.org).

ii. Spearman coeficiente de correlación.

Spearman coeficiente de correlación, denotado por
r


s
, se define de manera similar a
r


p
pero en lugar de utilizar los valores observados se utilizan sus filas [40]. En caso de valores empatados, se le asigna un rango igual al promedio de sus posiciones en el orden ascendente de los valores. Un valor de 1 o -1 para

r


s corresponde al caso en el que
X
y
Y ¿Cuáles son las funciones monótonas perfectos el uno del otro. Bajo la hipótesis nula de no relación monótona entre las variables y tamaño de la muestra, de la siguiente manera
t
distribución de Student con
N
- 2 grados de libertad [40]. Hemos aplicado esta prueba mediante el uso de la función con cor.test método de parámetros = 'Spearman en el paquete
Estadísticas
de R (http://www.r-project.org).

iii. . La prueba dCov

El ensayo de la distancia de covarianza [16,17] utiliza todas las distancias euclidianas pares
a


ij
= |
X

El conocimiento de la salud

¿Cuáles son los síntomas del Cáncer de células renales

?. Entre los signos posibles de cáncer de las vías biliares

Conciencia del cáncer de Pins

Everyone los ha visto. Las pequeñas cintas y pines que la ge

Un examen de Non-Hodgkins Lymphoma

Un examen de Linfoma No Hodgkin El cáncer es una enfermed

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]