Crónica enfermedad > Cáncer > artículos del cáncer > PLoS ONE: la detección de cáncer de genes redes caracterizadas por alteraciones genómicas recurrentes en un Population

PLoS ONE: la detección de cáncer de genes redes caracterizadas por alteraciones genómicas recurrentes en un Population


Extracto

Alta resolución, caracterizaciones de todo el sistema han demostrado la capacidad para identificar regiones genómicas que se someten a aberraciones genómicas. Las actividades de investigación a menudo tienen como objetivo asociar estas regiones con la etiología de la enfermedad y el resultado. La identificación de los procesos biológicos correspondientes que son responsables de la enfermedad y su resultado sigue siendo un reto. El uso de nuevos métodos analíticos que utilizan la estructura de las redes biológicas, que son capaces de identificar las redes específicas que son altamente significativa, no aleatoria alterados por regiones de la amplificación del número de copias se observa en un análisis de los sistemas. Demostramos este método en el cáncer de mama, donde se muestra a ser altamente asociado con la supervivencia y la recurrencia de la enfermedad el estado de un subconjunto de las vías identificadas a través de estas regiones

Visto:. Efroni S, Ben-Hamo R, Edmonson M, S Greenblum, Schaefer CF, Buetow KH (2011) para detectar el cáncer de genes redes caracterizadas por alteraciones genómicas recurrentes en una población. PLoS ONE 6 (1): e14437. doi: 10.1371 /journal.pone.0014437

Editor: Toshi Shioda, Hospital General de Massachusetts, Estados Unidos de América

Recibido: 17 Junio, 2010; Aceptado: 8 Octubre 2010; Publicado: 4 de Enero, 2011

Este es un artículo de acceso abierto distribuido bajo los términos de la declaración Creative Commons Public Domain que estipula que, una vez colocado en el dominio público, este trabajo puede ser reproducido libremente, distribuir, transmitirse, modificarse, construida sobre, o de otra forma utilizado por cualquier persona con cualquier objeto lícito

Financiación:. sE está financiado por la Unión Europea a través de su programa de reintegración Primas internacionales (GRI). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción fenotipos

biológicos surgen como consecuencia de genes que interactúan a través de redes complejas. Oncogénesis ha demostrado ser dependiente de las redes biológicas que controlan los procesos tales como la apoptosis, la senescencia, la proliferación y la angiogénesis [1], [2]. Sin embargo, es claro que el conocimiento actual de que los procesos de influencia diversos fenotipos de cáncer es incompleta. Esto es especialmente cierto cuando se trata de procesos asociados a la evolución de la enfermedad entender
.
Un conjunto complejo de alteraciones genómicas se producen durante la evolución de las células tumorales, incluyendo mutaciones, translocaciones y alteraciones en el número de copia. Por ejemplo, el análisis de todo el genoma de los tumores de mama por numerosas técnicas han demostrado de forma reproducible patrones recurrentes de número de copia alteración (CNA) [3], [4], [5], [6], [7], [8], [ ,,,0],9], [10], [11]. La expresión de los genes dentro de estos segmentos alterados se ha demostrado que se correlaciona con el estado de número de copias de la región [3], [9], [12], [13], [14], [15], [16], [17], [18], [19]. Sin embargo, no está claro si estos patrones recurrentes representan el conjunto más importante de la CNA o representan sólo un subconjunto de las regiones clave.

Los patrones de alteración del número de copias han demostrado su utilidad en la clasificación de los subtipos de cáncer y pueden servir como predictores de los resultados del paciente [19]. Estas alteraciones se dirigen a genes que influyen en redes que proporcionan los tumores con una ventaja selectiva sobre las células de la composición normal. Dada su asociación con el resultado, es probable que también influyen en los procesos que conducen a fenotipos clínicos y la respuesta a las intervenciones.

La identificación de los procesos dirigidos por las regiones identificadas mediante el análisis de todo el sistema es complejo. Por ejemplo, copie regiones alterado de números contienen un gran número de genes. También hay un enorme grado de heterogeneidad entre los individuos en el inventario de las regiones resultaron ser alterado.
Variantes
El trabajo de otros para identificar los procesos que sustentan los rasgos complejos ha combinado heredadas y análisis de redes para trazar un mapa multifactorial, fenotipos de la enfermedad heterogéneos [20]. En este trabajo, los autores extienden los enfoques tradicionales de cartografía genética mediante la inclusión de las interacciones de genes putativos para hacer frente a la heterogeneidad. Otros han examinado los conjuntos de datos multidimensionales que incluyen diferentes medidas a escala del genoma simultáneamente en el contexto de las vías [21], [22], [23] .. Aplican método estadístico para medir el enriquecimiento de vía y utilizar los datos de expresión génica para evaluar la variación de actividad de la vía. A través de este tipo de análisis que plantean la hipótesis de nuevas funciones de las células.

En el trabajo presentado aquí, nos complementamos y ampliar estos enfoques para analizar sistemáticamente somática CNA para identificar las redes biológicas que sustentan fenotipos de cáncer. Demostramos el método que utiliza el conjunto de datos de cáncer de mama Chin et al [24]. Identificamos vías alterados diferencialmente dirigidas por el número de copias aberraciones.

Al igual que en los enfoques anteriores, que addresse la heterogeneidad de los patrones mediante el reconocimiento de que los diferentes patrones de CNA pueden representar rutas alternativas que las células cancerosas pueden tomar para alterar el mismo conjunto básico de procesos biológicos comunes. La heterogeneidad aparente en el mapa de localización asociada con CNA puede reflejar simplemente el hecho de que los genes que comprenden una red dada se distribuyen por todo el genoma. Por lo tanto, probar si las vías canónicas individuales son dirigidos a través de regiones de cambio de número de copia no aleatoria. En contraste con los enfoques anteriores, aprovechamos la estructura de red existente en oposición a la creación de redes de novo. La estructura de la interacción de la red para estas redes canónicos se aprovecha entonces para los fenotipos de mapeo. métodos que utilizan descrito previamente [25] para determinar si el estado alterado de forma no aleatoria procesos alterados pueden predecir el resultado del paciente.

Resultados

Chin et al. han informado anteriormente de número de copias en todo el genoma y el análisis de la expresión génica de 145 tumores de cáncer de mama primario [19]. Estas alteraciones se determinaron utilizando genoma gama BAC CGH [26], [27], [28], [29] compuesto por 2464 BAC seleccionados en intervalos de la base de mega aproximadamente a lo largo del genoma, como se describe anteriormente [26], [28]. La utilización de este conjunto de datos y el proceso se describe en Materiales y Métodos, el contenido de genes de cada segmento se describe en Chin et al. fue identificado. Se obtuvo

red biológica Canonical información de la estructura y contenido de genes a partir de fuentes públicas [30], [31], se examinaron [32] .Un total de 565 vías canónicas. Estas vías representan colecciones de interacciones que son subconjuntos de redes biológicas más grandes curada para capturar funciones específicas. Por lo tanto, su contenido de genes no es única. El contenido de genes de estas vías varía dramáticamente. Por ejemplo, como la vía de "degradación de la RAR y RXR por el proteasoma [33]) contiene sólo 2 genes IL12 mientras Signaling Pathway" [34], [35], [36]) contiene 80.

para tener en cuenta la heterogeneidad de la implicación de genes cuando el análisis se realiza usando un modelo de red se define un nuevo indicador estadístico (descrito en las ecuaciones (2.5) y (2.6) en Materiales y Métodos). Importancia para cada vía a través de muestras se evaluó a través de Fisher Omnibus [49] y ajustado para comparaciones múltiples utilizando el método de Bonferoni.

La aplicación de los métodos a los datos proporcionados por Chin et al., Identificamos las vías en las que las los genes alterados por la CNA son muy excesivamente representados en comparación con las expectativas al azar (Tabla S1).

para ilustrar los diversos patrones sobre-representación de una red determinada se presentan los eventos CNA relacionados con la vía "y CDC25 CHK1 "[37] (Figura 1). En la figura, la amplificación de genes se denota a través de una plaza y de supresión de genes de color púrpura a través de casillas negras.

rectángulos de color violeta significan la amplificación génica y cuadrados negros significan eliminación. Cada columna representa un tema elegido al azar, con un total de 18 sujetos. Cada fila representa un gen diferente de los genes de la vía. Los diferentes temas se dirigen a la vía "CDC25 y CHK1" a través de la alternancia de estrategias genómicas. La vía como una unidad, sin embargo, está dirigido a toda la población.

Como muestra la Figura 1 demuestra, no solo gen dentro de la vía parece ser el objetivo diferencial del CNA a través de las muestras de cáncer de mama que se muestran 18 ... o cuando se examina a través de los restantes 127 individuos en el estudio.

por otro lado, podemos ver que la vía, como una unidad, está dirigido en casi todos los temas en el panel (todo el panel de temas para esta vía se incluye en la Tabla S2). Tenga en cuenta, la métrica (ver Materiales y Métodos) compensa el tamaño de la vía. Por lo tanto, para obtener un valor de p significativo, las vías más grandes necesitan acumular un mayor número de amplificaciones de genes o supresiones.

A continuación evaluó si las redes identificadas por la sobre-representación de la CNA están asociados con la enfermedad resultados. Usando actividad de la vía y de índices de consistencia vía [26], que agrupan los individuos en función de sus métricas de la vía y se realizó un análisis de supervivencia. Cuando estratificar los pacientes en dos grupos, podemos dibujar las curvas de supervivencia y comprobar para ver si separan la población de una manera significativa (Figura 2).

Esta vía, que se ha puesto de manifiesto a través de su altamente significativa p-valor como el blanco de alteraciones genómicas, es altamente significativo en su capacidad para estratificar el pronóstico de los pacientes. La figura demuestra lo importante que indican alteraciones genómicas importancia de una vía como una herramienta de estratificación

iterar sobre la colección de cientos de vías, nos encontramos con 29 vías que cumplen con los criterios de significación de p & lt;. 0.05 (Tabla S3) . Sin embargo, cuando el ajuste para múltiples pruebas utilizando el método de Bonferroni sólo dos vías dirigidas de manera significativa por las alteraciones genómicas también están altamente asociados con la supervivencia; "" regulación hipóxica y la homeostasis de oxígeno de HIF-1 alfa "[38], [39], [40] y glucosaminoglucanos [refs] degradación.

Un enfoque alternativo para el ajuste para comparaciones múltiples para evaluar la significación es para validar los resultados de esas vías que muestran significación marginal a través de conjuntos de datos. Dos conjuntos de datos públicos con los datos de expresión y resultado de la enfermedad fueron seleccionados de la base de datos Gene Expression Omnibus (http://www.ncbi.nlm.nih.gov/geo) [41] El primer conjunto de datos (GSE2990) [42] contenía 189 los individuos. El segundo (GSE3494) [43] contenía 251 individuos. La expresión génica en ambos conjuntos de datos utiliza la plataforma Affymetrix para determinar el estado de la expresión génica. De los 29 originales observadas vías que se asociaron significativamente con la supervivencia en Chin et al. [19], 8 se observaron a ser significativo en GSE2990 y 8 se observaron a ser significativo en GSE3494. Se observaron un total de 4 vías para ser significativa en los tres conjuntos de datos. Concordancia entre los conjuntos de datos es más de lo que cabría esperar por azar.

Discusión

Los resultados anteriores sugieren que los genes en la CNA procesos importantes para el estado oncogénico objetivo que no sea al azar. En el trabajo que aquí se presenta, proporcionamos un medio para identificar objetivamente los procesos biológicos que pueden ser objeto de estas alteraciones. Por otra parte, las vías sobrerrepresentadas en estos segmentos muestran diferencias en la actividad y la consistencia que se relaciona con el resultado del cáncer.

El número total de vías identificadas como no aleatoria dirigida es sorprendente. Una posible explicación es la falta de independencia del contenido de gen asociado con cada vía. La agrupación jerárquica de las vías que utilizan el p-valor asociado a la orientación no aleatoria (Tabla S4) confirma que las vías con nombres relacionados comúnmente se agrupan con alta correlación (r & gt; 0,5, datos no mostrados). La inspección de los valores de p de la vía a través de los individuos muestra tremenda variabilidad (Tabla S4). Esto sugiere diversos mecanismos moleculares subyacentes oncogénesis de conducción. Por desgracia, hay un patrón evidente de la agrupación de individuos desprende del análisis de la variabilidad de la vía específica.

CNA han sido previamente demostrada para mostrar asociación con los resultados de los pacientes [44], [45], [46], [47] ). En el Chin et al. [19] el número de copias alteradas segmentos individuales mostraron asociación con la supervivencia y la recurrencia de la enfermedad, pero que se realiza de forma desigual. Cuando se toma como un conjunto, encontraron que la alteración de cualquiera de lo que identificaron como "amplicones recurrentes" se asoció con una duración reducida de supervivencia (p & lt; 0,04) y la recurrencia a distancia (p & lt; 0,01).

Los resultados obtenidos desde el análisis basada en las vías de la misma serie de datos producir una mejora sorprendente y sugiere que las vías pueden representar una mejor manera de evaluar alteraciones recurrentes. Dos vías muestran una asociación altamente significativa dentro de Chin et al. solos y 4 muestran las vías de importancia a través de múltiples conjuntos de datos de expresión de datos. Debido a la alta dimensionalidad de los datos de nivel de los sistemas, siempre hay un peligro de sobre apropiado. Como tal, los resultados de un estudio individual deben ser vistos con escepticismo. Sin embargo, la concordancia significativa a través de múltiples proporciona una validación independiente.

El aumento de la reproducibilidad y la magnitud del efecto asociado con el estado de la vía en comparación con la observada en el examen directo de las regiones "recurrentes" pueden ser atribuibles a diversos factores. A nivel mecánico, el examen de los datos a nivel de vía permite que la información de diferentes regiones para ser integrado en toda la red. El hecho de que cualquier región dada recurrente se amplifica ya no es el predictor crítico. Lo que surge en cambio, es la importancia de conjuntos de regiones alteradas cuyos miembros individuales golpear diferentes partes de una vía específica. Pathways pre-agregado los efectos de múltiples genes. Como tal, es posible detectar las interacciones de múltiples genes que influyen en los fenotipos de cáncer, pero que, si no se agregan en una vía, podría dejar de cumplir con la prueba de significación estadística en un pequeño conjunto de datos.

CNA es sólo un factor que podría conducir participación vía en fenotipos. Muchos otros mecanismos genómicos (por ejemplo, mutaciones de genes individuales, epigenética activación /amortiguación) pueden influir en el estado de la vía. Como tal, las vías identificadas aquí representan un subconjunto de los que probablemente involucrados.

Conceptualmente, es probable que, debido a la vía es la unidad subyacente del fenotipo, centrándose en las vías de señal aumenta y reduce el ruido. alteraciones genómicas que se acumulan durante la oncogénesis y la progresión de la enfermedad ocurren al azar. La coherencia observado probablemente se debe a que ciertos procesos deben ser alterados para llegar al fenotipo dado. heterogeneidad genómica aparente, "ruido", se debe a que hay múltiples formas de una vía se puede cambiar. Todas estas formas son "señal" desde la perspectiva de una vía.

Es posible especular que el análisis similares a las realizadas por alteración del número de copias de esas vías (arriba) puede resultar útil para otros análisis como genoma pantallas de mutación o estudios de asociación de todo el genoma. Por ejemplo, los patrones de mutaciones complejos observados en los 1672 genes caracterizados en el cáncer humano y de mama [48] están todos observaron para mutar genes en uno o más de 6 estado vías canónica identificado a partir de datos de expresión génica que diferencia universalmente tumor de normal [25] . Del mismo modo, los patrones complejos, los bajos ratios de número impar de asociaciones de haplotipos pueden reflejar rutas heterogéneas para alterar las vías comunes. Las observaciones anteriores tienen varias implicaciones prácticas en estrategias de intervención teniendo en cuenta la próxima generación. En primer lugar, las redes proporcionan una base para el diseño de terapias combinatorias. El examen de las redes, y sus estados de actividad, proporciona un medio racional de determinar qué combinación de genes tienen que ser dirigidos con el fin de alterar el estado de los nodos críticos. También es interesante que no todas las alteraciones en las vías de estados resultado influencia. Esta diferencia observada en el efecto sobre el resultado, lo que puede reflejar el resultado de experimentos naturales por el tumor, también puede resultar importante dar prioridad a los genes y las interacciones pueden ser dirigidos de manera más productiva para mejorar el resultado.

Materiales y Métodos

Asignación de Entrez gene Golden Path

base de datos Entrez gene NCBI contiene 36470 registros humanos, 25441 de ellos anotados como codificación de la proteína. Para cada gen en este conjunto se utilizó una variedad de métodos para encontrar la secuencia del genoma del camino de oro ubicación. Versión (hg18) de la base de datos del genoma contiene extensas anotaciones que utilizamos siempre que sea posible. En algunos casos se utilizó Blat para encontrar lugares del genoma.

Las posiciones de los genes de aproximadamente 18.342 (~54%) fueron anotados directamente en las tablas reflink y refGene del camino dorado. Si bien esta es la referencia más sencilla, que deja sin asignar 18,128 genes, 6.757 (~18.5%) de ellos la codificación de proteínas.

En los casos en que una anotación directa de genes no estaba disponible, se realizaron búsquedas en las anotaciones de Sendero de Oro para el ubicaciones de secuencias asociadas a partir de una variedad de fuentes, se enumeran a continuación por orden de preferencia: Read
adhesiones de ARNm de la tabla "gene2accession" de Entrez gene

adhesiones con referencias cruzadas a partir de la base de datos HUGO

adhesiones con referencias cruzadas a partir de la base de datos UniSTS

representante secuencia primaria de UniGene cluster asociado

secuencias de ARNm de UniGene cluster asociado

secuencias de EST UniGene asociado clúster


las adhesiones fueron obtenidos de cada una de estas fuentes, a su vez, y luego levantó la vista en varias tablas del camino de oro de anotación (all_mrna, stsMap, clonePos, y all_est). Una base de datos local integrada de ARNm y resultados refseq Blat (montado por Robert Clifford) También se realizaron búsquedas, proporcionando algunos partidos adicionales. Las localizaciones genómicas resultantes de las secuencias de búsqueda fueron agregados, y aceptadas como la posición del gen si los lugares cayeron dentro de una región 3 mb (3 mb ser un punto de corte un tanto arbitraria basada en el mayor mapeo de genes basados ​​en reflink observado de aproximadamente 2,3 mb). Si una anotación cromosoma estaba disponible de Entrez Gene, HUGO, o UniSTS, posiciones genómicas se incluyeron solamente si estuvieran en el mismo cromosoma. Se requirió una anotación cromosómica conocida en el caso de UniGene EST mRNA y secuencias búsquedas
.
En los casos en que estaban disponibles las anotaciones de adhesión, pero no se encontraron las posiciones, hemos realizado nuestros propios Blat búsquedas. Esto era necesario para ciertas clases de adhesiones que no aparecen en la base de datos Senda de Oro (por ejemplo la serie "XM_" de RefSeqs pronosticados). Si una anotación cromosoma estaba disponible para el gen, una búsqueda Blat se llevó a cabo sólo en contra de ese cromosoma, de lo contrario se realizaron búsquedas en todos los cromosomas. Los resultados se agregaron y aceptadas como la posición del gen si cayeran dentro de unos 10 mb o región más pequeña. Este es un requisito menos estricto que el utilizado en el sistema de mapeo basado en la adhesión, sin embargo, puede proporcionar al menos una posición en general, mucho más específico que una coordenada basada en citogenética (la única información de asignación disponible para algunas entradas Entrez Gene). Si se encuentran coincidencias posibles en varios cromosomas, el mapeo de genes fue rechazado como ambigua.

Resultados de Blat se anotan con una de las cuatro categorías de los tipos de concordancia, por lo que las anotaciones pueden ser excluidos más adelante si se consideran demasiado amplia. Las cuatro categorías son:

Se encontró una sola pareja perfecta para la secuencia de consulta. El resultado de la asignación ideal.

Se ha encontrado más de una combinación perfecta para la secuencia de consulta.

Un único partido casi perfecto (al menos un 95% pero inferior al 100% de identidad) se encontró.

No se han encontrado varias coincidencias casi perfectos

el trato preferencial se le dio a la perfecta refseq partidos en los resultados -. es decir, un partido Blat perfecto para un refseq se consideró posición genómica del gen, independientemente de la presencia de otros partidos casi perfectos en los resultados

Si mapeo fallado por cualquiera de los métodos anteriores se trataron algunos métodos de crudo de último recurso:.

Si un gen se posicionó en una secuencia NCBI genómica contig (NC_ * serie de adhesión, a través de la mesa "gene2refseq" de EG), y un vecino de genes en el mismo cromosoma, brazo,
y la banda se podían encontrar en Camino de oro, el pariente

distancia entre los dos genes en la secuencia NCBI

se aplicó a la trayectoria de oro coordenadas para aproximar

su posición.

Si un gen tenía Sólo una ubicación citogenéticos disponibles, las coordenadas de los genes de la ruta asignada de oro con la misma ubicación citogenética fueron agregados y una unión de su posición generada. Las asignaciones resultantes son extremadamente amplia, pero al menos el punto a una región molecular general que puede todavía ser útil en algunas circunstancias.

BAC cartografía a Golden Path

El segundo conjunto de datos que se asigna a Golden Path consistido en el conjunto de BAC utilizados en los arrays de CGH de Chin et al [24]. Al igual que con el proceso de asignación de Entrez Gene, la base de datos de anotación Camino de oro contiene una tabla ideal para nuestros propósitos, "bacEndPairs", la celebración de las posiciones genómicas de BAC cuyas secuencias finales han sido ambos asignada. Sin embargo, sólo aproximadamente el 39% de los BAC en nuestro conjunto contiene una entrada en esta tabla. La tabla de "fishClones" proporciona asignaciones de un 6% adicional de la BAC. Para el resto se utilizó anotaciones relacionadas con BAC como una base para la proyección.

El registro clon NCBI proporciona una fuente importante de anotaciones de BAC. A partir de ella, se extrajo la adhesión relacionadas con el BAC, secuencia final, STS y la información cromosoma. El registro también proporciona conexiones cruzadas a UniSTS, de los que recogimos adhesiones relacionadas adicionales. Se realizaron búsquedas de las secuencias resultantes en all_mrna de trayectoria de oro, clonePos, stsMap y all_ests tablas. También tomamos nota especial de ningún resultado con secuencias finales de BAC. Además del registro clon, que también se utiliza anotaciones de las matrices de la UCSF 2.0 (datos de http://cancer.ucsf.edu/array/analysis/), así como los registros de GenBank que hacen referencia a nombres de BAC en el bloque de título. asignaciones del genoma fueron aceptados para la BAC si ya no eran de 500 kb de longitud, y se rechazaron las asignaciones a los cromosomas ambiguas.

Para BAC que no pudo ser encontrada usando las anotaciones de registro clon NCBI o matriz UCSF, se intentó un enfoque basado en la cartografía sustituto. Chin et als, [1] anotaciones array CGH siempre posiciones genómica en bruto (en megabases) cuyas coordenadas alineados más estrechamente con una acumulación genoma mayor, HG16. Para cada BAC, se extrajeron los identificadores de secuencia de HG16 que fueron anotados como estar cerca de esta posición. Conjuntos de secuencias se extrajeron de cada uno de los all_mrna, stsMap y anotación cuadros all_est. Para mRNAs y STS, usamos secuencias localizadas dentro de más o menos 5 kb de la ubicación de destino. Para EST, tomamos las secuencias dentro de más o menos 1 kb de la posición de destino. Estas secuencias extraídas se utilizan como sustitutos de la BAC, y miraron hacia arriba en hg18, buscando (en orden de preferencia) ARNm, STS, y EST. Este enfoque se utilizó para generar posiciones HG18 aproximadamente el 8,7% de la BAC.

Para BAC que no pudieron ser asignados a hg18 utilizando cualquiera de los métodos anteriores, se realizó una segunda pasada para encontrar generar posiciones aproximadas en base a interpolado lugares BAC vecinos. Para cada BAC, tratamos de encontrar BAC que flanquean con asignaciones HG18. A continuación, aplica los desplazamientos relativos a las posiciones HG18 en base a las distancias en las posiciones HG16. Esto sólo se requiere aproximadamente el 1,4% de la BAC.

preprocesamiento BAC.

Dos conjuntos de posiciones genómica modificados se generan para cada BAC, al cual nos referimos como coordenadas expandida y extendida.

coordenadas expandidos son un intento de compensar los muchos casos en que la cartografía y BAC-secuencia final la información es incompleta. Están destinadas a garantizar que todos los BAC cubren una cantidad mínima del genoma, y ​​que BAC mapeadas totalmente no desplazan a los BAC que tienen anotaciones de mapeo menos completas. Esto comprende la ampliación BAC mapeado coordina hasta aproximadamente 165 KB, que es nuestra observación de la mediana del tamaño de BAC, donde se han localizado dos secuencias finales. Las coordenadas no se expanden en los casos en que se han trazado dos secuencias finales, o si la información de asignación existente abarca 100 kb o más. Si se conoce una única asignación de secuencia final, la expansión se realiza lejos del extremo anclado, de otro modo las coordenadas se expanden por igual en cualquier dirección. Las colisiones durante la expansión entre BAC mapeadas estrechamente se detectan y se resuelven por un proceso de pasos múltiples en la que se asigna el espacio intermedio disponible por igual entre BAC. Si la expansión en una dirección provoca una colisión con un BAC vecina, la expansión compensatoria adecuada se intenta en la otra dirección, a menos que ello se fija por la presencia de una secuencia final conocido.

coordenadas Extended basan en las asignaciones expandido dividiendo las regiones sin asignar del genoma entre BAC vecinos. Esto proporciona una cobertura pseudo-mosaico del genoma, lo que permite una región determinada que se asocia con el BAC más adecuado en el conjunto. La generación de coordenadas extendidos requiere coordenadas expandido debe calcularse en primer lugar, para permitir la asignación más equitativa de las regiones que intervienen
.
coordenadas expandida y extendida se calculan dinámicamente según el número de miembros del BAC CGH array se está trabajando con. Mientras que los arrays CGH basados ​​en HG16 estaban destinados a muestrear el genoma a intervalos regulares, sus posiciones calculadas en hg18 no son tan claramente separados. Para estos fines, los BAC fueron dispuestos como los observamos en hg18
.
Hay casos en los que coordina BAC solapamiento. En los casos en que un BAC se calcula a estar situado totalmente dentro de un BAC más grande, el más pequeño BAC recibe las mismas coordenadas finales como el BAC más grande (que se considera esencialmente un duplicado). En los casos en que un BAC se superpone parcialmente con otra, las coordenadas en la zona de superposición no son modificados, y no hay expansión o ampliación se lleva a cabo en el extremo con la superposición.

La asociación de BAC con genes

hay tres tipos básicos de intersecciones entre genes y coordina BAC:

mapeo del gen cae enteramente dentro de la cartografía del BAC

mapeo del gen se encuentra en parte dentro de la cartografía de la CAV y en parte fuera

mapeo del gen es más grande que el mapeo de la CAV. Esto puede suceder por genes con muy amplios asignaciones de genes derivados citogenético.

Gene-to-BAC asociaciones del primer tipo son triviales de calcular. Los dos últimos casos requieren algunos pasos adicionales para determinar si un gen debe estar asociado con un BAC o no. Asociaciones se rechazan en general si la longitud de la asignación de BAC es menos de un tercio de la longitud de la cartografía genética. Esto evita que las asociaciones que se formen sobre la base de solapamientos no sustanciales. Si las coordenadas se está utilizando el conjunto extendido de BAC, una asociación es rechazada a menos que al menos el 50% de las coordenadas del gen se encuentran dentro de las coordenadas de la BAC. Dado que en modo extendido baldosas de BAC del genoma completo, este paso asegura que los genes en las regiones fronterizas serán asignados a uno de BAC exclusivamente. asociaciones específicas de BAC y sus genes se han descrito previamente en Chin et al. [24].

la identificación de genes en el número de copia alterada Regiones. Con el fin de identificar los genes en las regiones de número de copias alteradas era necesario traducir BACs de coordenadas utilizado en la hibridación genómica comparativa (CGH) ensayos en coordenadas del genoma. Este mapeo implicado la base de datos Entrez Gene y la BAC CGH a un espacio de coordenadas (del camino de oro genoma humano construir hg18) común, y luego superponer los resultados. Estos procesos se describen en el material complementario [19].

mapeo de genes de Caminos

Se determinó la lista de genes utilizados en cada vía por la consulta en la base de datos del Camino de interacción [49].

valor de p para las alteraciones genómicas de un camino en una muestra específica

Cada red vía se ha tomado como un conjunto de genes. Es decir, para cada vía, y de acuerdo con (2.4), se enumeran los genes que son miembros de la vía.

Para determinar la probabilidad de que una vía es a ser golpeado por exactamente k éxitos, primero calculamos la probabilidad de que la vía es al azar veces golpeado. Con G genes cuantificados en una plataforma dada (por ejemplo, una plataforma que cubre todo el genoma cubrirá aproximadamente G = 24.000), y N
sub genes en una vía de i (N
i es por lo general entre 10 a 70 genes) se obtiene: (2.4) La probabilidad de acertar al azar cero a
k
i

,
j
genes, dado que
H
j
genes están alterados en la muestra
j
es la función acumulativa hipergeométrica distribución: (2.5) por tanto, el valor p asociado se define como: (2.6)

p-valor para una vía mundial focalización en una población

para poder cuantificar estadísticamente focalización genómico de una vía a través de una población de sujetos que necesitamos para iterar a través de los valores de p se definen en (2,5). Esta es, en efecto, una combinación de uno pruebas binomiales lados. Esto ha sido resuelto por diferentes técnicas, incluyendo la de Fisher Omnibus [50], que estamos utilizando aquí. Esta estadística de prueba para vía
i
se expresa aquí como: (2.7) y el correspondiente valor de p es: (2.8) donde es la función de distribución acumulada de Chi-cuadrado y
d ¿Cuáles son las número de grados de libertad (número de muestras).

Apoyo a la Información sobre Table S1. la corrección de Bonferroni se aplicó
en los valores p calculados mediante el test de Fisher Omnibus con el fin de abordar el problema de las comparaciones múltiples. El valor de significación fue de asignación para ser 8.834 × 10
-5, que es de 0,05 /566 (cuando 566 es el número de vías). Tabla S1 muestra todas las 566 vías calculados a partir de datos de la barbilla con el p-valor calculado mediante el test de Fisher Ómnibus. Además, cada valor de p se ajustó y se reasignó importancia vía
doi:. 10.1371 /journal.pone.0014437.s001 gratis (DOC 0,65 MB)
Tabla S2.
Tabla S2 muestra todo el panel de temas para la siguiente ruta "cdc25 y vía de reglamentación Chk1 en respuesta al daño del ADN". Esta vía se compone de 9 genes. Esta tabla muestra las alteraciones del número de copias en todo paciente con cáncer de mama 145: -1 indica su eliminación, 1 indica la amplificación y de 0 indica ningún cambio significativo
doi:. 10.1371 /journal.pone.0014437.s002 gratis (0.19 MB DOC ) sobre Table S3.
Tabla S3, que aquí se presenta, muestra todas las vías que resultaron significativas en el uso de análisis de supervivencia de Kaplan-Meier. Todas las vías que aquí se presentan fueron encontrados para ser dirigida de manera significativa a través de copia alteración número mediante el test de Fisher Omnibus (después de la corrección). Todas las 29 vías se probaron en dos conjuntos de datos más comunes obtener de GEO (http://www.ncbi.nlm.nih.gov/geo). . A - actividad, C - consistencia
doi: 10.1371 /journal.pone.0014437.s003 gratis (DOC 0,05 MB) sobre Table S4. Francia El cuadro se detalla el valor Omnibus de Fisher para cada vía.

El conocimiento de la salud

Antioxidantes: el mejor suplemento antioxidante

Antioxidantes: El mejor suplemento antioxidante La mentali

Simples consejos sobre cómo luchar contra el cáncer Cancers

Controlling, o incluso asistir a alguien cerca de la manija

Prevención del cáncer: Coma su col

Can comer el brócoli y la col ayudan a proteger contra el cá

PLOS ONE: Modelado de TGF-β en estadios tempranos de la Dinámica de tejido de cáncer

Extracto Trabajos recientes han puesto de manifiesto un do

La experiencia es crucial cuando se consideran la cirugía del cáncer de próstata

Con la mayoría de las cosas en la vida que es justo decir qu

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]