Extracto
El cáncer colorrectal progresa a través de una acumulación de mutaciones somáticas, algunos de los cuales residen en los llamados genes "conductor" que proporcionan una ventaja de crecimiento del tumor. Para identificar los puntos de intersección entre las vías genéticas conductor, se implementó un marco de análisis de red mediante interacciones de proteínas para predecir probables conexiones - tanto precedentes y novedoso - entre los genes factor clave en el cáncer. Aplicamos el marco para encontrar conexiones significativas entre los dos genes,
Apc
y
Cdkn1a gratis (
p21
), conocido por ser sinérgica en la tumorigénesis en modelos de ratón. Luego se evaluó la coherencia funcional resultante de la
APC-Cdkn1a
red mediante ingeniería
in vivo
perturbaciones de un solo nodo de la red: modelos de ratones mutados individualmente a
Apc gratis (
Apc
1638N +/-
) o
Cdkn1a gratis (
Cdkn1a
- /-
), seguido de mediciones de cambios en las proteínas y la expresión de genes en el tejido epitelial intestinal . La hipótesis de que si la red predicho es biológicamente coherente (funcional), a continuación, los nodos predichos deberían asocian más específicamente con los genes y proteínas que dysregulated genes y proteínas estocásticamente seleccionados. La predicho
APC-Cdkn1a
red fue perturbado de manera significativa en el nivel de ARNm por ambos agujeros ciegos de un solo gen, y las predicciones fueron también fuertemente compatibles basadas en la proximidad física y la co-expresión de ARNm objetivos proteómicos. Estos resultados apoyan la coherencia funcional de la propuesta
APC-Cdkn1a
de la red y también demuestran cómo las predicciones basadas en la red se pueden probar estadísticamente el uso de datos biológicos de alto rendimiento
Visto:. Patel VN, Bebek G, Mariadason JM, Wang D, Augenlicht LH, Chance MR (2010) Predicción y pruebas de las redes biológicas subyacentes del cáncer intestinal. PLoS ONE 5 (9): e12497. doi: 10.1371 /journal.pone.0012497
Editor: Chad Creighton, Baylor College of Medicine, Estados Unidos de América
Recibido: 16 de mayo de 2010; Aceptado: July 26, 2010; Publicado: 1 de septiembre 2010
Derechos de Autor © 2010 Patel et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo ha sido apoyada por los Institutos nacionales de Salud Subvenciones UL1-RR024989 del Centro Nacional de Recursos para investigación (clínica y traslacional Ciencia premios) y P30-CA043703 del Centro Integral del cáncer de la Universidad Case Western Reserve. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
la mayoría de los tumores colorrectales hereditarios surgen a través de la acumulación secuencial de mutaciones en los genes clave de controladores, donde una mutación en un gen supresor tumoral (por ejemplo,
Apc
) u oncogén (por ejemplo,
Kras
) inicia el proceso, y una cascada de mutaciones somáticas sobreviene [1]. A pesar de estas mutaciones se pensaba que clásicamente estar compuesto por un par de genes (por ejemplo,
Apc
,
Kras
,
Trp53
), los recientes esfuerzos de secuenciación a gran escala, se ha dado que cualquier tumoral incluye (en promedio) 80 mutaciones, con nada menos que 15 situada en mutadas con frecuencia "controlador" genes [2]. En apoyo de la hipótesis de que estos genes clave funcionan de manera cooperativa en la conducción de la tumorigénesis, modelos de ratones mutados en dos genes conductores, simultáneamente han mostrado un aumento sinérgico de la carga tumoral, incluyendo:
PTEN-Apc
[3],
Kras-tgfb
[4], y
APC-Trp53
[5]. La evidencia de sinérgico, es decir, no aditiva, los aumentos en la carga tumoral sugiere que las vías de señalización de dos genes mutados pueden intersectar aguas abajo, y, por tanto, predecir y interrogar estos puntos de intersección -
como una red biológica
- es de gran interés. Para rastrear las conexiones entre los genes, una variedad de conjuntos de datos de alto rendimiento - por ejemplo, interacciones proteína-proteína (IBP), co-expresión génica, y las relaciones de factores de transcripción - se han empleado para inferir asociaciones funcionales que se prestan a análisis como redes, en el que cada gen o proteína se representa como un nodo y una interacción como un borde. Por otra parte, los análisis basados en la red se pueden utilizar para identificar biomarcadores [6], para predecir la progresión del tumor [7], o para revelar las alteraciones moleculares que subyacen a la enfermedad [8].
Sin embargo, nuestro conocimiento actual de las redes biológicas está lejos de ser completa. La cobertura de las bases de datos actuales interactome se estima en menos de 10% del número total de interacciones [9]. Por lo tanto, cuando la interpolación de las conexiones entre genes conductor, los análisis basados en la red que se basan únicamente en las interacciones confirmados pueden carecer de las conexiones esenciales. Como uno de los objetivos de nuestra investigación es predecir y analizar las trayectorias funcionales entre genes conductor, un paso fundamental era desarrollar un marco predictivo para inferir y evaluar nuevas conexiones entre los genes. El marco propuesto aquí (siguiendo el modelo de Pathfinder [10]) infiere bordes no disponibles con las predicciones de las relaciones familiares de proteínas y filtra estos caminos basados en reglas de asociación conocidos. Por otra parte, ya que un gen de cáncer participa en múltiples vías de señalización, puede haber docenas - si no, cientos - de caminos por los que dos proteínas interactúan funcionalmente. Por lo tanto, se requiere un enfoque computacional para limitar el espacio de la red para el contexto biológico específico de interés. Para extraer subredes funcionalmente relevantes, el marco detecta vías de señalización altamente probables basados en gen-gen co-expresión de ARNm y la ontología [11] reglas de asociación de genes extraídos de las vías publicados.
Se utilizó el método de cálculo para dilucidar las conexiones entre una conocido gen controlador de cáncer intestinal,
Apc gratis (
poliposis adenomatosa coli
), a otro gen también involucrados en el cáncer,
Cdkn1a gratis (anteriormente conocido como
p21
). Aunque
No se encontró Cdkn1a
mutado en las poblaciones de los cánceres colorrectales humanos estudiados hasta la fecha [2], su nivel de expresión se correlaciona con la progresión neoplásica y tiene un valor pronóstico superior a la de
Trp53
[12]. Más apoyo a su importancia en la neoplasia, el ratón mutante doble,
Apc
1638N +/- Cdkn1a
- /-
, exhibe un aumento sinérgico en su carga tumoral [13]. Después de la predicción de la red que une
Apc
y
Cdkn1a
, se evaluó la relevancia de estas predicciones mediante la manipulación del sistema subyacente: la generación de
in vivo
red perturbaciones en dos modelos de ratón, seguido de mediciones ómicas sistemas de nivel 'del epitelio del intestino delgado. Las mediciones ómicas '- tanto proteómicos y genómicos - del sistema perturbado se utilizaron para la prueba estadística de la red predicho, introduciendo así el concepto de evaluación de
In silico
predicciones con los datos biológicos específicos del contexto
.
Materiales y Métodos
marco de análisis de redes
el marco de análisis de la red (que se ilustra en la Figura 1, y se explica en los métodos S1) emplea la arquitectura PathFinder describen anteriormente [10]. La red prima de interacciones físicas disponibles públicamente se primera poda de falsos positivos mediante un modelo de regresión logística que incorpora (i) el número de veces que se observó una PPI, (ii) la correlación de Pearson de mediciones de la expresión de los genes correspondientes, (iii) pequeño coeficiente de agrupamiento mundo de las proteínas, y (iv) la proteína de datos de localización subcelular de socios que interactúan. Positivos (1000 IBP de los MIPS [14] base de datos de interacciones) y de datos de entrenamiento negativo conjuntos (1000 IBP seleccionados al azar que no están en MIPS) se utilizan en 1000 ensayos de validación cruzada para adquirir los parámetros que maximizan la probabilidad de una verdadera interacción .
El proceso comienza con un proceso de filtración en dos etapas para dar cuenta de los falsos positivos y falsos negativos en bases de datos de interacción. Después de seleccionar los genes del controlador de interés, las vías se predicen y luego podados utilizando tanto las reglas de asociación GO plazo y valores co-expresión génica de genes. Finalmente, los segmentos importantes de la ruta se combinan para llegar a una red que conecta los dos genes de controladores. El marco incorpora co-expresión de ARNm específico de tejido en dos niveles: en el filtrado por pares de falsos positivos; y en el filtrado de los caminos por coexpresión promedio. El modelo de regresión logística se entrena en las bases de datos interactome estándar de oro (ver Métodos S1 para más detalles).
interacciones negativas falsas se infiere utilizando relaciones de homología de secuencia. Se observó que las proteínas con secuencias similares comparten parejas de interacción similares en el mismo organismo [15], y, por lo tanto, las proteínas de la misma familia son también propensos a tener patrones de interacción similares. La base de datos Pfam, la utilización de múltiples alineamientos de secuencias y modelos ocultos de Markov (HMMs), utiliza la similitud de secuencia para formular las clasificaciones de la familia de proteínas [16] y sirve como una herramienta útil para la explotación de estas relaciones. Por lo tanto, inferimos un borde interacción si (i) dos proteínas no interactúan unos con otros en la red PPI, y (ii) existe al menos una interacción entre las familias de estas dos proteínas.
Para identificar esos caminos relevantes para nuestro modelo de sistema de interés, coexpression datos basados en experimentos de microarrays de la
Apc
Min /+
ratón epitelio del intestino delgado se obtuvieron de la Expresión génica Omnibus (serie GSE422 [17]); este estudio utiliza láser de microdisección de captura para probar las criptas de los adenomas, carcinomas, y el epitelio normal. En nuestra aplicación, usamos la versión 23.0 Pfam [16] y la liberación de ontología de genes en agosto de 2008 [11]. El algoritmo de búsqueda se amplió para encontrar vías de hasta 6 nudos de longitud, y el umbral para la co-expresión media de las vías era.
Ratón epitelio intestinal Aislamiento
Todos los animales fueron manejados en estricta conformidad con las buenas prácticas de los animales tal como se define por los órganos de carácter nacional y /o local de los animales pertinentes, y todos los animales de trabajo fue aprobado por el Comité Institucional de animales Cuidado y uso (IACUC) de Albert Einstein College of Medicine (número de permiso 20070805).
Apc
1638N +/-
y
Cdkn1a
- /-
C57BL6 /J ratones fueron generados como se ha descrito anteriormente [13] y las muestras de tejido fueron recolectadas utilizando el método descrito por Weiser et al, lo que resulta en las poblaciones de las criptas y vellosidades de las células del intestino delgado de los
Apc 1638N +/-
,
Cdkn1a
-. /-
, y de tipo salvaje ratones [18].
diferencial
2D En la electroforesis del gel
2D diferencial En la electroforesis del gel (2D-DIGE) se llevó a cabo como se describe anteriormente [19]. proteínas expresadas diferencialmente a partir de las fracciones de las criptas y vellosidades fueron identificados en los ratones mutantes (
Apc
1638N +/-
y
Cdkn1a
- /-
) en relación con las respectivas fracciones de la naturaleza los ratones de tipo (4 repeticiones cada una). t-tests univariantes (varianzas desiguales y tamaños iguales de muestra) y multivariado de regresión lineal (codificados en el paquete R LIMMA [20]) se realizaron. Se seleccionaron puntos de gel para la identificación de LC-MS /MS en base a estos dos t-estadísticas en el nivel de significancia de 0.05.
puntos de gel fueron extirpados, tripsina digiere, y los péptidos se analizaron posteriormente por el tándem CL-EM /MS en un LC Embalajes /Dionex último 3000 HPLC-Orbitrap sistema [19] XL (Finnigan, San José, CA). Para la interpretación de espectros MS /MS, el paquete de software MASCOT se utilizó para buscar en la base de datos SwissProt; una base de datos de secuencias de péptidos nula invertidas Se realizaron búsquedas de forma simultánea para dar cuenta de los falsos positivos. proteínas identificadas se enumeran en la Tabla S1. Mascot archivos DAT se han puesto a disposición del público a través de la base de datos de proteómica Identificaciones [21], el número de acceso 10638.
Expresión Génica
de perfiles
Microarray estudios de las criptas y vellosidades poblaciones de
Apc
1638N + /
-
Cdkn1a
- /-
, y de tipo salvaje ratones (4 repeticiones cada uno) se llevaron a cabo en el genoma del ratón Affymetrix chips de 2.0 de acuerdo con los procedimientos publicados [22] . Toda la información es compatible con MIAME y se han puesto a disposición del público los datos en bruto a través de la base de datos compatible MIAME, la expresión de genes de Omnibus [23], el número de acceso GSE19338.
Red de Análisis de ARNm
Raw CEL archivos se procesaron en MATLAB mediante el procedimiento de promedio multiarray robusta [24]. Para hacer frente a múltiples sondas de captura diferentes aspectos del comportamiento de un producto génico, hemos utilizado todas las sondas para representar un gen. Por lo tanto, en el siguiente análisis, cada
APC-Cdkn1a
nodo de red,
i
, estuvo representado por
k
i
sondas en la matriz, lo que resulta en una matriz de tamaño
q
×
n
, dónde y. Para determinar si el
APC-Cdkn1a
nodos de la red fueron colectivamente expresados diferencialmente en un compartimento tisular (criptas o vellosidades), ampliamos
T
2
estadística de Hotelling - un enfoque clásico útil para grupos de genes de pruebas [25] - para incorporar múltiples experimentos, de la siguiente manera: donde es el vector de intensidad ARNm media para todos los
q
sondas para un fondo genético,
G
, donde (
Apc
que indica
Apc
1638N +/-
;
Cdkn1a
que indica
Cdkn1a
- /-
; y
WT
indicando de tipo salvaje C57BL6 /J).
S
es el valor absoluto de la matriz de la muestra agrupada covarianza imparcial para cada mutante: donde
Mutant
puede hacer referencia a
Apc
1638N +/-
o
Cdkn1a
- /-
, y el valor absoluto de
S
se utiliza para evitar que los componentes imaginarios al tomar la raíz inversa de
S Hoteles en. Cabe señalar que las sondas correspondientes a
Apc
y
Cdkn1a
mismos fueron excluidos, ya que se espera que tengan valores extremadamente baja intensidad (en los respectivos mutantes) que sesgar la red agregada percibida efecto. En, la diferencia de medios, para cada mutante puede ser positivo o negativo para una sonda
i
, por lo que, a diferencia de
T
2
,
V
2
puede ser positivo o negativo.
Teniendo en cuenta que, las estimaciones de covarianza de la muestra no son definida positiva, y por lo tanto, la inversa es singular. Para sortear este problema, hemos creado todas las covarianzas a cero para el cálculo inicial de
V
2
y luego calcular el significado de
V
2
usando una permutación de prueba (es decir, estocásticamente la generación de nuevos "
mutante
" y "
de tipo salvaje
" etiquetas fenotipo), preservando así la estructura de covarianza que subyace en la distribución nula. Configuración de los elementos fuera de la diagonal de
S
a cero simplifica
V
2
a: Por lo tanto,
V
2
es simplemente la suma del producto de la escala t-estadísticas calculadas para cada sonda, en cada una de las dos perturbaciones experimentales. A medida que el número de muestras era pequeño (por mutante y de tipo salvaje, cada uno), se añadió ruido aleatorio para cada matriz permutado para obtener una distribución nula empírica interpolada y suavizada; la desviación estándar,, del ruido para cada sonda,
q
, en el fondo genético,
G
, se estimó por la desviación estándar de la muestra de cada sonda. 10000 estas permutaciones se calcularon para obtener las distribuciones nulas, que -como se espera - se asemejan a los F-distribuciones (véase la figura S1). Desde
Apc
y
Cdkn1a ¿Cuáles son los dos supresores de tumores y la hipótesis de afectar a nuestra red de interés de una manera similar, esperamos que el t-estadísticas para variar en la misma dirección si la hipótesis nula ( de ningún efecto conjunto) debe ser rechazada. Por lo tanto, se calcula el
p-valor de
V
2
como el número de observaciones nulas mayor que nuestro valor observado de
V
2
. El cálculo de la
p-valor
para la cola negativa de la distribución sería útil que se espera que las perturbaciones que tienen efectos opuestos moleculares (por ejemplo,
Apc
+/-
emparejado con un
Stat3
+/-
hypomorph).
Si bien se presenta un análisis de una perturbación de 2 nodos de una red, este análisis es extensible a
k
perturbaciones experimentales mediante el cálculo de pares
V
2
estadísticas, lo que resulta en una matriz: Donde representa la estadística entre las perturbaciones
j
y
k
; como se muestra, la diagonal se reduce a una versión reducida de
T
2
estadística de Hotelling para cada experimento. Como las estadísticas son cada uno de una escala diferente, que no se pueden comparar directamente, y, por lo tanto, el significado de cada elemento de la matriz se debe calcular (como anteriormente) a través de una prueba de permutación. Entonces, para la matriz de p
-valores, los elementos de la diagonal proporcionan información acerca de la importancia de los experimentos individuales, mientras que los valores fuera de la diagonal proporcionan información acerca de la significación experimental por parejas. El soporte experimental total de las perturbaciones de la red se puede calcular mediante la agregación de fuera de la diagonal
p-valores, por ejemplo
por el método de Fisher [26]. Se recomienda este enfoque para hacer frente a las perturbaciones; de perturbaciones, como en nuestro caso, el
p-valores
puede interpretarse directamente.
Análisis de Objetivos proteómicos
Para evaluar la importancia de la proximidad física, la distancia topológica entre los
Apc CD -
se calculó Cdkn1a
nodos de red y los respectivos objetivos de proteómica. PPI redes físicas se ensamblan a partir de BioGrid [27], la proteína humana base de datos de referencia (HPRD) [28], e intacto [29]. Cada nodo de la red se probó de forma independiente para el número de rutas 2-hop de conectarlo a un conjunto de
n
proteínas medidos experimentalmente, expresado de la siguiente manera: ¿Dónde está la entrada en la fila
i y la columna
j Hoteles en la matriz de adyacencia,
Un
, de la red PPI;
i
es una proteína en el
APC-Cdkn1a
red;
j
es una proteína intermedia; y
k
es una proteína medido experimentalmente. En este caso, las proteínas experimentales eran los objetivos de proteómica de cualquiera de
Apc
1638N +/-
o
Cdkn1a
- /- ratones
. Si hay al menos una proteína intermedia,
j
, para el que existe un camino de dos saltos entre los nodos
i
y
k
, entonces la distancia 2-hop, , es 1; la conectividad total, de proteínas
i
al conjunto de objetivos 2D-DIGE es simplemente la suma de la. La significación se calcula en contra de un empírica nula formulado a partir de 10000 conjuntos generados de forma aleatoria de proteínas también de tamaño
n
.
Para evaluar los patrones de corregulación, los valores de ARNm coexpression (coeficiente de correlación de Spearman) se calcularon a partir de la conjunto de experimentos de microarrays normalizados correspondientes, que se extiende de tipo salvaje,
Apc
1638N +/-
, y
Cdkn1a
- /-
criptas y vellosidades; la sonda con intensidad máxima se utilizó como representativo de un gen. Para probar la significación de las correlaciones a nivel de ARNm, una prueba estadística de Kuiper modificado,
K
, se calculó entre las correlaciones de grupo (es decir, todas las sondas en la matriz) y las correlaciones de la muestra (es decir, conjunto de objetivos 2D-DIGE) para cada nodo en la red de forma independiente; se calcula como la suma de la máxima y desviaciones mínimas de la muestra, y el control (es decir, toda array),
F
, funciones de distribución acumulativa [30]: De acuerdo con las sugerencias de Subramanian et al. [31], el estadístico de Kuiper,
K
, fue modificado para mejorar su capacidad para detectar cambios bimodales en lugar de la distribución de la muestra (como cabría esperar grupos de proteínas que muestran correlaciones positivas y negativas coexpressed): donde
S
está poniendo a prueba el conjunto de proteínas (ya sea el
Apc
1638N +/-
o
Cdkn1a
- /-
objetivos 2D-DIGE) ;
r
es el vector ordenado de los coeficientes de correlación entre los respectivos objetivos 2D-DIGE y un único nodo de la red; y normaliza tener suma 1. Importancia de ensayo se ha realizado mediante una aproximación normal de la nula empírica: la empírica nula se ensambla a partir de la modificación
K
calculado para 500 conjuntos seleccionados al azar de proteínas, cada una de las dimensiones y de máxima verosimilitud estimación se utiliza para ajustar una distribución normal. Para explorar e ilustrar las conexiones de significativa (
α = 0,05)
nodos de la red, se analiza el subconjunto de correlaciones,
r
y
, donde tal que y; y el subconjunto de correlaciones,
r
p
, donde tal que y (análogo al subconjunto "borde de ataque" de GSEA [31]). Para identificar los nodos expresados diferencialmente, elegimos aquellos nodos donde el estadístico t (varianza desigual) de la sonda de intensidad máxima fue tal que, ya sea en la cripta o el compartimento de las vellosidades, donde es la función de distribución acumulada normal inversa.
Prueba cada nodo en el
APC-Cdkn1a
red resultado de forma independiente en un
p-valor
para cada una de las hipótesis nulas, dónde, y cada hipótesis, se supone que no hay ninguna relación ( físicamente o basado basada en la co-expresión) entre el
APC-Cdkn1a
nodo de red,
i
, y los objetivos 2D-DIGE. Para probar la hipótesis nula grupo que todos son simultáneamente verdaderas,
p-valores
se agregan en una estadística,
τ
, sugerido por Fisher; Se evaluó la significación frente a una distribución con 2
n
grados de libertad [26] (véase también Métodos S1). El nodo mutado (
Apc Hoteles en
Apc
1638N +/-
o
Cdkn1a Hoteles en
Cdkn1a
- /-
) fue excluido de los análisis respectivos, ya que sus patrones de expresión extremas alteran los resultados del grupo sabia.
resultados
predicciones de genes controlador de red
El doble mutante
Apc
1638N +/- Cdkn1a
- /-
ratón se había demostrado que exhiben un aumento sinérgico en su carga tumoral en comparación con los mutantes individuales [13]. Para identificar las posibles conexiones entre
Apc
y
Cdkn1a
, se construyó un marco predictivo que, en primer lugar, aprende los patrones de anotación característico de las vías de señalización conocidas (por ejemplo, las que se encuentran en KEGG [32] y otros) y, a continuación, estos patrones con parejas coexpression datos específicos de tejido para extraer las más probables cadenas de proteínas que interactúan implicados en
APC-Cdkn1a
señalización (ilustrado en la Figura 1). Para identificar sólo las vías de alta confianza, un proceso de filtrado de dos fases se aplicó por primera vez a la red PPI mundial. En la primera fase, cantos - compilado a partir de las interacciones de mamíferos en BioGrid [27] y HPRD [28] - fueron podados desde la red si no se parecen probables interacciones (según la definición de un modelo de regresión logística), con el objetivo de reducir falsa positivos entre las interacciones observadas. Para dar cuenta de falsos negativos (Fase 2), se añadieron a la red de interacciones infiriendo relaciones que se precedentes en organismos modelo en base a las relaciones familiares proteína. Después de aplicar estas medidas para generar una red sintética, se realizaron búsquedas de conexiones posibles entre los
Apc
y
Cdkn1a
utilizando tanto los datos de co-expresión génica y las reglas de asociación de ontología de genes.
Destacar nodos y aristas relevantes en nuestro sistema biológico, que introducen un sesgo específico de tejido en nuestra búsqueda de
Apc CD -
Cdkn1a
conexiones mediante el uso de los datos de expresión génica en el epitelio intestinal de los
Apc
Min /+
ratones. A partir de estos datos, se calculó el valor de co-expresión a nivel de ARNm para los bordes individuales a través del coeficiente de correlación de Pearson gen-gen. A continuación, todos los caminos de la red sintética que unen los productos génicos de
Apc
y
Cdkn1a
se les preguntó, y las trayectorias predichas se filtraron basa en (i) el apoyo de las reglas de asociación para las anotaciones GO y (ii) la coexpresión promedio a lo largo de un camino; el resultado (a un nivel de significación de
α = 0,01
) se muestra en la Figura 2. El
Apc CD -
Cdkn1a
red incluye una serie de interacciones conocidas anteriormente (sólido líneas), así como predecir las interacciones (líneas discontinuas) sobre la base de: (i) las relaciones de la familia de proteínas, (ii) la fuerza de las reglas de asociación GO, y (iii) la co-expresión de microarrays a lo largo del camino específico de conexión
Apc
de
Cdkn1a
. Como las interacciones genéticas fueron incluidos en las bases de datos de interacción originales, la red predicha incluye tanto las relaciones físicas y funcionales
bordes continuas representan interacciones previamente conocidos.; bordes de trazos representan predecir las interacciones; y los bordes marcados con una "V" representan predecir las interacciones que han sido validados recientemente en la literatura publicada.
A un nivel de sistemas, la propuesta
APC-Cdkn1a
red lleva el propiedad estadísticamente poco probable de ser saturado con oncogenes: 8 de los 20 proteínas son anotados como oncogenes en el OMIM (
p-valor
& lt; 5 × 10
-10 por la prueba exacta de Fisher, ver Métodos S1), y muchos de los restantes genes se han demostrado experimentalmente que actúan como oncogenes (por ejemplo,
ErbB3
[33], [34],
SHC1
[35],
MAP2K1
[36 ]). Aunque el
Apc CD -
Cdkn1a
red contiene muchas proteínas bien estudiados, el nodo de grado (es decir, número de interacciones) dentro de la subred no se correlaciona estrictamente con el grado de nodo en la base de datos de interacción sin filtrar (correlación de Pearson = 0,51). Por ejemplo, mientras AKT1 tiene muchas interacciones conocidas, sus socios biológicos comúnmente estudiados - a saber, GSK3B y PTEN (ambos de los cuales están asociados con
Apc
[3] y
Cdkn1a
[37] señalización ) - no aparecen en la red. Otras interacciones conocidas, tales como la que existe entre SHC1 y SRC [38], también están ausentes de la red. Desde nuestro algoritmo predice conexiones sesgados por la biología del sistema bajo estudio (a través de la utilización de los datos de expresión de genes de
Apc
Min /+
ratón tejido intestinal), una proteína o un borde no puede aparecer, en particular, la red si la vía (es decir, la cadena de proteínas) en el que reside no cumple con la co-expresión génica y /o GO umbrales de reglas de asociación
a la inversa, el
Apc CD -.
Cdkn1a
red incluye nuevas asociaciones: aquellos no contenidos dentro de las bases de datos fuente (bordes de la Figura 2 discontinua). Varias de estas interacciones han sido recientemente validado en estudios concentrados (ver Tabla 1), proporcionando la confianza que el marco es útil. Además, el
Apc CD -
Cdkn1a
red también sugiere que ciertas interacciones previamente asociados con otros modelos de cáncer - como la asociación funcional SRC-CCND1 encuentran en el cáncer de próstata [39], o la fosforilación de cdk4 por SRC en una línea celular [40] - son relevantes en este modelo de cáncer de colon
las perturbaciones individuales Node:. ARNm de perfiles
Apc- Cdkn1a
red representa la intersección de las rutas de señalización que emanan de
Apc
y de
Cdkn1a
, esperamos para observar los cambios funcionales en las proteínas asociadas a la red en respuesta a las perturbaciones, ya sea en
apc
o
Cdkn1a
. perturbaciones de nodo único se desarrollaron en modelos de ratones con mutaciones en cualquiera de
Apc gratis (es decir,
Apc
1638N +/-
) o
Cdkn1a gratis (
Cdkn1a
- /-
). Mientras que el
Apc CD -
Cdkn1a
red se ha generado utilizando específico de tumor
Apc
Min /+
de datos - un modelo que alberga una serie de lesiones genéticas fondo [41 ] - el tejido intestinal obtenida de la
Apc
1638N +/-
y
Cdkn1a
- /-
ratones a los 3 meses de edad es relativamente libre de pólipo, lo que nos permite así a medir el efecto de una sola perturbación genética en el epitelio pre-neoplásica. Aunque esto elimina el sesgo potencial que se introduce por mutaciones posteriores de tejido neoplásico, este enfoque también puede atenuar el flujo de información entre los dos genes
.
Ya que estamos usando las dos perturbaciones para determinar qué tan bien el
apc-Cdkn1a
red puede capturar fenómenos biológicos, introdujimos una estadística multivariante,
V
2
para probar si existen diferencias en la media de la abundancia de ARNm de manera conjunta entre el
APC
+ 1638N /- Opiniones y
Cdkn1a
- /- y modelos. Mediante el uso de
V
2
, como se ilustra en la Figura 3, los genes con expresión diferencial leve en los dos mutantes individuales puede contribuir al sostenimiento general de la red, como
V
2
favorece a los genes en cada uno de los dos estadísticos t son independientes tanto mayor que 1. la significación estadística de los
V
2
fue probado contra un nulo permutación, y, como nuestras perturbaciones implicadas dos supresores tumorales espera que tenga efectos moleculares en la misma dirección, se utilizó la cola positivo de la distribución. Sabiendo que muchas moléculas expresión "switch" (es decir, de mayor a menor o viceversa) en la transición de las criptas de las vellosidades [19], los microarrays de datos para estos dos compartimentos biológicos fueron probados por separado. Se encontró que el
APC-Cdkn1a
red obtuvo un amplio apoyo (
p-valor = 0,002
) por la expresión diferencial de mRNA conjunta en el compartimiento cripta los dos mutantes. la coherencia de la red era más débil (
p-valor = 0,060
) en el compartimiento de las vellosidades, y la red en su conjunto no se expresó diferencialmente en las vellosidades del mutante bien, se señaló en los dos
V
2
matrices "
p-valores
: Cuando, como se ha mencionado, los elementos de la diagonal indican la importancia de la expresión diferencial
dentro de un mutante (según de Hotelling
T
2
), y los elementos fuera de la diagonal indican la significación de la expresión diferencial conjunta
a través de
mutantes (según
V
2
). En las criptas, la red se expresó diferencialmente en
Cdkn1a
- /- gratis (
p-valor = 0,009
), pero no en
Apc
1638N +/- gratis (
p-valor = 0,871
), y, sin embargo, fue apoyado conjuntamente por la expresión diferencial a través de los dos modelos de ratón (
p-valor = 0,002
). Esto ilustra que los pequeños cambios en el nivel de ARNm que son compartidos entre múltiples perturbaciones - en una base gen por gen - proporcionan apoyo conjunto a la hipótesis de la red, mientras que cualquier perturbación individuo puede fallar para demostrar la afirmación
Cada. gen de la red está representada por dos burbujas de colores superpuestos de acuerdo con las estadísticas t (varianza desigual) en los dos mutantes: la burbuja inferior izquierda de un gen corresponde a la estadística t para
Apc
1638N +/-
, y la burbuja superior izquierda de la estadística t para
Cdkn1a
- /-
. La intersección de las dos burbujas corresponde a la suma de los estadísticos t, que ilustra cómo la importancia de los efectos pequeños puede fortalecerse cuando se consideran conjuntamente. Los nodos regulados negativamente en el mutante son de color rosa, los aumentada en el mutante son de color amarillo, y neutrales t-estadísticas son grises.