Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: Identificación de genes HK humano y el Reglamento estudiar la expresión génica en cáncer de Transcriptómica datos Analysis

PLOS ONE: Identificación de genes HK humano y el Reglamento estudiar la expresión génica en cáncer de Transcriptómica datos Analysis


Extracto

La regulación de la expresión génica es esencial para eucariotas, ya que impulsa los procesos de diferenciación celular y la morfogénesis, que conduce a la creación de diferentes tipos de células en organismos multicelulares. RNA-Sequencing (RNA-Seq) proporciona a los investigadores una potente caja de herramientas para la caracterización y cuantificación de transcriptoma. Muchos conjuntos de datos diferentes de transcriptoma de tejido /célula humana procedentes de la tecnología de ARN-Seq están disponibles en los recursos de datos públicos. La cuestión fundamental aquí es cómo desarrollar un método de análisis eficaz para estimar similitudes patrón de expresión entre diferentes tejidos tumorales y sus correspondientes tejidos normales. Se define el patrón de expresión génica desde tres direcciones: 1) amplitud de expresión, lo que refleja la expresión génica estado on /off, y los genes que afecta principalmente a la expresión ubicua; 2) los genes de expresión variables /baja /alta o constantes, basado en el nivel de expresión de genes y la variación; y 3) la regulación de la expresión génica a nivel estructura de los genes. El análisis de conglomerados indica que el patrón de expresión génica es más alta en relación con la condición fisiológica en lugar de la distancia espacial tejido. Dos juegos de limpieza humana (HK) los genes se definen de acuerdo a los tipos de células /tejidos, respectivamente. Para caracterizar el patrón de expresión génica en el nivel de expresión génica y la variación, en primer lugar, aplicamos mejorada K-significa algoritmo y un modelo de varianza de la expresión génica. Encontramos que los genes asociados con el cáncer HK (un gen HK es específica en el grupo de cáncer, mientras que no en el grupo normal) se expresan más alto y más variable en condición de cáncer que en estado normal. genes HK asociada a cáncer prefieren genes AT-ricos, y que se enriquecen en funciones relacionadas con la regulación del ciclo celular y constituyen algunas firmas cáncer. La expresión de grandes genes se evita también en el grupo de cáncer. Estos estudios nos ayudarán a comprender qué célula patrones específicos del tipo de la expresión de genes difieren entre los diferentes tipos de células, y en particular para el cáncer

Visto:. Chen H, J Xiao, Zhang Z, Liu J, Wu J, Yu J (2013) identificación de genes HK humano y estudiar la regulación de la expresión génica en cáncer de Análisis de datos La transcriptómica. PLoS ONE 8 (1): e54082. doi: 10.1371 /journal.pone.0054082

Editor: Rajeev Samant, Universidad de Alabama en Birmingham, Estados Unidos de América

Recibido: 19 Julio, 2012; Aceptado: 6 de diciembre de 2012; Publicado: 31 Enero 2013

Derechos de Autor © 2013 Chen et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Financiación:. Este estudio fue apoyado por una beca (2012AA020409) a partir de los Programas nacionales de Tecnología de Investigación y Desarrollo (Programa 863), el Ministerio de Ciencia y Tecnología de la República Popular de China alta; y becas de la Fundación Nacional de Ciencias de China (No. 31101063, 31271386 y Nº No, 31000584). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción

regulación de la expresión génica contiene el proceso que las células y los virus utilizan para regular la forma en que la información contenida en los genes se convierte en productos de los genes, la mayoría de los cuales son los genes de codificación de proteínas [1] - [3]. regulación de expresión génica es esencial para eucariotas [4], ya que impulsa los procesos de diferenciación celular y morfogénesis [5]. Esto conduce a la creación de diferentes tipos de células en organismos multicelulares, donde los diferentes tipos de células pueden poseer diferentes perfiles de expresión de genes, aunque todos ellos tienen la misma secuencia del genoma [6]. Un reto importante en la investigación actual es cómo definir el modo de regulación de la expresión génica. Sobre la base de la amplitud de la expresión génica [7] - [9], los genes se pueden dividir en los genes expresados ​​de forma ubicua [6] - [10], cerca de genes universal de HK, y genes específicos de tejido /específico de células. Basado en el nivel de expresión génica, el gen se puede determinar como una alta gen bajo /expresión [11], y como un gen de expresión de la constante /variable de [12] - [13]. estructura génica es un factor importante para la regulación de la expresión génica. Se compone principalmente de la composición de la estructura de genes, la organización de la estructura genética, variación genética, clases de proteínas, estructura celular, los procesos celulares y mecanismos moleculares [10], [14] - [25].

RNA-Seq es convertirse en un biotecnología más y más populares debido a su medida la transcripción en precisión predominante y de alto rendimiento para detectar genes expresados ​​débilmente [10] - [11], [15], [26]. Debido a los avances espectaculares en RNA-Seq, transcriptome datos aumentan rápidamente [25] - [27] en la base de datos de SRA. En anteriores estudios de los mecanismos de regulación de progresión del cáncer y de expresión génica en base a los datos de microarrays [28] - [30], los investigadores sobre todo en comparación con la expresión génica en condición de cáncer frente a condiciones normales, con los mismos originales. Este método podría perder muchos genes verdaderamente regulada de manera ascendente-expresión diferente (DE) por el proceso de normalización [31], sin tener en cuenta el mecanismo basado en el cáncer. En este estudio, seleccionamos 12 muestras normales y 9 muestras de cáncer de explorar el mecanismo general de la regulación de la expresión génica del cáncer a partir de datos del transcriptoma de RNA-Seq. Se define el patrón de expresión génica desde tres direcciones y caracterizar genes de cáncer de HK observar regulación de la expresión génica en las células cancerosas. Esta investigación nos ayudará a entender los genes reguladores clave y la patogénesis del cáncer.

Materiales y Métodos

RNA-Seq transcriptoma conjunto de datos

Las muestras de RNA-Seq en condiciones normales y el cáncer condiciones se seleccionan para la identificación de genes HK. Dos elementos principales son considerados para la selección, la cantidad y la saturación de las muestras seleccionadas. A pesar de las muestras de RNA-Seq son voluminosos en el recurso de datos pública, las muestras útiles para la normalidad vs análisis comparativo del cáncer son limitados. Si hubiéramos incluido muestras más insaturados, que habría conducido a una mayor tasa de falsos negativos causados ​​principalmente por los genes de baja abundancia. Estamos totalmente de obtener datos de 37 diferentes línea de tejidos /células transcriptómica humana desde la base de datos pública SRA (Tabla S1), 22 muestras normales y 15 muestras de cáncer. Entonces seleccionamos muestras con criterios como sigue: 1) la eliminación de todas las muestras de líneas celulares mixtas, porque método de la unión cubrirá diferencial abundancia de la expresión génica; 2) la eliminación de líneas celulares muestras con un tratamiento especial, debido a los mecanismos de regulación son diferentes en diversas condiciones fisiológicas; 3) filtrar conjuntos de datos insaturados graves; 4) la selección de la muestra más saturado si existían repeticiones, no preferimos integración que induciría una mayor tasa de falsos negativos; 5) seleccionar muestras procedentes de Illumina Genoma Analizador, el más popular instrumento de secuenciación, aquí tratamos de reducir la diferencia original entre diferentes plataformas de secuenciación. Finalmente, se obtienen 12 tejidos normales y 9 líneas celulares de cáncer para su posterior análisis. Los tejidos normales en nuestro análisis incluyen adiposo, cerebro, la corteza cerebral, de colon, de mama, riñón, hígado, pulmón, ganglios linfáticos, el corazón, los testículos y los músculos esqueléticos. Y las líneas celulares de cáncer incluyen K562, DLD-1, HepG2, GM12878, linfoma, BT474, MCF7, MB435 y T47D en conjuntos de datos de RNA-Seq actuales (Tabla S1). K562 es una línea celular inmortalizada producida a partir de un paciente con leucemia mielógena crónica (CML). DLD-1 es una línea celular de adenocarcinoma de colon cultivadas en 21% de oxígeno con la no-siRNA dirigidos transfectadas. HepG2 es una línea celular derivada de un paciente con carcinoma de hígado. GM12878 es una línea celular linfoblastoide producido a partir de la sangre de un donante hembra por transformación EBV. El linfoma es una célula B Ramos. Las otras líneas celulares son todas las líneas celulares de cáncer de mama derivadas de carcinomas ductales invasivos (ATCC). MCF-7, T47D y BT474 son receptores de estrógeno positivo y receptor de progesterona positivo; MD435 es negativo para ambos. CEL archivos de alta calidad de los datos de microarrays humanos en HG-U133A se seleccionan de entre AffayExpress (E-MTAB-27) [32] (Tabla S2) para la comparación.

Después de filtrar transcripciones al azar, seleccionamos 28 778 RefSeq humana la codificación de proteínas transcripciones (RefGene de base de datos de la anotación de la UCSC 4 Ene, actualización 2010), y se agrupan en ellas 18.874 loci humanos como se describe anteriormente [9]. 13.038 (69,08%) los genes con múltiples isoformas y 5.836 (30,92%) con genes de una sola isoforma se utilizan para su posterior análisis. Para asignar los conjuntos de datos de la transcripción en sus referencia secuencia genómica GRCH37 (hg19), utilizamos MAQ software de mapas [33] descargado de la UCSC. A continuación, la anotación de los resultados de los mapas se compara con RefGene.

El modelo de análisis de datos del transcriptoma

abundancia La expresión génica se normaliza como la densidad de lectura, es decir, lee por kilobases (KB) de la secuencia de codificación (CDS ) por millón lee (RPKM), en los datos de RNA-seq que millón mappable lee en un experimento [34]. Y la expresión de un gen se define como la suma de las expresiones de todas las isoformas que pertenecen a ese gen [11]. Para calcular un nivel de expresión génica con precisión, citamos un modelo de distribución de Poisson para estimar la expresión de isoformas [11]. Teniendo en cuenta el costo de tiempo, que requiere una lectura estrictamente cae en un exón con dejar de lado la información exón cruce.

Para determinar si un gen se expresa o no, el valor umbral de fondo de la expresión génica se realizó mediante un método anterior que tasa de falsos positivos coordinada (
FPR
) y la tasa de falsos negativos (
FNR
) [10]. En este documento, se define como positivo conjunto con los genes lee caída en sus exones, y la negativa conjunto como genes con lee caída en regiones intergénicas. Un valor de la expresión observada, que es mayor que el umbral de fondo se marca como positivo, y lo contrario se marca como negativo. Entonces, tenemos estas dos definiciones,, (
FP_count
significa que el resumen de las plantillas región intergénica para el valor de la expresión más grande que el fondo, por el contrario, el
TN_count
.
FN_count
significa que el resumen del conteo de genes como gen se expresa, sino expresión de valor más pequeño que el fondo, por el contrario, el
TP_count
).

identificación de genes de expresión bajo y alto puede representar patrón de expresión génica en una muestra, y dinámicos alteración del nivel de expresión génica entre los tejidos /las líneas celulares refleja la reacción interna de la regulación de la expresión génica. Estudios previos suelen dividir nivel de expresión génica en varios intervalos, y se marcan dos genes extremas como bajo y alto, respectivamente [11]. Esta definición es de alguna manera arbitraria, ya que mide el nivel de expresión del gen importar el patrón de expresión génica. Mientras tanto, la discrepancia nivel de expresión de los genes a nivel de expresión adyacentes en dos subgrupos secuenciales podría ser débilmente. Impulsado por esta motivación, que en primer lugar aplicamos la mejora de K-means algoritmo para detectar los umbrales de baja y alta expresión dinámica, que dividen los genes expresados ​​en tres categorías: los genes de expresión bajos (LEG), expresión de genes moderadas (MEG), y los genes de alta expresión ( HEG). En cuanto a una muestra, umbral de expresión bajo se define como el valor medio de expresión de valor máximo de genes en LEG y el valor mínimo de la expresión génica en MEG. Con el fin de análisis de la variación patrón de expresión génica entre diferentes muestras, se define un umbral de expresión unificada bajo como el valor de la mediana de los umbrales bajos de expresión de todas las muestras. umbral de expresión alta para una muestra se define como el valor medio del valor de la expresión génica máxima en MEG y los valores de expresión génica mínimos en HEG. Y el umbral de alta expresión unificada es el valor medio de todas las muestras. El método se basa en el patrón de distribución de la expresión de genes individuales de una muestra para identificar los genes de bajo y alto de expresión con la medición dinámica. Y garantiza la máxima distancia del nivel de expresión génica de dos subgrupos secuenciales
.
La mejora de K-means algoritmo asigna cada uno de los genes expresados ​​en el clúster cuyo centro de gravedad es más cercana como K-means algoritmo do. Pero la distancia de dos elementos se define como el valor absoluto de la diferencia de dos valores de expresión génica. Centroide se define como valor de la expresión del gen de la media en el conjunto de clasificación de genes de acuerdo con el valor de la expresión génica. Esto es diferente de algoritmo K-means define como la media aritmética. Inicializamos la expresión de genes conjunto de datos en un formato de punto (
x
,
y
), donde
x
es el valor de la expresión génica e y es su correspondiente número de genes. El algoritmo se describe más o menos de la siguiente manera:

Transformar
x
valor por la fórmula, donde
n
es transformar los factores y su valor predeterminado es 1.

Establecer el número de clúster
K gratis (= 3).

seleccionar al azar
K
elementos de punto establecido como centroides de los clusters.

Asignar a cada punto al grupo centroide más cercano.

recalcule
K
nuevos centroides de grupo.

Ir a 4) hasta que la asignación no ha cambiado más.


Como resultado, expresado se dividen en 3 categorías: LEG, MEG, y HEG. Hemos establecido los resultados normales de grupo como el estándar de control. Los valores medios de los umbrales bajos y altos umbrales en 12 tejidos normales se establecen como finalmente umbral bajo y alto umbral para todos los tejidos líneas /célula.

Nosotros usamos la varianza del nivel de expresión génica para representar la variación de la expresión génica, como se estudios anteriores hicieron [35] - [37]. Los altos valores de expresión, que pueden amplificar variación, contribuyen a la variación de forma más directa, mientras que los valores pequeños de la expresión de genes afectan la varianza más débil, que puede ocultar variación real. Por lo tanto, la expresión génica valores se clasifican como 1, 2, o 3, para representar el nivel de expresión génica como baja, moderada o alta, respectivamente. Utilizamos estas representaciones en lugar de gen expresión de valor en bruto para estimar el patrón de variación de la expresión génica. Para cualquier gen, se calcula el coeficiente de variación de valor (
CV
) basada en el rango de la expresión génica, donde
μ
es la media aritmética de los rangos de expresión génica de todas las muestras de línea de tejidos /células en una gene;
σ
es la desviación estándar de la fila de la expresión génica en un gen, que es la media aritmética de la desviación al cuadrado de la fila de la expresión génica significa su aritmética. También establecemos grupo normal como control.

Proponemos una trama MDAD para caracterizar la discrepancia de patrón de expresión génica en condición de cáncer vs. condición normal, en base a la trama MA ampliamente utilizado. M Distancia (MD) y una distancia (AD) de cualquier gen en la parcela MDAD se definen como y, respectivamente, donde
valor máximo en
es el valor máximo de la expresión génica en todas las muestras normales de línea de tejidos /células, y
min
valor de la expresión génica es la mínima (pero & gt; 0) dentro de todas las muestras normales de línea de tejidos /células;
max valor
en es el valor máximo de la expresión génica dentro de todas las muestras de tejido de cáncer de línea /célula, y
min
valor en es el valor mínimo de la expresión de genes (pero & gt; 0) dentro de todo el tejido de cáncer /muestras línea celular.
MD
refleja la diferencia de la distribución de la expresión de genes entre la condición de cáncer y condición normal, y
AD
refleja la diferencia de nivel medio relativo entre el cáncer y la condición de estado normal. Utilizamos parcela MDAD, emparejado con una prueba de Wilcoxon de rangos con signo [38], para comparar la diferencia de HK compartido o nivel de expresión de genes asociados con el cáncer entre la condición normal y el cáncer.
MD
& lt; 0 significa que la distribución de la expresión génica en condición de cáncer es más amplio que en condiciones normales, y
AD
& lt; 0 significa que el nivel medio relativo de la expresión génica en condición de cáncer es mayor que que en condiciones normales. Para comparar sus niveles máximos y mínimos de expresión originales bajo el cáncer y la condición normal, también calculamos
MAXR
y
MiNr
como la relación entre el valor máximo y el mínimo de expresión en condiciones normales vs codintion cáncer (,) . Si un valor de la relación es 0, un gen sólo se enciende en condición de cáncer; Si un valor de la relación localiza en [0, 1], el valor de expresión extrema en condiciones normales es menor que en condición de cáncer, si un valor de la relación localiza en [1, ∞], valor de la expresión extrema en tejidos normales es mayor que en el cáncer condición.

la correlación de Spearman de perfil de expresión génica se utiliza para definir la similitud patrón de expresión de diferentes tejidos /células. En función de su grado de similitud, un agrupamiento jerárquico con información de correlación se lleva a cabo con el paquete R. Normalización del uso de datos de microarrays MAS5.0 [39] Expresión algoritmo con el software de la consola ™ (detección p-valor como 0,05). Análisis de funciones de enriquecimiento de diferentes tipos de genes HK se realiza con David (base de datos para anotación, y Visualización, Integrada Discovery) [40].

Resultados

Modelo de análisis de los datos del transcriptoma de RNA-Seq

RNA-Seq tiene una potente capacidad de detectar las transcripciones de baja abundancia con una precisión sin precedentes y de alto rendimiento a un costo mucho más bajo que comprende con otros métodos. Ahora se ha convertido en la tecnología más utilizada transcriptómica secuenciación [11], [41]. Una consulta común en el análisis de datos RNA-Seq es cómo definir el número de los genes expresados ​​en una muestra. Para eliminar la contaminación y el error causado por los experimentos e instrumentos, etc., se detecta el nivel de expresión entre los exones y regiones intergénicas para coordinar
FPR
y
FNR gratis (véase la sección de Materiales y Métodos) utilizando la método generado en un estudio anterior [10]. Los umbrales de fondo de la expresión génica de muestras individuales están cayendo en 0,13-0,41 RPKM. Hemos establecido un valor medio de 0,25 RPKM (Figura S1) como el umbral de fondo de la expresión génica para su posterior análisis. A continuación, se utiliza un modelo de Poisson para hacer frente a la estimación de la expresión de la isoforma y refinar el valor de la expresión génica mediante la acumulación de todos los valores de las isoformas de expresión en un gen [11].

Definición de genes HK

Nuestras muestras son separados en dos grupos fisiológicos: 12 tejidos normales y líneas celulares de cáncer 9, los detalles se muestran en la Tabla 1. El análisis de agrupamiento indica que los patrones de expresión de genes están altamente relacionados con la condición fisiológica en lugar de la distancia espacial tejido (Figura 1). Estimamos que hay algunos patrones comunes de regulación en las células cancerosas, como a su vez sobre la regulación /apagado y el ajuste de baja /alta o constante /variable que mantienen su capacidad de proliferación ilimitada. Aquí, definimos los genes HK en dos grupos separados, genes normales y cancerosas HK HK genes, para reflejar la expresión de genes estado activado /desactivado en diferentes condiciones fisiológicas. estudio previo sobre la agrupación jerárquica de nueve bibliotecas SAGE pulmón también mostró una clara separación de las muestras tumorales y normales [42].

Spearman correlación de perfiles de expresión génica se utiliza para definir la expresión génica perfiles similitud de 21 tejidos diferentes /Células. Un análisis de agrupamiento jerárquico con información de correlación muestra 2 grupos:. 12 tejidos normales y 9 líneas celulares de cáncer

Se define cinco tipos de genes HK según su patrón de expresión génica en condiciones normales y /o condición de cáncer: 1) los genes normales única HK, HK gen específico sólo se muestra en el grupo normal, no gen HK en el grupo de cáncer; 2) los genes asociados con el cáncer HK, HK gen específico sólo se muestra en el grupo de cáncer, no gen HK en el grupo normal; 3) comparten genes, genes HK HK expresadas tanto en el grupo normal y el cáncer; 4) los genes normales HK, HK genes expresados ​​en todo el grupo normal, incluye genes normales únicas HK y compartir genes HK; 5) los genes del cáncer de HK, HK genes expresados ​​en el cáncer de todo el grupo, incluye genes asociados con el cáncer de Hong Kong y compartir genes HK.

En cuanto al grupo normal, 12 tejidos normales seleccionados cubren tejido conectivo, tejido muscular, el cuerpo región y 6 sistemas de taxonomía humanos, incluyendo el sistema urogenital, sistema digestivo, sistema respiratorio, hematológico e inmunológico, sistema nervioso central y el sistema cardiovascular (sistema endocrino no estaba cubierto, la figura S2). Sobre la base de estos 12 tejidos normales, se estima que hay 8831 genes normales (HK codificación de proteínas los genes HK) .La fracción de genes HK es del 47%, lo cual es consistente con dos informes anteriores: 40% [9] y 42% [10 ]. Esta última investigación también se llevó a cabo con los datos de RNA-Seq, pero Daniel Ramsköld y sus compañeros de trabajo define genes HK sin distinguir grupo normal o cáncer. 8041 genes HK fueron identificados por 24 tejidos /líneas celulares humanas (10 tejidos normales y 4 líneas celulares de cáncer también son considerados en nuestro estudio), incluidos los 7695 genes codificadores de proteínas, 277 LNCR, y 69 genes desconocidos que no están presentes en la secuencia genómica de referencia GRCH37, hg19 [10]. Los genes HK se solapan entre Daniel Ramsköld
et al.
'S de trabajo y nuestros genes normales son HK 7004 (Figura S3). Y el único gen HK en nuestra definición (1827) proviene principalmente de la normalidad-único gen HK (1253), que sólo se muestra como genes HK en condición normal. Desde Ramsköld Daniel y sus colaboradores han usado 4 líneas celulares de cáncer, esta diferencia de HK identificación de genes ocurre en nuestro estudio es bastante razonable. La mayoría de nuestros genes 8831 HK normales definidas se expresan de forma ubicua en todas las 19 muestras normales disponibles, 12 de ellos son seleccionados para la definición de gen normal de HK, 7 de ellos son filtrados por criterios mostrados en Materiales y Métodos (Figura S4A, el cuadro S1). La "tasa de detección de falsos" es causada principalmente por la insaturación de las muestras filtradas. Esto significa que la precisión de genes HK definida a partir de 12 tejidos normales es lo suficientemente alta para un análisis adicional

muestras de cáncer actuales representan región del cuerpo y tres sistemas taxonómicos humanos ampliamente investigados, incluyendo:. Sistema urogenital, sistema digestivo, y hémico y el sistema inmunológico (Figura S2, el cuadro S1). Nuestros 9 líneas celulares de cáncer seleccionados cubren la mayor parte de ellos, a excepción de la muestra el sistema urogenital, que se filtra por los criterios de selección de instauración y plataforma. La fracción de cáncer gen HK es 38% en la expresión de genes amplitud de 9. define 7084 de cáncer de genes HK y la mayoría de ellos están presentes en el grupo normal (Figura 2A), que forma el grupo HK compartido. Esos genes HK 6237 podrían ser compartidos genes esenciales para una célula, que mantienen las funciones básicas en diferentes condiciones fisiológicas. los genes del cáncer de Hong Kong están a menos de genes normales HK porque el cáncer requiere menos activa los genes (Tabla S1). Pero el cáncer requiere una mayor fracción de la piscina ARNm [10], [26] para reducir el cáncer transcriptoma de células especialización [26]. Esto permite un enfoque en la finalización de la proliferación celular simple. Acerca de 88,65% de los genes del cáncer de HK se expresa de forma ubicua en las 13 muestras de cáncer, incluyendo 4 muestras filtradas (Tabla S1, Figura S4B). La "tasa de detección de falsos" del cáncer genes HK es causada principalmente por la insaturación de las muestras filtradas. Este resultado indica que, aunque los actuales 9 muestras de cáncer no pueden representar diversos tipos de cáncer, la identificación de genes de cáncer de HK se puede utilizar en la expresión génica estudio patrón de célula de cáncer.
Genes
HK se definen por separado de dos fisiológico grupos: 12 tejidos normales y 9 líneas celulares de cáncer. (B) Los diferentes tipos de genes HK enriquecimiento funcional. "Cáncer" se refiere a los genes de cáncer de HK, abreviado como sufijo "C" siguiente ilustración término función; "Asociada con el cáncer" se refiere a los genes HK específicos en condición de cáncer, abreviado como sufijo "CA" sigue a la función ilustración plazo; "Compartidos" medios solapan genes HK en condiciones normales y cancerosas, abreviado como sufijo "S" sigue a la función ilustración plazo; "Normal-singular" significa genes HK específicos en condición normal, abreviado como sufijo "NU" siguiente ilustración término función; "Normal" significa genes normales HK, abreviado como sufijo "N" sigue a la función ilustración plazo.

Un gen HK es típicamente un gen constitutivo que se requiere para el mantenimiento de la función celular básica, y es se encuentra en casi todas las células humanas [7], [43]. Para caracterizar las funciones normales y el cáncer de genes HK, comparamos génica de células de enriquecimiento función y vías de señalización. Como muestra la figura 2B, el cáncer de genes HK se enriquecen en la función molecular y procesos biológicos. genes del cáncer de HK participan en el ciclo celular, la replicación del ADN, de reparación de genes, y vía de la apoptosis, etc., para responder a la aparición de tumores. HK genes normales tienden a unirse en las vías básicas (Tabla 2).

Caracterización de los genes compartidos HK patrones de expresión

Para caracterizar el nivel de expresión de genes y la variación que conduce a patrones de expresión génica definición, en primer lugar nos aplicamos una mejor algoritmo k-medias y adoptar mejores coeficientes de expresión génica de la varianza (
CV
, ver Materiales y Métodos para más detalles) modelo. Los estudios anteriores generalmente se definen 100 genes RPKM como valores umbrales elevados de expresión y el 1 RPKM de baja expresión basado en ocho contenedores de registro de escala [11]. El algoritmo mejorado K-means identifica los umbrales a partir de un patrón de distribución de la expresión de genes individuales. Basado en el cálculo de este algoritmo, los valores de umbral bajo de expresión son 0,66-1,22 RPKM, y los valores de umbral alto de expresión son 8,58-19,99 RPKM (Tabla 3). Hemos establecido un valor medio de 1,06 RPKM de bajo umbral y un valor medio de 12,72 RPKM de alto umbral en condiciones normales como un estándar para su posterior análisis (Figura S5). Para discriminar un estado de variación de la expresión génica, aplicamos una expresión génica mejorada
CV
modelo. El
CV
valores en la gama grupo normal de 0 a 0,54. Q1 (una cuarta parte) y Q3 (tres cuartas partes)
valores de CV
en grupo normal son 0,14 y 0,26, que están marcados como valores umbral de expresión constante y variable, respectivamente (Figura S6). Por lo tanto, estamos totalmente de conseguir tres estados de variación de la expresión génica, constante (0 & lt;
CV
≤0.14), variables moderada (0,14 & lt;
CV
≤0.26) y variable (
CV Hotel & gt;. 0.26) guía empresas
es bien sabido que algunos genes se expresan constantemente entre los tejidos, mientras que otros expresan de forma variable en condiciones normales. Este fenómeno también existe en genes HK [12] - [13], [35]. Sobre la base de la expresión génica
CV
modelo, nos encontramos con que más genes HK en el cáncer tienden a ser los genes expresados ​​variables moderada (Figura 3A). Tratamos de investigar las formas en las que se regula el estado de variación de la expresión génica para hacer frente a la aparición de un tumor. Por lo tanto, comparamos 6237 compartían genes HK para ilustrar su ajuste. Más de la mitad de los cambios de estado de variación expresión compartidos genes HK 'entre la condición normal y cáncer. Como se muestra en la Figura 3B, casi dos tercios de los genes constantes HK compartidas bajo condiciones de cambio normal a moderada estado de las variables bajo condición de cáncer. Un tercio de la variable compartida moderada genes HK en buenas condiciones de convertirse en constantes genes compartidos HK normales en condición de cáncer. Aproximadamente la mitad de los genes compartidos HK variables en condición normal cambiar su estado a la variable expresión variación moderada en condición de cáncer (Figura 3B). Una célula es apto para modular su patrón de expresión génica para ser expresión variable principalmente moderada en condición fisiológica tumor.

Hay tres genes estados de variación de la expresión, Constant, abreviado como sufijo "C" en (B), y moderada variables, abreviado como moderado en (a) y el sufijo "M" en (B), y la variable, abreviado como sufijo "V" en (B).

Para medir la regulación de la expresión génica y la expresión génica regulación de estado de variación en condición de cáncer, se propone una parcela con una prueba de Wilcoxon signed-rank emparejado [38] en toda compartida HK genes (Figura 4A) MDAD (véase la sección de Materiales y Métodos) y los genes HK compartidos en tres subtipos de estado de variación (Figura 4B, C, D). Todo se combina signos de Wilcoxon valores de detalle ensayo se muestran en la Tabla 4. Los genes compartidos HK expresan más alta en el cáncer que en los tejidos normales, en función del ancho expresión efectiva (
MD
, p-valor es 4.34E-33 ) y el valor intermedio (
AD
, p-valor es 0). Los microarrays de datos anteriores indican que los genes del cáncer humano pueden ser ampliamente hasta reguladas [31]. los valores de p de la prueba firmada de rangos de Wilcoxon pareada de
MD Hoteles en los tres subtipos de genes de variación de expresión son 4.24E-67, 0,11, y 0,59, respectivamente. P-valores de
AD ¿Cuáles son muy inferiores a los valores de 3.15E-160, 2.62E-126, y 3.65E-183 (Tabla 4). Como muestra la Figura 4, los genes HK más compartido '
AD
y
MD
valores son menores que 0 que significa que los genes se expresan mayores en condición de cáncer que en condiciones normales. Por lo tanto, en condición de cáncer, una célula se ajusta principalmente constantes genes compartidos HK para expresar superior a actuar de la aparición de cáncer de señal


MD
. & Lt; 0 significa que el ancho lapso de la expresión génica en condición de cáncer es mayor que en condiciones normales, y
AD
& lt; 0 significa que el nivel medio relativo de la expresión génica en condición de cáncer es mayor que en la condición normal. De acuerdo con los estados de variación HK genes expresión compartida-normales, comparten genes HK se dividen en tres subtipos, constante, variable de moderado, y variables expresan genes HK compartidos. Emparejado prueba de Wilcoxon se utiliza aquí para medir la regulación de la expresión génica y la regulación de la expresión génica variación de estado. (A) Todos los genes compartidos HK. (B) constante compartido expresó genes HK. (C) compartido variable de moderada expresó genes HK. (D) variable compartida expresa los genes HK.

Estamos cuantificar la proporción de genes para que las células del cáncer modulan la expresión génica a ser más alta que en el estado fisiológico normal. Para ello, calculamos los valores del gen que tienen valores máximos de relación (
MAXR
) y los valores mínimos de relación (
MiNr
) ≤1 (véase la sección de Materiales y Métodos). Cuando
MiNr
≤1, hay 73,47% de los genes compartidos HK acumulados; cuando
MAXR
≤1, hay 67,79% de los genes compartidos HK acumulada (Figura 5, Tabla 5). También consideramos células regulan los niveles de expresión de genes en condición de cáncer que combina con la información variación de la expresión génica. Cuando
MiNr
≤1, hay 78,24% de los genes HK compartidos en estado constante, 65.10% de los genes compartidos en HK estado de las variables moderada, y 80.16% de los genes compartidos en HK estado de las variables se acumulan. Y cuando
MAXR
≤1, los número son 70.17%, 62.30% y 73.53% en estos tres subtipos de variación de expresión (Figura 5 B, C, D, Tabla 5). Los datos muestran que los genes HK más comunes están regulados por la combinación con el estado de variación de la expresión génica en condición de cáncer
.
Hasta denota eje y
MAXR
con rango [0, 3], y hacia abajo y eje y denota
MiNr
con rango [0, 3]. Para la amplificación de la figura, nos fijamos el valor de la relación como 3.00 si un valor de la relación es mayor que 2,50. En cuanto a la gráfica inserto interno, la curva azul muestra acumula
MAXR
; y la curva verde muestra acumula
MiNr
. Ambos corresponden a la izquierda del eje Y significa recuento gen acumulado. Derecha eje y denota Conteo de individuos gen (mostrado como índice de recuento de genes), que corresponde a un
MaxR
curva de distribución de color rojo y una cian
MiNr
curva de distribución. Estamos cuantificar la proporción de genes para los que las células del cáncer modulan nivel de expresión génica a ser más alto que en el estado fisiológico normal. (A) Todos los genes compartidos HK.

El conocimiento de la salud

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]