Extracto
Una cuantificación precisa de la expresión génica mediante qRT-PCR se basa en la normalización en contra de un gen expresado constantemente el control. Sin embargo, los genes de control de uso común a menudo varían considerablemente entre las muestras, especialmente en el cáncer. El advenimiento de la tecnología de secuenciación de próxima generación ofrece la posibilidad de seleccionar mejor los genes de control con el mínimo de células a la variabilidad en los niveles de transcripción celular en estado estacionario. Aquí se analiza la transcriptomes de 55 muestras de leucemia para identificar los genes más consistentes. Esta lista se enriquece para los componentes del proteasoma (ej.
PSMA1
) y spliceosome (ej.
SF3B2
), y también incluye el factor de iniciación de la traducción
EIF4H
, y muchos genes de ribonucleoproteínas nucleares heterogéneas (ej.
HNRNPL
). Hemos validado la consistencia de nuestros nuevos genes de control en 1933 de cáncer y tejidos normales usando datos de RNA-seq públicamente disponibles, y su utilidad en el análisis de QRT-PCR se demuestra claramente
Visto:. MacRae T, T Sargeant, Lemieux S, J Hébert, Deneault É, Sauvageau G (2013) RNA-Seq Revela spliceosome y proteasoma genes transcritos como más consistente en células de cáncer humano. PLoS ONE 8 (9): e72884. doi: 10.1371 /journal.pone.0072884
Editor: Robert W. Sobol, Universidad de Pittsburgh, Estados Unidos de América
Recibido: 3 Abril de 2013; Aceptado: July 22, 2013; Publicado: 17 Septiembre 2013
Derechos de Autor © 2013 MacRae et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo fue apoyado por becas de Genoma Québec (http://www.genomequebec.com/en) y Genoma Canadá (http://www.genomecanada.ca) a la SG, JH, SL y Brian Wilhelm. la obra de TS fue posible gracias al apoyo del Victorian infraestructura operativa Gobierno del Estado y del Gobierno de Australia NHMRC IRIISS. La investigación del TS fue apoyado por un programa de subvenciones de NHMRC (1.016.647). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:. Este trabajo fue apoyado por Genoma Genoma Quebec y Canadá. Los donantes no tienen ningún interés financiero en esta investigación. No hay productos en desarrollo o los productos comercializados que declarar. Los autores han presentado recientemente una solicitud de patente provisional titulada "Métodos y genes para la normalización de la expresión génica" (US Nº de serie .: 61 /774.271; fecha de presentación 7 de marzo de 2013). Esto no altera la adhesión de los autores a todas las políticas de PLoS ONE sobre los datos y compartir materiales, como se detalla en línea en la guía para los autores.
Introducción
La normalización de los niveles medidos de un gen de intereses en contra de un gen de control expresado constantemente es la acción más importante que conduce a la precisión en experimentos cuantitativos de PCR con transcriptasa inversa (QRT-PCR). Sin embargo, mientras que los niveles de genes de control pueden variar mucho dependiendo de las muestras utilizadas, que son seleccionados en base por lo general únicamente en la convención [1] - [6]. El advenimiento de la ARN-secuenciación (ARN-ss) por Generation Sequencing siguiente (NGS) de miles de transcriptomes de muestras humanas ofrece nuevas posibilidades para identificar y seleccionar genes de control que muestran la variación más baja dentro del conjunto de muestras para el cálculo de la expresión de genes en relación con el método DDCT.
Leucemia y otras muestras de cáncer son propensos a una mayor variabilidad de la expresión génica en comparación con los tejidos normales debidas a la selección clonal y la inestabilidad genética. Dado el creciente interés en el perfil de expresión e identificación de genes marcadores en el cáncer de la medicina personalizada, existe una clara necesidad de una normalización óptima de los datos de expresión génica mediante la identificación de genes de control con la menor variación posible.
Los estudios anteriores han sido hecho en un intento de determinar mejor los genes endógenos de control en base a los datos de microarrays a disposición del público [7], [8]. En tales estudios, datos de microarrays de múltiples tejidos y las condiciones fueron analizados con el fin de determinar los genes cuya expresión varía el menos, revelando genes de codificación de proteínas principalmente ribosomales. Generation Sequencing tecnología de próxima (NGS) ha sustituido microarrays como el estándar de oro en el análisis global de la expresión génica. El análisis de la expresión génica por NGS tiene muchas ventajas sobre microarrays, incluyendo una gama dinámica más elevada y menos susceptibilidad a la variación técnica [9] - [13]. los valores de expresión utilizados normalmente para la RNA-seq están normalizados para la longitud de genes y el número total de lecturas para cada muestra (lecturas por Kilobase de transcripción por millón asignada lee: RPKM) [9], lo que permite una fácil comparación entre los conjuntos de datos. Por lo tanto, la minería de datos de RNA-seq proporciona un método ideal para identificar los genes más uniformes que sean utilizados como controles endógenos
.
A continuación se explota datos de RNA-seq a partir de un panel de 55 muestras de pacientes con leucemia, así como 8 ARN a disposición del público conjuntos de datos de -seq del Genoma del cáncer Atlas (TCGA), (http://cancergenome.nih.gov/) para identificar mejor control de los genes endógenos. En primer lugar, demostramos la variabilidad de los genes de control estándar, así como los candidatos sugeridos por el análisis de datos de microarrays. Identificamos nuevos genes de control con una variación menor a través de cáncer múltiple y tipos de tejidos normales, revelando principalmente genes implicados en los procesos de empalme de ARN y la degradación de las proteínas. A continuación, demuestran la eficacia de una selección de estos genes en QRT-PCR. Este nuevo panel de control de los genes altamente consistentes será de gran utilidad en la investigación y la enfermedad del cáncer seguimiento futuro.
Materiales y Métodos
Las muestras de pacientes
Leucemia muestras utilizadas en el Leucégène conjunto de datos fueron recogidos por el Banco de células de Leucemia Québec con un consentimiento informado por escrito y la aprobación del proyecto por el Comité de Ética de Investigación del hospital Maisonneuve-Rosemont y la Universidad de Montreal como se describe [14]. muestras de sangre de cordón umbilical humano se obtuvieron de voluntarios sanos por hema-Québec con un consentimiento informado por escrito y la aprobación del proyecto por el Consejo de Ética de Investigación de Ste. Justine el Hospital y la Universidad de Montreal.
ARN-ss
ARN-ss se llevó a cabo como se describe [14]. Los datos mencionados en esta publicación se han depositado en el NCBI Gene Expression Omnibus [15] y son accesibles a través de GEO serie número de acceso GSE48173 (http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc = GSE48173).
QRT-PCR
el ARN total fue aislado de las células de sangre de cordón leucémicos y CD34 + utilizando Trizol solución, de acuerdo con el protocolo del fabricante (Invitrogen /Life Technologies, Burlington, ON, Canadá ). Los glóbulos CD34 + de la médula humanos fueron aisladas de la sangre del cordón total usando el cable de RosetteSep kit de sangre CD34 Pre-enriquecimiento, seguido por el kit de CD34 de sangre de cordón + Selección EasySep humano, de acuerdo con las instrucciones del fabricante (STEMCELL Technologies, Vancouver, BC, Canadá), con un rendimiento del 70 -86% CD34 +. CD34 + de la médula muestras de sangre de cinco individuos diferentes se utilizaron inmediatamente para la transcripción inversa. Por otra parte, CD34 + muestras de sangre de cordón de doce individuos adicionales fueron ordenados usando clasificador de células FACS Aria (Becton-Dickinson, San Jose, CA, EE.UU.) para mantener sólo CD34_APC + /células CD45RA_PE- (Anticuerpos: Becton-Dickinson, San Jose, CA, USA ) antes de proceder con la transcripción inversa. La transcripción inversa del ARN total se realizó utilizando MMLV transcriptasa inversa y hexámeros al azar de acuerdo con las instrucciones del fabricante (Invitrogen /Life Technologies, Burlington, ON, Canada) reversa. Se llevaron a cabo ensayos de expresión para medir niveles de expresión génica utilizando 2 × rápida Master Mix (Applied Biosystems /Life Technologies, Burlington, ON, Canadá), cebadores estándar (Invitrogen /Life Technologies, Burlington, ON, Canadá) y una sonda específica del universal Biblioteca sonda (Roche Diagnostics, Laval, QC, Canadá). QRT-PCR reacciones se llevaron a cabo en el sistema ABI 7900HT Fast Real-Time PCR (Applied Biosystems /Life Technologies, Burlington, ON, Canadá). Para RQ (cuantificación relativa) cálculos, a partir de una muestra de ensayo determinado, el Ct (ciclo umbral) valores para cada gen se normalizaron con el gen de control (DCT = Ct Objetivo - Control Ct) y se compararon con la media DCT de la sangre CD34 + espinal muestra (calibrador) usando el método DDCT (DDCT = DCT de la muestra - dCt calibrador; RQ = 2∧-DDCT). las condiciones del ciclo QRT-PCR fueron las siguientes: 2 minutos a 50 ° C y 10 minutos a 95 ° C, seguido por 40 ciclos de 15 segundos a 95 ° C y 1 minuto a 59 ° C
la variabilidad de los genes de control que se utilizan comúnmente en los datos de RNA-seq
Para estos estudios, hemos hecho uso de los datos de RNA-seq obtenidos en nuestro proyecto Leucégène, que fue adquirida a partir de un panel de 55 pacientes de Leucemia 43 muestras (AML, ALL 12) de Québec La leucemia de células Bank (BCLQ). Asimismo, analizaron los datos de RNA-seq a partir de varios tipos de cáncer y tejidos normales asociadas, incluida la AML, mama, pulmón, colon y riñón, todo a disposición del público a partir del Genoma del Cáncer Atlas (TCGA). El conjunto de datos combinados TCGA representa los datos de un total de 1933 pacientes (207 de tejido normal y 1726 muestras de tejido de cáncer) (Tabla S1).
Para evaluar la consistencia de la expresión génica, se analizó la variabilidad de los valores RPKM entre diferentes pacientes muestras a través de un conjunto de datos de RNA-seq dado. Esto se logró mediante el cálculo del coeficiente de variación (CV) y el cambio máximo de plegado (MFC) para cada gen a través de múltiples muestras dentro de cada conjunto de datos; donde CV representa la desviación estándar dividida por la media RPKM, y MFC representa la RPKM máximo dividido por el valor mínimo RPKM.
Se analizaron primero la consistencia expresión de 19 genes de control utilizados comúnmente en la Leucégène y la TCGA combinado conjuntos de datos. genes de control estándar se clasifican de menor a mayor CV (Tabla 1). Usando este enfoque, se encontró que el gen de control utilizado comúnmente más consistente, en ambos conjuntos de datos, era TATA proteína de unión (
TBP
), produciendo un CV igual a 22,8 o 44,9% y un MFC igual a 2,5 o 12.2, en Leucégène o conjuntos de datos combinados del TCGA, respectivamente. Ableson (
ABL1
), un gen de control comúnmente usado para muestras de leucemia, cedido un CV ligeramente inferior en el conjunto de datos combinados TCGA (39,8%), pero tenía una alta MFC (26.9). La mayoría de los genes de control utilizados comúnmente exhibe variabilidad, con valores de CV que van desde 27,2 hasta 69,1% en Leucégène (mediana CV = 42,6%), y 47,0 a 116,2% en los datos combinados del TCGA (mediana CV = 61,4%). Como era de esperar, se observó que la variabilidad de los genes fue mayor en los datos TCGA combinado, lo que representa una colección más diversa de muestras de cinco tipos de cáncer diferentes y tres tipos diferentes de tejido normal. Este alto grado de variación en los datos TCGA combinado fue más evidente en los valores de MFC, que están más afectados en gran medida por las diferencias extremas de expresión en muestras individuales. Los valores de MFC varió entre 2,5 y el 31,7 a la doblez en Leucégène (mediana = 8,3), y el 12,2 639,5 a la doblez en los datos del TCGA combinados (media = 84,0).
Además, examinó la consistencia expresión de 12 candidatos control de los genes identificados por de Jonge
et al.
[7] como los genes expresados más consistente en una colección de experimentos de microarrays. Esta lista de genes consta de 10 genes que codifican la proteína ribosomal, así como
SRP14
y
OAZ1 gratis (Tabla 2). Usando el enfoque anterior, se encontró que los candidatos identificados a partir de los datos de microarrays mostraron una variabilidad similar a los de los genes de mantenimiento estándar, con un CV mediana igual a 48,5 o 51,6% y una mediana MFC igual a 8.3 o 44.5, en Leucégène o combinados TCGA conjuntos de datos, respectivamente. El gen más consistente de esta lista era señal de reconocimiento de partículas de 14 kDa (
SRP14
). Es de destacar que, si bien estos genes presentan una variabilidad similar en los datos Leucégène establecidos en comparación con los genes de control utilizados comúnmente, que resultó ser un poco menos variable en el conjunto de datos TCGA combinado. Sin embargo, hubo variabilidad aún significativa dentro de los datos del TCGA, que mostró valores de CV% hasta 82,0 por
rps16
, y los valores de MFC hasta 1.208,3 para
RPL9
.
Selección de los mejores genes de control de Leucégène datos de RNA-seq
con el fin de identificar los genes de control mejorados con la expresión más coherente, establecimos valores de corte del% CV y MFC que eran más bajos que los valores obtenidos para la mayoría de los genes de control utilizados comúnmente. Dentro del conjunto de datos Leucégène, analizamos todo el transcriptoma de 21,892 genes y seleccionaron aquellos que tenía un% CV de menos de 25 y un MFC menos de 5, por dos rangos diferentes de expresión: significa RPKM mayor que o menor que 100 (pero mayor de 25). Estos genes se clasifican de menor a mayor CV% (Tabla 3). Utilizando estos criterios, se identificaron 20 genes de control candidatos con los niveles medios RPKM mayores de 100, y los genes de control 99 candidatos con los niveles medios RPKM menos de 100 (Tabla 3 contiene los mejores 20 genes, y la lista completa está disponible en el cuadro S2). La lista completa de los 119 genes con sus descripciones está disponible en la Tabla S4. De éstos, se seleccionaron 15 genes para la validación de la base de su alta graduación en los datos Leucégène, así como tener la expresión relativamente constante en los diferentes conjuntos de datos TCGA (Tabla S3). Los genes de control candidatos recientemente identificados son:
HNRNPK, PCBP2, SLC25A3, Gnb1, HNRNPL, SRP14 gratis (RPKM & gt; 100); y
PSMD6, PSMA1, PSMF1, VPS4A, SF3B2, EIF4H, ZNF207, UBE2I gratis (RPKM & lt; 100). EIF4H tenía ligeramente mayor expresión en los diferentes conjuntos de datos TCGA, y por lo tanto se incluyó en el grupo de genes con una mayor expresión para análisis posteriores.
agrupamiento funcional de los genes de control candidato
evaluó la clasificación funcional de toda nuestra lista de 119 genes identificados a partir del conjunto de datos Leucégène usando el algoritmo de DAVID [16], [17] (Tabla S5). Curiosamente, una parte significativa de estos genes altamente consistentes cayó en dos principales categorías funcionales: (Ex.
SF3B2
) empalme de ARN /procesamiento, con una puntuación de enriquecimiento de 5,92; y la actividad del proteasoma ligasa /ubiquitina, con una puntuación de enriquecimiento de 5,76 (p.
PSMA1
).
La validación de nuevos genes de control en otros conjuntos de datos de cáncer de RNA-seq
La consistencia de expresión de los 15 genes de control candidatos se examinó adicionalmente en 8 conjuntos de datos diferentes de TCGA, representando 6 tipos diferentes de cáncer y muestras de tejido normal, así como en los datos de la sangre del cordón normales obtenidos por Leucégène (Tabla S1). Los genes de control 15 candidatos resultaron ser expresado muy consistente en todos los 4 conjuntos de datos de los tejidos normales, cada uno produciendo un CV de menos de o igual a 25%, y un MFC menos de o igual a 10 (Tabla S3). De nota, los genes candidatos mostraron más alta consistencia en los 17 CD34 + de la médula muestras de sangre (enriquecido vástago normal y células progenitoras), que cada uno produjo CV de menos de o igual a 15%, y los MFC menos de 2. Dentro de los conjuntos de datos de tumor, se observado una mayor variabilidad, con la más alta del CV que sea el 42% de
SLC25A3
en el cáncer de riñón, y la más alta MFC siendo 24 para
SF3B2 Hoteles en el cáncer de mama. Sin embargo, la mayoría de los genes candidatos exhibió menor variabilidad en todos los conjuntos de datos en comparación con los genes de mantenimiento estándar. Se determinó una puntuación para cada gen candidato en base al número de conjuntos de datos analizados (10 en total) en el que los valores de MFC CV y cumplan con nuestros criterios de selección iniciales (CV & lt; 25%, MFC & lt; 5). Los genes se clasifican de acuerdo con este sistema de puntuación. También se calculó la variabilidad de expresión de los genes de control candidatos utilizando el conjunto combinado de datos TCGA (Figura 1 y Tabla 4). Al igual que con los genes de control estándar, sí observamos una mayor variabilidad en comparación con los conjuntos de datos individuales, lo que refleja la diversidad de tipos de tejidos incluidos. Sin embargo, todos los 15 de los genes candidatos muestran consistencia que era mayor que la mayoría de los genes de control utilizados comúnmente. Los valores de CV fueron todos inferiores a la de
TBP
, sin embargo,
UBE2I
y
SF3B2
produjo valores de CV ligeramente superior a
ABL1
. Sólo
SF3B2
dio un MFC superior a la de
ABL1 gratis (Tabla 4). La mayoría de los genes candidatos tenían valores de CV en la más baja 5
TH cuantil y el resto cayó por debajo del 25
TH cuantil, en contraste con los genes de control estándar, de los cuales HPRT1 y GAPDH eran en realidad más variable que media los genes presentes en los niveles de expresión similares (Figura 1).
la media de expresión representa el promedio de todos los valores RPKM para un determinado gen en el conjunto de datos combinados TCGA (1933 muestras). El coeficiente de variación es igual a la desviación estándar dividida por la media RPKM. Cada punto representa un único gen: pequeños puntos grises representan la totalidad del transcriptoma; cuadros de color verde oscuras y claras representan nuevos genes de control con expresión mayor que o menor que 100 RPKM, respectivamente; cajas rojas representan los genes de control estándar indicados. líneas azules curvas representan el 5
ª, 25
ª, 50
º y 75
º cuantiles de coeficiente de variación para un nivel de expresión determinado (del más oscuro al más claro) calculadas sobre las ventanas de 2000 clasificó genes centrados alrededor de un valor medio dado RPKM.
en general, los 15 genes de control recién seleccionados muestran un mayor grado de coherencia en la expresión de genes en comparación con los genes de control de uso común, según lo determinado por ARN -seq. Los genes de más alto rango, como se determina por tener un bajo coeficiente de variación (CV) y el máximo cambio veces los valores (MFC) en la mayoría de los conjuntos de datos analizados son: HNRNPL y ZNF207, con alta y media la expresión gamas, respectivamente
QPCR la validación de nuevos genes de control
con el fin de evaluar la eficacia de los genes de control recientemente identificados para el análisis de RT-PCR cuantitativa (QRT-PCR), que hemos desarrollado ensayos para los candidatos utilizando la biblioteca de sondas universal (Roche ) (S6 Tabla). Nuevos ensayos fueron diseñados para abarcar límites intrón, y se ensayaron para la eficiencia óptima por análisis de la curva estándar.
SRP14
se excluyó debido a la incapacidad para diseñar un ensayo que abarca intrón. QRT-PCR se realizó para cada uno de los 14 nuevos genes, así como para 5 genes de control estándar (
GAPDH, ACTB, TBP, HPRT1, ABL1
), en ADNc a partir de un panel de 14 muestras de leucemia (10 AML, ALL 4) más una muestra de células CD34 + de sangre de cordón (usando cantidades iguales de ARN). La consistencia expresión media (M) de cada gen se calculó utilizando el algoritmo GeNorm [18] (Figura 2). Por QRT-PCR, todos los 14 de los genes de control recién identificados tenían bajos valores de M que los genes de control estándar, lo que confirma que se expresaron de manera más consistente en las muestras de leucemia, de acuerdo con los datos de RNA-seq, con
EIF4H
y
PSMA1 sobre ser el más consistente en esta condición experimental.
consistencia media de expresión (M) se calculó con el algoritmo GeNorm [18] sobre la base de QRT-PCR para el gen de control indicada en un panel de 14 muestras de leucemia y una muestra de sangre de cordón. Más bajos valores de M se refieren a genes que demostraron tener niveles de expresión más consistentes a través de las muestras utilizadas.
Aunque en general se presume que los datos de RNA-seq se correlaciona bien con QRT-PCR datos, hay poca evidencia disponibles para abordar este tema. Por lo tanto, se evaluó la expresión de
CD33
y
FLT3 gratis (datos no mostrados) en los mismos 15 de leucemia y muestras de sangre de cordón con el fin de demostrar la correlación entre los valores delta Ct (DCT) y RPKM para este gen. Estos dos genes fueron seleccionados debido a su conocida variabilidad de la expresión en la leucemia. Los valores de Ct delta para cada muestra se calcularon utilizando ya sea un gen de control estándar (
GAPDH
), o un gen de control recientemente identificado (
HNRNPL, EIF4H, PSMA1, o SF3B2
). análisis de correlación de Spearman de
CD33
datos de expresión demostrado una alta correlación entre RPKM y dCt (ρ = -0,9714--0,9893 para
EIF4H
), excepto cuando
GAPDH se utilizó como
el gen de control (ρ = -0,775) (Figura 3). El análisis con
FLT3
mostró correlación similar. El menor grado de correlación entre RPKM y dCt cuando se utiliza
GAPDH
como un gen de control demuestra la importancia de la selección de genes de control adecuado en QRT-PCR experimentos.
dCt representa la diferencia entre el valor Ct de
CD33
y la del gen de control que se indica, para una muestra leucémica dado, medido mediante qRT-PCR. RPKM se grafica en una escala log-2 y representa el lecturas por Kilobase de transcripción por millón asignada lecturas obtenidas para cada muestra leucémica por la RNA-seq. ρ representa el coeficiente de correlación de Spearman entre el RPKM con el DCT obtenidos con el gen de control indicada.
Para seguir haciendo frente a la importancia de la selección de genes de control adecuado en QRT-PCR análisis, se calculó la cuantificación relativa ( RQ) valores para un gen expresado constantemente (
EIF4H
), utilizando
GAPDH
o
HNRNPL Opiniones de normalización (Figura 4). Como era de esperar, el RQ de
EIF4H
varió muy poco entre muestras de leucemia cuando
HNRNPL
se utilizó como gen de control (CV = 14%; MFC = 1,6). Sin embargo, los valores de RQ de las mismas muestras calcula utilizando
GAPDH
variada tanto como 10,7 veces, con valores de RQ de 0,22 a la 2,29 (CV = 88%). La normalización con
GAPDH
dio lugar a una diferencia de hasta 5,3 veces en la
EIF4H
expresión dentro de las muestras individuales, en comparación con
HNRNPL
normalización. Estos resultados destacan la importancia del uso de genes de control más consistentes como se identifica en este estudio en el análisis de QRT-PCR, y además validar nuestros genes de control recién identificados.
RQ representa la cuantificación relativa de
EIF4H
determinó por QRT-PCR, calculado según el método DDCT, ya sea con
GAPDH
o
HNRNPL
como el gen de control, en relación con la muestra de células CD34 + de sangre de cordón (CB). El eje X indica el ID de la muestra leucémica. CV (expresado como un porcentaje) indica el coeficiente de variación y es igual a la desviación estándar dividida por la media de RQ CD33 calculado utilizando el gen de control indicada. MFC (media veces el cambio) representa la máxima dividida por el valor mínimo RQ.
Discusión
La evaluación de la expresión génica mediante RT-PCR cuantitativa (QRT-PCR) se basa en la normalización con una gen control endógeno, dando lugar a la cuantificación relativa del gen de interés. La mayoría de los investigadores utilizan un solo gen de control, la selección de los cuales a menudo se basa únicamente en la convención [3], [6]. Los genes de control más utilizados fueron seleccionados originalmente, debido a sus altos niveles de expresión en todos los tejidos en lugar de su baja variabilidad entre tejidos [6]. Sin embargo, numerosos estudios han demostrado que estos genes pueden variar considerablemente [1] - [5], lo que siembra dudas sobre la exactitud de los valores de cuantificación relativa
Mientras que muchos estudios se han hecho en los intentos de determinar los mejores métodos para. normalización de la expresión de genes [6], [18] - [20], la mayoría de los investigadores todavía optan por utilizar el método DDCT con uno o dos genes de control, sin una validación adecuada de esos controles. Ha habido relativamente pocos estudios que trataban de identificar nuevos genes de control cuya expresión los niveles son más consistentes que las de uso común, como se presenta aquí. Un par de estudios que se han hecho con este objetivo común se basó en un metanálisis de datos de microarrays [7], [8], mientras que nuestro estudio utiliza datos de próxima generación de secuenciación. Ambos de estos estudios identificaron la proteína ribosomal principalmente (
RP
) codificación de los genes, mientras que nuestro análisis no revelaron ningún genes de esta familia. De hecho, se muestra aquí que la RP genes específicos descritas por de Jonge
et al.
[7] son similares a la de los genes de control estándar con respecto a su variabilidad en la expresión génica, según lo determinado por ARN SEC.
RP
genes representan el grupo de genes más altamente expresado (aproximadamente el 50% de los 100 genes más altamente expresado en los datos de RNA-seq analizados, los datos no presentados). Por lo tanto, una posible explicación de la discrepancia entre los análisis microarray realizado en frente a los datos de RNA-seq podría ser que la saturación de la señal de fluorescencia en microarrays ha dado lugar a una falsa impresión de consistencia. Si bien el cálculo RPKM de genes cortos (tales como
RP
genes) puede ser propenso a una mayor variabilidad técnica que los genes largos, en los altos niveles de expresión de este efecto es pequeño, y el CV está dominado por la variación biológica. De hecho, los valores de CV para
RP
genes en el conjunto de datos TCGA combinado mostraron una distribución equitativa en todos los niveles de expresión (datos no mostrados), lo que implica que no hay sesgo de los genes del PO en los datos de RNA-seq.
análisis de RNA-seq tiene muchas ventajas sobre microarrays para el análisis de la expresión génica global. Más notablemente, debido ARN-ss lee son digitales en lugar de analógicas, hay muy baja señal de fondo, y prácticamente no hay límite superior para la detección, lo que resulta en un rango dinámico mucho mayor [9] - [13], [21]. Los estudios han puesto de manifiesto un alto grado de reproducibilidad técnica con RNA-seq sobre microarrays [9], [10], y que los niveles de expresión de ARN-seq correlacionar mejor con QRT-PCR datos, independientemente de la plataforma de secuenciación utilizado [21]. datos de microarrays es susceptible a errores resultantes de artefactos de hibridación, la saturación de la señal fluorescente, y requiere complicados normalización [10] - [12]. RNA-seq evita estos problemas; Sin embargo, existen otras posibles fuentes de errores, tales como los prejuicios de la longitud de genes, el sesgo en la secuenciación de las regiones ricas en GC, problemas técnicos en la preparación de la biblioteca, o errores en la cartografía de lectura [10], [12]. RNA-seq también no está limitada por el conocimiento previo del transcriptoma que se está estudiando, lo que permite la identificación de nuevas transcripciones y SNPs.
Aquí identificamos un total de 119 genes cuya expresión es más consistente que el control de uso general genes a través de un panel de 55 muestras de leucemia, según lo determinado por la RNA-seq. Clasificación funcional de estos por DAVID reveló dos grupos principales de enriquecimiento: (. ex
PSMA1, PSMF1, UBE2I
) genes implicados en las vías de degradación del proteasoma /ubiquitina, y genes implicados en el corte y empalme y de procesamiento (ex RNA
SF3B2
,
SRSF9
). Además de estos grupos funcionales, encontramos 12 genes implicados en la transcripción y 7 implicados en la traducción (ex.
EIF4H
). Un prominente grupo de genes identificados (n = 8) son las ribonucleoproteínas nucleares heterogéneas (ex.
HNRNPL, HNRNPK
), algunos de los cuales también están involucrados en los procesos celulares anteriores. Es de destacar que el estudio de Popovici
et al.
[8] también identificado dos
hnRNP
genes, un gen de la subunidad del proteasoma,
La ubiquitina B Opiniones y
C
y
EIF4H
como teniendo la expresión altamente consistente a través de los conjuntos de datos de microarrays cáncer de mama diez. En concordancia con los estudios de de Jonge y Popovici, también identificó
SRP14
como un buen control de genes. Aunque
SRP14
era un candidato fuerte, que no fueron capaces de diseñar un ensayo de QRT-PCR intrón-que abarca por ello, y por lo tanto, no se incluyó en nuestros experimentos de validación
.
De los 119 genes seleccionado de los datos de RNA-seq leucemia, 14 fueron seleccionados en función de su coherencia en otros conjuntos de datos de RNA-seq (TCGA) para la validación de QRT-PCR. Esto era esencial para tener en cuenta los posibles sesgos inherentes al procedimiento de RNA-seq, tales como la selección de poli-A + ARN, la fragmentación de ADNc y la preparación de la biblioteca, así como los posibles sesgos introducidos bioinformatically [12]. No obstante, se confirmó que los 14 genes analizados resultaron ser más consistentes de QRT-PCR en una selección de 14 muestras de leucemia que los genes de control estándar. Además, hemos demostrado que los valores de RPKM obtenidos por RNA-seq se correlacionan bien con los valores DCT obtenidos por qRT-PCR, y que esta correlación depende de la del gen de control utilizado para el cálculo dCt. También demuestran claramente el impacto de la selección de genes de control adecuado en QRT-PCR experimentos, ya que el cálculo de los valores de cuantificación relativa (RQ) de
EIF4H gratis (un gen altamente consistente por la RNA-seq) varió significativamente cuando
GAPDH
se utilizó en contraposición a nuestro nuevo control,
HNRNPL
.
RT-PCR cuantitativa se utiliza cada vez más para fines de monitoreo y diagnóstico de enfermedades, como la evaluación de la enfermedad residual mínima (MRD) en la leucemia. Dada la naturaleza altamente sensible de estos ensayos, es de suma importancia para utilizar el mejor control posible de genes para la normalización. Ableson (
ABL1
) ha sido previamente demostrado que el gen de control más consistente probado para la detección de MRD [22]. Sin embargo, los genes de control identificados aquí todo resultó ser más consistente que
ABL1
tanto por la RNA-seq y QRT-PCR de muestras de leucemia, lo que los hace candidatos ideales para su uso en la ERM.
Aunque los genes de control que aquí se presentan fueron seleccionados inicialmente, debido a su consistencia en muestras de leucemia, hemos seleccionado aquellos que también eran relativamente consistentes en otros tipos de cáncer, así como muestras normales asociados, lo que podría aumentar su utilidad como genes de control generales para la mayoría de los tejidos humanos. En base a los estudios de validación, esperamos que nuestros nuevos controles superan a los genes de control estándar en una amplia variedad de tipos de muestras. Sin embargo, para otros tipos de cáncer, pueden existir mejores genes de control, lo que podría determinarse utilizando el mismo enfoque utilizado aquí. Será importante para los investigadores para validar estos nuevos controles antes de su uso con más diversos tipos de tejidos
.
Sería interesante evaluar aún más la consistencia de nuestros nuevos genes de control en el ratón u otros organismos modelo. Hasta la fecha, hay menos públicamente disponibles de ARN-seq datos disponibles para los tipos de células no humanas. Aunque grupos como The Encyclopedia of DNA Elementos (ENCODE) Consorcio proporcionan un fácil acceso a una gran cantidad de datos NGS con muchos tipos de células de ratón representada [23], la mayoría de los experimentos de RNA-seq sólo tienen 2-3 repeticiones, en contraste con el gran número de muestras de humanos utilizados en los conjuntos de datos del Genoma del cáncer Atlas (TCGA). A medida que la tecnología NGS se vuelve más ampliamente disponible, es posible que pronto sea factible para evaluar la consistencia de estos genes en otros organismos de control
.
En conclusión, hemos hecho uso de los datos de RNA-seq para identificar 14 nuevos genes de control con expresión consistente en diversos tipos de cáncer. Estos genes, incluyendo
HNRNPL
,
EIF4H
y
PSMA1
, fueron validados por QRT-PCR para su uso como genes de control en la leucemia.
Información de Apoyo
Tabla S1. Empresas El conjunto de datos de RNA-seq analizados en este estudio. Leucégène, los datos de RNA-seq generados en colaboración entre el Banco de Células de Leucemia de Quebec y el Fondo Genómica Core en el Instituto de Investigación en Inmunología y Cáncer (IRIC); . TCGA, el portal de datos Atlas del Genoma del Cáncer (http://cancergenome.nih.gov/)
doi: 10.1371 /journal.pone.0072884.s001 gratis (XLSX)
Tabla S2.