Extracto
Una vez que cree que es una parte de la "materia oscura" del genoma, los ARN no codificantes largos (lncRNAs) están emergiendo como un componente funcional integral del transcriptoma de los mamíferos. LncRNAs son una nueva clase de mRNA similar a las transcripciones que, a pesar de la ausencia de potencial de codificación de proteína conocida, demuestran una amplia gama de funciones estructurales y funcionales de la biología celular. Sin embargo, la magnitud de la contribución de expresión lncRNA a los tejidos humanos normales y el cáncer no se ha investigado de manera exhaustiva. En este estudio, hemos compilado 272 análisis en serie humana de bibliotecas de expresión génica (SAGE) para delinear los patrones de transcripción lncRNA en un amplio espectro de los tejidos humanos normales y de cáncer. Usando una nueva lncRNA descubrimiento de tuberías que Analizada más de 24 millones de etiquetas SAGE y presenta los perfiles de expresión lncRNA través de un panel de 26 diferentes tejidos humanos normales y 19 cánceres humanos. Nuestros resultados muestran extensa expresión, específica de tejido lncRNA en tejidos normales y la expresión lncRNA altamente aberrante en los cánceres humanos. A continuación, presentamos un primer atlas generación para lncRNA en el cáncer de
Visto:. Gibb EA, EA Vucic, Enfield KSS, GL Stewart, Lonergan KM, Kennett JY, et al. (2011) Cáncer no codificantes de ARN humano largo Transcriptomes. PLoS ONE 6 (10): e25915. doi: 10.1371 /journal.pone.0025915
Editor: Eric J. Bernhard, Instituto Nacional del Cáncer, Estados Unidos de América
Recibido: August 1, 2011; Aceptado: September 13, 2011; Publicado: 3 Octubre 2011
Derechos de Autor © 2011 Gibb et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo fue apoyado por becas de los Institutos canadienses de Investigación en Salud (CIHR) [RP 86731, 77903 MOP a WLL, RP 13690 a CJB]; Institutos Nacionales de Salud [NIH 2R01 CA103830 - 6A1]; Departamento de Defensa [CDMRP W81XWH-10-1-0634]; Fundación CIHR y Michael Smith de Investigación en Salud (MSFHR) postdoctorales [a E.A.G.]; y CIHR Frederick Banting y Charles Best Canadá Becas de postgrado [a E.A.V.]. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
inestabilidad del genoma y la mutación son una característica del cáncer [1]. cambios genéticos y epigenéticos como resultado la expresión aberrante de genes codificadores de proteínas y muchas clases de ARN no codificante (ncRNAs), incluidos los microRNAs (miRNAs). MiRNAs han demostrado ser los principales actores de la carcinogénesis humana, a pesar de que comprende sólo una pequeña fracción de ncRNAs [2].
Una vez que se cree la "materia oscura" del genoma, ncRNAs se han convertido en un componente integral de el transcriptoma de mamíferos [3], [4], [5]. Estas moléculas enigmáticas se definen por la falta de la secuencia codificante de la proteína, todavía pueden desempeñar ambos papeles estructurales y funcionales en la célula [6], [7]. NcRNAs puede sido agrupados en dos clases principales, la pequeña ncRNAs, que incluyen miRNAs y otras transcripciones no codificantes de menos de 200 nucleótidos (nt), y los lncRNAs descrito más recientemente, que van desde 200 nt a & gt; 100 kilobases (kb ) [8].
lncRNAs pueden ser intergénicas, intronic, antisentido o superposición con genes codificadores de proteínas u otros ncRNAs [9], [10], [11], [12]. El repertorio conocido de las funciones lncRNA se está expandiendo rápidamente - con papeles demostrado como mediadores de la descomposición de ARNm [13], andamios estructurales para subestructuras nucleares [14], [15], como los genes del hospedador para miRNAs [16], [17], y como reguladores de la remodelación de la cromatina [18], [19], [20], [21] - a pesar de que las identidades funcionales de muchos lncRNAs aún no se han descubierto [6], [7], [22]. Recientemente, los cánceres humanos se han descrito para tener la expresión alterada de satélite repite [23], transcritos de ultra regiones conservadas (T-UCR) [24], y las transcripciones antisentido [25]. Más allá de los cambios de expresión, la evidencia acumulada indica la expresión aberrante de lncRNAs puede jugar un papel funcional importante en la biología del cáncer [26], [27], [28]. El HOX ARN antisentido intergénica bien estudiado (
HOTAIR
), por ejemplo, es altamente expresado en el cáncer de mama y metástasis de cáncer de mama y juega un papel en la reorientación de los complejos de remodelación de la cromatina [29]. Del mismo modo, la alta expresión de la speckle nuclear lncRNA asociado asociados a metástasis de pulmón adenocarcinoma transcripción 1 (
MALAT1
) modula splicing alternativo y se ha asociado con la metástasis y mal pronóstico en pacientes con cáncer de pulmón [30], [31] . Si bien estos ejemplos son interesantes, el alcance de la contribución de expresión lncRNA diferencial con el cáncer humano es actualmente desconocido.
Con una estimación conservadora de 23.000 lncRNAs en el genoma humano, estas transcripciones rivalizan con los ~20,000 genes codificadores de proteínas [5], [11], [32], [33]. Durante las últimas dos décadas, los microarrays de perfiles ha generado una gran cantidad de información sobre la codificación de proteínas patrones de expresión génica en los cánceres humanos. Sin embargo, como sondas específicas lncRNA están insuficientemente representadas en microarrays comerciales utilizados en los perfiles transcriptoma del cáncer, estos datos no se aplican a ncRNAs. secuenciación mundial de poblaciones de ARN es un nuevo enfoque utilizado para perfilar los niveles de expresión de ARN que capturarán la extensión de la expresión lncRNA. Recientemente, NcRNA perfiles de expresión de todo el genoma se determinaron en 11 muestras que representan diferentes tipos de tejidos humanos [34].
Uno de los métodos basados en la secuencia de la enumeración de la abundancia de las transcripciones polyadenylated es SAGE [35]. Como muchos propios lncRNAs se polyadenylated, los niveles de transcripción lncRNA se pueden deducir a través de la enumeración directa de las etiquetas de secuencias utilizando la tecnología SAGE correspondiente. De hecho, dos lncRNAs antisentido se descubrieron usando un método basado en SAGE [25]. Desde la invención de la tecnología SAGE a mediados de 1990, numerosas bibliotecas SAGE que representan una diversidad de tejidos humanos y de ratón, normales y malignas y las líneas celulares se han vuelto a disposición del público [36]. De las 755 bibliotecas SAGE humanos en la base de datos de la Expresión Génica Omnibus (GEO), ~276 incluyen bibliotecas SAGE derivadas de cánceres humanos o displasias [37].
En este estudio, hemos compilado 272 bibliotecas SAGE humanos para delinear lncRNA los patrones de transcripción a través de un amplio espectro de tejidos y los cánceres humanos. El uso de un descubrimiento de tuberías lncRNA de encargo, que analiza más de 24 millones de SAGE etiquetas de secuencias para deducir (1) los patrones de expresión lncRNA específicos en 26 tejidos humanos y descubrieron ubicuamente expresados, así como lncRNAs específicos de tejidos, y (2) los patrones de expresión aberrantes de lncRNAs en 19 cánceres humanos.
resultados
Montaje de bibliotecas SAGE humanos de los tejidos normales y cancerosas
Un total de 1.824 bibliotecas SAGE (en resumen SAGE, SAGE y larga SAGE-ss formato) de los orígenes humanos y no humanos son a disposición del público a través de GEO. Para explorar la expresión lncRNA en la gama más amplia de tipos de tejido humano y los tipos de cáncer, que lo descargamos 360 GEO accessioned bibliotecas humanos corto SAGE compuestas de bibliotecas comisariada por el Proyecto del Genoma del Cáncer Anatomía (324 bibliotecas) y el tejido pulmonar y conjuntos de datos de cáncer (36 bibliotecas) ( Tabla S1). bibliotecas individuales se filtraron para la profundidad de la secuencia, conservando sólo las librerías con & gt; 50.000 etiquetas primas, para proporcionar 272 bibliotecas SAGE para el análisis utilizando nuestro descubrimiento de tuberías lncRNA (Tabla S2). Las 272 SAGE bibliotecas se componen de un total de 24,436,076 etiquetas de secuencias en bruto con una cuenta de etiquetas prima promedio de 90.212 por biblioteca. Colectivamente, las bibliotecas se extendieron 26 tipos humanos normales de tejido, incluyendo 19 tipos de cáncer humano, y 9 tipos de tejidos derivados de las bibliotecas de líneas celulares (Figura 1, Tabla S3).
(CL) indica una biblioteca SAGE que se ha generado a partir de una mezcla de líneas celulares humanas.
tubería ARN descubrimiento largas
no codificantes
para generar perfiles de expresión lncRNA, hemos desarrollado un descubrimiento de tuberías lncRNA para asignar etiquetas a lncRNA coincide (Figura 2). Una matriz de la expresión SAGE etiqueta se construye a partir de todas las etiquetas únicas (n = 716,330) identificados en el conjunto de datos de 272 bibliotecas. Unigene mapeado y sin asignar etiquetas SAGE (n = 269 785 yn = 446 545, respectivamente) se separaron en distintas matrices de expresión que se filtraron posteriormente por retener a las etiquetas con al menos 2 cuenta con la etiqueta primas en 3 o más bibliotecas SAGE. El uso de SAGE Genie para asignar identificadores de genes para la ID de Unigene, 263 de los 61,054 etiquetas filtradas con sus correspondientes identificadores de Unigene asignan a lncRNAs conocidos, y 15.773 etiquetas o bien carecían de nombres de genes o tenían anotaciones ambiguas (loci por ejemplo, ADNc transcrito, genes hipotéticos). Sobre la base de la ausencia de asociación confirmado con los genes conocidos, estos partidos 15773 tag-a-Unigene ID fueron considerados como candidatos etiquetas lncRNA
Los números indican los programas o medidas de filtrado de la siguiente manera:. (1) de filtrado para retener sólo aquellos bibliotecas con un mínimo de 50.000 etiqueta cuenta cruda, (2) la identificación de las etiquetas SAGE únicas y la construcción de SAGE matriz de la expresión de etiqueta, (3) las etiquetas de cartografía SAGE a identificadores de Unigene utilizando archivos de mapeo SAGE Genie, (4) listas de filtrado para retener sólo las etiquetas con ≥ 2 cuentas sin procesar en un ≥3 de 272 bibliotecas, (5) que determinan la identidad de genes usando SAGE Genie, (6) separar las etiquetas de cartografía Unigene a lncRNAs y transcripciones ambiguas, (7) la agrupación de etiquetas y etiquetas ambiguas sin asignar, (8) etiquetas de secuencias mapeo a la lista de referencia de 9.891 lncRNAs utilizando SeqMap, un programa de mapeo etiqueta-a-gen, (etiquetas restantes puede asignar a lncRNAs o transcripciones antisentido no anotada no incluido en nuestra lista de referencias) (9) etiqueta de filtrado partidos de sentido filamento, (10) la puesta en común hacia adelante etiquetas y etiquetas de mapeo determinados a partir de Unigene, y (11) que confirman partidos tag-a-lncRNA y sumando etiqueta cuenta para lncRNAs con la etiqueta varias coincidencias. Una lista completa de lncRNAs se ofrece como el cuadro S5 y partidos tag-a-lncRNA se proporcionan como el cuadro S6.
Las etiquetas 15.773 Unigene con genes identificadores ambiguos fueron combinados con los 17.816 etiquetas sin asignar, se filtra para un total de 33,589 etiquetas SAGE con el potencial de generar la etiqueta-a-lncRNA coincide. Usando SeqMap, estudiamos 7,040 de los 33,589 etiquetas a secuencias lncRNA de la lista lncRNA de referencia (Tabla S4). La proporción de la etiqueta-a-lncRNA coincide es consistente con el hecho de que nuestra lista de referencia de 9.891 lncRNAs representa sólo una parte de los aproximadamente 23.000 lncRNAs en el genoma [33]. Las etiquetas restantes que no se asignan a lncRNAs de nuestra lista de referencias puede representar antisentido transcripciones de genes codificadores de proteínas u otros ncRNAs los cuales se filtraron.
de la etiqueta lncRNA 7.040 partidos, 3.831 asignada en la orientación hacia delante, mientras 3209 asignada en la dirección inversa. En SAGE, etiquetas iguales transcripción en la orientación hacia adelante es probable que derivan de la transcripción, mientras que las etiquetas a juego en la orientación inversa no lo son. Esto es cierto independientemente de si el gen está normalmente transcribe a partir de la más o menos cadena de ADN. En este estudio, que estaban interesados en los perfiles de expresión de un conjunto de comisariada lncRNAs, en lugar de descubrimiento de nuevos genes. Como partidos de etiquetas inversa no corroboran la expresión de los lncRNAs descritos en este documento, estas etiquetas se excluyeron del análisis adicional.
Las etiquetas de 3.831 recién asignados a lncRNAs fueron combinadas con las 263 etiquetas con una identificación de Unigene la cartografía para un total de 4.094 etiquetas de cartografía única para lncRNAs. Cuando múltiples etiquetas asignadas a un lncRNA distinta, las etiquetas se derrumbó sumando la etiqueta cuenta para capturar todas las variantes de la transcripción e isoformas. El resultado final fue una matriz de la expresión lncRNA que consta de 2.649 lncRNAs distintas (Tablas S5 y S6). Los lncRNAs con la expresión más alta fueron detectables en la mayoría (& gt; 90%) de las 272 bibliotecas (Tabla 1). Estos ejemplos se incluyen caracterizados como el montaje paraspeckle nuclear de transcripción 1 (
NEAT1
) y un crecimiento de detención específico 5 (
GAS5
).
ARN no codificante largo los perfiles de expresión en tejidos humanos normales
de las bibliotecas SAGE 272, 72 representados tejidos humanos normales. Expresión de lncRNAs se detectó en todos los tipos de tejido, aunque el número de lncRNAs únicas detecta variado considerablemente (Figura 3A). En promedio, había 145 lncRNAs distinta con una media de etiquetas por millón (TPM) de 20 detectadas en cada tejido. Tejidos, tales como los ganglios linfáticos y la vesícula biliar mostraron el mayor número de lncRNAs distintas, mientras que los números más bajos de lncRNAs distintos fueron encontrados en el músculo y el hígado.
(A) Número de lncRNAs distintas expresadas en tejidos humanos normales, las células blancas de la sangre y células madre embrionarias con un TPM promedio mínimo de 20. los valores entre paréntesis indican el número de bibliotecas SAGE para cada tejido. (B) Ejemplos de lncRNAs detectaron exclusivamente en un único tejido humano normal o en células madre embrionarias (ESC) con un nivel de expresión mínima de 10 TPM. Para tejidos con dos o más bibliotecas, se promediaron los valores de TPM. LncRNAs sin nombres están etiquetados con un identificador Ensembl.
A continuación centramos en estas bibliotecas para determinar si los perfiles de expresión lncRNA específicos de tejido se podrían generar (Tabla S7). La Figura 4A muestra los 20 más altamente expresado lncRNAs detectados en el grupo de tejidos normales. lncRNAs distintas detectadas en los altos niveles de expresión en tejidos normales incluyen los caracterizados en la literatura como
NEAT1
,
GAS5
y la transcripción X-inactiva específica (
XIST
). Sin embargo, al menos la mitad de los lncRNAs altamente expresados son nuevos y en la actualidad no caracterizado. Para confirmar los perfiles de expresión lncRNA, nos preguntó los patrones de expresión de los lncRNAs más altamente expresado a partir de datos del proyecto RNASeq Illumina BODYMAP humano 2.0. Estos datos se ha añadido recientemente a la liberación Ensembl 62 y se presenta como una pista opcional. De nuestros lncRNAs más altamente expresados, la mayoría fueron ampliamente expresada en las muestras de tejido de la iluminación de datos, consistentes con nuestros resultados (Tabla S8, las figuras S1 y S2). Al mismo tiempo, la expresión lncRNA también se encontró que era muy variable, con cada tejido humano que tiene un patrón de expresión único lncRNA (Figura 4B). Curiosamente, una serie de lncRNAs se expresaron de manera exclusiva tejido (Figura 3B).
(A) lncRNAs con la expresión general más alta (B) lncRNAs con la más alta varianza por un coeficiente de variación (CV) prueba. Heatmaps indican la intensidad relativa (TPM normalizado) de cada lncRNA través de diecisiete tejidos humanos, células blancas de la sangre y las células madre embrionarias humanas. Cuando más de una biblioteca SAGE estaba disponible, se promediaron los valores de TPM. Para el mapa de calor, el umbral máximo se fijó en 300 TPM. LncRNAs sin nombres están etiquetados con un identificador Ensembl.
ARN largos no codificantes perfiles de expresión en los cánceres humanos
aberrante expresión del gen codificante de la proteína está bien descrito en el cáncer. Sin embargo, la expresión aberrante de ncRNAs, incluidos los miRNAs y lncRNAs, sólo recientemente se ha asociado con esta enfermedad [2], [26], [27], [38]. Para delinear lncRNA perfiles de expresión asociados con cánceres humanos, hemos creado una matriz de la expresión humana del cáncer basado en 167 bibliotecas SAGE cáncer incluidos en nuestra base de datos (Tabla S9). Para el conjunto de datos de cáncer de pulmón, metaplasia, displasia y tejidos inflamatorios se excluyeron del análisis ya que estos representan etapas precancerosas [39], [40]. La Figura 5A muestra los 20 primeros lncRNAs más altamente expresado a través de los cánceres perfilados. Al igual que los tejidos normales, la expresión lncRNA en el cáncer humano también se encontró que era altamente variable (Figura 5B).
LncRNAs
(A) lncRNAs con la más alta expresión general (B) con la varianza más alta por un coeficiente de variación ensayo (CV). Heatmaps indican la intensidad relativa (TPM normalizado) de cada lncRNA través de diecisiete cánceres humanos y células madre embrionarias humanas. Cuando más de una biblioteca SAGE estaba disponible, se promediaron los valores de TPM. Para el mapa de calor, el umbral máximo se fijó en 300 TPM. LncRNAs sin nombres están etiquetados con un identificador Ensembl.
cánceres en humanos demuestran alteraron significativamente los patrones de expresión lncRNA
Para determinar el grado de expresión diferencial lncRNA en el cáncer humano, hemos creado tres matrices de expresión para cada mama, cerebro y cáncer de pulmón que incluye un mínimo de cinco normal y cinco bibliotecas SAGE cáncer (Tabla S10). Los mama, cerebro y pulmón lncRNA matrices de expresión fueron ordenados de forma independiente para lncRNAs significativos y expresados diferencialmente (p-value & lt; 0,05, ≥2 veces el cambio de expresión basado en una permutación de prueba no paramétrica [41]). En cada tipo de cáncer, que se encuentran al menos 200 lncRNAs tener expresión diferencial significativa sobre la base de estos criterios (Figura 6A). Curiosamente, no había solapamiento entre las lncRNAs que son expresados diferencialmente en cada tejido (Figura 6B), incluyendo 8 lncRNAs que son expresados diferencialmente en los tres tipos de cáncer (Tabla 2). Los diez lncRNAs más arriba y hacia abajo regulada para cada tipo de cáncer se encuentran en la Tabla S11.
(A) Número de lncRNAs que muestran cambios significativos de expresión. El número de lncRNAs determinado que tienen significativa (BH valor de p & lt; 0,05) la expresión diferencial de 2 veces o más informado. Las barras sólidas indican los genes regulados positivamente, mientras que los bares con marcas de sombreado indican los genes regulados negativamente (B) diagrama de Venn de lncRNAs expresados diferencialmente en los carcinomas humanos.
distribución cromosómica de largos ARNs no codificantes
Hemos construido una parcela de distribución para determinar la distribución cromosómica de los genes de 9.891 lncRNA en nuestra lista de referencias lncRNA (Tabla S3). Los lncRNAs se distribuyen por todo el genoma y están presentes en cada cromosoma (Figura 7). genes y miRNAs codificantes de proteínas parecen compartir una distribución cromosoma similar (correlación de Spearman p & gt; 0,05, Figura S3A). Sin embargo, la distribución cromosómica de lncRNAs no se correlacionó con cualquiera de los genes o miRNAs codificantes de proteínas (correlación de Spearman p & lt; 0,05, figuras S3 B, S3C)
genes codificantes de proteínas (n = 20.655), microARN (n. = 1,746) y largo ARN no codificante (n = 9.891) las coordenadas fueron descargados de Ensembl V62 usando BioMart.
Discusión
En los últimos años, el concepto de genoma funcional tiene ha reescrito para incluir una multitud de clases recién descubiertos de ncRNA transcripciones [42], [43], [44], [45]. A pesar de la importancia funcional de los ARN no codificantes largo tiempo se ha reconocido [46], [47], la abundancia y la escala de lncRNA cambios de expresión en el cáncer está empezando a salir a la luz. Por esta razón, la cartografía del paisaje a través de la transcripción de lncRNAs tejidos y tipos de cáncer humano es un paso clave en la comprensión de importancia funcional lncRNA en el cáncer.
A continuación, presentamos el primero de varios tejidos, cruzada cáncer de expresión lncRNA perfiles estudiar. A gran escala de perfiles de expresión conjuntos de datos, tales como salvia, representan un valioso recurso para investigar el patrón de expresión de lncRNAs poliadenilados. Si bien este enfoque excluye el perfilado de lncRNAs no poliadenilados, no obstante facilita el perfilado simultáneo de miles de lncRNAs poliadenilados en una amplia gama de tejidos y los cánceres humanos. El uso de 272 bibliotecas SAGE, lo que representa 26 tejidos humanos no malignas, 19 tipos de cáncer humano y 9 líneas celulares de cáncer, se ha producido un primer atlas de generación de cáncer cruz perfiles de expresión lncRNA como un recurso para esta área de rápido crecimiento de la investigación del cáncer. Las estimaciones actuales del número de lncRNAs codificadas en el genoma humano varían ampliamente, desde ~7,000 a 23.000 o más [7]. Estas estimaciones rivalizan con la abundancia de los genes estimados 20.000 codificantes de proteínas. Nuestro análisis mostró que lncRNAs se distribuyen en todos los 22 autosomas y cromosomas sexuales, sin embargo, el patrón de distribución no se correlacionaron con cualquiera de los genes codificantes de proteínas o miRNAs (Figura 7, Figura S3).
El examen de 72 bibliotecas SAGE de tejidos humanos normales revelaron expresión lncRNA en el cerebro, mama, esófago, vesícula biliar, corazón, hígado, pulmón, ganglio linfático, músculo, peritoneo, placenta, próstata, retina, la médula espinal, estómago, tiroides, tejido vascular, células madre embrionarias y blanco células de sangre. Nos encontramos patrones amplios y altamente diferenciales de expresión lncRNA en tejidos humanos normales (Figuras 3 y 4), lo que corrobora un informe previo de los patrones NcRNA específicos de tejido [34]. Por ejemplo, el lncRNA NCRNA00116 fue altamente expresado en los tejidos contráctiles, es decir, corazón (TPM = 349) y músculo (TPM = 399). LncRNAs ENSG00000230658 y ENSG00000235621 mostraron muy alta expresión (TPM = 888) en la placenta y el esófago (TPM = 820), respectivamente, pero baja o indetectable expresión en otros tejidos, lo que puede indicar una función específica de tejido de estas transcripciones. El cerebro asociada y supresor tumoral putativo lncRNA expresado maternalmente 3 (
MEG3
) [48], muestra la más alta expresión en el cerebro en nuestro conjunto de datos (TPM = 677), pero mostraron bajo nivel de expresión en otros tipos de tejidos ( Figura 4). En conjunto, estos datos sugieren algunos lncRNAs pueden funcionar de una manera específica de tejido.
Sólo aproximadamente 1% de los lncRNAs se expresa de forma ubicua en todos los tejidos examinados. Estos lncRNAs expresadas constantemente son una reminiscencia de los patrones de expresión de "limpieza" genes codificadores de proteínas [49]. Los once lncRNAs de la Tabla 1 se expresan en al menos 90% de 272 bibliotecas SAGE en nuestro conjunto de datos, lo que implica que estas transcripciones pueden participar en los procesos biológicos comunes. Sin embargo, el nivel de expresión absoluta varió para cada tejido, a veces por cientos de TPM (Figura 4). Esto sugiere ciertas lncRNAs pueden ser necesarios en los diferentes niveles celulares en diferentes tejidos o en distintas condiciones, al igual que muchos genes codificadores de proteínas expresadas constitutivamente [50], [51], [52]. El concepto de lncRNAs que funcionan como reguladores expresados constitutivamente se ha propuesto anteriormente. Por ejemplo, el lncRNA
XIST
es fundamental para el desarrollo femenino debido a su papel funcional en la inactivación del cromosoma X [47], [53]. Concordantemente, una serie de los más altamente lncRNAs y frecuentemente expresada en nuestra base de datos tiene asociaciones previas con procesos biológicos clave, incluyendo
NEAT1
, un andamiaje estructural para la formación paraspeckle [14], [54],
MALAT1
el que se regulan splicing alternativo [31] y los pequeños ARN nucleolar gen huésped 6 (
SNHG6
) que alberga una ARNsno, que funcionan en la modificación del RNA [55]. Estos hallazgos sugieren que lncRNAs puede ser crítica para el mantenimiento del tejido y la función normal.
En este análisis del tipo de cáncer cruz, encontramos que lncRNAs expresado de forma aberrante en un tipo específico de cáncer también pueden ser alterados en otros tipos de cáncer. Por ejemplo, mientras que
MEG3
es altamente expresado en los tejidos normales del cerebro, este lncRNA fuerza se redujo en nuestros conjuntos de datos de cáncer del cerebro, y sorprendentemente por lo que en la vesícula biliar, cáncer de la retina y de la próstata, de acuerdo con la propuesta función supresora de tumores de
MEG3
[48], [56], [57]. En otro ejemplo, el gen de acogida miR155 (
miR155HG
), un lncRNA procesado para el miARN
miR-155
, fue altamente sobreexpresado en el linfoma de células B de acuerdo con informes anteriores [16], pero también también se reguló en el esófago y el cáncer de la vesícula biliar.
largos ARNs no codificantes están también implicados en la regulación de la embriogénesis [58], [59], [60]. lncRNAs fetales reactivados en los cánceres pueden representar reguladores críticos de la pluripotencia o el crecimiento celular. Por ejemplo, el cáncer urotelial asociado lncRNA 1 los papeles (
UCA1
) ha demostrado, tanto en el desarrollo embrionario y está implicado en el cáncer de vejiga, el apoyo a este concepto [61]. En nuestros datos, encontramos varias lncRNAs con baja expresión en tejidos normales, pero con alta expresión tanto en células madre embrionarias y el cáncer (Tabla S12). Si bien estos lncRNAs fetales reactivados representados ejemplos no caracterizados en su mayoría,
H19
, un lncRNA bien estudiado con las asociaciones, tanto en el desarrollo de mamíferos y el cáncer [53], fue también detectado en nuestra base de datos. Curiosamente,
NEAT1
, que está constitutivamente y altamente expresado en los tejidos normales [34], [62], con la excepción de células madre embrionarias, se downregulated en pulmón, hígado, esófago y cáncer de la retina (retinoblastoma).
Desde amplificaciones genómicas y deleciones son mecanismos clave de la desregulación de genes en el cáncer, se investigó cambios en la expresión lncRNA en regiones genómicas alterados con frecuencia en mama, cerebro y cáncer de pulmón. La comparación de la forma significativa (p & lt; 0,05) desregulado lncRNAs comunes entre los tejidos cerebrales, cáncer de mama y de pulmón reveladas ocho lncRNAs fueron regulados diferencialmente (≥2 veces) en comparación con el tejido normal. Curiosamente, tres de estos lncRNAs - ENSG00000226380, ENSG00000230937 y ENSG00000253288 - se encuentra en 7q32.3, 1q32.2, y 8q24.23, respectivamente, en las regiones carentes por completo de los genes codificantes de proteínas. Como los genes codificantes de proteínas y miRNAs, es posible que la expresión diferencial lncRNA es impulsado por mecanismos similares de interrupción, incluyendo número de copias ganancia /pérdida o patrones de metilación aberrante. De hecho, la amplificación de alto nivel de lncRNA que contiene loci tales como cytoband 19p12 se ha informado en cáncer de mama [63], mientras que la amplificación de alto nivel de 12p13.2 (que contiene un número de lncRNA loci) se ha informado en el cáncer de mama, glioblastoma, astrocitoma y el cáncer de pulmón de células escamosas [64], [65], [66], [67]. Del mismo modo, la expresión aberrante de una serie de lncRNAs ha estado ligada a la alteración de los patrones de metilación [68], [69]. Sin embargo, sigue siendo en su mayoría desconocidos el mecanismo (s) que dirige la expresión aberrante lncRNA.
Mientras lncRNAs han sido documentados durante casi tres décadas, la magnitud y diversidad de expresión lncRNA sólo recientemente ha sido apreciada. Se estima que el número de lncRNAs genoma humano en las decenas de miles, duplicando el número de genes blancos potenciales en las redes de expresión génica del cáncer. A gran escala, de tejido de cáncer cruz y los estudios son cruciales para la comprensión de la regulación de la expresión lncRNA y cómo estas nuevas transcripciones se integran con nuestra comprensión actual del transcriptoma de los mamíferos. Por otra parte, una comprensión más profunda de expresión lncRNA no sólo se ampliará el número de posibles genes del cáncer de destino, sino también facilitar el desarrollo de nuevas terapias contra el cáncer, tales como la regulación de genes mediada por ARN antisentido [70] o de orientación interacciones lncRNA-proteína [28 ].
Materiales y Métodos
SAGE bibliotecas en
Este estudio utiliza las bibliotecas SAGE públicamente disponibles para el análisis de datos. Un total de 360 bibliotecas SAGE, incluyendo 324 del Genoma del Cáncer Anatomía del Proyecto (CGAP) colección de la biblioteca SAGE (GSE15309), 19 pulmonares bibliotecas epitelio bronquial (GSE3707), 13 bibliotecas de cáncer de pulmón (GSE7898) y 4 nunca bibliotecas epitelio bronquial no fumadores (GSE5473 ), fueron descargados de GEO (Tabla S1). Bibliotecas construidas a partir de muestras no humanos, así como a largo SAGE y bibliotecas SAGE-Seq no se utilizaron en este estudio. Para facilitar la comparación directa de las bibliotecas SAGE se filtraron para retener sólo las librerías con & gt; 50.000 etiqueta prima cuenta lo que resulta en 272 bibliotecas adecuado para el análisis (Tabla S2) guía
lista de referencia de ARN no codificante largo
el descubrimiento de tuberías lncRNA se basa en una lista de referencia de lncRNAs humanos curada por la base de datos genómica de liberación Ensembl línea 62, incorporada en el Consorcio del Genoma de referencia liberar GRCh37 [71]. La lista de referencias lncRNA fue compilada de 1.239 Ensembl identificadores (V62) designados como 'lincRNAs' (largos intergénicas los ARN no codificantes, una subclase de lncRNAs) y 8.652 IDs Ensembl (V62) designados como 'transcripciones transformados »para un total de 9.891 lncRNAs (Tabla S4). Todos los lncRNAs utilizados para consultar las bibliotecas SAGE fueron curadas Ensembl transcripciones sin un marco de lectura abierto predicho. Las secuencias de todas las transcripciones lncRNA se recuperaron de Ensembl (V62) utilizando el sistema de gestión de datos Biomart.
SAGE etiqueta-a-gen mapeo
scripts de Perl encargo se utilizaron para crear una matriz de expresión las únicas etiquetas SAGE 272 a través de las bibliotecas (scripts de Perl: getuniquetags.pl y makeTable_April20.pl). Las etiquetas SAGE fueron asignadas a identificadores de Unigene utilizando scripts de Perl y un archivo de asignación de corto SAGE (archivo de asignación: Hs_short) descargados de SAGE Genie (http://cgap.nci.nih.gov/SAGE), para crear una matriz de Unigene ID asignado etiquetas y una matriz de etiquetas sin asignar (script de Perl: extractUnmappedTags_Unigene). Las dos matrices de expresión de etiquetas sin asignar y Unigene asignan etiquetas se filtraron de forma independiente para conservar únicamente las etiquetas con etiqueta cuenta primas de 2 o más, apareciendo en al menos 3 bibliotecas SAGE
.
En la Unigene asigna etiquetas, identificadores de genes eran asignado a las ID Unigene utilizando SAGE Genie. A partir de este conjunto de datos, el tag conocido o lncRNAs candidatos se extrajeron manualmente. lncRNAs candidatos son Unigene IDs sin nombre gen o hacer coincidir uno o más de los siguientes descriptores: 'no codificante "," no proteicos "," ADNc "," locus transcrito', 'IMAGEN clon', 'chr (#) ORF (#) ',' hipotético ',' familia con similitud de secuencia "," FLJ (#) ', o' KIAA (#) '. Las etiquetas lncRNA candidatos se fusionaron con las etiquetas no asignados y utilizados como un único conjunto de datos de partida para identificar la secuencia coincide con la lista de referencias lncRNA.
El programa de cartografía SeqMap etiqueta-a-gen se utilizó para identificar perfecta (0 etiqueta desajustes) coincide con las secuencias de transcripción de la lista lncRNA referencia. Etiquetas de mapeo para lncRNAs se filtraron para retener a los correspondientes a la diagonal ( "sentido") filamento, mientras que los partidos de la etiqueta inversa no corroboran la expresión de los candidatos y lncRNAs no fueron analizados. Las etiquetas capítulo adelante mapeado en el que lncRNAs A continuación se combinaron con las etiquetas Unigene mapeado en el que lncRNAs para crear una matriz de expresión de SAGE etiquetas de mapeo para lncRNAs. Esta matriz se reasigna a la lista de referencia lncRNA confirmar precisa etiqueta-a-lncRNA coincide.
pre-procesamiento de datos
En los casos en que varias etiquetas asignadas a la misma lncRNA, se comprimieron las etiquetas
sumando la etiqueta que cuenta para capturar todas las variantes de transcripción y lncRNA isoformas (scripts de Perl: sumRows.pl). SAGE etiquetas de asignación a más de un lncRNA se descartaron. cuenta con la etiqueta primas para cada biblioteca SAGE se normalizaron a TPM para facilitar la comparación adecuada entre las bibliotecas. matrices de expresión adicionales incluyeron sólo SAGE bibliotecas de interés para un análisis determinado, mientras que la eliminación de las columnas con las bibliotecas SAGE no deseados. Estos submatrices se filtraron para eliminar lncRNAs con expresión sin ser detectados. Cuando un tejido o cáncer fue representado por más de una biblioteca SAGE, se promediaron el TPM normalizado. Por último, todos los ID de Ensembl V62 fueron levantadas a Ensembl V63, cualquier falta o reasignados identificaciones fueron retirados de la lista lncRNA final.
El análisis estadístico
Para garantizar la significación estadística al comparar los tejidos normales con los tejidos cancerosos