Extracto
Antecedentes
La recurrencia y la distribución no aleatoria de translocación de interrupción en los tumores humanos son generalmente atribuidos a la secuencia local de características presentes en las proximidades de los puntos de ruptura. Sin embargo, también se ha sugerido que las limitaciones funcionales pueden contribuir a delimitar la posición de translocación de interrupción dentro de los genes involucrados, pero un análisis cuantitativo de dicha contribución que ha faltado.
Metodología
Tenemos analizado dos firmas conocidas de selección funcional, tales como la compatibilidad del marco de lectura y combinaciones no aleatorias de dominios de la proteína, en un extenso conjunto de datos de proteínas de fusión que resultan de translocaciones cromosómicas en el cáncer.
Conclusiones
Nuestros datos proporcionan un fuerte apoyo experimental para el concepto de que se determina la posición de los puntos de interrupción de translocación en el genoma de las células cancerosas, en gran medida, por la necesidad de combinar ciertos dominios de la proteína y para mantener un marco de lectura intacto en transcritos de fusión. Además, la información que hemos reunido proporciona una visión global de los mecanismos oncogénicos y arquitecturas de dominio que son utilizados por las proteínas de fusión. Esto se puede utilizar para evaluar el impacto funcional de nuevos translocaciones cromosómicas y para predecir la posición de los puntos de interrupción en los genes implicados
Visto:. Ortiz de Mendíbil I, Vizmanos JL, Novo FJ (2009) las firmas de selección de Las transcripciones de fusión resultante de translocaciones cromosómicas en el cáncer humano. PLoS ONE 4 (3): e4805. doi: 10.1371 /journal.pone.0004805
Editor: Michael J. Pazin, Instituto Nacional sobre el Envejecimiento (NIA), Institutos Nacionales de Salud (NIH), Estados Unidos de América
Recibido: 8 octubre de 2008; Aceptado 30 de enero de 2009; Publicado: 12 Marzo 2009
Derechos de Autor © 2009 Ortiz de Mendíbil et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo ha sido financiado con la ayuda del Instituto de Salud Carlos III (FIS PI040037), Ministerio de Educación y Ciencia español (SAF 2.007 a 62.473), el Programa de PIUNA de la Universidad de Navarra y la Fundación Caja Navarra a través del Programa "Usted elige , decide "(Proyecto 10.830). F.J.N es el destinatario de un premio "Jerónimo de Ayanz" del Gobierno de Navarra. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
La mayoría de las células cancerosas presentan algún tipo de reordenamiento cromosómico. Mientras que los tumores sólidos suelen mostrar cariotipos complejos con muchos tipos diferentes de reordenamientos cromosómicos, muchas neoplasias hematológicas y cierta pantalla sarcomas sólo una o unas pocas aberraciones, por lo general translocaciones cromosómicas equilibradas, que en algunos casos se han demostrado para ser el evento inicial en el tumor de desarrollo [ ,,,0],1], [2]. Por esta razón, translocaciones cromosómicas son técnicamente más fácil de caracterizar en cánceres hematológicos. Un análisis exhaustivo de las translocaciones cromosómicas en tumores malignos humanos en las últimas tres décadas ha puesto de manifiesto dos resultados principales mediante los cuales dichos reordenamientos impulsan la progresión del cáncer: i) intercambio de promotor (principalmente en neoplasias linfoides), y ii) la creación de genes quiméricos que se traducen como proteínas de fusión (leucemias mieloides y algunos tumores sólidos) [3]. Asimismo, el consenso derivada de estos estudios sugiere que translocaciones cromosómicas son el resultado de ADN reparadas incorrectamente roturas de la doble hebra (DSB) en células somáticas [4] - [7]. translocaciones cromosómicas que resulta en la transcripción de fusión quiméricas constituyen un grupo importante de translocaciones recíprocas que representa el 20% de la morbilidad por cáncer en los seres humanos [3], y tienen el potencial para iniciar el crecimiento del tumor debido a que sus productos proteicos contienen dominios de ambas parejas de fusión. La presencia de dominios de proteínas heterólogas en los mismos resultados de proteínas quiméricas en las actividades biológicas desregulados que finalmente conducen al desarrollo del cáncer.
Algunas de las translocaciones cromosómicas equilibradas encontradas en los tumores son recurrentes, en el sentido de que están presentes en diferentes los pacientes con el mismo tipo de tumor, o incluso en diferentes tipos de tumores [8]. Además, la caracterización de secuencias de fusión a nivel molecular en diferentes muestras de pacientes ha demostrado que, al menos por un par de genes, los puntos de corte tienden a agruparse en regiones específicas. Como resultado, la distribución de los puntos de interrupción de translocación que se encuentran en muestras de tumor sigue un patrón no aleatorio, con unos pocos sitios en los que los puntos de ruptura son más frecuentes de lo esperado por casualidad. Aunque varios estudios han abordado el papel potencial de los motivos de nucleótidos y la secuencia de características locales como la causa de tales recurrencia [9] - [14], la importancia de los factores funcionales en la delimitación de la posición de la translocación de interrupción no ha sido probado experimentalmente. En este sentido, un análisis global de las transcripciones de fusión quiméricas podría mostrar si recurrencia punto de interrupción podría ser el resultado de la selección celular para las funciones codificadas por dominios específicos que están presentes en las respectivas proteínas de fusión. Por otra parte, la exigencia de mantener un marco de lectura intacto en el producto de fusión también podría contribuir a explicar la distribución no aleatoria de translocación de interrupción a través de esos genes.
Con el fin de probar esta hipótesis, hemos analizado una serie completa de translocaciones cromosómicas que crean proteínas de fusión oncogénico en tumores malignos humanos, en busca de las firmas de selección funcional. Hemos compilado un catálogo de los dominios de las proteínas codificadas por esos proteínas de fusión y los visualiza como una red de nodos que interactúan, la obtención de una visión global de los dominios de la proteína que se juntan a las mismas proteínas de fusión. También se analizó el marco de lectura de las transcripciones de fusión, con el fin de confirmar que los marcos de lectura originales de los genes asociados se mantuvieron en el marco de la transcripción de fusión en una proporción mayor de lo esperado por azar.
Materiales y Métodos
secuencias de fusión se obtuvieron de TICdb versión 2.1 (octubre de 2007). TICdb es una base de datos de libre acceso de los puntos de interrupción de translocación de genes mapeados en el cáncer, que describe la localización genómica de 1.445 puntos de interrupción de translocación, que corresponde a 310 genes diferentes, en hematológicas, tumores malignos mesenquimales y epiteliales. La base de datos se ha creado usando información de la
Mitelman base de datos de aberraciones cromosómicas en el cáncer
(disponibles en el Proyecto del Genoma del Cáncer Anatomía), dos catálogos publicados de genes reorganizados en el cáncer y las nuestras propias búsquedas [15]. secuencias de unión de translocaciones recíprocas fueron asignadas en la secuencia de referencia del genoma humano utilizando BLAST. Todos los puntos de interrupción de translocación se denominan así a las posiciones de nucleótidos exacta o fragmentos de genes (intrones o exones) dentro específica
Ensembl
transcripciones (Ensembl 38.36).
El procedimiento seguido se resume en la figura 1. De TICdb , se obtuvo información sobre 699 diferentes fusiones de genes oncogénicos, con exclusión de un análisis más todos aquellos translocaciones en el que el mecanismo oncogénico se ha demostrado ser gen de-la regulación por cambio de promotor en lugar de la creación de una proteína de fusión. Del mismo modo, 116 fusiones en las que al menos uno de los genes asociados no contribuyeron un dominio de proteína reconocible para la proteína de fusión fueron poco informativa para el análisis de proteínas de dominio co-ocurrencias, y por lo tanto se excluyeron del conjunto de datos, ya que no son elegibles para el estudiar. En total, se analizaron 583 fusiones de genes en los que ambos genes asociadas aportaron un dominio anotada proteína a la proteína de fusión quimérica generado por la translocación. Se informó que dos tercios (66%) de estas fusiones en neoplasias hematológicas, el 26% de los cánceres mesenquimales y el 8% en los tumores epiteliales.
Para cada fusión en TICdb (parte superior del rectángulo muestra parte de la captura de pantalla de una búsqueda de translocaciones que afectan ETV6) fuimos a la página de "vista de proteínas" de las transcripciones respectivas (ENST00000266427 y ENST00000381652 en este ejemplo). El cuadro de abajo a la izquierda muestra la proteína ETV6 con los aminoácidos codificados por cada exón (bloques de color alterna), la posición de los dominios de la proteína anotado en varias bases de datos (SMART, SUPERFAMILIA, PFAM, PROSITE y grabados), la ubicación del punto de interrupción (vertical línea de puntos) y la parte del péptido que se aporta a la proteína de fusión (línea horizontal con doble punta de flecha). Lo mismo se muestra para JAK2 en el cuadro de abajo a la derecha. En ambos casos, el exón que flanquea la fusión se pone de relieve (rectángulo rojo), con su inicial y final de los marcos de lectura que se muestran en una caja ( "información de empalme").
TICdb muestra la posición de cada punto de interrupción asignada a un intrón exón en particular o de una transcripción Ensembl específico. Esto nos permitió utilizar Ensembl "vista de proteínas", que proporciona una representación gráfica de la proteína y de todos los dominios anotados en las bases de datos de SMART, PFAM, PROSITE y grabados, con el fin de extraer, para cada fusión de genes, la PFAM y dominios PROSITE que son aportados a la proteína de fusión por cada uno de los genes asociados. Cuando PFAM dominios y PROSITE solapada y /o tenían el mismo número de acceso InterPro, hemos considerado sólo la entrada PFAM. Se ignoran los dominios únicos PROSITE sin anotaciones Interpro; éstos incluyen regiones de baja complejidad, tales como regiones ricas en serina o ricos en glutamina ricos en prolina. regiones enrollado de la bobina se incluyeron en el análisis, ya que son dominios de oligomerización importantes que se utilizan en muchas proteínas de fusión.
Una consideración importante acerca de los dominios de proteínas en proteínas nativas es que muchos dominios se encuentran generalmente en combinación con otros dominios en el misma proteína. Esto significa que las proteínas de fusión suelen recibir dos o más dominios de cada uno de los socios de translocación. En estos casos, es difícil establecer si sólo uno (y cuáles) de los dominios es responsable de las propiedades oncogénicas de la proteína de fusión, o si es que la combinación particular de dominios que es responsable de la actividad oncogénica. Por esta razón, se agruparon los dominios en las arquitecturas de dominio, es decir, grupos de dominios que se encuentran juntos en las mismas proteínas nativas de acuerdo con Pfam anotaciones. Dos arquitecturas, EAD y la bobina, fueron particularmente difíciles de asignar. La primera incluye el dominio de activación de EWS, que no está anotado como un dominio de proteína en PFAM pero se ha demostrado que es responsable de la potencial de transformación de las proteínas de fusión que contienen esta parte de la proteína EWS. Curiosamente, también se detecta este dominio, por la similitud de secuencia, en el FUS y TAF15 proteínas, que forman las proteínas de fusión con arquitecturas que se encuentran en fusiones EWS. Con respecto a la espiral de la bobina de dominio, está presente en muchas proteínas, pero también carece de una anotación en bases de datos de proteínas de dominio. Aparece en las proteínas de fusión, ya sea solos o en combinación con otros dominios, lo que no siempre está claro si el potencial de transformación de la proteína de fusión es debido a las propiedades de oligomerización de la espiral de la bobina o a la presencia combinada de este dominio con otros dominios de proteínas . Por esta razón, hemos creado una arquitectura (COIL) para esas proteínas de fusión en la que la espiral de la bobina es el único dominio presente, además de varias otras arquitecturas (COIL /otros) para aquellos casos en los que otros dominios se encuentran en combinación con bobinas en espiral. La arquitectura NUP está compuesto por las repeticiones GLFG de la proteína NUP.
A continuación, generamos una lista de arquitecturas de dominio que son traídos juntos a la misma proteína de fusión. Estos pares de arquitecturas de dominio se visualizaron como redes en las que los nodos representan un dominio de la arquitectura, y los bordes enlazan esas arquitecturas que están presentes en la misma proteína de fusión. Las redes se crean utilizando Cytoscape 2,5 (http://cytoscape.org/). El análisis de los parámetros de red se ha realizado mediante el plugin NetworkAnalyzer [16]. Tabla S1 enumera todas las arquitecturas con los dominios que comprenden cada arquitectura.
La "vista de proteínas" Ensembl también muestra el marco de lectura en el que cada codificación se inicia y termina exón (cajas muestran en la Figura 1). Puesto que todas las translocaciones en TICdb se asignan a los intrones o exones específicos, hemos sido capaces de comprobar si los exones que flanquean una translocación de corte tienen marcos de lectura compatibles, es decir, si el último exón del gen pareja 5 'termina en el mismo marco de lectura en que el primer exón del gen de arranques pareja 3 '. Como se muestra en la Figura 1, esto puede ser usado para inferir si el gen de fusión resultante de la translocación sería mantener el marco de lectura de ambos genes asociados, y por lo tanto ser traducido como una proteína de fusión en marco. Dado que la mayoría de las secuencias de fusión analizados se derivan de la transcripción de fusión (empalmados ARNm), estas secuencias ya tener en cuenta el potencial de omisión de exón o eventos de splicing alternativo. En 43 de las 583 fusiones de genes analizados, el marco de lectura de ambos exones parecía incompatible con un producto de fusión en el marco, así que volvimos a la secuencia original para comprobar si otros mecanismos habían restaurado el marco de lectura en el transcrito de fusión.
resultados
marco de lectura conservación
Siguiendo la estrategia explicada en Métodos, analizamos la lectura de la compatibilidad del marco de los exones que flanquean la translocación de interrupción, en 583 fusiones de genes que codifica para una proteína de fusión en la que el potencial con ambos genes asociadas contribuir un dominio de proteína anotada. Curiosamente, el marco de lectura final de la 5 'exón y el marco de lectura a partir de la 3' exón eran compatibles en 540 de las fusiones analizadas, lo que confirma que una proteína de fusión en marco fue generada en 93% de los casos. En algunas translocaciones, el punto de interrupción se redujo en el medio de un exón, pero aun así el marco de lectura se mantuvo a través de la fusión. Esto se ilustra con una serie de fusiones de genes entre los
FIP1L1 gratis (5 'del gen) y
PDGFRA gratis (3' del gen) en el que diferentes exones del
FIP1L1
se fusionan con las versiones truncadas del exón 12 del
PDGFRA gratis (ENST00000381354 Ensembl transcripción). Deleciones en este exón siempre resultan en un marco de lectura compatible con los correspondientes exones de
FIP1L1 gratis (exones 10, 11, 12 y 13 del
FIP1L1 Versión taquigráfica ENST00000358575, los cuales terminan en los marcos de lectura +3 , +1, +2 y +3, respectivamente, en la versión 38.36 de Ensembl), que conduce a la transcripción de fusión en marco de las cuatro configuraciones.
en los 43 restantes fusiones de los marcos de lectura de acompañamiento exones no eran compatibles , por lo que no se espera que para generar una proteína de fusión en marco. En estos casos, volvimos a la secuencia de fusión original y encontró que en 31 de ellos (72%) del marco de lectura había sido restaurada por diversos mecanismos, tales como splicing alternativo, la inserción de regiones intrónicas, inserción de nucleótidos o deleción de no moldeados exonic nucleótidos. Esto fue particularmente común en las proteínas de fusión que implican
EWSR1
,
FUS
y
TAF15
, ya que el 48% de dichas fusiones tenían marcos de lectura incompatibles que fueron corregidos por uno de estos mecanismos (24 de los 50 analizados fusiones de genes para estos genes). Después de una cuidadosa evaluación de los 12 restantes fusiones en las que los marcos de lectura no eran compatibles (2% del total de 583 fusiones), se supone que un producto de proteína funcional no se puede generar en estos casos.
El hallazgo de que el 98% del gen fusiones generan transcripciones que se puede traducir como en marco productos proteicos confirma que la lectura de la conservación marco es de gran importancia funcional de las proteínas de fusión oncogénicos, ya que la frecuencia esperada de los marcos de lectura compatibles entre dos exones aleatorios (suponiendo frecuencias iguales de 1, +2 y +3 marcos de lectura) es un tercio. Esta es una clara firma de la fuerte presión selectiva en las células somáticas que favorece a los productos de fusión capaces de impulsar la transformación oncogénica, y tiene implicaciones importantes en la discusión acerca de la identidad de los factores que gobiernan la posición de los puntos de interrupción de translocación en las células cancerosas (véase más adelante).
arquitecturas de dominio de proteínas presentes en la misma proteína de fusión
Un gráfico de la red de los genes implicados en translocaciones cromosómicas que generan proteínas de fusión (Figura complementario S1) muestra tres principales grupos independientes, además algunos gráficos más pequeños que no están conectados a cualquiera de los componentes principales [15], [17]. Estos fueron analizados como se explica en la sección Métodos, con el fin de crear una red global de arquitecturas de dominio que se juntan a las mismas proteínas de fusión en el cáncer (Figura 2 y texto S1). parámetros topológicos como el espectáculo de distribución de grado que la red de fusiones de genes y la red de arquitecturas de dominio son a la vez compatible con la escala libre o del mundo pequeño, pero no al azar, topologías. El número de nodos (114) en la red de arquitecturas de dominio (Figura 2) es menor que la mitad del número de genes reorganizados en esas translocaciones (235 nodos en la Figura S1), indicando que las mismas arquitecturas se utilizan en diferentes eventos de fusión de genes. Del mismo modo, la red de arquitecturas de dominio tiene un diámetro más pequeño (8 vs. 13) y una longitud de trayectoria característica más pequeño (3,66 vs. 4,83); como resultado, la densidad de la red en la red de arquitecturas de dominio es más que el doble de la densidad de la red de fusiones de genes (0,0019 vs. 0.0008). Estos parámetros reflejan la menor complejidad de la red de arquitecturas de dominio con respecto a la red de fusiones de genes. Una discusión más a fondo de estas redes se puede encontrar en el texto S1, S2 Figura complementario, que complementa la figura S3, S4 y que complementa la figura Figura complementario S5.
Todas las arquitecturas de dominio se fusionaron, dando lugar a un único gran componente más otros 6 gráficos más pequeños. Nueve nodos con más de 5 vecinos (hubs) se muestran en azul. Las tres redes principales de fusión de genes que se muestran en la Figura complementario S1 son claramente visibles en los centros correspondientes a los conocimientos tradicionales, NUP y arquitecturas /HZ bobina. El tamaño de cada nodo es indicativa de su grado (número de vecinos).
Dos características interesantes son evidentes en la red de arquitecturas de dominio. En primer lugar, todas las arquitecturas derivadas de las tres redes principales de fusión gen aparecen como una gran único gráfico, lo que indica que algunas arquitecturas de dominio son comunes a todas las redes de genes. Del mismo modo, algunas de las arquitecturas de los 21 gráficos pequeños fusión de genes también se incluyen en este componente grande, de modo que sólo los 6 componentes pequeños permanecen desconectados de la red principal de arquitecturas de dominio. En segundo lugar, los nodos más conectados (hubs with≥5 vecinos, que se muestra en azul en la Figura 2) identificar las principales clases de proteínas de fusión que se encuentran en el cáncer, es decir, las destinadas a la tirosina quinasa de dominio (TK), el dominio de activación de EWS (EAD ), el dominio Runt, el dominio de unión a ligando del receptor nuclear de hormonas (HRMN), el dominio de unión a ADN AT-gancho (gancho y la bobina /HZ), las repeticiones GLFG (NUP) y enrollado de las bobinas (bobina). Esto sugiere que la red captura los principales temas biológicos que son conocidos actualmente para ser utilizado por las proteínas de fusión en el cáncer
.
El hallazgo de que sólo ciertas combinaciones de dominios de la proteína están presentes en las proteínas de fusión oncogénicos, formando una red de no topología Random, implica que tales combinaciones son el resultado de las limitaciones funcionales distintas. Como se mencionó anteriormente, esta es una firma de las presiones de selección celulares que dictan que translocaciones cromosómicas están presentes en las células de cáncer
.
Con el fin de anticipar cómo esta red se verá afectada por el descubrimiento de nuevas translocaciones, se analizaron cromosómico translocaciones que fueron publicados después del comienzo de este trabajo (octubre de 2007) y por lo tanto aún no se incluyen en TICdb en el momento [18] - [33]. Hemos recogido fusiones 17 genes que generan una proteína de fusión con los dominios de proteínas anotadas, que describe 9 nuevos genes y 7 nuevas arquitecturas de dominio (dos de los nuevos genes contribuyeron una arquitectura ya se ha descrito). También observamos dos nuevas combinaciones de arquitecturas de dominio previamente descritos. Además, en un caso, un 3 'del gen asociado
(TCF3)
, descrito previamente como 5' pareja de fusión, contribuye una arquitectura de dominio distinto en este nuevo caso. El análisis de estas nuevas fusiones sugiere que la red de arquitecturas de dominio, a pesar de que todavía no está completa, contiene la mayoría de las arquitecturas utilizados por las proteínas de fusión oncogénicas, y crece a un ritmo más lento que la red de fusiones de genes.
discusión
Hemos realizado una encuesta imparcial de la literatura y de todos los datos públicos disponibles para nosotros acerca de translocaciones cromosómicas que crean proteínas de fusión en los cánceres humanos. Se excluyeron fusiones que no eran informativos para este análisis, es decir, los que participan en el intercambio de promotor (que no crean proteínas de fusión) y aquellos en los que uno de los genes asociados no contribuyó un dominio reconocible de la proteína de fusión (que no son informativos para el análisis de co-ocurrencia de dominio). Por lo tanto, hay que tener en cuenta que los datos presentados aquí se aplican a translocaciones cromosómicas que generan proteínas de fusión que contienen dominios de proteínas anotadas en Pfam. Nuestro análisis reveló dos firmas de selección funcional: compatibilty marco de lectura y no aleatoria co-ocurrencia de los dominios de proteínas. Ambas características pueden ser determinantes importantes de la posición de los puntos de interrupción de translocación en las células cancerosas. Además, nuestros datos podrían ayudar a predecir nuevas translocaciones y evaluar la relevancia funcional de nuevos genes de fusión descubiertos en tumores hematológicos y sólidos.
El papel de la selección funcional en la posición de translocación de interrupción en las células cancerosas
las dos firmas de selección funcional que hemos analizado en la transcripción de fusión (es decir, la lectura combinaciones de conservación marco y no aleatorias de dominios de la proteína) sugieren que tales fuerzas podrían ser factores importantes en la determinación de la distribución no aleatoria de translocación de interrupción que es visto en los cánceres humanos. En este sentido, la opinión generalizada de que los factores de secuencia locales son responsables de la presencia de los puntos de interrupción de translocación en los sitios genómicos específicos se basa en el supuesto de que los puntos de interrupción de translocación revelan la ubicación de todas las DSBs generados en esas células. Por lo tanto, dado que la translocación de interrupción son distribuidos de forma no aleatoria, la inferencia se hace que las DSB son creados inicialmente no al azar. Sin embargo, la secuencia de elementos responsables de la generación de DSBs (motivos de secuencia corta, los sitios de la topoisomerasa II, repeticiones dispersas, sitios de iniciación de transcripción intrónicas, estructuras cruciformes, etc.) son bastante comunes en todo el genoma, por lo que es razonable suponer que la mayoría de las DSB que se crean a través del genoma durante la vida de una célula somática se han reparado correctamente y que sólo un pequeño subconjunto de las DSB reparadas incorrectamente dará lugar a fusiones oncogénicos y se encontrará finalmente en muestras de tumores. A este respecto, hay que tener en cuenta que el análisis de muestras de tumor representa un caso extremo de sesgo de evaluación: por definición, sólo se detectará translocaciones que han sido importantes para el crecimiento del tumor, mientras que muchas otras translocaciones posibles que no proporcionaron una ventaja proliferativa a la célula no. Algunos translocaciones, por ejemplo, se espera que sean perjudiciales para la célula, ya que dos alelos de genes diferentes (un alelo de cada gen) han sido inactivados por las roturas, de modo que las células que llevan estas translocaciones finalmente desaparecer del tejido. Otros reordenamientos serán funcionalmente neutral y el gen de fusión resultante no tendrá una función biológica ventajosa. Al final, las translocaciones que se encuentran en muestras de tumores son el resultado de la expansión clonal de las células que albergan translocaciones con el potencial de promover el crecimiento del tumor, ya que crean genes de fusión oncogénicos. Los puntos de corte específicos albergadas por estas translocaciones constituyen el subconjunto de puntos de interrupción de translocación no aleatorias que se encuentran en las células cancerosas.
Esto se ilustra en la Figura 3, que muestra dos genes teóricamente capaz de participar en una translocación recíproca con oncogénico propiedades, debido a los dominios que están presentes en sus respectivas proteínas. Incluso si las DSBs iniciales se distribuyeron uniformemente a través de los genes [34], es obvio que no todos los desplazamientos posibles crearán un gen de fusión con potencial oncogénico. En cuanto a la posición de las regiones que codifican para los dominios de la proteína necesarias, y teniendo en cuenta los marcos de lectura de los diversos exones involucrados, se hace evidente que sólo se genera una proteína de fusión oncogénica si los puntos de interrupción se encuentran dentro de ciertos intrones. Otras combinaciones posibles puntos de ruptura daría lugar a la pérdida de un dominio funcional importante en la proteína de fusión, o para un producto fuera de marco, y no serán favorecidos en las muestras tumorales. Una clara implicación de esto es que la percepción de "no aleatoriedad" en la distribución genómica de los puntos de interrupción de translocación no está necesariamente relacionada con la localización inicial de DSBs, pero podría ser el resultado del proceso de selección por el que sólo unos pocos de los DSBs finalmente sobrevivir en las células de un tumor.
tres exones de dos genes hipotéticos se muestran los exones (a, B y C en azul, los exones 1, 2 y 3 en naranja). Se muestra el marco de lectura inicial y final de cada exón (1, 2 o 3). Los exones A y B del código genético superior para un dominio de proteína (barra roja), mientras que el exón 3 del gen codifica inferiores para otro dominio de la proteína (barra verde). Incluso si se crearon doble filamento se rompe (DSBs, símbolos de rayo amarillo) uniformemente a través de la secuencia de ambos genes, sólo las combinaciones de punto de interrupción conduce a proteínas de fusión en marco que codifican para los dos dominios de la proteína mostrará potencial oncogénico. Como resultado, la translocación de interrupción que se encuentran en muestras de tumores se agruparán a las regiones de genes específicos (flechas azules verticales).
Predicción de proteínas de fusión novedosas en tumores sólidos y hematológicos
Si los dos firmas identificadas en este trabajo son determinantes importantes de la localización de punto de interrupción, entonces nuestros resultados deben ser útiles para la predicción de las fusiones de genes que aún no se han encontrado en los tumores. En primer lugar, la información acerca de qué arquitecturas de dominio están presentes en la misma proteína de fusión se puede utilizar para seleccionar todos los genes que codifican un par particular de arquitecturas de dominio. Esto predecir varias fusiones de genes que son potencialmente oncogénico. Información sobre los marcos de lectura de los exones que pertenecen a esos genes debe identificar qué fusiones específico (si los hay) son capaces de generar una proteína de fusión en marco que incluye la combinación requerida de dominios de la proteína. Más importante aún, este análisis también debe determinar, intrones son los más susceptibles de contener los puntos de ruptura, y por lo tanto ayudar en el diseño de estrategias moleculares para la detección de los transcritos de fusión putativo.
Una consecuencia obvia de nuestro trabajo es que muchas fusiones de genes potenciales podrían generar la misma combinación de arquitecturas de dominio, porque cada arquitectura está generalmente codificada por varios genes. Sin embargo, se asume generalmente que la mayoría de translocaciones cromosómicas responsables del desarrollo del cáncer humano ya se han descrito [8], [17]. A pesar de que algunos de los nuevos casos se publican todos los años, la mayoría de ellos reportan nuevos puntos de interrupción en fusiones de genes conocidos con anterioridad, o nuevas fusiones entre los genes que habían sido encontrados previamente fusionado con otros socios. No está claro por qué no se han detectado muchos de los potenciales nuevos fusiones de genes. Una explicación probable es que los genes implicados no cumplen con algunos de los criterios que se requieren para una translocación recíproca a tener lugar, como la proximidad en el espacio nuclear o co-transcripción en las mismas fábricas de transcripción nuclear [35] - [39] . Por otra parte, algunas de estas nuevas fusiones de genes podrían no ser detectados porque nunca se han buscado, ya que la mayoría de los estudios se centran en la detección de translocaciones conocidas. En este sentido, es interesante tener en cuenta los estudios recientes en los que el genoma de diversos tipos de células de cáncer ha sido interrogado en forma imparcial [40] - [43]. En el caso de una muestra diploide de un paciente leucemia, masivamente paralelo secuenciación descubierto mutaciones puntuales novela, pero no hay reordenamientos genómicos [40]. Fin de Secuencia de perfiles de líneas celulares de tumores sólidos reveló muchos reordenamientos genómicos somáticas, pero sólo unos pocos de estos eran fusiones de genes. Por ejemplo, Campbell et al. [41] utilizó la secuenciación de extremo emparejado masivamente paralelo en dos líneas celulares de cáncer de pulmón y encontraron 22 reordenamientos interchromosomal somáticas en la línea celular NCI-H2171, pero ninguno en el NCI-H1770. De ellos, sólo uno fue identificado expresó transcripción de fusión, aunque se prevé que sea fuera del marco. Raphael et al. [42] encontraron una fusión entre el
HYDIN
gen y un gen anónima en MCF7 línea celular de carcinoma de mama metastásico. Otra fusión entre
SCL12A2 Opiniones y una etiqueta de secuencia expresada se encuentra sólo en las células MCF7 alto pasaje. En esta misma línea celular, en el que las aberraciones cromosómicas han sido descritas previamente por Spectral Cariotipo (SKY) y la matriz de hibridación genómica comparada (CGH), Hampton et al. [43] encontraron 10 fusiones de genes utilizando la secuencia terminal del perfiladora de secuenciación masiva en paralelo. De éstos, sólo cuatro fueron declarados a expresar, pero su potencial oncogénico no se ensayó directamente. Teniendo en cuenta que estos estudios se realizaron en líneas celulares, el número de nuevos expresado fusiones de genes es relativamente baja.
Estos últimos datos son también relevantes para el presente debate sobre mutaciones "pasajeros" en los genomas del cáncer "controlador" y. Debido a la inestabilidad inherente de los genomas y la naturaleza clonal del proceso tumorigénico, se espera que muchas aberraciones que se encuentran aberraciones cuando los genomas del cáncer son interrogados en forma imparcial, la mayoría de los cuales serán de pasajeros sin relevancia funcional para el proceso oncogénico . En este contexto, hay una gran necesidad de nuevos enfoques que pueden distinguir los cambios genómicos que conducen a la iniciación del tumor o la progresión de los cambios neutros que han sido adquiridas por el clon, pero no tienen repercusión funcional. Nuestros resultados ponen de relieve dos características que podrían ser útiles a este respecto.