Extracto
Varios estudios han demostrado que los cánceres de regular activamente splicing alternativo. mecanismos de empalme alterados en el cáncer de plomo a las transcripciones específicas de cáncer diferentes a la piscina de las transcripciones que se producen sólo en el tejido sano. Al mismo tiempo, la presentación alterada de clase epítopos HLA I se observa frecuentemente en varios tipos de cáncer. El descenso de regulación de genes relacionados con HLA de clase I del procesamiento de antígenos se ha observado en varios tipos de cáncer, lo que lleva a menos de HLA de clase I antígenos en la superficie celular. Aquí, nosotros usamos un amplio análisis peptidome de formas alternativas de empalme previstos, a partir de una base de datos a disposición del público, para mostrar que los péptidos sobre-representados en las variantes de empalme comprenden un número significativamente menor de cáncer predijo epítopos de HLA de clase I en comparación con péptidos a partir de las transcripciones normales. Péptidos sobre-representados en las transcripciones de cáncer están en el caso de los tres HLA de clase más común que supertipo representantes que se encuentran constantemente para contener un menor número de epítopos predichos en comparación con el tejido normal. Se observó una diferencia significativa en la composición de aminoácidos entre las secuencias de proteínas asociadas con la normal frente a tejido de cáncer, como las transcripciones que se encuentran en el cáncer son enriquecidos con aminoácidos hidrófilos. Esta variación contribuye a la menor probabilidad significativa observada de péptidos específicos de cáncer que se epítopos predichos en comparación con péptidos que se encuentran en el tejido normal
Visto:. Stranzl T, MV Larsen, Lund S, M Nielsen, Brunak S (2012 ) El cáncer Exoma generada por Alternative mRNA de empalme Diluye predicha HLA clase I de epítopos de densidad. PLoS ONE 7 (9): e38670. doi: 10.1371 /journal.pone.0038670
Editor: Kjetil Tasken, Universidad de Oslo, Noruega
Recibido: 28 Diciembre, 2011; Aceptado: 9 Mayo 2012; Publicado: 25 de Septiembre, 2012
Este es un artículo de acceso abierto, libre de todos los derechos de autor, y puede ser reproducido libremente, distribuir, transmitir, modificar, construir, o de otra forma utilizado por cualquier persona para cualquier propósito legal. El trabajo está disponible bajo la advocación de dominio público Creative Commons CC0
Financiación:. Este trabajo fue apoyado por una beca del Consejo Danés de Investigación de Ciencias y Tecnología de Producción (Proyecto "Enfermedad de búsqueda de genes, mutaciones somáticas, y Vacuna contra el Diseño "; receptor Principal financiación, Søren Brunak) y fue apoyada por los Institutos nacionales de la Salud (HHSN26620040006C contrato). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
cáncer específica variantes de empalme son de gran interés, ya que pueden estar implicados en la patogénesis y pueden además potencialmente ser utilizados como biomarcadores y generan nuevas dianas para el cáncer [1], [2]. El sistema inmune humano es capaz de responder a algunos de estos antígenos específicos de cáncer, como se muestra por primera vez por un antígeno específico de melanoma, MAGE-1, capaz de estimular células T humanas [3], [4]. Más en general, los individuos con actividad alta o media citotóxica de los linfocitos de sangre periférica se asocian más con un riesgo significativamente menor de cáncer, lo que sugiere un papel para los mecanismos de defensa del huésped inmunológicas naturales en el cáncer [5].
Splicing alternativo pueden cambiar la estructura del ARNm mediante la inclusión o la omisión de los exones, y esto puede alterar la función, estabilidad o propiedades de unión de proteínas codificadas y de ese modo contribuir a enfermedades humanas tales como cáncer [6]. En un estudio de investigación de eventos de empalme alternativos en los tejidos ovario y de mama afectados por tumores se encontró que alrededor de la mitad de todos los eventos de corte y empalme en estos tejidos son alterados en los tumores, muchos de ellos debido a la omisión de exón [7]. tendencias similares se han observado en otros tipos de cánceres, por ejemplo, en el cáncer de colon y tumor testicular [8], [9], así como en el cáncer gástrico, donde se encontraron genes que muestran expresión diferencial entre las líneas celulares de cáncer y tejidos normales correspondientes [ ,,,0],10]. Además de cáncer que se está implicado en las vías de dysregulating, contribuyendo así a cambios en la expresión de empalme y el gen alternativa controlados por estas proteínas [11], el antígeno leucocitario humano (HLA) de clase I de antígenos componentes de procesamiento y la expresión de HLA también se han demostrado para ser downregulated relación con el cáncer [12], [13]. Un estudio de investigación de alteraciones de la expresión de HLA de clase I en 12 pacientes con cáncer de ovario reportó bajos niveles de antígenos HLA clase I en las células tumorales de todos los pacientes. Una línea celular de tumor derivado del paciente mostró una pérdida haplotipo completo, incluyendo el locus HLA-A2 [14].
Estas observaciones se interpretan como mecanismos adoptados por los tumores para escapar de la vigilancia inmune y para evitar el reconocimiento de células tumorales y la destrucción [15], [16]. Se ha sugerido que la eliminación de tumores de crecimiento por el sistema inmune puede conducir a la selección de variantes tumorales que son eficientes en evitar el reconocimiento del sistema inmunológico [17]. Hay por lo tanto parece ser la evidencia acumulativa para cáncer que está siendo acoplado a corte y empalme alternativo, así como a una eficacia en la evasión del sistema inmune mediante la regulación a la baja y alteración de la expresión de HLA. La mayoría de los estudios relacionados splicing alternativo específico del cáncer a la vigilancia del sistema inmune alterada son, sin embargo, de tamaño limitado y en la mayoría de casos anecdóticos. Aquí, hemos querido investigar, en un estudio a gran escala, si el exoma alternativo contra el cáncer ya en la etapa de mRNA de empalme contiene un sesgo en comparación con las transcripciones normales en el conjunto de posibles epítopos HLA de clase I.
Resultados
Transcripciones sobre-representados en el cáncer contiene un menor número de epítopos predichos restringidos por el HLA de clase I más común de tres supertipos
el objetivo de este estudio fue investigar, utilizando un conjunto de datos a gran escala, si peptidomes específicos para el cáncer en comparación con el tejido normal tienen diferentes propiedades relacionadas con el grado de alteración de la vigilancia del sistema inmune. Para hacer esto, se construyó dos conjuntos de péptidos, uno sobre-representado por el tejido de cáncer y una sobre-representado por el tejido normal. A nivel mundial versiones permutadas de estos conjuntos se produjeron como se describe en Materiales y Métodos. La permutación mundial destruye características estructurales dentro de los 9-meros de unión a HLA-, sólo se mantienen las propiedades de composición global. Para la comparación, se construyó permutado localmente conjuntos normales y de cáncer por permutación de cada péptido por separado, preservando así la composición de aminoácidos local de cada péptido. Para investigar las propiedades relacionadas con la inmunidad, epítopos potenciales que cubren toda la clase 12 HLA supertipos I se prevé utilizar NetMHCpan. Para cada supertipo, se calcularon los porcentajes de epítopos predichos para los conjuntos de datos de seis péptidos: normales, normales a nivel mundial y normal permutado localmente, el cáncer y el cáncer a nivel mundial y el cáncer localmente permutado
Es bien sabido que algunos de HLA de clase. me supertipo representantes son más comunes que otros. Por tanto, se espera que para los alelos HLA menos frecuentes, los resultados son más probable que incluya ruido. La fuente de nuestro conjunto de datos, la base de datos ASTD, es en gran medida procedente de datos de EST sin información específica HLA. EST datos se basa principalmente en los europeos de raza blanca [18]; Por lo tanto, podemos suponer con seguridad que los tipos de HLA más comunes en la población europea también son más comunes en nuestra base de datos. Las frecuencias de los alelos HLA se obtuvieron de la base de datos dbMHC [19]. número aproximado de fenotipo esperado por supertipo en la población europea se dan en la Tabla 1.
Los tres representantes del supertipo más comunes en la población europea son HLA-A * 02:01, HLA-A * 01 :01 y HLA-A * 3:01. Para estos tres representantes del supertipo, las transcripciones asociadas con el tejido normal tienen un porcentaje significativamente mayor de epítopos predichos que las transcripciones sobre-representados en el cáncer. La Figura 1 muestra los números observados, en porcentajes de epítopos predichos por 9-meros, para los diferentes conjuntos de datos para estos tres representantes del supertipo más comunes. Todos observaron diferencias entre los tejidos normales y cancerosas mostrados en la Figura 1 son significativas (p & lt; 0,006, prueba de 2 muestras para la igualdad de proporciones).
Los datos se muestran para los tres alelos más comunes HLA-I en el Europeo población. Cada barra muestra el porcentaje de epítopos predichos por 9-mer en el conjunto respectivo. Cada juego consta de péptidos que están bien representados sobre-en el tejido normal o cáncer. A nivel mundial permutado o permutado localmente versión de los conjuntos de péptidos se construyeron como se describe en Materiales y Métodos. Todas las diferencias observadas entre los tejidos normales y cancerosas son significativas (p & lt; 0,006, prueba de 2 muestras por la igualdad de proporciones).
Para más supertipos HLA de clase I, transcripciones cancerosas contienen un menor número de epítopos predichos
Además, el porcentaje de epítopos predichos para las secuencias permutadas y no permutados-para todos los representantes de 12 supertipo se muestra en la Tabla 2. en este caso, se observó una tendencia similar en comparación con nuestra observación de los tres supertipos más comunes en la población europea . Para secuencias no permutado, siete de los doce representantes supertipo (HLA-A * 1:01, HLA-A * 2:01, HLA-A * 3:01, HLA-A * 24:02, HLA-A * 26:01, HLA-B * 15:01 y 58:01 * HLA-B) tenía una fracción significativa inferior de epítopos predichos en las secuencias asignadas a la patología del cáncer. Una diferencia estadísticamente significativa, en donde los péptidos asociados con el cáncer contenían más epítopos predichos fue, por el contrario, sólo se observó un representante de supertipo, a saber, HLA-B * 27:05.
Al analizar secuencias permutables , se observaron resultados similares. Sólo un representante supertipo (HLA-B * 40:01, permutado localmente) había significativamente más epítopos predicho en las secuencias de cáncer permutables que en las secuencias normales permutables. Por otro lado, permutados, secuencias normales tenían consistentemente tanto para los conjuntos de permutated locales y globales más epítopos predichos por siete representantes supertipo (HLA-A * 01:01, HLA-A * 2:01, HLA-A * 3:01 , HLA-A * 24:02, HLA-A * 26:01, HLA-B * 15:01, 58:01 * HLA-B). Para estos siete representantes supertipo, la diferencia entre los conjuntos de datos normales y cancerosas es significativo en el permutado así los conjuntos de datos no permutables. La observación de que los transcritos de cáncer contienen menos epítopos predichos para la mayoría de HLA de clase I supertipo representantes, es estable, cuando se aplican diferentes umbrales para la predicción de epítopos potenciales (datos no mostrados).
motivo HLA y de aminoácidos de composición sesgos
La diferencia relativa en la densidad del epítopo predicho entre normal y el cáncer es, para nuestros alelos de HLA más común previamente definidos, relativamente estable. Además, la diferencia en la densidad de epítopo es más grande cuando se comparan no permutado a conjuntos de péptidos permutados a nivel mundial. Para HLA-A * 2:01, se observa una disminución notable de los epítopos predichos al comparar péptidos normales y cancerosas no permutado a péptidos normales y cancerosas permutados. Como se ve en la Tabla 2 y la Figura 1, la diferencia en porcentaje de los epítopos es la mayor cuando se comparan las secuencias no permutado a las secuencias permutadas a nivel mundial (normal: 0,83 vs 0,73, el cáncer: 0,77 vs 0,69). Para HLA-A * 01:01, el porcentaje de epítopos en no permutado en comparación con las secuencias de permutated parece ser relativamente estable (normal: 0,82 vs 0,80, el cáncer: 0,77 vs 0,76), mientras que permutado HLA-A * 03:01 secuencias tienen más epítopos que las correspondientes secuencias no permutado predicho (normal: 0,94 vs 1,01, el cáncer: 0,91 frente a 0,96). Para estos tres representantes supertipo, el porcentaje de los epítopos predichos en péptidos permutated localmente siempre cae entre los porcentajes respectivos de las secuencias no permutados y globalmente permutados. péptidos localmente permutated preservar la única composición de aminoácidos local y péptidos permutados a nivel mundial tienen sus propiedades estructurales locales destruidos y conservar únicamente la composición de aminoácidos global. Estas observaciones indican que las propiedades globales y locales de aminoácidos estructurales son factores que definen las diferencias observadas en las densidades de epítopos entre el peptidome normal y cáncer.
Se realizó un análisis de la composición de aminoácidos relativa para todos sobrerrepresentados 9-meros asociados a la normalidad y el cáncer. Encontramos que los residuos hidrófilos son más comunes en polipéptidos a partir de transcripciones de cáncer que de los polipéptidos normales. Las relaciones de proporciones N /C en comparación con la escala de hidrofilia de los aminoácidos por Hopp-Woods, la escala de hidrofobicidad de Wimley-White, así como la clasificación media de aminoácidos de acuerdo con la frecuencia de su aparición durante 38 escalas de hidrofobia publicados se muestran en la Figura 2. en la Figura 2, los residuos son más comunes en cáncer si N /C es menor que 1. Los residuos hidrófilos están marcados negro.
relaciones de N /C en relación con la escala de hidrofilicidad Hopp-Woods (a) , escala de Wimley-White hidrofobicidad (B) y para la clasificación media de aminoácidos basado en 38 escalas de hidrofobicidad (C). relación N /C es la relación de las frecuencias observadas de los respectivos aminoácidos en polipéptidos de más de una representación transcripciones de los tejidos normales y cancerosas. Si el valor de N /C & gt; 1, el aminoácido es más común en el tejido normal; Si el valor de N /C & lt; 1, el aminoácido es más común en el cáncer. Las barras verdes se refieren a los aminoácidos hidrófobos, mientras que las barras negras se refieren a los aminoácidos hidrófilos. Todas las relaciones N /C mayor o menor que 1 son significativos. (P & lt; 0,001, calculado usando la puntuación de Wilson [45] y de Bonferroni corregido) guía empresas
El Hopp-Woods y escalas Wimley-White se correlacionan fuertemente con las relaciones N /C con un coeficiente de correlación de Spearman rango de -0.72 y 0.78, respectivamente. La escala de ácido amino clasificación media se correlaciona con un coeficiente de correlación de -0,65. Los tres coeficientes de correlación son significativos (valor P & lt; 0,003, prueba de permutación exacta). No se encontró correlación otras propiedades de aminoácidos como la masa, superficie o volumen (datos no mostrados).
Es llamativo observar que todos los aminoácidos hidrófilos fuertes (KPRQ, escala de Hopp-Woods) se enriquecen en secuencias asociadas con el cáncer. Una observación similar se hizo para la escala Wimley-White: Se identificaron siete aminoácidos significativamente más comunes en el cáncer (APERKDQ). Seis de ellos (todos excepto A) están dentro de los siete aminoácidos más hidrofílicos basados en la escala Wimley-White. Una tendencia inversa se encuentra por aminoácidos hidrófobos. Los principales aminoácidos importantes clasificadas por tanto Hopp-Woods y Wimley-Scott como hidrófobo (WFICM) son más comunes en las secuencias asociadas con las transcripciones de los tejidos normales.
Sobre la base de estos hallazgos, se podría sugerir una explicación de la diferencia de densidad entre el epítopo peptidome normal y cáncer. Los motivos de unión para los 3 representantes de supertipo más frecuentes se muestran en la Figura 3. De los cuatro aminoácidos más preferidos en las posiciones de HLA-A * 02:01 de anclaje, tres aminoácidos (VMI) se enriquecen en las transcripciones normales, mientras que sólo una (L) es tan común en condiciones normales como en el cáncer. Esto lleva a la conclusión de que al menos parte de las diferencias observadas en el porcentaje de los epítopos predichos en normales frente a las transcripciones de cáncer se deben a la composición de aminoácidos. La misma tendencia se encuentra para HLA-A * 01:01. Los dos aminoácidos más frecuentes en el motivo (YT) también se encuentran más a menudo en el tejido normal, mientras que S es neutral y el siguiente aminoácido común, D, es más común en el cáncer. El aminoácido más frecuente para HLA-A * 03:01 (K) es ligeramente más común en el cáncer, mientras que el segundo-siguiente frecuente (Y) es decir, debido a una mayor preferencia para adaptarse a péptidos de los tejidos normales, cambiando el sesgo hacia los aminoácidos más comunes en empalme variantes asociadas con el tejido normal. Para los tres motivos, se calculó además sesgos promedio ponderado, basado en relaciones N /C y frecuencias de aminoácidos (ver materiales y métodos). Los sesgos tabuladas se calcularon tanto para los respectivos 5 aminoácidos más frecuentes por motivo así como todos los 20 aminoácidos. Para los tres motivos se observó una preferencia general por aminoácidos que se encuentran en nuestro conjunto de tejido normal.
Los tres tipos más comunes de HLA en la población europea. La altura de una columna de cartas es igual al contenido de información en esa posición, mientras que la altura de cada carta dentro de una columna es proporcional a la frecuencia del aminoácido correspondiente en esa posición [44].
Discusión
el empalme alternativo de los transcritos de ARNm es un mecanismo importante para la generación de complejidad genómica y se ha demostrado que difieren entre el cáncer y los correspondientes tejidos normales [1], [8], [9]. Además, los cánceres en algunos casos downregulate componentes de procesamiento de antígeno de clase I HLA y la expresión de HLA de clase I para evitar la detección por el sistema inmune. Estas observaciones nos llevaron a investigar si las transcripciones encontraron en las características de las acciones de tejido de cáncer que reducirían el reconocimiento del sistema inmunológico. Aquí, hemos llevado a cabo un análisis a gran escala con el objetivo de identificar los relacionados con el sistema inmune huellas que pueden diferenciar el cáncer a partir de transcritos normales. Sobre la base de la base de datos de ASTD, una base de datos que proporciona formas de empalme previstos, hemos identificado dos conjuntos de datos de péptidos; uno asociado con transcripciones sobre-representados en el cáncer y uno asociado con transcripciones sobre-representados en el tejido normal. El uso de herramientas de predicción inmunoinformática el estado de la técnica, se analizaron a continuación los dos conjuntos de datos para las diferencias en términos de probabilidad de ser presentado en HLA de clase I moléculas prevalente, y por lo tanto potenciales para la activación del sistema inmunológico.
Hemos encontrado que los péptidos, que debido a corte y empalme alternativo se expresan en tejido de cáncer, contienen menos epítopos predichos restringidas por los tres HLA de clase I más común alelos de péptidos expresados en el tejido normal. El uso de conjuntos de datos permutada a nivel mundial que constantemente, para los alelos HLA de clase tres más común I, encontró que la pérdida observada en la densidad de epítopo en el peptidome cáncer se mantiene también para los conjuntos de datos permutada. Esto indica fuertemente que las diferencias en la composición de aminoácidos entre péptidos de empalmados alternativamente transcripciones normales y cancerosas son la fuerza motriz de la densidad de epítopo reducida predicho.
La razón para el cambio observado en la frecuencia de aminoácidos específicos en las proteínas asociadas con cáncer en comparación con el tejido normal es desconocida, pero el fenómeno previamente se ha observado en estudios con vistas a la identificación de biomarcadores para la detección de etapa temprana del cáncer: en un estudio reciente, se encontró que los niveles de alanina, isoleucina, leucina y valanine que aumentarse en los páncreas de ratas con cáncer de páncreas en comparación con las muestras de ratas con pancreatitis crónica y ratas sanas [20]. En otro estudio, se encontró que los niveles de N-metilalanina y lisina que aumentarse significativamente en el plasma de pacientes con cáncer de páncreas, mientras que se encontró que el nivel de glutamina y fenilalanina ser disminuida [21]. Estos estudios identificaron diferencias en la composición de aminoácidos en un solo tipo de cáncer basado en el plasma sanguíneo y muestras de tejido. Nosotros, por el contrario, analizamos péptidos cancerígenos representados sobre-en general. Como es de esperar, las conclusiones relativas a la concentración de aminoácidos en este estudio no son concurrentes con los de los estudios de cáncer de tipo individuales.
Una posible explicación de por qué se observó un menor número de epítopos predichos en péptidos, que debido a la corte y empalme alternativo se expresan en el cáncer, podría ser que el sistema inmune del huésped limita la exoma cáncer. En ese caso, la presión del sistema inmune desfavorece células cancerosas que presentan nuevos epítopos en la superficie celular. Una explicación alternativa - que no excluye la explicación anterior - toma como punto de partida el cambio observado en la frecuencia de aminoácidos, especialmente el aumento de los aminoácidos en las proteínas hidrofílicas cáncer
Previamente se ha demostrado que las mutaciones sin sentido en. el dominio BRCA de mama de alto riesgo y los pacientes con cáncer de ovario suelen atacar a los aminoácidos fuertemente hidrófobos [22]. Además, se ha sugerido que la estabilización de una estructura de la proteína es en gran parte debido al efecto hidrófobo [23]. De acuerdo con ello, el aumento de aminoácidos hidrófilos tiene un efecto desestabilizador en la estructura de proteínas, lo que está en concordancia con la proteína de la pérdida de la función que se correlaciona con la progresión del cáncer. Ejemplo de ello es un estudio sobre las mutaciones sin sentido heredadas del gen supresor de tumores,
BRCA-1 |, que pueden predisponer a la mama o cáncer de ovario [24]. En este estudio, se encontró que las mutaciones predominantemente objetivo aminoácidos hidrófobos conservados que son responsables para el plegado y la estabilidad. Dado que, en particular, la clase más común de HLA alelo I, A * 2:01, prefiere aminoácidos hidrófobos en las posiciones de anclaje, un aumento en aminoácidos hidrófilos conducirá inevitablemente a un menor número de epítopos predichos. Por consiguiente, la reducción de la densidad epítopo en péptidos asociados con el cáncer podría ser una propiedad intrínseca de las proteínas que se desestabilizaron por una disminución de los aminoácidos hidrófobos, como parte de la progresión a cáncer. Estamos, sin embargo, no tiene conocimiento de los estudios que muestran un aumento general de los aminoácidos hidrofóbicos lo largo de diferentes formas de cáncer.
Un sesgo de un menor número de epítopos potenciales debido al cáncer se demostró anteriormente por Wiedenfeld et al [25]. Los péptidos causadas por mutaciones de sentido erróneo de p53 se muestra para tener un ajuste disminuido a la HLA-A * 2:01 motivo. Todas las variantes previstas de los péptidos eran o bien de pacientes con otros alelos o el alelo se perdió durante la tumorigénesis. El ajuste disminuido con el motivo de HLA es debido a mutaciones en coherencia con nuestro estudio que investiga las diferencias en la densidad del epítopo debido a splicing alternativo. Para nuestro conocimiento, este es el primer estudio que indica que las transcripciones de cáncer empalmados alternativamente tienden a expresar menos epítopos potenciales que empalmados alternativamente transcripciones encuentran en el tejido normal. La diferencia identificada en la composición de aminoácidos hacia aminoácidos hidrófilos en el exoma cáncer alternativa empalmada es una posible explicación para el sesgo en el potencial de HLA de clase I epítopos. La preferencia por aminoácidos hidrófilos en la etapa de corte y empalme alternativo del ARNm puede apoyar el desarrollo de cáncer de modo que cuente con la posibilidad de eludir el sistema inmunitario del huésped. En este caso, al conducir a menos de HLA de clase I potencial epítopos presentado en la superficie celular.
Materiales y Métodos
Extracción de datos de la base de datos ASTD
El splicing alternativo y Transcripción base de datos de la diversidad (ASTD) ofrece acceso a una colección de eventos de empalme alternativo y transcripciones de genes de humano, ratón y la rata [26]. El objetivo de la base de datos es analizar los mecanismos de splicing alternativo en un genoma de gran escala. Integra un cálculo de tuberías para la detección y caracterización de los patrones de empalme isoforma, así como intrones y exones alternativos. La base de datos contiene transcripciones predijo, generada por mapeo de etiquetas de secuencias expresadas (EST) al genoma secuencias. Nuestro estudio se basa en la versión v1.1 build 9 ASTD (accesible en ftp://ftp.ebi.ac.uk/pub/databases/astd/). La base de datos abarca 14.194 genes humanos y enumera 50,581 transcripciones único no cubiertas por los genes Ensembl. Basado en evidencias relacionadas de bibliotecas de ADNc, muchas de estas transcripciones se etiquetan con información patología. La información de la patología se da como ontologías eVOC, que es un vocabulario controlado para unificar los datos de expresión génica [27]. Como alternativa a la base de datos de ASTD, nos hubiera gustado usar datos de la secuencia de ARN, pero no pudimos identificar cualquier base de datos utilizable, que proporciona cobertura en todo el genoma de las transcripciones potenciales, junto con la información patología.
Dos conjuntos de datos eran generada en base a la información anotada patología. Todas las transcripciones etiquetados con la información de ser expresado en el tejido normal fueron asignados al subconjunto N. Este subconjunto consistió en 30,739 transcripciones derivados de 11.980 genes. Un segundo subgrupo, C, con transcripciones relacionadas con el cáncer, consistió en 27,967 transcripciones derivadas de 10.730 genes
El subconjunto del cáncer consiste en todas las transcripciones etiquetadas con términos eVOC relacionados con el cáncer.; que es ser un subgrupo de tumor en la jerarquía de la ontología eVOC (Tabla 3). Varios términos eVOC se pueden asociar a la misma transcripción.
En nuestro análisis, estábamos interesados en las transcripciones asociadas únicamente con el tejido normal oa uno o más de los términos eVOC cáncer. Se crearon dos nuevos subconjuntos que consisten en transcripciones única asociadas a los términos ya sea normales o cancerosas eVOC. Fuera de 30,739 transcripciones asociadas a la normalidad, 16.566 estaban asociados de forma única con el tejido normal, debido a la base de datos de ASTD, y no con el cáncer (conjunto único N). El subconjunto de las transcripciones asociadas con el cáncer de forma única (única conjunto C) se compone de 13.794 transcripciones (ver Tabla 4). Transcripciones cubiertas por cada conjunto de datos son únicos, ya sea para el tejido normal o de cáncer como se define en la base de datos ASTD. La base de datos ASTD no proporciona información de anatomía patológica para todas las transcripciones ni listas de todos los tipos de tejidos o posibles patologías. En consecuencia, nos referimos a nuestros conjuntos de transcripciones asociadas única para el cáncer, ya sea normal o como una representación excesiva en cualquier tejido normal o cáncer.
La traducción a proteínas
Todas las transcripciones asignado a cualquiera patología normal o el cáncer se tradujeron a su respectiva secuencia de la proteína utilizando ribosoma virtual [28]. El ORF más largo entre los tres marcos de lectura fue elegido como la secuencia de proteína traducida. La secuencia de la proteína y la correspondiente transcripción fueron descartados si no se encontró ninguna ORF o si la secuencia de la proteína resultante era más corto que 9 aminoácidos. Se eligió el umbral de 9 aminoácidos que posteriormente aplicamos la predicción epítopo en péptidos 9-Meric, aunque somos conscientes de que las proteínas de este pequeños podrían no ser funcional. La aplicación de este filtro dio lugar a un conjunto normal de 16.490 transcripciones y un conjunto de cáncer de 13.721 transcripciones.
Generación de Unique 9-meros
Todas las proteínas asignados a cualquiera de los estados normales o cancerosas patología se divide en la superposición de secuencias de péptidos 9-Meric. Las secuencias de péptidos que se encontraron en ambos grupos fueron retirados, lo que lleva a la creación de dos grupos de péptidos únicos 9-mer. Hay 1,856,231 únicos 9-meros en el grupo normal (N-peptidome) y 1,684,028 únicos 9-meros en el grupo de cáncer (C-peptidome). Tenga en cuenta que los conjuntos normales y cancerosas no consisten en proteínas completas; que sólo consisten en péptidos únicos 9-meric que no se encuentran en el otro conjunto. Se crearon conjuntos permutated tanto de la N único y conjunto C única. Para cada conjunto, una permutado a nivel local y uno global permutado conjunto de péptidos 9-meric se generó. Los conjuntos permutables locales se construyeron mediante la permutación de cada 9-mer, manteniendo así la composición de aminoácidos dentro de cada 9-mer fijo. Los conjuntos permutables globales se hicieron mediante la construcción de nuevas azar 9-dores de todos los aminoácidos dentro de cada conjunto. Esto preserva la composición de aminoácidos en general dentro de los únicos conjuntos N y C, las propiedades locales de cada 9-mer son, sin embargo, destruidos.
Predicción del potencial de HLA de clase I epítopos
El método de predicción NetMHCpan-2.4 [29], [30] se utilizó para predecir epítopos potenciales para la clase I HLA 12 supertipos [31]. El método NetMHCpan-2.4 fue entrenado en un conjunto de datos validada experimentalmente de más de 100.000 péptido cuantitativa - interacciones HLA de clase I que cubren más de 100 moléculas HLA y ha sido evaluado como el mejor método de bandeja específica para el péptido HLA de unión en un gran estudio de referencia [32]. Un umbral aceptado en general por la unión es una puntuación de rango de 1% [33], [34] (fuerza de unión que cae dentro del 1% en comparación con un gran conjunto de péptidos naturales aleatorios), que es también el umbral, utilizado en todo el estudio .
Los porcentajes de epítopos potenciales por 9-mero de los 6 conjuntos (9-meros normales, normales a nivel mundial permutado 9-meros, lo normal permutado localmente 9-meros, 9-meros de cáncer, el cáncer a nivel mundial permutado 9- se calcularon los meros y el cáncer localmente permutado 9-meros). P-valores para la diferencia en el porcentaje de epítopos predichos entre normal y el cáncer 9-dores para no permutado y subconjuntos permutados se calcularon mediante una prueba de 2 muestras por la igualdad de proporciones y ajustados para múltiples pruebas (corrección de Bonferroni).
amino ácido escalas
se determinó la abundancia de aminoácidos para el tejido normal en comparación con el tejido de cáncer basado en todos los únicos 9-meros en los dos conjuntos de datos. Se calcularon las frecuencias relativas para todos los aminoácidos, tanto en los conjuntos normales y de cáncer. proporción observada de frecuencias (N /C) de los aminoácidos entre los tejidos normales y cancerosas se correlacionó con Hopp-Woods, hidrofilicidad [35] y la escala de hidrofobicidad Wimley-White [36] valores. La relación se correlacionó más con una escala media de la clasificación por aminoácidos como la publicada por Simpso]. Según Simpson [37], la escala se basa en la clasificación media de aminoácidos de acuerdo con la frecuencia de su aparición en cada rango de secuencia para 38 escalas de hidrofobia publicados [38]. Otras escalas son investigados volumen promedio de residuos enterrados [39], [40], van der Waals volumen [41] y el área total de superficie accesible [42].
Bootstrapping se aplicó para probar si una escala propiedades del aminoácido se correlaciona con la expresión enriquecida de residuos en cualquiera únicos 9-meros normales o cancerosas. Para cada escala, el coeficiente de correlación de Spearman se calculó y la significación de la correlación se calculó mediante la prueba exacta de permutación.
sesgo HLA motivo
motivos de unión HLA fueron generados a partir de datos NetMHCpan-2.4 entrenamiento . De posición de peso matrices específicas se calcularon utilizando secuencia de ponderación y la corrección en recuentos bajos [43]. Secuencia de logotipos se visualizaron como se ha descrito por Schneider y Stephens [44], en donde cada letra representa su frecuencia proporcional del aminoácido correspondiente en esa posición. Sobre la base de las frecuencias de aminoácidos y proporción observada de frecuencias (N /C) de los aminoácidos entre los tejidos normales y cancerosas, se calculó para el HLA-A * A02:01, HLA-A * A01:01 y HLA-A * A03: 01 motivos de su respectiva sesgo general hacia uno u otro conjunto nuestra peptídico normal o cáncer definido. Esto se hizo para los 20 aminoácidos y para los 5 sucesos de aminoácidos más frecuentes por motivo. Por posición, la tendencia a encajar preferiblemente ya sea a la normal o la peptidome cáncer se calculó mediante la suma de las respectivas frecuencias de aminoácidos multiplica con los valores relacionados N /C para todos los 20 aminoácidos.