Extracto
ideó un nuevo procedimiento para identificar los genes de cáncer humano que actúan de forma recesiva. Nuestra estrategia fue combinar las aportaciones de los diferentes tipos de alteraciones genéticas a la pérdida de la función: sustituciones de amino-ácidos, marco de los cambios, supresiones de genes. Se estudiaron más de 20.000 genes en 3 gigabases de secuencias de codificación y 700 de matriz hibridaciones genómicas comparativas. Los genes recesivos fue evaluado de acuerdo a los desajustes de nucleótidos bajo presión selectiva positiva, marco de los cambios y eliminaciones genómicas en el cáncer. Cuatro pruebas diferentes se combinaron entre sí produciendo un recesiva p-valor del cáncer para cada gen estudiado. Se identificaron; Ciento cincuenta y cuatro candidatos genes del cáncer recesivos (1,5 × 10
-7, FDR = 0,39 p-value & lt). Sorprendentemente, los genes recesivos de cáncer prototípico
TP53
,
PTEN
y
in todos los CDKN2A clasificado en el top 0,5% de genes. Las funciones afectadas significativamente por mutaciones del cáncer se superponen exactamente con los de los genes del cáncer conocidos, con la excepción fundamental de la ausencia de tirosina quinasas, como se esperaba para un gen recesivo-set
Visto:. Volinia S, Mascellani N, Marchesini J, Veronese A, Ormondroyd E, Alder H, et al. (2008) a escala del genoma de identificación de genes cancerígenos recesiva por combinatoria análisis de la mutación. PLoS ONE 3 (10): e3380. doi: 10.1371 /journal.pone.0003380
Editor: Mikhail V. Blagosklonny, Instituto de Investigaciones Ordway, Estados Unidos de América
Recibido: 3 Julio, 2008; Aceptado: September 17, 2008; Publicado: 10 Octubre 2008
Derechos de Autor © 2008 Volinia y col. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo fue apoyado por el Programa de subvención Nº Proyecto P01CA76259 del Instituto Nacional del cáncer (CMC) y por subvenciones de AIRC, PRRIITT Regione Emilia Romagna y MIUR (SV)
Conflicto de intereses:. los autores han declarado que no hay intereses en competencia existir.
Introducción
Una variedad de enfoques se han aplicado a la identificación de los genes del cáncer [1]. Se han desarrollado procedimientos que permitió la identificación de los genes causantes de la transformación celular [2], [3], y de procesos complejos, tales como capacidad de invasión y metástasis [4]. In vitro y en los métodos in vivo, utilizando modelos celulares o animales, dirigido en general al descubrimiento de los genes del cáncer dominantes, o oncogenes. Por otro lado, los supresores de tumores se han descubierto principalmente por enfoques de genética molecular. Tal es la necesidad de identificar los supresores de tumores adicionales, o genes recesivos de cáncer, que las nuevas pruebas para la pérdida de la función continúa con la evolución [5].
Muchos genes del cáncer bien caracterizados albergan sustituciones de bases somáticas o pequeña inserción /supresiones. Por ejemplo, la región codificante marco de los cambios y mutaciones puntuales representan el 75% de las mutaciones somáticas en
CDKN2A
y
TP53
, dos importantes genes supresores de tumores [6], [7], [ ,,,0],8]. El oncogén
B-raf
, descrito por primera vez hace más de 20 años, también ha demostrado ser mutado en algunos cánceres humanos [9], junto con
PI3K
y algunos tirosina fosfatasas [10]. Mientras tanto, otros genes del cáncer se han descubierto a través del fenómeno de la predisposición hereditaria. cáncer familiar es poco frecuente en comparación con el cáncer no hereditaria, pero un número de genes recesivos se han identificado mediante análisis de ligamiento [11], [12]. proyectos de secuenciación super-familia a gran escala, es decir, los proyectos kinome y phosphatome, seguidos y demostraron que, a pesar de las mutaciones sin sentido se encuentran en algunos miembros de estas dos superfamilias, que no son un terreno común para las mutaciones somáticas cáncer. Greenman y compañeros de trabajo [13] llevaron a cabo la secuenciación completa de los genes de proteína 518-quinasa codifica en 210 tipos de cáncer. Las quinasas se han implicado en muchos aspectos de la tumorigénesis y varios ahora se han validado como objetivos para la terapia de drogas [14]. En su análisis de la colección de quinasas celulares, la kinome, Greenman et al. [13] identificaron 1.000 mutaciones. Las mutaciones eran relativamente comunes en los cánceres de pulmón, estómago, ovario, colon y riñón, y poco frecuente en el cáncer de testículos y de mama, y en tumores carcinoides, que se encuentran normalmente en el tracto gastrointestinal. Los tumores con defectos en la reparación del ADN-desajuste albergaban un gran número de mutaciones, mientras que otros tipos de tumor no revelaron mutaciones detectables. Para distinguir controlador de mutaciones de pasajeros, Greenman et al. utilizado un modelo estadístico comparando la relación observada-a-esperado de (sin cambio de aminoácidos) sinónimo mutaciones con la de las mutaciones no sinónimas (alterado amino ácidos). Un aumento de la proporción de mutaciones no sinónimas implica presión de selección durante la tumorigénesis. En general, se identificaron 158 predijo mutaciones del conductor en 120 genes quinasa. En contraste con las mutaciones recurrentes en
BRAF
en los melanomas malignos [15] mutaciones más quinasa identificadas a través de diferentes tipos de tumores fueron éxitos, por lo tanto individuales. Más recientemente, Madera y compañeros de trabajo [16] utilizaron una estrategia diferente, pero llegaron a conclusiones similares, con la secuenciación completa de 20.857 transcripciones de 18,191 genes en un número limitado de tumores (11 de mama y de colon 11). El elevado número de mutaciones en el ADN detectado automáticamente proporcionada inmediatamente a la siguiente pregunta: ¿cómo identificar a partir de un número potencialmente alto de la secuencia no coincide con aquellos que son causal de la patogénesis del cáncer. Una serie de filtros posteriores revelaron que la mayoría de ellos se quedaron en silencio (no dio lugar a cambio de aminoácido) y una cantidad similar eran polimorfismos de nucleótido único (SNP). El número final de las mutaciones que se define como verdaderamente somática afectó a más de 1000 genes. Curiosamente, se identificaron pocas mutaciones del conductor común entre los genes de quinasa en estos estudios. Esto es consistente, por ejemplo, con el hallazgo de que sólo 1 de cada 18 miembros de la
PI3K
familia había.
observaciones interesantes se pueden hacer mutaciones somáticas en el cáncer [17] a partir de una precisa estudio global de las mutaciones descritas en el cáncer. Futreal et al. [18] llevó a cabo un censo tan extenso de bibliografía que indica que por lo menos 299 genes contribuyen al cáncer humano. Sin embargo el 70% de estos genes están asociados con leucemias, linfomas y tumores mesenquimales, que representan sólo el 10% de la incidencia de cáncer. Además aproximadamente el 75% de estos genes están asociados con las translocaciones, y al menos 90% de los genes del cáncer enumeradas son dominantes en el nivel celular (es decir, oncogenes activados, oncoproteínas de fusión). Sin embargo, en general se reconoce que la gran mayoría de las mutaciones de la línea germinal resulta en la predisposición al cáncer son recesivos [18]. Por lo tanto, parece probable que la mayor parte de los genes del cáncer son recesivas y permanecen aún por descubrir.
Por estas razones hemos ideado un nuevo método para la identificación de genes candidatos cáncer recesivos de conjuntos de datos a escala del genoma. Hemos aplicado nuestro procedimiento novedoso para extraer datos de secuencias genómicas e hibridaciones comparativas. Nuestro método tiene en cuenta los diferentes modos de inactivación de genes, que van desde las mutaciones puntuales a deleciones de genes enteros. El supuesto que subyace a nuestra investigación fue que, mediante el estudio de los genes del cáncer de diferentes perspectivas de mutación y la combinación de las probabilidades respectivas, el ruido y la secuenciación de los polimorfismos podrían ser filtrados y bona fide genes del cáncer recesivos serían identificados.
Resultados
la cosecha de mutaciones candidatos de EST
en el presente trabajo, se aplicó un nuevo método para la identificación de genes mutados en cánceres humanos no hereditarios (Figura 1). La información de la secuencia procedimiento obtenida de la base de datos de etiquetas de secuencias de expresión (EST) y un algoritmo apropiado se adaptó para extraer información de "baja calidad" datos de la secuencia. El procedimiento analizó más de 3 × 10
9 nucleótidos de la secuencia codificante humana en más de 5.600.000 EST derivadas de ambos tejidos sanos y cancerosos y líneas celulares. EST son potencialmente muy valiosa para los estudios de mutación, ya que representan alelos clonados individuales, pero también son secuencias no verificados, con una alta tasa de errores de secuenciación [19], [20]. Por lo tanto, con el fin de explotar todo el potencial de las tecnologías ecológicamente racionales hemos tenido que desarrollar un método para la detección de mutaciones de buena fe "cáncer" en un contexto de secuencia de errores frecuentes o, en el mejor de los polimorfismos. Aunque el trabajo previo [19] intentó evaluar la tasa de errores de secuenciación de EST, hemos seguido una ruta alternativa. Nuestro procedimiento se basa en la suposición de que la tasa de errores de secuenciación fue constante para cada gen humano, en cada posición de nucleótidos. Como corolario, se asumió que el "/secuenciación tasa de error de la posición específica de gen" fue constante a través de las bibliotecas EST normales y cancerosas. Dado que la composición de bases, el contexto y la secuencia son en constante dentro de cada gen humano diferente definición, creímos estas suposiciones eran seguros. Sólo excepciones serían debido a los tumores que albergan defectos de reparación del ADN.
El diagrama muestra los pasos del procedimiento para la evaluación de las probabilidades de mutación y el flujo de los datos hacia la identificación de genes candidatos cáncer recesivos. Los datos moleculares fueron extraídos de las bases de datos públicas (dbEST y GEO en NCBI, y base de datos de microarrays de Stanford). Se obtuvo un número muy grande de alineaciones (más de 4,5 millones de dólares) de más de 24.000 genes humanos de análisis BLAST de 3 Gbases de secuencias EST. Las alineaciones fueron analizadas para extraer los desajustes que se depositaron en la base de datos SQL cáncer Mutome local. Los desajustes se evaluaron a continuación por procedimientos específicos para asociar los valores de p mutacionales a cada gen humano. En paralelo, casi 20.000 genes humanos se ensayaron de 744 CGH array para definir su propensión a la eliminación en el cáncer. Los valores de p de mutaciones específicas se combinaron para producir un cáncer de p-valor recesiva. Un subconjunto del genoma de 154 genes, entre los que
TP53
,
PTEN
,
CDKN2A
y
CDKN2B
estaban presentes, fue seleccionado (cáncer valor p & lt ;. 1,5 × 10
-7) guía empresas
se esperaba que el ruido de alta secuenciación de estar presente en la base de datos EST heterogéneo y el cáncer es una enfermedad genética compleja de múltiples facetas, por lo tanto, una sola prueba estadística haría no dar lugar a una selección fiable de los genes del cáncer. Por otra parte, hemos querido centrarse en los genes recesivos, inactivados por los acontecimientos que ocurren. Por lo tanto, para someter a ensayo los diferentes modos de mutación de genes de cáncer recesiva, que en consecuencia ideó una serie de pruebas de mutación. Las pruebas estadísticas se combinan con el tiempo para identificar los genes que a menudo son inactivados en el cáncer.
A partir del repositorio de ARNm humanos RefSeq, 27,184 secuencias (consultas definidas) se suman a más de 5,6 millones de secuencias EST humanos, a partir de 7574 diferentes bibliotecas EST, para un total de casi 3,0 Gbases de la secuencia de codificación. Blastos [21] se realizaron para cada consulta en comparación con las tecnologías ecológicamente racionales y 3,839,543 alineaciones exitosos fueron producidos (almacenado en la tabla de SQL alineaciones de la base de datos de cáncer Mutome) de 24.932 consultas humanos (tabla de la base de las estadísticas). Un promedio de 150 golpes (pares de alta puntuación, HSP. O secuencias) fue producido para cada consulta (gen humano o variante de empalme). El control de calidad de las alineaciones explosión fue de la máxima importancia para nuestra estrategia. Con el fin de minimizar la extracción de errores técnicos definimos un umbral estricto para la calidad de alineación (expect≤1E-21) y se descartaron los extremos de baja calidad de alineaciones. Todos (43,965,904) de nucleótidos desajustes y lagunas /inserciones, se registraron en la tabla de base de datos mutaciones. sustituciones de aminoácidos (AA) y paradas prematuras (33,614,754) desajustes a continuación fueron seleccionados de las alineaciones (tabla AA_Mutation). Para reducir la complejidad, y el número esperado de falsos positivos, decidimos evaluar sólo aquellos genes con un alto número de desajustes (independientemente de la situación del cáncer de muestras). Por tanto, un pre-procesamiento en función del rango intercuartil (IQR) se aplicó y 8.972 genes (IQR superior a 0,5) fueron retenidas para más ensayos de mutación del cáncer. Estos genes fueron lo suficientemente rica en mutaciones putativo (desajustes) para cumplir con el papel de posibles genes candidatos cáncer.
El primer componente de nuestra estrategia fue la identificación de los genes que albergan mutaciones puntuales inactivadoras. Se evaluaron las mutaciones de punto según la frecuencia, la ubicación, la capacidad de alterar la secuencia de aminoácidos, y las consecuencias en el marco de lectura. Nuestro procedimiento se adapta tanto a considerar estadísticamente todas las características anteriores de una mutación puntual.
La minería de datos para las sustituciones de aminoácidos y el cese anticipado
Hemos definido paa que la probabilidad de que un gen muestra una exceso de aminoácidos sustituciones en el cáncer en comparación con muestras no cancerosas. PNSSR, en cambio, indica la probabilidad de que los ácidos significativas sustituciones amino en las muestras de cáncer están bajo presión de selección positiva. Para detectar la agrupación de corto alcance de las mutaciones cancerosas, que son comunes en los genes recesivos de cáncer, y para equilibrar el ruido, es decir, la secuencia de errores, se optó por una prueba t pareada acoplado a una ventana deslizante. Hemos normalizado los cargos de los desajustes en las dos clases, y control del cáncer, mediante el uso de un factor específico específica y la posición de genes. conteos desajuste nulos se ajustaron a la unidad, antes de la normalización. Se obtuvieron los valores de normalización, para cada gen y en cada posición de nucleótidos, como las relaciones locales de los nucleótidos secuenciados en las muestras de cáncer y de control. La prueba t pareada (cáncer vs. control, emparejado por codones) se aplicó a una ventana deslizante con una longitud de 25 codones. Para llevar a cabo un ensayo robusto un codón se evalúa sólo cuando se alinean al menos 10 veces en cada clase (cáncer y control). los límites de confianza de genes específicos para las puntuaciones T, donde generan por análisis de arranque y un umbral de valor de p de 0,05 fue utilizado para seleccionar las posiciones de los aminoácidos importantes. Para cada gen humano, un valor de p (PAA) fue finalmente asociada a la suma de los picos correspondientes a las puntuaciones T significativos. Una falta de coincidencia de secuencia se registró sólo una vez para cada biblioteca EST.
Una sobreestimación de pAA podría deberse a mutaciones de pasajeros, tales como los producidos por los sistemas de reparación del ADN alterados, frecuente en algunos tipos de cáncer. Dado que las mutaciones de pasajeros deben ser distribuidos al azar en el genoma, por lo tanto, se implementó una prueba adicional para refinar los Paa. La relación de no sinónimos (NS) para mutaciones de ADN sinónimos (S) es una medida de la presión selectiva durante la progresión tumoral, ya que es poco probable que ejerza una ventaja de crecimiento alteraciones sinónimos y se perderán selectiva [17]. Por otra parte, los desajustes debidos a errores de secuenciación, así como la representación diferencial (cáncer a la expresión diferencial de lo normal), se espera que todos ser neutral con respecto a la SN a la relación S. Los codones significativos para las sustituciones de aminoácidos (p & lt; 0,05), por tanto, se analizaron para presión positiva. Como prueba de concepto-, las relaciones NS /S en la región
TP53 mutado
se analizaron mediante la prueba de t pareada (p & lt; 0,033, FDR = 0,092) y reveló valores más altos en cáncer que en el control. De este modo, se aplicaron los NS a S prueba de razón a cada gen, en cascada, después de que la frecuencia de mutación local (PAA) ha descrito anteriormente. Bootstrap se utilizó de nuevo para definir los valores de p. La probabilidad de una proteína de cáncer que tienen frecuentes cambios de aminoácidos (PAA) acoplados a presión positiva selectiva en el cáncer (PNSSR), dos eventos que no son independientes, se definió como el promedio de los dos valores p respectivos (PAA-NSSR).
la minería de datos para el marco de los cambios en las tecnologías ecológicamente racionales de cáncer
una vez definido para cada gen humano un valor de p para las sustituciones de aminoácidos causales en cánceres esporádicos, que necesitaba un índice correspondiente para la inactivación de genes debido a marco de lectura abierto se desplaza en los exones. los genes del cáncer pueden romperse mediante micro-inserciones o -deletions en su secuencia de codificación, lo que resulta en una estructura primaria alterada. Una amplia encuesta genoma de nuestra base de datos desajuste indica que las alteraciones de un solo nucleótido eran con mucho los inserciones /deleciones más comunes en las tecnologías ecológicamente racionales. Indicamos con pFrameshift la probabilidad de que un gen tenía un exceso de marco de los cambios, debido a deleciones de nucleótidos individuales /inserciones en el cáncer, en comparación con el control de los tejidos. Pusimos a prueba la hipótesis de que estas mutaciones eran frecuentes en los genes del cáncer, mediante el estudio de nuevo
TP53
. Nuestro ensayo demostró que un solo nucleótido marco de los cambios asociados con el cáncer se enriquecieron de forma no aleatoria en
TP53
. Al buscar marco de los cambios inducidos por 1 inserciones de nucleótidos /deleciones, una prueba análoga a la de pAA fue diseñado, tal como se detalla en los procedimientos experimentales, para generar pFrameshift.
Identificación de genes eliminados en el cáncer de alta resolución array la hibridación genómica comparativa
genes del cáncer pueden ser afectados en su estructura genómica de grandes amplificaciones y deleciones. Se espera que los genes del cáncer recesivos que desea borrar o no inactivado y este componente deben ser incluidos en nuestro modelo mutacional. Por lo tanto, asigna a cada p-valores de genes humanos para su eliminación en el cáncer. Para obtener tales valores de p, hemos recopilado los datos de alta resolución hibridaciones genómicas comparativas de 744 tumores en la base de datos GEOSOFT. Utilizamos matriz CGH (aCGH), obtenido de GEO (NCBI) y SMD (Stanford Microarray base de datos), con una resolución suficientemente alta para distinguir los genes humanos (información para muestras y conjuntos de datos en la Tabla suplementaria S1). Cada muestra de tumor se comparó con una muestra de control sana en una plataforma basada en oligonucleótido dos canales. Los genes humanos se evaluaron en cada muestra mediante el uso de la relación normalizada log2 (tumor por el control). Se promediaron diferentes sondas relacionadas con el mismo gen. Gene símbolos fueron utilizados como claves para identificar inequívocamente un gen dentro ya través de las plataformas. Los datos se normalizaron de acuerdo con los proveedores. Como tratamiento previo paso hemos reducido la complejidad de ensayo reteniendo sólo los genes con alta variabilidad (desviación estándar del logaritmo de la razón
2 & gt; 0,2). Luego, para cada gen que computa los percentiles del registro
2 proporciones (sólo para los genes medidos en al menos 300 muestras). Un gen afectado por deleciones en tumores poseería un registro bajo (negativo)
2 ratio de 5
thpercentile, mientras que uno con amplificaciones mostraría un alto (positivo) 95
percentil.
bootstrap análisis (de intercambio aleatorio entre los canales de tumores y de control) se utilizó para simular gen específico 5
º y 95
º percentiles. Entonces, los valores de p de genes específicos para las deleciones (pDeletion) fueron finalmente calcula como el porcentaje de simulada 5
º percentiles superior a la real del 5
º percentiles. En esta etapa, hemos tenido que tomar en cuenta dos fenómenos asociados a aCGH, pero no relacionados con el cáncer: los cromosomas sexuales y las variaciones del número de copias (CNV estructurales polimórficas). La muestra de control en aCGHs era frecuentemente de macho (más de 50% de aCGHs), mientras que aproximadamente la mitad de los tumores fueron de origen hembra y por lo tanto carece de la Y-cromosoma. Por lo tanto, se esperaba que los genes del cromosoma Y para aparecer como eliminado, o mejor "pseudo-borrado". Por el contrario, esperábamos los genes del cromosoma X, con excepción de los que pertenecen a la región de pseudo-autosómica, que aparecen como "pseudo-amplificado". Los genes localizados en los cromosomas sexuales de hecho se comportaron correctamente, como se muestra en detalle en la región de pseudo-autosómica 1 (PAR1) en Xp22 (complementario Figura S1). Polimórfica CNV, de variabilidad de la población normal y no relacionado con el cáncer, también debería conducir a grandes factores de cambio, resultando en una alta 95
ª o baja 5
º percentiles. Sin embargo, esperábamos que polimórfica CNV, no asociado al cáncer, no podría mostrar valores significativos pDeletion. De hecho sus 5
º percentiles no calificarían como significativa después de la simulación de intercambio al azar.
CDKN2A
y
CDKN2B
fueron identificados como los más genes eliminados en los cánceres humanos;
PTEN
,
ATM
, y
TP53
también fueron identificados como (valores de p & lt; 0,001) borrados. Tres mil trescientos setenta y cuatro genes fueron borrados de forma significativa (p & lt; 0,001)
Combinación de mutación análisis:. Los genes del cáncer recesiva candidato
genes del cáncer son afectados por diferentes tipos de mutaciones puntuales y de alteraciones cromosómicas. Hemos definido un gen del cáncer como candidato recesiva cuando se ven afectados por mutaciones potencialmente conducen a la pérdida de la función; es decir, cuando se mutó con frecuencia en su región de codificación y alterado con frecuencia en su estructura genómica, en particular eliminado. La combinación de las pruebas de ancho diferente del genoma produjo un valor de p para los genes del cáncer recesivos. El valor de p gen del cáncer recesivo (pRecessiveCancer) se define como el producto de los tres valores de p (PAA-NSSR, pFrameshift, pDeletion). Ciento cincuenta y cuatro genes humanos fueron incluidos en la lista de genes candidatos final después se realizó el análisis de mutación combinatoria (pRecessiveCancer & lt; 1,5 × 10
-7). El número de genes recesivos de cáncer en una simulación por asociación aleatoria de los cuatro ensayos de mutación era de 60,5 (tasa de detección falsa de 0,39). La selección por el enfoque combinatorio parece ser específica, ya que tres genes del cáncer recesivos clásicos,
TP53 gratis (16
ª posición),
PTEN gratis (92
nd) y
se detectaron CDKN2A gratis (135
º). Cuando se comparó el gen-set candidato a todo el genoma, sin sesgo importante hacia surgió tamaño de genes y polimorfismos estructurales, como se espera de un procedimiento estadístico de buen comportamiento. Los tamaños de genes recesivos cáncer no difirió significativamente de la de todo el genoma humano (Figura suplementaria S2). Cuando consideramos las variaciones del número de copias, el gen-set del cáncer contenía 15 VNC polimórfica (15/154 ó 10%), mientras que el 13,6% de todos los genes anotados para pDeletion contenía al menos un CNV. Esta diferencia en la proporción no fue significativa (p & gt; & gt; 0,05), lo que sugiere que no hubo enriquecimiento falsa para CNVs por nuestro método, como se esperaba por el diseño del algoritmo
ontología de genes y el análisis funcional
los mecanismos y vías funcionales asociados con el cáncer de genes recesivos fueron evaluados estadísticamente. El enriquecimiento en términos de ontología de genes (GO) se evaluó mediante el uso de EASE, en http://david.abcc.ncifcrf.gov. Los procesos biológicos afectados de manera significativa en el conjunto de genes del cáncer se enumeran en la Tabla S2 suplementaria. El GO términos significativas agrupadas por agrupación funcional EASE fueron: ATP /unión de nucleótidos, la muerte celular /apoptosis, ciclo celular, la mitocondria, el ARN de unión, metilación, supresor de tumores, el metabolismo del ADN y la reparación del ADN (EASE puntuación enriquecimiento & gt; 2, la facilidad P- valor & lt; 1 × 10
-4, Benjamini valor de p & lt; 0,01). Se obtuvo un espectro funcional altamente superposición de los genes del censo del cáncer [18]. Los más notables excepciones a las ontologías se superponen en los dos conjuntos de genes de cáncer estaban relacionados con "proteína tirosina quinasas", ausentes de la lista recesiva candidato. Estas proteínas son una de las clases más representados de oncogenes, o los genes del cáncer dominantes. Se obtuvo una clasificación funcional similar a la de la facilidad con bingo y Cytoscape (datos no mostrados), donde algunos de los procesos celulares más importantes identificados estaban involucrados en la patogénesis del cáncer, tales como ciclo celular, la muerte celular /apoptosis (corregida p-valor & lt; 1 × 10
-3). Por último, hemos generado un control conjunto de genes humanos mediante la asociación aleatoria de los valores de p de las cuatro pruebas de mutación. Cuando EASE y Bingo se aplicaron a este control ajustado no se identificaron GO términos significativos.
Discusión
Hemos elaborado y aplicado un ensayo de minería de datos de todo el genoma de varias filas hacia la identificación de los genes propensos a mutaciones de "tipo recesivo" en el cáncer. Los valores de p resultantes de cada nivel se combinaron para producir un "gen recesivo cáncer" p-valor (Tabla 1 y 2). Tres de los genes recesivos de cáncer más notables, es decir,
TP53
,
PTEN
y
CDKN2A
clasificados 16
ª, 92
ª y 135
TH, respectivamente, entre todos los genes humanos probados. El diagrama de bloques de nuestra lógica y el flujo de datos se muestran en la figura 1. Las pruebas se pueden subdividir en dos grupos: uno para la detección de mutaciones puntuales (sustituciones de aminoácidos y marco de los cambios) y uno para alteraciones estructurales (grandes deleciones). En principio podríamos también hemos utilizado una prueba para deleciones parciales de genes, pero en EST reordenamientos intra-gen puede ser confundido con el exón empalme alternativo.
La probabilidad de una proteína que tiene mutaciones de aminoácidos y marco de los cambios en el cáncer, eventos que son independientes, se definió como el producto de los valores de p respectivos. Sólo el uso de estas dos pruebas, el prototipo de
TP53
y
PTEN
genes del cáncer n.º 205
º y 233
er de 27,184 transcripciones humanos evaluados (p-valor & lt; 1 × 10
-4). Además, otros dos genes del cáncer recesiva conocidos,
CDKN2A
y
CDKN2B
, también tenían valores de p significativo, aunque las clasificaciones más bajas (P & lt; 0,0025 y FDR = 0,019, respectivamente). Se espera que este comportamiento de los genes con pequeñas regiones de codificación, lo que podría ser más comúnmente mutado que eliminan [6]. Su presencia en el cáncer de mutaciones puntuales del gen-conjunto significativo, incluso en esta etapa intermedia, nos aseguró de las capacidades de selección de nuestro algoritmo. No obstante esta clasificación temprana, basado enteramente en mutaciones puntuales, se compiló sólo de dos ensayos de mutación; por lo tanto, basándose en los datos de secuenciación EST, todavía no era fiable según nuestro modelo, que incorpora un modo de mutación adicional. Debe tenerse en cuenta que no nos propusimos identificar las translocaciones, alteraciones espera que sea dominante a nivel celular y por lo tanto no se adapta a nuestra búsqueda de genes recesivos.
La última prueba, basado en el análisis aCGH, confirmaron que una porción muy grande del genoma humano es frecuentemente elimina en el cáncer. Como era de esperar para nuestra 2-canales procedimiento aCGH, que hemos detectado correctamente los genes de los cromosomas sexuales como diferencialmente representados en las pantallas del genoma. En particular, debido a la resolución de nuestro ensayo estructural, los genes de la región de pseudo-autosómica 1 fueron identificados como diploide normal (Adicional Figura S1). Lo más importante, es de esperar que las VNC polimórficas no habían filtrado a través del ensayo de aCGH. De hecho, sólo un pequeño porcentaje de los genes del cáncer coincidió con polimórfica CNVs y este porcentaje es incluso más pequeño de lo esperado por casualidad (Tabla 2).
El número de deleciones detectadas por aCGH en el genoma del cáncer es muy alta (más del 10% de los genes humanos se han suprimido en el cáncer). A pesar de esta supresión exceso, cuando se incluyen todos los modos de mutación, el número de genes candidatos es de menos de 0,5% del genoma humano analizada.
El cáncer de los productos de genes están implicados en los procesos biológicos, tales como ciclo celular, reparación del ADN y la apoptosis, de acuerdo con la literatura. Los mismos términos funcionales también están asociados a los genes en el cáncer de censo cósmico [18]. Sorprendentemente, las tirosina quinasas, oncogenes dominantes, presentes en el censo del Cáncer, estaban ausentes de nuestra cáncer gen-set, de acuerdo con la selección de genes recesivos.
Algunas fuertes limitaciones son inherentes a nuestro enfoque. Es poco probable que las marco de los cambios registrados son polimorfismos, ya que alteran la estructura primaria de los productos génicos. Por el contrario, puede ser que sean muy a menudo los resultados de la secuencia de errores. Por esta razón, elegimos para filtrar tanto como sea posible los errores de secuenciación mediante el uso de una prueba t pareada sobre una ventana deslizante. Otra controversia podría estar relacionado con el carácter somático de las mutaciones detectadas. Dado que prácticamente no hay secuencias de la línea germinal correspondientes a las bibliotecas de tumores en la base de datos de EST, no puede haber ninguna demostración formal que los genes seleccionados corresponden a los objetivos de mutaciones somáticas. No podemos establecer cuántos de los desajustes detectados son mutaciones reales, ni cuántos de ellos son realmente de origen somático. Sólo pudimos adjuntar a cada gen humano un valor de p para el exceso de desajustes con la inactivación de genes en muestras de cáncer potencial. La presencia de
TP53
,
PTEN
y
Hoteles en CDKN2A el candidato gen-set y sus características funcionales, son evidencias a favor de la hipótesis de que medimos un exceso de mutaciones del cáncer somática. Vamos a ser capaces de refutar esta hipótesis mediante el uso de diversos protocolos experimentales. Por otra parte, es posible que algunos de los genes candidatos podrían tener mutaciones de la línea germinal y, por tanto constituir rasgos predisposición a la insurgencia cáncer.
Cuando comparamos nuestros resultados con los del proyecto de secuenciación masiva publicado recientemente, algunas diferencias surgieron. Se utilizó una mayor cantidad de datos de secuenciación, aunque de menor calidad ya que no utilizamos los datos de secuenciación segundo pase. Que obtuvimos de dbEST una serie de desajustes aproximadamente 5 veces mayor que las pantallas de secuenciación del genoma de ancho. Este exceso puede ser debido a los datos de secuenciación de menor calidad en ESTs o la mayor sensibilidad de nuestro enfoque en comparación con la secuenciación directa basado en la PCR. La detección de mutaciones subrepresentados en biopsias de cáncer a menudo heterogéneos puede ser un desafío técnico para la secuenciación directa, pero no para EST clonados.
EST fueron utilizados en los intentos anteriores para identificar los genes relacionados con el cáncer. Casi invariablemente, estos enfoques se basan en los perfiles de expresión, que en muestras de tumores es probable que se correlaciona y eventos tardíos, entre los pasos que conducen al desarrollo y progresión del tumor. En un esfuerzo de minería de datos muy diferentes en las secuencias de EST en el cáncer, Qiu y compañeros de trabajo [20] medido asociación SNP-tumor. Su análisis fue muy centrado en los desajustes de un solo nucleótido, y se limita a mutaciones conocidas que se describen en la base de datos de SNP y presentes en al menos 50 golpes EST. Identificaron 4865 SNP frecuente en los tumores (p & lt; 0,05), de los cuales 327 inducida por sustitución de aminoácidos (cSNP). Muchos complejo mayor de histocompatibilidad (MHC) de clase II moléculas estaban presentes entre estos SNPs codificantes, mientras que ninguno estaba presente en nuestra cáncer gen recesivo-set. Lo más importante, no hay genes del cáncer de señal, tales como
TP53
,
PTEN
y
CDKN2A
estaban presentes dentro de cSNPs. Finalmente, ninguno de los genes SNP detectados por Qiu et al. [20] estaban presentes en nuestro candidato recesiva conjunto de genes del cáncer
El cáncer minutos recesiva sub-genoma (& lt; 0,5%). Identificamos podría representar un hito hacia la identificación de nuevos marcadores para el diagnóstico precoz y el pronóstico. Además, nuestra estrategia de minería se puede aplicar a los datos que estarán disponibles en la secuenciación de genomas del cáncer [22]. Por último, nuestro trabajo podría conducir a un equilibrio diferente dentro del grupo de genes del cáncer, actualmente desequilibrado hacia oncogenes dominantes.
Materiales y Métodos
EST minería de datos
Todo codificación humana