Extracto
La comprensión de las bases moleculares del cáncer requiere la caracterización de sus defectos genéticos. las tecnologías de microarrays de ADN pueden proporcionar datos en bruto detallada acerca de las aberraciones cromosómicas en muestras de tumores. Es necesario un análisis computacional (1) para deducir a partir de datos de eventos de amplificación o deleción reales de matriz prima para fragmentos cromosómicos y (2) para distinguir las alteraciones cromosómicas causantes de los funcionalmente neutras. Se presenta un método de cálculo integral, RAE, diseñado para mapear robusta alteraciones cromosómicas en muestras de tumores y evaluar su importancia funcional en el cáncer. Para demostrar la metodología, experimentalmente perfil cambios de número de copias en un subtipo clínicamente agresiva del sarcoma de tejidos blandos, liposarcoma pleomórfico, y computacionalmente derivan un retrato de candidatos alteraciones oncogénicas y sus genes diana. Se conocen muchos genes afectados estar involucrado en sarcomagenia; otros son nuevos, incluyendo los mediadores de la diferenciación de los adipocitos, y pueden incluir valiosos dianas terapéuticas. Tomados en conjunto, presentamos una metodología estadísticamente robusta aplicable a los datos genómicos de alta resolución para evaluar el alcance y la función de las alteraciones del número de copias en el cáncer
Visto:. Taylor BS, Barretina J, Socci ND, DeCarolis P, Ladanyi M, Meyerson M, et al. (2008) Funcional número de copia alteraciones en el cáncer. PLoS ONE 3 (9): e3179. doi: 10.1371 /journal.pone.0003179
Editor: Greg Gibson, la Universidad de Queensland, Australia |
Recibido: 7 Agosto, 2008; Aceptado: 19 Agosto 2008; Publicado: 11 Septiembre 2008
Derechos de Autor © 2008 Taylor et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo fue apoyado en parte por: El tejido blando del Proyecto Programa de sarcoma (P01 CA047179, SS, NDS y CS), El Proyecto del Genoma del sarcoma, y por el Fondo de Carr Ann Kristen. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
cáncer humano es causada en parte por mutaciones estructurales irreversibles. Estas pueden producir cambios en el ADN el número de copias en lugares distintos en el genoma [1]. Las aberraciones de este tipo afectan a la función de los genes y por lo tanto producen un fenotipo transformado. caracterización completa de estas aberraciones es un paso necesario en la comprensión de la etiología de la enfermedad y avanzar en el desarrollo de terapias dirigidas [2], [3], [4], [5], [6], [7]. Las técnicas basadas en las tecnologías de microarrays pueden medir simultáneamente miles a millones de loci en el genoma de los cambios de número de copias de ADN. Incluyen gama de hibridación genómica comparada (CGH array) y matrices de polimorfismo de un solo nucleótido (SNP) (revisado en [8]). Estas tecnologías cada vez más sensibles se han utilizado para caracterizar no sólo las aberraciones en el cáncer, sino también para describir la variación del número de copias en la población humana [9], y la base de trastornos genéticos (revisado en [10]).
Dada su capacidad para identificar nuevos oncogenes y genes supresores de tumores en el cáncer, dos estrategias se han utilizado para analizar los datos de número de copias de la matriz a partir de tumores. Los tramos de aproximación tradicionales datos ruidosos sonda de nivel en los tumores individuales (que dividen el genoma en regiones de igual número de copia) [11], [12], que detecta aberraciones con un umbral global y heurísticamente define los límites de las regiones de cambio frecuente [13] , [14]. estrategias algorítmicas más nuevos usan modelos estadísticos para el análisis de múltiples muestras [15], [16], [17]. Más recientemente, Beroukhim et al. propuesto un marco integral interesante para la evaluación de número de copias alteración en cohortes tumorales [18]. En paralelo a estos desarrollos computacionales, se están realizando esfuerzos para analizar colecciones de tumores de gran tamaño en una variedad de tipos de cáncer, tales como la fase piloto del Genoma del Cáncer Atlas [19] [El Atlas del Genoma del Cáncer (TCGA) Red de Investigación de 2008, presentó]. Estos serán recolectados a través de diversas fuentes y criterios que probablemente dan lugar a la heterogeneidad intra-tumoral y entre-tumoral variabilidad. Por lo tanto, cuestiones sin resolver siguen siendo importantes. ¿Cómo deberían ser detectados y combinarse cuando una colección de muestras varió sustancialmente en sus características de ruido alteraciones en tumores individuales? ¿Cómo debe el genoma se divide y se evalúa de forma más natural para reflejar cómo surgen alteraciones? ¿Cuáles son las características de un modelo de fondo realista que permite la identificación de alteraciones funcionales estadísticamente significativa recurrentes y por lo tanto más probable?
En este artículo, se describe un marco computacional que se ocupa de todas las facetas de este problema. Nosotros (i) desarrollar modelos de calificación diferentes para diferentes tipos de alteración, con parámetros adaptados a las características de los tumores individuales, (ii) utilizar los puntos de interrupción de segmentación para dividir el genoma para el análisis que hace hincapié en la naturaleza física del número de copias alteración, (iii) construir un modelo de aberración al azar que se aproxima el proceso biológico por el cual surgen alteraciones, y lo utilizan para (iv) evaluar la significación estadística de las alteraciones observadas. Esto identifica regiones genómicas de interés (ROI) alterado con más frecuencia que lo que se esperaría por casualidad, y por lo tanto más propensos a conducir la tumorigénesis (Figura 1). Aplicamos nuestro método a un gran repositorio de tumores sólidos para probar su funcionamiento. También aplicamos RAE de una novela de alta resolución número de copias conjunto de datos generados en nuestros laboratorios para un conjunto de muestras de liposarcoma pleomórfico para ilustrar su capacidad para conducir a nuevos descubrimientos
La entrada es un conjunto de pacientes.; ADN tumoral, (des) coincide con el ADN no tumoral y normal de una cohorte de referencia no relacionado. Las muestras tumorales y no tumorales se cuantifican, normalizada, y sujeto a control de calidad. En la fase de evaluación, las muestras individuales se dividen en segmentos y un modelo de componentes múltiples que se haya parametrizado para cada uno; esto produce un detector para el aumento de una sola copia, la amplificación, la pérdida hemizygous, y la eliminación homocigótica. A través de todos los tumores, un perfil de punto de interrupción unificado (UBP) se deriva del conjunto de los puntos de interrupción de segmentación, y cada región se anotó para la ganancia y la pérdida. Un modelo de fondo de las aberraciones aleatorias se construye con escote suplementario y la permutación de las regiones genómicas, y los valores de p son asignados y corregidos para múltiples pruebas de hipótesis. En la fase de salida, RAE determina los límites genómicas para las regiones de interés (ROI), los controles de la línea germinal y la variación en el número de copias de la población, y los informes estadísticamente significativas alteraciones.
Resultados
extrínsecos fuentes de variación
en la primera fase de la RAE, que abordan el tema de la detección fiable número de copias alteración en los tumores individuales. Cada tumor, incluidas las de los pacientes con el mismo tipo de cáncer, varía en sus características de ruido. Nos centramos aquí en ruido experimental y el problema de la falta de homogeneidad de ADN tumoral. Una fuente adicional de ruido biológico es la variación estructural, que abordamos más adelante. Respecto al primero, encontramos al menos cuatro causas que pueden oscurecer el número de copias cambia en un tumor y esto motiva nuestra salida de umbrales globales para detectar alteraciones. Ellos incluyen: (i) las muestras de ADN no tumorales emparejados de baja calidad, (ii) una mezcla del estroma, (iii) la heterogeneidad del tumor, y (iv) el perfil del tumor incoherente, y se discute cada uno de ellos.
La variación en calidad de las muestras normales emparejados.
Muchos grupos, incluido el nuestro, han observado el número de copias no diploide significativa en algunas muestras normales (Figura S1). Las causas pueden incluir el tejido fuente (en el caso de
Normal
tejido adyacente al tumor), que difieren protocolos de manipulación entre el tumor y las muestras normales, la quimioterapia previa en el ADN de células sanguíneas normales, las células tumorales circulantes, y otro tipo de contaminación de ADN normal. En un
emparejado
análisis, esta señal no neutral atenuará o alterar la señal del tumor. Para evitar esto, sustituimos un conjunto de datos de referencia normales de fenotipo diploide conocido y analizamos los tumores en un formato no apareado (Métodos). Esta referencia es generado por selección aleatoria de un subconjunto de individuos no relacionados de la colección HapMap, y produce una señal diploide consistente para la cuantificación y la normalización tumor (Métodos S1, Tabla S1, y la figura S2). Reducimos aún más el ruido en esta nueva relación de intensidad mediante la segmentación de los distintos tumores [11], [12]. Este proceso se correlaciona vecinos marcadores de número de copias común, la asignación de la media aritmética de la señal de sonda de nivel en todos los marcadores en cada segmento (Métodos). Mientras evitamos el uso de ADN normal correspondiente a este paso, hacemos uso de un subconjunto de alta calidad para el evento de la línea germinal de filtrado después de la evaluación estadística (Métodos).
mezcla del estroma.
La segunda fuente de ruido es la impureza del tumor, un problema bien documentado [20], [21]. tumores individuales tienen diferentes niveles de contaminación de células no tumorales. Esto reduce la relación de señal a ruido dentro y entre los tumores. También compromete genotipado exacto para la pérdida de la heterocigosidad concurrente (LOH) analiza. Esto pone en peligro la detección de dos clases importantes de alteración: copia-neutral y LOH deleción asociada. La contaminación de ADN tumoral por el ADN de células no neoplásicas ejerce su efecto a nivel mundial, igualmente la supresión de la señal en todos los loci en un tumor. Nuestra solución es doble. En primer lugar, tomamos un enfoque de tumor individual a los umbrales de ajuste en el registro
2 señales para detectar aberraciones, extrayendo de este modo la información de los tumores que de otra manera proporcionan la señal es insuficiente para detectar la no-diploide número de copias cambios en comparación con los más puros muestras tumorales. En segundo lugar, normalizamos la magnitud de la alteración en todos los tumores para facilitar la comparabilidad entre los tumores, una característica importante cuando se comparan los tumores del estroma de la variación de la mezcla.
heterogeneidad tumoral.
La tercera fuente de ruido es quizás el más confusión. Vemos evidencia de un número de copias intermedio en múltiples tipos de tumores. Por ejemplo, cuando el valor de una monosomía (o CHRX en un paciente masculino) establece con confianza el registro continuo
2 valor correspondiente a la pérdida de copia número entero discreto, esta señal es a menudo una pérdida de brazo de longitud que cae a medio camino entre diploides y el registro
2 valor de la pérdida de una sola copia. Esto puede ser el número de copias del alelo-específica exclusiva para ya sea el cromosoma materno o paterno, o más probablemente indica la posibilidad de que existan múltiples subclones distintos pero relacionados dentro de un único tumor clonal. Cuando existe pérdida de una sola copia de un cromosoma en sólo una de dos poblaciones de células tumorales distintas, hay una convolución de alteración, la reducción de la magnitud del evento cuando se mide a partir de la población mixta (Figura S3). Por lo tanto, múltiples poblaciones de células tumorales putativo afectan diferencialmente señal en un
local de manera, en regiones distintas en el mismo tumor. En consecuencia, se optó por una alternativa a un tumor individual a un umbral global de alteración, que es más sensible a la detección de este tipo de señal de críptica el primero.
incoherencia del perfil de número de copias.
por último, la inexactitud en el número de copias segmentación es la última fuente de variación extrínseca comprometer la detección de eventos en los tumores individuales. Una gran cantidad de información es codificada por los datos de la sonda de nivel originales en matrices densas como el Affymetrix SNP 250 K matriz. La segmentación está diseñado para reducir ese contenido de información de un conjunto mínimo de ganancias discretas, las pérdidas y el número de copias neutro. La mayor reducción de la información está en la producción de muestras de algunos de los segmentos, y menos en las muestras de alto recuento de segmento (Figura S4). Sin embargo, esto no tiene una relación coherente de la sonda de nivel de ruido (Ec. 1, Métodos). En consecuencia, debido a las características del ruido a nivel de la sonda son diferentes de las de segmentación, sólo utilizamos las últimas etapas en absoluto posteriores de análisis.
modelo de calificación de varios componentes para el número de copias alteración
para adaptarse a esta diversidad de variación entre los distintos tumores, hemos desarrollado un modelo multi-componente ajustable para detectar aberraciones, la primera característica fundamental de la RAE. Comenzamos por la separación de número de copia segmentado en cuatro
componentes
, cada uno que codifica la situación de un tipo de alteración; la ganancia de una sola copia (A
0), la amplificación (A
1), pérdida hemizygous (D
0), y la eliminación homocigótica (D
1). Esto separa tanto el análisis de ganancia total de pérdidas, sino también clases específicas e intuitivas de cada uno. Esto es necesario porque cada alteración presenta diferentes retos analíticos, no sólo en el rango dinámico, sino también en sus características de ruido, que a menudo se pasa por alto. Además, dividiendo total de la señal en estas cuatro clases distintas, es posible que el modelo puede extraer más información y producir una mayor precisión en las llamadas de eventos individuales.
Ganancia.
En el análisis de un conjunto de los tumores, hay dos atributos que describen-número de copias de la ganancia, frecuencia y amplitud. A nivel de una sola muestra, esto equivale a un "detector" y un "integrador", la antigua identificar la existencia de un evento y el segundo asignándole una magnitud proporcional a su amplitud original. Hemos razonado que codifica la detección de un evento separado de su amplitud tendría varias ventajas: (i) un detector opera en los márgenes de la señal y ruido y debe ser robusto a la introducción de la señal de tipo salvaje, (ii) porque amplitud es sin límites y varía como una función de la contaminación del estroma, debe ser estandarizado para facilitar la comparación entre-tumor, y (iii) en nuestro modelo estadístico que pone a prueba si una alteración excede una tasa de aberración al azar, que se basa principalmente en la recurrencia a través de muestras, se quieren aumentar nuestro poder para detectar eventos poco frecuentes pero muy alta amplitud. Por lo tanto, éstos se codifican por separado como ganancia de una sola copia (A
0) y amplificación (A
1).
Pérdida.
Nos acercamos al análisis de la pérdida genómica ligeramente de otra manera, aunque con un marco conceptual similar. Hay varios desafíos únicos para la pérdida alélica que justifica un enfoque modificado, y cada uno de ellos tiene un importante corolario biológica. En primer lugar, su eliminación es restringida en su área de distribución; sólo dos copias de un locus se pueden perder. Esto es diferente de la amplificación. A falta de verdadera magnitud, el ADN puede ser "presente" o "ausente", y por lo tanto un sistema de puntuación idéntica no sería apropiado. Esta ausencia completa de señal (o magnitud) corresponda a la eliminación homocigótica. La segunda complicación analítico es de inclinación negativa en la distribución de la segmentación alrededor del pico diploide (Figura S5). Hasta el momento, esta es una característica única de la pérdida genómica y complica la detección de la pérdida hemizygous cuando su transición de la señal de tipo salvaje aparece sin rasgos. Sin embargo, la detección precisa de la pérdida de una sola copia es importante. El paralelo biológica es un modelo supresor de tumor clásica, una en la que la mutación somática o la metilación en un alelo se acopla a la pérdida de la otra. Estas pérdidas son a menudo amplio, y se pueden orientar a múltiples loci, la reducción de la función de más de un gen. Sin embargo, este cae al margen de la detectabilidad en un sistema tan ruidoso. Para superar estas complejidades, también separamos eliminación en dos componentes. A diferencia del modelo de ganancia, ambos componentes son "detectores", uno para la pérdida hemizygous (D
0), y el otro para la eliminación homocigótica (D
1) (parametrización discutió en Métodos S1).
discriminación suave.
Si bien hay muchas opciones para la detección de este tipo de alteración, una característica clave de nuestro enfoque es el uso de
suave
discriminación. Proporcionar un valor robusto (y binario) de la existencia de un evento en un sistema ruidoso es difícil. Esto se ve agravado por los eventos de una sola copia en los márgenes de la señal y el ruido. En consecuencia, se encontró que, incluso después de la segmentación, un registro de todo el conjunto de datos
2 de umbral para la detección de alteración underperforms en tal sistema ruidoso (datos no mostrados). Por otra parte, existe un precedente importante para el uso de discriminadores blandos en los sistemas ruidosos, y adaptar este principio para detectar número de copias alteración. Por ejemplo, considere la alteración de un locus en dos tumores, teniendo ambos amplitudes similares. El primero sea superior a
sobre Hard umbral por una pequeña magnitud; este último no, pero de nuevo por sólo una pequeña magnitud. Es poco probable que este nominalmente similares resultados en biología locus alterado en el primero, pero este último se penaliza de manera efectiva (Figura 2A). Por lo tanto, para lograr la discriminación suave de cada tipo de alteración, usamos una función sigmoide con los parámetros de ubicación (
E
) y la pendiente (
β
) (Figura 2B, Métodos). Esta función asigna registro continuo
2 ratios, que abarca teóricamente ± ∞, a un valor constante entre 0 y ± 1 (dependiendo del signo de
β
). Mediante la variación de la magnitud de
β
, podemos hacer que la función se comporta más o menos como un umbral agudo. Además, debido a que los parámetros (
E
,
β
) se determina a partir de los datos individuales del tumor y adaptado a cada tipo de alteración, podemos variar la sensibilidad de la función, el alojamiento de los patrones muy diferentes de ruido previamente discutió (Figura 2C, Métodos S1). Esta parametrización de adaptación es también un mecanismo por el cual podemos extraer información de los perfiles de tumores incluso más desafiantes. Esta flexibilidad elimina parcialmente la necesidad de control de calidad subjetiva en la eliminación de las muestras fundamentalmente poco informativos. Para los tumores individuales que tienen un patrón complejo y /o incoherente de la señal (Figura S5), la parametrización produce valores conservadores de
E
y
β
para cada tipo de alteración, supresión de una gran fracción del total señal por diseño. Esto es especialmente importante para el análisis de tipos de tumores poco comunes donde el material fuente está en un premio y la eliminación de las muestras de una desventaja distinta. Por último, cuando discriminadores suaves para el aumento de una sola copia y por las pérdidas de mono y bialélicos se combinaron entre todos los tumores, que son un indicador de la recurrencia de cada tipo de alteración. Esta agregación a través de tumores es el objeto de la siguiente sección
(a) En un sistema ruidoso, un discriminador suave (rojo) se yuxtapone a un umbral duro (negro).; ambos de los cuales asignan los puntos continuos o binarios valores respectivamente (entre paréntesis) para los loci con confianza copiar-neutral o amplificado (negro) y para los casos difíciles en el margen de la señal (verde). Esto indica el beneficio de la discriminación suave. (B) La forma funcional del discriminador suave; una función sigmoide con los parámetros de ubicación (
E
) y la pendiente (
β
). (C) Método individual-tumoral para la detección de pérdidas y ganancias; el modelo de componentes múltiples parametrizado por dos tumores (rojo y azul) que indican que las características específicas de tumores producen diferentes discriminadores para el aumento de una sola copia y pérdida (sólido), la amplificación (de puntos y rayas), y la eliminación homocigótica (de puntos). Parametrización selecciona los valores de
E
y
β
tal que su magnitud (sin firmar) se mueve en la dirección indicada (leyenda).
alteraciones Agregación
Un punto de interrupción perfil unificado (UBP).
estábamos interesados en la identificación de la unidad más realista del genoma en la que probablemente surjan alteraciones y para la que nuestro modelo de múltiples componentes deben ser evaluados estadísticamente. Al igual que con las variantes benignas, los cambios patogénicos son segmentaria, alterando ~kilobase de tramos enteros de cromosomas de tamaño de ADN. ¿Por qué analizar los datos mediante la evaluación de un conjunto muy densa de marcadores (& gt; 238.000), cuando tal vez sólo 50~20,000 son observaciones verdaderamente independientes? Debido a las lesiones alteran fragmentos de ADN, nos sentimos RAE debería operar sobre ellas. Por lo tanto, nos aprovechamos de los puntos de corte producidas por la segmentación del tumor individual. Esto se correlaciona de forma explícita vecinos sondas en un segmento con número de copias similar y se aproxima a los cambios estructurales en el genoma. Unificamos las posiciones de punto de interrupción únicas observadas en todos los tumores y éstos a crear una nueva división del genoma (Figura 3A, Métodos). Estas regiones recién definidos son el cáncer de tipo específico y la unidad de análisis final. Esto evita tanto una escala de longitud artificial y los compromisos estadísticos necesarios cuando se opera en los marcadores individuales, tales como el impacto sobre las pruebas de múltiples hipótesis cuando las mediciones son parcialmente dependientes (Métodos S1)
.
(a) La densidad de los humanos sitios de recombinación (parte superior, la distancia media entre puntos de acceso es ~55 kb) se extiende por la segmentación (rojo) de los datos de la sonda de nivel (azul oscuro) en una región ~ 5 Mb de 13q14.13-3 en cuatro liposarcoma pleomórfico. Los puntos de corte únicos asociados a tumores (flechas negras) definen la UBP (regiones r
1-6; parte inferior), el más pequeño de los cuales (r
3) se extiende por cuatro genes, incluyendo el gen supresor tumoral
RB1
(dirección de la transcripción se indica). (B) En el cromosoma 1p, la distribución de la densidad de los puntos calientes de recombinación predichos (rojo) en una anchura igual a la distancia media entre todos los puntos de acceso p-brazo (56 kb), y la distribución de la asignación al azar (azul). El procedimiento de muestreo respeta la forma de la distribución original y por lo tanto las características de secuencia que le sirven de base. (C) la distribución de tamaño de las regiones derivadas de la segmentación y posteriormente definidos por el perfil de punto de interrupción unificado (UBP; gris), y las regiones de punto de acceso escindido del mismo permutada durante la generación de modelo nulo (como se indica, azul)
Combinando evidencia de alteración de diferentes tumores.
para informar de un resumen de las alteraciones en estas regiones para una colección de tumores, se combinaron las alteraciones detectadas en todos los pacientes. La manera en la que hacemos esto nos permite evaluar la importancia de un evento mediante su comparación con una distribución nula de aberraciones puramente al azar. Cada componente se resume primera como la media de muestras en cada región de la UBP. A continuación, calcular una puntuación global (Ec. 3), tanto para la ganancia y la pérdida total de (A 'y D', respectivamente) que combina las pruebas de los tipos de alteración individuales (Métodos). El principal beneficio de este enfoque es la flexibilidad. Un modelo nulo (el tema de la siguiente sección) puede ser creado para evaluar: cualquier combinación de los cuatro componentes originales, las puntuaciones globales de ganancia total y la pérdida (por defecto), o mediante la ponderación de un tipo de alteración con respecto a otro. Como etapa de agregación final, analíticamente derivamos la incertidumbre en este Puntuación resumida de cada región de la UBP. Esta es una característica importante de nuestro enfoque. Por la propagación de la error de segmentación de todos los tumores que abarcan un locus dado, producimos una representación de la incertidumbre en nuestra medición de alteración en cada locus (Métodos S1). Esta incertidumbre es una característica intrínseca de cualquier modelo de calificación, pero en la actualidad no se utiliza en las metodologías existentes.
Un modelo de fondo.
Desarrollamos un modelo de fondo para evaluar la importancia de las alteraciones específicas de tumor , la tercera característica fundamental de la RAE. Las características de un fondo modelo aberración realista en los cánceres humanos son complejos y un área sin resolver de la investigación. En una primera aproximación, se supone el perfil de un tumor es la combinación de las dos alteraciones de conductor y pasajero. Además, las regiones seleccionados por los genes palmo tumorales cuya función perturbada altera el fenotipo celular normal. Suponemos éstos están incrustados en medio de aneuploidía no específica, tal vez el producto de aumento de la inestabilidad genómica. Esto soluciona adquirió estocásticamente cambios durante la progresión neoplásica, pero que son fundamentalmente neutro a la biología del tumor. Esto sugiere un proceso que abarca la indiscriminada a la decididamente no aleatoria, así como una relación entre el volumen de negocios genética normal y la adquisición de cambio de número de copias. Esto implica puntos de ruptura asociados a tumores identificados por segmentación son sólo una pequeña fracción de los puntos de interrupción totales en el genoma. Por lo tanto, la hipótesis de que un modelo de fondo debe incorporar componentes de este fondo genético benigno. En el contexto de las aberraciones del número de copias, se optó por predijimos sitios de recombinación humanos.
Hotspots, un aumento local de la tasa de recombinación humana, son una característica de alélicas y no alélicas homóloga ((N) AHR) recombinación. Bared, a su vez, es un mecanismo por el que
de novo
variantes estructurales se fijan en el genoma. Un subconjunto de estas variantes produce cambio en el número de copias, poco de que es patógeno. De hecho, estudios previos asocian altas tasas de Nahr con duplicaciones segmentarias. Estas secuencias son por lo tanto susceptibles de romper y reordenamiento (revisado en [22], [23], [24]). Por otra parte, la variación del número de copias está estrechamente unida a duplicaciones segmentarias en el genoma humano [9], [25]. En consecuencia, se utiliza un proceso aleatorio que involucra sitios de recombinación como un proxy para este mecanismo. Estos puntos de acceso se estimaron a partir de los patrones de desequilibrio de ligamiento (LD) entre los individuos existentes, lo que refleja la recombinación que ocurren a lo largo de su linaje ancestral [26]. Complementamos los puntos de interrupción tumorales de una manera consistente tanto con esta estructura de orden superior del genoma humano y de la diversidad genética.
Estamos al azar las posiciones genómicas de sitios de recombinación predichos (
n = 32.996
, fase II HapMap [27]) con un procedimiento de rechazo de muestreo que simula las características preferenciales que se basa la distribución de recombinación humano (Figura 3B). Estas posiciones aleatorios se usan como sitios de escisión para los segmentos tumorales más grandes antes de permutación (métodos). partición Suplementario del genoma, además de la proporcionada por la segmentación del tumor antes de la permutación también tiene un beneficio operativo. Aumenta el espacio de permutación en un tumor cuando se produce la segmentación de un recuento bajo de segmento de los cuales son una fracción de copia alterada, y el resto son de tamaño grande genómico pero fundamentalmente diploide. Sin división adicional, el segmento alterado puede ser permutada en un número finito de posiciones, lo que limita el modelo. Fracturando los segmentos más grandes de copia-neutrales, sin embargo, proporciona un mayor número de posiciones en las que puede ser permutado la región de interés.
Tener varios modelos de permutación investigados, se optó por una distribución nula derivado de permutación de todo el genoma (Métodos S1). Brevemente, (i) segmentos de cada tumor se subdividen (escindido) en las posiciones de puntos calientes de recombinación aleatorios, después de lo cual (ii) la UBP se deriva de nuevo en este conjunto modificado de puntos de ruptura (Figura 3C), (iii) los valores de el modelo de múltiples componentes en cada región de este UBP (a
0, a
1, D
0, D
1) se permutan junto a otra posición de la UBP en cada muestra y re -combined través de tumores (ver Métodos). Normalmente, esto se repite 10.000 veces producen una distribución nula de & gt;. 10
8 anotaron regiones
La evaluación de la significación y la identificación de regiones de interés en
Para asignar significación estadística, por separado para la ganancia y la pérdida , utilizamos esta distribución nula de datos permutada para calcular los valores de p basado en la frecuencia con la puntuación permutados al azar es superior a la puntuación de la muestra (Ec. 3). a continuación, se corrige para múltiples pruebas de hipótesis con el procedimiento tasa de falso descubrimiento Benjamini-Hochberg [28]. Esta corrección se realiza a través de todas las pruebas, que corresponden a regiones de la UBP. Dependiendo del perfil de la segmentación de las muestras en un tipo de enfermedad, esto resulta en una reducción de entre uno y tres órdenes de magnitud en las pruebas de eficaz en comparación con los marcadores individuales. Q El valor resultante define la fracción de falsos positivos tolerados por encima de una determinada puntuación que surge por casualidad en nuestro modelo de fondo. Regiones se filtran basan en el valor de q con un corte típico de 0,01 (FDR≤1%).
Las regiones de interés (ROI).
A continuación exploran la función final del núcleo de RAE, la determinación de los límites de las regiones de amplificación y supresión significativa. Si una alteración contribuye a la oncogénesis, a continuación, suponemos que región del genoma se selecciona por su efecto sobre el contenido de genes. Este evento puede alterar un gen único o múltiples eventos independientes se pueden orientar a un programa coordinado de genes. Estas lesiones pueden también co-evolucionar con alteraciones aleatorias que tienen poco impacto biológico. alteraciones no aleatorias son estadísticamente significativas con respecto a nuestro modelo nulo y por lo tanto son candidatos regiones de interés. Sin embargo, las regiones de interés no están rigurosamente definidos, pero son intuitivos y motivada principalmente por dos cuestiones. En primer lugar, el investigador biológica está interesado principalmente en eventos manejables e interpretables, tal vez implican un único gen. En segundo lugar, vemos visualmente en las regiones de datos de focalidad donde existen picos de alteración, pero son confundidos por los datos ruidosos, incluyendo los picos adyacentes o vecinos. Para capturar ambas cosas, se implementa un enfoque de dos etapas para determinar el ROI. La primera etapa se identifican las regiones de alteración significativa (q≤0.01). Estos serán (i) regiones aisladas de los UBP (únicos), donde la alteración focal afecta a un solo lugar, o (ii) múltiples regiones físicamente adyacentes que se combinan y asignados los mayores límites genómicas del evento. La segunda etapa está diseñada para interrogar a estos grandes ganancias y pérdidas para los picos de escala más fina y más alteración significativa. Estos son más propensos a contener oncogenes y genes supresores de tumores, conocer los primeros criterios intuitivos de rendimiento de la inversión, pero se complica más por el segundo. En consecuencia, hay dos tipos de imprecisión que afectan la determinación de regiones de alteración focal. imprecisión espacial está relacionada con el sistema experimental, donde el
posición verdadera Red de alteración es no medida debido a la selección de marcadores, la composición de la matriz, y la resolución finita. imprecisión de medición se refiere al error propagado de eventos individuales en cada muestra y refleja tanto el ruido inherente en el experimento y la variabilidad producida por tamaño de la muestra. El primero es fijo y mejorará a medida que aumenta la densidad de la matriz. Este último es algo que incorporamos explícitamente en la segunda etapa de nuestro algoritmo, pero no se encuentra en los enfoques anteriores [13], [14], [18], [29]. Para una región amplia ya que incluye loci superior a un umbral de sensibilidad, detectamos picos en la puntuación de resumen (L
2, la Ec. 3). Si se detecta un pico, se fusionó con loci adyacentes en esta región más amplia de importancia si su L
2 está comprendida en el intervalo de la cima de error (Figura 4, ver Métodos). En esta representación gráfica de los datos, la
RB1
supresor de tumores, se discute en mayor detalle a continuación, se detecta en un pico de las regiones fusionadas de manera similar que refina los límites de un retorno de la inversión de esos que abarcan ~ 3 MB de secuencia y 20