Extracto
recurrentes alteraciones del número de copias (CNA) juegan un papel importante en la génesis del cáncer. Aunque se han propuesto una serie de métodos computacionales para identificar dichos CNA, sus méritos relativos siguen siendo en gran parte desconocidos en la práctica ya que muy pocos esfuerzos se han centrado en el análisis comparativo de los métodos. Para facilitar la identificación de los estudios CNA recurrente en el genoma del cáncer, es imprescindible llevar a cabo una comparación exhaustiva de rendimiento y limitaciones de los métodos existentes. En este trabajo, seis métodos representativos propuestos en los últimos seis años se comparan. Estos incluyen enfoques de una etapa y de dos etapas, se trabaja con datos de relación de intensidad cruda y datos discretized respectivamente. Se basan en diversas técnicas como la regresión del núcleo, matriz de correlación de segmentación en diagonal, de permutación semi-paramétrico y esquemas de permutación cíclica. Exploramos varios criterios, entre ellos la tasa de error de tipo I, capacidad de detección, las características de funcionamiento del receptor (ROC) curva y el área bajo la curva (AUC), y la complejidad computacional, para evaluar el desempeño de los métodos en múltiples escenarios de simulación. También caracterizamos sus habilidades en aplicaciones a dos conjuntos de datos reales obtenidos de los cánceres con adenocarcinoma de pulmón y el glioblastoma. Este estudio revela la comparación características generales de los métodos existentes para la identificación de los CNA recurrente, y además proporciona nuevos conocimientos sobre sus fortalezas y debilidades. Se cree útil para acelerar el desarrollo de nuevos y mejores métodos
Visto:. Yuan X, Zhang J, Zhang S, G Yu, Wang Y (2012) Análisis comparativo de los métodos de identificación de número de copia alteraciones recurrente en Cáncer. PLoS ONE 7 (12): e52516. doi: 10.1371 /journal.pone.0052516
Editor: Noam Shomron, Universidad de Tel Aviv, Israel
Recibido: 7 Agosto, 2012; Aceptado: 14 Noviembre 2012; Publicado: December 20, 2012
Derechos de Autor © 2012 Yuan et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo fue apoyado por la Fundación de Ciencias Naturales de China en virtud de concesiones 61201312, 61070137, 61202175, 91130006 y; los Estados Unidos Institutos Nacionales de Salud en las subvenciones CA160036, CA149147, y GM085665; y el Proyecto de apoyo de Plan de Investigación Básica de Ciencias Naturales de la provincia de Shaanxi de China (número de programa 2012JQ8027, 2012JQ1010); y los Fondos de Investigación Fundamental para las Universidades Central (K50511030002, K50511030001, y K5051270012). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
la identificación de alteraciones del número de copias recurrentes (CNA) en los genomas del cáncer es un paso importante en la localización de los genes del cáncer de controladores y la comprensión de los mecanismos de iniciación del tumor. Muchos cánceres humanos, incluyendo el carcinoma de ovario seroso [1], adenocarcinoma de pulmón [2], glioblastoma multiforme [3], y otros tipos de cáncer [4], [5], han sido en gran parte explorado mediante el análisis de CNA. Sin embargo, las CNA identificadas con alta frecuencia de ocurrencia a través de múltiples muestras sólo representan una pequeña fracción de las aberraciones relevantes clínicamente o biológicamente para muchos tipos de cáncer. La razón más común para que faltan algunas mutaciones del conductor conocidas es que casi todos los cánceres son heterogéneos [6], lo que indica que muchos recurrente CNA sólo aparecen en un subconjunto de muestras (es decir, las muestras dentro de los subtipos) y con sus respectivas frecuencias son menos extremas en la totalidad de las muestras. Para este reto, se ha informado de una serie de métodos estadísticos y computacionales con resultados prometedores. Se dividen en una etapa [7], [8], [9], [10] y de dos etapas enfoques [3], [4], [11], [12], [13]. Muchos de ellos fueron revisados y discutidos por Rueda y Díaz-Uriarte en su último artículo [14].
Un fenómeno sobresaliente de perfiles de número de copias es que una parte de los marcadores se cambian en las regiones idénticas en múltiples genomas y la marcadores restantes se cambian en lugares al azar de los genomas. Por lo tanto, la frecuencia de ocurrencia de la CNA a través de muestras se utiliza generalmente para ayudar a distinguir los eventos recurrentes de marcadores al azar. Sin embargo, debido a las estructuras complejas de datos de número de copia, la identificación de menos extrema CNA recurrente es una tarea extremadamente difícil. A continuación ofrecemos un resumen de un conjunto de datos de copia número real para mostrar la complejidad del CNA, y además utilizarlo como un ejemplo para ilustrar por qué los CNA menos extremas son difíciles de detectar.
Figura 1a y la Figura 1b muestran la tasa de CNA ocurrencia en todo el genoma y su frecuencia a través de las muestras en un conjunto de cánceres de pulmón, que contiene 371 muestras y 216,327 marcadores [3], [5]. Se puede observar a partir de las figuras que la mayoría de los marcadores se cambian (con amplificador o eliminado) en al menos una muestra y muchos de ellos están solapados por una parte de las muestras. Además, los tamaños de las regiones de la CNA puede variar en cada cromosoma en el cromosoma. Para un conjunto dado de
N
muestras de cáncer, asumiendo toda la observada CNA están distribuidos al azar en todo el genoma en cada muestra, la probabilidad esperada (E (
P
)) de un marcador CNA compartidos por lo menos
n
muestras (correspondiente a un porcentaje
f
de todo el muestras) se puede estimar usando la ecuación (1), y en consecuencia el número esperado (e (
l
)) de tales marcadores compartidos en el genoma puede ser expresada por la ecuación (2) (1) (2) donde
L
es la longitud del genoma que se analiza.;
r
ki
y
r
kJ ¿Cuáles son las tasas de CNA de la
i-ésima y
j
muestras en -ésimos
k-ésimo subconjunto
, que se refiere a la
k -ésima
combinación de
n
muestras elegidas del conjunto
N
muestras. En este caso, el número total de combinaciones de elegir
n En venta
N
está representado por.
Aquí utilizamos registro
2-ratios 0,322 (2,5 copias) y -0.415 (1,5 copias) para definir las supresiones y amplificaciones. (A) Las tasas medias de CNA para la amplificación y supresión entre las 371 muestras son 0,0379 y 0,0417, respectivamente. (B) Una gran parte de las supresiones y amplificaciones están a menos de 0,1 en términos de frecuencia.
Vamos a considerar un conjunto de 100 muestras con cada uno que tiene marcadores de 1000, y en cada muestra las tasas de CNA son 0,035 y 0,040 para la amplificación de deleción (estas frecuencias son relativamente menos de los medios de lo anterior conjunto de datos cáncer de pulmón). Si suponemos que el CNA se colocan al azar en el genoma, la probabilidad de un marcador compartida por al menos 100
f
(0 & lt;
f
≤1) muestras pueden ser considerados como una probabilidad acumulativa , denominada
P
c gratis (
f
) (que se muestra en la ecuación (3)). Por ejemplo,
P
c
(0.1) es igual a 0,0027 en el caso de la amplificación, lo que indica que la probabilidad de un marcador amplificado en al menos 10 (0.1 multiplica 100) muestras es 0,0027. La Figura 2 muestra tales probabilidad acumulada frente a la frecuencia de un marcador CNA a través de las 100 muestras. En consecuencia, el número de estos marcadores en todo el genoma se puede estimar como 1000
P
c gratis (
f
). (3) guía empresas
Si la frecuencia se utiliza como una estadística para probar la importancia de CNA individualmente, el estimado
p
-valor para el marcador con una frecuencia de
f
puede calcularse utilizando la ecuación (4), que está bajo el procedimiento max-T para controlar la velocidad de la familia sabia de error (FWER) [15]. Para comprender claramente la relación entre la frecuencia de la CNA y su
p-valor
, se demuestra la
p-valor
como una función de la frecuencia que va de 0,01 a 1 para la amplificación y la eliminación por separado en Figura 3. se puede observar que el
p-valor
disminuye con el aumento de la frecuencia de la CNA, y en particular,
p-valor es 0,05
cuando
f =
0,13 en el caso de la amplificación y
p-valor es igual a
a 0,05 cuando
f
= 0,14 en el caso de la eliminación. Estos sugieren que si se emplea un
p
-valor de corte de 0,05, no se pudieron detectar los marcadores CNA con frecuencia menos de 0,13 para la amplificación (o menos de 0,14 para su eliminación), mientras que en datos reales tal frecuencia puede ser de relevancia biológica significativa ya que muchos CNA podría afectar sólo a una minoría de las muestras de cáncer [3], [7]. (4)
En el caso de la amplificación, p-valor (0,12) = 0,20 y p-valor (0,13) = 0,05; en el caso de la eliminación, p-valor (0,13) = 0,18 y p-valor (0,14) = 0,05.
En general, la frecuencia estadística y permutación aleatoria de los marcadores en el ejemplo anterior es sólo una estrategia básica para la prueba de significación. Para complementar esta estrategia, muchos métodos de diseño de diversas estadísticas y distribuciones nulos para este desafío. Por ejemplo, STAC (prueba de significación para el número de copia aberrante) [4] propone una nueva estadística "huella" de anotar cada marcador y establece la distribución bajo la hipótesis nula de que las regiones observadas CNA son igualmente colocarse en cualquier lugar en todo el genoma; Logís- (Genómica identificación de dianas significativo del cáncer) [3] puntuaciones de cada marcador por el peinado de frecuencia y amplitud, y construye una distribución semi-exactamente aproximado nulo, y su extensión GISTIC2.0 [11] considera que la distinción de la frecuencia de fondo entre focal CNA y CNA amplio y anota cada marcador proporcional a su amplitud; CMDS (Matriz de correlación Diagonal Segmentación) [9] puntuaciones de cada marcador en base a sus correlaciones con sus sitios de los alrededores y construye
t
distribución de un estudiante; y Dinamic (Descubriendo el número de copias aberraciones manifiesta en Cáncer) [13] emplea una estadística de resumen y un esquema de permutación cíclica para generar la distribución nula. Además, para ajustar los valores estadísticos y mejorar las distribuciones nulas, muchos métodos emplean un algoritmo de desprendimiento para probar de forma iterativa CNA [3], [13], [16], [17]. Esto le ayudará mucho en la identificación de bajo a moderado-frecuencia (o /y de baja a moderada amplitud)
marcadores.
Junto con el reciente avance de las tecnologías genómicas y la producción rápida de grandes conjuntos de datos, con nuevos métodos capacidades más sofisticadas y características para detectar CNA recurrentes siguen apareciendo. Sin embargo, los puntos fuertes y débiles de los métodos existentes son difíciles de discernir, debido a la falta de comparaciones exhaustivas de rendimiento. Este es un verdadero problema, especialmente desde la perspectiva de los investigadores biológicos que necesitan para elegir un método para un conjunto de datos de interés. En este trabajo, se comparan seis métodos clásicos y accesibles al público en base a criterios como la tasa de error tipo I, capacidad de detección, las características de funcionamiento del receptor (ROC) curva y el área bajo la curva (AUC), y la complejidad computacional, por lo que los usuarios pueden obtener rápidamente una visión general de ellos y su rendimiento. Varios conjuntos de datos de simulación y dos conjuntos de datos reales obtenidos de muestras de adenocarcinoma de pulmón y de glioblastoma se utilizan para evaluar los métodos.
Materiales y Métodos
Métodos para identificar recurrente CNA
Una variedad de se han propuesto métodos estadísticos y computacionales recientemente para la identificación de CNA recurrente. Estos métodos se pueden clasificar en diferentes formas, tales como marcos, estrategias para establecer distribuciones nulas, códigos fuente, y así sucesivamente. En general, los conjuntos de datos diferentes de cáncer tienen perfiles y patrones de alteraciones del número de copias distintas, y pueden requerir diferentes métodos computacionales para el análisis, ya que no hay un método único que podría ser adecuado para todos los conjuntos de datos. Es necesario para explorar los métodos que poseen características distintas y diferentes ventajas. Para reflejar esto, seleccionamos cuidadosamente seis métodos representativos para la evaluación y comparación, en función de su efectividad obtenida en aplicaciones reales. Tenemos una lista de los seis métodos de la Tabla 1, así como sus propiedades para una visión general. Estos métodos se han desarrollado bajo diferentes razones, en los últimos seis años y algunos de ellos han sido ampliamente utilizados en el análisis de datos sobre el cáncer [2], [18], [19]. Para una comprensión general de ellos, damos un breve resumen de sus principios de la siguiente manera.
(1) STAC [4].
La entrada del STAC es una matriz binaria
X
, en el que cada elemento de
x
ij
representa el estado de
j-ésimo
marcador en la muestra
i
. En concreto,
x
ij
= 1 significa amplificación (o supresión),
x
ij
= 0 significa normal. Se analiza de amplificación de deleción y matrices por separado, y pruebas de significación de ellos de la misma manera. La hipótesis nula es que detrás de STAC los segmentos de la CNA observados se colocan al azar en cualquier parte del cromosoma está considerando [4], [17], por lo tanto, las muestras permutados puede preservar las estructuras originales de los datos de número de copia. STAC adopta dos estadísticas, la frecuencia de la aberración y la "huella", para evaluar
p
-valores para cada marcador, y controla la tasa de error de la familia de sabios (FWER) en base a la probabilidad de cola extrema derecha [4 ], [13], [20].
la "frecuencia" para el marcador
x
se calcula como la proporción de muestras que comparten la aberración, mientras que la "huella" para el marcador
x
se calcula como un número de ubicaciones contenidas en una pila, que es un conjunto de intervalos que contienen
x
a través de muestras [4]. El principio detrás de la "huella" es que las alineaciones más estrictos de aberraciones es menos probable que se esperaría por casualidad y por lo tanto son más propensos a sugerir eventos biológicamente relevantes, mientras que los alineamientos más relajados de aberraciones pueden sugerir mutaciones de pasajeros con una mayor probabilidad.
(2) logís- [3].
Este método requiere datos de entrada segmentadas con registro continuo
2-valores se debieron a los métodos de análisis de muestra única como CBS [21] y GLAD [22] . Se permuta marcadores individuales en todo el genoma suponiendo que los marcadores son independientes [3], [17], y se deriva una nula distribución semi-exacta estimado basado en la función de convolución [3] de (5) en la que es la distribución (histograma ) de amplificación en el
i-ésima muestra de
. Sobre la base de la distribución nula, logís- utiliza un
G-score
combinando tanto la frecuencia y la amplitud (ecuación 6) para evaluar la importancia de cada marcador y corrige múltiples pruebas de hipótesis a través del procedimiento Benjamini-Hochberg FDR [23] . El mismo procedimiento se aplica al análisis de deleción y LOH (pérdida de heterozigosidad). (6) donde y son la frecuencia de la amplificación y la amplitud media de la
j-ésimo
marcador través de las muestras.
la intuición detrás de la
G-score
es que una aberración de mayor amplitud y la frecuencia es más probable que sea un evento de controlador. Con el fin de aliviar el efecto secundario de regiones de pico con la mayor amplitud y frecuencia, logís- adopta un algoritmo de "peel-off" para probar de forma iterativa el CNA dentro de las regiones importantes.
(3) KC-SMART [8 ].
a diferencia de los dos métodos anteriores, el marco de una etapa es abrazado por este método sin necesidad de una etapa previa de segmentación (suavizado) copiar perfiles de número. El principio detrás de KC-SMART es que impone una función del núcleo en cada lugar de
m
para construir una estadística, de almendra de estimación suavizada (KSE) [8] :( 7) en el que se un registro positivo o negativo resumió
2-ratios en todas las muestras para cada estación, es una función del núcleo (por ejemplo, parte superior plana función del núcleo de Gauss) y es un conjunto de marcadores alrededor de la ubicación
m
y por lo general se determina basándose en el ancho de la función de kernel. En teoría, esta estadística, considera las correlaciones entre los datos de número de copias e incorpora información obtenida de los marcadores vecinos.
Para identificar las localizaciones de pico (es decir, CNA recurrente), el método compara el KSE observado de cada lugar contra una nula distribución cuales se establece a través de permutaciones de registro individual se consideran
2-ratios en el genoma. Para corregir el efecto de las pruebas de hipótesis múltiples, KC-SMART adopta una estrategia de Bonferroni multiplicando el evaluado
p-valores
utilizando el número total de ubicaciones se está probando.
(4) CMDS [9] .
Los datos de entrada al CMDS es en gran parte similar a KC-SMART. Este método no utiliza directamente la frecuencia y la amplitud de número de copias aberraciones para construir estadística de prueba. Se asigna una puntuación a cada RCNA marcador. La puntuación RCNA es un valor de correlación promedio de los sitios de los alrededores del marcador. La hipótesis nula de CMDS es que no existe una correlación entre los marcadores dentro de los cromosomas, por lo que puede ser creado por la permutación al azar marcadores individuales en el tramo del cromosoma se está considerando. Para ahorrar tiempo de cálculo, CMDS utiliza la información de los valores de correlación observados en el genoma de número de copia para establecer una distribución normal estándar, como una cerca aproximarse
t
distribución. El efecto de múltiples ensayos también se corrige utilizando la estrategia de Bonferroni, exactamente igual que el método de KC-SMART.
La noción intuitiva detrás CMDS es que el ruido número de copias no está correlacionada mientras que los recurrentes CNA están en alta correlación. Otra característica sobresaliente de CMDS es que no analiza la amplificación y la eliminación por separado, pero utiliza el valor medio del número de copias sobre la ventana predefinida en todas las muestras y su nivel de significación [9] para determinar si el marcador correspondiente es la amplificación o deleción. Esto es diferente de la mayoría de los otros métodos existentes.
(5) Dinamic [13].
Este método acepta tanto la señal en bruto continua y datos segmentados discretos. Adopta una estadística de resumen global que incorpora tanto la frecuencia y la amplitud de cada marcador para el análisis de cualquiera de amplificación o deleción. Dos características novedosas Dinamic subyacentes se llegó a la conclusión de la siguiente manera. En primer lugar, emplea una estrategia cíclico permutación para generar la distribución null [13], [17], que conserva las estructuras de los datos de número de copia original en un mayor grado que la mayoría de otros métodos tales como STAC [4] y GISTIC2.0 [ ,,,0],11]. En segundo lugar, para aumentar la potencia para la detección de marcadores de menos extremas CNA, el método utiliza un algoritmo de "peel-off" diferente de la utilizada por [3] logís-, que evalúa los significados de nuevas regiones mediante la eliminación de todas las aberraciones solapados por el detectado previamente regiones recurrentes, mientras que Dinamic repetición de la prueba marcadores mediante la generación de una nueva distribución nula en una nueva matriz de datos en la que la detectada previamente marcadores
K ¿Cuáles son nulos y los marcadores contribuyen a la importancia de los
K
se escalan usando un factor.
Este método se supone que es un marcador de prueba durante cada "peel-off" procedimiento de iteración, por lo tanto el costo computacional será un problema importante, especialmente cuando se requiere un gran número de iteraciones. Para ello, ofrece Dinamic
Quick Look
y
plataformas detalladas Look Opiniones de opciones del usuario. En la primera, la nula distribución original se re-utilizado para probar la importancia de los marcadores más extremas, y por lo tanto en consecuencia ahorra un pedazo de tiempo de cálculo. Además, la importancia de múltiples ensayos se corrige utilizando el procedimiento max-T exactamente igual STAC [4].
(6) GAIA [16].
A diferencia de otros métodos existentes [3 ], [13], [24], GAIA (Análisis genómico de importantes alteraciones) incorpora la homogeneidad dentro de la muestra en el procedimiento de "peel-off" en virtud de su estadística marco hipótesis: en primer lugar, los marcadores individuales se permutan al azar para generar una distribución nula, sobre la base de que el recuento observado (el número de aberraciones a través de muestras, esto es equivalente al efecto de la frecuencia de aberraciones) de cada marcador se evalúa y se asigna con un nivel de significación; en segundo lugar, GAIA define un valor de homogeneidad para cada marcadores adyacentes apareados en cada muestra y se produce una nueva matriz de datos llamado
H gratis (
N
×
M
-1), en que cada elemento
H
ij
∈ {0, 0,5, 1}, representa máxima, media o la homogeneidad mínima; Por último, una homogénea despegable se realiza en la matriz
H
de ampliar los límites de las regiones significativos detectados con anterioridad. Se esperaba que este esquema de "peel-off" para identificar los picos más recurrentes de la CNA y omitir picos espurios.
Evaluación de los Métodos
Bastante evaluar los méritos relativos de estos métodos es necesario, pero esto es complicado debido a varios problemas realistas. En primer lugar, los formatos de datos de entrada (segmentados o primas) a las diferentes algoritmos no son siempre los mismos, y aquellos que requieren insumos segmentados por lo general adoptan diferentes algoritmos de segmentación. Por ejemplo, los algoritmos de segmentación por defecto utilizados por STAC, logís-, Dinamic, y GAIA son GenePix Pro 4.0 [25], contento [22], CBS [26], y VEGA [27], respectivamente. Teniendo en cuenta que los diferentes algoritmos de segmentación pueden tener diferentes habilidades en el procesamiento de perfiles individuales de la CNA, y por lo tanto va a suponer un gran impacto en el análisis de aguas abajo, elegimos utilizar el algoritmo CBS segmentación [26] para todos los métodos de dos etapas en este estudio de comparación, ya que la CBS es un algoritmo muy popular y que lleva a cabo consistentemente bien en la detección de cambios de número de copias [28]. En segundo lugar, las salidas de significación de los seis métodos incluyen dos tipos:
p-valores
(STAC, KC-SMAR, CMDS, y Dinamic) y
q-valores
(logís- y GAIA), y los umbrales para declarar significativa en estos métodos son diferentes. Para una comparación justa, elegimos los umbrales utilizados comúnmente para 0.05
p-valor
y 0,25 para
q-valor
aquí. En tercer lugar, los parámetros en los diferentes métodos son muy diferentes. Por ejemplo, Dinamic requiere una entrada del número de iteraciones, donde el valor por defecto es 10. Sin embargo, tal ajuste no suele ser lo suficientemente grande como en aplicaciones reales, ya que podría haber un gran número de marcadores aberrantes que deben ser evaluadas. Por lo tanto, cambiar esta configuración en un número mayor en la implementación del algoritmo predeterminado. Para la mayoría de los parámetros del algoritmo, se utiliza la configuración predeterminada tanto como sea posible o los valores sugeridos en los papeles o documentos de los programas. Por último, los diferentes algoritmos fueron escritos en varios idiomas y aplicarse en diferentes plataformas, como se muestra en la Tabla 1. Esto aumentará las dificultades para comparar el tiempo de cálculo de los métodos en la práctica.
Para evaluar cuantitativamente el rendimiento de la métodos, que ponen a prueba cuatro criterios utilizados comúnmente [13], [28], [29], [30] sobre la base de un gran número de conjuntos de datos de simulación. Los criterios se describen en detalle a continuación.
1. Tipo I tasa de error.
El propósito de la evaluación de tipo I tasa de error es investigar el significado de la importancia niveles resultaron de los métodos estadísticos para detectar CNA recurrentes [13], [30]. Si la tasa de error de tipo I es demasiado conservador o demasiado agresivo, el significado pretendido de la
p-valores
(o
q
-valores) se reduciría o se pierde, y el que no está de acuerdo con la tasa de falsos positivos en los resultados reales. Por lo tanto la exactitud de la tasa de error de tipo I es un índice crítico para la evaluación de métodos. Para este objetivo, se simula un gran número () de conjuntos de datos replicados con nula realidad del terreno CNA, y calculamos el tipo I tasa de error utilizando la ecuación (8) :( 8) donde es el umbral para llamar significativa (por ejemplo), y es una función del indicador, es decir, en su caso CNA en el conjunto de datos se declaran significativa, entonces; de lo contrario,. Por lo tanto, la ecuación (8) es en realidad un tipo de cálculo de la familia sabia I tasa de error [17].
2. poder de detección
Desde CNA es una unidad estructural y por lo general incluye una serie de marcadores, el poder de detección puede ser calculado a través de dos maneras:.. cálculos basados en marcadores basado en unidades y
basado en unidades CNA poder de detección: opinions sobre una verdad de tierra (recurrente) unidad de la CNA, es necesario observar la probabilidad de éxito puede ser declarada por un método significativo. Definimos este poder de detección como la sensibilidad para detectar la unidad CNA recurrente. Generalmente, la detección exactamente los límites de (o todos los marcadores dentro de) la unidad de CNA recurrente es difícil de lograr, y esto no siempre es necesario para la localización de los genes regulados por CNA. Por ejemplo, los genes pueden ser mapeados si una parte de los marcadores dentro de ellas se solapan por las unidades CNA detectados. Para una evaluación conveniente, se utiliza el marcador medio de la unidad de CNA recurrente para determinar si la unidad se declara, es decir, si se detecta el marcador de medio, entonces se supone que la unidad se detecta con éxito, de lo contrario, no lo es. En consecuencia, el basado en la unidad de potencia de detección CNA de un método puede ser calculada por [30] (9) donde es el número total de unidades de la CNA terreno la verdad en cada conjunto de datos simulados, e indica el número de unidades de la CNA terreno la verdad que se declaró significativa en el
i-ésimo conjunto de datos
CNA marcador a base de poder de detección:.
además de la localización de los genes del cáncer de controladores, CNA recurrente también se puede utilizar para analizar índice de inestabilidad cromosómica y otros significados biológicos [1]. Por lo que es necesario para ver cuantas planta marcadores verdad son detectados. De acuerdo con ello, definimos este poder como la Ecuación (10) [30], en la que es el número total de terreno la verdad de marcadores CNA e indica el número de marcadores de terreno la verdad que se detectan con éxito en el
i-ésimo conjunto de datos
. (10)
3. Características de funcionamiento del receptor (ROC) y la medida de las AUC.
evaluar aún más el rendimiento general de los seis métodos, medida por la sensibilidad y la especificidad a través de las curvas ROC, que muestra la cantidad de porcentaje de marcadores de terreno la verdad se seleccionan condicionada en una tasa de falsos positivos dado. Además, se mide el área bajo la curva (AUC) de estos métodos con el fin de evaluar su rendimiento medio sobre todo cuando algunas curvas ROC se han cruzado.
4. La complejidad computacional.
Se evalúa la complejidad computacional basado en tiempo de ejecución y el uso de memoria. Dado que los diferentes métodos normalmente se implementan en diferentes plataformas tales como C ++, el lenguaje R, y JAVA, la comparación del tiempo de cálculo puede ser influenciado. Para superar este problema y proporcionar una comparación general de la eficiencia de los seis métodos, damos gran complejidad-S para ellos, además de los tiempos reales de funcionamiento.
Conjuntos de datos de simulación
conjuntos de datos reales rara vez han confirmado absolutamente verdad suelo CNA, y por lo tanto no se puede utilizar para evaluar el desempeño de los métodos. Sin embargo, las tecnologías de simulación proporcionan una forma razonable para resolver este problema [31]. Desde los cuatro criterios de evaluación En la ilustración anterior se utilizan para cuantificar los métodos de diferentes perspectivas, es necesario emplear diferentes esquemas de simulación para generar una variedad de conjuntos de datos
.
En el primer criterio de tipo I tasa de error de pruebas, nos adoptar el algoritmo de simulación introducido por Hsu et al [32] y Walter et al [13] para crear conjuntos de datos nulos. El algoritmo se basa en un modelo de selección de inestabilidad [33], que se ha utilizado originalmente por muchos investigadores para modelar LOH (pérdida de heterozigosidad). El principio de la simulación de las aberraciones número de copia bajo el modelo de selección de inestabilidad puede ser simplemente resumirse como sigue [13]. El estado de marcador se denota en primer lugar ya sea por 0 como no aberración o por 1 como aberración. Para generar marcadores contiguos que son inherentes correlacionados a lo largo de un cromosoma con una longitud de
M
, una ubicación marcador inicial
x
k gratis (
k
∈ {1, 2 , ...,
M
}) es especificado previamente y el estado de su vecina marcador
x
k
1 se modela a continuación, en base a la probabilidad de transición [13],
p
a, b gratis (
d
) =
p gratis (
T gratis (
x
k
1) =
a