Extracto
La promesa de la tecnología de microarrays en la prestación de los clasificadores de predicción para la estimación de los resultados del cáncer ha sido confirmado por una serie de éxitos demostrables. Sin embargo, la fiabilidad de los resultados de la predicción se basa en gran medida de la exactitud de los parámetros estadísticos que participan en los clasificadores. No se puede estimar de forma fiable con sólo un pequeño número de muestras de entrenamiento. Por lo tanto, es de vital importancia para determinar el número mínimo de muestras de entrenamiento y para asegurar el valor clínico de microarrays en la predicción de los resultados del cáncer. Se evaluó el impacto de la formación tamaño de la muestra en el rendimiento del modelo ampliamente basado en 3 grandes conjuntos de datos de microarrays cáncer proporcionados por la segunda fase del proyecto de Control de Calidad de microarrays (MAQC-II). Se propuso una basada en SSNR (escala de la relación señal-ruido) de protocolo en este estudio para la formación mínima tamaño de la muestra. resultados de la validación externa basada en otros 3 conjuntos de datos de cáncer confirmaron que el enfoque basado en SSNR no sólo podría determinar el número mínimo de muestras de entrenamiento de manera eficiente, sino que también proporcionan una valiosa estrategia para estimar el comportamiento subyacente de los clasificadores por adelantado. Una vez traducido en aplicaciones clínicas de rutina, el protocolo basado en SSNR proporcionaría una gran comodidad en la predicción de resultados del cáncer basado en microarrays en la mejora de la fiabilidad clasificador
Visto:. Shao L, X Fan, N Cheng, Wu L, Y Cheng (2013) Determinación de la formación mínima Tamaño de la muestra para el resultado del cáncer de Predicción-una evaluación empírica microarrays de base. PLoS ONE 8 (7): e68579. doi: 10.1371 /journal.pone.0068579
Editor: Cynthia Gibas, Universidad de Carolina del Norte en Charlotte, Estados Unidos de América
Recibido: 24 Septiembre, 2012; Aceptado: 31-may de 2013; Publicado: 5 Julio 2013
Derechos de Autor © 2013 Shao et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo fue apoyado por la Fundación Nacional de Ciencia de China (30830121, 81173465) y la Fundación de Ciencias Naturales Provincial de Zhejiang de China (R2080693) .Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito .
Conflicto de intereses:. Los autores han declarado que no existen intereses en competencia
Introducción
Los recientes avances en la tecnología de microarrays de expresión génica han abierto nuevas oportunidades para un mejor tratamiento de la diversidad enfermedades [1], [2], [3]. Una década de investigación intensiva en el desarrollo de clasificadores de predicción ha producido una serie de éxitos demostrables, sobre todo la capacidad de predecir las posibles respuestas diferentes a un tratamiento [4]. Por ejemplo, se ayudó con la selección del tratamiento para prolongar el tiempo de supervivencia y mejorar la calidad de vida de pacientes con cáncer. La aprobación de MammaPrint ™ por la Administración de Drogas y Alimentos de EE.UU. (FDA) para el pronóstico del cáncer de mama clínica [5] ilustra la promesa de la tecnología de microarrays para facilitar el tratamiento médico en el futuro.
Más recientemente, microarrays de Control de Calidad de Proyectos II estudio (MAQC II) [6], se confirmó una vez más que los modelos de predicción basados en microarrays pueden ser utilizados para predecir los puntos finales clínicos que haya sido construido y utilizado correctamente. Sin embargo, la fiabilidad de los resultados de la predicción se basó en gran medida de la exactitud de los parámetros estadísticos que participan en clasificadores de microarrays, que no pueden ser estimados fiablemente a partir de un pequeño número de muestras de entrenamiento. Por lo tanto sería útil por la recogida tantas muestras clínicas como sea posible. Sin embargo, considerando el hecho de que relativamente raras muestras de tejidos clínicos se pueden utilizar para el perfil transcripcional, es un desafío para estimar un número apropiado de muestras de entrenamiento suficientes para alcanzar el poder estadístico significativo.
Varios métodos han sido propuestos para la muestra la determinación del tamaño, como la regla de parada [7], el algoritmo de análisis de energía [8], la mezcla de modelado paramétrico combinado con bootstrap paramétrico [9], procedimiento de clasificación secuencial basado en la martingala teorema del límite central [10], el modelo de probabilidad paramétrica - metodología basada en [11], el Monte Carlo combina con enfoques de aproximación [12], y el algoritmo basado en ajuste ponderado de las curvas de aprendizaje [13], etc. la mayoría de los estudios anteriores eran de naturaleza exploratoria, y se centró en las relaciones entre tamaño de la muestra, diferencia significativa en la media, y el poder. Es bastante posible que estos métodos para producir ya sea un tamaño de muestra subestimado o sobreestimado, si se ha utilizado una variación específica y diferencia significativa en la media [14]. Por otra parte, los modelos y /o índices utilizados en los métodos anteriores estadísticos son bastante difíciles de implementar en aplicaciones reales, y sólo son factibles cuando se recogen muestras suficientes de formación. Dobbin et al. propuso un método de cálculo del tamaño de muestra basada en el cambio veces estandarizada, la prevalencia de la clase y el número de genes o características en los arrays [15]. Aunque tal método es bastante simple en comparación con los enfoques anteriores, que sólo está adaptado para hacer frente a la determinación ex post facto de si el tamaño de la muestra es adecuada para desarrollar un clasificador. De esta manera, algunos problemas tienen que ser abordados antes de un método sencillo y eficaz para la estimación del tamaño de la muestra podría desarrollarse.
A principios de 2005, Van Niel et al. ha señalado que el número necesario de muestras de entrenamiento se debe determinar teniendo en cuenta la complejidad del problema discriminación [16]. Estandarizada veces el cambio y la prevalencia clase propuesta por Dobbin et al. son también en cierta medida correlacionada con la clasificación de complejidad [15]. Popovici et al. Además, demostró que el rendimiento de un predictor genómico se determina en gran parte por una interacción entre tamaño de la muestra y clasificación complejidad [17]. En resumen, calcular la relación entre el tamaño de la muestra, el rendimiento del modelo, y la complejidad de clasificación es de gran ayuda en el desarrollo de un protocolo de planificación tamaño de la muestra fácil de usar.
Tres microarrays conjuntos de datos de gran escala con un total de 10 puntos finales proporcionado en MAQC-II [6] se evaluaron ampliamente para la relación entre el tamaño de la muestra de formación y el rendimiento de los clasificadores de predicción construidos en este estudio. Se encontró que la formación tamaño mínimo de la muestra podría estimarse a partir de la previsibilidad intrínseca de los puntos finales, y que propone un protocolo de estimación por etapas basado en SSNR. resultados de la validación externa utilizando otros tres conjuntos de datos a gran escala confirmaron la capacidad de este protocolo. En comparación con los métodos anteriores, el protocolo propuesto en este estudio tiene sus ventajas en los siguientes tres aspectos: en primer lugar, es más fácil de implementar y mucho más eficiente para aplicaciones clínicas; en segundo lugar, se requiere menos información previa, y por lo tanto el costo experimental podría ser mejor controlado; por último, que guía el diseño experimental, además de la estimación ex post facto del tamaño de la muestra de entrenamiento.
Materiales y Métodos
Conjuntos de datos
Seis conjuntos de datos de cáncer a gran escala tienen han recogido en este estudio para la estimación del tamaño de muestra de entrenamiento y de la validación externa. La Tabla 1 ilustra un resumen conciso de los conjuntos de datos recopilados, incluida la información sobre el tamaño de la muestra y distribución de la muestra
Tres conjuntos de datos con 10 puntos finales clínicos -. De cáncer de mama (BR), mieloma múltiple (MM), el neuroblastoma (NB), previsto en MAQC-II [6] fueron seleccionados y utilizados en este estudio para evaluar el impacto de la formación tamaño de la muestra en el rendimiento del modelo. Para el cáncer de mama, los puntos finales BR-erpos y BR-PCR representan el estado del receptor de estrógeno y el éxito del tratamiento que incluye quimioterapia seguida de la resección quirúrgica de un tumor, respectivamente. Para el mieloma múltiple, MM-EFS y MM-OS representan la supervivencia libre de eventos y la supervivencia global después de 730 días después del tratamiento del diagnóstico, mientras que NB-EFS y NB-OS representan el mismo significado después del tratamiento 900 días post o diagnóstico. Por otra parte, los puntos finales NB-PC y también se incluyeron MM-PC, NB-NC y MM-NC en este estudio como controles positivos y negativos, respectivamente. El NB-PC y PC-MM se derivaron de los conjuntos de datos de NB y MM con los criterios de valoración indicados por el género, mientras que los puntos finales para NB-NC-NC y MM fueron generados aleatoriamente.
Otros tres conjuntos de datos, uno de ellos no linfoma -hodgkin (NHL) [18] conjunto de datos y dos conjuntos de datos de cáncer de mama (BR2 [19] y BR3 [20]) usado en los estudios de modelado de pronóstico previamente publicados, se utilizaron en este estudio para el propósito de validación externa. NHL está relacionado con la supervivencia de linfoma no Hodgkin [18] pacientes, mientras que BR2 y BR3 están relacionados con el estado del receptor de estrógeno (BR2-erpos) [19] y la supervivencia libre de metástasis a 5 años (BR3-EFS) [ ,,,0],20] de los pacientes con cáncer de mama.
para simular la aplicación clínica en el mundo real de los estudios genómicos, dos poblaciones independientes de pacientes para cada conjunto de datos creada por el consorcio MAQC o por los investigadores originales se conservan en este estudio como el conjuntos de entrenamiento y validación. En el caso de BR2-erpos y BR3-EFS, no había información para la división de la muestra. Por lo tanto todas las muestras se asignan en la formación y la validación establece al azar en este estudio. Una información más detallada acerca de los conjuntos de datos se puede encontrar en el documento principal del MAQC-II [6] y su documentos originales correspondientes.
Análisis estadístico
La información detallada sobre el diseño del estudio se ilustra en la figura 1, la información adicional sobre el procedimiento de construcción del modelo se encuentra disponible en Métodos S1. Un conjunto de datos con un tamaño de muestra específica fue recuperado en primer lugar, desde el conjunto de entrenamiento original como nuevas muestras de entrenamiento. Después de la construcción del modelo de las muestras de entrenamiento recuperados utilizando a 5 veces la validación cruzada, la obtenida
mejor clasificador
fue entonces aplicada para predecir el conjunto de validación inicial. Para asegurar el poder estadístico, tal procedimiento se repitió 100 veces, lo que resulta en 100 conjuntos diferentes de predicciones. El resultado promedio de predicción se utiliza entonces como una indicación del rendimiento del modelo correspondiente a este tamaño de la muestra específica. El número de muestras de entrenamiento considerados en este estudio varía de 20 con un paso de 20. Tres algoritmos de aprendizaje automático ampliamente utilizado, incluidos los
NCentroid gratis (más cercana-Centroide),
kNN gratis (
k
vecinos -nearest,
k
= 3) y
SVM gratis (Apoyo Vector Machine) fueron seleccionados en este estudio para evaluar el impacto del tamaño de la muestra de entrenamiento.
el flujo de trabajo para evaluar el impacto de diferente número de muestras de entrenamiento.
a partir de los resultados de 100 de ejecución, la tendencia del rendimiento del modelo (medida por el coeficiente de correlación Matthews (MCC) [21] en comparación con el . incremento escalonado de la formación tamaño de la muestra es ilustrado por parcela bigote (5-95% percentil) el coeficiente de correlación Matthews (MCC) se define como: (1) donde es el número de verdaderos positivos, es el número de verdaderos negativos, es el número de falsos positivos y es el número de falsos negativos. MCC varía entre -1 y +1 0 corresponde a la predicción aleatoria.
sobre la base de los valores de MCC-100 ejecutar, hemos propuesto, además, una ecuación para aproximadamente estimación el valor potencial de aumento de tamaño de la muestra, que considera tanto la mejora relativa del rendimiento del modelo y el costo del aumento de tamaño de la muestra. (2)
Aquí y representar el valor obtenido de la MCC
i
º y
(i-1)
ª tamaño de la muestra, mientras que es el número de muestras de entrenamiento en el
(i-1)
ª etapa (
i = 2, ..., n
). valor mucho menor que 1 se utilizó en este estudio para ayudar a determinar el clasificador casi óptima. En otras palabras, el valor combinado con la media y la varianza de los valores de MCC fue finalmente utilizado para determinar el tamaño de la muestra de entrenamiento cercano al óptimo.
Escala de la relación señal-ruido (SSNR)
Supongamos que los datos de microarrays de
X
1