Extracto
La predicción de la respuesta de un cáncer específico a una terapia es un objetivo importante en oncología moderna, que en última instancia, debería conducir a un tratamiento personalizado. pruebas de detección de alto rendimiento de compuestos potencialmente activos contra un panel de líneas celulares de cáncer heterogéneos genómicamente han dado a conocer múltiples relaciones entre las alteraciones genómicas y las respuestas de drogas. Se han propuesto varios métodos computacionales para predecir la sensibilidad basado en las características genómicas, mientras que otros han utilizado las propiedades químicas de los fármacos para determinar su efecto. En un esfuerzo por integrar estos enfoques complementarios, hemos desarrollado modelos de aprendizaje automático para predecir la respuesta de las líneas celulares de cáncer a tratamiento farmacológico, cuantificado a través del IC
50 valores, basados tanto en las características genómicas de las líneas celulares y las propiedades químicas de los fármacos considerados. Modelos predijeron IC
50 valores en una validación cruzada de 8 veces y una organización independiente
ciegos
prueba con coeficiente de determinación R
2 de 0,72 y 0,64, respectivamente. Por otra parte, los modelos fueron capaces de predecir con precisión comparable (R
2 de 0,61) IC50 de líneas celulares a partir de un tejido no se utiliza en la etapa de entrenamiento. Nuestro
modelos in silico
se puede utilizar para optimizar el diseño experimental de pruebas de detección de drogas de células mediante la estimación de una gran proporción de falta IC
50 valores en vez de forma experimental medirlos. Las implicaciones de nuestros resultados van más allá de
virtual de diseño de detección de drogas
: miles de potenciales fármacos podían palpar
in silico
para probar sistemáticamente su eficacia potencial como agentes antitumorales en función de su estructura, por tanto, proporcionar un marco computacional para identificar nuevas oportunidades de reposicionamiento de drogas, así como en última instancia, ser útil para la medicina personalizada mediante la vinculación de los rasgos genómicos de pacientes con sensibilidad a los fármacos
Visto:. Menden MP, Iorio M, M Garnett, McDermott T, Benes CH, Ballester PJ, et al. Predicción de Aprendizaje (2013) Máquina de sensibilidad de las células del cáncer de fármacos basados en la genómica y las propiedades químicas. PLoS ONE 8 (4): e61318. doi: 10.1371 /journal.pone.0061318
Editor: Gajendra P. S. Raghava, CSIR-Instituto de Tecnología Microbiana, India
Recibido: 26 Octubre, 2012; Aceptado: 7 Marzo 2013; Publicado: 30 de abril 2013
Derechos de Autor © 2013 Menden et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo fue financiado por el programa de doctorado Laboratorio Europeo de Biología Molecular de MPM, el programa de Sanger /European Bioinformatics Institute Espod a FI, una metodología de investigación beca del Consejo de Investigación médica de la PJB, una subvención Wellcome Trust para MG y CHB, y el Cancer Research del Reino Unido para UM. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
cribado de alto rendimiento de un gran número de moléculas es un método ampliamente utilizado para identificar compuestos de plomo que ejercen un efecto beneficioso en un fenotipo dado. En el contexto del cáncer, las bibliotecas de entidades químicas se han probado de esta forma a los paneles de líneas celulares cultivadas en diferentes condiciones y con los fondos genómicos heterogéneos [1]. Siguiendo el trabajo pionero de la "NCI-60", una colección de 59 líneas celulares de cáncer humano desarrollado por el Instituto Nacional del Cáncer para
in vitro
detección de drogas [2], los estudios del sello recientes han demostrado que el cribado muy grande colecciones de líneas celulares pueden recapitular conocido e identificar nuevos factores determinantes moleculares genómicas de sensibilidad a los fármacos [1], [3] - [5]
En estos estudios, utilizando la inferencia y la regresión métodos estadísticos sistemáticos, tales como determinante lesiones oncogénicas. , los niveles altos o bajos de la expresión génica basal y otros rasgos genotípicos se han asociado a los perfiles de aumento de la sensibilidad /resistencia a compuestos específicos. Por ejemplo, mediante la aplicación de un análisis multivariado de varianza [6] y el marco de regresión 'elástico neto' [7] asociaciones de drogas genotipo establecidos han sido confirmada y completada con marcadores de especificidad tisular y conexiones nuevas, por ejemplo,
EWS-FLI1
translocación en el sarcoma de Ewing y sensibilidad a
Los inhibidores de PARP
, han sido identificados y más validada experimentalmente. Los resultados de estos estudios han sido puestos a disposición del público, proporcionando recursos únicos que apoyan el descubrimiento de nuevos biomarcadores predictivos para el tratamiento personalizado del cáncer.
El aumento aún más el tamaño de los paneles de la línea celular considerado /compuestos sería muy beneficioso, ya que proporciona la base para mejorar la precisión y el poder predictivo de las asociaciones inferidos. Sin embargo, esto requiere grandes infraestructuras y el coste aumenta con el tamaño de cribado. Además, debido a diversas razones técnicas y logísticas en una pantalla de alto rendimiento [7], la matriz de la línea compuesto por célula resultante de la eficacia del fármaco (por lo general resumido en su IC
50, la mitad de la máxima (50%) concentración inhibidora de una sustancia con respecto a la viabilidad celular) a menudo no es completa. Aunque muchos pasos están automatizados, llenando experimentalmente cada hueco podría ser costoso y laborioso [6]. Por lo tanto, una herramienta precisa para imputar falta IC
50 y estimarlos de nuevas líneas celulares sería de gran valor para la detección de drogas de diseño.
Por otra parte, una herramienta de predicción robusta para
in silico
identificación de fármacos potencialmente eficaces para el tratamiento de un cáncer específico podría ser utilizado para el reposicionamiento de drogas [8], [9]. Un enfoque de este tipo está representado por el algoritmo COMPARAR [10], [11] que utiliza perfiles de respuesta de drogas de la proyección NCI-60, a través de un paradigma "culpabilidad por asociación". Siguiendo este principio, los medicamentos que suscitan un perfil fármaco-respuesta similar a través de las líneas de células en el panel NCI-60 son la hipótesis de compartir un modo común de acción (MOA), lo que permite que el descubrimiento Ministerio de Agricultura de nuevos fármacos (si su perfil de supresión tumoral es similar a la de un fármaco conocido y bien caracterizado), así como el descubrimiento de los efectos nuevos o secundarios de los medicamentos establecidos.
en última instancia,
in silico
métodos para predecir con exactitud la eficacia de los fármacos basados en la toma molecular de los tumores (es decir genoma, transcriptoma) sería un hito importante hacia terapias personalizadas para pacientes con cáncer basados en biomarcadores moleculares [12].
resultados
por ello, investigó si se trata de posible construir modelos de aprendizaje automático (para más detalles véase la sección "Materiales y Métodos", "máquina de aprendizaje" subsección) que puede predecir la sensibilidad a fármacos utilizando la línea celular de filtrado de datos experimentales, en las líneas de células son tratadas con una concentración variable de un determinado fármaco y la consiguiente curva de dosis-respuesta resumida por un IC
50. Nos centramos en el conjunto de datos de detección de drogas de cáncer más amplia disponible hasta la fecha, de los "Genómica de sensibilidad a los fármacos en el cáncer" (GDSC) del proyecto [3]. Para cada fármaco, un modelo de red neural fue entrenada para predecir su IC
50 perfil a través del panel de líneas celulares basado en el fondo genómico de cada célula, como se caracteriza por el estado de inestabilidad de microsatélites (1 = inestable o 0 = estable), variantes de codificación somáticas en la secuencia de codificación de 77 genes del cáncer (1 = cualquier cambio en la secuencia de proteínas y 0 = tipo salvaje) y copiar alteraciones número que indica la amplificación de genes y la supresión de los genes del cáncer (/más de 7 número de copias de 1 = amplificación, 0 = tipo salvaje /entre 1 a 7 el número de copias, y -1 = supresión /sin número de copias). Sin embargo, el poder predictivo de estos modelos iniciales fue limitada, especialmente para aquellos medicamentos sin una conocida dependencia de la respuesta-oncogén de drogas.
Estamos motivado que la sensibilidad de las células cancerosas a moléculas de la droga es impulsado por las características de ambos células y fármacos. Considerando que las características de células son en última instancia conectados a los mecanismos internos de la célula, las características de drogas incluyen propiedades fisicoquímicas que se correlacionan con la capacidad de la molécula para cruzar la membrana celular (por ejemplo, lipofilicidad) o su selectividad para dianas intracelulares (por ejemplo, huellas dactilares que codifican la estructura química )
de hecho, un extenso trabajo se ha hecho sobre cuantitativas estructura-actividad Relación (QSAR) se aproxima a la predicción de la actividad de células enteras de moléculas a base de sus propiedades químicas [13] - [16]., incluyendo aplicaciones para predecir actividad contra el cáncer de drogas [17], [18]. Sin embargo, estos enfoques QSAR basados exclusivamente en las características químicas no pueden distinguir entre las líneas celulares resistentes y sensibles. Por ejemplo, la construcción de un modelo sin ninguna información de las líneas celulares, el modelo no será capaz de predecir línea celular de A a ser más resistente que la línea de células B a drogas C, que es el principal objetivo de la integración de las características genómicas química y en nuestro los modelos.
Por lo tanto, ampliamos nuestros modelos de aprendizaje automático para incluir como características químicas de entrada de los medicamentos, además de la caracterización molecular de las líneas celulares (véase la figura 1). Este enfoque integrador no sólo integra dos corrientes complementarias de información, sino que también permite que el modelo que se entrenó con cantidades mucho mayores de datos, lo cual es a menudo un factor clave para mejorar el rendimiento predictivo (ver figura 2). En consecuencia, los datos se pre-procesado para incluir 689 descriptores químicas de los fármacos y 138 características genómicas para diferenciar las líneas de células, lo que resulta en un espacio de entrada de 827 características
Nuestro método se basa en dos flujos de entrada diferentes.: (1) características de la línea celular de 77 oncogenes y su estado de mutación, (2) las características de la droga que se generan con el software de Padel [19] a partir de la entrada molecular sistema de entrada de línea simplificada (sonríe), ver sección de métodos para más detalles. La continua IC
50 valor se predijo con algoritmos del estado de la técnica de aprendizaje automático (redes neuronales y los bosques al azar).
El rendimiento del modelo a múltiples fármacos (asterisco rojo) y la familia de 111 modelos de un solo fármaco (histograma azul) está representado con tres métricas diferentes: (A) de correlación de Pearson R
p, (B) coeficiente de determinación R
2, y la raíz (C) media cuadrática RMSE de error.
descriptores químicos fueron generados con el software de Padel [19] a partir de estructuras moleculares de entrada de línea de entrada del sistema simplificado (sonríe). Descriptores incluyen características físico-químicas tales como el peso, la lipofilia, la regla de cinco años, y, además, las huellas dactilares de los medicamentos (para más detalles véase la sección "Materiales y Métodos", "características" subsección, y http://padel.nus.edu.sg/software /padeldescriptor /).
para la construcción de nuestro modelo, hemos utilizado los datos de detección GDSC de 608 líneas celulares caracterizadas genómicamente y 111 fármacos para los que se disponía de información sobre productos químicos (véase la figura 2 y Métodos para más detalles). La versión publicada de esta matriz tiene 38,930 IC
50 valores (~58% del total, debido a razones técnicas y logísticas).
Se realizó una validación cruzada de 8 veces, en el que el equipo de prueba de cada pliegue no se utilizó para la formación con el fin de medir la capacidad de predicción de los modelos resultantes a través de todas las drogas en lugar de para cada fármaco por separado. Las redes neuronales fueron capaces de imputar falta de registro (IC
50) los valores en las unidades de prueba con un coeficiente de correlación de Pearson (R promediado
p), el coeficiente de determinación (
R
2
) y la raíz del error cuadrático medio (RMSE) (Texto S1) de 0,85, 0,72 y 0,83 en los 111 a través de las drogas, respectivamente (figura 3A). Como alternativa, los bosques aleatorios han alcanzado rendimientos comparables (R
p de 0,85,
R
2 Red de 0,72 y RMSE de 0,84; todos los detalles en los materiales complementarios). Por otra parte, se realizó una prueba a ciegas utilizando 13,565 nuevos experimentales IC
50 valores sólo se reciban después de la formación de nuestros modelos con el fin de verificar los resultados de la validación cruzada (de fármaco a la célula matriz de la línea actualizado por ~ 18%, con estos recién generada IC
50 años de uso exclusivo como el ciego de prueba). Los resultados en la prueba a ciegas eran casi tan buena como en la validación cruzada, obteniendo un R
p de 0,79,
R
2 Red de 0,64 y un RMSE de 0,97 (Figura S1, texto S2). La exactitud de las predicciones nos animó a entrenar las redes con menos de CI
50 valores. Sorprendentemente, el poder predictivo de los modelos no cayó sensiblemente fuera en calidad, incluso si la cantidad de datos de entrenamiento se redujo a 20% del total (Figura 3B).
Las predicciones se logran con 8 veces cruzar -validations. Los valores de rendimiento se calculan exclusivamente en las unidades de prueba. (A) La correlación entre predicho en el registro de valores observada experimental (IC
50) (correlación de Pearson R
p = 0,85; coeficiente de determinación R
2 = 0,72, raíz media cuadrada del error RMSE = 0,83). Aunque no existe un enriquecimiento de las líneas celulares resistentes, que tienden a tener (IC 50
) Los valores más altos de registro que las líneas celulares sensibles, el registro más bajo (
50 CI) los valores son todavía bastante bien predijo. (B) el mejoramiento previsto de la IC
50 predicción llenando huecos de forma experimental en la matriz de la célula a la droga. La línea gris vertical corresponde al conjunto de los datos publicados (lleno hasta ~58%, debido a razones logísticas), que se corresponde con los resultados en el panel (a). Sin embargo, una precisión similar (R
p de 0,84 en lugar de 0,85, R
2 de 0,70 en lugar de 0,72) se puede lograr utilizando exclusivamente el 20% de toda la matriz.
El uso de una el análisis de la varianza (ANOVA) para identificar asociaciones fármaco a-oncogenes, investigamos qué tan bien el IC
50 valores pronosticados para el equipo de prueba usando nuestro modelo de recapitular las asociaciones manifiestan en los datos experimentales, por ejemplo, si una mutación dada es causando sensibilidad o resistencia contra un medicamento [3]. Usando sólo predijo IC
50 valores, hemos capturado correctamente el 79% (168/213) de las observaciones significativas con la misma tendencia de la prueba t (efecto positivo o negativo sobre la sensibilidad a los fármacos) identificado con el IC experimental
50 años. Si se consideran únicamente las asociaciones significativas de nuestro modelo (p-valor ajustado con Benjamini-Hochberg, FDR = 0,2), que predijo correctamente el 28% (59/213) de todas las asociaciones identificadas experimentalmente. Donde no se logró detectar una asociación del tamaño del efecto ANOVA es a menudo pequeña, o la correlación experimental se asocia con una mutación o bien no con poca frecuencia o representados dentro de la subconjunto de líneas celulares con predichos IC
50 valores. Cabe destacar, como ejemplo de la utilidad de este enfoque, utilizando sólo predicho IC
50 valores que hemos identificado caracterizamos fármaco a-oncogén asociaciones como la sensibilidad de los
células -mutated BRAF
líneas por
MEK1 /2
-inhibitors (figura 4B) [20]. La gama de predichos IC
50 valores para un medicamento suelen ser más estrecha que para los valores observados y es probable porque el conjunto de datos disponibles en la actualidad están en genómica suficiente para explicar el rango observado de las respuestas de drogas a través de las líneas celulares.
(a) Análisis de la varianza (ANOVA) de los datos experimentales y la salida predicha para asociaciones de fármaco a oncogén (20% FDR). El tamaño de cada asociación (punto) es proporcional a la cantidad de líneas de células tratadas que contienen el oncogén mutado particular. Los puntos azules que indican la misma tendencia de la prueba t en nuestras predicciones, y los rojos lo contrario. (B) predicha y medida de CI
50 años de
BRAF
-mutated frente a líneas celulares de tipo salvaje expuestos a la
MEK1 /2
-inhibidor EP-0.325.901 (valor p de la predicción = 1,91 × 10
-05, t-test de hipótesis múltiples corregido con Benjamini & amp;. Hochberg) guía empresas
Además, se evaluó la capacidad de predicción de nuestro modelo de líneas celulares desconocidos. Por lo tanto, se aplicó un más estricto de 8 veces la validación cruzada, donde una línea celular fue bien incluida en el tren o el ensayo de deformación. Estos modelos logran un R
p de 0,82,
R
2 Red de 0,68 y un RMSE de 0,89 (Figura S2) que demuestra la exactitud de nuestro modelo para predecir IC
50 valores para completamente nuevas líneas de células. En una simulación adicional, que dejamos a cabo todas las líneas celulares de cáncer de un tejido específico, por ejemplo, que eliminó todas las líneas celulares de cáncer de pulmón (106 de los 608 líneas celulares) y aún así obtuvimos un R
p de 0,79,
R
2 Red de 0,61 y RMSE de 0,99 (Figura S3).
Discusión
Nuestros resultados muestran que mediante el uso de las características genómicas de las líneas celulares e información química de las drogas, es posible construir
in silico
modelos múltiples fármacos para imputar falta IC
50 valores con algoritmos de aprendizaje automático no paramétricas como las redes neuronales y los bosques al azar. Dado que la producción de nuestro método, que elegimos para explorar los valores de IC50 como la generada por Garnett et al. [3], lo que nos permite comparar nuestros resultados con ellos, sin embargo otras métricas (como una IC50 tapado o el área bajo la curva), podría proporcionar información adicional y potencialmente conducir a modelos más robustos.
El Pearson correlación (Fig. 2A) y el coeficiente de determinación (Fig. 2B) del modelo de múltiples fármacos son significativamente mejores que los modelos de un solo fármaco, mientras que el error RMSE es similar (figura 2C). Esto significa que el error (en promedio) de la predicción de un valor de IC50 determinado es el mismo en los modelos a múltiples fármacos y de un solo fármaco (RMSE) y, puesto que algunos fármacos son activos en diferentes intervalos de concentración, el modelo es capaz de cubrir una mucho mayor rango dinámico con una precisión similar. El coeficiente de determinación equilibra estos dos términos, y por lo tanto una gama más amplia con el mismo RMSE aumenta R
2. Gracias a la utilización de descriptores químicos, los modelos múltiples fármacos están capacitados con un volumen de datos que es dos órdenes de magnitud más grande que los datos para entrenar a cada modelo de un solo fármaco. Este conjunto de datos más grandes pesos de la dificultad en la formación de valores de las respuestas heterogéneas a través de las drogas.
En varios casos, el uso de modelos múltiples fármacos permiten la
in silico
identificación de eventos genómicos asociados con la sensibilidad a los fármacos alterado , que sólo es posible cuando se consideran genómica propiedades.
a pesar de nuestros modelos no captan todos los genes conocidos por las asociaciones de medicamentos, anticipamos que, como mayor sensibilidad a los fármacos y los conjuntos de datos genómicos estén disponibles en los próximos años la capacidad de predicción de éstos modelos aumentarán. Creemos que el poder predictivo de los modelos es debido al gran número de líneas celulares y una amplia gama de fármacos en el panel GDSC que las muestras intensamente el espacio química de fármacos contra el cáncer comunes (inhibidores quimioterapéuticos y quinasa). Queda por determinar cómo estos modelos predicen familias completamente desconocidos de agentes terapéuticos.
La capacidad predictiva de nuestros métodos para valores individuales es todavía limitado y podría mejorarse aún más mediante la ampliación del conjunto de entidades de entrada con capas adicionales de la caracterización molecular de las líneas celulares, tales como perfiles de transcripción basales y datos phosphoproteomic. Estos tipos de datos se han utilizado para predecir las respuestas de drogas en varios contextos [21] - [24]. Otra valiosa extensión podría ser la inclusión de los datos de expresión génica después de un tratamiento de drogas, un poderoso
in silico
recurso para predecir los resultados del tratamiento y elucidar el modo de acción compuesto [25], [26], así como una puerta de entrada prometedora a la identificación de nuevas oportunidades de reposicionamiento de drogas [27]. Además, los datos epigenéticos podrían mejorar las capacidades de predicción de futuros métodos [28].
Nuestro método utiliza datos puramente experimentales, pero el poder predictivo adicional se puede esperar del incluyendo el conocimiento de la red subyacente [29]. Se ha demostrado que la predicción de la respuesta al fármaco y modo de acción con perfiles de transcripción se mejora significativamente cuando se combina con conocidas unas redes de genes y proteínas a priori [30], [31] y similitudes de la droga se han deducido en base a la correspondiente
in silico predijo
vía incidido [32]. El conocimiento previo también podría aumentar la interpretación de los resultados. relaciones reguladoras conocidas entre los genes y los datos de la transcripción [33] y las redes de proteínas [34] se puede utilizar para identificar las vías desregulados, y estar vinculado además a las alteraciones genómicas que les [35] Drive, destacando subredes de importancia para la respuesta a los fármacos.
la incorporación de estas características adicionales requerirá un esquema para dar prioridad a la entrada de las características en función de su impacto en el modelo entrenado final. Las asociaciones entre las características y los resultados podrían ser revelados explícitamente por la integración en nuestros modelos cuentan con criterio seleccionado y técnicas de reducción de dimensionalidad.
En cuanto a los modelos de predicción, hemos utilizado los métodos de aprendizaje automático estándar (redes neuronales y los bosques al azar), dado su flexibilidad y robustez como modelos predictivos. Un terreno fértil para la investigación adicional está investigando la aplicación de otras técnicas de modelado, incluyendo métodos de regresión lineal (por ejemplo, Lasso, ElasticNets).
Nuestros resultados también muestran que se puede estimar la exactitud de predicción para diferentes grados de poca densidad en los datos, que pueden tener utilidad en el diseño de experimentos en los que la cobertura tiene que ser equilibrado con precisión. Por otra parte, porque los modelos son capaces de predecir IC
50 sobre las líneas celulares no tienen mosquiteros sin embargo, las predicciones de estos modelos se pueden utilizar para decidir si vale la pena expandir el panel de líneas celulares, o más bien concentrarse en unos pocos seleccionados.
las implicaciones de nuestros resultados van más allá de su utilidad para optimizar el diseño experimental de exámenes de drogas. Una vez que se construye un modelo, que podría ser utilizado para poner a prueba sistemáticamente el efecto potencial de nuevos fármacos
in silico
, en base a sus características químicas y similitud. Estas predicciones pueden ayudar a evaluar la actividad potencial de nuevos fármacos, por ejemplo, de grandes bibliotecas químicas, que se proyectarán. Por otra parte, se espera que las predicciones sobre fármacos clínicamente aprobados para revelar candidatos para la reutilización de drogas y potencialmente identificar la enfermedad subtipos específicos que serían más sensibles [8]. A pesar de que las líneas celulares no son una réplica exacta de los tumores reales, los modelos predictivos integrales como la nuestra, junto con conjuntos de datos genómicos y epigenómicos expandido puede ser un buen indicador para facilitar el desarrollo de nuevas estrategias terapéuticas adaptadas a pacientes individuales [12].
Materiales y Métodos
conjunto de datos de entrenamiento
Se utilizaron los datos de la genómica de sensibilidad a los fármacos en el proyecto de cáncer [3], que contiene 639 líneas celulares de cáncer, cada uno de ellos caracterizado por un conjunto de características genómicas (detalles en la siguiente sección). La calificación no es completo para cada línea celular, y por lo tanto que filtra las líneas celulares con más de 15 desaparecidos características genómicas, lo que redujo el conjunto de líneas celulares seleccionados de entre 639 a 608. El conjunto de datos contiene 131 medicamentos. A medida que nuestro método explota la estructura química de cada fármaco, se requiere esta información en un formato de entrada de sistema de entrada de línea molecular simplificada (sonríe). Por lo tanto, no consideramos los 20 medicamentos para los que no estaban disponibles sonrisas, y construido nuestro modelo de los 111 fármacos restantes.
La matriz resultante de 608 líneas celulares de 111 fármacos pueden tener 67,488 posibles curvas de respuesta de drogas, cada resumen por su IC
50 valor (concentración del fármaco en unidades mu M necesarios para erradicar 50% de las células cancerosas). En la actualidad, el conjunto de datos contiene 38,930 IC
50 valores fuera de estos 67.488 (58%), con valores que faltan sobre todo debido a razones logísticas tales como mediciones de coordinación de varios centros de detección. El registro de IC
50 oscila entre -7,40 (IC
50~4 • 10
-8 M; la combinación de células de drogas más sensible) a 6,91 (IC
50~8 • 10
6 M; el más resistente). Tenga en cuenta que los valores extremadamente grandes y pequeñas son extrapolaciones en el CI
50 que no tienen relevancia clínica. Utilizamos estos rangos en este estudio como esas son las que se utilizan en el documento Garnett et al. [3] que comparamos nuestros resultados en contra.
Ciego de datos de prueba
Hemos generado unidades de prueba durante la validación cruzada para estimar el error esperado (detalles en la sección de validación cruzada). Sin embargo, incluso la validación cruzada se puede sobrestimar el rendimiento potencial de los métodos de aprendizaje automático. Por lo tanto, se realizó una prueba verdaderamente ciego con el fin de demostrar las capacidades potenciales de nuestros modelos de validación cruzada para imputar faltan valores de IC50 en las 608 líneas celulares por 111 matriz de drogas (figura S1). Nuestra prueba a ciegas contiene 13,565 recién generadas IC
50 valores, que se obtuvieron después de la capacitación se llevó a cabo, o dicho de otro modo, un lote de nuevos datos experimentales se genera de forma independiente para validar nuestros modelos. En resumen, el 58% de los IC
50 valores están en la base de datos original (utilizado para la validación cruzada), un 18% adicional se utilizan para la prueba a ciegas (prueba independiente).
Características
Hay dos corrientes diferentes de datos de entrada en nuestro método: el fondo genómico para cada línea celular de cáncer, así como las propiedades químicas de un fármaco. Para la primera corriente de datos de entrada, líneas celulares de cáncer se caracterizan por el estado mutacional de 77 oncogenes, donde cada uno de ellos se describe adicionalmente mediante la variación del número de copias (de cualquier amplificación de grado alto o deleción homocigótica de un gen del cáncer) y variación de la secuencia (cambios en la secuencia de la proteína, por ejemplo, no es sinónimo de polimorfismo de un solo nucleótido). Además, hay una característica binaria para el estado de estabilidad de microsatélites de cada línea celular. Las características de la línea celular se codifican como sigue:
Estado de la Inestabilidad de microsatélites
Secuencia de la variación
la variación del número
Copia
Todas las mutaciones consideradas, tenemos 77 copia posible variaciones en el número más 77 posibles variaciones de la secuencia y el valor de la estabilidad de un microsatélite, que suma hasta 155 posibles características de la línea celular. Sin embargo, algunas características de mutación faltan para algunas líneas celulares, y de manera conservadora eliminan una característica en caso de que faltaba para cualquier línea celular. Esto dio lugar a un conjunto final de 138 características genómicas que caracterizan cada línea celular de cáncer.
El segundo flujo de datos de entrada incorpora 1D y 2D propiedades químicas de cada fármaco. Generamos estas características químicas utilizando el software de Padel (v2.11, descargado desde el sitio web del proyecto, http://padel.nus.edu.sg/software/padeldescriptor/) [19] a partir de las sonrisas con la configuración predeterminada. 722 características son descriptores fisicoquímicos y 881 se obtuvieron a partir de las huellas digitales, lo que lleva a un total de 1603 características químicas. Sólo se incluyeron características químicas que podrían ser calculados para todas las drogas. Por otra parte, hemos eliminado cualquier función con el mismo valor en todos los medicamentos, la obtención de un conjunto final de 689 características químicas de cada fármaco (por ejemplo, átomo de recuento, recuento de bonos, peso molecular, XlogP o huella digital PubChem, por nombrar algunos). La lista de medicamentos está disponible en el material complementario (Tabla S1).
Tomando en conjunto la corriente de línea celular de cáncer y las drogas, hemos utilizado 827 características para construir nuestros modelos de predicción de la
50 valor de log IC de una línea celular dado en presencia de un fármaco determinado.
la validación cruzada
Se utilizó una validación cruzada de 8 veces para la construcción de nuestros modelos. Por lo tanto, separamos el conjunto de datos original en ocho grupos de igual tamaño de IC
50 valores, obtenidos mediante la distribución aleatoria todas IC
50 años de la matriz en 8 contenedores. Uno de ellos se utilizó exclusivamente para la prueba (nunca involucrado en ningún tipo de formación), otros seis fueron destinados para el entrenamiento del modelo y la pieza restante se utilizó para el entrenamiento cruzado. La validación cruzada es un proceso que se utiliza para evitar la comprensión y sobreajuste [36], por ejemplo, identificar el número óptimo de unidades ocultas y la formación de iteraciones para una red neuronal (detalles en la sección "El aprendizaje automático"). Rotábamos iterativamente los conjuntos a fin de que se utilizó cada punto de datos al menos una vez a la formación, el entrenamiento cruzado o pruebas. Finalmente, obtuvimos 8 modelos, que eran igualmente predictivo.
Además, se utilizó una versión más rigurosa de la validación cruzada de 8 veces antes descrita. Nos aseguramos de que la prueba, tren y puesta a punto del tren cruz no están compartiendo cualquier línea celular, lo que podría ocurrir en la versión no estrictas (descrito anteriormente). Por ejemplo, asumir línea celular C1 se trata con los fármacos D1, D2 y D3; Para los no-estrictos de validación cruzada, la combinación de C1-D1, C1 y C1-D2-D3 se puede distribuir en la prueba, tren y puesta a punto del tren cruz; para la rigurosa validación cruzada, cada combinación con C1 se produce exclusivamente en uno de los tres conjuntos.
máquina de aprendizaje
En las redes neuronales, se utilizó la aplicación Java desde Encog 3.0.1 (http://www.heatonresearch.com/encog) [37], [38] de un perceptrón de alimentación directa de múltiples capas, donde definimos tres capas diferentes: de entrada, oculta (o medio) y la capa de salida. Cada perceptron de una capa es completamente conectado a cada perceptron de la capa superior. El número de características determina el número de unidades de entrada, o dicho de otra manera, perceptrones requeridas en la primera capa. El número de unidades ocultas se exploró durante el entrenamiento para determinar la complejidad del modelo correcto, que era entre 1 y 30 unidades ocultas. Además, cada unidad de entrada y oculta también había un sesgo, que es una entrada de activación permanente para los perceptrones. Se utilizó una unidad de salida única para predecir el registro continuo (50 IC
) valor.
A medida que la función de activación perceptrón para habilitar la red para predecir el comportamiento no lineal, que utiliza la función sigmoide, que devuelve los valores en un intervalo de 0 a 1. por lo tanto, tuvimos que normalizar los IC
50 valores (IC prima
50 valores, no en el espacio de registro) también en un rango de 0 a 1, lo que se hizo con la siguiente logística similar a la función:
:. /valor de IC50 se espera Observado, que tiene que ser un número positivo mayor que cero
Hemos capacitado a la red con la aplicación resiliente propagación hacia atrás de error de Encog con parámetros por defecto [39]. Para explorar la complejidad modelo final, que se describe por número de unidades ocultas y la cantidad de iteraciones de entrenamiento, se examinaron diferentes arquitecturas de red neuronal desde 1 hasta 30 unidades ocultas y los entrenamos para la prueba máxima de 400 iteraciones. Se realizaron búsquedas en el mínimo global en ese paisaje de entrenamiento cruzado (minimizando el error cuadrático medio del conjunto de entrenamiento cruzado) para evitar una sub o sobreajuste (por lo general, entre 21 y 27 unidades ocultas fueron elegidos como mejor modelo después de aproximadamente 300 iteraciones).
también llevó a cabo al azar forestal [40] modelos de regresión para investigar si había alguna ganancia de rendimiento significativa usando una metodología no paramétrica de la máquina de aprendizaje alternativo (Texto S3). Un bosque aleatorio es un conjunto de diversos árboles de regresión generadas de forma aleatoria a partir de los mismos datos de entrenamiento (se utilizó el valor recomendado de n = 500 árboles).
Datos de acceso
El conjunto de datos es totalmente accesible de