Extracto
La investigación biomédica en la minería de texto está comenzando a producir tecnología que puede hacer que la información en la literatura biomédica más accesible para los bio-científicos. Uno de los retos actuales es integrar y perfeccionar esta tecnología para apoyar las tareas científicas de la vida real en biomedicina, y para evaluar su utilidad en el contexto de tales tareas. Describimos cangrejo - una herramienta de minería de texto totalmente integrado diseñado para apoyar la evaluación de riesgos de salud química. Esta tarea es compleja y requiere mucho tiempo, lo que requiere una revisión exhaustiva de los datos científicos existentes sobre un producto químico en particular. Cubriendo humana, animal, los datos mecanicista celular y otra de diversos campos de la biomedicina, esto es muy variada y por lo tanto difíciles de cosechar a partir de bases de datos bibliográficas a través de medios manuales. Nuestra herramienta automatiza el proceso mediante la extracción de los datos científicos relevantes en la literatura publicada y clasificarla de acuerdo a múltiples dimensiones cualitativas. Desarrollado en estrecha colaboración con los evaluadores de riesgos, la herramienta permite la navegación por el conjunto de datos clasificada de diversas maneras y compartir los datos con otros usuarios. Se presenta una evaluación directa y basada en el usuario que muestra que la tecnología integrada en la herramienta es muy precisa, y presenta una serie de estudios de casos que demuestran cómo la herramienta se puede utilizar para apoyar los descubrimientos científicos en la evaluación del riesgo de cáncer y la investigación. Nuestro trabajo demuestra la utilidad de una tubería de minería de texto para facilitar las tareas de investigación en biomedicina complejas. Asimismo, discutir el desarrollo y la aplicación de nuestra tecnología a otros tipos de evaluación del riesgo químico en el futuro
Visto:. Korhonen A, O Séaghdha D, Silins I, Sun L, J Högberg, Stenius T (2012) Texto Minería de revisión de la literatura y de descubrimiento de conocimiento en la evaluación de riesgos e Investigación del cáncer. PLoS ONE 7 (4): e33427. doi: 10.1371 /journal.pone.0033427
Editor: Neil R. Smalheiser, Universidad de Illinois en Chicago, Estados Unidos de América
Recibido: 25 Noviembre 2011; Aceptó 8 de febrero de 2012; Publicado: 12 Abril 2012
Derechos de Autor © 2012 Korhonen et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. AK y DOS son apoyados por Ingeniería y Ciencias físicas Research Council (www.epsrc.ac.uk) subvención EP /G051070 /1 a AK. LS es apoyado por un premio Dorothy Hodgkin Postgrado. Es decir, Estados Unidos y JH son apoyados por el Consejo Sueco de Investigación (http://www.vr.se/). Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
una nueva investigación en biomedicina depende de hacer un uso eficiente de los conocimientos científicos existentes - una tarea que los bio-científicos están encontrando cada vez más difícil. Teniendo en cuenta la tasa de crecimiento exponencial doble de la literatura biomédica en los últimos años [1], ahora hay una necesidad urgente de desarrollar una tecnología que puede hacer que la información publicada en la literatura más accesible y útil para los científicos. Esta tecnología se puede basar en la minería de texto. Sobre la base de las técnicas de procesamiento de lenguaje natural, la recuperación de información y minería de datos, minería de texto puede recuperar automáticamente, extraer y descubrir nueva información, incluso en grandes colecciones de texto escrito. A pesar de que aún no puede reemplazar a los humanos en tareas complejas, puede permitir a los seres humanos para identificar y verificar la información requerida en la literatura de manera más eficiente y descubrir información relevante oscurecida por el volumen de información disponible.
En los últimos años, la minería de textos biomédicos, aumentado en popularidad. Se han desarrollado técnicas para ayudar, por ejemplo, la extracción de documentos, bases de datos, diccionarios, ontologías, resúmenes e información específica (por ejemplo, las interacciones entre las proteínas y los genes, las nuevas hipótesis de investigación) a partir de la bibliografía pertinente [2] - [4]. Evaluación de tales técnicas ha revelado resultados prometedores. Sin embargo, gran parte de la evaluación ha sido directa en la naturaleza y ha empleado criterios de referencia predeterminados. En la actualidad existe un reconocimiento general de la necesidad de impulsar la investigación de minería de texto biomédica más cerca de la práctica: la integración de la tecnología para apoyar las tareas científicas de la vida real (por ejemplo, el proceso de descubrimiento científico) y para evaluar su utilidad en el contexto de dichas tareas [3] , [5].
Una serie de estudios han respondido a esta necesidad de una evaluación centrada en el usuario, aunque la realización de estudios de usuarios todavía está lejos de ser universal. Algunos estudios han medido el grado en que semi-automatización puede acelerar una curación u otro flujo de trabajo [6] - [8]. Una segunda línea, más estrechamente relacionado con nuestro trabajo, busca descubrir nuevas relaciones entre las entidades biológicas que son compatibles con, pero no explicitados en la literatura [9] - [11]; por ejemplo, la existencia de una relación conocida entre una enfermedad y un gen y entre el mismo gen y un fármaco podría sugerir un papel para el medicamento en el tratamiento de la enfermedad. evaluación de los usuarios en este contexto implica comparar las relaciones propuestas a las hipótesis sugeridas anteriormente y hacer juicios cualitativos en cuanto a si que parecen ofrecer direcciones fructíferas para futuras investigaciones. Nuestros estudios de casos siguen el mismo modelo básico, aunque la tarea en cuestión, que requiere un análisis sintético de los resúmenes completos, es una más compleja que la clasificación de las relaciones entre la entidad menciona.
En este artículo presentamos una nueva, totalmente integrado sistema de minería de texto diseñado para apoyar la tarea compleja y altamente dependiente de la literatura de evaluación de riesgos de salud química. Esta tarea es crítica porque los productos químicos juegan un papel importante en la vida cotidiana y su riesgo potencial para la salud humana deben ser evaluados. Con miles de productos químicos introducidos todos los años, muchos países del mundo han establecido leyes cada vez más estrictas que regulan su producción y uso. Por ejemplo, el reciente registro de la Unión Europea, la evaluación, la autorización y la restricción (REACH) la legislación [12] requiere que todas las sustancias químicas fabricadas o importadas en grandes cantidades deben someterse a una evaluación exhaustiva de los riesgos.
La evaluación de un gran número de productos químicos es más fácil decirlo que hacerlo. Utilizando la metodología disponible en la actualidad, se tarda hasta dos años para evaluar un solo producto químico [13]. Aunque el desarrollo de un sistema totalmente novedoso para las pruebas de toxicidad puede ayudar a mejorar la eficiencia de la evaluación química a largo plazo [14], existe una necesidad apremiante de mejorar el estado de la técnica en el corto y medio plazo.
evaluación de riesgos química es un proceso complejo que consta de varias etapas de componentes. El primer componente principal es típicamente una extensa revisión y análisis de los datos científicos disponibles sobre el producto químico en cuestión. Esta revisión se centra en los datos de relevancia potencial - no sólo los datos en seres humanos, sino también a los animales, celulares (in vitro) y otros datos de mecanismos [15]. La fuente principal de esta técnica ha sido pares científicos revisa la literatura.
De acuerdo con un reciente informe, los evaluadores de riesgos se encuentran la recopilación y análisis de la literatura prohibitivamente tiempo [16]. Esto no es sorprendente ya que las ciencias biomédicas, que la evaluación del riesgo químico se basa en (epidemiología, biología celular, y la investigación sobre el cáncer, entre muchos otros) están desarrollando más rápidamente que nunca. Este desarrollo se puede observar examinando el crecimiento de MEDLINE (Análisis de Literatura Médica y recuperación del sistema en línea) - la Biblioteca Nacional de EE.UU. (NLM) de primera base de datos de Medicina bibliográfica que es un recurso abundante literatura empleado en la evaluación actual del riesgo químico. En 2005, esta base de datos incluye 13 millones de referencias. Hoy incluye más de 18 millones, con 2.000-4.000 referencias añadidas a MEDLINE cada día; de hecho, la base de datos está creciendo a un ritmo de dos exponencial [1]. Los datos para un solo producto químico pueden encontrarse dispersos a través de miles de artículos de revistas (por ejemplo, MEDLINE incluye más de 30.000 artículos para el cadmio).
En la actualidad, los evaluadores de riesgos y los científicos utilizan sistemas como PubMed para reunir la literatura relevante de bases de datos . Estos sistemas devuelven una lista de artículos de revistas en respuesta a las consultas basadas en palabras clave. Sin embargo, dada la gran variedad y complejidad de los datos científicos utilizados para la evaluación de riesgos, el número de palabras clave, sus sinónimos y combinaciones posibles, simplemente excede lo que los evaluadores de riesgos humanos pueden memorizar razonable y manejar. Lo que es esencialmente necesario es mucho más potente tecnología que va más allá de la búsqueda basada en palabras clave - la tecnología que categoriza y ocupa diversos datos científicos sobre la base de su relevancia, se establecen vínculos entre artículos de otro modo sin conexión, y crea resúmenes, estadísticas, visualizaciones y nuevas hipótesis de la literatura científica, dejando a los evaluadores de riesgos para explorar los datos estructurados resultantes. El trabajo que aquí comparte algunos de los objetivos del proyecto MEDLINE semántica [17], [18] en la adición de una capa de "semántica" de procesamiento automático sobre la funcionalidad de recuperación basada en palabras clave de PubMed o un motor de búsqueda similar. Creemos que nuestro trabajo se distingue de MEDLINE Semántica mediante el uso de métodos estadísticos de PNL, por el enfoque en un entorno con una información distintiva tarea poco explorada necesitar y por nuestro enfoque en la evaluación centrado en el usuario.
Si un dedicado herramienta de minería de texto fue desarrollado para la evaluación del riesgo químico que podría ser utilizado para identificar de manera efectiva, la mía, y clasificar los datos científicos en la literatura biomédica, así como para descubrir nuevos patrones en los datos clasificados. Facilitar la evaluación a gran escala de los datos existentes, una herramienta de este tipo podría ofrecer los medios para mejorar la exactitud, exhaustividad y eficacia para la evaluación del riesgo químico. La herramienta también podría utilizarse para apoyar la investigación científica en los campos en que se basa la evaluación de riesgos.
En Korhonen et al. [16] nos dieron el primer paso hacia el desarrollo de la tecnología de minería de texto para la evaluación de riesgos químicos, centrándose en la evaluación del riesgo de cáncer. Hemos introducido una taxonomía básica que cubre los principales tipos de pruebas científicas utilizadas para la determinación de las propiedades carcinógenas de sustancias químicas, y un enfoque de aprendizaje automático supervisado que se puede utilizar para clasificar MEDLINE resúmenes a clases de taxonomía pertinentes. La evaluación mostró que la taxonomía está bien formado y que el enfoque de aprendizaje automático es bastante exacta. Aunque el experimento fue de pequeña escala y no se realizó una evaluación de la utilidad práctica de la tecnología para la evaluación del riesgo en la vida real, sin embargo, los resultados fueron prometedores
Tomamos esta línea de investigación mucho más allá e introducir cangrejo. - una herramienta de minería de texto totalmente integrado destinado a apoyar todo el proceso de revisión de la literatura y el descubrimiento de conocimiento en la evaluación del riesgo de cáncer. A disposición de los usuarios finales a través de una interfaz Web en línea, que permite acceder a PubMed, la descarga de resúmenes científicos sobre los productos químicos elegidos, y clasificarlos de acuerdo a una amplia taxonomía utilizando la tecnología de aprendizaje automático supervisado. La herramienta permite la navegación por el conjunto de datos clasificada de diversas maneras y compartir los datos con otros usuarios. Presentamos tanto la evaluación directa y basada en tareas de la tecnología integrada en la herramienta, junto con una serie de estudios de casos que demuestran la utilidad de la herramienta en el apoyo de descubrimiento de conocimiento en la evaluación del riesgo de cáncer y la investigación
.
Nuestra investigación demuestra que una tubería relativamente ambicioso minería de texto que consta de dos etapas de recuperación y multi-clasificación puede ser útil para tareas complejas de investigación en biomedicina. Aunque actualmente aplicable al cáncer, la herramienta podría ser francamente adaptado para soportar la evaluación y el estudio de otros riesgos importantes para la salud relacionados con los productos químicos (por ejemplo, alergia, asma, trastornos reproductivos, entre muchos otros).
Métodos
los siguientes tres subsecciones describen los componentes clave de CANGREJO: la taxonomía evaluación del riesgo de cáncer, el corpus de resúmenes en MEDLINE anotado de acuerdo con las clases de taxonomía, y el clasificador basado en el aprendizaje de máquina. La sub-sección final presenta la estructura general de la herramienta CANGREJO junto con la interfaz de usuario.
Taxonomía
En el corazón de cangrejo es una taxonomía desarrollada por los expertos en la investigación del cáncer, que especifica científica tipos de datos de relevancia para la evaluación del riesgo de cáncer. Tomamos la taxonomía de Korhonen et al. [16] como punto de partida y extendida y refinado de varias maneras. La taxonomía resultante incluye tipos de datos mencionados en las directrices de evaluación de riesgo de cáncer públicamente disponibles (por ejemplo, normas de la EPA de los Estados Unidos [15]), así como datos adicionales y más detalladas y recientes descubiertas en el análisis experto de la literatura de evaluación de riesgos.
La taxonomía tiene dos partes principales. La primera parte (que se muestra en la Figura 1) se centra en
Evidencia Científica para carcinogénico Actividad
. Cuenta con cinco clases de nivel superior que representan diferentes tipos de evidencia científica:
estudio humano /Epidemiología
,
Animales
estudio,
experimentos celulares
,
Estudio sobre micro
organismos, y
sistemas subcelulares
. Algunos de éstos dividen en sub-clases; por ejemplo,
estudio humano
tiene cinco subclases incluyendo
relacionados con el tumor
y
El polimorfismo
. Adoptamos todas las clases de nivel superior y la mayoría de las subclases propuestas por Korhonen et al. [16]
La segunda parte de la taxonomía (que se muestra en la Figura 2) se centra en
Modo de acción gratis (MOA;. Es decir, la secuencia de los acontecimientos clave que dan lugar a la formación de cáncer , por ejemplo, mutagénesis, el aumento de la proliferación celular, y la activación del receptor), la captura de la comprensión actual de diferentes procesos que conducen a la carcinogénesis. Tomamos la sencilla taxonomía de MOA Korhonen et al. [16], que distingue dos tipos de uso común MOA -
genotóxico gratis (es decir, un carcinógeno se une al ADN) y
no genotóxico /indirecta genotóxico gratis (es decir, un carcinógeno no se une al ADN) - como punto de partida. Añadimos cuatro subclases bajo el
no genotóxico /indirecta
genotóxico clase (
Co-iniciación
,
Promoción
,
La progresión
y
Multifase
), siguiendo la clasificación MOA recientemente propuesta del Hattis et al. [19]. Cada una de estas clases se divide en sub-clases de acuerdo a los tipos de pruebas que pueden indicar el tipo MOA en cuestión. Por ejemplo,
La citotoxicidad
puede proporcionar evidencia tanto de
Promoción
y
Multifase
no genotóxico MOA.
La taxonomía resultante contiene 47 clases . Cada clase se asocia con una serie de palabras clave y frases clave () que, cuando se encuentran en la literatura, son buenos indicadores de la presencia del tipo de datos científicos en cuestión (por ejemplo, el
La muerte celular
clase en el
MOA
parte de la taxonomía incluye palabras clave como
apoptosis
,
fragmentación del ADN
,
caspasa-9
,
BCL2
,
Bax
,
apoptosome
,
la muerte celular programada
,
Fas
,
necrótico muerte celular
, y
viabilidad
). La Figura 3 muestra las palabras clave representativos de cada clase en el
Evidencia Científica para carcinogénico Actividad
rama taxonomía. La Figura 4 presenta ejemplos de palabras clave para el
MOA
rama taxonomía. Las palabras clave que se muestran fueron seleccionados a partir del corpus anotado se describe a continuación.
Debido al rápido desarrollo de la ciencia una taxonomía como esto nunca será completa. Sin embargo, se puede ampliar y actualizar fácilmente por los expertos en el uso de nuestra herramienta.
anotado Corpus
El software de clasificación CANGREJO requiere como datos de formación de un corpus (es decir, una colección) de MEDLINE resúmenes que han sido clasificadas manualmente de acuerdo con la taxonomía. El Korhonen et al. [16] corpus fue creado mediante la selección de ocho productos químicos que son (i) bien investigado el uso de una amplia gama de pruebas científicas, y que (ii) representan los dos más frecuentemente utilizado MOA (
genotóxico
y
no -genotoxic
): 1,3-butadieno, benzo (a) pireno, diethylnitrosamine, estireno, cloroformo, dietilestilbestrol, fumonisina B1 y fenobarbital. Se identificó a continuación un conjunto de 15 revistas que se utilizan con frecuencia para la evaluación del riesgo de cáncer y proporcionar conjuntamente una buena cobertura en los diferentes tipos de pruebas científicas pertinentes para la tarea (por ejemplo, la investigación de cáncer, Carcinogénesis, Environmental Health Perspectives, Mutagénesis, entre otros). A partir de estas revistas, se han descargado todos los resúmenes devueltos por PubMed para los años 1998 a 2008, que incluyen uno de los 8 productos químicos (1297 resúmenes en total). Cada resumen se examinó por un experto en la evaluación del riesgo de cáncer y se asigna a las clases de taxonomía pertinentes a través de la anotación de palabras clave. Una herramienta de anotación fue desarrollada y utilizada en este trabajo (ver Korhonen et al [16] para más detalles.)
El conjunto de datos anotada está disponible bajo una licencia Creative Commons Reconocimiento No comercial (Información S1 y S2).; por lo que sabemos, esta es la primera vez que un corpus de datos de anotación riesgo químico ha sido a disposición del público.
re-anotado el corpus de Korhonen et al. [16] utilizando nuestra taxonomía y ampliado considerablemente: se seleccionaron doce productos químicos adicionales (que se muestran en la Tabla 1) - los que colectivamente representan los tipos de evidencia científica y MOA cubierto por nuestra taxonomía extendida. Los resúmenes devueltos por una búsqueda en PubMed para estos productos químicos (todos de los años 1999-2009) fueron descargados y anotados por los evaluadores de riesgo de cáncer utilizando la herramienta de anotación de Korhonen et al. [dieciséis]. El corpus combinada resultante consiste en 3078 MEDLINE resúmenes anotados de 20 productos químicos. El número total de resúmenes y palabras clave anotados pertenecen a cada clase taxonomía se muestra en la Figura 5 (véanse las columnas 1-3). Podemos ver que los resúmenes 1292 se han clasificado de acuerdo con el
Evidencia Científica para carcinogénico Actividad
sub-taxonomía, mientras que 1.766 han sido clasificadas de acuerdo a la taxonomía MOA. El número de resúmenes y palabras clave individuales asociados con las clases de primer nivel es alto, pero conseguir cada vez más pequeña a medida que avanzamos en los niveles más profundos de la taxonomía.
experimentos de clasificación
Clasificador
El clasificador asigna CANGREJO MEDLINE resúmenes invisibles a las clases taxonómicas apropiadas usando una técnica de aprendizaje automático supervisado. La técnica no se basa en palabras clave predefinidas, sino que utiliza un conjunto de características lingüísticas de documentos (que se describe más adelante) y las anotaciones asociadas corpus (que se describe en la sección anterior), como datos de entrenamiento para lograr un rendimiento óptimo
.
Korhonen et al. [16] utilizó un conjunto de Apoyo Vector Machine (SVM) clasificadores [20], uno para cada clase de taxonomía, para decidir cuál (si los hay) clases de taxonomía describir el contenido de un resumen. Dado que las SVM han obtenido buenos resultados en muchas tareas de minería de textos [2], [21] y ya que dado resultados prometedores en los experimentos preliminares de Korhonen et al. [16] También los usamos en nuestro sistema. Sin embargo, se introduce un modelo mejorado y características adicionales para obtener un mejor rendimiento en nuestra tarea.
Al igual que en otros clasificadores bien conocidos, tales como la regresión logística o el perceptrón, las SVM separan un conjunto de datos de entrenamiento en dos clases por el aprendizaje de una función de decisión que corresponde a una combinación de valores de características y pesos de características. Por SVMs esta función se puede escribir como: (1) donde es un vector de pesos aprendió de datos de entrenamiento y es una función que asigna puntos de datos desde el espacio de entrada a un (potencialmente diferente) "espacio de características". El algoritmo de entrenamiento de SVM establece el vector de peso en correspondencia con el
max-margen
principio, la elección de la frontera que maximiza la separación entre clases. A menudo, la asignación de espacio de características no tiene que ser calculado directamente como su efecto puede ser capturado mediante el uso de un
función kernel
que compara dos puntos de datos; esto permite que las SVM para aprender límites de decisión no lineales, manteniendo la eficiencia computacional de la clasificación lineal. Los libros [22], [23] proporcionará una visión general completa de las SVM y de núcleo métodos en general.
Una de las funciones estándar del núcleo es el producto escalar o
núcleo lineal, que utilizamos en Korhonen et al. [16] :( 2) Una función kernel alternativa, adecuada para la comparación de las distribuciones de probabilidad (o vectores L1-normalizadas), se puede derivar de la divergencia Jensen-Shannon (JSD) [24] a través de un método propuesto por Hein y Bousquet [25 ] :( 3) Ó Séaghdha y Copestake [26] demuestran que este
JSD kernel
rinde sustancialmente mejor rendimiento que el núcleo lineal en un rango de tareas de clasificación en el procesamiento del lenguaje natural; por lo tanto, lo aplicamos aquí con la esperanza de que mejorará la exactitud de nuestra anotación resumen automático.
Los resúmenes de entrada a la tubería clasificación como PubMed XML, del que se extrae el contenido del resumen y un poco de margen de beneficio asociado . El texto del resumen se tokenised (dividida en sus componentes fichas de palabras) utilizando el kit de herramientas OpenNLP [27] y se transforma en una "bolsa de las palabras" vector de características que almacena el número de veces que cada palabra aparece en el texto. Un conjunto separado de características registra las palabras que aparecen en el título del resumen, para capturar la intuición de que las palabras del título tienen un estatus privilegiado para identificar el tema principal de un artículo. Estas características se complementan con la malla (
encabezamientos de temas médicos
) las posiciones proporcionadas por MEDLINE; por ejemplo, un resumen se puede haber dado los títulos descriptivos
Interacciones con otros medicamentos
y
inhibidores de la enzima
. Las categorias de los padres o
hiperónimos Red de estos epígrafes de se añaden también la taxonomía MeSH; por ejemplo, los hiperónimos de
Los inhibidores enzimáticos incluyen
Mecanismos
moleculares de acción
y
Acciones Farmacológicas
. Por último, todas las cadenas de caracteres de longitud 7 (incluyendo puntuacion y espacios frase-interno) se extraen del texto y convertidos a otro conjunto de características; la longitud de la secuencia propuesta de 7 sigue Wang et al. [28], pero el uso de características basadas en caracteres de comparación de cadenas tiene una larga historia en la bioinformática, por ejemplo
espectro kernel Red de Leslie et al. [29].
En comparación con el sistema de Korhonen et al. [16], nuestro sistema integra los siguientes parámetros: (1) el uso del núcleo de JSD en lugar de el núcleo lineal; (2) el uso de características de palabras del título; . (3) la adición de hiperónimos MeSH
El clasificador asociado con cada clase taxonomía predice una etiqueta binaria; un resumen se clasifica como ser etiquetado con esa clase o no. Cada clasificador es entrenado de forma independiente y hace su predicción independientemente de los otros clasificadores. Sin embargo, el hecho de que las clases se encuentran en una taxonomía significa que hay en las dependencias de datos entre ellos; si el resumen es un ejemplo positivo para
roturas de la cadena
entonces también es, por definición, un ejemplo positivo para
modo de acción genotóxico
. Dichas dependencias son capturados por una etapa de post-procesamiento en el que las clasificaciones positivas en una clase dada se propagan hasta la taxonomía a todas las clases más altas.
La herramienta CANGREJO
En estrecha consulta con los evaluadores de riesgos, desarrollamos una herramienta en línea de minería de texto que integra los componentes descritos en los apartados anteriores. La herramienta tiene una estructura segmentada, como se ilustra en la Figura 6. El usuario puede definir el producto químico (s) de interés y descargar la colección correspondiente de los resúmenes de PubMed en formato XML. Los resúmenes son entonces preprocesados y clasificadas de acuerdo a la taxonomía como se ha descrito anteriormente. CANGREJO muestra, para un producto químico determinado, la distribución de los resúmenes de anuncios en diferentes partes de la taxonomía. El usuario puede navegar por el conjunto de datos mediante la selección de una clase de taxonomía y la visualización de todos los resúmenes clasificados como positivos para esa clase. El usuario también puede dar retroalimentación al sistema mediante el marcado de etiquetas clasificadas erróneamente; éstos se retiran de la pantalla. Los resultados se almacenan en una base de datos MySQL, lo que permite el acceso a datos persistentes: los resultados de las sesiones anteriores pueden ser revisados y compartirlos con otros usuarios. La Figura 7 muestra las capturas de pantalla que ilustran algunas de las funciones de la herramienta. Hemos hecho CANGREJO a disposición de los usuarios finales a través de una interfaz Web en línea que es accesible a petición a través de http://omotesando-e.cl.cam.ac.uk/CRAB/request.html.
los experimentos aquí utilizan la aplicación SVM proporcionada por la biblioteca LIBSVM [30], modificado para requisitos particulares para facilitar el uso del kernel JSD. Durante el entrenamiento, también realizamos la selección de características para eliminar las muchas características no predictivas en aras de una mayor eficiencia y precisión. Cada característica se puntuó de acuerdo a su poder discriminativo sobre la formación de datos utilizando el
F-Resultado
método de Chen y Lin [31]. La validación cruzada de los datos de entrenamiento se utiliza para elegir la proporción de características de desprenderse; esto se hace mediante la medición de rendimiento con la parte superior de puntuación de características y mantener el subconjunto que da el mejor rendimiento. El clasificador SVM tiene dos parámetros utilizados en el entrenamiento, el parámetro "costo" y el parámetro de peso que establece la ponderación relativa de los ejemplos positivos de formación; juega un papel importante cuando algunas etiquetas son muy raros, como en la aplicación en cuestión. Al igual que en el proceso de selección de características, ambos parámetros se definen a través de un procedimiento de búsqueda de cuadrícula que explora el rango
Se utilizó una metodología de 10 veces la validación cruzada en nuestra evaluación:. El conjunto de datos se divide aleatoriamente en 10 particiones disjuntos y tomando una partición a la vez que el clasificador está entrenado en los otros nueve particiones y hecho para predecir el etiquetado de los resúmenes en la partición seleccionada. De esta manera, cada resumen se etiqueta exactamente una vez y podemos evaluar estas predicciones usando medidas de precisión (), Recall () y F-medida (, que no debe confundirse con el F-score utilizado para la selección de funciones) :( 4) ( 5) (6), donde, y se coloquen para el número de verdaderos positivos, falsos positivos y falsos negativos, respectivamente. Estas medidas de evaluación son estándar en el procesamiento del lenguaje natural y la minería de texto. Dado un conjunto de predicciones de la etiqueta para todos los elementos de datos, precisión, recordar y F-medida se calcula independientemente para cada etiqueta. Con el fin de producir una medida de rendimiento general estas puntuaciones para cada etiqueta se pueden promediar (
macro-media
) o cifras sola precisión y la recuperación puede ser calculado para todo el conjunto de datos y un
micro-media
F-medida producida utilizando la fórmula en (6). el rendimiento promedio de las micro-tiende a ser dominado por las clases más prevalentes, mientras trata de rendimiento macro-un promedio de todas las clases por igual.
experimentos de usuario y estudios de casos
Se realizó una prueba de usuario para medir la aceptabilidad de la salida del clasificador a los evaluadores de riesgo que se vaya a utilizar durante su trabajo. Se seleccionaron siete productos químicos cancerígenos (ver la primera columna de la Tabla 2); ninguno de estos productos químicos se haya utilizado previamente para los propósitos de anotación, clasificación o evaluación. Un corpus de prueba se recoge para cada producto químico mediante la búsqueda en PubMed para todos los artículos de revisión no se mencionará el producto químico que se publicaron entre 1996 a 2010 (a partir del 7 diciembre de 2010) en las revistas que aparecen en la Tabla 3. El conjunto de datos resultante contenía 2546 resúmenes. Al igual que en el uso realistas, muchos de estos resúmenes son irrelevantes para la evaluación del riesgo de cáncer; el clasificador debe distinguir los artículos pertinentes de los artículos irrelevantes, así como etiquetas de clase apropiadas asignar. Los cuerpos de prueba fueron sometidos al sistema de clasificación para la anotación automática.
Los resúmenes clasificados como positivos para al menos una clase de taxonomía fueron inspeccionados por dos evaluadores de riesgos que trabajan de forma independiente. Ellos deciden si los resúmenes devueltos para cada clase fueron etiquetados o no correctamente. Después de la primera ronda completa de anotación, el nivel de acuerdo entre los evaluadores se calculó como la proporción de las clasificaciones de la que ambos anotadores tomado la misma decisión. No hicimos uso de la medida de concordancia kappa interannotator [32], que se utiliza a menudo en la PNL, ya que no es interpretable cuando la distribución de clases es extremadamente sesgada; si alguno anotador aplica la misma etiqueta a todas las instancias (en nuestro caso, lleva el comportamiento deseado de la anotación de todo volvió resúmenes como positivo) el valor Kappa será cero. El hecho de que la distribución marginal de las clases tanto en el propio conjunto de datos y en los juicios de anotadores afecta a la gama de posibles y probables Kappa resultados se ha observado en una serie de estudios [33] - [35]. Este tipo de estudios a menudo recomiendan que las estadísticas adicionales pueden registrar como una ayuda para interpretar mejor el significado de una puntuación Kappa dado; Sin embargo, en el caso en el que un anotador sólo utiliza una etiqueta el efecto alcanza un estadio patológico donde Kappa siempre es igual a cero, independientemente de las decisiones del otro anotador y no es esencialmente nada que interpretar.
Un beneficio obvio de una minería de texto herramienta como el cangrejo es mucho mejor eficiencia de un componente importante de la evaluación de riesgos: la revisión de los datos científicos existentes sobre el producto químico en cuestión. evaluadores de riesgos humanos pueden pasar meses la realización del examen parcial de la literatura relevante en MEDLINE [16], mientras que CANGREJO puede llevar a cabo una revisión exhaustiva en cuestión de segundos. Otra ventaja importante es la capacidad de realizar la clasificación multidimensional de la literatura de acuerdo con la taxonomía, es decir, los diferentes tipos de evidencia científica cada artículo ofrece una evaluación de riesgos. Este tipo de clasificación sería extremadamente difícil y requiere mucho tiempo para llevar a cabo a mano, especialmente para los evaluadores de riesgos sin experiencia, sin embargo, puede ser muy valiosa, ya que permite a ambas descripciones cuantitativas y cualitativas de los datos disponibles.
Hemos llevado a cabo una serie de estudios de casos para demostrar cómo tales descripciones se puede utilizar para apoyar la evaluación del riesgo de cáncer y la investigación. La metodología de estos estudios incluyeron el trazado de la distribución a través de las etiquetas asignadas por el clasificador para el conjunto completo de MEDLINE resúmenes citan sustancias químicas de interés directo para los evaluadores de riesgos. Estos resultados cuantitativos se comparan con las propiedades conocidas de cada producto químico y también se utiliza para generar nuevas hipótesis que merecen una investigación experimental.
Resultados
En este apartado se presentan tanto la evaluación directa y basada en el usuario de la tecnología de clasificación, y estudios de casos actuales destinado a investigar la utilidad de la herramienta de cangrejo para la evaluación del riesgo de la vida real.
resultados clasificación
en primer lugar, tomamos la taxonomía extendida y conjunto de datos y evaluaron la exactitud de