Extracto
desregulada microARN (miARN) expresión es una característica bien establecida de cáncer humano. Sin embargo, el papel de miRNAs específicos en la determinación de los resultados del cáncer sigue siendo poco clara. Utilizando datos del Nivel 3 de expresión del Atlas del Genoma del Cáncer (TCGA), se identificaron 61 miRNAs que están asociados con la supervivencia global en 469 cánceres de ovario perfiladas por microarrays (p & lt; 0,01). También se identificaron 12 miRNAs que están asociados con la supervivencia cuando miRNAs fueron perfilados en las mismas muestras utilizando Generation Sequencing siguiente (miARN-Sec) (p & lt; 0,01). Sorprendentemente, sólo el 1 transcripción de los genes miARN se asocia con la supervivencia del cáncer de ovario en ambos conjuntos de datos. Nuestros análisis indican que esta discrepancia se debe al hecho de que los niveles de miARN reportados por las dos plataformas correlacionan mal, incluso después de corregir posibles problemas inherentes a la señal algoritmos de detección. Correcciones sobre la falsa descubrimiento y la abundancia de microARN tuvieron un impacto mínimo sobre esta discrepancia. debe ampliarse la investigación
Visto:. Wan Y-W, Mach CM, Allen GI, Anderson ML, Liu Z (2014) sobre la reproducibilidad del TCGA cáncer ovárico MicroARN perfiles. PLoS ONE 9 (1): e87782. doi: 10.1371 /journal.pone.0087782
Editor: Amanda Ewart Toland, Ohio State University Medical Center, Estados Unidos de América
Recibido: 6 de Noviembre de 2013; Aceptado: 1 Enero 2014; Publicado: 29 Enero 2014
Derechos de Autor © 2014 Wan et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Financiación:. Este trabajo está apoyado en parte por los avances de colaboración en el Programa de Financiación de la semilla de Informática Biomédica del Instituto Kennedy Ken de Tecnología de la Información de la Universidad Rice apoyados por el Fondo John y Ann Doerr de Biomedicina Computacional ya través del Centro de Computación y el programa de capital semilla Integral de Investigación Biomédica en Baylor College of Medicine. GA también es apoyado en parte por la NSF DMS-1209017. ZD es apoyado por la Fundación Houston Bioinformática y NSF DMS-1263932. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
Los microARN (miRNA) son las transcripciones de ARN endógenos que regulan diversos patrones de expresión de genes [1]. La mayoría de los miRNAs humanos se transcriben como precursores largos conocidos como pri-miRNAs. Comenzando en el núcleo, pri-miRNAs se someten a una serie de eventos de procesamiento que finalmente resultan en la liberación citoplásmica de los transcritos maduros $ ~ $ 22 nucleótidos de longitud. miRNAs maduro catalizar inhibición de la traducción uniéndose directamente a los ARN mensajeros (ARNm) y la promoción de su degradación [2]. Datos recientes indican que miRNAs pueden inhibir la traducción independiente de su capacidad para inducir la degradación del ARNm.
Los patrones de expresión de los genes miARN han sido ampliamente perfilado en tejidos humanos. Ahora está claro que la expresión de los genes miARN dysregulated es una característica de muchos tipos de cáncer diferentes, incluyendo los carcinomas de mama, ovario y pulmón [3] - [5]. Sin embargo, la determinación de los mecanismos por los que los miRNAs individuales contribuyen a los resultados del cáncer sigue siendo un desafío clave para los biólogos esperan explotar su poder. Recientemente, el Atlas del Genoma del Cáncer Oral (TCGA) informó que los cánceres de ovario se agrupan en subtipos moleculares distintos en función de sus patrones de expresión de genes y microARN [6]. Sin embargo, hemos descubierto una alarmante falta de coherencia entre los perfiles de expresión de microARN (miARN) utilizados inicialmente por el TCGA y un perfil subsiguiente de los genes miARN expresión generada por este grupo para las mismas muestras de cáncer de ovario utilizando miARN-Seq. A medida que estas observaciones cuestionan la validez de los datos subyacentes, también sugieren que los descubrimientos científicos basados únicamente en estos datos deben interpretarse con precaución.
Resultados
Para delinear miRNAs asociados con la supervivencia de los pacientes de cáncer de ovario , se realizó un análisis de regresión de Cox univariante utilizando datos del Nivel 3 TCGA miARN de 469 cánceres de ovario perfiladas utilizando la tecnología de microarrays de Agilent. El análisis de regresión inicial se refinó aún más por el uso del procedimiento Benjamini-Hochberg (BH) para ajustar por múltiples hipótesis de prueba [7]. Se encontró que el 16 miRNAs maduros están asociados significativamente con la supervivencia del cáncer de ovario (FDR & lt; 0,01) (Figura 1A). De ellos, miR-505, miR-652 y miR-551b * demuestran las asociaciones más sólidas. Las razones de riesgo (HR) calculados para estos miRNAs fueron -1.73, -1.8 y 9.3, respectivamente. Este resultado indica que cada uno de estos miRNAs puede desempeñar un papel importante en la determinación de la supervivencia del cáncer de ovario.
parcelas P-valor de regresión de Cox univariante para microARN asociados con la supervivencia del cáncer de ovario identificados por microarrays (A) o miRNA-Sec (B) de datos. Valor de p & lt; 0,01 (línea continua). tasa de falso descubrimiento (FDR) & lt; 0,1 (línea de puntos). Tanto en A & amp; B, puntos azules indican miRNAs asociados con la supervivencia en un array miARN, mientras que los puntos rojos indican miRNAs asociados con la supervivencia de miR-Sec. estrellas verdes son miRNAs asociados con la supervivencia en ambos conjuntos de datos. (C) el porcentaje de miRNAs entre la matriz y la plataforma ss NGS al diferente umbral de corte para los valores de p Cox superpuestas, BH ajusta FDR, y valores de Q plantas.
Para validar estas observaciones, a continuación interrogado a un segundo conjunto de datos de expresión de miRNA generada por las mismas muestras de cáncer de ovario utilizando Next Generation Sequencing (miARN-Sec). El proyecto cáncer de ovario TCGA es único en el que la expresión de los genes miARN se ha perfilado utilizando tanto matriz miARN y miARN-Seq. Estas plataformas distintas técnicamente crean una oportunidad única para validar los descubrimientos realizados utilizando un conjunto de datos contra el otro. Idealmente, los resultados obtenidos deben correlacionarse bien. Utilizando el análisis de riesgos proporcionales de Cox, se encontró que 4 transcripciones miARN están asociados con la supervivencia cuando miRNAs fueron perfilados en los cánceres de ovario utilizando miARN-Sec en un nivel FDR idénticos (Figura 1B). No hay coincidencia entre los resultados obtenidos a partir de estas dos plataformas, a pesar de que ambos conjuntos de datos se generan a partir de las mismas muestras.
Para determinar si el microarray y las plataformas de nueva generación darán resultados más consistentes cuando se analizaron utilizando una umbral relajado, hemos bajado el p-valor umbral utilizado para nuestro análisis a 0,01. Esto dio lugar a más miRNAs asociados significativamente con la supervivencia de los pacientes en ambos conjuntos de datos. Por ejemplo, se identificaron 61 miRNAs de datos generados usando la plataforma de matriz. Sin embargo, las razones de riesgo estimado para los 12 miRNAs identificados a partir de los datos de los genes miARN-Seq son todos muy cercano a 1.0. Sólo el miR-652 se asocia con la supervivencia tanto en el miARN-Sec y conjuntos de datos de microarrays. Para corregir las múltiples pruebas de hipótesis, hemos ajustado nuestros valores de p modelo de Cox utilizando el procedimiento Benjamini-Hochberg [7]. Después de completar estos análisis, no hay miRNAs se correlacionan con la supervivencia en ambos conjuntos de datos cuando la tasa de falso descubrimiento se fijó en 10%.
Para determinar si la elección de un procedimiento de ajuste de múltiples hipótesis contribuye a estos resultados, se volvieron a analizar los datos del TCGA utilizando un procedimiento de estimación alternativa valor q [8]. Además, se calculó el porcentaje de superposición de miRNAs en diferentes FDR o p-valor de corte. Nuestros resultados indican que el número limitado de miRNAs superposición entre las dos plataformas es independiente de la elección del procedimiento de ajuste de múltiples hipótesis o umbrales de corte (Figura 1C).
Para dilucidar las posibles causas de esta discrepancia inesperada, nos examinado la reproducibilidad de la expresión de los genes miARN entre los dos archivos TCGA que describen estos datos. los coeficientes de correlación de Pearson (r) se calcularon para cada uno de los 359 miRNAs humanos maduros los que se dispone en las bases de datos de miRNA-seq y microarrays Nivel 3 datos de expresión. Se encontró que los coeficientes de correlación para los niveles de miRNAs individuales reportados por cada técnica variado ampliamente. Por ejemplo, el miR-505 es la más robusta miARN asocia con la evolución del paciente en nuestro análisis de la matriz de datos miARN (HR = -1,7; p & lt; 9e-5). Sin embargo, cuando se evaluó utilizando la secuencia de datos, la tasa de riesgo de miR-505 fue 0,998 (p = 0,03). Los niveles de miR-505 medidos por los datos miARN-array y miRNA-Seq correlacionadas sólo modestamente (r = 0,59) (Figura 2B). Las discrepancias se observaron también en un número de otros miRNAs que han sido previamente implicadas en el cáncer de ovario, como miR-143 [9]. El coeficiente de correlación para el miR-143 en nuestro análisis fue de 0,39 (Figura 2C). Otra miARN bien estudiado en el cáncer de ovario es el miR-141, que se ha informado anteriormente para apuntar p38 y modular la respuesta al estrés oxidativo [10], [11]. Sin embargo, la correlación entre los niveles de miR-141 en TCGA microarrays y datos de expresión de miRNA-Sec es solamente 0,32 (Figura 2D). En general, encontramos que los coeficientes de correlación de ~72% de miRNAs perfiladas en ambos conjuntos de datos fueron ≤0.5 (Figura 3A, 3C), lo que indica una mala reproducibilidad. Sólo el 22% de los ARNm medidos por Agilent microarrays y Illumina HiSeq utilizando las mismas muestras de cáncer de ovario se correlaciona pobremente (r≤0.5; Figura 3B, 3C). Por lo tanto, la discrepancia informe que aquí parece estar limitado al conjunto de datos TCGA miARN.
(A) miR-98, (B) miR-505 (C) miR-143 y (D) de miR-141.
(A) histograma de los coeficientes de correlación para los miRNAs individuales medidos por los genes miARN-Sec y la matriz miARN. (B) El histograma de los coeficientes de correlación para los ARNm perfiladas por Illumina HiSeq y la matriz de ARNm. (C) El empírica función de distribución acumulativa (ECDF) de la correlación entre la matriz y la secuenciación de los genes miARN (negro), se filtró miARN (color) y mediciones de ARNm (gris). Casi el 72% de los miRNAs demostrar un coeficiente de correlación ≤0.5 mientras que el 22% de los ARN tiene una ≤0.5 coeficiente de correlación. Cuando se filtra basado en el nivel de expresión, el porcentaje de miRNAs con la correlación ≤0.5 saturado al 56%.
Una causa potencial de mala reproducibilidad puede ser el algoritmo de detección de señales para reportar los niveles de expresión de los genes miARN. datos de nivel 3 TCGA miARN se presentan en dos formatos. El primero, indicado como "Datos cuantificación," reporta niveles de miRNAs humanos individuales. Sin embargo, una de las ventajas de miRNA-Seq es que las transcripciones recuperados por esta técnica se pueden mapear con precisión. Un segundo archivo, etiquetado como "isoforma de datos," también ha sido puesto en libertad por el TCGA. Este archivo de informes leen los recuentos de las transcripciones de acuerdo a su localización genómica. Como parte de este archivo, las transcripciones se identifican como miARN maduro, miARN * (3p brazos de miRNAs humanos), tallo-bucle transcripción o precursor. Mientras se trabaja a través de estos datos, hemos aprendido que los niveles de miARN reportados en el archivo TCGA cuantificación incluyen el recuento de leer para los precursores miARN así como miRNAs maduros. Debido a que los precursores miARN se cree actualmente que carecen la actividad biológica, la inclusión de los precursores con recuentos de miRNAs maduros podrían confundir los análisis de supervivencia. para abordar esta cuestión, hemos recuperado leer el recuento de miRNAs maduros sólo desde el archivo de datos isoforma y repitió nuestros análisis. Sin embargo, la proporción de los coeficientes de correlación se mantuvo ≤ 0,5 miARN tan alto como 71% a pesar del uso de estos datos más definidos con precisión
.
Una segunda explicación posible para la discrepancia observada podría ser que las correlaciones entre las medidas de los genes miARN expresión dependen de la frecuencia con la que se expresan los genes miARN transcripciones individuales. Si es así, miRNAs expresadas con poca frecuencia pueden ser identificados por una o ambas de las plataformas utilizadas para el perfil de expresión de los genes miARN al azar o inexacta. Para explorar esta hipótesis, se volverán a calcular los coeficientes de correlación para cada miARN identificado por ambas plataformas después de excluir cualquier transcripción en el conjunto de datos miARN-Sec con una lectura contar menos de 5. Esto redujo el número de miRNAs diferentes disponibles para el análisis en el miRNA- archivo de datos de Sec de 705 a 380. Sin embargo, la proporción de miRNAs con coeficientes de correlación ≤0.5 también se redujo de 72% a 56%. la eliminación de manera similar transcripciones pobremente expresadas a partir de la piscina de mRNAs perfiladas por Illumina HiSeq reduce la proporción de mRNAs cuyos coeficientes de correlación ≤0.5 del 22% al 20%. Estas observaciones indican que la detección de problemas expresados con poca frecuencia miARN puede afectar a la capacidad o la una o las dos plataformas para informar de manera fiable los genes miARN expresión. Sin embargo, el hecho de que más de la mitad de las transcripciones de los genes miARN todavía tenía coeficientes de correlación ≤0.5 incluso después de la corrección para este problema indica que las transcripciones mal expresadas no son los únicos responsables de los patrones discordantes de los genes miARN expresión reportados por las dos plataformas.
para explorar esta cuestión más a fondo, se calculó el rango de niveles de expresión transformados log2 para todos los microRNAs en los dos conjuntos de datos. También hemos desarrollado un algoritmo que nos permitió variar el umbral de expresión aceptable para su inclusión para el análisis de un valor mínimo (0) con la media log2 transformado nivel de expresión de todas las transcripciones. Para cada umbral, sólo se consideran los microRNAs expresada por encima del umbral y vuelve a calcular la correlación entre las dos plataformas. Este análisis revela que la exclusión de las transcripciones de los genes miARN expresa con menos frecuencia que la media mejora ligeramente la correlación general entre las dos plataformas que se utilizan para el perfil de expresión de los genes miARN (Figura 3C). Como se muestra gráficamente, se encontró que 71% de los genes miARN demostrar correlación de menos de 0,5, sin el uso de ningún tipo de filtrado. Mediante la utilización de un filtro de nivel de expresión como se ha descrito, se encontró que la proporción de los transcritos con coeficientes de correlación a través de las dos plataformas saturado a 56%. Esto sigue siendo muy superior al 22% observado con los sistemas de perfiles de expresión de ARNm.
Discusión
Para nuestra sorpresa, nuestros análisis indican que los microARN asociados con la supervivencia en el cáncer de ovario dependen en gran medida de si especímenes fueron perfilados por el TCGA utilizando microarrays o miRNA-Seq. Nuestros análisis indican que existe esta discrepancia porque miARN-Sec y microarrays han generado muy diferentes perfiles de expresión de los genes miARN, a pesar de que los datos se basa en los mismos especímenes de cáncer de ovario. Actualmente, no tenemos una explicación clara de por qué los perfiles de expresión de genes miARN reportados por el TCGA son discordantes. Sin embargo, la comprensión de esta discrepancia en última instancia será importante para identificar miRNAs que en su caso son importantes para determinar los resultados del cáncer de ovario.
Una variedad de tecnologías de microarrays de ADN han sido previamente validado por los investigadores que examinaron dentro de la plataforma y multi-plataforma reproducibilidad [ ,,,0],12] - [14]. los coeficientes de correlación de Spearman reportados en estos estudios varían 0,59 hasta 0,94 con una media de 0,82. Estos resultados son similares a lo que hemos observado para las correlaciones entre los patrones de expresión génica utilizando microarrays perfiladas y plataformas Illumina HiSeq por el TCGA. Tanto las tecnologías de microarrays miARN-Sec y se asocian con múltiples limitaciones técnicas que podrían explicar las diferencias que hemos observado. Por ejemplo, la hibridación cruzada es un problema bien reconocido que puede reducir la especificidad de la señal cuando perfiles de transcritos de ARN por microarray [15]. Sin embargo, parece poco probable que la hibridación cruzada es una causa principal de la discrepancia se observó, como el número de transcripciones correlacionados con la supervivencia de la matriz es mayor que el número asociado con la supervivencia de los genes miARN-Sec. Una explicación alternativa podría ser que el algoritmo de extracción de señal utilizada para analizar los datos miARN-Sec no informa con precisión los niveles de miRNA. En general, los genes miARN-Sec permite el mapeo de transcripción precisa con mucha más confianza. El algoritmo de extracción de señal utilizada actualmente por el TCGA reportar los niveles de miRNA incluye recuentos de lectura, tanto para un miARN maduro y su correspondiente precursor. Nuestros análisis indican que los precursores representan menos de 1% de los recuentos totales de miARN en el archivo de isoforma TCGA. Esto probablemente refleja el uso de ARN de tamaño fraccionado para preparar bibliotecas de genes miARN-Seq [5]. Por lo tanto, su inclusión o exclusión en el análisis del conjunto de datos TCGA es probable que tenga poco que ver con la cual los miRNAs están asociados con la supervivencia del cáncer de ovario.
En conjunto, estas observaciones ponen de relieve la necesidad urgente de algoritmos bien definidos para el procesamiento de señales generadas por plataformas perfil transcripcional de los genes miARN-Sec y. Nuestro entendimiento es que los mismos análisis han sido realizados por TCGA para otros tipos de cáncer, incluyendo el de colon, de mama y de pulmón [16] - [18]. Debido a que los genes miARN expresión en otros tipos de cáncer no se ha perfilado por microarray, no es posible repetir los análisis para determinar si la discrepancia se reporta se observa en otros tipos de cáncer. En última instancia, los datos genómicos consistente y confiable es fundamental para la construcción de hipótesis comprobables y lograr el pleno potencial de la TCGA. Nuestras observaciones a identificar un riesgo importante de que los investigadores deben tener en cuenta ya que utilizan los datos TCGA miARN para estudiar el cáncer de ovario. Para el corto plazo, el conocimiento de este peligro de relieve la necesidad de validar las observaciones realizadas con uno o ambos de los conjuntos de datos TCGA miARN. Sin embargo, a largo plazo, la resolución de esta discrepancia será importante para determinar los algoritmos de extracción de la plataforma y la señal más eficaces para el perfil de expresión de los genes miARN como parte de los esfuerzos de perfiles genómicos a gran escala.
Materiales y Métodos
genes y expresión de microARN datos
Nivel 3 los datos que documentan los patrones de expresión génica para 296 muestras de cáncer de ovario perfiladas utilizando conjuntos de Agilent G4502A y Illumina HiSeq fueron descargados desde el portal de datos TCGA. Nivel 3 los datos de expresión de microARN también se recuperaron para 469 muestras de cáncer de ovario perfilados usando la matriz de Agilent 4X15k y miRNA-Seq. Nivel 3 Los datos de miARN perfiladas por miARN-Sec fueron recuperados de tanto la cuantificación miARN y archivos de isoformas disponibles en el portal de datos junto con TCGA metafiles anotación de cada conjunto de datos. El permiso para acceder a todos los datos se obtuvo del Comité de Acceso a datos del Centro Nacional de Información de Biotecnología genotipos y fenotipos de base de datos (dbGaP) de los Institutos Nacionales de Salud.
Análisis de la supervivencia
supervivencia de los pacientes Coded los datos se extrae del archivo de información clínica TCGA. Un modelo de riesgos proporcionales de Cox se utilizó para estimar la asociación entre los niveles de miRNAs individuales. La supervivencia del paciente se calculó como el tiempo en meses transcurridos desde la fecha de diagnóstico hasta la fecha del último contacto.
Análisis estadísticos
coeficientes de correlación de Spearman, histogramas, y la distribución empírica acumulada se calcularon y se representa por cada miARN y el gen usando r. Los datos de secuenciación fueron transformados logarítmicamente para el trazado. Tanto los recuentos de lectura directa y los recuentos normalizados de acuerdo a millones de miRNAs fueron examinados como parte de nuestros análisis. Todos los análisis se realizaron utilizando el recuento de lectura tanto crudos como normalizadas reportados como parte de los conjuntos de datos TCGA miARN-seq.
Reconocimientos
Los autores agradecen reconocidamente comunicación de David Wheeler, Rehan Akban, Gordon Robertson y Andy Chu respecto TCGA miARN algoritmos de análisis de datos.