Extracto
Antecedentes
factores hereditarios están involucrados, evidentemente, en la carcinogénesis del cáncer de próstata (AEP), pero en la actualidad, son marcadores genéticos no se utiliza rutinariamente en el cribado o diagnóstico de la enfermedad. Se necesita información más precisa para tomar decisiones de tratamiento para distinguir los casos agresivos de enfermedad indolente, cuyos factores hereditarios podría ser una herramienta útil. La composición genética de APCR sólo recientemente ha comenzado a ser descifrado a través de estudios de asociación del genoma a gran escala (GWAS). Los polimorfismos de nucleótidos individuales identificados hasta el momento (SNP) explican, sin embargo, sólo una fracción de la agrupación familiar. Por otra parte, los SNPs de riesgo conocidos no están asociados con el resultado clínico de la enfermedad, tales como enfermedad agresiva o metástasis, y por lo tanto no se pueden utilizar para predecir el pronóstico. La anotación de los SNPs con datos clínicos profundos junto con los perfiles de expresión de genes miARN puede mejorar la comprensión de los mecanismos subyacentes de los diferentes fenotipos de cáncer de próstata.
Resultados
En este estudio se estudiaron microARN (miARN) perfiles como potenciales biomarcadores para predecir la evolución de la enfermedad. Los sujetos del estudio eran de familias con cáncer de próstata de alto riesgo finlandeses. Para identificar biomarcadores potenciales combinamos un nuevo test no paramétrico con una medida de importancia provisto de un clasificador Bosque aleatoria. Esta combinación entrega un conjunto de nueve miRNAs que era capaz de separar los casos de los controles. Los perfiles de expresión de genes miARN detectados podrían predecir el desarrollo de la enfermedad años antes del diagnóstico real PrcA o detectar la existencia de otros tipos de cáncer en los individuos estudiados. Por otra parte, el uso de un Quantitative Trait Loci análisis de la expresión (eQTL), se encontró que SNPs reguladoras para miARN miR-483-3p que también se asociaron directamente con APCR.
Conclusión
En base a los resultados, se sugiere que los genes miARN perfiles de expresión basados en sangre se puede usar en el diagnóstico y tal vez incluso el pronóstico de la enfermedad. En el futuro, miARN perfiles posiblemente podría ser utilizado en el cribado selectivo, junto con las pruebas de antígenos y específico de la próstata (PSA), para identificar a los hombres con un riesgo elevado PrcA
Visto:. Fischer D, Wahlfors T, H Mattila, H oja, Tammela TLJ, Schleutker J (2015) Perfiles MiRNA en Lymphoblastoid líneas celulares de cáncer de próstata familias finlandesas. PLoS ONE 10 (5): e0127427. doi: 10.1371 /journal.pone.0127427
Editor Académico: Xin-Yuan Guan, la Universidad de Hong Kong, China
Recibido: 19 de diciembre de 2014; Aceptado: April 15, 2015; Publicado: 28 de mayo de 2015
Derechos de Autor © 2015 Fischer et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan
Disponibilidad de datos: Todos los datos relevantes están disponibles a partir de EBI (número de acceso e-MTAB-3397)
Financiación:. Este trabajo fue apoyado por el Fondo de Investigación médica del hospital Universitario de Tampere (9L091, 9M094, y 9N069), el cáncer de Organizaciones de Finlandia, la Sigrid Fundación Juselius, y la Academia de Finlandia (otorga 116437 y 251074) para la JS. Este trabajo también fue apoyado por el Programa de Doctorado de Finlandia en Estocástica y Estadística para DF
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
Próstata cáncer (AEP) es el tumor maligno no cutáneo más común y la segunda causa principal de muerte por cáncer entre los hombres en los países industrializados [1]. En Finlandia, 4604 casos de cáncer de próstata fueron diagnosticados nuevo en 2012 (Registro de Cáncer de Finlandia, http://www.cancer.fi/syoparekisteri/). El envejecimiento y análisis de PSA pueden ser las razones más evidentes para el aumento del número de nuevos casos. La incidencia creciente crea presión sobre el sistema de salud como la preocupación por el tratamiento excesivo es considerable. Por lo tanto, uno de los principales retos es mejorar las herramientas de diagnóstico y pronóstico que ser capaz de distinguir letal de la enfermedad indolente en un estado curable de la enfermedad.
La contribución de las variantes genéticas se ha estudiado ampliamente en asociación con predisposición al cáncer de próstata. Tanto vinculación y GWAS junto con los pocos ejemplos que surgen de los enfoques de genes candidatos han llevado a la identificación de alrededor de 100 loci genéticos que explican sólo aproximadamente el 30% del riesgo genético para la enfermedad [2] [3] [4] [5]. Sin embargo, no hay evidencia molecular o funcional obvio que indica cómo las variaciones en estos sitios candidatos o sus co-heredado variantes vecinos podrían causar PRCA. De hecho, la mayoría de las variantes de nucleótido único (SNPs) que se encuentran por GWAS son poco probable que afecte la secuencia codificante de cualquier gen, sino más bien residir en regiones intergénicas. Estos hallazgos sugieren que tienen un papel regulador, tal como en la transcripción, corte y empalme o la estabilidad del ARNm, en lugar de un efecto directo sobre la función del producto del gen [6].
En los últimos años, la importancia de la genoma de codificación no proteico en la regulación funcional del desarrollo normal y desarrollo de la enfermedad se ha convertido en evidente. MiRNAs son ARNs cortos no codificantes que regulan su expresión del gen diana típicamente mediante la unión a la región 3 'no traducida (UTR) del objetivo mRNA [7]. La variación individual de los niveles de expresión de genes miARN puede influir en la expresión del gen diana de ARNm, haciendo que las diferencias fenotípicas.
Varios estudios han demostrado que los niveles de expresión de genes miARN son predictivos para el resultado de tumores sólidos y leucemias, pero la contribución de miARN alterados los niveles de expresión genética en la susceptibilidad al cáncer no se conoce. La actividad transcripcional de genes que codifican proteínas se hereda como un rasgo cuantitativo, y los polimorfismos de regulación relacionados con la variabilidad en los niveles de mRNA se considera que son eQTL. A pesar de la demostrada importancia, el conocimiento de la regulación genética de los genes miARN expresión se encuentra todavía en su infancia. En una publicación reciente, se describieron más de cien eQTLs en fibroblastos primarios, lo que indica al menos una función parcial para la variación genética en la expresión alterada de los genes miARN [8]. Los análisis combinados de SNPs y las variaciones comunes en los perfiles de expresión de genes miARN puede servir como una forma de aclarar las funciones biológicas de los SNPs identificados a partir de los GWAS en enfermedades comunes.
El objetivo de este estudio fue evaluar los perfiles de expresión de los genes miARN de linfoblastoide líneas celulares (LCL) derivadas de los miembros de las familias de alto riesgo APCR. miARN expresión alterada de LCL de pacientes en comparación con los de los miembros de la familia sanas proporciona una oportunidad para identificar variantes de la línea germinal del promotor u otras regiones reguladoras de los genes de codificación de proteínas como una considerable cantidad de miARN expresión se correlaciona con el anfitrión y la expresión del gen diana [9]. La gran cantidad de resultados de la prueba de miRNA-sabia significativas dentro de los datos también requiere el desarrollo de un nuevo tipo de tubería de análisis de expresión diferencial. Para desarrollar tal tubería, pruebas de expresión diferencial se ha combinado con las medidas de importancia del algoritmo de aprendizaje automático, Random Forest [10].
Materiales y Métodos
Declaración de Ética
Este estudio ha sido aprobado por las respectivas juntas de IRB El Ministerio de Asuntos Sociales y de la Salud (SMT), autoridad nacional de control para el Bienestar y la Salud (Valvira) y el Comité de Ética del hospital Universitario de Tampere. Cada persona que participe en el estudio ha dado su consentimiento informado por escrito.
Estudio de la población
Todas las muestras son de origen finlandés y el cobro de las familias se ha informado anteriormente [11]. Para el estudio de microarrays miARN, se utilizaron 115 casos de 70 familias APCR. Las familias seleccionadas tenían al menos dos familiares de primer grado con diagnóstico de cáncer de próstata a cualquier edad. (= no diagnosticado con cáncer de próstata) individuos sanos (n = 78) a partir de 47 familias fueron utilizados como los controles. La edad media al diagnóstico de los casos fue de 65 (44-86.2) años y los controles tenían una edad media de 57,5 (35.2-83.3) años en el momento en que se obtuvieron las muestras.
Un subgrupo de individuos ( n = 54) a partir del experimento de microarrays se genotipo con arreglo HumanOmniExpress de Illumina para otro experimento, y los resultados han sido publicados en otra parte [12]. Por lo tanto, esas 54 muestras podrían ser utilizados aquí por un análisis eQTL (39 casos y 15 controles APCR). Adicionales 83 individuos podrían ser utilizados para fines de validación. En total, había 137 personas genotipo de 33 familias (20 familias con la parte microarray del estudio se superponen).
El resultado clínico de cáncer de próstata más o menos se puede clasificar en cáncer agresivo y no agresivo, sobre la base de PSA , el Gleason y otras evaluaciones clínicas [13]. Sobre la base de estas directrices, los pacientes con cáncer de próstata a partir de los dos experimentos se agruparon en 36 (36) agresivo y 79 (66) cánceres de próstata no agresivo. El número máximo de casos agresivos por familia fue de 3, y el mínimo de 1. Una descripción detallada de los individuos en el estudio se da en la figura 1.
Para cada grupo de salud, el número de individuos de las diferentes se muestra experimentos. El número global de un experimento se indica a continuación, por la respectiva caja de colores más el cuadro rojo (superposición). inferior: Visualización de los antecedentes familiares. 'PrcA sólo "las tres opciones," sólo sana' o 'PrcA /Healthy' se muestra y se agrupan en consecuencia. Además, se muestra la participación de diferentes familias en los dos experimentos. Hacer un pedido es de acuerdo a un código interno de la familia.
La extracción de RNA a partir de líneas celulares linfoblásticas
LCL se obtuvieron por la transformación del virus de Epstein-Barr de leucocitos mononucleares periféricas de los pacientes y sus familiares sanos . Las líneas de células linfoblastoides se cultivaron en medio RPMI-1640 (Lonza, Walkersville, MD, EE.UU.) suplementado con suero bovino fetal al 10% (Sigma-Aldrich, St. Louis, MO, EE.UU.) y antibióticos a 37 ° C, 5% CO2 y 95% de humedad. Los sedimentos celulares fueron congelados-snap, y el ARN total se extrajo con Trizol de acuerdo con las instrucciones del fabricante (Invitrogen, Carlsbad, CA, EE.UU.). Los rendimientos de ARN se cuantificaron utilizando un espectrofotómetro ND-1000 (NanoDrop Technologies, Wilmington, DE, EE.UU.) y Agilent 2100 Bioanalyzer (Agilent Technologies, Santa Clara, CA, EE.UU.).
Análisis de Micro RNA microarrays
Los niveles de expresión de microARN en LCL se detectaron utilizando Agilent Humanos miARN V2 Oligo Microarray Kit (Agilent Technologies). En primer lugar, se usó 100 ng de ARN total como material de partida, y miRNAs se marcaron usando el Kit Agilent miARN etiquetado. Etiquetado ARN se hibridó con microarrays Agilent miARN que tienen ocho matrices idénticas por portaobjetos, con cada matriz que contiene sondas dirigidas contra 817 miRNAs humanos (719, 76 miRNAs virales no humanos y 22 de control de miRNAs). En total, se utilizaron 26 diapositivas, y los datos se extrajeron mediante el software de Agilent extracción de características (FES), versión 10.7.1.1 con el D_F_20091030 diseño de cuadrícula. Para el análisis de datos, las muestras de baja calidad fueron retirados en primer lugar, lo que resulta en 193 individuos. Cada Agilent microarrays V2 individuo mide 13,737 características, y la FES continuación, utiliza estas características para calcular los valores de expresión para 2.466 sondas (2,125 humanos); sobre la base de esas sondas se calcularon los valores de la expresión de genes miARN 817. Los datos pueden ser accedidos a través de ArrayExpress adhesión E-MTAB-3397.
Los valores de expresión de los genes miARN se calculan típicamente con el algoritmo de
gTotalGeneSignal
como se aplica en la FES, pero en este estudio, sin embargo, la sonda -wise, se utilizaron valores de la mediana antecedentes resta en su lugar. El análisis de las diferentes sondas de la misma miARN como un único valor miARN expresión no parece ser lo suficientemente fiable, y un análisis a nivel de la sonda era más factible. Después de calcular los valores de expresión a nivel de la sonda, se eliminaron todas las sondas no humanos y los no detectados por los FES. Sólo aquellas sondas que se detectaron por lo menos 50% de las muestras en al menos un grupo estado de salud se utilizaron para el análisis adicional. Además, las funciones de control no humanos se retiraron antes del análisis. En total, 547 sondas, lo que representa 211 miRNAs, cumplen estos criterios. La variabilidad técnica de datos se redujo mediante la aplicación de un cuantil normalización [14].
Análisis de datos de genotipos
El polimorfismo de un solo nucleótido (SNP) genotipo de datos se generaron utilizando matriz HumanOmniExpress de Illumina en colaboración con el Instituto de Medicina Molecular de Finlandia (FIMM). La matriz elegido activar el genotipado de SNPs aproximadamente 700k. Para producir el genotipo de datos, los datos en bruto se analizaron con Genoma Estudio de acuerdo con las instrucciones del fabricante (Illumina, San Diego, EE.UU.).
En total, el genotipo de información para 137 personas estaba disponible, con la expresión de los genes miARN también midieron los niveles en 54 de estos individuos. Por lo tanto, el análisis eQTL se basó en estas 54 personas. Las 83 personas restantes se utilizaron para la validación de los resultados.
Identificación de las sondas expresados diferencialmente utilizando la prueba direccional
PrcA pacientes fueron divididos en agresivos (A) y no agresivo /leve (M) grupos PRCA y en comparación con los controles sanos (H). Se aplicó una nueva generalización de las pruebas de tipo U de Mann-Whitney para identificar sondas expresados diferencialmente en la comparación de tres grupos. La misma generalización se utilizó para el análisis eQTL (para más detalles ver [15] y [16]).
Para una definición general, que los tamaños de las muestras de los tres grupos sean
N
H
,
N
M
y
N
un
lo que resulta en un total tamaño de la muestra de
N
H
+
N
M +
N
Una
=
N
. La prueba de Mann-Whitney generalizada se basa en los índices de probabilidad calculados con triples sumas de funciones de los indicadores correspondientes. Sea x
p
;
H
= (
x
1,
p
;
H
,
x
2
p
;
H
, ...,
x
N
H
,
p
;
H
)
T
, x
p
;
M =
(
x
1,
p
;
M
,
x
2
p
;
M
, ...,
x
N
M
,
p
;
M
)
T
y x
p
;
Un
= (
x
1,
p
;
Un
,
x
2
p
;
Un
, ...,
x
N
Un
,
p
;
Un
)
T
ser los valores de la expresión de una sonda
p
en cada grupo con la salud subyacente
cdf de búsqueda: 's
F
p
;
H
,
F
p
;
M
y
F
p
;
Un
. El índice probabilístico
P
^
H
, España
M
, España
A
;
p Opiniones de sonda
p y usados en este enfoque puede calcularse entonces byand
I
(⋅) es la función indicadora de que es 1 si la condición (⋅) es verdadero y 0 en caso contrario. Tenga en cuenta que el orden en el índice de
P
^
H
, España
M
,
Un
;.
p
se refiere al orden usado en la función indicadora
por otra parte, el índice probabilístico
P
^
H
, España
M
, España
Un
;
p
entonces se puede utilizar para probar la hypothesiswhere direccional ≺ se refiere a la ordenación estocástica de
cdf
's. Naturalmente, diferentes órdenes en la condición (⋅) de la función de indicador se pueden utilizar para la prueba de diferentes alternativas. Además, cuando los valores de expresión se asignan a grupos de genotipo en vez del estado de salud, este procedimiento de prueba es ideal para las pruebas de eQTL, ya que pone a prueba para las alternativas de dirección que están claramente presentes en el contexto de un análisis eQTL.
La dos índices probabilísticos
P
^
H
mo, España
M
, España
A
;
p
y
P
^
Un
, España
M
, España
H
;
p
fueron utilizados para las sondas de prueba
p
= 1, ..., 547, y valores de p para la versión de prueba de permutación se calcularon sobre la base de 5000 permutaciones. Resultados de la prueba con valor de p inferior a 0,01 se consideraron significativos. El método de prueba se implementa en el paquete R-
GMWT
[16], y el paquete
GeneticTools
explota este método de ensayo para la prueba eQTL. Ambos paquetes son de libre acceso de la red R Archivo Integral (CRAN).
El procedimiento de ensayo múltiple Benjamini-Hochberg para controlar la tasa de falso descubrimiento se visualizó utilizando parcelas de rechazo y líneas. La proporción de rechazos previstos bajo la hipótesis nula se representa frente a la relación observada de rechazos. Si esta curva está por encima del (0, 1) -line, tenemos más rechazos de lo esperado bajo la hipótesis nula. Los rechazos de un tamaño fijo de ensayo se pueden visualizar con una línea vertical, y los rechazos para diferentes ajustes múltiples pruebas pueden ser visualizados por líneas con una determinada pendiente. El número de hipótesis nula rechazada se determina entonces por el punto de la curva y la línea de cruce. Para más detalles, véase [15].
Clasificación, Medida Importancia y Clustering
El clasificador de aprendizaje automático Random Forest [10], tal como se aplica en el paquete R-
randomForest
[17], se aplicó a los datos de expresión, de manera que el conjunto de datos se divide en la formación (75%) y los datos de prueba (25%). Se utilizaron los datos de entrenamiento para crear un conjunto de árboles de decisión 2500, y estos árboles se utilizaron para clasificar los datos de prueba. La división entre los datos de entrenamiento y validación se repitió 2000 veces, y después se evaluaron los resultados de la clasificación de todas las ejecuciones de datos de prueba. La medida de la importancia de Gini también se extrajo para cada bosque aleatorio, y la importancia promedio de cada sonda se combinó con el correspondiente valor de p de la prueba direccional. Las sondas que tenían un valor de p inferior a 0,01 y que pertenecían a los 10% sondas más importantes sobre todas las carreras azar forestal se consideran de alto interés (HI sondas) y luego se utilizaron en la etapa de la agrupación y en el análisis eQTL.
los Random Forests fueron entrenados para las tres clases de resultados posibles sana (H), leve PRCA (M) y PrcA agresiva (a). Vamos a
L
i
,
r
;
H
,
L
,
r
;
M
y
L
i
,
r
;
A
serán las probabilidades de clase proporcionadas por la carrera clasificador Random Forest
r
para el individuo
i Vaya con
L
i
,
r
;
H
+
L
i
,
r
;
M +
L
i
,
r
;
un
= 1. Estas probabilidades se combinan en un solo valor severidad PrcA
S
i
,
r
=
1
2
L
i
,
r
;
M
+
L
i
,
r
;
A
. El valor severness
S
i
,
r
fue elegido de manera tal que
S
,
r
= 0 en caso de que
L
i
,
r
;
H = 1
,
S
i
,
r = 0,5 para
L
i
,
r
;
M
= 1 y
S
i
,
r
= 1 si
L
i
,
r
;
un
= 1.
En un plazo de 2 vías Bosque aleatoria, la clasificación se realizó sólo entre las clases sanos y PRCA, con la misma configuración que para la de 3 vías Random Bosque ha descrito anteriormente.
para calcular el área bajo la curva (AUC) de la curva de características operativas del receptor (ROC) en el Bosque aleatoria caso, se eligieron dos enfoques diferentes. En primer lugar, las dos probabilidades
L
i
,
r
;
M
y
L
i
,
r
;
Un
se añadieron para evaluar la capacidad del Bosque aleatoria para clasificar PrcA en general. Luego, en la segunda comparación, las probabilidades
L
i
,
r
;
H
y
L
i
,
r
;
M
se añadieron para evaluar su aptitud para identificar agresiva APCR. Con el tiempo, para trazar la ROC un valor de corte continua en [0, 1] se aplicó sobre la probabilidad de clasificar a los individuos en los falsos positivos /verdaderos.
Para la agrupación en el mapa de calor, la matriz de correlación tau de Kendall S entre todas las muestras se calculó en base a los valores de expresión de las sondas HI. tau de Kendall entre dos variables es una medida de la dependencia de positivo /negativo y es invariante bajo cualquier transformación estrictamente creciente a las variables marginales. La distancia correspondiente entre las variables se define entonces como D = (1 - S) /2. Deje entonces D la matriz de distancias utilizadas para la agrupación jerárquica.
Análisis eQTL
La información del genotipo de la matriz de 700k se combinó con los valores de expresión de las sondas HI utilizando un análisis eQTL. Se identificaron las localizaciones cromosómicas de los genes miARN sondas y todos los SNPs dentro de una ventana de 1Mb torno a la ubicación central de la sonda estaban relacionados con esta sonda. Los valores de expresión sonda se asignan a los grupos de genotipos de todos los vinculados SNP (figura 2 muestra un esquema sistemático de este paso).
Independiente del estado de salud de cada individuo, los valores de expresión se agrupan de acuerdo con la grupos de genotipo de los SNPs de los alrededores y después se ensayaron para la expresión diferencial entre los grupos. (Figura tomada de [16]) guía empresas
En un enfoque eQTL, tres casos son posibles, dependiendo de si los valores de expresión se han asignado a uno, dos o los tres grupos de genotipos posibles. monomorfas variantes no fueron considerados más en el análisis, y en el caso de dos grupos, una de dos caras se aplicó la prueba de Mann-Whitney. En el caso de tres grupos, se utilizó la prueba de Mann-Whitney generalizada de alternativas direccionales para las dos alternativas diferentes si los valores de expresión más altos estaban vinculados con la de tipo salvaje o la mutación en homocigosis. Este tipo de prueba direccional se utilizó en el caso de tres grupos como una orden para los valores de expresión con respecto a los grupos de genotipo está claramente espera.
Análisis comparativo
El usada aquí dos etapas enfoque se comparó con otros dos métodos de uso común. El primer método fue un análisis clásico de la varianza (ANOVA), probando la hipótesis alternativa de que hay una diferencia entre al menos dos de los tres grupos. Deje
μ
p
,
H
,
μ
p
,
M
y
μ
p
,
Un
sea la expresión los valores promedio de la sonda
p Opiniones de los tres grupos, a continuación, es el hipótesis de la sonda a gota para el ANOVA de una vía
como resultado los valores de p fueron ajustados para múltiples pruebas utilizando una corrección de Bonferroni.
el segundo método que se utilizó como comparación fue en dos etapas regresión logística con el lazo (LIF). En primer lugar, LIF se aplicó sobre el conjunto de datos completo con las dos clases sanos /enfermos. El parámetro de ajuste
λ
se elige de tal manera que la cantidad de variables seleccionadas fueron en el mismo nivel de magnitud que el método identifica aquí propuestos. A continuación, la segunda pasada LIF se aplicó sobre los casos de cáncer y sólo destinados para la separación de APCR suave y agresivo. Finalmente las sondas resultantes se fusionaron con una matriz de resultados del análisis LIF.
Para comparar los resultados del ANOVA y el LIF con el enfoque aquí propuesto, una agrupación jerárquica se aplicó sobre las sondas identificadas utilizando también una de Kendall matriz de distancia basada tau. Entonces, el índice de Rand ajustado se calcula entre la clasificación de los tres agrupamientos diferentes y el verdadero estado de cáncer de los individuos para determinar el nivel de acuerdo.
Resultados
Utilizando el procedimiento de prueba direccional, se identificaron 146 (87 con mayor expresión en PrcA agresiva y 59 con mayor expresión en los controles), de un total de 547 sondas que tienen diferentes perfiles de expresión. La localización cromosómica de las sondas significativos y el tipo de prueba alternativa se visualizan en la figura 3.
resultados de las pruebas significativas de que también pertenecen a los miRNAs 10% más importante (Índice de Gini) en la carrera Random Forest se indican como HI sondas.
para identificar las sondas HI de este inesperado gran cantidad de sondas expresados diferencialmente, un clasificador Random Forest también se aplicó a los datos de expresión. sondas importantes que se pusieron dentro del 10% de las sondas más importantes en el Bosque aleatoria, medida como índice de Gini, fueron llamados sondas HI y se resaltan en la figura 3. Las 13 sondas identificadas representan ocho miRNAs diferentes y un ARN spliceosomal. Más detalles acerca de las 13 sondas identificadas se enumeran en la Tabla 1.
El resultado global de clasificación basado en los valores de severidad
S
i
,
r
del Bosque aleatoria se visualiza en la figura 4. los individuos sanos (verde) tendían claramente a estar en el área de riesgo menor, pero los pacientes agresivos PRCA (rojo) no tienden a tener valores más grandes que no agresiva PrcA pacientes (amarillo). Además, una tasa promedio de clasificación sobre todas las carreras de clasificación se determina por separado para las comparaciones entre sano y APCR y agresiva entre PRCA y combinado PrcA saludable y no agresiva. El Bosque aleatoria fue capaz de clasificar PrcA con una AUC media de la República de China de aproximadamente 0,89 y agresiva frente PrcA las muestras combinadas de no agresivo PRCA y controles de 0,68 (Figura 5). Los resultados de la clasificación en el nivel individual se visualizan en la información de apoyo (S1 y S2 figuras).
Las personas sanas se comparan con los resultados agrupados no agresivos /agresivas PRCA (curva negro), y agresiva PrcA las clasificaciones son comparados con los otros grupos combinados (rojo).
Una agrupación jerárquica muestra la importancia de las sondas HI. La agrupación del conjunto de datos sobre la base de todas las sondas sólo dio lugar a un poco mejor clasificación de la agrupación sobre la base de las 13 sondas HI. El dendrograma para la agrupación de los individuos sobre la base de las 13 sondas HI junto con el mapa de calor correspondiente se muestra en la figura 6. En este caso, la capacidad de separar claramente entre PrcA agresivo y no agresivo era limitado, pero es interesante solamente se agruparon cinco de los 78 individuos sanos en estrecha colaboración con individuos APCR. Por el contrario, 46 de los 115 casos PrcA estaban dentro del clúster que contenía la mayor parte de los individuos sanos.
Los colores rojos se refieren a valores bajos de expresión, mientras que los colores verdes representan grandes valores de la expresión de la sonda en particular. El miARN dirigido identificadores correspondientes a los ID de sonda dado se enumeran en la Tabla 1. Los colores en el dendrograma representan el estado de salud observado (verde: sana, amarillo:. No aggr APCR, rojo: aggr.PrCa) guía empresas
Además, se realizó un cis-eQTL (0.5MB arriba /abajo ventana) para las sondas HI. En total, 3863 asociaciones SNP-miARN fueron probados, y 79 tenían un valor de p ≤ 0,01, (S3 figura en la información de apoyo). Todos los SNPs que se encontró que tenían un posible efecto regulador sobre una sonda HI y después se investigó una asociación directa PrcA mediante la aplicación de una prueba de Fisher-en la tabla 2 × 3 entre los grupos de genotipo y estado de salud. Durante cuatro SNPs, se encontró una asociación significativa para los 53 genotipos de las muestras de ensayo (tamaño eQTL 0,05).
En las muestras para las cuales único genotipo se dispone de datos, se encontró que seis SNPs asociados, pero SNPs significativos de la primera prueba, inicial no se pudo validar con el genotipo de datos adicionales. Para ambos conjuntos de datos, sin embargo, había una, respectiva cuatro (de 15) SNPs asociados significativamente en cis-localización de los genes miARN hsa-miR-483-3p (ver Tabla 2 para obtener información detallada).
La parte superior es parte del conjunto de datos eQTL, y la parte inferior es el resultado de los datos de validación.
Finalmente el método aquí propuesto, también se comparó con un enfoque ANOVA y un LIF. Usando una prueba de nivel de significación ajustado múltiple
α
= 0,001 resultó en 14 sondas significativas, mientras que el parámetro de ajuste LRL se ajusta de tal manera, que LRL identificó 15 sondas a ser de gran interés. La cantidad de sondas de intersección entre estos dos enfoques tenía siete años, mientras que la intersección de las HIprobes con las sondas ANOVA era sólo cinco y con LIF incluso sólo tres. La comparación de la calidad de la agrupación en base a las sondas utilizando el Índice de Rand ajustado, se tradujo en un índice de Rand de 0,168 para las sondas identificadas por el enfoque aquí propuesto, 0.130 para el ANOVA y 0,131 para el enfoque de LIF.
discusión
los objetivos del estudio fueron la aplicación de métodos estadísticos novedosos que mejor diferencian agresiva de cáncer de próstata indolente y, son robustos frente a los valores atípicos y para examinar los valores de pronóstico y diagnóstico de miRNAs derivados de la sangre.
En este estudio, se utilizó un enfoque de Mann-Whitney generalizada [15] en combinación con el algoritmo Random Forest para identificar miRNAs expresados diferencialmente. Mediante la combinación de los dos métodos, hemos sido capaces de reducir significativamente el panel de miRNAs interesantes. La ventaja de este enfoque es que combina eficazmente los dos métodos diferentes para detectar las variables significativas. Cada enfoque por sí mismo identificó un gran número de miRNAs significativas, incluso después de controlar la tasa de falso descubrimiento. Sin embargo, la combinación de estos dos métodos proporcionan una lista más corta de miRNAs de interés potencial, reduciendo efectivamente la cantidad de resultados positivos falsos. S4 figura en la información de apoyo se presentan datos sobre los rechazos de prueba y las consecuencias de un Benjamini-Hochberg corrección.
Sin ningún tipo de corrección de múltiples ensayos, las pruebas mostraron ambas tasas de rechazo de aproximadamente el 16% y el 10% para una prueba tamaño de 0,01. La aceptación de una tasa de falso descubrimiento de 0,05% las tasas de rechazo todavía estaban en el orden del 5-10%. En lugar de controlar sólo la tasa de falso descubrimiento, se omitió un método de múltiples pruebas, y se utilizó un conjunto método que combina los resultados de los dos enfoques diferentes en su lugar. Aunque esto fue hecho en un posible detrimento de muchos resultados falsos negativos de la prueba, el conjunto identificado aquí ganó aún más la confianza mediante la combinación de los resultados de las pruebas.
Además de la elaboración de instrumentos analíticos, la obtención de buenos partidos entre los casos y controles es importante, sobre todo en los estudios de miARN para los que los resultados entre los estudios son a menudo contradictorios. El uso de casos familiares PrcA finlandeses y sus familiares sanos habilitados para reducir la heterogeneidad de fondo de los perfiles de expresión de genes miARN a reducirse. De hecho, se observó que los individuos dentro de las familias a compartir una firma miARN específico para la familia, y miembros de la familia fueron más a menudo agrupados junto a la otra. En consecuencia, los biomarcadores miARN informativos que pueden distinguir a los pacientes de sus homólogos sanos dentro de una familia son sumamente interesantes.
miARN expresión alterada se ha identificado en diferentes tumores malignos. Dependiendo del perfil de expresión en el tumor, pueden actuar ya sea como oncogenes o supresores tumorales.