Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: Novel Rango métodos basados ​​en estadísticas revelan microARN con expresión diferencial en cáncer Múltiples Types

PLOS ONE: Novel Rango métodos basados ​​en estadísticas revelan microARN con expresión diferencial en cáncer Múltiples Types


Extracto

Antecedentes

microARN (miARN) regular los genes diana en el nivel y el juego post-transcripcional un papel importante en la patogénesis del cáncer y el desarrollo. Variación entre los individuos es un factor de confusión significativo en miARN (u otros) los estudios de expresión. El verdadero carácter de la expresión diferencial biológicamente o clínicamente significativa puede ser oscurecida por la variación inter-paciente. En este estudio nos proponemos identificar miRNAs con expresión diferencial consistente en múltiples tipos de tumores utilizando un nuevo método de análisis de datos.

Métodos

El uso de microarrays perfilamos la expresión de más de 700 miRNAs en 28 emparejado muestras normales /tumorales de 8 tipos diferentes de tumores (mama, colon, hígado, pulmón, linfoma, ovario, próstata y testículos). Este conjunto es único en poner énfasis en minimizar el tipo de tejido del paciente y la variabilidad relacionada con el uso de muestras normales y tumorales del mismo paciente. Desarrollamos anota para comparar la expresión de los genes miARN en los datos de muestras coincidentes anteriores basados ​​en una caracterización rigurosa de la distribución de las estadísticas de orden sobre un conjunto estado discreto, incluyendo los valores p exactos. En concreto, se calcula un índice de consistencia Rango (RCO) por cada miARN medidos en nuestros datos. Nuestros métodos son aplicables en diversos otros contextos también. Comparamos nuestros métodos, tal como se aplica a diferentes muestras, para la prueba t pareada y la prueba de Wilcoxon Signed Rank.

Resultados

Identificamos coherente (en todos los tipos de cáncer medidos) miRNAs expresados ​​diferencialmente . 41 miRNAs están insuficientemente expresada en cáncer, en comparación a la normalidad, en el FDR (False Discovery Rate) de 0,05 y 17 son sobre-expresado en el mismo nivel FDR. miRNAs expresados ​​diferencialmente incluyen oncomiRs conocidos (por ejemplo miR-96), así como miRNAs que no fueron previamente universalmente asociados con el cáncer. Los ejemplos específicos incluyen el miR-133b y MIR-486-5p, que están constantemente regulada hacia abajo y miR-629 * que es consistentemente hasta el regulado en el cáncer, en el contexto de nuestra cohorte. Los datos están disponibles en la órbita geoestacionaria. El software está disponible en: http://bioinfo.cs.technion.ac.il/people/zohar/RCoS/

Visto: R Navon, Wang H, I Steinfeld, Tsalenko A, Ben-Dor A, Yakhini Z (2009) Métodos estadísticos de la clasificación basada en la novela Reveal microARN con expresión diferencial en Tipos de cáncer múltiples. PLoS ONE 4 (11): e8003. doi: 10.1371 /journal.pone.0008003

Editor: Thomas Preiss, Victor Chang Instituto de Investigación Cardiaca (VCCRI), Australia |
Recibido: 26 Julio, 2009; Aceptado: 29 de octubre de 2009; Publicado: 25 Noviembre 2009

Derechos de Autor © 2009 Navon et al. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Financiación:. RN, IS y ZY fueron parcialmente apoyado por una subvención de la Unión Europea 6PM, en el marco del Proyecto MultiKnowledge. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:. RN, HW, AT, ABD y ZY son empleados actuales de Agilent Technologies. IS fue empleado por Agilent Technologies durante parte del tiempo del estudio. Los autores se adhieren plenamente a todas las políticas de PLoS ONE en los datos y materiales de uso compartido.

Introducción

perfiles de expresión génica se aplica comúnmente para identificar las diferencias entre las clases de tipos de células, como se manifiesta en los genes expresados ​​diferencialmente [1] - [4]. Un conjunto de datos típico comprende decenas de muestras en las que se miden los niveles de expresión de miles de genes. En los datos de expresión de anuncios del conjunto de muestras se divide en diferentes subconjuntos o clases basadas en el conocimiento previo, como las muestras normales frente a muestras de tumores o muestras de diferentes tipos de cáncer. Del mismo modo, puede ser dividida en diferentes condiciones, diferentes etapas, o diferentes categorías relacionadas con el tratamiento. La mayor parte de la literatura de análisis de datos actual se centra en la consideración de todo el conjunto de datos en el proceso de identificación de genes expresados ​​diferencialmente. Varios tipos de variación genómica son significativos y a menudo ignorada factores de confusión en los estudios de expresión diferenciales. Por ejemplo, en Shyamsundar et al. [5] la variación encuesta autores ARN mensajero nivel de expresión en tejidos humanos normales, que muestra los posibles efectos de confusión de la variación inter-tejido.

Sería valioso para identificar diferencias estadísticamente significativas en diversas muestras que se pueden atribuir de forma fiable al estado biológico específico, como el cáncer o la enfermedad, en vez de variaciones biológicas individuales, como se dijo anteriormente. En muchas situaciones, no hay oportunidad para la recogida en serie de tejido o de sangre de un paciente, animal experimental o línea celular [6], [7]. Sin embargo, muchas técnicas de análisis actual no explotan las relaciones únicas dentro de tales datos. En otros casos, la clase o la variabilidad del paciente pueden enmascarar la expresión diferencial y debe ser abordado. En este estudio se analizan diferentes muestras para investigar tumoral frente a la expresión diferencial normal, lo cual es consistente para múltiples tipos de tumores, y describir los métodos estadísticos adecuados y robustos que soportan esta investigación.

En la actualidad, cientos de microARN (miRNA) han sido identificados en los seres humanos. Estos son cortos (por lo general alrededor de 22 nt) no codificante moléculas de ARN reguladores y sus secuencias se publican en el Sanger miRBase [8]. miARN perfiles de expresión ha sido reconocida para proporcionar información biológica valiosa con potencial para complementar o sustituir ARNm de perfiles [9]. miRNAs regulan genes diana a nivel post-transcripcional y desempeñan papeles importantes en el desarrollo, así como en el cáncer [9] - [11] y en otras enfermedades humanas, incluyendo enfermedades del corazón [12] - [14], la esquizofrenia [15] y psoriasis [16]. miRNAs son altamente expresado diferencialmente en diferentes tipos de tejidos [10]. Por lo tanto, para identificar los genes miARN expresión diferencial debido a las condiciones específicas que necesitamos para minimizar el efecto de confusión de la expresión diferencial dependiente del tejido anteriormente.

Nuestro objetivo en este estudio es identificar miRNAs que se expresan diferencialmente consistentemente en múltiples tipos de cáncer . Para evitar la variabilidad del tipo de tejido y para medir la actividad de los genes miARN diferencial de cáncer relacionado en cada tipo por separado; utilizamos un conjunto de datos de muestra equivalente que consta de 32 medidas de microarrays que representan el 28 tumoral emparejados y las muestras normales. Utilizamos microarrays que contienen sondas para 799 miRNAs para el perfil de expresión de los genes miARN en estas muestras.

Nuestra motivación en la búsqueda de miRNAs con expresión diferencial consistente en múltiples tipos de cáncer se deriva de la conocimiento existente de que muchos procesos biológicos son comunes a diferentes tipos de tipos de cáncer. En particular, se conocen varios genes para ser universalmente expresado diferencialmente a través de múltiples tipos de cáncer. El ejemplo más obvio es p53. p53 fue descubierto por primera vez en 1979 y desde entonces numerosos estudios indicó su participación en múltiples tipos de cáncer. La importancia de la actividad regulada de p53 intacta en la formación de tumores se indica por la prevención de la presencia de mutaciones en la vía de p53 en casi todos los tipos de cáncer [17], [18]. Otro ejemplo de una proteína relacionada con el cáncer universal es p16. Este gen reside en el cromosoma 9 y se encontró que estaba mutado o suprimido en múltiples tipos de cáncer [19] - [22]. Estos son sólo dos ejemplos concretos, entre una gran variedad de procesos celulares que son universalmente asociados con el cáncer.

Los estudios previos sobre el papel de los miRNAs en el cáncer incluyen Lu et al. [9] que se realiza un tumor vs. análisis normal de tejido cruzado usando tecnología de citometría de flujo basado en perlas de una manera no pareado. Este estudio mostró que los miRNAs son suficientes para clasificar con precisión los tejidos de cáncer en función de su linaje embrionario, dando características globales de la expresión de los genes miARN en el cáncer. Otro estudio, de Volinia y col. [10], describe la medición de microarrays de 228 miRNAs en 540 muestras (363 cáncer y 177 normales) a partir de 6 tipos diferentes de tejidos. Además de producir firmas de miARN, los autores informaron algunos miRNAs que están constantemente encima o por debajo expresado, pero no había ninguna evaluación comparativa estadística detallada de la consistencia de la expresión diferencial de los genes miARN. Los autores afirman que cuando la agrupación de los datos de una manera no supervisada, las muestras de racimo basan en los tipos de tejidos, con independencia del estado de la enfermedad, lo que refleja la gran variación de miRNAs al comparar los tipos de tejidos. Esto refuerza nuestra afirmación anterior, que apunta a los genes miARN-tipo de tejido entre la variación basal como un factor de confusión cuando se trata de medir la expresión diferencial de los genes miARN cáncer. Varios otros estudios se centran en miRNAs en tipos específicos de cáncer. Por ejemplo, el miR-15 y miR-16 con frecuencia se eliminan y /o regulados a la baja en las células B de leucemia linfocítica crónica [23], el miR-143 y miR-145 muestran una disminución en la expresión de la neoplasia colorrectal [24], y miR-155 es hasta reguladas en los linfomas de células B humanos [25].

Para apoyar nuestros objetivos de investigación que hemos desarrollado métodos estadísticos que se ocupan de la distribución de caracterización de variables aleatorias que surgen de la comparación de diferentes muestras. En nuestro caso se calcula la expresión diferencial en cada tipo de tumor y luego evaluar estadísticamente su prevalencia en nuestro conjunto de datos. Nuestros métodos se basan en estadísticas de orden discretos - el vector k-dimensional que se obtiene mediante la elaboración de números independientes k uniformemente en 1 ... N y luego ordenándolos resultante vector. Si bien la distribución de estadísticas de orden más espacios de estados continuos está bien caracterizado, este no es el caso para espacios muestrales discretos como a continuación pueden ocurrir con probabilidad positiva repeticiones. distribuciones de computación relacionados con estadísticas de orden discretas se abordan en [26]. Para nuestras necesidades definimos variables aleatorias discretas sobre estadísticas de orden, caracterizar plenamente sus distribuciones y luego aplicar los métodos a los datos biológicos para evaluar la significación estadística

Para resumir, la contribución de este trabajo consiste en:.

caracterización rigurosa de la distribución de las estadísticas de orden más de un estado discreto conjunto, así como de variables aleatorias relacionadas. Esta distribución es altamente aplicable en el análisis combinado de datos en una configuración no paramétrica. También comparamos nuestros métodos de prueba t pareada y la prueba de Wilcoxon Signed Rank.

Un conjunto de datos con muestras tumorales normales emparejados representan un repertorio de 8 tipos de tumores. Este conjunto es único en su énfasis en minimizar el tipo de tejido y la variabilidad relacionada con el paciente a través de la utilización de muestras normales y tumorales del mismo paciente.

Mediante la aplicación de las nuevas estadísticas descritas anteriormente en nuestro conjunto de datos de muestra equivalente validamos conocida oncomiRs y describen varios nuevos miRNAs expresados ​​diferencialmente cáncer universal. Cabe señalar que esta universalidad determinado únicamente se fundamenta, en el contexto de este estudio, para los 8 tipos representados aquí.

Métodos

El punto de partida para el análisis de los resultados de una expresión del gen o los genes miARN perfiles de estudio es el
expresión matriz de datos sin procesar
. Al describir los métodos que usamos la palabra "gen", pero "miARN" se pueden utilizar indistintamente. Esta matriz es típicamente la salida de varios pasos pre-procesamiento, tales como la normalización y filtrado realizado en los datos de medición en bruto.

Normalmente, el análisis de datos de perfiles de expresión comienza con la identificación y la evaluación estadística de los genes que están diferencialmente expresado al comparar diferentes clases representadas en la cohorte. Muchos métodos de calificación gen actuales consideran todos los valores de expresión de un determinado gen. Estos se dividen en dos o más poblaciones de acuerdo con la clasificación estudiado. Las diferencias entre los subconjuntos resultantes de números se evaluaron utilizando varios métodos estadísticos. métodos de calificación gen se dividen en dos grandes categorías - métodos paramétricos, y métodos (libre distribución) no paramétricas. métodos paramétricos asumen una cierta distribución de los valores de expresión de todos los genes dentro de cada clase dada (por ejemplo, cáncer o normal) y luego anotar los genes de acuerdo a cómo separado las distribuciones específicas de clase son. Ejemplos de tales métodos son el estándar
t-test
[27] y el
error de Gauss
Resultados [28]. puntuaciones de distribución gratuita, por el contrario, no se basan en supuestos paramétricos. Estos incluyen el
Kolmogorov-Smirnov
puntuación [29], y el
Wilcoxon la suma de rangos
de prueba [30], así como la
Información
puntuación [31] y
Umbral-número-de-Clasificaciones erróneas
(
TNoM Hoteles en corto) [31]. Los últimos métodos no paramétricos se aplicaron a la expresión de genes y otros datos genómicos y genéticos en varios estudios, como en [2], [32] - [35]

Este trabajo se ocupa de la información adicional y potencialmente más relevante. que se puede inferir cuando los datos de expresión está viniendo de varios pacientes y cuando todas las clases se midieron para cada paciente. Por ejemplo, las muestras antes y después del tratamiento para el mismo paciente. Otro ejemplo es el tumor y muestras normales del mismo tejido de cada paciente, un diseño utilizado en este trabajo. Las puntuaciones que desarrollamos tienen en cuenta el grado en el que un gen separa dos clases en una gran mayoría de los pacientes. La interpretación es que un gen es relevante para la biología subyacente si es altamente expresado diferencialmente durante la mayor parte de los pacientes. Además, se adjunta un nivel de significación (p-valor) para cada nivel de relevancia calificar. El valor p es la probabilidad de obtener este nivel o mejor, de forma aleatoria, como se describe a continuación con más detalle. El análisis estadístico riguroso es fundamental en la identificación de genes con confianza que las clases de muestras fuertemente separadas y por tanto, en que señala en la dirección de la investigación prometedora. variantes parciales de los métodos descritos en este documento se emplearon en [6] y en [36]. Es particularmente importante trabajar con las estadísticas coinciden en el análisis de datos de expresión de genes miARN, como el nivel basal de estos pueden ser muy variables, especialmente en distintos tejidos [10].

En esta sección se describen los métodos estadísticos en alta generalidad . Las realizaciones específicas, en el contexto de un tumor coherente frente expresión normal diferencial de los genes miARN, se describen en la sección de resultados.

Rango consistencia Puntuación (RCO)

El Puntaje Puesto Consistencia (RCO) es un diferencial puntuación de expresión para 2 clases que toma en cuenta a juego paciente.

llamamos a las dos clases de Clase a y Clase B. en primer lugar, calculamos la expresión diferencial entre las dos clases para todos los pacientes (o sujeto o subconjunto)
k = 1 ... r
y para cada gen
g
. La expresión diferencial se puede calcular utilizando diferentes métodos y el método elegido depende del diseño del estudio y en el número de muestras para cada paciente. expresión puntuaciones diferenciales incluyen: factor de cambio, la puntuación de error de Gauss,
t-test
, TNoM y otros métodos. A menudo, el número de muestras para cada paciente y es la clase 1, se utiliza tan simple cambio veces.

A continuación, clasificamos todos los genes por paciente en función de su expresión diferencial entre la clase A y clase B. Para cada gen
g
calculamos su rango para el
k -ésima
paciente:
R
k (g) CD - este es un número entre 1 y
N
, donde
N
es el número total de genes. El gen
g
Top of para k paciente es el más sobre-expresado en Clase A con respecto a la Clase B. Se ocupó el primer lugar y partimos. El rango del gen que menos se expresa en la Clase A con respecto a la Clase B es
N
.

Nuestro objetivo es encontrar los genes con consistentemente altos rangos (de la expresión diferencial entre la clase A y la clase B) en todos los pacientes. Para cada gen
g
, definimos la puntuación de consistencia rango
S (g; r)
como el rango máximo normalizado de este gen entre todos los pacientes, es decir

En otra es decir, el rango de gen
g
para todos los pacientes no es peor que
S (g; r) · N

para una mayor flexibilidad en la definición de la consistencia que permiten valores atípicos. y calcular la consistencia rango de puntuaciones de
S (g; m) Opiniones de
m
de
r
pacientes. En este caso, para cada gen que orden sus filas y entonces la puntuación
S (g; m)
corresponde a la normalizada
m
ésimo más pequeño rango:

Nos llaman el m de r puntuación consistencia rango,
S (g; m)
, los
m /r
RCO. A veces nos referiremos a los
r /r
RCO simplemente como RCO. La Figura 1 ilustra la definición de varios
m
de
r
índices de consistencia rango. Pseudo-código para el cálculo de las RCO m /r se encuentra disponible en el texto S1.

En cada uno de los 5 pacientes /grupos en este ejemplo, filas de los genes cambian de 1 a 1000. Cada columna representa una lista clasificada para un grupo. El gen elegido para el ejemplo tiene el peor entre los 5 grupos rango de 200. Por lo tanto, su consistencia es anotar rango 200/1000 = 0,2; su puntuación de consistencia rango en 3 de cada 5 pacientes es 95/1000 = 0,095 según lo indicado por las flechas.

El análisis anterior será identificar los genes que están sobreexpresados ​​en la Clase A en comparación con el Clase B. para encontrar los genes sobreexpresados ​​en la Clase B se puede realizar el mismo análisis, la inversión de la lista clasificada
.
para evaluar la significación estadística de cualquier valor observado de RCO se estima la probabilidad de obtener el valor de s, o mejor, en datos aleatorios elaborado de acuerdo con un modelo nulo. Esta probabilidad es el
p-valor
correspondiente a este nivel
s
, en el marco del modelo nulo que prevalece. El
p-valores para
RCO y de sus variantes considerados en este trabajo se calculan bajo el supuesto de independencia de los pacientes y de la distribución uniforme de filas entre los genes dentro de cada paciente. Estas dos hipótesis nula definen el modelo subyacente.

Para calcular las OCR m /r
p-valor en
s, calcular la probabilidad de un ranking de genes de la fracción de la parte superior de la s lista, en al menos m pacientes. Deje
V
sea un vector aleatorio
r
-dimensional con entradas procedentes independiente y uniforme en
1, ..., N
. Estamos interesados ​​en la probabilidad de la
m
-ésima entrada más pequeño de
V sobre ser menor que
sN
. Viene dada por:

Mínimo Rango consistencia Puntuación (minRCoS)

Cuando se trabaja con muestras más grandes, se pregunta por el número de valores extremos para permitir (que m para elegir) surge. Una solución posible es de principios para calcular el valor de p m /r RCO para todos los valores posibles de m y elegir el valor de m con el mejor valor de p. Esta p-valor debe por supuesto ser corregido para múltiples pruebas. En esta sección definimos la puntuación mínima de rango-consistencia, y mostrar cómo caracterizar de manera eficiente su distribución, lo que permite el cálculo de los valores de p (con más necesidad de múltiples pruebas de corrección). Lo primero que describen los cálculos y luego analizar su complejidad tiempo total

Para cualquier número
N Hotel & gt;. 0, que denota el conjunto de filas {1, ..,
N
} con [
N
]; Vamos a [
N
]
R representan el conjunto de vectores de longitud
r
, donde cada entrada es de [
N
]. Utilizamos
V
para denotar un vector aleatorio uniformemente distribuidos en [N]
r.

Dado un vector se denota el número más pequeño
m-ésimo en

v fotos: por
v

& lt; m & gt ;. Es decir, . Teniendo en cuenta un índice y un rango, denotamos por
β gratis (
m
,
t
) la probabilidad de que
V
& lt; m & gt;
será igual a
t
o menos. Tenga en cuenta que
β (m, t)
es el valor de p, en s =
t /N
, de consistencia Puesto M-fuera-de-r puntuación definido previamente, y puede ser eficientemente computado como se muestra en la sección anterior.

Se define el
consistencia mínima puntuación de ranking
de un vector
v
, denotado por
mRCoS gratis (
v
), por. En palabras,
mRCoS gratis (
v
) es la mejor (mínimo) la coherencia rango p-valor, donde
m
varía de
1 | a
r
.
mRCoS gratis (
V
), por lo tanto es una variable de aleatoria toma valores en [0,1]. Ahora se calcula el valor exacto de p asociado con
mRCoS gratis (
V
) a un valor dado, t:

Teniendo en cuenta, y un índice, definen al ser el mínimo ranking
t
tal que. Tenga en cuenta que, dado que podemos calcular de manera eficiente
β (m, t)
para todos y, lo que podamos de manera eficiente "invertido"
β (m, t) y calcular

τ
m gratis (
p
). Tenga en cuenta que . Utilizando la notación anterior tenemos:

Dado un vector constante filas
C
, decimos que un vector
v
∈ [
N
]

r
es
C CD -
acotada si
(para todos
m
= 1, ..,
r
). En palabras, todas las entradas de ordenados
v ¿Cuáles son mayor (o igual a) las entradas correspondientes de
C
. Por ejemplo, el vector
v
= & lt; 3,2 & gt; está delimitado por, desde entonces.

El número total de vectores en [
N
]
R que son
C
-bounded se denota por
B
(
N
,
r
,
C
).

por ejemplo, para, España
El conjunto de vectores acotada por decir, y por lo tanto.

por la definición de
B Opiniones (
N
,
r
,
C
), ya
V
se elige de manera uniforme al azar, obtenemos, donde
τ gratis (
p
) denota el vector. Por lo tanto, hemos reducido el problema de calcular un valor de p para la puntuación mínima de rango-consistencia a la combinatoria problema de calcular de manera eficiente el número de vectores en [
N
]
r están delimitadas por una determinada vector.

Informática
B Opiniones (
N
,
r
,
C
)

Dados dos números enteros ,
N
,
r
, y un vector
C
, queremos calcular
B Opiniones (
N
,
r
,
C
), el número de
C
vectores -bounded en [
N
] r
. Para cada vector
v
definimos dos propiedades:.
t (v)
y
k (v) guía empresas

t (v)
es la entrada máxima de
v
. Es decir, . Tenga en cuenta que
t (v)
puede asumir los valores de 1 a
N
.


k (v)
es el número de entradas en
v
cuyo valor es estrictamente menor que
t (v)
. Tenga en cuenta que
k (v)
puede asumir los valores del 0 al
r
-1.

Estas dos propiedades se pueden utilizar para la partición [
N
]
r.

Se denota el conjunto de todos los
C
vectores -bounded y para los que. Tenga en cuenta que estos conjuntos son disjuntos de hecho, y que su unión cubre todos los
C
vectores -bounded. Mediante el uso podemos calcular
B Opiniones (
N
,
r
,
C
), sumando todos los valores posibles de
t
y
k
:
Como sólo hay N * r tales conjuntos esto produciría un procedimiento eficaz para calcular
B Opiniones (
N
,
r
,
C
). Utilizamos un enfoque de programación dinámica para calcular todos los valores de r * N.

Vamos
C gratis (1 ..
k
) Sea el primero
k
elementos de
C
, es decir. Observamos que en un vector (r-k) más grandes filas son iguales a
t
. Por lo tanto, para calcular sólo necesitamos determinar las posiciones dentro de
v Red de la
k
valores más pequeños, y sus valores reales, de tal manera que todos ellos son estrictamente menor que
t
y son C (1..k) delimitada:

ahora utilice el siguiente procedimiento de programación dinámica para calcular el número de
C
vectores -bounded: Read
Esto permite nosotros calculamos de manera eficiente el valor de p minRCoS:

Hay un total de N * r pasos de programación dinámica necesarios para calcular B (N, R, C). En cada paso, el cálculo de B (t, k, C) requiere sumando los valores de k * t de B. En total, la complejidad del procedimiento de programación dinámica para calcular B (N, R, C) por lo tanto es O (N
2 * r
2). Para calcular lo que necesitamos para llevar a cabo un máximo de r * N RCO cálculo del valor p, cada uno toma O (r). Por lo tanto, la complejidad de la minRCoS p-valor de cálculo para un determinado p es O (N
2 * r
2).

Muestras, Protocolo experimental y procesamiento previo de datos

Los datos se obtuvieron de muestras de ARN total de tumores normales adyacentes adquiridos de Ambion /ABI (tumor FirstChoice® humano normal /ARN tejido adyacente). Las parejas de tumor y ARN normales eran de 14 pacientes diferentes y 8 tipos de cáncer diferentes. Las muestras de tejido fueron de diversos linajes embrionarios: Un par de mama, linfoma y de próstata; dos pares de hígado, ovario, testículos y pulmón; y 3 pares de colon. técnicos se realizaron repeticiones para las muestras de ovario y testículos, por tanto, se utilizaron un total de 32 microarrays de datos para este estudio.

Para cada medición de microarrays, ARN totales 100 ng fueron marcadas con Cy3 utilizando ARN ligasa de T4 por Agilent miARN micorarray v1.5 Protocol Systems. Las muestras de ARN marcadas se hibridó en Agilent miARN microarrays (Agilent humano miRNA Microarray kit V2 - G4470B) durante 21 horas a 55ºC. Las matrices contienen sondas para 723 76 miRNAs virales humanas de la base de datos de v.10.1 Sanger y humanos. A continuación, las matrices se lavaron a temperatura ambiente y se escanean para producir las señales de hibridación (Agilent miRNA Protocolo micorarray Sistemas v1.5). Las matrices fueron escaneados con un rango dinámico ampliado a las 5 y 100% PMT utilizando el escáner de Agilent (modelo G2565AA).

software de extracción de características versión 9.5.3.1 de Agilent se utilizó para generar archivos GeneView [37]. Estos archivos contienen las señales procesadas para cada uno de los 799 miRNAs en la matriz. Para cada uno de los genes miARN, los valores de expresión (gTotalGeneSignal) por debajo del nivel de ruido (gTotalGeneError) fueron sustituidos por el valor del error total del gen correspondiente. Todas las muestras se normalizaron luego tener el mismo 75
TH valor de percentil. Los datos en bruto y normalizados se han depositado en el NCBI Gene Expression Omnibus [38] y son accesibles a través de GEO serie número de acceso GSE14985 (http://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc= GSE14985). Toda la información es compatible con MIAME. Los datos normalizados también están disponibles en la Tabla S1.

Resultados

Se aplicaron métodos consistencia rango anotando los datos recogidos en un estudio de perfiles de expresión de genes miARN en muestras de cáncer relacionados. Los datos recogidos en este estudio consistieron en muestras apareadas de tumor y orígenes normales. Cada par de muestras fue tomado de diferentes partes del mismo tejido en 14 pacientes diferentes y 8 diferentes tipos de cáncer: de mama, colon, hígado, pulmón, linfoma, de ovario, de próstata y de testículo. Las parejas de muestras nos permiten centrarse en los cambios en los niveles de expresión de los genes miARN que resultan del proceso de cáncer y para minimizar el efecto de confusión de la variabilidad interindividual e inter-tejido.

El objetivo del estudio fue . identificar miRNAs universalmente expresados ​​diferencialmente en el cáncer utilizando los métodos estadísticos y medidas descritas anteriormente

Hemos calculado el tumor frente a la expresión diferencial normal de cada miARN en los datos de cuatro maneras diferentes: TNoM [31], no t pareada -test, emparejado t-test y minRCoS. Para los tres primeros métodos, las señales fueron transformados log y en los casos en que exista más de un paciente según el tipo de cáncer se utilizó la mediana. La prueba t no pareada TNoM y se calcularon para la comparación no pareado de todas las muestras tumorales para todas las muestras normales. Para la prueba t pareada se utilizó el tipo de cáncer a juego.

En las diferentes variantes de los OCR (m /r RCO y minRCoS), doble cambio se calculó para cada paciente miARN y dividiendo la señal del tumor por el señal normal. En los tipos de cáncer en donde existe más de un paciente (2 o 3 pacientes) se utilizó la mediana de los cambios veces. Esto se hizo para preservar la coincidencia de paciente (dentro del mismo tipo de cáncer) en nuestros datos. Para cada tipo de cáncer a los miRNAs se clasifican de acuerdo con estos valores para generar las listas clasificadas necesarios como la entrada a todas las variantes RCO. La aplicación del marco general que se describe en la sección Métodos de nuestra base de datos, por lo tanto conduce a la semántica siguiente:.

Clase A y Clase B son tumoral y normal

r = 8.

Si para un miARN g, denotado, tenemos, por ejemplo, 6/8 RCO (g) = 0,2 para la sobreexpresión en el tumor frente a la normalidad, entonces este miARN se sitúa entre el 20% superior de miRNAs exceso expresado en tumor vs. normal, durante al menos 6 de los 8 tipos de tumores diferentes. Obviamente, las interpretaciones similares son válidas para otros valores de m y s (6 y 0,2, respectivamente, en el ejemplo anterior).

El conjunto completo de resultados de nuestro análisis, incluyendo todas las puntuaciones de expresión diferencial y los p-valores asociados, está disponible como material complementario (Tabla S2).

para aplicar la prueba t pareada en estos datos, doble cambio se calculó para cada paciente miARN y dividiendo la señal del tumor por la normalidad señal. En el cáncer se utilizó tipos en los que existe más de un paciente de la mediana de los valores de expresión en el cálculo de factor de cambio. Los datos fueron log-transformado para lograr la normalidad requerida por la prueba t pareada. Observamos que, incluso después de la transformación logarítmica, la hipótesis de normalidad de esta distribución es rechazada por la prueba de Jarque-Bera [39]
.
Las cifras observadas y esperadas de genes para todos los valores de p y la minRCoS niveles en los que FDR (False Discovery Rate) [40] y de Bonferroni de 0,05 se obtienen se muestran en la Figura 2. Tenga en cuenta la sobreabundancia de miRNAs específicos expresados ​​diferencialmente, en comparación con los datos aleatorios números de espera
.
la gráfica superior muestra la comparación de los recuentos observados y esperados de miRNAs para valores de p minRCoS. Para cada valor de p (en el eje x), el número esperado de miRNA que tiene esto, o mejor, p-valor basado en el número total de genes miARN en la matriz, se muestra en azul (similar a [54]). Las líneas rojas y verdes simbolizan el número de miRNAs observados en nuestros datos con estos valores de p minRCoS. El panel inferior muestra una comparación de los recuentos observados y esperados de los genes con los valores de p minRCoS de 0,003 o menos (un zoom-in en el panel superior). La línea A indica el umbral de Bonferroni de 0,05, la línea B indica el FDR [40] umbral de 0,05 para los miRNAs sobre-expresadas (17 miRNAs) y la línea C indica el FDR umbral de 0,05 para los miRNAs bajo-expresado (41 miRNAs).

Un mapa de calor de los miRNAs más significativos identificados por el análisis minRCoS se muestra en la Figura 3. El panel de la derecha contiene los 30 miRNAs cuyos niveles de expresión están aumentado constantemente en los tejidos cancerosos; el panel de la izquierda contiene una lista de los 30 mejores miARN cuyos niveles de expresión se reducen constantemente en los tejidos cancerosos. conclusiones y resultados de los análisis específicos se describen a continuación, incluidos los miRNAs que no fueron previamente universalmente asociados con el cáncer.

Las columnas representan los tipos de cáncer y las filas representan los miRNAs. Una entrada de verde representa un miARN con un muy alto rango es decir, uno que está bajo-expresado en esta muestra de tumor específico en comparación con la muestra normal correspondiente. Un rectángulo rojo indica un miARN sobre-expresada en la muestra tumoral. El panel izquierdo muestra las 30 miRNAs universalmente bajo-expresados ​​en los tumores clasificada según el análisis minRCoS y el panel derecho muestra los mejores 30 miRNAs universalmente expresadas en off en los tumores clasificados según el análisis minRCoS.

diferencialmente

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]