Crónica enfermedad > Cáncer > artículos del cáncer > PLOS ONE: distribuciones no gaussianas afecta la identificación de patrones de expresión, la anotación funcional y clasificación prospectivo en cáncer humano Genomes

PLOS ONE: distribuciones no gaussianas afecta la identificación de patrones de expresión, la anotación funcional y clasificación prospectivo en cáncer humano Genomes


Extracto

Introducción

Gene menudo se asume datos de expresión para ser normally- distribuido, pero esta hipótesis no ha sido probado rigurosamente. Investigamos la distribución de los datos de expresión en el genoma del cáncer humano y estudiar las consecuencias de las desviaciones de la distribución normal para la investigación de oncología molecular traslacional.

Métodos

Se realizó un análisis momentos central de cinco genomas del cáncer y realizado la distribución empírica ajuste para examinar la verdadera distribución de los datos de expresión tanto en la completa-experimento y en los niveles de genes individuales. Se utilizó una variedad de métodos paramétricas y no paramétricas para poner a prueba los efectos de las desviaciones de la normalidad en el llamado gen, anotación funcional y clasificación molecular prospectivo utilizando un genoma sexto cáncer.
Análisis
Resultados

momentos centrales revelar desviaciones estadísticamente significativas de la normalidad en todos los genomas del cáncer analizadas. Observamos tanto como 37% de variabilidad en la llamada de genes, 39% de variabilidad en la anotación funcional y 30% de variabilidad en prospectivo subclasificación, tumor molecular asociado a este efecto.

Conclusiones

expresión génica del cáncer perfiles no están normalmente distribuidos, ya sea en la completa-experimento o en el nivel de gen individual. En cambio, exhiben distribuciones complejas, colas pesadas caracterizadas por la asimetría y curtosis estadísticamente significativa. La distribución no gaussiana de estos datos afecta a la identificación de genes expresados ​​diferencialmente, anotación funcional y clasificación molecular prospectivo. Estos efectos pueden reducirse en algunas circunstancias, aunque no eliminado por completo, por el uso de análisis no paramétricos. Este análisis pone de manifiesto dos supuestos poco fiables de análisis de expresión génica del cáncer de traslación: que los "pequeños" de la normalidad en salidas la expresión distribuciones de datos son analíticamente insignificante y que "robustas" algoritmos genes pueden llamar a compensar por completo estos efectos

Visto: Marko NF, Weil RJ (2012) distribuciones no gaussianas afecta la identificación de patrones de expresión, la anotación funcional y clasificación prospectivo en cáncer de genomas humanos. PLoS ONE 7 (10): e46935. doi: 10.1371 /journal.pone.0046935

Editor: William B. Coleman, Universidad de Carolina del Norte Facultad de Medicina, Estados Unidos de América

Recibido: 17 Marzo, 2012; Aceptado: September 6, 2012; Publicado: 31 Octubre, 2012

Derechos de Autor © 2012 Marko, Weil. Este es un artículo de acceso abierto distribuido bajo los términos de la licencia Creative Commons Attribution License, que permite el uso ilimitado, distribución y reproducción en cualquier medio, siempre que el autor original y la fuente se acreditan

Financiación:. NFM es apoyado por una beca de la Asociación Americana de programa de William P. VanWagenen Fellowship Neurological Surgeons '. RJW está apoyado en parte por subvenciones No.W81XWH-062-0033 del Departamento de Breast Cancer Research Program Defensa de los Estados Unidos, por la silla de Melvin Burkhardt en oncología neuroquirúrgica, y por la dotación de la investigación Karen Wilson Colina dentro del tumor cerebral y Neuro Centro de oncología de la Fundación Clínica de Cleveland. Sin financiación externa adicional fue recibida para este estudio. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito

Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia

Introducción

Antecedentes

Los ensayos basados ​​en microarrays de expresión génica se han convertido en un pilar de la investigación básica y traslacional del cáncer. Un número significativo de investigaciones modernas que utilizan estas herramientas para informar a la generación de hipótesis [1], por la vía de análisis [2], [3], por la farmacogenómica y el descubrimiento de fármacos [4], y para el desarrollo de estrategias de clasificación de la enfermedad de base molecular [5] , [6]. Además, los datos de expresión génica se están volviendo cada vez más importante para informar el diagnóstico clínico y el manejo del paciente [7], [8], y los perfiles genómicos basados ​​en microarrays están siendo utilizados para guiar la inscripción del paciente y la estratificación en los ensayos clínicos a gran escala [9] , [10].

En este contexto, la importancia de la correcta interpretación de los resultados de microarrays y las importantes consecuencias de los errores sistemáticos de análisis se hace evidente. En los primeros días de análisis de microarrays, los altos costos de experimentación y variabilidad técnica significativa limitan la información disponible con la que se podrían estudiar el análisis exhaustivo de los efectos prácticos de sesgos sutiles en los datos de microarrays o en su interpretación [11]. Esto, a su vez, hizo necesario que se hagan ciertos supuestos matemáticos y biológicos [12], [13], y la falta de datos adecuados impidió una investigación en profundidad de la validez de estos supuestos.

El supuesto de normalidad en dos tipos relacionados de los conjuntos de datos de expresión

una suposición común es que los datos de la expresión del genoma basado en análisis de microarrays se ajustan a una distribución normal de Gauss (normal). Este supuesto es raramente explícita pero sí es más comúnmente formularse de forma implícita cuando los investigadores aplican algoritmos de análisis afirmados sobre la hipótesis de Gauss. hipótesis relacionadas con la distribución son relevantes para al menos dos, grupos distintos de los datos de expresión generados en el análisis de microarrays, y la hipótesis de normalidad ha sido variable (a menudo implícitamente) que se aplica tanto a [12] - [15].

La primer conjunto de datos a la que la distribución es de referencia comprende el conjunto completo de valores de expresión individuales a través de todos los genes y todas las muestras en un experimento dado. Por ejemplo, en un estudio que examina la expresión de 25.000 genes en 100 tumores, este es el conjunto de todos los valores de expresión de genes 2.500.000. La distribución de este conjunto de datos compuesta puede ser particularmente relevante para la agrupación de aguas abajo y analiza la discriminación de clase, ya que muchos de estos algoritmos se aplican típicamente a todo el conjunto de datos en su conjunto. Cuando se utilizan algoritmos afirmados sobre una distribución gaussiana estándar, la suposición de normalidad se introduce implícitamente.

El segundo conjunto de datos a la que la distribución es relevante es el conjunto de datos que comprende los valores de expresión individuales para un único gen en toda la gama de experimental muestras. Continuando con el ejemplo anterior, este experimento generaría 25.000 tales conjuntos de datos, cada una con 100 puntos de datos. La distribución de estos 100 puntos de datos puede ser particularmente relevante para los estudios que examinan la consistencia del comportamiento de un gen específico en un tipo específico de tumor o analizar el patrón de su cambio a través de una serie de "clases" o "grados" de un tumor específico . Aquí, la distribución puede proporcionar una descripción útil del comportamiento de este único gen a través de múltiples muestras independientes, pero la hipótesis normal puede ser introducido implícitamente si algoritmos utilizados para analizar el comportamiento de este gen se basan en una distribución gaussiana estándar.

La suposición de normalidad se ha investigado de forma explícita en el análisis de la expresión génica, aunque en un grado limitado. A pesar de que inicialmente parecía tener tanto teóricos [16] y el apoyo empírico [11], [17], los análisis más recientes han sugerido la posibilidad de que las distribuciones no gaussianas para los datos de expresión de genes [18] - [21]. En la actualidad, sin embargo, la mayoría de estas observaciones se derivan de simuladas [19], [21], [20], [21], o conjuntos de datos no clínicos heterogéneos [18] - [21].
Importancia


la posibilidad de que los datos de expresión génica violan el supuesto de normalidad puede ser de considerable importancia para los investigadores clínicos y de la traducción. La mayoría de las aplicaciones médicas actuales y propuestas de los datos de microarrays de expresión se derivan de los análisis afirmados sobre este supuesto, muchos de los cuales se han basado en la estadística paramétrica para realizar llamadas de genes y la clase de descubrimiento [6] - [8]. oncólogos de traslación se encuentran entre los más ávidos consumidores de datos de microarrays y los más propensos a proponer su aplicación clínica, por lo que un lugar lógico para comenzar una investigación de la magnitud, el alcance y las implicaciones clínicas de las distribuciones no gaussianas en los datos de expresión génica es con gran , disponibles al público las bases de datos del genoma del cáncer [22], [23]. No obstante, esta cuestión es fundamental para el paradigma analítico actual de los datos de expresión de genes en general, y esperamos que los resultados de esta investigación tienen un significado más allá del ámbito de la oncología molecular traslacional.

La presente investigación tiene dos objetivos y se ha estructurado en dos partes: la primera es teórica - para estudiar la distribución de los datos de expresión génica contra el cáncer - tanto en el gen individual como a nivel de conjunto completo de datos - y para evaluar el grado en que éstas se desvían de la normalidad. Esto proporciona la base para el segundo objetivo, traslacional: para estudiar las consecuencias de no gaussiana distribuciones de expresión génica en el análisis genómico con orientación clínica. El modelo experimental se ha diseñado deliberadamente para recapitular fielmente el flujo de trabajo de una tubería típica, traslacional para el análisis de la expresión génica (Figura 1)
.
El diagrama de flujo representa el flujo de trabajo típico análisis de microarrays (sección superior), los métodos estadísticos utilizados en cada paso (sección media), y las correspondientes tablas y figuras en este manuscrito que presente análisis en cada nivel (sección inferior) guía empresas
Resultados

análisis de Distribución -. los conjuntos de datos completos

primero examinamos la distribución de la serie completa de los valores de expresión individuales a través de todos los genes y todas las muestras en cada uno de los cinco experimentos (el primer tipo de conjunto de datos descrito en la introducción). La Tabla 1 resume los resultados del análisis de los momentos centrales de cinco, a gran escala (n = 180, cada uno) genomas de cáncer humano, que se realizó después de la normalización con ya sea el promedio robusto multichip (RMA) [24] o la dCHIP [25] métodos. Estos datos demuestran que, mientras que los medios y las desviaciones estándar sugieren normalidad aproximada (rango μ: -0,18 a 0,10; σ rango: 0,84-1,58), el tercer y cuarto momentos centrales salen de la normalidad de una manera estadísticamente significativa. índices de Fisher de asimetría y curtosis, que se consideran significativas a α & lt; 0,05, cuando excedan del ± 1,96, son & gt; 100 para todas las muestras. Además, el
F
-test de la varianza demuestra salidas estadísticamente significativas de la normalidad para todas las muestras (Tablas 1, S1). Por consiguiente, todas las distribuciones de la expresión de genes de cinco cáncer salen significativamente de la distribución normal. Esto se ve apoyado por los resultados de los unidireccionales y bidireccionales pruebas KS, que muestran importantes desviaciones de la normalidad para todos los conjuntos de datos. Por otra parte, los resultados del análisis central momentos sugieren que estas distribuciones tienen asimetría leve pero significativo, son marcadamente kurtotic, y son pesados ​​cola (Figura 2). Resultados similares a partir de datos normalizados utilizando tanto la RMA [24] y el método dCHIP [25] sugieren que esta desviación de la normalidad es poco probable que sea una función del algoritmo de normalización y el análisis tanto de Log
2 transformadas y Log
2-restado sugiere que no está relacionada con la sustracción de registro (Tablas 1, S1; Figuras S1, S2).

los datos de origen de estos gráficos son los conjuntos de datos de registro
2-sustraídas. Todos los anchos de caja se han establecido en 200 para mejorar la visualización. curvas rojas representan la distribución normal de mejor ajuste. La imagen principal da el histograma con la curva normal superpuesta teórico. El recuadro presenta la trama cuantil-cuantil (QQ), donde la desviación de la línea (y = x, negro) ilustra la desviación de la empírica de la distribución normal teórica. Panel izquierdo muestra los datos normalizados con el método de RMA. El panel derecho muestra los datos se normalizaron con el método dCHIP. Un cerebro; B: de mama; C: Colón; D: gástrica; . E: ovárico

Estos hallazgos no son necesariamente sorprendente, ya que ninguno de los métodos de normalización ni el proceso de transformación logarítmica están destinados específicamente para producir la normalidad; Sin embargo, este análisis demuestra el uso de múltiples conjuntos de datos de expresión que ninguna de estas transformaciones son suficientes para producir los datos de Gauss. En consecuencia, no se puede suponer con seguridad que los datos que han sido "normalizado" utilizando cualquiera de estos métodos se ajustaban en realidad a una distribución "normal" (estándar de Gauss)

Distribución Análisis -. Los genes individuales

también se examinaron las distribuciones de datos de genes individuales a través de las 180 muestras de cada uno de los conjuntos de datos 5 con cáncer. Muchos investigadores examinaron datos de un experimento que contiene microarrays de tumores múltiples, similares pueden suponer que un gen "sobreexpresado" exhibiría una distribución de Gauss centrada en torno a un valor medio positivo, un gen "underexpressed" tendrá una distribución similar en torno a un valor negativo, y un gen cuya expresión es sin cambios tendrá una distribución gaussiana centrada en torno a cero. Nuestro análisis, sin embargo, demuestra que los grados variables de asimetría y curtosis, así como desviaciones marcadas de la unidad entre las desviaciones estándar son características de las distribuciones de expresión para genes individuales. Tabla 2 resume los resultados de este análisis, y la figura 3 da un ejemplo ilustrativo de este efecto por el trazado de las distribuciones de los genes seleccionados del tumor cerebral (glioblastoma) conjunto de datos.

Estos gráficos ilustran la amplia gama de asimetría potencial (a) y curtosis (B) que existen en las distribuciones de expresión de genes individuales que comprenden la expresión cáncer de conjuntos de datos. Esto refuta el supuesto de que los datos de expresión de genes individuales siguen aproximadamente una distribución de Gauss en torno al nivel de expresión del gen de media. Los datos de estos gráficos fue tomada desde el registro
2-restados, RMA-normalizaron los datos de expresión de glioblastoma. Para la comparación de asimetría, cinco genes con los medios establecidos, desviaciones estándar, y curtosis fueron seleccionados a partir de subconjuntos de genes que representan aproximadamente el 10
ª, 25
ª, 50
ª, 75
º y 90
º percentiles de asimetría por-gen contenido en el conjunto de datos. Del mismo modo, para la comparación de curtosis, cinco genes con los medios establecidos, desviaciones estándar, y la asimetría se seleccionaron a partir de subconjuntos de genes que representan aproximadamente el 10
ª, 25
ª, 50
ª, 75
º y 90
º percentiles de curtosis por-gen contenido en el conjunto de datos. Las identidades de los genes no son pertinentes a efectos comparativos.

Ajuste de curvas

empírico curva de ajuste se utilizó para investigar más a fondo la morfología real de las distribuciones de expresión génica del cáncer ( Tabla 3; las figuras 4, S3, S4, S5, S6). Este análisis sugiere que, distribuciones de múltiples parámetros complejos son necesarios para modelar con mayor precisión las distribuciones de datos de expresión. En general, las distribuciones de mejor ajuste fueron los que se parametrizan para modelar asimetría, curtosis, y colas pesadas. Estos incluyen distribuciones de múltiples parámetros relacionados con la β-prime (Pearson VI, capaces de asimetría de modelado) (por ejemplo, Log-logística, Dagum, Burr), distribuciones kurtotic (por ejemplo hiperbólica-secante), y el versátil, de 4 parámetros Johnson SU [26].

ajuste para el conjunto de datos del cáncer de cerebro para RMA (arriba) y dCHIP (abajo) los datos normalizados de distribución. Las tres curvas de mejor ajuste se superponen en el histograma, y ​​la curva de distribución normal es incluido para comparación. se dan los parámetros específicos para las distribuciones de mejor ajuste. El recuadro muestra el gráfico de cuantil-cuantil (QQ) para las distribuciones de mejor ajuste y normales. Estos gráficos demuestran que las distribuciones multiparámetro capaz de asimetría y curtosis modelado mejor caracterizan a los datos que la distribución estándar de Gauss (normal). gráficos similares para tipos de tumores adicionales se dan en las figuras S2, S3, S4, S5.

Si bien estas distribuciones se ajustan a los datos con mayor precisión que la distribución normal, la prueba KS indica que son imperfectos única (Tabla 3). Por otra parte, no existe una única distribución que es claramente superior para el modelado de todos los conjuntos de datos de expresión. En general, este análisis confirma las importantes desviaciones de la normalidad asociada con los datos de expresión del genoma del cáncer y demuestra la naturaleza compleja de las distribuciones de expresión subyacentes

Gene Calling & amp.; Anotación funcional

Hasta este punto, el análisis se ha centrado en la investigación de las distribuciones reales de la expresión génica de conjuntos de datos y la comparación de éstos con una distribución teórica, normal. Este análisis ha demostrado que los datos de expresión génica del cáncer humano no se distribuye normalmente, ya sea para el experimento o en el nivel de un solo gen. Una pregunta siguiente sería apropiado si estas desviaciones de la normalidad afectan realizados comúnmente análisis de la expresión génica, incluyendo clasificación molecular, llamadas genes, y la anotación funcional.

Para investigar esta cuestión, se realizó un análisis de un conjunto de datos de expresión génica 23 de gliomas de bajo grado (LGG), incluyendo un subconjunto único de once tumores con cromosomas intactos 1p y 19q (arbitrariamente designados
Clase 1 |) y otro subconjunto de ocho oligodendrogliomas con el cromosoma 1p /19q codeletions [5] , [27] (arbitrariamente designado
Clase 2
), se utilizó para estudiar los efectos de la distribución de datos en genes de identificación que se-expresados ​​diferencialmente entre subconjuntos de tumores conocidos. Esto se logró mediante la aplicación de una transformada de uniforme (Box-Cox [28]) para el conjunto de datos de expresión para mejorar la normalidad de la distribución de datos y a continuación, la comparación de los resultados de los algoritmos de genes llamando aplicadas a la matriz y los conjuntos de datos transformados (Figura 5). Sólo de este modo la forma de la distribución ha cambiado, y la hipótesis nula es que esta transformación no debe tener ningún efecto sobre el gen llamando si los métodos son lo suficientemente "sólida" a la morfología de distribución o son verdaderamente "independiente de la distribución."

una transformación Box-Cox aplica al conjunto de datos glioma de bajo grado (izquierda) da lugar a una distribución que se aproxima más a una distribución normal (derecha). Tenga en cuenta que la distribución de los padres se recentrada a cero significa para compensar la media predeterminada de la salida robusto Multichip normalización de 7. Esta distribución transformado a continuación, se utilizó para analizar los efectos de distribución dependiente sobre la identificación de genes expresados ​​diferencialmente, anotación funcional, y clasificación molecular prospectivo

El estudiante de doble cara
t-test
con una corrección de Bonferroni estándar (
p Hotel & lt; 0,01)., identificaron 50 expresados ​​diferencialmente genes entre
Clase 1 | y
Clase 2
utilizando la distribución de los padres y 55 utilizando la distribución transformado (diferencia de 9,1%). Cuarenta y nueve (49) del total de 56 genes expresados ​​diferencialmente fueron comunes a ambas listas (87,5%), mientras que 7 fueron identificados de forma única en una sola de las dos listas (12,5%) (4A Tablas, S3).


a pesar de la corrección de Bonferroni estricto, el
t-test
es una prueba paramétrica que hace suposiciones sobre la forma de la distribución subyacente. Para eliminar este efecto, hemos aplicado dos métodos no paramétricos, para la llamada de genes. Una de dos clases, análisis de la importancia de no apareado microarrays (SAM) [29] identificaron 759 genes expresados ​​diferencialmente en los padres y 478 en la distribución transformado (diferencia 37,2%). De 760 genes totales, 477 (62,8%) eran comunes a ambas listas, mientras que 283 (37,2%) eran únicos a sólo una de las dos listas (4A Tablas, S4). Una prueba de dos clases, no pareada de Kruskal-Wallis (KW) identificado 1.801 genes expresados ​​diferencialmente en la distribución de los padres y 1800 en la distribución transformado. Hubo 99,9% de solapamiento en estas listas de genes (4A Tablas, S5).

Una estrategia alternativa para realizar llamadas de genes utiliza un modelo lineal para microarrays (LIMMA) [30] un enfoque bayesiano para un modelo lineal para calcular un moderado
t-test
. Si bien este método supone la normalidad de los datos subyacentes, que es considerado por muchos ser superior a la norma y se corrige
t
-pruebas y se considera robusta para una variedad de efectos matemáticos y estadísticos de confusión [31]. LIMMA identificado 2.866 genes expresados ​​diferencialmente en los padres y 2.981 en la distribución transformado. De 3.047 genes en total, 2.710 (88,9%) eran comunes a ambas listas, mientras que 337 (11,1%) eran únicos a sólo una de las dos listas (4A Tablas, S6).

Los efectos de la distribución de funciones la anotación se estudió por primera vez mediante el uso de DAVID [32], [33] para realizar anotaciones de ontología de genes (GO) [34], [35] y Kyoto Enciclopedia de genes y genomas (KEGG) [36] términos en las listas de genes previamente generada por el SAM y KW análisis y luego mediante la realización de un análisis estadístico para el enriquecimiento de los términos anotados. Esto identificó 46 términos únicos en las listas de SAM, con el 60,9% de solapamiento entre los términos enriquecidas en el padre y listas transformadas. Por el contrario, el análisis de las listas generadas por el análisis identificó 49 KW términos enriquecidas, todos los cuales eran idénticos en las listas de los padres y los conjuntos de datos transformados (100,0%) de solapamiento (Tablas 4B, S7, S8).

Clasificación

los datos de expresión de genes se utilizan con frecuencia como la base para los intentos de subclasificación base molecular de los tumores con histología similar pero diferentes fenotipos clínicos. Hemos explotado la
a priori
conocimiento [5] de dos de estos grupos dentro del conjunto de datos glioma de bajo grado (
Clase 1 | y
Clase 2
) para simular el proceso de clasificación y para estudiar la relación de los resultados a la forma de la distribución de datos subyacente. El análisis discriminante (DA) y k-vecinos más cercanos (KNN) clasificadores fueron entrenados en un subconjunto de los tumores con representantes de cada clase y luego se utilizaron para clasificar los diez nuevos tumores, en una de las dos clases. Los análisis se realizaron en idénticas datos de la matriz y las distribuciones transformadas. Los resultados de estos análisis demuestran un 20% de diferencia en la asignación de clase (2/10 muestras) para el DA y 30% (3/10 muestras) para el clasificador KNN cuando se usa con los datos de los padres, pero las clasificaciones idénticas para ambos modelos cuando se utiliza con el conjunto de datos transformado (Figura 6). Este efecto es independiente del método inicial de reducción de datos (SAM o
t-test
) (Figura S7).

Dos métodos de clasificación molecular prospectivo, el paramétrico de análisis discriminante (DA, la parte superior ) y el K-vecinos más cercanos no paramétrico clasificador (KNN, parte inferior), se utilizaron conjuntamente con la matriz y transformado bajo grado de expresión glioma conjuntos de datos para estudiar los efectos de distribución dependiente de subclasificación tumor molecular. Clase 1 representa de bajo grado, gliomas 1p /19q-intactas, y la Clase 2 representa el cromosoma 1p /19q codeleted, oligodendrogliomas de bajo grado. Las barras de color más altas representan la clase conocida de cada muestra (cajas negras; rojo = Clase 1, Clase 2 = azul). El área por debajo de las barras de color es una parte del perfil de expresión génica (rojo = underexpressed, verde = sobreexpresado). DA utiliza en conjunción con la matriz de distribución (no normal) produce dos errores de clasificación y KNN produce 3, mientras que ambos métodos utilizados con el resultado conjunto de datos transformado en subclasificación molecular exacta.

Discusión

datos de expresión génica no se distribuyen normalmente
-
La distribución de los datos de expresión génica se suele suponer para ajustarse a una distribución (normal) estándar de Gauss [11], [17]. Esta suposición puede ser atribuible a una combinación de tres factores. En primer lugar, este comportamiento puede ser (posiblemente) predicho por el teorema del límite central [16]. En segundo lugar, los análisis básicos de la expresión génica de conjuntos de datos, que generalmente incluyen cálculos de la media y la desviación estándar, así como la inspección visual de la distribución de los datos, por lo general revelan en forma de campana curvas con un medio (μ) centrada cerca de cero y desviación estándar (σ) aproximadamente igual a uno. En tercer lugar, en los primeros días de análisis de expresión génica cuando se codificaron estos supuestos, los conjuntos de datos eran pequeñas y se observaron diferencias con respecto a estos valores teóricos pueden no haber alcanzado significación estadística.

La era moderna de análisis de la expresión, que se caracteriza por reducción de costes y el aumento de la disponibilidad de muestras, ahora permite el lujo de trabajar con conjuntos de datos que incluyen varias veces más muestras y exponencialmente más funciones que las del pasado. Estos conjuntos de datos, como los examinados en el presente documento, permiten un análisis más preciso de la distribución de los datos de expresión. En este análisis hemos ido más allá de cálculo de μ y σ (que, de hecho, a primera vista parecería ser consistente con normalidad en estos datos) y han realizado un análisis exhaustivo de los momentos centrales de orden superior para estas distribuciones. Este análisis se aprovecha la disponibilidad de casi el 10
8 funciones por conjunto de datos para permitir evaluaciones de significación estadística de las desviaciones aparentemente de menor importancia de la normalidad. De este modo, se revela que estas desviaciones lograr un alto grado de significancia estadística de todos los cuatro primeros momentos centrales. Esto proporciona evidencia convincente de que estos datos de expresión génica contra el cáncer no se ajustan a una distribución normal de Gauss (Figura 2, Tabla 1) y que los supuestos de normalidad categóricas para estos tipos de conjuntos de datos puede ser válido.

Expresión génica datos muestran Características distribución complejos

curva de ajuste empírico identifica, de manera imparcial, distribuciones que modelan con mayor precisión las distribuciones observadas de los datos de expresión. El análisis de las distribuciones empíricamente-fit proporciona información adicional con respecto a la distribución de datos y se puede utilizar para extraer conclusiones generales acerca de los tipos de análisis aguas abajo que pueden ser aplicables a estos conjuntos de datos. Este análisis demuestra que las distribuciones de expresión no están bien modelados por, distribuciones de dos parámetros simplificados (tales como la distribución normal) sino que requieren distribuciones con múltiples (3-4) parámetros de forma para modelar los datos con precisión. Varios derivados de la distribución de β-prime (por ejemplo, Log-logística, Dagum, Burr [37], [38]) fueron identificadas empíricamente como modelos útiles para estos datos. Esto es lógico puesto que la β-prime está relacionada con la distribución de tipo VI Pearson, que es uno de una familia de distribuciones usadas originalmente para modelar datos asimétricos [38]. La distribución secante hiperbólica también fue identificado comúnmente entre estos modelos empíricos. Esta es una distribución más sencilla, 2-parámetro con una kurtosis exagerada [39], y su identificación como un modelo útil para estos datos pone de relieve la naturaleza kurtotic de los conjuntos de datos. Finalmente, el 4 parámetros Johnson SU [26] es una distribución versátil para modelar datos asimétricos y kurtotic. Junto a la familia de las distribuciones de Johnson cubre todo el espectro de asimetría-curtosis, y la distribución de SU es particularmente útil con los datos logarítmicos [38]. En conjunto, la identificación de estas familias particulares (β-prime /Pearson, hiperbólica-secante, Johnson) pone de manifiesto la asimetría y curtosis de estos conjuntos de datos y hace hincapié en la insuficiencia de la distribución normal para modelar con precisión los datos de expresión génica del cáncer.

el objetivo era utilizar el proceso de ajuste de aprender lo más posible sobre la estructura de datos subyacente del transcriptoma del cáncer de distribución, no para identificar una sola, la distribución de "mejor ajuste" para los datos de expresión génica del cáncer. De hecho, el análisis KS (Tabla 3) demuestra que ninguna de las 57 distribuciones (Tabla S2) contra el que se probaron estos datos proporcionan un modelo ideal para los datos subyacentes. Aún no está claro si una sola distribución puede describir el transcriptoma del cáncer con verdad, y lo más probable es que no hay dos genes del cáncer de expresión de datos tendrán el mismo, la distribución de "mejor ajuste". Se postula que la forma compleja de las distribuciones de agregados puede reflejar su composición de varias distribuciones únicas de los genes de los componentes. investigar más a fondo esta mezcla en el modelo de hipótesis y sus implicaciones para la llamada gen está fuera del alcance de este informe, pero merece mayor investigación.

No obstante, la identificación de un modelo de este tipo teórico para la distribución de agregados no se requiere necesariamente para llevar a cabo alto análisis de la calidad de los datos de expresión. En lugar de ello, los investigadores que trabajan con datos de expresión génica pueden desear realizar análisis similares a los descritos con el fin de comprender la naturaleza de la distribución de sus conjuntos de datos únicos. Esto les permitirá a continuación para verificar que sus análisis posteriores no son confundidos por supuestos inexactos respecto a la forma de las distribuciones de datos.

distribuciones no gaussianas afecta a las llamadas de genes y anotación funcional

Después de haber demostrado que los datos de expresión de genes del cáncer no están normalmente distribuidos, una cuestión crítica es el grado en que estas desviaciones de la normalidad afectan aguas abajo, los análisis de traslación. Un esfuerzo considerable en oncología traslacional se ha aplicado a la identificación de subgrupos únicos, genotípicas de los tumores con correlaciones fenotípicas clínicamente significativos, por lo que se centró el análisis de los efectos de análisis de las distribuciones no gaussianas en este dominio
.
Uno de los objetivos comunes de la investigación traslacional es identificar un conjunto de genes con expresión diferencial entre dos subconjuntos, tumorales conocidos o sospechosos. Hemos investigado esta cuestión mediante la aplicación de una transformación normal para el conjunto de datos LGG, usando tres algoritmos diferentes para identificar los genes expresados ​​diferencialmente entre los
Clase 1 Opiniones y

Clase 2 en el padre y en el transformaron de datos y, a continuación, realizar un análisis semi-cuantitativo de las listas de genes resultantes
.
el Bonferroni corregido
t-
prueba identificó 50 genes expresados ​​diferencialmente en los padres y 55 en la distribución transformado y dio lugar a una variabilidad de la distribución dependiente del 12,5% (ver
Texto S1
, para la discusión adicional de este cálculo) (Tabla 4A). La medida en que esta variabilidad refleja los supuestos paramétricos del clasificador es difícil de determinar, debido a la rigurosidad de los resultados de la corrección de Bonferroni en una pequeña lista de genes expresados ​​diferencialmente. LIMMA [30], que se considera más robusto que básica y corregido
t-pruebas
a pesar de su supuesto fundamental de la normalidad, también era sensible a los cambios en la distribución de datos subyacente, con una diferencia de 11,1% en el gen calling observó entre el padre y distribuciones transformadas (Tabla 4A, S6). Por el contrario, la prueba no paramétrica KW identificado 1.801 genes expresados ​​diferencialmente, de los cuales 1.800 (99,9%) eran comunes a ambas listas (Tabla 4A, S5).

El conocimiento de la salud

Ontario Mesotelioma Lawyers

Muchas personas creen que la exposición al amianto sin duda

Los pacientes con cáncer encuentran los pacientes con cáncer cure

encuentran curar De la oficina del Dr. Magne, autor de cá

El linfoma es una gran ayuda para curable- patient

cáncer El tratamiento del linfoma en la India es la mejor o

VPH y la controversia Vacunación

VPH y la controversia Vacunación Whilepreventing ningún c

Un ataque de pánico Guardado mi Life

I fue diagnosticado con cáncer de pulmón de febrero de 2004.

Enfermedades de sentido común

Enfermedad del corazón | Enfermedades artículos | Enfermedad pulmonar | las preguntas más frecuentes de salud | Salud mental | Diabetes | El sentido común de la Salud | Enfermedades comunes | senior Health | Primeros auxilios
Derechos de autor © Crónica enfermedad[www.enfermedad.cc]