Extracto
Antecedentes
El NCI-60 es un panel de 60 diversa líneas celulares de cáncer humano utilizados por el Instituto Nacional del cáncer de Estados Unidos para rastrear compuestos para la actividad contra el cáncer. En el estudio actual, los niveles de expresión génica de cinco plataformas se integraron para dar un único perfil de transcriptoma compuesto. El carácter integral y confiable de ese conjunto de datos nos permite estudiar genes co-expresión a través de las líneas celulares de cáncer.
Metodología /Principales conclusiones
La agrupación jerárquica reveló numerosos grupos de genes en los que los genes CO- variar a través del NCI-60. Para determinar la clasificación funcional asociada a cada grupo, se utilizó la ontología de genes (GO) Consorcio de base de datos y la herramienta GoMiner. Mapas de genes organizados jerárquicamente a-categorías de procesos biológicos. GoMiner puede aprovechar GO para realizar análisis ontológicos de los estudios de expresión génica, lo que genera una lista de categorías funcionales significativas.
Conclusiones /Importancia
análisis
GoMiner reveló muchos grupos de genes coregulated que están asociados con grupos funcionales de GO proceso biológico categorías. En particular, esas categorías derivadas de agrupaciones coherentes co-expresión reflejan temas relacionados con el cáncer tales como la adhesión, la migración celular, el empalme de ARN, la respuesta inmune y la transducción de señales. Por lo tanto, estos grupos demuestran corregulación transcripcional de genes relacionados funcionalmente
Visto:. Zeeberg BR, Reinhold W, Šnajder R, Thallinger GG, Weinstein JN, Kohn KW, et al. (2012) Categorías funcionales asociados con grupos de genes que son co-expresados a través de los NCI-60 líneas celulares de cáncer. PLoS ONE 7 (1): e30317. doi: 10.1371 /journal.pone.0030317
Editor: Ilya Ulasov, Universidad de Chicago, Estados Unidos de América
Recibido: 17 Junio, 2011; Aceptado: 15 de diciembre de 2011; Publicado: 24 Enero, 2012
Este es un artículo de acceso abierto, libre de todos los derechos de autor, y puede ser reproducido libremente, distribuir, transmitir, modificar, construir, o de otra forma utilizado por cualquier persona para cualquier propósito legal. El trabajo está disponible bajo la advocación de dominio público Creative Commons CC0
Financiación:. Esta investigación fue apoyada por el Programa de Investigación Intramural de los Institutos Nacionales de Salud, Instituto Nacional del Cáncer, Centro de Investigación del Cáncer, Investigación y Ministerio austríaco de Ciencia e Investigación, proyecto GEN-AU Bioinformática Integración de red. Los donantes no tenía papel en el diseño del estudio, la recogida y análisis de datos, decisión a publicar, o la preparación del manuscrito
Conflicto de intereses:.. Los autores han declarado que no existen intereses en competencia
Introducción
el NCI-60 es un panel de 60 líneas celulares de cáncer humano que ha sido utilizado por el programa de terapéutica del desarrollo (DTP) del Instituto Nacional del cáncer de Estados Unidos para rastrear compuestos además de productos naturales a partir de 1990 [1], [ ,,,0],2]. El panel NCI-60 incluye líneas celulares de colon (CO), renales (RE), de ovario (OV), próstata (PR), pulmón (LC), mama (BR), y de origen cáncer del sistema nervioso central (SNC), como así como las leucemias (LE) y melanomas (ME). Nosotros y nuestros muchos colaboradores en todo el mundo han perfilado el NCI-60 más exhaustiva en el ADN, ARN, proteínas, mutación, funcionales y niveles farmacológicos que cualquier otro conjunto de células en existencia [1], [2], [3] , [4], [5], [6]. Los datos del NCI-60 han sido ampliamente utilizados en la investigación y la bioinformática cáncer, pero los múltiples conjuntos de datos pueden ser más informativo para el reconocimiento de complejos 'biofirmas.' Tales biofirmas su vez puede conducir a una mayor comprensión de los fenotipos celulares y las relaciones de la vía dentro de la célula .
previamente desarrollado GoMiner [7] y de alto rendimiento GoMiner [8], las aplicaciones que organizan las listas de genes "interesantes" (por ejemplo, genes de sub y sobre-expresada a partir de un experimento de microarrays) para biológica interpretación en el contexto de la ontología de genes [9], [10]. GoMiner y herramientas relacionadas normalmente generan una lista de categorías funcionales significativas. Además de las listas y tablas, de Alto Rendimiento GoMiner puede proporcionar dos tipos de mapas de imágenes en clúster (CIMS) como salida gráfica. Integradora
categorías frente a experimentos
CIM capturar la relación entre categorías y múltiples experimentos; individuo
categorías en comparación con los genes
CIM capturar la relación entre las categorías y los genes. Se utilizan dos tipos de CIM para presentar los resultados en el presente trabajo.
En la última década, la biología de sistemas se ha convertido cada vez más importante como el número de genes analizables y los parámetros biológicos se han incrementado, y está empezando a mostrar su relaciones funcionales. Un método estándar para el estudio de la biología de sistemas con los datos genómicos es el grupo de genes cuya expresión Perfiles co-variar ya sea durante un transcurso de tiempo o a través de múltiples muestras. Por ejemplo, Garraway
et al.
[11] realizado un análisis supervisado integrada de la matriz y la expresión génica de datos de SNP para identificar MITF como la supervivencia linaje oncogén amplificado en el melanoma maligno. Un número de microarray de la expresión génica adicional demostrar el potencial de los estudios de genes co-expresión. Por ejemplo, Prieto
et al.
[12] utiliza la plataforma Affymetrix HGU133A para identificar las redes de co-expresión en una diversidad de muestras de tejidos humanos. Su red reveló un mapa de grupos coexpression organizados en constelaciones funcionales bien definidas. Dos regiones principales de esta red corresponden a genes implicados en el metabolismo nuclear y mitocondrial. Ese estudio no es directamente relevante para el cáncer, sin embargo, ya no hay cáncer de los tejidos se incluyeron en el estudio. Choi
et al.
[13] lo hicieron tejidos de cáncer de estudio, pero por desgracia había sacrificado a los datos publicados a partir de lo que ahora se considera que está anticuado (Affymetrix U95A) o plataformas inestables (ADNc). Además, los datos obtenidos en diferentes plataformas necesarias para reconciliarse, y la fecha de los estudios precedieron a la disponibilidad de recursos confiables como AffyProbeMiner [14] y SpliceCenter [15]. Sin embargo, Choi fue capaz de detectar diferencias funcionales entre el crecimiento normal y el cáncer en términos de cambios de co-expresión génica en amplias áreas de la fisiología:. Metabolismo de la energía, el ciclo celular, la activación inmune y la producción de colágeno
Otros estudios se han centrado en los genes específicos de tejido. Cho
et al
[16] reveló muchas vías relacionadas con la fisiopatología del cáncer de pulmón:. Citocinas TNF Red y el estrés relacionado con par /vía de señalización; la señalización de trombina y vía de los receptores activado por proteasa; Ciclo Celular: G1 /S Check Point y la inhibición de la proliferación celular por Gleevec. Del mismo modo, los estudios de Lai
et al.
[17] se limita a cáncer de próstata y desarrollaron un método estadístico para identificar patrones diferenciales gen-gen co-expresión en diferentes estados celulares. Para un gen de interés, otros genes están seleccionados que han diferenciales patrones gen-gen co-expresión con este gen en diferentes estados celulares. Mediante el uso de los genes supresores de tumores TP53, PTEN y RB1 como el gen de interés, incluidos los genes seleccionados hepsin, GSTP1 y AMACR.
El presente estudio se realizó para probar la hipótesis de que los genes de categorías funcionales similares tienden a exhibir patrones comparables de expresión a través de las líneas celulares de un amplio espectro de tejidos de origen (
es decir
, las líneas celulares NCI-60). Esta hipótesis fue generada en el curso de nuestro estudio reciente que muestra que los genes mitocondriales nucleares codificados se coregulated entre sí y con el gen MYC a través de la NCI-60 [18], [19]. El presente análisis se realizó con los datos en la materia de expresión en CellMiner (http://discover.nci.nih.gov/cellminer) [20], [21]. Esos datos son de calidad superior, ya que se obtienen por la compilación de cinco plataformas de microarrays (ver detalles en la sección Método). También se refieren a la generalidad de los procesos de corregulación ya que el NCI-60 cuenta con un particularmente rico conjunto de muestras a partir de 9 tipos de tejidos con alta reproducibilidad.
Resultados y Discusión
Descripción general de la estrategia y flujo del proceso
un diagrama de flujo (Figura 1) proporciona una visión global del flujo del proceso. En primer lugar, realizó la agrupación jerárquica de serie en los perfiles de expresión génica a través de las líneas de células NCI-60. Después cortamos árbol de conglomerados resultantes de lograr 4 niveles de cortes, que solicita (de menor a mayor resolución) 20, 40, 80, ó 160 grupos de genes (lo que resulta en un total de 20 + 40 + 80 + 160 = 300 grupos de genes) . Este esquema genera familias de grupos de tal manera que un grupo de la 20-corte era uno de los padres de un clúster de niño en el 40 de corte, y así sucesivamente. Un clúster del 20 de corte puede tener uno o más de estos niños, pero cada niño tiene un solo padre. Por lo tanto, cada familia clúster podría ser designado únicamente por el número de clúster de su 160-corte. Los conjuntos de genes para cada uno de los 300 grupos fueron sometidos a Alto Rendimiento GoMiner (HTGM) para determinar las categorías significativas Consorcio de ontología de genes (GO) asociados a cada conjunto de genes. Los GO categorías que estaban presentes en todos los 4 cortes de una familia de clúster, se consideró que
robustos categorías servicios asociados con esa familia. La importancia de la robustez es que una categoría robusto es independiente del grado particular de resolución utilizada para cortar el árbol de grupo de genes. Por lo tanto, las categorías son robustas más centrado y fiable que las categorías no robustos que son significativos para algunos corte en particular, pero no para todos los cortes.
Gene agrupación basado en la co-expresión
el uso de esta estrategia y el flujo de procesamiento, nos dispusimos a examinar todo el conjunto de datos de los 16.821 genes en CellMiner con los datos de expresión de alta calidad a través de las múltiples plataformas de expresión de ARNm en las líneas celulares NCI-60. La agrupación jerárquica de los perfiles de expresión génica se exploró a los 4 niveles de resolución por los recortes que solicitan que contienen 20-, 40-, 80-, o 160-clusters.
GO categorías asociadas a cada co-expresión de clúster
Nos encontramos Alto rendimiento GoMiner (HTGM) de los conjuntos de genes en todos los grupos 300, y preguntó si habría alguna GO categorías presentes en todos los 4 niveles de cortes de una familia clúster. Ese resultado se visualiza mejor por un nuevo tipo de "categorías
frente
experimentos" CIM (Figuras 2A, S1 A, B). Sólo las filas se agruparon, ya que las columnas ya habían sido previamente dispuestos en un orden especial para ordenar: a partir de uno de los grupos de la 20-corte, que vinculó ese clúster con el clúster (s) del 40 de corte que son los "niños" del 20 de corte. Ese proceso se aplicó de forma recursiva a los 4 cortes. Para facilitar la visualización de los cortes, nos aprovechamos de una nueva característica del programa agrupación Génesis asignar una escala de color distinto a cada corte. Delineamos los mismos grupos de categorías que fueron estadísticamente significativas y que tenían una funcionalidad biológica mutuamente relacionados, dentro del NCI-60 racimos (rectángulos blancos en las figuras 2A y S1B). Los números de la familia de clúster y de las denominaciones funcionales aparecen al lado de cada grupo cercado. A la derecha de la Figura 2A es un indicador de la escala que muestra la altura ocupada por 10 filas de categorías. Las coordenadas de grupos en la Figura 2 se dan en la Tabla 1, y las categorías robustos representados en la figura 2A se dan en la Tabla S1.
(A) Versión compacta. La versión completa está disponible como figuras S1 A, B. Sólo las categorías con FDR & lt; 0,10 para al menos un corte están representados. Las coordenadas de los grupos (
por ejemplo
, R1, C1) se muestran en la Tabla 1. La HTGM FDR para las categorías de ir a por el 20-, 40-, 80-, y 160 cortes se dan en verde , azul, rosa y rojo, respectivamente. Una sombra brillante corresponde a la alta correlación (es decir, una baja FDR), y un tono más oscuro corresponde a un FDR cerca del umbral de 0,10. Los números de racimo para los 160 cortes se muestran a la derecha de cada agrupación cercado. (B) Explosión de la familia clúster 52 agrupamiento deriva de la figura 2A.
La figura 2A muestra claramente las familias de racimo bien definidos que surgen de la convergencia de la expresión de genes coherente y coherentes con los procesos biológicos una categoría GO primordial. Que la convergencia es especialmente claro para varias familias de racimo (el número de clúster para el componente 160 de corte de la familia se da entre paréntesis): la migración celular (52), la transducción de señales (11), reproducción (51), la adhesión celular (132) , colágeno (72), el sistema inmune (68), el procesamiento del ARN (137), el empalme de ARN (69) y la replicación del ADN (154). Por lo tanto, cada grupo fue definido por un perfil de expresión de genes específicos y una categorización específica y unificadora GO.
Nos sentimos complacidos al ver que podríamos identificar 64 categorías robustos (Tabla S1), que comprende 15 funcionalidades GO generalizadas, todo de las cuales (con la excepción de la pigmentación del ojo) están estrechamente relacionados con el cáncer. Para ilustrar mejor la definición operativa y el concepto de la robustez, hemos construido una explosión (Figura 2B) de la familia de clúster 52 agrupamiento se indica en amarillo en la Figura 2A. El grupo familiar agrupación 52 está formado por los descendientes de grupo 10 del 20 de corte, tal como indicada en el panel "Determinar qué grupos son los padres de los otros grupos" en el diagrama de flujo (Figura 1). Ese panel muestra que el camino para agrupar 52 de los 160 de corte incluye clúster 30 del 40 de corte y el grupo 42 del 80 de corte. En la figura 2B, tenga en cuenta que 4 escalas de colores diferentes se diferencian los 4 cortes (
por ejemplo.
, Verde, azul, lavanda, y designar roja 20-, 40-, 80-, y 160 cortes, respectivamente). Por ejemplo, el análisis mostró que HTGM GO: 0051674_localization_of_cell fue estadísticamente significativa en los grupos 10, 30, 42, y 52 de los 20-, 40-, 80-, y 160 cortes, respectivamente. Por lo tanto, GO: 0051674_localization_of_cell fue designada como una categoría robusta. Por el contrario, GO: 0048468_cell_development sólo fue significativa en el grupo 52 de la 160 de corte, por lo que no fue designado como robusto. Tenga en cuenta que el panel en el diagrama de flujo muestra 7 grupos de familias derivadas de grupo 10 del 20 de corte. La presente figura muestra que ninguno de los grupos de familias distintas de 10/30/42/52 contiene una categoría robusta, aunque algunos contienen categorías significativas (
por ejemplo
, 10/11/36/43 contiene GO: 0051674_localization_of_cell como una significativa pero no robusto categoría).
las categorías robustos para la familia de clúster correspondiente a agruparse 52 de la 160 de corte se muestran en el panel inferior del diagrama de flujo en la figura 1. Esas categorías robustos se centran en la célula migración, mientras que los más robustos (no sólidas) categorías significativas son más diversos, lo que refleja el desarrollo general de la neurona, la respuesta inmune, y la transición epitelio-mesenquimal (EMT), además de la migración celular (ver "Categorías
frente a los genes
"CIM abajo).
base de datos pública para permitir la exploración de los resultados en la figura 2A
para facilitar futuras investigaciones utilizando la agrupación y categorización resultados funcionales divulgados aquí, proporcionamos una base de datos pública. Varias consultas pre-construidos MySQL pueden ser emitidas para recuperar información de una base de datos que contiene los resultados de la Figura 2A y su versión ampliada Figura S1B. Una consulta típica podría implicar recuperar la lista de los genes dentro de un grupo determinado que se asignan a una categoría GO especificado. Una interfaz gráfica de usuario (GUI) para la emisión de la consulta deseada se proporciona en el URL http://discover.nci.nih.gov/NCI60/menu.table.html. La URL contiene una tabla conveniente de consultas se puede hacer clic y ejemplos de los correspondientes parámetros de entrada y de salida (Figura 3). Un tutorial de PowerPoint para el uso de la base de datos está disponible a partir de materiales suplementarios (Powerpoint S1).
"Categorías
frente
genes" CIM
Para ilustrar un tipo de biológico información que se puede extraer de la estrategia de agrupamiento que utilizamos, que delinear la relación entre los genes y las categorías funcionales para el grupo 52 de la 160-corte, mediante la construcción de una "categorías
frente
genes" de CIM para las categorías significativas (Figura 4A) y para las categorías robustos (Figura 4B). Más detalles se presentan en el método.
Las categorías importantes CIM es un superconjunto de las categorías robustos CIM con respecto a los genes y categorías. Como se mencionó anteriormente, las categorías robustos se centran en gran medida de la migración celular, mientras que las categorías importantes de clúster 52 de la 160 de corte son más diversos, reflejando generalmente el desarrollo de la neurona, la respuesta inmune, y EMT además de la migración celular. Las estadísticas de los dos CIMs se resumen en números de los pasos 4 y 5 en la Tabla 2.
Para los robustos categorías CIM (Figura 4B), en algunos casos existe un gran solapamiento entre los genes en las categorías, como ocurre para las categorías inferiores 7 (el grupo de "migración celular") en el CIM. En esta situación, interpretamos esas categorías como ser en gran medida redundante con respecto a la otra. Una situación más informativo se produce cuando no hay redundancia completa, sino más bien cuando sólo hay solapamiento parcial entre (grupos de) categorías, tales como el grupo de la migración celular antes mencionado, y los cuatro principales categorías en la CIM. Tal superposición parcial puede revelar "cross-talk" entre las diversas funcionalidades biológicas. La categoría relaciones siempre son representativas de la participación de los componentes de migración celular, como citoesqueleto y las integrinas.
Para las categorías significativas (Figura 4A), TGFB2 media la diafonía entre la diferenciación de las neuronas y los grupos de migración de células de categorías. Más sorprendente es la separación de la mayor parte de la célula relacionada con la migración (
es decir
, TGFB1I1, MYH9, VCAM, ADAM9, DLC1, FGF2, CLIC4, NEXN, y VCL) y los genes relacionados con neuronas (
es decir, IL6, INHBA, KCNMA1, DBN1, FEZ2, ROBO3, y NOG). Por lo tanto, en su mayor parte, los diferentes conjuntos de genes se correlacionan con los 2 funcionalidades, y la razón de su aparición en la misma familia de clúster 52 de la 160 de corte (en virtud de los perfiles de expresión de genes altamente correlacionados) indica una relación íntima entre la célula la migración y el desarrollo de las neuronas que requiere una investigación futura.
Conclusiones
el carácter integral del NCI-60 gen expresión de datos, junto con la amplia gama de tejidos de origen representado, nos permitió obtener una visión en la biología de sistemas de células cancerosas mediante la identificación de varios grupos de genes que co-varían entre las líneas celulares 60.
Para caracterizar mejor los genes dentro de cada grupo, se utilizó la ontología de genes (GO) Consorcio de base de datos en conjunción con la herramienta GoMiner a las asociaciones funcionales determinados. análisis GoMiner reveló que los genes en muchos de estos grupos están asociados con GO proceso biológico categorías coherentes, tales como la migración celular, la transducción de señales, la reproducción, la adhesión celular, el colágeno, el sistema inmunológico, el procesamiento del ARN, el empalme de ARN, y la replicación del ADN.
las nuevas características de nuestro enfoque son: (1) un análisis de co-expresión de los de alta calidad perfiles de expresión génica que ofrece el perfil del transcriptoma compuesto recientemente disponibles sobre la base de los niveles integrados de expresión génica a partir de cinco plataformas, (2) el uso de IR categorización de encontrar categorías robustas que no dependen de la elección de un determinado nivel de resolución para cortar el dendrograma clúster, y (3) el uso de los genes en los grupos seleccionados para generar futuras líneas de investigación, tales como los genes de migración celular en clúster 52 de la 160 de corte (Kohn
et al.
, manuscrito en preparación). Hasta donde sabemos, ninguna de estas características se han estudiado /aplicadas anteriormente.
Un tipo de una nueva visión es la elucidación de nuevas conexiones de genes basados en el doble criterio de co-expresión y la clasificación funcional coordinada. Esta conexión se puede visualizar mediante el examen de los genes en los GO categorías que tienen superposición parcial utilizando el gen
frente
categorías tipo de HTGM CIM (véase por ejemplo TGFB2 diafonía entre la diferenciación de las neuronas y las categorías de migración celular en la figura 4A).
Un segundo tipo de una nueva visión es la elucidación de las vías más altamente co-regulados, con la confirmación por clasificación funcional relacionado de los genes en la vía. Por ejemplo, muchos de los genes en el grupo 52 de la 160 de corte está involucrado en una vía de migración de células altamente coordinada (Kohn
et al.
, Manuscrito en preparación).
Materiales y Métodos
CellMiner
expresión NCI-60 transcripción.
La expresión de genes de transcripción se determinó usando sondas de cinco plataformas. Estos incluyen, de Affymetrix (Affymetrix Inc., Sunnyvale, CA), el ~60,000 función del Genoma Humano U95 Conjunto (HG-U95) [5], la función ~44,000 matriz del Genoma Humano U133 (HG-U133) [5], la ~47,000 característica del Genoma humano U133 Plus 2,0 Arrays (HG-U133 Plus 2.0); y la función ~5,500,000 GeneChip Human exón 1,0 ST matriz (GH exón 1,0 ST) [19]. También se incluye de Agilent (Agilent Technologies, Inc., Santa Clara, CA) fue el ~41,000 característica Whole Human Genome Oligo Microarray [3]. Todas las plataformas de Affymetrix se normalizaron por Guanina Citosina Robust Multi-array Análisis, o GCRMA [22]. sondas de Agilent de ARNm se normalizaron sobre la base de su detección en al menos 10% de las líneas celulares, usando GeneSpring GX por i) establecer cualquier valor gProcessedSignal menos de 5-5, ii) la transformación de la gProcessedSignal o gTotalGeneSignal a Logbase 2, y iii) la normalización por matriz a la 75
percentil [3]. Nuestra base de datos relacional, CellMiner, en & lt; http: //discover.nci.nih.gov> ;, se puede utilizar para acceder a los datos de la HG-U95, HG-U133, HG-U133 Plus 2.0 y Agilent enteros del Genoma Humano Oligo Microarrays .
Sondas (Agilent) o conjuntos de sonda (Affymetrix) se pasaron luego a través de los siguientes criterios de control de calidad antes de su uso en la determinación de niveles relativos de expresión de genes. En primer lugar, se determinaron las sondas establecer rangos de intensidad media (con la intención de incluir sondas de Agilent en el texto siguiente). Sonda fija con una intensidad varía & lt; o igual a 1,2 log
2 fueron retirados. La sonda establece el número de un gen que pasaba se determinó este criterio, y 25% de ese número calculado. correlaciones de Pearson fueron determinados para todas las combinaciones posibles de los conjuntos de sonda restantes (para cada gen). Se determinó la correlación promedio de cada sonda conjunto, en comparación con todos los otros (por un solo gen). A continuación, se eliminaron los conjuntos de sonda con correlaciones promedio de menos de 0,30. Después de este paso, la sonda fija con las correlaciones & lt promedio más bajas; 0,60 fueron retirados. Las correlaciones sonda conjunto del sistema /de la sonda restantes combinaciones se vuelven a calcular. La sonda conjunto correlación promedio más baja continuó siendo reducido, y el promedio calculado de nuevo hasta que todos los correlaciones medias were≥to 0,60, o hasta que llegamos al nivel de 25% de la cantidad original de la sonda conjunto (calculado anteriormente).
estos procedimientos dieron valores de intensidad de transcripción precisos que eran altamente reproducibles y consistentes internamente. Además de contribuir a la alta calidad de los datos, lo que pensamos, fueron los siguientes: (1) El crecimiento celular, la cosecha y el control de calidad se realizaron principalmente por una sola persona (W. Reinhold). (2) Control de calidad de los distintos conjuntos de sonda se basa en un rango de intensidad mínima de & lt; 1,2 log 2 y el patrón de correlación & gt; 0,60. Esto proporciona protección contra los malos sonda fija de forma esporádica. (3) La transformación de los datos en las puntuaciones z [23] por sustracción de la línea 60 celular y la división por medio de las desviaciones estándar proporcionados protección contra anomalías de una sola plataforma, y permite la comparación de todos los datos de la sonda conjunto. puntuaciones Z medias se determinaron para todos (18,412) los genes disponibles para cada línea celular. Los detalles del cálculo de la puntuación z se proporcionan en los materiales Supplemetary (Documento S1). Estos cálculos se realizaron en Java.
Cada paso en el proceso de extracción de genes de CellMiner [21], y seleccionar aquellos que coincidan con ambos símbolos Gene Comité de Nomenclatura HUGO (HGNC) [24] símbolo, así como GO anotación de base de datos, se traduce en una "pérdida" de los genes. El grado de pérdida en cada paso se resume en la Tabla S2. Por ejemplo, 29,017 y 16.821 genes están representados en HGNC y el análisis de la expresión del transcrito de cinco plataformas, respectivamente. El subconjunto de genes representados en HGNC es 11.767 /16.821 = 69,9%. Esa cifra es más alta que el porcentaje global de aproximadamente el 55% de todos los genes humanos que están representados por HGNC (Zeeberg
et al.
, Sin publicar). El subconjunto de genes HGNC representados en la ontología proceso biológico de GO (en las condiciones especificadas en la Tabla S2) comprende un tanto decepcionante 7.654 /29.017 = 26,4%. El rendimiento global de los genes de cinco plataformas que tienen tanto HGNC y GO anotaciones proceso biológico es 6.477 /11.767 = 55,0%.
Descarga y pre-procesamiento de genes de CellMiner
Un pedido especial se hizo al administrador del sistema para el juego completo de perfiles de expresión génica. Que descarga habría sido demasiado grande para llevar a cabo a través de la interfaz web estándar. Los valores para cada gen se basan en un consenso de cinco plataformas de microarrays, y se expresan como los valores Z, como se detalla en el material complementario y como se ha descrito anteriormente [19].
Los datos fueron pre-procesados por pre-seleccionar sólo aquellos genes que tienen a la vez un símbolo HGNC y anotación en el Proceso de la ontología GO Biológica. Cada vector de perfil de genes se redujo a media cero y varianza unidad.
Gene agrupación basado en la co-expresión
Un lenguaje R (http://www.R-project.org) [25 ] guión fue desarrollado para llevar a cabo la agrupación jerárquica de los perfiles de expresión génica a través del NCI-60. Puesto que los genes pueden funcionar de manera positiva o negativa dentro de una red, queríamos genes que están altamente correlacionados y altamente anti-correlacionados a ser asignado al mismo grupo, por lo que se especifica una métrica de distancia de 1-abs (cor (t (mat))) /2. También especificamos completa vinculación agrupación.
Se utilizó la función R
cutree ()
para cortar el árbol de agrupamiento jerárquico resultante en 20, 40, 80, y 160 grupos. Esos grupos tenían dos propiedades importantes:
se dividió el conjunto total de genes en el grupo de árboles (por completo y sin duplicación) entre los grupos. Es decir, cada gen en el conjunto original apareció en exactamente un clúster.
Los racimos de la 40-corte se anidan dentro de los racimos de la 20-corte. Es decir, cada grupo de la 40-corte era un subconjunto de un solo racimo de la 20-corte. Ese patrón se mantuvo de forma recursiva a través de todos los niveles de cortes.
La distribución bruta de los genes para todos 300 (
es decir
, 20 + 40 + 80 + 160) racimos se muestra en la tabla S3. Cada agrupación se analizó posteriormente por GoMiner (véase la sección siguiente). Se realizó múltiples cortes porque queríamos dar prioridad a los GO categorías que eran independientes del patrón de corte particular (véase la sección de Métodos "categorías de puntuación GO").
La relación entre los grupos en los sucesivos cortes (por ejemplo, 20 y 40, 40 y 80, o 80 y 160) fue delineada por una tabla generada por la secuencia de llamadas R ejemplificados por 20 y 40 como: la tabla resultante mostró que cluster (s) en el 40 de corte surgió de cada grupo en el 20 de corte.
familias en Racimo
podrían definirse partiendo de uno de los grupos en el 20 de corte, y el uso de la tabla 20 y 40 de corte para determinar todas las agrupaciones 40 de corte que se derivaron de que 20- clúster de corte. Ese proceso se repitió a su vez para esos grupos 40 de corte mediante el uso de la tabla de 40 y 80 de corte, y así sucesivamente. El conjunto de la agrupación 20 de corte seleccionado más un solo grupo derivado de cada uno de los 40-, 80-, y 160 cortes constituían una familia clúster.
Alto Rendimiento GoMiner (HTGM)
GoMiner [7] es una herramienta para la interpretación biológica de los resultados 'ómicas', incluidos los procedentes de genes microarrays de expresión y el estado de las tecnologías de secuenciación del arte. Se aprovecha la ontología de genes (GO) para identificar los procesos biológicos "," "funciones moleculares", y "componentes celulares", representadas en una lista de genes. De alto rendimiento GoMiner (HTGM) [8], que se usó para muchos de los análisis aquí, es una mejora de GoMiner que realiza de manera eficiente la tarea desafiante computacionalmente de procesamiento por lotes automatizado de un número arbitrario de tales listas de genes.
Una categoría GO es
enriquecida
si el número de genes modificados que HTGM se le asigna es estadísticamente significativamente mayor que el número esperado por azar. Una categoría se considera
significativa si
exacta p-valor de su Fisher y su tasa de falso descubrimiento (FDR) están a menos de o igual a un umbral seleccionado por el usuario (típicamente 0,10; en raras ocasiones, el valor de p puede superar el umbral aunque el FDR está por debajo del umbral, y por lo general quiere rechazar este tipo de casos). Ver [7], [8] para una discusión detallada sobre GoMiner y HTGM, incluyendo cálculos de significación estadística.
corrió todos los grupos derivados de los cortes de 20-, 40-, 80-, y 160 de corte racimos, un total de 300 archivos de entrada, en una única prueba HTGM. Los parámetros utilizados en todos los análisis HTGM se enumeran en la Tabla S4.
El promedio de los genes /cluster a nivel 160 de corte fue de aproximadamente 40, que lo que normalmente consideramos como muy pocos genes que presente a GoMiner . Sin embargo, en este caso, como se muestra a continuación, encontramos muchos de estos grupos significativos y funcionalmente consistentes GO. Por lo tanto, la agrupación jerárquica antes de los genes basada en la expresión parece haber pre-centrado de los genes de una manera funcionalmente coherente con el fin de compensar el bajo poder estadístico de un pequeño conjunto.
La distribución bruto de GO categorías que resultan de funcionamiento GoMiner de los 300 grupos que comprenden los 20-, 40-, 80-, y 160 cortes se muestran en la Tabla S5. Por lo tanto, la similitud de perfiles de expresión génica a veces, pero no siempre, implica la coherencia de la función biológica. La fracción de grupos con al menos una de las categorías anteriores se redujo ligeramente de 0,55 (para el 20 de corte) a 0,41 (para el 160-cut).
Clasificar agrupaciones dentro de las familias de racimo
familias en Racimo se definen en la sección Métodos "agrupamiento jerárquico basado en el perfil de genes." Hemos ideado un algoritmo para la clasificación de los grupos dentro de una familia de clúster para la visualización de una imagen de una eventual CIM como. El algoritmo utiliza tablas generadas por código R (ver "agrupación jerárquica génica basada en el perfil") para proporcionar el orden mundial adecuada de grupos derivados unos de otros en diferentes cortes para los clústeres de 20-, 40-, 80-, y 160 de corte. En pocas palabras, una familia clúster se compone de un 20-corte dado, y el 40 de corte (s) deriva de que el 20-corte, y así sucesivamente.
categorías de puntuación GO
Cada categoría GO que fue significativa en al menos un agrupamiento jerárquico se puntuó de acuerdo a su presencia en los grupos de cada una de las familias 20 de corte.