Distribuciones de estabilidad y longitud de estructuras de bucle madre en segmentos de secuencia ascendente en E. coli. La línea roja muestra la mayor varianza (ver Materiales y Métodos) derivada de estructuras de bucle de tallo en secuencias barajadas. Las líneas azules claras dan las mediciones de significación basadas en la desviación estándar. La definición de cada punto junto con la orientación de los genes vecinos se muestran en el panel superior derecho.
Tabla 2 Predijo que los atenuadores en el genoma de E. coli
Extensión de análisis para el 26 de genomas
el Análisis de B. subtilis y E. coli sugiere que un estudio más amplio de los genomas bacterianos podría resultar útil tanto en la predicción de la atenuación y la regulación de la antiterminación en estos genomas como en la caracterización de la evolución y distribución de estos mecanismos de regulación. Se seleccionaron veinticuatro genomas completos para este estudio en función de su amplia distribución en el espectro evolutivo (Tabla 3). Las regiones intergénicas de cada uno de estos genomas se analizaron utilizando los mismos métodos y filtros que con B. subtilis y E. coli y pliegues terminadores de atenuación y antiterminación previstos obtenidos de manera similar.
Tabla 3 Lista de los 26 genomas estudiados en este estudio
Como se muestra en la Tabla 3, hay una amplia distribución del número de sitios reguladores de atenuación y antideminación putativos en los genomas estudiados. Estos varían de 5 en Mycobacterium tuberculosis a 275 en Clostridium acetobutylicum (Tabla 3). Los intentos anteriores de predecir los sitios de terminación de transcripción estándar al final de las unidades de transcripción dan resultados similares. Curiosamente, los resultados de los terminadores de transcripción estándar se correlacionan con los nuestros. Como se encontró en Ermolaeva et. al con terminadores estándar al final de las unidades de transcripción (este artículo estudió terminadores al final de los ORF y no se dirigió a las regiones aguas arriba, filtrando así los posibles atenuadores), algunos de los sitios de atenuación y antiterminación más altos de nuestro estudio se encuentran de manera similar en los genomas de E. coli, H. influenze, D. radiodurans y B. subtilis y el menor número de casos en genomas como H. pylori y M. tuberculosis (genomas reportados en su estudio).
A primera vista, esto parece sugerir que muchos genomas no utilizan los mismos mecanismos de terminación para la terminación de transcripción estándar y no utilizan atenuación o antiterminación en la regulación. Este es probablemente el caso en algunos genomas. Sin embargo, si se traza el número de regiones intergénicas aguas arriba en comparación con el número de sitios predichos, se muestra una fuerte correlación positiva (Figura 4). Cuanto menor sea el número de genes y regiones intergénicas que tenga un genoma, menor será la aparición de terminadores predichos (tanto terminadores de transcripción estándar como terminadores reguladores de atenuación/antiterminación). Esto indica que el bajo número de terminaciones estándar y regulatorias en muchos genomas se debe a un tamaño de genoma muy reducido y a la reducción del número de operones regulatorios, y no necesariamente a la dependencia de diferentes mecanismos de terminación y regulación.
Figura 4
el Gráfico de la cantidad de regiones intergénicas vs el número de supuestos de atenuación y antiterminación sitios en todos 26 los genomas estudiados. Varios genomas con atenuación conocida o antiterminación se etiquetan para comparación, al igual que M. tuberculosis y Archaea. La línea discontinua es una línea de tendencia exponencial.
En la Figura 4, Mycobacterium tuberculosis, se observa un claro valor atípico con un número de terminadores putativos mucho menor de lo esperado. Este genoma tiene una presencia mucho menor de sitios de atenuación y antiterminación putativos de lo que sugeriría su tamaño y el número de regiones intergénicas. Un artículo reciente de Unniraman et al. concluye que M. tuberculosis utiliza un mecanismo diferente de terminación que utiliza estructuras terminadoras sin la cola de poli-U necesaria en otros genomas. Por lo tanto, el número reducido de estructuras terminadoras que contienen poli-U en relación con el número de regiones intergénicas puede explicarse por la dependencia de M. tuberculosis de un mecanismo diferente de terminación. Esto no prueba necesariamente que no exista una regulación de atenuación o de tipo anti-discriminación en M. tuberculosis. Sin embargo, indica que la pérdida del mecanismo estándar de terminación en este genoma ha reducido, si no eliminado, la atenuación o la antiterminación en M. tuberculosis o, alternativamente, podría existir un mecanismo similar a la atenuación en este genoma que utiliza la M. terminador no estándar de tuberculosis.
Todos los demás de los 25 genomas estudiados tienen sitios de atenuación putativa o de regulación antiterminatoria. Incluso el menor número de sitios de atenuación o antiterminación predichos que se encuentran en M. genitalium son una proporción significativa de posibles regiones intergénicas reguladoras, el bajo número se explica fácilmente por el tamaño relativamente pequeño de este genoma y las pocas regiones intergénicas y unidades transcripcionales. Estos resultados sugieren que la regulación de atenuación y anti-discriminación es un mecanismo de regulación posiblemente ubicuo en procariotas con pocas excepciones.
Tamaño y atenuación del genoma
Si el contenido de CG de un genoma se compara con el número de atenuadores predichos en función de una secuencia aleatoria, el contenido de CG se correlaciona de alguna manera con el número de atenuadores predichos, lo que se esperaría ya que se requiere una corrida de poli-U en los filtros. En la Figura 5a, los pliegues de secuencias intergénicas mezcladas aleatoriamente de nuestros 26 genomas se trazaron por el número de pliegues filtrados por región intergénica en relación con el número de regiones intergénicas. Si el número de pliegues filtrados fuera completamente aleatorio, debería haber un número relativamente constante de sitios por región en relación con el número de regiones. Como se ve en la figura 5a, este no es completamente el caso. El número de pliegues filtrados por región obtenidos a partir de secuencias mezcladas aleatoriamente depende del contenido de CG del genoma. Los genomas de bajo contenido de GC tienen un número de pliegues ligeramente mayor por región que los genomas de alrededor del 50% de contenido de GC y los genomas de alto contenido de GC tienen un número mucho menor que ambos. Esto se espera de secuencias aleatorias filtradas para estructuras de bucle de tallo que contienen corridas de poli-U.
Figura 5
el Tamaño del Genoma y la Regulación. a) Se barajaron, doblaron y filtraron aleatoriamente secuencias intergénicas de 26 genomas utilizando el método notificado para obtener supuestos «atenuadores». El número de estos pliegues barajados y filtrados por región intergénica se trazó para cada genoma contra el número de regiones intergénicas. La correlación, si es aleatoria, debe permanecer constante e independiente del tamaño del genoma. Las esferas azules representan especies de proteobacterias y bacilos en nuestro estudio, el beige son arqueabacterias y el verde el resto. Las esferas tienen un tamaño proporcional al contenido de GC del genoma y el contenido de GC está etiquetado dentro de cada esfera. El número de pliegues aleatorios por región intergénica es una función del contenido de GC como se esperaría del filtrado de pliegues con corridas de poli-U. Los genomas con atenuación conocida o antiterminación se etiquetan como el genoma conocido por no usar atenuadores con corridas de poli-U en terminación. b) Se plegaron y filtraron secuencias intergénicas de 22 genomas para obtener posibles atenuadores e indicaciones de atenuación o regulación antiderminante. El número de estos atenuadores predichos por región intergénica se compara con el número de regiones intergénicas en el genoma. En contraste con los pliegues de secuencias mezcladas aleatoriamente, el determinante más fuerte para la frecuencia de atenuación es el tamaño del genoma (el número de regiones intergénicas y el tamaño del genoma están fuertemente correlacionados). Los colores y el etiquetado son los mismos que en 5a.
Incluso teniendo en cuenta el contenido de CG de M. tuberculosis, tiene un número reducido de atenuadores previstos en relación con los otros genomas de CG alto (Figura 5b). De hecho, la Figura 5b (atenuadores predichos de secuencias intergénicas reales) muestra que el determinante más fuerte del número de atenuadores predichos por región intergénica no es el contenido de GC, sino el tamaño del genoma (más específicamente el número de regiones intergénicas). En general, no solo los genomas más grandes tienen un mayor número absoluto de atenuadores predichos, sino que tienen una mayor ocurrencia de atenuadores predichos por región. Si el contenido de CG es igual en dos genomas, es más probable que el genoma más grande tenga un mayor número de atenuadores predichos por región intergénica. Informes anteriores han sugerido fenómenos similares en proteínas reguladoras, los genomas grandes parecen tener una mayor proporción de su número total de genes que codifican para proteínas que contienen motivos reguladores . Curiosamente, descontando la arquebacteria y los genomas de alto contenido de GC, un genoma de aproximadamente 1500 regiones intergénicas parece ser el umbral en el que aumenta la frecuencia de atenuadores reguladores en un genoma.
Distribución y Conservación de Atenuadores en Bacterias Gram positivas
Se analizaron siete genomas de bacterias gram positivas (B. subtilis, B. halodurans, L. innocua, S. aureus, C. acetobutylicum, L. lactis y S. pneumoniae) para ver si los terminadores de atenuación se conservan delante de los ortólogos. El número de terminadores de atenuación predichos para los genes que se sabe que están regulados en B. subtilis y sus ortólogos en los otros seis genomas se enumeran en la Tabla 4. Los genomas se clasifican por distancia filogenética de B. subtilis calculada por secuencias de aminoácidos de los ortólogos compartidos entre estos genomas. El más cercano a B. subtilis es B. halodurans y el número promedio de sustituciones de aminoácidos por sitio es 0,238, y el más distante es S. pneumoniae y el número promedio de sustituciones de aminoácidos por sitio es 0,422. Para los 42 genes enumerados en la Tabla 4, el número de ortólogos que se encuentran en los otros genomas varía poco de un genoma a otro: El mayor y el menor número de ortólogos son 31 en L. lactis y 26 en S. aureus y C. acetobutylicum, respectivamente. Esto se debe principalmente a que estos 42 genes llevan algunas funciones básicas, como la síntesis de aminoacilo-ARNt. Por otro lado, el número de estructuras de terminación de atenuación predichas varía significativamente: En B. haloduros, 22 genes ortólogos han predicho estructuras de terminación de atenuación, mientras que solo 4 genes ortólogos tienen las estructuras predichas en S. pneumoniae. Esto indica que la ausencia o presencia de regulación por atenuación se conserva mucho más débilmente que la presencia de genes u operones.
Tabla 4 Lista de atenuadores en B. en comparación con las predicciones en otros seis genomas de bacterias grampositivas
La misma tendencia se aplica a las estructuras de terminación de atenuación predichas distintas de las conocidas (Tabla 5). Hay 105 grupos de genes ortólogos que tienen al menos otro genoma que contiene una estructura atenuadora predicha aguas arriba de un gen ortólogo. Restringiendo a los ortólogos que han predicho atenuadores en B. subtilis (35 grupos), el mayor y el menor número de ortólogos compartidos de genes que se sabe que están regulados por atenuación o antiterminación en B. subtilis son 28 (L. innocua) y 18 (S. pneumoniae), respectivamente. Sin embargo, el número de estructuras de terminación de atenuación predichas varía más. Si bien hay 13 genes con estructuras predichas en B. halodurans, que es la especie más cercana a B. subtilis entre las seis bacterias grampositivas, solo 2 genes tienen estructuras predichas en S. pneumoniae.
Tabla 5 Lista de todos los genes ortólogos en los seis genomas de bacterias grampositivas en los que dos o más genomas comparten atenuadores predichos
Aunque hay una conservación débil de los atenuadores en su conjunto, las estructuras de terminación de atenuación predichas y el orden de sus los genes posteriores se conservan para algunos grupos de genes. Uno de estos ejemplos es el operón infC-rpml-rplT (figura 6a). No se prevé una estructura de terminación de atenuación en la región aguas arriba de infC en S. pneumoniae (Tabla 5). Una mirada más cercana a esta región por EXPLOSIÓN reveló que el N-terminal de infC está sobre predicho en 27 bases. Al agregar las 27 bases a la región intergénica en la parte superior, encontramos una estructura de bucle de tallo estable que siguió a residuos de poli-U también en S. pneumoniae (Figura 6b). Sin embargo, incluso en este ejemplo, hay diferencias considerables entre las especies en la posición relativa de las estructuras del bucle del tallo y la conservación de la secuencia. Además, incluso entre el par filogenéticamente más cercano, B. subtilis y B. haloduranos, las distancias desde el extremo del tallo hasta el codón de inicio de infC son 69 y 37 bases, respectivamente, y solo los segmentos comunes encontrados en el tallo son GUGUGGGN{x}CCCACAC (x = 12 en B. subtilis y x = 9 en B. halodurans). Entre los siete genomas, solo hay una similitud débil, GYGGG (GACGG en C. acetobutylicum) en la región del tallo.
Figura 6
Estructura de terminación de atenuación prevista en la región ascendente del supuesto operón infC-rpmI-rplT. a) Orden de los genes. Solo las regiones intergénicas se dibujan a escala y la longitud de las regiones intergénicas se indica debajo de la línea. Los genes ortólogos están indicados en los mismos colores. Los genes hipotéticos y los otros genes no ortólogos se indican por» hyp » y sus ID de genes, respectivamente. Abreviatura de genomas: Bs, B. subtilis; Bh, B. halodurans; Li, Listeria innocua; Sa, Staphylococcus aureus; Ca, Clostridium acetobutylicum; Ll, Lactococcus lactis; Sp, Streptococcus pneumoniae. b) Estructuras de terminación de atenuación previstas. Los pares de bases se indican con puntos rojos entre los códigos de base. La numeración de base muestra la distancia desde el codón de inicio del gen de corriente descendente. Poly-Us justo abajo de la estructura de bucle de tallo está coloreada en verde. Los segmentos débilmente conservados están coloreados en rojo. La abreviatura de genomas es la misma que en (a).
La conservación de las estructuras de terminación de atenuación predichas también se observa en las regiones aguas arriba del posible operón que contiene el gen nusA (Figura 7a). Cuatro de los siete genomas contienen estructuras atenuadoras predichas en aguas arriba de la proteína hipotética (ylxS en B. subtilis). Las estructuras de bucle de tallo también se encuentran en el resto de los tres genomas, aunque estas estructuras no pasan los filtros. La ubicación de las estructuras en el sitio de inicio de la transcripción del gen descendente y las secuencias mismas varían significativamente en este ejemplo también. En estas secuencias de tallo, el segmento GUGGG (GAGCG en L. lactis y GAGGC en S. pneumoniae) se conserva en el operón predicho que contiene el gen nusA (Figura 7b). Curiosamente, los segmentos de 5 bases son idénticos o muy similares a los segmentos en las estructuras de bucle de tallo ubicadas en la parte superior de infC (figura 6b). Las proteínas codificadas en los genes de estos dos operones están implicadas en la transcripción. La conservación de los segmentos de secuencia en las estructuras terminadoras de atenuación previstas para el operón infC-rpmI-rplT y el operón que contiene nusA implica que existe un mecanismo regulador común que reconoce la estructura de bucle madre y esto regularía ambos operones de la misma manera.
Figura 7
Estructura de terminación de atenuación prevista en la región ascendente del gen ylxS. a) Orden de los genes. Las estructuras de bucle de tallo predicho con significación estadística se indican en azul, y las otras estructuras que no pasan los filtros ni tienen menos significación se indican en rojo. Para la otra explicación, véase la leyenda de la figura 6a. (b) Estructuras de terminación de atenuación previstas. Véase la leyenda de la figura 6b para la explicación.
Distribución y Conservación de Atenuadores en Proteobacterias
Varios aspectos de la conservación de atenuadores son evidentes de inmediato a partir de nuestro análisis de bacterias grampositivas . En primer lugar, la distribución de la regulación de atenuación o de lucha contra la discriminación no está bien conservada en todas las bacerías gramopositivas y, además, incluso en los sistemas reguladores conservados, la conservación de la secuencia y la estructura es débil. Lo mismo ocurre con las proteobacterias. De los 14 genes en E. coli (ver Tabla 5a) que se sabe que está regulado por atenuación o antiterminación, ninguno tiene atenuadores predichos ortólogos aguas arriba en los otros cuatro genomas de proteobacterias. Seis tienen atenuadores predichos ortólogos aguas arriba en al menos uno de los otros cuatro genomas. Tres son genes que tienen ortólogos en los otros cuatro genomas, pero estos no tienen atenuadores predichos. Los cinco genes restantes en E. coli no tienen ortólogos conocidos en el otro genoma o los ortólogos tienen una distribución irregular y no hay atenuadores predichos. Una inspección más cercana a mano confirma esta conclusión. La Tabla 5b es una lista de todos los atenuadores predichos en cada uno de los cinco genomas de la división gamma de proteobacterias en los que se predice un atenuador similar para un ortólogo de otro genoma. Como se muestra en esta tabla, la atenuación y la antiterminación parecen estar mal conservadas como mecanismo de regulación en operones análogos en genomas proteobacterianos. Del total de 475 genes y sus ortólogos en estos cinco genomas que tienen atenuadores predichos, solo 36 son ortólogos aguas arriba compartidos de dos o más genomas (Tablas 3, 5a y 5b).
Tabla 5a Lista de atenuadores en E. coli comparado con las predicciones en otros cuatro genomas de proteobacterias (subdivisión gamma)
Tabla 5b Lista de todos los genes ortólogos en los cinco genomas de proteobacterias (subdivisión gamma) en los que dos o más genomas comparten atenuadores predichos
Investigaciones previas sobre sistemas específicos han reportado que la atenuación y la regulación anti-discriminación en algunos operones de E. coli solo se conservan ligeramente a través de proteobacterias de división gamma. Se ha demostrado que el operón de regulación rpsJ y los operones trpE y pheA de E. coli tienen una distribución irregular y se conservan débilmente a través de proteobacterias. Como se muestra en las Tablas 2, 5a y 5b, hemos podido ampliar ampliamente este análisis de atenuación y antiterminación a la mayoría de estos sistemas en proteobacterias, y hemos demostrado que esto es válido para todos los mecanismos reguladores conocidos de atenuación y antiterminación en E. coli y otros mecanismos previstos en genomas de división gamma adicionales. Se da un ejemplo en la figura 8 de la conservación de secuencia baja de atenuadores y regulación. En la figura 8a, se muestra uno de los atenuadores más conservados para el operón hisG. Este mecanismo operónico y regulador está bien caracterizado en E. coli y nuestro análisis predice mecanismos similares de regulación de atenuación en V. cholerae y H. influenzae. Los atenuadores predichos han conservado la posición (aproximadamente a 40-50 pb del codón de inicio aguas arriba del gen hisG) y la secuencia del tallo. Aunque las regiones intergénicas circundantes no son posibles de alinear, V. cholerae y H. las influenzae tienen posibles secuencias de aminoácidos líderes con una serie de histidinas que es característica del mecanismo de regulación de atenuación en E. coli. No se encontraron atenuadores predichos en los otros tres genomas de probacterias de subdivisión gamma de P. aeruginosa, N. meningitidus y X. fastidiosa. En P. aeruginosa, la región intergénica aguas arriba del ortólogo hisG es de solo 17 pb de longitud, en X. fastidious, el gen ortólogo se superpone con el ORF aguas arriba, y aunque la región intergénica análoga de N. meningitidus es de longitud suficiente, no se predice atenuador.
Figure 8
Predicted attenuation termination structure in upstream region of HisG gene in E. coli. (a) Order of genes. Predicted stem-loop structures with statistical significance are indicated in blue. For the other explanation, see legend to figure 6a. Abbreviations for genomes: Ec, Escherichia coli; Hi, Haemophilus influenzae; Vc, Vibrio cholerae; Pa, Pseudomonas aeruginosa; Xf, Xylella fastidiosa; Nm, Neisseria meningitidis. b) Estructuras de terminación de atenuación previstas. Véase la leyenda de la figura 6b para la explicación.