Figura 5
Dimensione e regolazione del genoma. (a) Sequenze intergeniche di 26 genomi sono state mescolate casualmente, piegate e filtrate utilizzando il metodo riportato per ottenere “attenuatori” putativi. Il numero di queste pieghe mescolate e filtrate per regione intergenica è stato tracciato per ciascun genoma rispetto al numero di regioni intergeniche. La correlazione, se casuale, dovrebbe rimanere costante e indipendente dalla dimensione del genoma. Le sfere blu rappresentano le specie di proteobatteri e Bacillis nella nostra indagine, beige sono archeabatteri e verde il resto. Le sfere sono di dimensioni proporzionate al contenuto di GC del genoma e il contenuto di GC è etichettato all’interno di ciascuna sfera. Il numero di pieghe casuali per regione intergenica è una funzione del contenuto GC come ci si aspetterebbe dal filtraggio per le pieghe con esecuzioni poly-U. Genomi con attenuazione nota o antiterminazione sono etichettati come è il genoma noto non utilizzare attenuatori con poli-U corre in terminazione. (b) Sequenze intergeniche di 22 genomi sono stati piegati e filtrati per possibili attenuatori e indicazione di attenuazione o regolazione antiterminazione. Il numero di questi attenuatori previsti per regione intergenica viene confrontato con il numero di regioni intergeniche nel genoma. In contrasto con le pieghe di sequenze mescolate casualmente, il più forte determinato per la frequenza di attenuazione è la dimensione del genoma (il numero di regioni intergeniche e la dimensione del genoma sono fortemente correlati). I colori e l’etichettatura sono gli stessi di 5a.
Anche tenendo conto del contenuto di GC di M. tuberculosis, ha un numero ridotto di attenuatori previsti in relazione agli altri genomi ad alto GC (Figura 5b). In effetti, la figura 5b (attenuatori previsti delle sequenze intergeniche effettive) mostra che il più forte determinato del numero di attenuatori previsti per regione intergenica non è il contenuto di GC ma piuttosto la dimensione del genoma (più specificamente il numero di regioni intergeniche). In generale, non solo i genomi più grandi hanno un numero assoluto maggiore di attenuatori previsti, ma hanno una maggiore presenza di attenuatori previsti per regione. Se il contenuto di GC è uguale in due genomi, il genoma più grande ha maggiori probabilità di avere un numero maggiore di attenuatori previsti per regione intergenica. Rapporti precedenti hanno suggerito fenomeni simili nelle proteine regolatrici, i genomi di grandi dimensioni sembrano avere una percentuale maggiore del loro numero totale di geni che codificano per proteine che contengono motivi regolatori . È interessante notare che, scontando gli archaebatteri e genomi ad alto contenuto di GC, un genoma di circa 1500 regioni intergeniche sembra essere la soglia in cui la frequenza degli attenuatori regolatori aumenta in un genoma.
Distribuzione e conservazione degli attenuatori nei batteri gram positivi
Sette genomi di batteri gram-positivi (B. subtilis, B. halodurans, L. innocua, S. aureus, C. acetobutylicum, L. lactis e S. pneumoniae) sono stati analizzati per vedere se i terminatori di attenuazione sono conservati davanti agli ortologi. Il numero di terminatori di attenuazione previsti per i geni noti per essere regolati in B. subtilis e i loro ortologhi negli altri sei genomi sono elencati nella Tabella 4. I genomi sono ordinati per distanza filogenetica da B. subtilis calcolato da sequenze di aminoacidi degli ortologhi condivisi tra questi genomi. Il più vicino al B. subtilis è B. halodurans e il numero medio di sostituzioni di aminoacidi per sito è 0,238, e il più distante è S. pneumoniae e il numero medio di sostituzioni di aminoacidi per sito è 0,422. Per i 42 geni elencati nella Tabella 4, il numero di ortologhi che si trovano negli altri genomi varia poco da genoma a genoma: il numero più alto e il più basso di ortologhi sono 31 in L. lactis e 26 in S. aureus e C. acetobutylicum, rispettivamente. Questo è principalmente perché questi 42 geni portano alcune funzioni di base come la sintesi di aminoacil-tRNA. D’altra parte, il numero delle strutture di terminazione di attenuazione previste varia in modo significativo: In B. gli alodurani, 22 geni ortologhi hanno predetto strutture di terminazione dell’attenuazione, mentre solo 4 geni ortologhi hanno le strutture predette in S. pneumoniae. Ciò indica che l’assenza o la presenza di regolazione mediante attenuazione è molto più debolmente conservata rispetto alla presenza del gene o degli operoni.
Tabella 4 Elenco degli attenuatori noti in B. subtilis rispetto alle previsioni in altri sei genomi di batteri gram-positivi
La stessa tendenza vale per le strutture di terminazione di attenuazione previste diverse da quelle conosciute (Tabella 5). Ci sono 105 gruppi genici ortologhi che hanno almeno un altro genoma contenente una struttura attenuatore previsto a monte di un gene ortologhi. Limitando agli ortologi che hanno previsto attenuatori in B. subtilis (35 gruppi), il più alto e il più basso numero di ortologhi condivisi di geni noti per essere regolati da attenuazione o antiterminazione in B. subtilis sono 28 (L. innocua) e 18 (S. pneumoniae), rispettivamente. Il numero di strutture di terminazione di attenuazione previste, tuttavia, varia di più. Mentre ci sono 13 geni con strutture previste in B. halodurans, che è la specie più vicina a B. subtilis tra i sei batteri gram-positivi, solo 2 geni hanno strutture previste in S. pneumoniae.
Tabella 5 Elenco di tutti i geni orthologous in sei batteri gram-positivi genomi in cui due o più genomi condividere predetto attenuatori
anche se ci è debole conservazione degli attenuatori come un intero, previsto attenuazione di terminazione delle strutture e l’ordine della loro geni a valle sono conservati per alcuni gruppi di geni. Uno di questi esempi è infC-rpml-RPLT operon (figura 6a). Nessuna struttura di terminazione dell’attenuazione è prevista nella regione a monte dell’infC in S. pneumoniae (Tabella 5). Uno sguardo più attento a questa regione da BLAST ha rivelato che l’N-terminale di infC è sopra previsto in 27 basi. Aggiungendo le 27 basi alla regione intergenica a monte, abbiamo trovato una struttura stem-loop stabile seguita da residui di poli-U anche in S. pneumoniae (Figura 6b). Anche in questo esempio, tuttavia, ci sono notevoli differenze tra le specie nella posizione relativa delle strutture del ciclo staminali e nella conservazione della sequenza. Inoltre, anche tra la coppia filogeneticamente più vicina, B. subtilis e B. halodurans, le distanze dalla fine dello stelo al codone iniziale di infC sono rispettivamente 69 e 37 basi, e solo i segmenti comuni trovati nello stelo sono GUGUGGGN {x}CCCACAC (x = 12 in B. subtilis e x = 9 in B. halodurans). Tra tutti i sette genomi, c’è solo una debole somiglianza, GYGGG (GACGG in C. acetobutylicum) nella regione dello stelo.
Figura 6
Struttura di terminazione dell’attenuazione prevista nella regione a monte dell’operone INFC-rpmI-rplT putativo. (a) Ordine dei geni. Solo le regioni intergeniche sono disegnate in scala e la lunghezza delle regioni intergeniche è riportata sotto la linea. I geni ortologhi sono indicati negli stessi colori. I geni ipotetici e gli altri geni non ortologhi sono indicati rispettivamente da” hyp ” e dai loro ID genici. Abbreviazione di genomi: Bs, B. subtilis; Bh, B. halodurans; Li, Listeria innocua; Sa, Staphylococcus aureus; Ca, Clostridium acetobutylicum; Ll, Lactococcus lactis; Sp, Streptococcus pneumoniae. (b) Strutture di terminazione di attenuazione previste. Le coppie di basi sono indicate da punti rossi tra i codici di base. La numerazione di base mostra la distanza dal codone iniziale del gene down stream. Poly-Us appena giù flusso della struttura gambo-loop è colorato in verde. I segmenti debolmente conservati sono colorati in rosso. L’abbreviazione per i genomi è la stessa di (a).
La conservazione delle strutture di terminazione dell’attenuazione prevista è osservata anche nelle regioni a monte del possibile operone contenente il gene nusA (Figura 7a). Quattro su sette genomi contengono strutture attenuatori previste a monte della proteina ipotetica (ylxS in B. subtilis). Stem-loop strutture si trovano anche nel resto dei tre genomi, anche se queste strutture non passano i filtri. La posizione delle strutture al sito di inizio della trascrizione del gene a valle e le sequenze stesse variano significativamente anche in questo esempio. In queste sequenze staminali, il segmento GUGGG (GAGCG in L. lactis e GAGGC in S. pneumoniae) è conservato nell’operone predetto contenente il gene nusA (Figura 7b). È interessante notare che i segmenti a 5 basi sono identici o molto simili ai segmenti nelle strutture stem-loop situate a monte dell’infC (figura 6b). Le proteine codificate i geni in questi due operoni sono coinvolti nella trascrizione. La conservazione dei segmenti di sequenza nelle strutture di terminatore di attenuazione previste per l’operone infC-rpmI-rplT e l’operone contenente nusA implica che esiste un meccanismo di regolamentazione comune che riconosce la struttura del ciclo stem e questo regolerebbe entrambi gli operoni nello stesso modo.
Figura 7
Struttura di terminazione di attenuazione prevista nella regione a monte del gene ylxS. (a) Ordine dei geni. Le strutture stem-loop previste con significatività statistica sono indicate in blu e le altre strutture che non superano i filtri né hanno meno significatività sono indicate in rosso. Per l’altra spiegazione, vedere la legenda alla figura 6a. (b) Strutture di terminazione dell’attenuazione previste. Vedere la legenda alla figura 6b per la spiegazione.
Distribuzione e conservazione degli attenuatori nei proteobatteri
Diversi aspetti della conservazione degli attenuatori sono immediatamente evidenti dalla nostra analisi dei batteri gram-positivi . In primo luogo, la distribuzione della regolazione dell’attenuazione o dell’antiterminazione non è ben conservata attraverso la baceria gram-postiva e inoltre, anche nei sistemi normativi conservati, la conservazione della sequenza e della struttura è debole. Lo stesso vale per i proteobatteri. Dei 14 geni in E. coli (vedere Tabella 5a) noto per essere regolato da attenuazione o antiterminazione, nessuno ha attenuatori previsti ortologhi a monte in tutti gli altri quattro genomi di proteobatteri. Sei hanno attenuatori previsti ortologhi a monte in almeno uno degli altri quattro genomi. Tre sono geni che hanno ortologhi in tutti e quattro gli altri genomi, ma questi non hanno attenuatori previsti. I restanti cinque geni in E. coli non hanno ortologhi noti nell’altro genoma o gli ortologhi hanno una distribuzione chiazzata e nessun attenuatore previsto. Un esame più attento a mano conferma questa conclusione. La tabella 5b è un elenco di tutti gli attenuatori previsti in ciascuno dei cinque genomi della divisione gamma dei proteobatteri in cui è previsto un attenuatore simile per un ortologo di un altro genoma. Come mostrato in questa tabella, l’attenuazione e l’antiterminazione sembrano essere scarsamente conservati come meccanismo di regolazione in operoni analoghi nei genomi proteobatterici. Del totale di 475 geni e dei loro ortologhi in questi cinque genomi che hanno previsto attenuatori, solo 36 sono ortologhi a monte condivisi di due o più genomi (Tabelle 3, 5a e 5b).
Tabella 5a Elenco degli attenuatori noti in E. coli confrontato con le previsioni in quattro altri genomi di proteobacteria (gamma suddivisione)
Tabella 5b Elenco di tutti i geni orthologous in cinque proteobacteria (gamma suddivisione) genomi in cui due o più genomi condividere predetto attenuatori
la ricerca Precedente in relazione a specifici sistemi hanno riferito di attenuazione e antitermination regolamento in alcune operoni in E. coli sono solo leggermente conservato in tutta la gamma divisione proteobacteria. L’operone di regolazione rpsJ e gli operoni trpE e pheA di E. coli hanno dimostrato di avere una distribuzione chiazzata e debolmente conservata attraverso i proteobatteri. Come mostrato nelle tabelle 2, 5a e 5b, siamo stati in grado di estendere estesamente questa analisi di attenuazione e antiterminazione alla maggior parte di tali sistemi nei proteobatteri e abbiamo dimostrato che questo vale per tutti i meccanismi regolatori di attenuazione e antiterminazione noti in E. coli e altri meccanismi previsti in genomi di divisione gamma aggiuntivi. Un esempio è dato in figura 8 della conservazione bassa sequenza di attenuatori e regolazione. Nella figura 8a, uno degli attenuatori più conservati è mostrato per quello dell’operone hisG. Questo meccanismo di operone e regolazione è ben caratterizzato in E. coli e la nostra analisi prevede meccanismi simili di regolazione dell’attenuazione in V. cholerae e H. influenzae. Gli attenuatori previsti hanno conservato la posizione (a circa 40-50 bp codone di inizio a monte del gene hisG) e la sequenza del gambo. Sebbene le regioni intergeniche circostanti non siano possibili da allineare, V. cholerae e H. le influenzae hanno possibili sequenze di leader di aminoacidi con una serie di istidine che è caratteristica del meccanismo di regolazione dell’attenuazione in E. coli. Gli attenuatori previsti non sono stati trovati negli altri tre genomi gamma subdivision probacteria di P. aeruginosa, N. meningitidus e X. fastidiosa. In P. aeruginosa la regione intergenica a monte dell’ortologo hisG è di soli 17 bp di lunghezza, in X. fastidious il gene ortologo si sovrappone all’ORF a monte, e sebbene l’analoga regione intergenica N. meningitidus sia di lunghezza sufficiente, non è previsto alcun attenuatore.
Figure 8
Predicted attenuation termination structure in upstream region of HisG gene in E. coli. (a) Order of genes. Predicted stem-loop structures with statistical significance are indicated in blue. For the other explanation, see legend to figure 6a. Abbreviations for genomes: Ec, Escherichia coli; Hi, Haemophilus influenzae; Vc, Vibrio cholerae; Pa, Pseudomonas aeruginosa; Xf, Xylella fastidiosa; Nm, Neisseria meningitidis. (b) Strutture di terminazione di attenuazione previste. Vedere la legenda alla figura 6b per la spiegazione.