Genomul de referință Brassica rapa îmbunătățit prin tehnologii de secvențiere cu o singură moleculă și de captare a conformației cromozomiale

Asamblarea genomului

Pentru a ghida asamblarea genomului, am estimat dimensiunea genomului B. rapa prin citometrie în flux folosind orezul ca referință. Am estimat inițial că B. rapa are o dimensiune a genomului de 455 Mb (tabelul suplimentar S1). Investigații suplimentare care au implicat calcule pentru lungimea totală a hărții consensuale generate pe baza datelor BioNano au indicat o dimensiune a genomului de 442,9 Mb (tabelul suplimentar S2). Ambele estimări au fost mai mici decât dimensiunea raportată anterior de 52915 sau 485 Mb2.

Am asamblat genomul B. rapa utilizând o acoperire de ~57 de ori a subrețelelor de secvențiere PacBio (~25.88 Gb), o acoperire de ~456 ori a datelor BioNano (~207,70 Gb) și o acoperire de ~164 ori a citirilor Hi-C (~74,64 Gb). ansamblul rezultat a constat din 1476 de contig-uri, cu un N50 al contig-ului de 1,45 Mb și o lungime totală de 351,06 Mb (tabelul 1). Ulterior, am detectat discrepanțe în cadrul a 22 de contig-uri utilizând Hi-C reads (tabelul suplimentar S4). În loc să eliminăm aceste contig-uri, le-am divizat la nivelul regiunilor conflictuale; datele pentru Contig01464 sunt prezentate ca exemplu (Figura suplimentară S1).

Tabel 1 Rezumatul comparațiilor de asamblare și adnotare pentru cele trei B. rapa genome assemblies

După scheletare și estimarea dimensiunilor gap-urilor folosind hărți BioNano și matepair reads (din BRAD, http://brassicadb.org), am obținut 1301 schelere cu un N50 al scheletelor de 4,44 Mb (tabelul 1). Pentru a atribui scheletele rezultate la pozițiile lor cromozomiale, am ancorat aceste schele folosind datele Hi-C și harta genetică îmbunătățită (a se vedea Metode). Am ancorat 298,19 Mb de secvență pe zece cromozomi care includeau 200 de schele grupate de datele Hi-C și 8 schele atribuite de harta genetică. Ansamblul nostru final, denumit genomul B. rapa v3.0, a totalizat 353,14 Mb de secvență cu 396 de lacune (2,08 Mb) (tabelul 1). Genomul B. rapa v3.0 este mai lung decât v1.5, dar mai scurt decât v2.5.

Pentru a evalua calitatea genomului B. rapa v3.0, am folosit diverse surse de date. În primul rând, am validat caracterul complet al ansamblului nostru prin căutarea de gene eucariote de bază (CEGs) folosind CEGMA16. Un total de 247 din 248 de CEG-uri au fost complete, iar 1 CEG a fost parțială, ceea ce indică faptul că toate CEG-urile au putut fi detectate în ansamblul nostru (tabelul suplimentar S6). În continuare, calitatea genomului a fost testată prin potrivirea secvențelor de etichete de secvențe exprimate (EST) de B. rapa (descărcate din dbEST la NCBI), ceea ce a arătat că 99,34 % dintre EST-uri au putut fi găsite în genomul B. rapa v3.0 recent asamblat.

Îmbunătățirea contiguității

Genomul B. rapa v3.0 a îmbunătățit contiguitatea în ceea ce privește lacunele și dimensiunile contigurilor. Genomul B. rapa v1.5 a fost generat din secvențe Illumina, în timp ce pentru asamblarea v2.5 au fost utilizate mai multe lecturi Illumina și o cantitate relativ mică de date de secvență PacBio. Aceste două asamblări au limitări din cauza fragmentării și a contiguității scăzute (tabelul 1). Prin combinarea secvențierii cu o singură moleculă, a cartografierii optice și a tehnologiei Hi-C, genomul B. rapa v3.0 reprezintă o îmbunătățire de aproximativ 27 de ori (contig N50: 1446 Kb față de 53 Kb, v2.5) și de aproximativ 31 de ori (contig N50: 1446 Kb față de 46 Kb, v1.5) în ceea ce privește contiguitatea față de cele două ansambluri anterioare (tabelul 1).Am evaluat, de asemenea, dimensiunea și cantitatea de lacune din fiecare ansamblu respectiv. Au existat doar 396 de lacune în v3.0, inclusiv lacune de dimensiuni cunoscute (122 de la BioNano și 74 de la datele privind perechile de perechi) și necunoscute (190 de la unirea scheletului Hi-C și 10 de la unirea hărților genetice). În comparație cu ansamblurile anterioare, v3.0 are o îmbunătățire de ~10 ori (5,89 Kb față de 60,59 Kb, v2.5) și de ~7 ori (5,89 Kb față de 40,09 Kb, v1.5) în ceea ce privește dimensiunea lacunelor per Mb față de cele două ansambluri anterioare (tabelul 1). În ceea ce privește numărul de lacune pe Mb, v3.0 este superioară v3.5 și, respectiv, v1.5, cu ~23 ori (1,15 vs. 25,98, v2.5) și ~35 ori (1,15 vs. 40,09, v1.5) mai puține lacune pe Mb (Tabelul 1).

Pentru a evalua contiguitatea și acuratețea ordonării scheletelor din cele trei versiuni ale ansamblului B. rapa de referință, am reconstruit mai întâi hărțile genetice pe baza celor trei ansambluri utilizând același set de date de resecvențiere a unei populații haploide duble (DH) derivate dintr-o încrucișare a două linii de varză chinezească de căpățână17. Am evaluat apoi locațiile binmarkeriilor pe hărțile genetice prin integrarea acestora cu hărțile fizice corespunzătoare. Dintre cei 892 de binemarcați din ansamblul nostru, 877 de binemarcați (98,3 %) au fost cartografiați pe harta genetică. Ansamblul nostru a fost în concordanță cu harta genetică pentru 801 binmarkeri (91,3 %), ceea ce indică calitatea ridicată a v3.0 (Fig.1; tabelul suplimentar S7). Cu toate acestea, am observat că 76 (8,7 %) de binemarcați de pe cromozomii A05, A08 și A09 au fost cartografiate în locații ambigue în harta genetică. Aceste regiuni conțineau secvențe repetate, în special în regiunile centromerice, așa cum este descris în următoarea analiză. Cu toate acestea, aceste regiuni conflictuale au fost acoperite de citirile PacBio și/sau de hărțile BioNano; datele pentru cromozomul A08 în v3.0 sunt prezentate ca exemplu (Figura suplimentară S2).

Fig. 1: Integrarea hărților fizice și genetice ale genomului B. rapa v3.0.

Markerii hărții genetice bazate pe genomul B. rapa v3.0 sunt reprezentați pe axa x; markerii hărții fizice a B. rapa v3.0 sunt reprezentați pe axa x; markerii hărții fizice a B. rapa v3.0 sunt reprezentați pe axa x. rapa genomul v3.0 sunt reprezentați pe axa y

Au existat 1092 de binemarcați pe harta genetică din v2.5 și 866 de binemarcați pe harta genetică din v1.5. Cu toate acestea, am reușit să cartografiem doar 88,7 % dintre binemarcați (969 din 1092) și 92,3 % dintre binemarcați (799 din 866) pe harta genetică a v2.5 și, respectiv, v1.5,respectiv (tabelul suplimentar S7). Am constatat că 15,1 % dintre binmarkeri (166 din 969) din v2.5 erau discrepante, inclusiv 146 de binmarkeri cu distanțe genetice și fizice dezordonate în cadrul aceluiași cromozom (intracromosom) și 20 de binmarkeri cu distanțe genetice și fizice incoerente pe cromozomi diferiți (intercromosom) (Figura suplimentară S3; Tabelul suplimentar S7). Pentru v1.5, 10,0 % dintre binmarkeri (80 din 799) au fost discrepante, inclusiv 71 de binmarkeri de intracromosom și 9 binmarkeri de intercromosom (figura suplimentară S4; tabelul suplimentar S7). Cu toate acestea, v3.0 conținea cei mai puțini binemarcați intracromosomali conflictuali (8,7 %, 76 din 877 de binemarcați) și niciun binemarcați intercromosomali discrepanți (tabelul suplimentar S7), ceea ce indică faptul că genomul B. rapa v3.0 are o contiguitate mai mare decât cele două ansambluri anterioare. Luate împreună, aceste validări independente sugerează că genomul B. rapa v3.0 are cea mai mare contiguitate și cea mai bună ordonare a scheletelor dintre cele trei ansambluri B. rapa.

Compararea adnotării genomului

Am prezis și am adnotat modelele de gene așa cum am descris anterior6. Am identificat un total de 45 985 de modele de gene codificatoare de proteine în v3.0, care reprezentau 14,74% din ansamblul genomului (tabelul 1). În ansamblul nostru, 98,75% (45.411 din 45.985) din gene au fost adnotate pe cromozomi și doar 1,25% (574 din 45.985) au fost localizate pe schele. Genele adnotate de novo în v3.0 au fost denumite în conformitate cu standardul de nomenclatură a modelului de gene pentru genomurile de referință Brassica (http://www.brassica.info/info/genome_annotation.php). Numărul de modele de gene din ansamblul nou este mai mare decât cel din v1.5 (41.020 gene), dar mai mic decât cel din v2.5 (48.826 gene) (tabelul 1) (tabelul 1). Pentru a evalua în continuare calitatea adnotării, s-a efectuat o comparație cu adnotarea ansamblurilor anterioare folosind BUSCO18, care se bazează pe un reper de 1440 de gene vegetale conservate. Aproximativ 97,7 % din aceste gene vegetale conservate au fost identificate, iar 1,7 % au fost detectate ca fragmente prezentate în v3.0 (tabelul suplimentarS11).

Am efectuat o analiză a sinteniei genomului între cele trei ansambluri folosind SynOrths19 pentru a identifica perechile de gene sintenice și rețelele de gene în tandem. În total, în v3.0 au fost identificate 2077 matrici tandem (corespunzând la 4963 de gene tandem). Același număr de matrici tandem (2077 de matrici corespunzătoare la 5004 gene) a fost detectat și în v1.5. O evaluare a sinteniei la nivelul întregului genom a indicat că 1539 de matrici tandem (corespunzând la 3757 gene) în v3.0 au fost sintenice cu 1494 de matrici tandem (corespunzând la 3670 gene) în v1.5. Cu toate acestea, au fost identificate mai multe matrici tandem (3535 matrici, 8002 gene) în v2.5 (tabelul 1). Am detectat lacune în regiunile de gene tandem superflue în v2.5, în timp ce nu s-au găsit lacune nici în 3.0, nici în v1.5 (Fig. 2a). Aceste lacune pot fi rezultatul erorilor de asamblare produse de închiderea lacunelor cu ajutorul citirilor PacBio în v2.5, care, la rândul lor, au dus la o adnotare invalidă a genelor tandem. Pentru alte gene tandem fără lacune, am observat că genele unice din v3.0 și v1.5 au fost adnotate ca două sau mai multe gene în v2.5 (Fig. 2b).

Fig. 2: Exemple care arată adnotarea invalidă a genelor tandem în v2.5.

a Un exemplu de decalaj de 25 pb (bară galbenă subțire indicată de săgeata roșie) între genele BraA01000818 și BraA01000819, care indică o adnotare invalidă în v2.5. b Genele BraA02003894 și BraA02003895 din v2.5 sunt notate ca o singură genă în v3.0 (BraA02g039730.3C) și v1.5 (Bra020703). Cifrele au fost reprezentate grafic folosind GEvo (https://genomevolution.org/coge/GEvo.pl)

Când se ia fiecare matrice în tandem ca un singur locus genetic, au rămas 43 099 gene în v3.0, 44 359 gene în v2.5 și 38 093 gene în v1.5 (tabelul 1). Am efectuat apoi o analiză de sintenie a genelor, care a arătat că 39.858 de gene (92,48%) în v3.0 au servit drept omologi pentru 40.442 (91,17%) și 35.464 de gene (93,10%) în v2.5 și, respectiv, v1.5. După compararea genelor adnotate cu cele din primele versiuni, am identificat 3241 de gene specifice versiunii în v3.0 în comparație cu cele din v2.5 și v1.5. Dintre acestea, 2380 de gene au fost susținute de dovezi din lecturi de ARNm corespunzătoare din B. rapa (din BRAD, http://brassicadb.org/), iar 2295 de gene au fost susținute de secvențe de proteine din alte specii de Brassicaceae (tabelul suplimentar S12). În total, 89,10% (2888 din 3214) din genele specifice versiunii din v3.0 au fost susținute de datele ARNm din B. rapa sau de secvențele proteice ale altor specii de Brassicaceae, în timp ce doar 10,90% (326 din 3214) din gene nu au fost susținute.

Un nou eveniment de expansiune LTR-RT identificat în ansamblul actualizat

Am notat TE-uri în v3.0 folosind aceleași metode ca cele raportate anterior20. În total, în v3.0 au fost identificați 235 683 de TE din 1244 de familii, iar în comparație cu v2.5 și v1.5 au fost găsite 562 de familii de TE unice. În v3.0, TE reprezintă 37,51% (134 Mb) din genomul asamblat, ceea ce a fost mai mare decât în asamblările anterioare (32,30%, 126 Mb, v2.5; 25,44%, 72 Mb, v1.5)2,6. În ansamblul nostru nou, cei mai abundenți TE sunt LTR-RT, care acoperă o lungime totală de 57,64 Mb și reprezintă 16,32% din genomul asamblat. Repetițiile non-LTR-RT (LINE și SINE) reprezintă 3,10% din ansamblul nostru (Figura suplimentară S5). Am detectat transpozoni ADN care corespund la 26,35 Mb, care reprezintă 7,46% din ansamblul genomului asamblat (Figura suplimentară S5). O listă completă a TE-urilor și repetițiilor identificate în v3.0 poate fi găsită în tabelul suplimentar S13. În plus, am identificat un total de 1231 miARN-uri, 1281 ARNt, 2865 ARNr și 3737 ARNsn în genomul B. rapa v3.0 (tabelul suplimentar S19).

În ansamblul nostru actual, am adnotat mai multe LTR-RT-uri (57 Mb) în comparație cu v2.5 (44 Mb) și v1.5 (18 Mb). Am identificat 51 062 de LTR-RT-uri neatinse în v3.0. O analiză suplimentară a arătat că 65,27% (33.672 din 51.602) din LTR-urile neincte au fost localizate pe cei zece cromozomi, în timp ce 34,73% (17.922 din 51.602) din LTR-RT-urile neincte au fost găsite pe scheletele neancorate. Utilizând aceeași metodă6, un total de 13 318 LTR-RT intacte au fost adnotate în v3.0. Cu toate acestea, au existat doar 4129 și 801 LTR-RT-uri intacte în v2.5 și, respectiv, v1.56. O analiză suplimentară a arătat că numai 18,19 % din LTR-RT intacte (2423 din 13 318) au fost localizate pe cei zece cromozomi, în timp ce majoritatea (81,81 %, 10 895 din 13 318) LTR-RT intacte au fost găsite pe scheletele neanclinate în v3.0. Timpul de inserție al LTR-RT-urilor intacte a fost calculat așa cum a fost descris anterior4, ceea ce a indicat că genomul B. rapa a suferit trei valuri de expansiune LTR-RT de când a deviat de la B. oleracea (Fig. 3). Aceste LTR-RT intacte au avut o vârstă medie de inserție de 1,88 milioane de ani în urmă (MYA), cu o vârstă mediană de inserție de 1,59 MYA. Mai mult, am găsit mai multe LTR-RT-uri intacte cu lungimi diferite în v3.0 comparativ cu cele din v2.5 și v1.5 (Figura suplimentară S6).

Cu aceste LTR-RT-uri intacte, a fost identificat un nou eveniment de expansiune LTR-RT în genomul B. rapa. Am desemnat 3155 de evenimente de inserție LTR-RT intacte de la 0 MYA la 0,4 MYA ca fiind o „expansiune tânără” cu o lungime medie de 8135 bp și o dată medie de inserție de 0,2 MYA; 2283 de evenimente de inserție LTR-RT intacte de la 1,0 MYA la 1,4 MYA ca fiind o „expansiune medie” cu o lungime medie de 11.902 bp și o dată medie de inserție de 1,2 MYA; și 1444 de evenimente de inserție LTR-RT intacte de la 3.0 MYA până la 3,4 MYA ca „expansiune antică” cu o lungime medie de 9823 bp și o dată de inserție (Fig. 3).Expansiunile tinere și antice corespund îndeaproape evenimentelor de expansiune identificate anterior; expansiunea medie a fost identificată pentru prima dată în genomul B. rapa și are un timp de inserție similar cu cel al evenimentului de expansiune LTR-RT intact din B. oleracea. În plus, în v3.0 au fost identificate 1778 de LTR-RT asemănătoare cu Ty1/Copia și 4179 de LTR-RT asemănătoare cu Ty3/Gypsy, ceea ce este mult mai mult decât cele identificate în ansamblurile anterioare (353 Ty1/Copia și 632 Ty3/Gypsy în v2.5, 260 Ty1/Copia și 162 Ty3/Gypsy în v1.5) (tabelul suplimentar S20; figura suplimentară S7, S8). În general, au existat mai multe LTR-RT de tip Ty3/Gypsy decât LTR-RT de tip Ty1/Copia (tabelul suplimentar S20). În comparație cu v2.5 și v1.5, LTR-RT de tip Ty3/Gypsypsy în v3.0 au crescut în mod evident începând cu 5 MYA (Figura suplimentară S7), în timp ce LTR-RT de tip Ty1/Copia au crescut începând cu 2,2 MYA (Figura suplimentară S8). Din arborii filogenetici, am constatat că fiecare grup de LTR-RT-uri a avut mai multe copii în v3.0 decât în v2.5 și v1.5 (tabelul suplimentar S21, S22; figura suplimentară S9, S10).

Fig. 3

Numărul de LTR-RT-uri intacte născute la momente diferite (acum un milion de ani, MYA) în cele trei ansambluri ale arboretuluiB. rapa și în genomul luiB. oleracea.

Blocuri genomice și centromeri în genomul B. rapa

Am investigat relațiile dintre blocurile genomice folosind ansamblul actualizat v3.0. Pentru a defini blocurile genomice și centromerii din genomul B. rapa v3.0, am construit mai întâi cele trei subgenomuri (LF, MF1 și MF2) pe baza relației sintenice dintre v3.0 și A. thaliana (figura suplimentară S11; tabelul suplimentar S14). Am detectat 71 din cele 72 (3 × 24) de blocuri genomice așteptate în v3.0, iar cele mai multe dintre acestea au fost aranjate în conformitate cu cele raportate anterior în ref.10 (Fig. 4; tabelul suplimentar S15). În v3.0, cele două noi blocuri genomice fragmentate F (LF) și F (MF1) au fost identificate pe cromozomii A01 și A05 și nu au fost observate în ref.10. Nu am putut detecta două blocuri de genom foarte mici descrise anterior în v3.0, blocul C (MF2) pe cromozomul A07 și blocul B (MF1) pe cromozomul A08 (ref.10). Cu toate acestea, în ansamblul nostru, blocurile genomice N/M (MF1), O/P (LF) și A/C(LF) au fost aranjate pe cromozomii A01, A09 și, respectiv, A10, în timp ce acestea au fost ordonate pe părți opuse în ref.10.Cele trei blocuri genomice mici adiacente (S (MF2), T(MF2) și B(MF1)) de pe cromozomul A08 din v3.0 au fost ordonate S/T/B, în timp ce acestea au fost aranjate ca T/B/S în ref.10..

Fig. 4: Distribuția blocurilor genomice de-a lungul a zece cromozomi din genomul B. rapa v3.0.

Blocurile genomice de pe zece cromozomi au fost atribuite subgenomurilor LF (roșu), MF1 (verde) și MF2 (albastru). Două sau mai multe segmente ale unui singur bloc au fost etichetate folosind litere minuscule (a, b etc.). Centromerii din genomul B. rapa sunt reprezentați prin ovale negre, iar paleocentromerii sunt reprezentați prin triunghiuri gri. Săgețile îndreptate în jos sunt adiacente GB-urilor care sunt inversate în raport cu alte blocuri care au provenit dintr-un singur cromozom ACK

Am comparat, de asemenea, orientarea blocurilor genomului în v3.0 cu cea din ref.10. S-a constatat că blocurile genomului W (MF2) de pe cromozomul A02, precum și G (LF) și E (LF) de pe cromozomul A07 sunt inversate în raport cu celelalte blocuri care provin de la un singur cromozom ACK. Cu toate acestea, orientarea blocului genomic P (LF) de pe cromozomul A09 și a trei blocuri V în v3.0 era în direcția înainte, în timp ce acestea erau inversate în ref.10. Aceste rezultate au fost susținute în continuare de hărțile genetice ale v3.0 și, respectiv, v1.5.

Am determinat cu exactitate locația centromerilor tuturor cromozomilor din v3.0. Prin examinarea secvențelor de repetări centromerice determinate anterior, inclusiv a repetărilor satelitare centromerice CentBr, CRB, TR238 și PCRBr21,22,23, am identificat semnalele pentru toate cele 21 de regiuni paleocentromerice în v3.0, în timp ce trei regiuni paleocentromerice nu au fost detectate în ref.10 (Fig. 4, tabelul suplimentar S16). Analiza paleocentromerică a indicat faptul că cei zece centromeri existenți din B. rapa au fost toți moșteniți din cele 21 de paleocentromeri. În v3.0, centromerii cromozomilor A01, A03, A04, A05, A06, A07 și A10 au avut aceleași blocuri genomice asociate care flanchează centromerii corespunzători, așa cum s-a raportat în ref.10 (Fig. 4). Cu toate acestea, centromerul de pe cromozomul A02 era situat între blocurile genomice P (MF2) și V (MF1), iar centromerul de pe cromozomul A09 era situat între blocurile genomice P (LF) și B (LF), în timp ce acestea au fost considerate paleocentromeri în ref.10 (Fig. 4). Centromerul de pe cromozomul A08 a fost situat între blocurile genomice T (MF2) și B (MF1), și nu între blocurile genomice C (MF1) și T (MF2), așa cum se menționează în ref.10. În plus, au fost detectate 1188 de gene în cadrul regiunilor centromerice în v3.0, în timp ce în ref.10 au fost detectate doar 740 de gene (tabelul suplimentar S17).

Pentru a evalua ansamblul nostru în ceea ce privește centromerii din v3.0, am analizat caracteristicile secvenței regiunilor centromerice. Am constatat că un număr semnificativ mai mare de TE și de repetări specifice centromerului au fost cartografiate în regiunile centromerice decât în alte părți ale cromozomilor, iar densitatea genelor și rata de recombinare au fost semnificativ mai mici în regiunile centromerice adnotate în v3.0 (Fig. 5). În plus, au fost detectate mai multe repetări specifice centromerului în regiunile centromerice în v3.0 în comparație cu cele raportate în ref.10 (tabelul suplimentar S17).

Fig. 5: Reprezentarea circulară a caracteristicilor regiunilor centromerice pe cei zece cromozomi în genomul B. rapa v3.0.

Toate datele sunt reprezentate sub formă de heatmaps. Culoarea roșie indică valori scăzute, iar culoarea albastră indică valori ridicate. a Cei zece cromozomi din genomul B. rapa v3.0. Centromerii sunt reprezentați ca blocuri negre. b Densitatea TE de-a lungul celor zece cromozomi din v3.0 (fereastră glisantă de 500 kb, pas de 100 kb). c Distribuția repetițiilor specifice centromerilor de-a lungul celor zece cromozomi din v3.0 (fereastră glisantă de 2 Mb, pas de 1 Mb). d Densitatea genică a celor zece cromozomi din v3.0 (fereastră glisantă de 2 Mb, pas de 1 Mb). e Rata medie de recombinare locală între markeri de-a lungul celor zece cromozomi din v3.0 (fereastră glisantă de 5 Mb, pas de 1 Mb)

.