Improved Brassica rapa reference genome by single-molecule sequencing and chromosome conformation capture technologies

Genome assembly

To guide genome assembly, we estimated the size of the B. rapa genome by flow cytometry using rice as a reference. Aanvankelijk schatten we dat B. rapa een genoomgrootte van 455 Mb heeft (supplementaire tabel S1). Verder onderzoek met berekeningen voor de totale lengte van de consensuskaart, gegenereerd op basis van BioNano-gegevens, gaf een genoomgrootte van 442,9 Mb aan (Supplementaire Tabel S2). Beide schattingen waren kleiner dan de eerder gerapporteerde grootte van 52915 of 485 Mb2.

Wij assembleerden het B. rapa genoom met behulp van ~57-voudige dekking van PacBio sequencing subreads (~25.88 Gb), ~456-voudige dekking van BioNano gegevens (~207.70 Gb), en ~164-voudige dekking van Hi-C leest (~74.64 Gb).De resulterende assemblage bestond uit 1476 contigs, met een contig N50 van 1.45 Mb en een totale lengte van 351.06 Mb (tabel 1). Vervolgens ontdekten we discrepanties binnen 22 contigs met behulp van de Hi-C leest (Supplementary Table S4). In plaats van deze contigs te verwijderen, hebben we deze op de conflictgebieden gesplitst; de gegevens voor contig01464 worden als voorbeeld getoond (Supplementary Figure S1).

Tabel 1 Samenvatting van vergelijkingen van assemblage en annotatie voor de drie B. rapa genoom assemblages

Na het scaffolden en het schatten van de hiaatgrootte met behulp van BioNano maps en mate-pair reads (van BRAD, http://brassicadb.org), verkregen we 1301 scaffolds met een scaffold N50 van 4.44 Mb (Tabel 1). Om de resulterende scaffolds toewijzen aan hun chromosomale posities, hebben we verankerd deze scaffolds met behulp van de Hi-C gegevens en de verbeterde genetische kaart (zie Methoden). We verankerd 298.19 Mb van de sequentie op tien chromosomen die 200 steigers geclusterd door Hi-C-gegevens en 8 steigers toegewezen door de genetische kaart omvatte. Onze uiteindelijke montage, aangeduid als B. rapa genoom v3.0, bedroeg in totaal 353,14 Mb sequentie met 396 hiaten (2,08 Mb) (tabel 1). Het B. rapa genoom v3.0 is langer dan v1.5 maar korter dan v2.5.

Om de kwaliteit van het B. rapa genoom v3.0 te beoordelen, hebben we gebruik gemaakt van verschillende gegevensbronnen. Ten eerste hebben we de volledigheid van onze assemblage gevalideerd door te zoeken naar kern eukaryotische genen (CEGs) met behulp van CEGMA16. Een totaal van 247 van de 248 CEGs waren volledig, en 1 CEG was gedeeltelijk, wat aangeeft dat alle van de CEGs kon worden gedetecteerd in onze montage (Supplementary Table S6). Vervolgens werd de genoom kwaliteit getest door het matchen van de sequenties van expressed sequence tags (EST’s) van B. rapa (gedownload van dbEST bij NCBI), waaruit bleek dat 99,34% van de EST’s konden worden gevonden in de nieuw geassembleerde B. rapa genoom v3.0.

Contiguïteitsverbetering

Het B. rapa genoom v3.0 is verbeterd contiguïteit in termen van hiaten en contig maten. Het B. rapa genoom v1.5 werd gegenereerd uit Illumina sequenties, terwijl meer Illumina reads en een relatief kleine hoeveelheid PacBio sequentiegegevens werden gebruikt voor assemblage v2.5. Deze twee assemblages hebben beperkingen als gevolg van hun fragmentatie en lage contiguïteit (tabel 1). Door de combinatie van single-molecule sequencing, optische mapping, en Hi-C-technologie, B. rapa genoom v3.0 vertegenwoordigt een ~ 27-voudige (contig N50: 1446 Kb vs 53 Kb, v2.5) en ~ 31-voudige (contig N50: 1446 Kb vs 46 Kb, v1.5) verbetering in contiguïteit ten opzichte van de twee vorige assemblages (tabel 1). We hebben ook de grootte en de hoeveelheid van de lacunes in elke respectieve assemblage. Er waren slechts 396 hiaten in v3.0, inclusief hiaten van bekende (122 van BioNano en 74 van mate-pair data) en onbekende grootte (190 van Hi-C scaffold joining en 10 van genetic map joining). Vergeleken met de vorige assemblages heeft v3.0 een ~10-voudige (5.89 Kb vs. 60.59 Kb, v2.5) en ~7-voudige (5.89 Kb vs. 40.09 Kb, v1.5) verbetering in de grootte van hiaten per Mb ten opzichte van de twee vorige assemblages (Tabel 1). In termen van het aantal hiaten per Mb is v3.0 superieur aan v2.5 en v1.5, respectievelijk, met ~23-voudige (1,15 vs. 25,98, v2.5) en ~35-voudige (1,15 vs. 40,09, v1.5) minder hiaten per Mb (tabel 1).

Om de contiguïteit en nauwkeurigheid van de scaffold-ordening van de drie versies van het B. rapa referentiegenoom, hebben we eerst de genetische kaarten gereconstrueerd op basis van de drie assemblages met behulp van dezelfde reeks resequencing gegevens van een verdubbelde haploïde (DH) populatie afgeleid van een kruising van twee koppen Chinese kool lijnen17. Vervolgens beoordeelden we de locaties van binmarkers op de genetische kaarten door ze te integreren met de overeenkomstige fysische kaarten. Van de 892 binmarkers in onze assemblage waren 877 binmarkers (98,3%) in de genetische kaart gekarteerd. Onze assemblage kwam overeen met de genetische kaart voor 801 binmarkers (91,3%), wat wijst op de hoge kwaliteit van v3.0 (Fig.1; supplementaire tabel S7). We zagen echter dat 76 (8,7%) binmarkers op chromosomen A05, A08, en A09 zich op dubbelzinnige locaties in de genetische kaart afbeeldden. Deze regio’s bevatten herhaalde sequenties, vooral op centromeric regio’s, zoals beschreven in de volgende analyse. Echter, deze tegenstrijdige regio’s werden gedekt door PacBio leest en / of BioNano kaarten; de gegevens voor chromosoom A08 in v3.0 worden getoond als voorbeeld (Supplementary Figure S2).

Fig. 1: Integratie van de fysische en genetische kaarten van B. rapa genoom v3.0.

De markers van de genetische kaart op basis van B. rapa-genoom v3.0 worden op de x-as weergegeven; de markers van de fysische kaart van B. rapa-genoom v3.0 worden op de x-as weergegeven; de markers van de genetische kaart van B. rapa-genoom v3.0 worden op de x-as weergegeven. rapa-genoom v3.0 worden op de y-as weergegeven

Er waren 1092 binmarkers op de genetische kaart van v2.5 en 866 binmarkers op de genetische kaart van v1.5. We konden echter slechts 88,7% van de binmarkers (969 van 1092) en 92,3% van de binmarkers (799 van 866) in kaart brengen op de genetische kaart van v2.5 en v1.5, respectievelijk (aanvullende tabel S7). We vonden dat 15,1% van de binmarkers (166 van 969) in v2.5 discrepant waren, waaronder 146 binmarkers met ongeordende genetische en fysische afstanden binnen hetzelfde chromosoom (intrachromosoom) en 20 binmarkers met inconsistente genetische en fysische afstanden op verschillende chromosomen (interchromosoom) (Supplementaire Figuur S3; Supplementaire Tabel S7). Voor v1.5 waren 10,0% van de binmarkers (80 van 799) discrepant, waaronder 71 binmarkers van intrachromosoom en 9 binmarkers van interchromosoom (Aanvullende Figuur S4; Aanvullende Tabel S7). Echter, v3.0 bevatte de minste conflicterende intrachromosomale binmarkers (8,7%, 76 van 877 binmarkers) en geen discrepante interchromosomale binmarkers (Supplementary Table S7), wat erop wijst dat B. rapa genoom v3.0 een hogere contiguïteit heeft dan de twee vorige assemblages. Alles bij elkaar suggereren deze onafhankelijke validaties dat B. rapa genoom v3.0 de hoogste contiguïteit en de beste ordening van scaffolds heeft onder de drie B. rapa assemblies.

Vergelijking van genoomannotatie

We voorspelden en annoteerden de genmodellen zoals eerder beschreven6. We identificeerden een totaal van 45.985 eiwit-coderende genmodellen in v3.0, die 14,74% van het genoom-assemblage vertegenwoordigde (tabel 1). In onze assemblage, 98,75% (45.411 van 45.985) van de genen werden geannoteerd op chromosomen, en slechts 1,25% (574 van 45.985) was gelegen op scaffolds. De de novo geannoteerde genen in v3.0 werden benoemd volgens de standaard genmodel nomenclatuur voor de Brassica referentie genomen (http://www.brassica.info/info/genome_annotation.php). Het aantal genmodellen in de nieuwe assemblage is hoger dan dat in v1.5 (41.020 genen) maar lager dan dat in v2.5 (48.826 genen) (Tabel 1). Om de kwaliteit van de annotatie verder te evalueren, werd een vergelijking met de annotatie van eerdere assemblages uitgevoerd met BUSCO18, die gebaseerd is op een benchmark van 1440 geconserveerde plantengenen. Ongeveer 97,7% van deze geconserveerde plantengenen werden geïdentificeerd, en 1,7% werden gedetecteerd als fragmenten gepresenteerd in v3.0 (Supplementary TableS11).

Een genoom synteny analyse werd uitgevoerd onder de drie assemblies met behulp van SynOrths19 om syntenische gen paren en tandem gen arrays te identificeren. Een totaal van 2077 tandem arrays (overeenkomend met 4963 tandem genen) werden geïdentificeerd in v3.0. Hetzelfde aantal tandem arrays (2077 arrays overeenkomend met 5004 genen) werd ook gedetecteerd in v1.5. Een beoordeling van genoombrede syntenie gaf aan dat 1539 tandem-arrays (overeenkomend met 3757 genen) in v3.0 syntenisch waren met 1494 tandem-arrays (overeenkomend met 3670 genen) in v1.5. Echter, meer tandem arrays (3535 arrays, 8002 genen) werden geïdentificeerd in v2.5 (tabel 1). We ontdekten hiaten in de regio’s van overbodige tandem-genen in v2.5, terwijl er geen hiaten werden gevonden in 3.0 of v1.5 (Fig. 2a). Deze hiaten kunnen het resultaat zijn van assemblagefouten, veroorzaakt door het sluiten van hiaten met behulp van PacBio reads in v2.5, die op hun beurt leidden tot de ongeldige annotatie van tandem genen. Voor andere tandemgenen zonder hiaten stelden we vast dat enkelvoudige genen in v3.0 en v1.5 werden geannoteerd als twee of meer genen in v2.5 (fig. 2b).

Fig. 2: Voorbeelden die de ongeldige annotatie van tandemgenen in v2.5 tonen.

a Een voorbeeld van een kloof van 25 bp (dunne gele balk aangegeven door de rode pijl) tussen de genen BraA01000818 en BraA01000819, wat duidt op een ongeldige annotatie in v2.5. b De genen BraA02003894 en BraA02003895 in v2.5 zijn geannoteerd als een enkel gen in v3.0 (BraA02g039730.3C) en v1.5 (Bra020703). Cijfers werden uitgezet met GEvo (https://genomevolution.org/coge/GEvo.pl)

Wanneer we elke tandem array als een enkel gen locus beschouwen, bleven er 43.099 genen over in v3.0, 44.359 genen in v2.5, en 38.093 genen in v1.5 (Tabel 1). We voerden vervolgens een gen syntenie analyse uit, waaruit bleek dat 39.858 genen (92,48%) in v3.0 als tegenhanger dienden voor 40.442 (91,17%) en 35.464 genen (93,10%) in v2.5 en v1.5, respectievelijk. Na vergelijking van de geannoteerde genen met die van de vroege versies, identificeerden we 3241 versie-specifieke genen in v3.0 in vergelijking met zowel v2.5 als v1.5. Hiervan werden 2380 genen ondersteund door bewijs uit overeenkomende mRNA reads van B. rapa (uit BRAD, http://brassicadb.org/), en 2295 genen werden ondersteund door eiwit sequenties van andere Brassicaceae soorten (Supplementary Table S12). In totaal werden 89,10% (2888 van 3214) van de versie-specifieke genen in v3.0 ondersteund door de mRNA gegevens van B. rapa of de eiwit sequenties van andere Brassicaceae soorten, terwijl slechts 10,90% (326 van 3214) van de genen niet werden ondersteund.

Een nieuwe LTR-RT expansie gebeurtenis geïdentificeerd in de bijgewerkte assemblage

We annoteerden TEs in v3.0 met behulp van dezelfde methoden als eerder gerapporteerd20. Een totaal van 235.683 TEs werden geïdentificeerd uit 1244 families in v3.0, en 562 unieke TE families werden gevonden in vergelijking met v2.5 en v1.5. In v3.0 vertegenwoordigden TEs 37.51% (134 Mb) van het geassembleerde genoom, wat hoger was dan in de vorige assemblages (32.30%, 126 Mb, v2.5; 25.44%, 72 Mb, v1.5)2,6. In onze nieuwe assemblage zijn de meest voorkomende TE’s LTR-RT, die een totale lengte van 57,64 Mb beslaan en 16,32% van het geassembleerde genoom vertegenwoordigen. Niet-LTR-RT herhalingen (LINEs en SINEs) zijn goed voor 3,10% van onze assemblage (Supplementary Figure S5). We ontdekten DNA-transposons die overeenkomen met 26,35 Mb, die goed zijn voor 7,46% van het geassembleerde genoom assemblage (Supplementary Figure S5). Een volledige lijst van geïdentificeerde TE’s en herhalingen in v3.0 is te vinden in de supplementaire tabel S13. Bovendien identificeerden we een totaal van 1231 miRNAs, 1281 tRNAs, 2865 rRNAs, en 3737 snRNAs in het B. rapa genoom v3.0 (Supplementary Table S19).

In onze huidige assemblage, annoteerden we meer LTR-RTs (57 Mb) in vergelijking met v2.5 (44 Mb) en v1.5 (18 Mb). We identificeerden 51.062 niet-intacte LTR-RTs in v3.0. Verdere analyse toonde aan dat 65,27% (33.672 van 51.602) van de niet-geïntacte LTR’s waren gelegen op de tien chromosomen, terwijl 34,73% (17.922 van 51.602) van de niet-geïntacte LTR-RT’s werden gevonden op de niet-verankerde scaffolds. Met behulp van dezelfde methode 6, een totaal van 13.318 intacte LTR-RTs werden geannoteerd in v3.0. Er waren echter slechts 4129 en 801 intacte LTR-RTs in v2.5 en v1.5, respectievelijk6. Verdere analyse toonde aan dat slechts 18,19% van de intacte LTR-RT’s (2423 van 13.318) zich op de tien chromosomen bevonden, terwijl de meeste (81,81%, 10.895 van 13.318) intacte LTR-RT’s werden gevonden op de niet-verankerde steigers in v3.0. De insertietijd van intacte LTR-RT’s werd berekend zoals eerder beschreven4, waaruit bleek dat het B. rapa genoom drie golven van LTR-RT uitbreiding onderging sinds het uit B. oleracea divergeerde (Fig. 3). Deze intacte LTR-RTs hadden een gemiddelde insertieleeftijd van 1,88 miljoen jaar geleden (MYA), met een mediane insertieleeftijd van 1,59 MYA. Bovendien vonden we meer intacte LTR-RTs met verschillende lengtes in v3.0 vergeleken met in v2.5 en v1.5 (Supplementary Figure S6).

Met deze intacte LTR-RTs, werd een nieuwe LTR-RT expansie gebeurtenis geïdentificeerd in het B. rapa genoom. We hebben 3155 intacte LTR-RT insertiegebeurtenissen van 0 MYA tot 0,4 MYA aangemerkt als een “jonge uitbreiding” met een gemiddelde lengte van 8135 bp en een gemiddelde insertiedatum van 0,2 MYA; 2283 intacte LTR-RT insertiegebeurtenissen van 1,0 MYA tot 1,4 MYA als een “middelgrote uitbreiding” met een gemiddelde lengte van 11.902 bp en een gemiddelde insertiedatum van 1,2 MYA; en 1444 intacte LTR-RT insertiegebeurtenissen van 3 MYA tot 3,4 MYA als een “jonge uitbreiding” met een gemiddelde lengte van 8135 bp en een gemiddelde insertiedatum van 0,2 MYA.0 MYA tot 3,4 MYA als een “oude expansie” met een gemiddelde lengte van 9823 bp en insertiedatum (Fig. 3).De jonge en oude expansies komen nauw overeen met de eerder geïdentificeerde expansiegebeurtenissen; de middelgrote expansie werd voor het eerst geïdentificeerd in het B. rapa genoom en heeft een vergelijkbare insertietijd als die van de intacte LTR-RT expansiegebeurtenis in B. oleracea. Bovendien werden in v3.0 1778 Ty1/Copia-achtige LTR-RT’s en 4179 Ty3/Gypsy-achtige LTR-RT’s geïdentificeerd, wat veel meer is dan in de vorige assemblages (353 Ty1/Copia en 632 Ty3/Gypsy in v2.5, 260 Ty1/Copia en 162 Ty3/Gypsy in v1.5) (aanvullende tabel S20; aanvullende figuur S7, S8). In het algemeen waren er meer Ty3/Gypsy-achtige LTR-RT’s dan Ty1/Copia-achtige LTR-RT’s (Supplementary Table S20). Vergeleken met v2.5 en v1.5 waren Ty3/Gypsy-achtige LTR-RT’s in v3.0 duidelijk toegenomen sinds 5 MYA (supplementaire figuur S7), terwijl Ty1/Copia-achtige LTR-RT’s waren toegenomen sinds 2,2 MYA (supplementaire figuur S8). Uit de fylogenetische bomen bleek dat elke groep LTR-RT’s meer kopieën had in v3.0 dan in v2.5 en v1.5 (Supplementary Table S21, S22; Supplementary Figure S9, S10).

Fig. 3

Het aantal intacte LTR-RT’s dat op verschillende tijdstippen (miljoen jaar geleden, MYA) is ontstaan in de drie assemblages van hetB. rapa-genoom en in het genoom vanB. oleracea.

Genoomblokken en centromeren in het B. rapa-genoom

We onderzochten de relaties van genoomblokken met behulp van de bijgewerkte assemblage v3.0. Om de genoom-blokken en centromeren in het B. rapa genoom v3.0 te definiëren, construeerden we eerst de drie subgenomen (LF, MF1, en MF2) op basis van de syntenische relatie tussen v3.0 en A. thaliana (Supplementary Figuur S11; Supplementary Tabel S14). We ontdekten 71 van de 72 (3 × 24) verwachte genomic blokken in v3.0, en de meeste van hen waren gerangschikt in lijn met die eerder gerapporteerd in ref.10 (Fig. 4; Supplementary Table S15). In v3.0, de twee nieuwe gefragmenteerd genoom blokken F (LF) en F (MF1) werden geïdentificeerd op chromosomen A01 en A05 en werden niet waargenomen in ref.10. We konden twee eerder beschreven, zeer kleine genoom blokken niet detecteren in v3.0, blok C (MF2) op chromosoom A07 en blok B (MF1) op chromosoom A08 (ref.10). In onze assemblage waren de genoomblokken N/M (MF1), O/P (LF), en A/C(LF) echter gerangschikt op respectievelijk de chromosomen A01, A09, en A10, terwijl zij in ref.10 aan tegenovergestelde zijden waren gerangschikt. De drie kleine aangrenzende genoomblokken (S (MF2), T (MF2), en B (MF1)) op chromosoom A08 van v3.0 waren gerangschikt als S/T/B, terwijl deze in ref.10 waren gerangschikt als T/B/S.

Fig. 4: Verdeling van genoomblokken over tien chromosomen van het B. rapa-genoom v3.0.

Genoomblokken op tien chromosomen werden toegewezen aan de subgenomen LF (rood), MF1 (groen), en MF2 (blauw). Twee of meer segmenten van eenzelfde blok werden gelabeld met kleine letters (a, b, enz.). De centromeren in het B. rapa genoom zijn weergegeven als zwarte ovalen, en de paleocentromeren zijn weergegeven als grijze driehoeken. Naar beneden gerichte pijlen grenzen aan GB’s die omgekeerd zijn ten opzichte van andere blokken die afkomstig zijn van een enkel ACK-chromosoom

We vergeleken ook de oriëntatie van genoomblokken in v3.0 met die in ref.10. De genoomblokken W (MF2) op chromosoom A02, evenals G (LF) en E (LF) op chromosoom A07, bleken geïnverteerd te zijn ten opzichte van de andere blokken die van een enkel ACK-chromosoom afkomstig waren. De oriëntatie van genoomblok P (LF) op chromosoom A09 en drie blokken van V in v3.0 waren echter in voorwaartse richting, terwijl deze in ref.10 omgekeerd waren. Deze resultaten werden verder ondersteund door de genetische kaarten van v3.0 en v1.5, respectievelijk.

Wij bepaalden nauwkeurig de locatie van de centromeren van alle chromosomen in v3.0. Door screening van eerder bepaalde centromerische herhaling sequenties, met inbegrip van centromerische satelliet herhalingen CentBr, CRB, TR238, en PCRBr21,22,23, identificeerden we de signalen voor alle 21 paleocentromeric regio’s in v3.0, terwijl drie paleocentromeric regio’s niet werden gedetecteerd in ref.10 (Fig. 4, Supplementary Table S16). Paleocentromeeranalyse gaf aan dat de tien nog bestaande centromeren van B. rapa allemaal erfden van de 21 paleocentromeren. In v3.0, de centromeren van chromosomen A01, A03, A04, A05, A06, A07, en A10 had dezelfde bijbehorende genoom blokken flankeren de overeenkomstige centromeren zoals gerapporteerd in ref.10 (Fig. 4). Echter, het centromeer op chromosoom A02 was gelegen tussen de genoom-blokken P (MF2) en V (MF1), en het centromeer op chromosoom A09 was gelegen tussen de genoom-blokken P (LF) en B (LF), terwijl deze werden beschouwd als paleocentromeren in ref.10 (Fig. 4). Het centromeer op chromosoom A08 bevond zich tussen de genoom-blokken T (MF2) en B (MF1), in plaats van tussen de genoom-blokken C (MF1) en T (MF2), zoals gerapporteerd in ref.10. Bovendien werden er 1188 genen gedetecteerd binnen centromerische regio’s in v3.0, terwijl slechts 740 genen werden gedetecteerd in ref.10 (aanvullende tabel S17).

Om onze assemblage met betrekking tot de centromeren in v3.0 te beoordelen, analyseerden we de sequentiekenmerken van de centromerische regio’s. We vonden dat een aanzienlijk hoger aantal TE’s en centromeer-specifieke herhalingen in kaart werden gebracht op de centromere regio’s dan op andere delen van de chromosomen, en de gendichtheid en recombinatiegraad waren duidelijk lager op de centromere regio’s die in v3.0 werden geannoteerd (Fig. 5). Bovendien werden meer centromeer-specifieke herhalingen gedetecteerd op de centromeer regio’s in v3.0 in vergelijking met die gerapporteerd in ref.10 (Supplementary Table S17).

Fig. 5: Circos plot van de kenmerken van centromeer regio’s op de tien chromosomen in B. rapa genoom v3.0.

Alle gegevens worden weergegeven als heatmaps. De rode kleur duidt op lage waarden, en de blauwe kleur op hoge waarden. a De tien chromosomen van het B. rapa genoom v3.0. Centromeren worden weergegeven als zwarte blokken. b TE dichtheid over de tien chromosomen van v3.0 (500 kb schuifraam, 100 kb stap). c Verdeling van centromeer-specifieke herhalingen langs de tien chromosomen van v3.0 (2 Mb schuifraam, 1 Mb stap). d Gen dichtheid van de tien chromosomen van v3.0 (2 Mb glijdend venster, 1 Mb stap). e De gemiddelde lokale recombinatie tussen markers langs de tien chromosomen van v3.0 (5 Mb glijdend venster, 1 Mb stap)