Vylepšený referenční genom Brassica rapa pomocí technologií sekvenování jedné molekuly a zachycení konformace chromozomů

Sestavení genomu

Pro sestavení genomu jsme odhadli velikost genomu B. rapa pomocí průtokové cytometrie s použitím rýže jako reference. Původně jsme odhadli, že genom B. rapa má velikost 455 Mb (doplňková tabulka S1). Další šetření zahrnující výpočty celkové délky konsenzuální mapy vytvořené na základě údajů BioNano ukázalo velikost genomu 442,9 Mb (doplňková tabulka S2). Oba odhady byly menší než dříve uváděná velikost 52915 nebo 485 Mb2.

Genom B. rapa jsme sestavili pomocí ~57násobného pokrytí dílčích sekvenátorů PacBio (~25.88 Gb), ~456násobného pokrytí dat BioNano (~207,70 Gb) a ~164násobného pokrytí čtení Hi-C (~74,64 Gb). výsledná sestava se skládala z 1476 kontigů s kontigem N50 1,45 Mb a celkovou délkou 351,06 Mb (tabulka 1). Následně jsme pomocí čtení Hi-C zjistili nesrovnalosti v rámci 22 kontigů (doplňková tabulka S4). Místo odstranění těchto kontigů jsme je rozdělili v konfliktních oblastech; jako příklad jsou uvedena data pro kontig01464 (doplňkový obrázek S1).

Tabulka 1 Souhrn porovnání sestavení a anotace pro tři B. rapa genomu

Po sestavení scaffoldů a odhadu velikosti mezer pomocí map BioNano a čtení mate-pair (z BRAD, http://brassicadb.org) jsme získali 1301 scaffoldů s N50 4,44 Mb (tabulka 1). Abychom výsledné scaffoldy přiřadili k jejich chromozomálním pozicím, ukotvili jsme tyto scaffoldy pomocí dat Hi-C a vylepšené genetické mapy (viz Metody). Ukotvili jsme 298,19 Mb sekvence na deseti chromozomech, které zahrnovaly 200 scaffoldů seskupených podle dat Hi-C a 8 scaffoldů přiřazených podle genetické mapy. Naše konečná sestava, označovaná jako genom B. rapa v3.0, obsahovala celkem 353,14 Mb sekvence s 396 mezerami (2,08 Mb) (tabulka 1). Genom B. rapa v3.0 je delší než v1.5, ale kratší než v2.5.

K posouzení kvality genomu B. rapa v3.0 jsme použili různé zdroje dat. Nejprve jsme ověřili úplnost naší sestavy vyhledáním základních eukaryotických genů (CEG) pomocí programu CEGMA16. Celkem 247 z 248 CEG bylo kompletních a 1 CEG byl částečný, což znamená, že všechny CEG lze v naší sestavě detekovat (doplňková tabulka S6). Dále byla kvalita genomu testována porovnáním sekvencí značek exprimovaných sekvencí (EST) B. rapa (stažených z dbEST v NCBI), což ukázalo, že 99,34 % EST lze nalézt v nově sestaveném genomu B. rapa v3.0.

Zlepšení kontiguity

Genom B. rapa v3.0 má zlepšenou kontiguitu z hlediska mezer a velikosti kontigů. Genom B. rapa v1.5 byl vytvořen ze sekvencí Illumina, zatímco pro sestavení v2.5 bylo použito více čtení Illumina a relativně malé množství sekvenačních dat PacBio. Tato dvě sestavení mají omezení kvůli své fragmentaci a nízké kontiguitě (tabulka 1). Kombinací jednomolekulového sekvenování, optického mapování a technologie Hi-C představuje genom B. rapa v3.0 ~27násobné (kontig N50: 1446 Kb vs. 53 Kb, v2.5) a ~31násobné (kontig N50: 1446 Kb vs. 46 Kb, v1.5) zlepšení kontiguity oproti dvěma předchozím sestavám (tabulka 1). hodnotili jsme také velikost a množství mezer v každé příslušné sestavě. V sestavě v3.0 bylo pouze 396 mezer, včetně mezer známé (122 z dat BioNano a 74 z dat mate-pair) a neznámé velikosti (190 ze spojování lešení Hi-C a 10 ze spojování genetických map). Ve srovnání s předchozími sestavami má verze v3.0 ~10násobné (5,89 Kb vs. 60,59 Kb, v2.5) a ~7násobné (5,89 Kb vs. 40,09 Kb, v1.5) zlepšení velikosti mezer na Mb oproti dvěma předchozím sestavám (tabulka 1). Z hlediska počtu mezer na Mb je verze v3.0 lepší než verze v2.5, resp. v1.5, s ~23násobně (1,15 vs. 25,98, v2.5) a ~35násobně (1,15 vs. 40,09, v1.5) menším počtem mezer na Mb (tab. 1).

K posouzení souslednosti a přesnosti uspořádání lešení tří verzí B. rapa referenčního genomu jsme nejprve rekonstruovali genetické mapy založené na třech sestavách s použitím stejného souboru dat resekvenace zdvojené haploidní (DH) populace odvozené z křížení dvou linií hlávkového čínského zelí17. Poté jsme vyhodnotili umístění binmarkerů na genetických mapách jejich integrací s odpovídajícími fyzickými mapami. Z 892 binmarkerů v naší sestavě bylo 877 binmarkerů (98,3 %) zmapováno v genetické mapě. Naše sestava se shodovala s genetickou mapou u 801 binmarkerů (91,3 %), což svědčí o vysoké kvalitě v3.0 (obr. 1; doplňková tabulka S7). Zaznamenali jsme však, že 76 (8,7 %) binmarkerů na chromozomech A05, A08 a A09 bylo zmapováno na nejednoznačných místech v genetické mapě. Tyto oblasti obsahovaly opakující se sekvence, zejména v centromerických oblastech, jak je popsáno v následující analýze. Tyto konfliktní oblasti však byly pokryty čteními PacBio a/nebo mapami BioNano; jako příklad jsou uvedena data pro chromozom A08 ve verzi v3.0 (doplňkový obrázek S2).

Obr. 1: Integrace fyzické a genetické mapy genomu B. rapa v3.0.

Markery genetické mapy založené na genomu B. rapa v3.0 jsou znázorněny na ose x; markery fyzické mapy B. rapa genomu v3.0 jsou zobrazeny na ose y

Na genetické mapě v2.5 bylo 1092 binmarkerů a na genetické mapě v1.5 866 binmarkerů. Na genetické mapě v2.5 jsme však mohli zmapovat pouze 88,7 % binmarkerů (969 z 1092) a 92,3 % binmarkerů (799 z 866),v tomto pořadí (doplňková tabulka S7). Zjistili jsme, že 15,1 % binmarkerů (166 z 969) ve verzi v2.5 bylo nesourodých, včetně 146 binmarkerů s neuspořádanou genetickou a fyzickou vzdáleností v rámci stejného chromozomu (intrachromozom) a 20 binmarkerů s nesourodou genetickou a fyzickou vzdáleností na různých chromozomech (interchromozom) (doplňkový obrázek S3; doplňková tabulka S7). U verze v1.5 bylo 10,0 % binmarkerů (80 ze 799) nesourodých, z toho 71 binmarkerů na intrachromozomu a 9 binmarkerů na interchromozomu (doplňkový obrázek S4; doplňková tabulka S7). Verze v3.0 však obsahovala nejméně konfliktních intrachromozomálních binmarkerů (8,7 %, 76 z 877 binmarkerů) a žádné diskrepantní interchromozomální binmarkery (Doplňková tabulka S7), což naznačuje, že genom B. rapa v3.0 má vyšší kontigitu než obě předchozí sestavy. Dohromady tato nezávislá ověření naznačují, že genom B. rapa v3.0 má nejvyšší kontiguitu a nejlepší uspořádání scaffoldů mezi třemi sestavami B. rapa.

Srovnání anotace genomu

Předpověděli jsme a anotovali modely genů, jak bylo popsáno dříve6. Ve verzi v3.0 jsme identifikovali celkem 45 985 genových modelů kódujících proteiny, což představovalo 14,74 % sestavy genomu (tabulka 1). V naší sestavě bylo 98,75 % (45 411 z 45 985) genů anotováno na chromozomech a pouze 1,25 % (574 z 45 985) se nacházelo na scaffoldech. De novo anotované geny ve verzi v3.0 byly pojmenovány podle standardu nomenklatury genových modelů pro referenční genomy Brassica (http://www.brassica.info/info/genome_annotation.php). Počet genových modelů v nové sestavě je vyšší než v sestavě v1.5 (41 020 genů), ale nižší než v sestavě v2.5 (48 826 genů) (tabulka 1). Pro další hodnocení kvality anotace bylo provedeno srovnání s anotací předchozích sestav pomocí BUSCO18, která je založena na referenčním souboru 1440 konzervovaných rostlinných genů. Přibližně 97,7 % těchto konzervovaných rostlinných genů bylo identifikováno a 1,7 % bylo zjištěno jako fragmenty prezentované ve verzi v3.0 (Doplňková tabulkaS11).

Analýza syntézy genomu byla provedena mezi třemi sestavami pomocí SynOrths19 k identifikaci syntenických genových párů a tandemových genových polí. Ve verzi v3.0 bylo identifikováno celkem 2077 tandemových polí (odpovídajících 4963 tandemovým genům). Stejný počet tandemových polí (2077 polí odpovídajících 5004 genům) byl zjištěn také ve verzi v1.5. Hodnocení syntézy celého genomu ukázalo, že 1539 tandemových polí (odpovídajících 3757 genům) ve verzi v3.0 bylo syntenických s 1494 tandemovými poli (odpovídajícími 3670 genům) ve verzi v1.5. Ve verzi v2.5 však bylo identifikováno více tandemových polí (3535 polí, 8002 genů) (tabulka 1). Ve verzi v2.5 jsme zjistili mezery v oblastech nadbytečných tandemových genů, zatímco ve verzi 3.0 ani v1.5 jsme žádné mezery nezjistili (obr. 2a). Tyto mezery mohou být důsledkem chyb při sestavování vzniklých při uzavírání mezer pomocí čtení PacBio ve verzi v2.5, což následně vedlo k neplatné anotaci tandemových genů. U ostatních tandemových genů bez mezer jsme pozorovali, že jednotlivé geny ve verzích v3.0 a v1.5 byly ve verzi v2.5 anotovány jako dva nebo více genů (obr. 2b).

Obr. 2: Příklady ukazující neplatnou anotaci tandemových genů ve verzi v2.5.

a Příklad mezery 25 bp (tenký žlutý proužek označený červenou šipkou) mezi geny BraA01000818 a BraA01000819, která ukazuje na neplatnou anotaci v2.5. b Geny BraA02003894 a BraA02003895 ve verzi v2.5 jsou ve verzích v3.0 (BraA02g039730.3C) a v1.5 (Bra020703) anotovány jako jeden gen. Čísla byla vykreslena pomocí GEvo (https://genomevolution.org/coge/GEvo.pl)

Pokud se každé tandemové pole bere jako jeden genový lokus, zbývá 43 099 genů ve verzi v3.0, 44 359 genů ve verzi v2.5 a 38 093 genů ve verzi v1.5 (tabulka 1). Poté jsme provedli analýzu genové syntézy, která odhalila, že 39 858 genů (92,48 %) ve verzi v3.0 sloužilo jako protějšky 40 442 (91,17 %) a 35 464 genů (93,10 %) ve verzích v2.5 a v1.5, v tomto pořadí. Po porovnání anotovaných genů s geny z prvních verzí jsme identifikovali 3241 genů specifických pro verzi v3.0 ve srovnání s verzemi v2.5 i v1.5. Z nich 2380 genů bylo podpořeno důkazy ze shodných čtení mRNA B. rapa (z BRAD, http://brassicadb.org/) a 2295 genů bylo podpořeno proteinovými sekvencemi jiných druhů Brassicaceae (doplňková tabulka S12). Celkem 89,10 % (2888 z 3214) genů specifických pro verzi v3.0 bylo podpořeno údaji o mRNA B. rapa nebo proteinovými sekvencemi jiných druhů Brassicaceae, zatímco pouze 10,90 % (326 z 3214) genů podpořeno nebylo.

Nová událost expanze LTR-RT identifikovaná v aktualizované sestavě

V sestavě v3.0 jsme anotovali TE pomocí stejných metod, jaké byly uvedeny dříve20. Ve verzi v3.0 bylo identifikováno celkem 235 683 TE z 1244 rodin a ve srovnání s verzemi v2.5 a v1.5 bylo nalezeno 562 jedinečných rodin TE. Ve verzi v3.0 představují TE 37,51 % (134 Mb) sestaveného genomu, což je více než v předchozích sestavách (32,30 %, 126 Mb, v2.5; 25,44 %, 72 Mb, v1.5)2,6 . V našem novém sestavení jsou nejhojnějšími TE LTR-RT, které pokrývají celkovou délku 57,64 Mb a představují 16,32 % sestaveného genomu. Opakování jiná než LTR-RT (LINE a SINE) tvoří 3,10 % našeho sestavení (doplňkový obrázek S5). Detekovali jsme DNA transpozony odpovídající 26,35 Mb, které tvoří 7,46 % sestaveného genomu (doplňkový obrázek S5). Kompletní seznam identifikovaných TE a repetic ve verzi v3.0 naleznete v doplňkové tabulce S13. Kromě toho jsme v genomu B. rapa v3.0 identifikovali celkem 1231 miRNA, 1281 tRNA, 2865 rRNA a 3737 snRNA (Doplňková tabulka S19).

V naší aktuální sestavě jsme anotovali více LTR-RT (57 Mb) ve srovnání s v2.5 (44 Mb) a v1.5 (18 Mb). Ve verzi v3.0 jsme identifikovali 51 062 neintaktních LTR-RT. Další analýza odhalila, že 65,27 % (33 672 z 51 602) neintaktních LTR se nacházelo na deseti chromozomech, zatímco 34,73 % (17 922 z 51 602) neintaktních LTR-RT se nacházelo na nezakotvených lešeních. Stejnou metodou6 bylo ve verzi v3.0 anotováno celkem 13 318 intaktních LTR-RT. Ve verzi v2.5 však bylo nalezeno pouze 4129 a ve verzi v1.5 pouze 801 intaktních LTR-RT6. Další analýza ukázala, že pouze 18,19 % intaktních LTR-RT (2423 z 13 318) se nacházelo na deseti chromozomech, zatímco většina (81,81 %, 10 895 z 13 318) intaktních LTR-RT se ve verzi v3 nacházela na nezakotvených lešeních.0. Doba vložení intaktních LTR-RT byla vypočtena podle dříve popsaného postupu4 , který ukázal, že genom B. rapa prošel od doby, kdy se oddělil od B. oleracea, třemi vlnami expanze LTR-RT (obr. 3). Tyto neporušené LTR-RT měly průměrné stáří inzerce 1,88 milionu let (MYA), s mediánem stáří inzerce 1,59 MYA. Kromě toho jsme našli více intaktních LTR-RT s různou délkou ve v3.0 ve srovnání s v2.5 a v1.5 (doplňkový obrázek S6).

S těmito intaktními LTR-RT byla v genomu B. rapa identifikována nová událost expanze LTR-RT. Označili jsme 3155 intaktních událostí vložení LTR-RT od 0 MYA do 0,4 MYA jako „mladou expanzi“ s průměrnou délkou 8135 bp a průměrným datem vložení 0,2 MYA; 2283 intaktních událostí vložení LTR-RT od 1,0 MYA do 1,4 MYA jako „střední expanzi“ s průměrnou délkou 11 902 bp a průměrným datem vložení 1,2 MYA; a 1444 intaktních událostí vložení LTR-RT od 3. MYA do 1,4 MYA.0 MYA až 3,4 MYA jako „starobylá expanze“ s průměrnou délkou 9823 bp a datem vložení (obr. 3). mladá a starobylá expanze přesně odpovídají dříve identifikovaným expanzním událostem; střední expanze byla poprvé identifikována v genomu B. rapa a má podobnou dobu vložení jako intaktní expanzní událost LTR-RT v B. oleracea. Dále bylo ve verzi v3.0 identifikováno 1778 Ty1/Copia-like LTR-RT a 4179 Ty3/Gypsy-like LTR-RT, což je mnohem více než těch, které byly identifikovány v předchozích sestavách (353 Ty1/Copia a 632 Ty3/Gypsy ve verzi v2.5, 260 Ty1/Copia a 162 Ty3/Gypsy ve verzi v1.5) (Doplňková tabulka S20; Doplňkový obrázek S7, S8). Obecně bylo více LTR-RT podobných Ty3/Gypsy než LTR-RT podobných Ty1/Copia (doplňková tabulka S20). Ve srovnání s v2.5 a v1.5 se Ty3/Gypsy-like LTR-RTs ve v3.0 zjevně zvyšovaly od 5 MYA (doplňkový obrázek S7), zatímco Ty1/Copia-like LTR-RTs se zvyšovaly od 2,2 MYA (doplňkový obrázek S8). Z fylogenetických stromů jsme zjistili, že každá skupina LTR-RT měla ve v3.0 více kopií než ve v2.5 a v1.5 (Doplňková tabulka S21, S22; Doplňkový obrázek S9, S10).

Obr. 3

Počet intaktních LTR-RT zrozených v různých dobách (před miliony let, MYA) ve třech sestaváchB. rapa a v genomuB. oleracea.

Bloky genomu a centromery v genomu B. rapa

Zkoumali jsme vztahy bloků genomu pomocí aktualizovaného sestavení v3.0. Abychom definovali bloky genomu a centromery v genomu B. rapa v3.0, nejprve jsme zkonstruovali tři subgenomy (LF, MF1 a MF2) na základě syntenického vztahu mezi v3.0 a A. thaliana (Doplňkový obrázek S11; Doplňková tabulka S14). Ve verzi v3.0 jsme detekovali 71 ze 72 (3 × 24) očekávaných genomických bloků a většina z nich byla uspořádána v souladu s těmi, které byly dříve uvedeny v ref.10 (obr. 4; doplňková tabulka S15). Ve verzi v3.0 byly identifikovány dva nové fragmentované genomové bloky F (LF) a F (MF1) na chromozomech A01 a A05, které nebyly pozorovány v ref.10. Ve verzi v3.0 se nám nepodařilo detekovat dva dříve popsané, velmi malé bloky genomu, blok C (MF2) na chromozomu A07 a blok B (MF1) na chromozomu A08 (ref.10). V našem sestavení však byly genomové bloky N/M (MF1), O/P (LF) a A/C(LF) uspořádány na chromozomech A01, A09 a A10, zatímco v ref.10 byly uspořádány na opačných stranách. tři malé sousední genomové bloky(S (MF2), T(MF2) a B(MF1)) na chromozomu A08 v3.0 byly uspořádány jako S/T/B, zatímco v ref.10 byly uspořádány jako T/B/S..

Obr. 4: Rozložení genomových bloků podél deseti chromozomů genomu B. rapa v3.0.

Genomové bloky na deseti chromozomech byly přiřazeny k subgenomům LF (červeně), MF1 (zeleně) a MF2 (modře). Dva nebo více segmentů jednoho bloku byly označeny pomocí malých písmen (a, b atd.). Centromery v genomu B. rapa jsou zobrazeny jako černé ovály a paleocentromery jako šedé trojúhelníky. Šipky směřující dolů přiléhají k GB, které jsou invertované vzhledem k ostatním blokům, které vznikly z jednoho chromozomu ACK

Srovnávali jsme také orientaci bloků genomu ve verzi v3.0 s orientací v referenci10. Bylo zjištěno, že bloky genomu W (MF2) na chromozomu A02, stejně jako G (LF) a E (LF) na chromozomu A07, jsou invertované vůči ostatním blokům, které vznikly z jednoho chromozomu ACK. Orientace bloku genomu P (LF) na chromozomu A09 a tří bloků V ve verzi v3.0 však byla ve směru dopředu, zatímco v ref.10 byly tyto bloky invertované. Tyto výsledky byly dále podpořeny genetickými mapami v3.0, resp. v1.5.

Přesně jsme určili polohu centromer všech chromozomů ve v3.0.

. Prověřením dříve určených sekvencí centromerických repetic, včetně centromerických satelitních repetic CentBr, CRB, TR238 a PCRBr21,22,23, jsme identifikovali signály pro všech 21 paleocentromerických oblastí v3.0, zatímco tři paleocentromerické oblasti nebyly v ref.10 zjištěny (obr. 4, doplňková tabulka S16). Analýza paleocentromer ukázala, že všech deset existujících centromer B. rapa bylo zděděno z 21 paleocentromer. Ve verzi v3.0 měly centromery chromozomů A01, A03, A04, A05, A06, A07 a A10 stejné přidružené bloky genomu lemující příslušné centromery, jaké byly uvedeny v ref.10 (obr. 4). Centromera na chromozomu A02 se však nacházela mezi genomovými bloky P (MF2) a V (MF1) a centromera na chromozomu A09 se nacházela mezi genomovými bloky P (LF) a B (LF), zatímco v ref.10 byly považovány za paleocentromery (obr. 4). Centromera na chromozomu A08 se nacházela mezi genomovými bloky T (MF2) a B (MF1), nikoliv mezi genomovými bloky C (MF1) a T (MF2), jak je uvedeno v ref.10. Kromě toho bylo v rámci centromerických oblastí v3.0 detekováno 1188 genů, zatímco v ref.10 pouze 740 genů (doplňková tabulka S17).

Pro posouzení naší sestavy s ohledem na centromery v3.0 jsme analyzovali sekvenční vlastnosti centromerických oblastí. Zjistili jsme, že do centromerických oblastí byl mapován výrazně vyšší počet TE a centromericky specifických repetic než do jiných částí chromozomů a že hustota genů a míra rekombinace byly v centromerických oblastech anotovaných v3.0 výrazně nižší (obr. 5). Kromě toho bylo v centromerických oblastech ve verzi v3.0 zjištěno více centromericky specifických opakování ve srovnání s opakováními uvedenými v ref.10 (Doplňková tabulka S17).

Obr. 5: Circos plot vlastností centromerických oblastí na deseti chromozomech v genomu B. rapa v3.0.

Všechna data jsou znázorněna jako heatmapy. Červená barva označuje nízké hodnoty a modrá barva vysoké hodnoty. a Deset chromozomů v genomu B. rapa v3.0. Centromery jsou znázorněny jako černé bloky. b Hustota TE napříč deseti chromozomy v3.0 (500 kb posuvné okno, krok 100 kb). c Rozložení centromerně specifických opakování podél deseti chromozomů v3.0 (2 Mb posuvné okno, krok 1 Mb). d Hustota genů na deseti chromozomech v3.0 (2 Mb posuvné okno, krok 1 Mb). e Průměrná míra lokální rekombinace mezi markery podél deseti chromozomů v3.0 (5 Mb posuvné okno, krok 1 Mb)

.