Javított Brassica rapa referencia genom egymolekulás szekvenálással és kromoszóma konformáció rögzítési technológiákkal
Genom összeállítás
A genom összeállításához a B. rapa genom méretét áramlási citometriával becsültük meg a rizs mint referencia segítségével. Kezdetben úgy becsültük, hogy a B. rapa genomjának mérete 455 Mb (Kiegészítő S1 táblázat). A BioNano adatai alapján generált konszenzustérkép teljes hosszára vonatkozó számításokat tartalmazó további vizsgálat 442,9 Mb-os genomméretet jelzett (S2. kiegészítő táblázat). Mindkét becslés kisebb volt a korábban közölt 52915 vagy 485 Mb2 méretnél.
A B. rapa genomot a PacBio szekvenálási részfutamok ~57-szeres lefedettségének felhasználásával állítottuk össze (~25.88 Gb), a BioNano adatok ~456-szoros lefedettségét (~207,70 Gb) és a Hi-C olvasatok ~164-szeres lefedettségét (~74,64 Gb).Az így kapott összeállítás 1476 kontigból állt, a kontig N50 1,45 Mb és a teljes hossz 351,06 Mb volt (1. táblázat). Ezt követően a Hi-C leolvasások segítségével 22 kontigon belül észleltünk eltéréseket (S4. kiegészítő táblázat). Ahelyett, hogy eltávolítottuk volna ezeket a kontigokat, a konfliktusos régióknál felosztottuk őket; példaként a Contig01464 adatait mutatjuk be (Kiegészítő S1 ábra).
A BioNano-térképek és a páros olvasatok (a BRAD-ból, http://brassicadb.org) segítségével végzett állványozás és a résméretek becslése után 1301 állványt kaptunk, amelyek állvány N50 értéke 4,44 Mb volt (1. táblázat). Az így kapott állványok kromoszómális pozícióikhoz való hozzárendeléséhez ezeket az állványokat a Hi-C adatok és a javított genetikai térkép segítségével lehorgonyoztuk (lásd Módszerek). Tíz kromoszómán 298,19 Mb szekvenciát horgonyoztunk le, amely 200, a Hi-C adatok alapján klaszterezett állványzatot és 8, a genetikai térkép által kijelölt állványzatot tartalmazott. A végső összeállításunk, amelyet B. rapa genom v3.0-nak neveztünk el, összesen 353,14 Mb szekvenciát tartalmazott 396 réssel (2,08 Mb) (1. táblázat). A B. rapa genom v3.0 hosszabb, mint a v1.5, de rövidebb, mint a v2.5.
A B. rapa genom v3.0 minőségének értékeléséhez különböző adatforrásokat használtunk. Először is az összeállításunk teljességét validáltuk a CEGMA16 segítségével a core eukarióta gének (CEG) keresésével. A 248 CEG-ből összesen 247 volt teljes, 1 CEG pedig részleges, ami azt jelzi, hogy az összes CEG kimutatható volt az összeállításunkban (Supplementary Table S6). Ezután a genom minőségét a B. rapa kifejezett szekvenciacímkék (EST-ek) szekvenciáinak egyeztetésével teszteltük (az NCBI-ből a dbEST-ből letöltve), ami azt mutatta, hogy az EST-ek 99,34%-a megtalálható volt az újonnan összeállított B. rapa genom v3.0-ban.
Kontiguitás javítása
A B. rapa genom v3.0-ban javult a kontiguitás a hiányok és a kontigméretek tekintetében. A B. rapa genom v1.5 Illumina szekvenciákból készült, míg az assembly v2.5 esetében több Illumina olvasatot és viszonylag kevés PacBio szekvenciaadatot használtak. E két összeállításnak vannak korlátai a fragmentáltság és az alacsony kontiguitás miatt (1. táblázat). Az egymolekulás szekvenálás, az optikai térképezés és a Hi-C technológia kombinálásával a B. rapa genom v3.0 ~27-szeres (contig N50: 1446 Kb vs. 53 Kb, v2.5) és ~31-szeres (contig N50: 1446 Kb vs. 46 Kb, v1.5) javulást jelent a két korábbi összeállításhoz képest (1. táblázat).Az egyes összeállításokban a hiányosságok méretét és mennyiségét is felmértük. A v3.0-ban mindössze 396 hézag volt, beleértve az ismert (122 a BioNano és 74 a párkapcsolati adatokból származó) és ismeretlen méretű hézagokat (190 a Hi-C scaffold-összekötésből és 10 a genetikai térkép összekötéséből származó). A korábbi összeállításokhoz képest a v3.0-ban ~10-szeres (5,89 Kb vs. 60,59 Kb, v2.5) és ~7-szeres (5,89 Kb vs. 40,09 Kb, v1.5) javulás tapasztalható az Mb-onkénti hézagok méretében a két korábbi összeállításhoz képest (1. táblázat). A Mb-onkénti hézagok számát tekintve a v3.0 jobb, mint a v2.5 és v1.5, illetve ~23-szor (1,15 vs. 25,98, v2.5) és ~35-ször (1,15 vs. 40,09, v1.5) kevesebb Mb-onkénti hézaggal (1. táblázat).
Az összefüggés és az állványrendezés pontosságának értékeléséhez a B. rapa referencia genomjának vizsgálatához először rekonstruáltuk a genetikai térképeket a három összeállítás alapján, felhasználva két fejes kínai káposzta vonal keresztezéséből származó duplázott haploid (DH) populáció azonos reszekvenálási adatait17. Ezután felmértük a binmarkerek helyét a genetikai térképeken a megfelelő fizikai térképekkel való integrálással. Az összeállításunkban szereplő 892 binmarker közül 877 binmarkert (98,3%) térképeztünk fel a genetikai térképen. Összeállításunk 801 binmarker (91,3%) esetében egyezett meg a genetikai térképpel, ami a v3.0 magas minőségét jelzi (1. ábra; S7. kiegészítő táblázat). Megfigyeltük azonban, hogy az A05, A08 és A09 kromoszómákon 76 (8,7%) binmarkert nem egyértelmű helyekre térképeztünk le a genetikai térképen. Ezek a régiók ismétlődő szekvenciákat tartalmaztak, különösen a centromerikus régiókban, amint azt a következő elemzésben leírtuk. Ezeket az ellentmondásos régiókat azonban a PacBio leolvasások és/vagy a BioNano térképek lefedték; példaként az A08 kromoszóma v3.0 adatai láthatók (S2. kiegészítő ábra).
A v2.5 genetikai térképen 1092 binmarker, a v1.5 genetikai térképen 866 binmarker volt. A binmarkereknek azonban csak 88,7%-át (1092-ből 969), illetve 92,3%-át (866-ból 799) tudtuk leképezni a v2.5 és a v1.5 genetikai térképére (Supplementary Table S7). Azt találtuk, hogy a v2.5-ben a binmarkerek 15,1%-a (166 a 969-ből) nem volt összhangban, beleértve 146 binmarkert, amelyek genetikai és fizikai távolsága nem volt összhangban ugyanazon a kromoszómán belül (intrakromoszómás) és 20 binmarkert, amelyek genetikai és fizikai távolsága nem volt összhangban a különböző kromoszómákon (interkromoszómás) (S3. kiegészítő ábra; S7. kiegészítő táblázat). A v1.5 esetében a binmarkerek 10,0%-a (799-ből 80) volt ellentmondásos, beleértve 71 intrakromoszómás és 9 interkromoszómás binmarkert (S4. kiegészítő ábra; S7. kiegészítő táblázat). Ugyanakkor a v3.0 tartalmazta a legkevesebb ellentmondásos intrakromoszómális binmarkert (8,7%, 877 binmarkerből 76), és nem volt ellentmondásos interkromoszómális binmarker (Kiegészítő táblázat S7), ami azt jelzi, hogy a B. rapa genom v3.0 nagyobb egybefüggőséggel rendelkezik, mint a két korábbi összeállítás. Ezek a független validálások együttesen azt sugallják, hogy a B. rapa genom v3.0 rendelkezik a legmagasabb kontiguitással és a legjobb sorrenddel a scaffoldok tekintetében a három B. rapa-összeállítás közül.
A genom annotációjának összehasonlítása
A génmodelleket a korábban leírtak szerint jósoltuk és annotáltuk6. A v3.0-ban összesen 45 985 fehérjekódoló génmodellt azonosítottunk, ami a genom-összeállítás 14,74%-át jelentette (1. táblázat). Összeállításunkban a gének 98,75%-a (45.985-ből 45.411) kromoszómákon volt annotálva, és csak 1,25% (45.985-ből 574) helyezkedett el scaffoldokon. A v3.0-ban a de novo annotált géneket a Brassica referencia genomokra vonatkozó génmodell-nómenklatúra szabványát követve neveztük el (http://www.brassica.info/info/genome_annotation.php). A génmodellek száma az új összeállításban magasabb, mint a v1.5-ben (41 020 gén), de alacsonyabb, mint a v2.5-ben (48 826 gén) (1. táblázat). Az annotáció minőségének további értékeléséhez összehasonlítást végeztünk a korábbi összeállítások annotációjával a BUSCO18 segítségével, amely egy 1440 konzervált növényi gént tartalmazó benchmarkon alapul. Ezeknek a konzervált növényi géneknek körülbelül 97,7%-át azonosították, és 1,7%-át a v3.0-ban bemutatott fragmentumokként detektálták (Supplementary TableS11).
A három összeállítás között a SynOrths19 segítségével genomszinténia-elemzést végeztünk a szinténikus génpárok és a tandem géntömbök azonosítására. A v3.0-ban összesen 2077 tandemtömböt azonosítottak (amelyek 4963 tandem génnek felelnek meg). A v1.5 változatban is ugyanennyi tandemtömböt (2077 tömböt, amelyek 5004 génnek felelnek meg) észleltünk. Az egész genomra kiterjedő szintenia értékelése azt mutatta, hogy a v3.0-ban 1539 tandemraszter (3757 génnek megfelelően) szintenikus volt a v1.5-ben található 1494 tandemraszterrel (3670 génnek megfelelően). A v2.5-ben azonban több tandemtömböt (3535 tömb, 8002 gén) azonosítottak (1. táblázat). A v2.5-ben hézagokat észleltünk a felesleges tandemgének régióiban, míg sem a 3.0-ban, sem a v1.5-ben nem találtunk hézagokat (2a. ábra). Ezek a hézagok a v2.5-ben a PacBio olvasatokkal történő hézagzárás során keletkezett összeszerelési hibák eredményei lehetnek, ami viszont a tandemgének érvénytelen annotációjához vezetett. Más, hézagok nélküli tandemgének esetében megfigyeltük, hogy a v3.0-ban és a v1.5-ben egyetlen gént két vagy több génként annotáltak a v2.5-ben (2b. ábra).
Mikor minden tandemtömböt egyetlen génlókusznak tekintettünk, a v3.0-ban 43 099 gén maradt, a v2.5-ben 44 359 gén, a v1.5-ben pedig 38 093 gén (1. táblázat). Ezután elvégeztük a génszintenia-elemzést, amely kimutatta, hogy a v3.0-ban 39 858 gén (92,48%) szolgált a v2.5-ben 40 442 (91,17%) és a v1.5-ben 35 464 gén (93,10%) megfelelőjeként. Az annotált géneknek a korai verziókéval való összehasonlítása után 3241 verzió-specifikus gént azonosítottunk a v3.0-ban a v2.5 és a v1.5 változatokhoz képest. Ezek közül 2380 gént a B. rapa (BRAD, http://brassicadb.org/) megfelelő mRNS-olvasataiból származó bizonyítékkal támasztottak alá, 2295 gént pedig más Brassicaceae-fajok fehérjeszekvenciái (Supplementary Table S12). Összességében a v3.0 verzió-specifikus gének 89,10%-át (3214-ből 2888) támogatták a B. rapa mRNS-adatai vagy más Brassicaceae fajok fehérjeszekvenciái, míg a gének mindössze 10,90%-át (3214-ből 326) nem támogatták.
A frissített összeállításban azonosított új LTR-RT-expanziós esemény
A v3.0-ban a TE-ket a korábban ismertetett módszerekkel20 annotáltuk. A v3.0-ban összesen 235 683 TE-t azonosítottunk 1244 családból, és 562 egyedi TE családot találtunk a v2.5 és v1.5 változathoz képest. A v3.0-ban a TE-k az összeszerelt genom 37,51%-át (134 Mb) teszik ki, ami magasabb, mint a korábbi összeszereléseknél (32,30%, 126 Mb, v2.5; 25,44%, 72 Mb, v1.5)2,6 . Az új összeállításunkban a leggyakoribb TE-k az LTR-RT, amely összesen 57,64 Mb hosszúságú, és az összeállított genom 16,32%-át teszi ki. A nem LTR-RT ismétlődések (LINE-ok és SINE-ok) az összeállításunk 3,10%-át teszik ki (S5. kiegészítő ábra). A 26,35 Mb-nak megfelelő DNS-transzpozonokat észleltünk, amelyek az összeszerelt genom összeszerelésének 7,46%-át teszik ki (Kiegészítő ábra S5). A v3.0-ban azonosított TE-k és ismétlődések teljes listája a Kiegészítő S13 táblázatban található. Ezenkívül összesen 1231 miRNS-t, 1281 tRNS-t, 2865 rRNS-t és 3737 snRNS-t azonosítottunk a B. rapa v3.0 genomban (Supplementary Table S19).
A jelenlegi összeállításunkban több LTR-RT-t (57 Mb) annotáltunk a v2.5 (44 Mb) és v1.5 (18 Mb) összeállításokhoz képest. A v3.0-ban 51 062 nem érintetlen LTR-RT-t azonosítottunk. További elemzés kimutatta, hogy a nem érintetlen LTR-ek 65,27%-a (51.602-ből 33.672) a tíz kromoszómán helyezkedett el, míg a nem érintetlen LTR-RT-k 34,73%-a (51.602-ből 17.922) a nem lehorgonyzott állványzaton található. Ugyanezzel a módszerrel6 összesen 13 318 intakt LTR-RT-t jegyzeteltek a v3.0-ban. A v2.5-ben és a v1.5-ben azonban csak 4129, illetve 801 intakt LTR-RT volt6. További elemzés kimutatta, hogy az intakt LTR-RT-knek csak 18,19%-a (13 318-ból 2423) található a tíz kromoszómán, míg a v3-ban az intakt LTR-RT-k többsége (81,81%, 13 318-ból 10 895) a nem lehorgonyzott állványzaton található.0. Az intakt LTR-RT-k beillesztési idejét a korábban leírt módon4 számoltuk ki, ami azt mutatta, hogy a B. rapa genom a B. oleraceától való eltérése óta három hullámban ment át az LTR-RT-k bővülésén (3. ábra). Ezeknek az ép LTR-RT-knek az átlagos beillesztési kora 1,88 millió évvel ezelőtt (MYA) volt, a medián beillesztési kor pedig 1,59 MYA. Továbbá több különböző hosszúságú intakt LTR-RT-t találtunk a v3.0-ban, mint a v2.5-ben és a v1.5-ben (S6. kiegészítő ábra).
Ezekkel az intakt LTR-RT-kkel egy új LTR-RT-expanziós eseményt azonosítottunk a B. rapa genomban. A 0 MYA és 0,4 MYA közötti 3155 intakt LTR-RT beillesztési eseményt “fiatal expanziónak” neveztük, amelynek átlagos hossza 8135 bp és átlagos beillesztési időpontja 0,2 MYA; az 1,0 MYA és 1,4 MYA közötti 2283 intakt LTR-RT beillesztési eseményt “közepes expanziónak” neveztük, amelynek átlagos hossza 11 902 bp és átlagos beillesztési időpontja 1,2 MYA; és az 1444 intakt LTR-RT beillesztési eseményt 3.0 MYA és 3,4 MYA között, mint “ősi expanzió”, 9823 bp átlagos hosszúsággal és beillesztési időponttal (3. ábra).A fiatal és az ősi expanziók szorosan megfelelnek a korábban azonosított expanziós eseményeknek; a közepes expanziót először a B. rapa genomban azonosították, és hasonló beillesztési időponttal rendelkezik, mint a B. oleracea intakt LTR-RT expanziós eseménye. Továbbá 1778 Ty1/Copia-szerű LTR-RT-t és 4179 Ty3/Gypsy-szerű LTR-RT-t azonosítottak a v3.0-ban, ami jóval több, mint a korábbi összeállításokban azonosítottak (353 Ty1/Copia és 632 Ty3/Gypsy a v2.5-ben, 260 Ty1/Copia és 162 Ty3/Gypsy a v1.5-ben) (S20 kiegészítő táblázat; S7, S8 kiegészítő ábra). Általában több Ty3/Gypsy-szerű LTR-RT volt, mint Ty1/Copia-szerű LTR-RT (S20 kiegészítő táblázat). A v2.5-ös és v1.5-ös változathoz képest a Ty3/Gypsy-szerű LTR-RT-k a v3.0-ban egyértelműen megnövekedtek 5 MYA óta (S7. kiegészítő ábra), míg a Ty1/Copia-szerű LTR-RT-k 2,2 MYA óta (S8. kiegészítő ábra). A filogenetikai fákból megállapítottuk, hogy az LTR-RT-k mindegyik csoportja több másolatot tartalmazott a v3.0-ban, mint a v2.5-ben és a v1.5-ben (Kiegészítő táblázat S21, S22; Kiegészítő ábra S9, S10).
Genomblokkok és centromerek a B. rapa genomban
Vizsgáltuk a genomblokkok kapcsolatait a frissített v3.0 összeállítás segítségével. A genomblokkok és centromerek meghatározásához a B. rapa v3.0 genomban először a v3.0 és az A. thaliana közötti szingenikus kapcsolat alapján konstruáltuk a három algenomot (LF, MF1 és MF2) (S11. kiegészítő ábra; S14. kiegészítő táblázat). A v3.0-ban a 72 (3 × 24) várt genomikus blokkból 71-et detektáltunk, és ezek többsége összhangban volt a korábban a 10. hivatkozásban közöltekkel (4. ábra; S15 kiegészítő táblázat). A v3.0-ban az A01 és A05 kromoszómákon azonosítottuk az F (LF) és F (MF1) két új fragmentált genomblokkot, amelyeket a ref.10-ben nem figyeltünk meg. A v3.0-ban nem tudtunk kimutatni két korábban leírt, nagyon kicsi genomblokkot, a C blokkot (MF2) az A07 kromoszómán és a B blokkot (MF1) az A08 kromoszómán (ref.10). A mi összeállításunkban azonban az N/M (MF1), O/P (LF) és A/C(LF) genom blokkok az A01, A09 és A10 kromoszómákon helyezkedtek el, míg a ref.10-ben ellentétes oldalra rendeződtek.A v3.0 A08 kromoszómán lévő három kis szomszédos genom blokk (S (MF2), T(MF2) és B(MF1)) S/T/B elrendezésű volt, míg a ref.10-ben T/B/S elrendezésűek voltak..
A v3.0-ban található genomblokkok orientációját is összehasonlítottuk a ref.10-ben találhatóval. Az A02 kromoszómán található W (MF2), valamint az A07 kromoszómán található G (LF) és E (LF) genomblokkokat fordítottnak találtuk a többi, egyetlen ACK kromoszómából származó blokkhoz képest. Ugyanakkor az A09 kromoszómán lévő P (LF) genomblokk és három V blokk orientációja a v3.0-ban előrefelé irányult, míg ezek a ref.10-ben inverzek voltak. Ezeket az eredményeket a v3.0 és a v1.5 genetikai térképei is alátámasztották.
A v3.0-ban pontosan meghatároztuk az összes kromoszóma centromerének helyét. A korábban meghatározott centromerikus ismétlődő szekvenciák, köztük a centromerikus szatellit ismétlődések CentBr, CRB, TR238 és PCRBr21,22,23 szűrésével azonosítottuk mind a 21 paleocentromerikus régió jeleit a v3.0-ban, míg a ref.10-ben három paleocentromerikus régiót nem detektáltunk (4. ábra, S16 kiegészítő táblázat). A paleocentroméra-elemzés azt mutatta, hogy a tíz létező B. rapa centroméra mindegyike a 21 paleocentroméra öröklődött. A v3.0-ban az A01, A03, A04, A05, A06, A07 és A10 kromoszómák centromérai ugyanazokkal a kapcsolódó genomblokkokkal rendelkeztek, amelyek a megfelelő centromereket flankálták, mint a ref.10-ben (4. ábra). Az A02 kromoszóma centromere azonban a P (MF2) és V (MF1) genomblokkok között, az A09 kromoszóma centromere pedig a P (LF) és B (LF) genomblokkok között helyezkedett el, míg ezeket a 10. hivatkozásban paleocentromereknek tekintették (4. ábra). Az A08 kromoszómán a centromér a T (MF2) és a B (MF1) genomblokkok között helyezkedett el, nem pedig a C (MF1) és a T (MF2) genomblokkok között, ahogyan a 10. hivatkozásban szerepel. Továbbá, a v3.0-ban 1188 gént detektáltunk a centromerikus régiókban, míg a ref.10-ben csak 740 gént (Supplementary Table S17).
A v3.0-ban a centromerek tekintetében végzett összeállításunk értékeléséhez elemeztük a centromerikus régiók szekvenciajellemzőit. Azt találtuk, hogy a centromerikus régiókra szignifikánsan több TE-t és centromer-specifikus ismétlődést térképeztünk fel, mint a kromoszómák más részeire, és a v3.0-ban annotált centromerikus régiókban a génsűrűség és a rekombinációs ráta jelentősen alacsonyabb volt (5. ábra). Ezenkívül a v3.0-ban több centromer-specifikus ismétlődést detektáltak a centromerikus régiókban, mint a ref.10-ben közöltek (Supplementary Table S17).