Parannettu Brassica rapa -referenssigenomi yhden molekyylin sekvensointi- ja kromosomikonformaation talteenottotekniikoilla

Kokoonpanon ohjaamiseksi arvioimme B. rapa -genomin koon virtaussytometrialla käyttäen riisiä referenssinä. Arvioimme aluksi, että B. rapan genomin koko on 455 Mb (lisätaulukko S1). Lisätutkimus, johon sisältyi BioNanon tietojen perusteella tuotetun konsensuskartan kokonaispituuden laskeminen, osoitti genomin kooksi 442,9 Mb (lisätaulukko S2). Molemmat arviot olivat pienempiä kuin aiemmin raportoitu 52915 tai 485 Mb2.

Kokosimme B. rapa -genomin käyttäen ~57-kertaista PacBio-sekvensoinnin alisäikeiden kattavuutta (~25.88 Gb), BioNano-datan ~456-kertaista kattavuutta (~207,70 Gb) ja Hi-C-lukujen ~164-kertaista kattavuutta (~74,64 Gb).Tuloksena saatu kokoonpano koostui 1476 kontigista, joiden kontigin N50 oli 1,45 Mb ja kokonaispituus 351,06 Mb (taulukko 1). Tämän jälkeen havaitsimme Hi-C-lukujen avulla ristiriitaisuuksia 22 kontigin sisällä (lisätaulukko S4). Sen sijaan, että olisimme poistaneet nämä kontigit, jaoimme ne ristiriita-alueiden kohdalla; Contig01464:n tiedot on esitetty esimerkkinä (Täydentävä kuva S1).

Taulukko 1 Yhteenveto kokoonpanon ja annotaation vertailuista kolmen B. rapa-genomin kokoonpanojen välillä

Telineiden muodostamisen ja aukkokokojen arvioinnin jälkeen BioNano-karttojen ja mate-pair-lukujen (BRAD:sta, http://brassicadb.org) avulla saatiin 1301 telineitä, joiden telineiden N50 oli 4,44 Mb (taulukko 1). Määrittääksemme tuloksena saadut telineet kromosomipaikoilleen ankkuroimme nämä telineet Hi-C-tietojen ja parannetun geneettisen kartan avulla (ks. Menetelmät). Ankkuroimme 298,19 Mb:n sekvenssin kymmeneen kromosomiin, jotka sisälsivät 200 Hi-C-datan perusteella klusteroitua ja 8 geneettisen kartan perusteella määritettyä telineistöä. Lopullisessa kokoonpanossa, jota kutsuttiin B. rapa genomiksi v3.0, oli yhteensä 353,14 Mb sekvenssiä, jossa oli 396 aukkoa (2,08 Mb) (taulukko 1). B. rapa genomi v3.0 on pidempi kuin v1.5 mutta lyhyempi kuin v2.5.

B. rapa genomi v3.0:n laadun arvioimiseksi käytimme eri tietolähteitä. Ensinnäkin validoimme kokoamisemme täydellisyyden etsimällä eukaryoottisia ydingeenejä (CEG) CEGMA16:n avulla. Yhteensä 247 CEG:tä 248:sta oli täydellisiä, ja yksi CEG oli osittainen, mikä osoittaa, että kaikki CEG:t voitiin havaita kokoamisessamme (Supplementary Table S6). Seuraavaksi genomin laatua testattiin sovittamalla yhteen B. rapa -lajin ilmaistujen sekvenssitunnisteiden (EST) sekvenssejä (jotka ladattiin NCBI:n dbEST:stä), mikä osoitti, että 99,34 prosenttia EST:istä löytyi vastikään assembleeratusta B. rapa -genomista v3.0.

Yhteensopivuuden paraneminen

B. rapa -genomi v3.0:ssa on parannettu yhteenkuuluvuutta aukkojen ja kontigien koon osalta. B. rapa -genomi v1.5 luotiin Illumina-sekvensseistä, kun taas kokoonpanossa v2.5 käytettiin enemmän Illumina-lukemia ja suhteellisen vähän PacBio-sekvenssidataa. Näillä kahdella kokoonpanolla on rajoituksia, jotka johtuvat niiden pirstaleisuudesta ja vähäisestä yhteenkuuluvuudesta (taulukko 1). Yhdistämällä yhden molekyylin sekvensointi, optinen kartoitus ja Hi-C-tekniikka B. rapa genomi v3.0 edustaa ~27-kertaista (contig N50: 1446 Kb vs. 53 Kb, v2.5) ja ~31-kertaista (contig N50: 1446 Kb vs. 46 Kb, v1.5) parannusta yhteenkuuluvuudessa kahteen aiempaan koosteeseen verrattuna (taulukko 1).Arvioimme myös aukkojen kokoa ja määrää kummassakin vastaavassa koosteessa. Aukkoja oli v3.0:ssa vain 396, mukaan lukien tunnetut aukot (122 BioNanosta ja 74 mate-pair-tiedoista) ja tuntemattoman kokoiset aukot (190 Hi-C-telineiden yhdistämisestä ja 10 geneettisen kartan yhdistämisestä). Aiempiin koosteisiin verrattuna v3.0:ssa on ~10-kertainen (5,89 kt vs. 60,59 kt, v2.5) ja ~7-kertainen (5,89 kt vs. 40,09 kt, v1.5) parannus aukkojen koossa Mb:tä kohti verrattuna kahteen aiempaan koosteeseen (taulukko 1). Mitä tulee aukkojen määrään Mb:tä kohti, v3.0 on parempi kuin v2.5 ja v1.5: ~23-kertaisesti (1,15 vs. 25,98, v2.5) ja ~35-kertaisesti (1,15 vs. 40,09, v1.5) vähemmän aukkoja Mb:tä kohti (taulukko 1).

Voidaksemme arvioida kolmen version B. rapa-vertailugenomin arvioimiseksi rekonstruoimme ensin geneettiset kartat, jotka perustuivat kolmeen kokoonpanoon, käyttäen samaa uudelleen sekvensointidataa kaksinkertaisesta haploidipopulaatiosta (DH-populaatiosta), joka oli peräisin kahden kiinankaali-linjan risteytyksestä17 . Sen jälkeen arvioimme binmarkereiden sijainnit geneettisissä kartoissa yhdistämällä ne vastaaviin fyysisiin karttoihin. Kokoonpanomme 892 binmarkkerista 877 binmarkkeria (98,3 %) oli kartoitettu geneettiseen karttaan. Kokoonpanomme sopi yhteen geneettisen kartan kanssa 801 binmarkkerin (91,3 %) osalta, mikä osoittaa v3.0:n korkean laadun (kuva 1; lisätaulukko S7). Huomasimme kuitenkin, että 76 (8,7 %) kromosomeilla A05, A08 ja A09 sijaitsevaa binarkkeria karttui epäselviin paikkoihin geneettisessä kartassa. Nämä alueet sisälsivät toistuvia sekvenssejä, erityisesti sentromeerisillä alueilla, kuten seuraavassa analyysissä kuvataan. Nämä ristiriitaiset alueet kuitenkin katettiin PacBio-lukemilla ja/tai BioNano-kartoilla; kromosomin A08 tiedot v3.0:ssa on esitetty esimerkkinä (täydentävä kuva S2).

Kuva 1: B. rapa genomin v3.0 fyysisten ja geneettisten karttojen yhdistäminen.

B. rapa genomiin v3.0 perustuvan geneettisen kartan markkerit on esitetty x-akselilla; B. rapa genomin v3.0 fysikaalisen kartan markkerit on esitetty x-akselilla. rapa genomi v3.0 näkyvät y-akselilla

V2.5:n geneettisessä kartassa oli 1092 binarkkeria ja v1.5:n geneettisessä kartassa 866 binarkkeria. Pystyimme kuitenkin kartoittamaan v2.5:n geneettiselle kartalle vain 88,7 % binmarkereista (969 binmarkeria 1092:sta) ja v1.5:n geneettiselle kartalle vain 92,3 % binmarkereista (799 binmarkeria 866:sta) (Supplementary Table S7). Huomasimme, että 15,1 prosenttia v2.5:n binmarkereista (166 kappaletta 969:stä) oli epäjohdonmukaisia, mukaan lukien 146 binmarkeria, joiden geneettiset ja fyysiset etäisyydet olivat epäjohdonmukaisia saman kromosomin sisällä (intrakromosomissa), ja 20 binmarkeria, joiden geneettiset ja fyysiset etäisyydet olivat epäjohdonmukaisia eri kromosomeissa (kromosomien välissä) (Täydentävä kuvio S3; Täydentävä taulukko S7). V1.5:n osalta 10,0 % binmarkereista (80 binmarkeria 799:stä) oli epäjohdonmukaisia, mukaan lukien 71 binmarkeria intrakromosomissa ja 9 binmarkeria interkromosomissa (Supplementary Figure S4; Supplementary Table S7). Kuitenkin v3.0 sisälsi vähiten ristiriitaisia intrakromosomaalisia binmarkkereita (8,7 %, 76 binmarkkeria 877 binmarkkerista) eikä yhtään ristiriitaista interkromosomaalista binmarkkeria (lisätaulukko S7), mikä osoittaa, että B. rapa-genomin v3.0:n yhtenäisyys on parempi kuin kahdessa aiemmassa kokoonpanossa. Kaiken kaikkiaan nämä riippumattomat validoinnit viittaavat siihen, että B. rapa genome v3.0:lla on korkein kontiguiteetti ja paras telineiden järjestys kolmesta B. rapa-kokoonpanosta.

Genomin annotaation vertailu

Ennustimme ja annotoimme geenimallit aiemmin kuvatulla tavalla6. Tunnistimme v3.0:ssa yhteensä 45 985 proteiinia koodaavaa geenimallia, jotka edustivat 14,74 % genomikokoonpanosta (taulukko 1). Kokoonpanossamme 98,75 % (45 411 geeniä 45 985:stä) geeneistä oli annotoitu kromosomeihin, ja vain 1,25 % (574 geeniä 45 985:stä) sijaitsi telineissä. De novo annotoidut geenit v3.0:ssa nimettiin Brassican referenssigenomien geenimallinimikkeistön standardin mukaisesti (http://www.brassica.info/info/genome_annotation.php). Geenimallien määrä uudessa kokoonpanossa on suurempi kuin v1.5:ssä (41 020 geeniä) mutta pienempi kuin v2.5:ssä (48 826 geeniä) (taulukko 1). Annotaation laadun arvioimiseksi suoritettiin vertailu aiempien kokoonpanojen annotaatioon käyttäen BUSCO18-järjestelmää, joka perustuu 1440 konservoituneen kasvigeenin vertailuarvoon. Noin 97,7 % näistä konservoiduista kasvigeeneistä tunnistettiin, ja 1,7 % havaittiin v3.0:ssa esiteltyinä fragmentteina (Supplementary TableS11).

Kolmen assemblaation välillä suoritettiin genomin syntenia-analyysi käyttäen SynOrths19 -ohjelmaa syntenisten geeniparien ja tandemgeeniryhmien tunnistamiseksi. Yhteensä 2077 tandemgeenirivistöä (jotka vastaavat 4963 tandemgeeniä) tunnistettiin v3.0:ssa. Sama määrä tandemmatriiseja (2077 matriisia, jotka vastaavat 5004 geeniä) havaittiin myös v1.5:ssä. Genomin laajuisen syntenian arviointi osoitti, että 1539 tandemmatriisia (jotka vastaavat 3757 geeniä) v3.0:ssa oli syntenisiä 1494 tandemmatriisin (jotka vastaavat 3670 geeniä) kanssa v1.5:ssä. Kuitenkin v2.5:ssä tunnistettiin enemmän tandemmatriiseja (3535 matriisia, 8002 geeniä) (taulukko 1). Havaitsimme aukkoja ylimääräisten tandemgeenien alueilla v2.5:ssä, kun taas 3.0:ssa tai v1.5:ssä ei havaittu aukkoja (kuva 2a). Nämä aukot voivat olla seurausta kokoonpanovirheistä, jotka syntyivät, kun aukot suljettiin PacBio-lukujen avulla v2.5:ssä, mikä puolestaan johti tandemgeenien virheelliseen annotaatioon. Muiden tandemgeenien osalta, joissa ei ollut aukkoja, havaitsimme, että yksittäiset geenit v3.0:ssa ja v1.5:ssä annotoitiin kahdeksi tai useammaksi geeniksi v2.5:ssä (Kuva 2b).

Kuva 2: Esimerkkejä, jotka osoittavat tandemgeenien virheellistä annotointia v2.5:ssä.

a Esimerkki BraA01000818- ja BraA01000819-geenien välisestä 25 bp:n aukosta (ohut keltainen palkki merkitty punaisella nuolella), joka osoittaa virheellistä annotaatiota v2.5. b Geenit BraA02003894 ja BraA02003895 v2.5:ssä on merkitty yhdeksi geeniksi v3.0:ssa (BraA02g039730.3C) ja v1.5:ssä (Bra020703). Luvut on piirretty käyttäen GEvo (https://genomevolution.org/coge/GEvo.pl)

Kun kutakin tandemmatriisia pidetään yksittäisenä geenilokuksena, v3.0:ssa oli jäljellä 43 099 geeniä, v2.5:ssä 44 359 geeniä ja v1.5:ssä 38 093 geeniä (taulukko 1). Tämän jälkeen suoritimme geenisyntenia-analyysin, joka osoitti, että 39 858 geeniä (92,48 %) v3.0:ssa toimi vastineena 40 442:lle (91,17 %) ja 35 464:lle (93,10 %) geenille v2.5:ssä ja v1.5:ssä. Kun annotoituja geenejä verrattiin varhaisversioiden geeneihin, tunnistimme 3241 versiokohtaista geeniä v3.0:ssa verrattuna sekä v2.5:een että v1.5:een. Näistä 2380 geeniä tuettiin B. rapa -lajin (BRAD, http://brassicadb.org/) vastaavista mRNA-lukemista saaduilla todisteilla, ja 2295 geeniä tuettiin muiden Brassicaceae-lajien proteiinisekvensseillä (lisätaulukko S12). Kaiken kaikkiaan 89,10 % (2888 geeniä 3214:stä) v3.0:n versiospesifisistä geeneistä sai tukea B. rapa:n mRNA-tiedoista tai muiden Brassicaceae-lajien proteiinisekvensseistä, kun taas vain 10,90 % (326 geeniä 3214:stä) ei saanut tukea.

Uusi päivitetyssä assemblaatiossa tunnistettu LTR-RT-laajentumistapahtuma

Annotoimme TE-geenit versiossa v3.0 samoilla metodeilla, jotka on raportoitu aiemmassa versiossa20. Yhteensä v3.0:ssa tunnistettiin 235 683 TE:tä 1244 perheestä, ja v2.5:een ja v1.5:een verrattuna löydettiin 562 ainutlaatuista TE-perhettä. V3.0:ssa TE:t edustivat 37,51 prosenttia (134 Mb) kootusta genomista, mikä oli enemmän kuin aiemmissa kokoamisissa (32,30 prosenttia, 126 Mb, v2.5; 25,44 prosenttia, 72 Mb, v1.5)2,6. Uudessa koosteessamme runsaimmat TE:t ovat LTR-RT, jonka kokonaispituus on 57,64 Mb ja osuus 16,32 % kootusta genomista. Muut kuin LTR-RT-toistot (LINE:t ja SINE:t) muodostavat 3,10 prosenttia kokoelmastamme (täydentävä kuva S5). Havaitsimme 26,35 Mb:n kokoisia DNA-transposoneja, jotka muodostavat 7,46 % kootusta genomikokoonpanosta (täydentävä kuva S5). Täydellinen luettelo tunnistetuista TE:istä ja toistoista v3.0:ssa on lisätaulukossa S13. Lisäksi tunnistimme yhteensä 1231 miRNA:ta, 1281 tRNA:ta, 2865 rRNA:ta ja 3737 snRNA:ta B. rapa -genomissa v3.0 (Supplementary Table S19).

Nykykokoonpanossamme annotoimme enemmän LTR-RT:tä (57 Mb) verrattuna v2.5:een (44 Mb) ja v1.5:een (18 Mb). Tunnistimme v3.0:ssa 51 062 ei-intaktia LTR-RT:tä. Tarkempi analyysi paljasti, että 65,27 prosenttia (33 672 kappaletta 51 602:sta) ei-arkistoituneista LTR:istä sijaitsi kymmenessä kromosomissa, kun taas 34,73 prosenttia (17 922 kappaletta 51 602:sta) ei-arkistoituneista LTR-RT:istä löytyi ankkuroimattomista telineistä. Samaa menetelmää6 käyttäen annotoitiin v3.0:ssa yhteensä 13 318 ehjää LTR-RT:tä. Sen sijaan v2.5:ssä oli vain 4129 ja v1.5:ssä vain 801 ehjää LTR-RT:tä6. Tarkempi analyysi paljasti, että vain 18,19 % ehjistä LTR-RT:istä (2423 kappaletta 13 318:sta) sijaitsi kymmenessä kromosomissa, kun taas suurin osa (81,81 %, 10 895 kappaletta 13 318:sta) ehjistä LTR-RT:istä löytyi v3.5:ssä ankkuroimattomista telineistä.0. Ehjien LTR-RT:iden insertointiaika laskettiin aiemmin kuvatulla tavalla4 , mikä osoitti, että B. rapa -genomissa on tapahtunut kolme LTR-RT-laajenemisaaltoa sen jälkeen, kun se erosi B. oleraceasta (Kuva 3). Näiden ehjien LTR-RT:iden keskimääräinen insertion ikä oli 1,88 miljoonaa vuotta sitten (MYA), ja insertion mediaani oli 1,59 MYA. Lisäksi löysimme v3.0:sta enemmän eri pituisia ehjiä LTR-RT:itä kuin v2.5:stä ja v1.5:stä (Täydentävä kuva S6).

Näillä ehjillä LTR-RT:illä tunnistettiin uusi LTR-RT-laajentumistapahtuma B. rapa -genomissa. Nimitimme 3155 ehjää LTR-RT-insertiotapahtumaa ajalta 0 MYA-0,4 MYA ”nuoreksi laajentumaksi”, jonka keskimääräinen pituus oli 8135 bp ja keskimääräinen insertion ajankohta 0,2 MYA; 2283 ehjää LTR-RT-insertiotapahtumaa ajalta 1,0 MYA-1,4 MYA ”keskipitkäksi laajentumaksi”, jonka keskimääräinen pituus oli 11 902 bp ja keskimääräinen insertion ajankohta 1,2 MYA; ja 1444 ehjää LTR-RT-insertiotapahtumaa ajalta 3. MYA.0 MYA-3,4 MYA ”muinaislaajentumana”, jonka keskimääräinen pituus on 9823 bp ja insertiopäivämäärä 9823 bp (Kuva 3).Nuori ja muinainen laajeneminen vastaavat läheisesti aiemmin tunnistettuja laajenemistapahtumia; keskipitkä laajeneminen tunnistettiin ensimmäisenä B. rapa -genomissa, ja sen insertioajankohta on samankaltainen kuin ehjän LTR-RT-laajentumistapahtuman insertioajankohdan B. oleraceassa. Yleisesti ottaen Ty3/Gypsyn kaltaisia LTR-RT:tä oli enemmän kuin Ty1/Copian kaltaisia LTR-RT:tä (lisätaulukko S20). Verrattuna v2.5:een ja v1.5:een Ty3/Gypsyn kaltaiset LTR-RT:t v3.0:ssa lisääntyivät selvästi 5 MYA:sta lähtien (täydentävä kuva S7), kun taas Ty1/Copian kaltaiset LTR-RT:t lisääntyivät 2,2 MYA:sta lähtien (täydentävä kuva S8). Fylogeneettisistä puista havaitsimme, että kullakin LTR-RT-ryhmällä oli enemmän kopioita v3.0:ssa kuin v2.5:ssä ja v1.5:ssä (lisätaulukot S21, S22; lisäkuvat S9, S10).

Kuva 3

Esimerkiksi eri aikoina (miljoona vuotta sitten, MYA) syntyneiden ehjien LTR-RT:iden määrä kolmessa kokoonpanossaB. rapa-genomin jaB. oleracean genomissa.

Genomilohkot ja sentromeerit B. rapa-genomissa

Tutkimme genomilohkojen keskinäisiä suhteita käyttäen päivitettyä kokoonpanoa v3.0. Määrittääksemme genomilohkot ja sentromeerit B. rapa -genomissa v3.0 konstruoimme ensin kolme alagenomia (LF, MF1 ja MF2) v3.0:n ja A. thalianan synteettisten suhteiden perusteella (täydentävä kuva S11; täydentävä taulukko S14). Havaitsimme v3.0:ssa 72:sta (3 × 24) odotetusta genomilohkosta 71, ja suurin osa niistä oli järjestetty samansuuntaisesti kuin aiemmin ref.10:ssä raportoidut lohkot (kuva 4; lisätaulukko S15). V3.0:ssa kaksi uutta fragmentoitunutta genomilohkoa F (LF) ja F (MF1) tunnistettiin kromosomeilla A01 ja A05, eikä niitä havaittu ref.10:ssä. Emme pystyneet havaitsemaan kahta aiemmin kuvattua, hyvin pientä genomilohkoa v3.0:ssa, lohkoa C (MF2) kromosomissa A07 ja lohkoa B (MF1) kromosomissa A08 (viite 10). Kokoonpanossamme genomilohkot N/M (MF1), O/P (LF) ja A/C(LF) oli kuitenkin järjestetty kromosomeille A01, A09 ja A10, kun taas ref.10:ssä ne oli järjestetty vastakkaisille puolille.Kolme pientä vierekkäistä genomilohkoa (S (MF2), T(MF2) ja B(MF1)) kromosomissa A08 olivat järjestettyinä kromosomissa S/T/B, kun taas ref.10:ssä ne olivat järjestettyinä kromosomissa T/B/S..

Kuva 4: B. rapa-genomin v3.0 genomilohkojen jakautuminen kymmeneen kromosomiin.

Kymmenellä kromosomilla olevat genomilohkot luokiteltiin aligenomeihin LF (punainen), MF1 (vihreä) ja MF2 (sininen). Yhden lohkon kaksi tai useampi segmentti merkittiin pienillä kirjaimilla (a, b jne.). B. rapa -genomin sentromeerit on esitetty mustina soikioina ja paleosentromeerit harmaina kolmioina. Alaspäin osoittavat nuolet ovat sellaisten GB:iden vieressä, jotka ovat käänteisiä suhteessa muihin lohkoihin, jotka ovat peräisin yhdestä ACK-kromosomista

Voimme myös verrata genomilohkojen orientaatiota v3.0:ssa ja ref.10:ssä. Kromosomissa A02 olevien genomilohkojen W (MF2) sekä kromosomissa A07 olevien lohkojen G (LF) ja E (LF) havaittiin olevan käänteisiä suhteessa muihin lohkoihin, jotka olivat peräisin yhdestä ACK-kromosomista. Kromosomissa A09 olevan genomilohkon P (LF) ja kolmen lohkon V suunta v3.0:ssa oli kuitenkin eteenpäin, kun taas ref.10:ssä nämä olivat käänteisiä. Näitä tuloksia tukivat myös v3.0:n ja v1.5:n geneettiset kartat.

Määritimme tarkasti kaikkien kromosomien sentromeerien sijainnin v3.0:ssa. Seulomalla aiemmin määritettyjä sentromeerisiä toistosekvenssejä, mukaan lukien sentromeeriset satelliittitoistot CentBr, CRB, TR238 ja PCRBr21,22,23, tunnistimme kaikkien 21 paleosentromeerisen alueen signaalit v3.0:ssa, kun taas kolmea paleosentromeeristä aluetta ei havaittu viitteessä 10 (kuva 4, lisätaulukko S16). Paleosentromeerianalyysi osoitti, että kaikki kymmenen olemassa olevaa B. rapa -lajin sentromeeria periytyivät 21 paleosentromeerista. Kromosomien A01, A03, A04, A05, A06, A07 ja A10 kromosomien sentromeereillä oli v3.0:ssa samat vastaavat sentromeerejä reunustavat genomilohkot kuin referenssissä 10 (kuva 4). Kromosomin A02 sentromeeri sijaitsi kuitenkin genomilohkojen P (MF2) ja V (MF1) välissä, ja kromosomin A09 sentromeeri sijaitsi genomilohkojen P (LF) ja B (LF) välissä, kun taas ref.10:ssä näitä pidettiin paleosentromeereina (kuva 4). Kromosomin A08 sentromeeri sijaitsi genomilohkojen T (MF2) ja B (MF1) välissä eikä genomilohkojen C (MF1) ja T (MF2) välissä, kuten viitteessä 10 ilmoitettiin. Lisäksi sentromeeristen alueiden sisällä havaittiin v3.0:ssa 1188 geeniä, kun taas ref.10:ssä havaittiin vain 740 geeniä (lisätaulukko S17).

Arvioidaksemme kokoonpanoamme v3.0:n sentromeerien suhteen analysoimme sentromeeristen alueiden sekvenssipiirteitä. Havaitsimme, että sentromeerisille alueille kartoitettiin huomattavasti enemmän TE:itä ja sentromeerispesifisiä toistoja kuin kromosomien muihin osiin, ja geenitiheys ja rekombinaatioprosentti olivat selvästi alhaisemmat v3.0:ssa annotoiduilla sentromeerisillä alueilla (kuva 5). Lisäksi sentromeerispesifisiä toistoja havaittiin enemmän sentromeerialueilla v3.0:ssa verrattuna ref.10:ssä raportoituihin toistoihin (Supplementary Table S17).

Kuva 5: Piirroskuvaus sentromeerialueiden piirteistä kymmenellä kromosomilla B. rapa genomissa v3.0.

Kaikki aineistot on esitetty lämpökarttoina. Punainen väri tarkoittaa matalia arvoja ja sininen väri korkeita arvoja. a Kymmenen kromosomia B. rapa genomissa v3.0. Sentromeerit on esitetty mustina lohkoina. b TE-tiheys v3.0:n kymmenessä kromosomissa (500 kb:n liukuikkuna, 100 kb:n askel). c Sentromeerispesifisten toistojen jakautuminen v3.0:n kymmenessä kromosomissa (2 Mb:n liukuikkuna, 1 Mb:n askel). d Geenitiheys v3.0:n kymmenessä kromosomissa (2 Mb:n liukuva ikkuna, 1 Mb:n askel). e Keskimääräinen paikallinen rekombinaationopeus markkerien välillä v3.0:n kymmenessä kromosomissa (5 Mb:n liukuva ikkuna, 1 Mb:n askel)

.