Bit Rot: Mitä se on ja miten estää sitä tuhoamasta tietojasi – ProStorage Bit Rot: Mitä se on ja miten estää sitä tuhoamasta tietojasi – ProStorage Bit Rot:


Bittien mätäneminen kuulostaa orgaaniselta asialta, joka tapahtuu ajan myötä. Totuus on kuitenkin paljon välittömämpi ja teknisempi. Kiintolevyjä markkinoidaan äärimmäisen luotettavina, ja niiden keskimääräinen vikaantumisaika (MTBF) on usein satoja tuhansia tunteja. Mutta vaikka kiintolevyt jatkavat toimintaansa, on silti mahdollista menettää tietoja bittirotaatioilmiön ansiosta.

Mitä bittirotaatio tarkalleen ottaen on?

Katsokaa kiintolevyn pintaa mikroskoopilla, ja näette kuhmuraista maisemaa, jossa eksoottiset metallit ovat asettuneet kohtuullisen siisteihin kuvioihin.

Metallien on oltava siistejä, koska levyasema antaa hyvin tarkan sähköiskun hyvin pienelle levyn alueelle, mikä muuttaa sen varastoituneen varauksen merkitsemään tallennettua dataa.

Joskus nämä alueet menettävät tai muuttavat varaustaan spontaanisti, ilmiö tunnetaan nimellä ”flipping”. Kun levyn alue kääntyy, sen sisältämä data pyyhkiytyy, korruptoituu tai muuttuu lukukelvottomaksi. Tämän hajoamisen mystisen luonteen kuvaamiseksi alalla on kehitetty orgaaniselta kuulostava termi ”bit rot” selittämään ilmiötä.

Tallennustietokantojen toimittajat ovat tietoisia bit rot -ilmiöstä, ja ne rakentavat tuotteensa siten, että ne tunnistavat levyissä olevat puutteet ennen kuin ne sijoitetaan levyasemiin, ja valvovat levyjä tuotannossa havaitakseen bit rot -ilmiön ennen kuin siitä tulee ongelma.

”EMC ostaa ja myy vain levyjä, joissa on vain pieni prosenttiosuus ”valmistussektorin” vikoja”, selittää EMC Australia New Zealandin markkinointipäällikkö Clive Gold.

Yhtiö myös skannaa levyjä varmistaakseen, ettei bittirota tuhoa tietoja.

”Kaikki etupäässä vastaanotetut tiedot ”merkitään”, ja tämän avulla backend voi tarkistaa levylle tallennetut tiedot varmistaakseen, että ne eivät ole muuttuneet, kun ne ovat kulkeneet tallennusjärjestelmän läpi”, Gold selittää. ”Itse asiassa, kun sovelluksessa, kuten Oraclen tietokannoissa, on tarkistussumma, käytämme sitä varmistaaksemme päästä päähän eheyden, sovelluksesta levyllä olevaan ruosteeseen. Näillä tekniikoilla voidaan sekä havaita että korjata.”

Adrian De Luca, Hitachi Data Systemsin Australian ja Uuden-Seelannin ennakkomyynti- ja ratkaisujohtaja, sanoo, että hänen yrityksensä huolehtii myös siitä, että vahingoittuneet asemat eivät tuhoa dataa, käyttämällä liitäntävarotoimia ja korruptoitumisen tarkistuksia.

”HDS varmistaa, että kaikki fyysiset levyasemat on liitetty kahdesti taustalevyyn, ohjaimiin ja välimuistiin, jotta voidaan varmistaa, ettei fyysistä yksittäistä vikaantumispistettä ole, kun tiedot tulevat etupään ohjainten kautta fyysisille levyille”, hän sanoo. ”Tuemme myös Oraclen H.A.R.D:tä (Hardware Assisted Resilient Data), jolla estetään tietokannasta tallennusjärjestelmään -infrastruktuurissa syntyneiden vioittuneiden tietolohkojen kirjoittaminen levytallennukseen.”

Käytetäänkö SSD-levyissä (Solid State Drives) bittien mätänemistä

Yksinkertainen vastaus: kyllä. Flash-SSD-levyjen bittirotaatio on kuitenkin aivan erilainen kuin kiintolevyjen bittirotaatio.

Kuten opimme, kiintolevyjen bittirotaatio tapahtuu, kun bitin magneettinen polariteetti kääntyy spontaanisti ympäristön sähkömagneettisen säteilyn vaikutuksesta. Flash-SSD-levyjen bittien kiertyminen tapahtuu, kun NAND-kennon tila muuttuu elektronivuodon seurauksena.

Kun kennon tilojen määrä kasvaa, myös elektronivuodon mahdollisuus kasvaa. SLC:ssä on kaksi tilaa, 0,1; MLC:ssä on neljä tilaa, 00, 01, 11, 10; ja TLC:ssä on kahdeksan tilaa, 000, 001, 010, 011, 100, 110, 101, 111. Tämä tarkoittaa, että bittirotaatio on todennäköisintä TLC-NAND-muistitallenteissa.

Tapa, jolla valmistajat käsittelevät bittirotaation lisääntynyttä todennäköisyyttä, on virheenkorjauskoodien (ECC) laaja käyttö. On selvää, että TLC-muistien ECC:n on oltava huomattavasti herkempi kuin SLC- tai MLC-muistien ECC:n. 3D NAND TLC -asemien valmistajat tietävät tämän ja ovat ottaneet käyttöön paljon herkemmän ECC:n.

Määritettäessä, kuinka tehokkaasti 3D NAND TLC -asema torjuu bittimädätystä, ratkaisevana tekijänä on 3D NAND flash -aseman valmistajan arvioima palautumaton bittivirheprosentti (UBER). Muista, että 3D NAND TLC -asemat soveltuvat parhaiten luku- eikä kirjoitusoptimoituihin sovelluksiin. Tämä vastaa lähinnä lähes linjakkaiden tai ”paksujen” kiintolevyjen sovellussoveltuvuutta. SATA-kiintolevyn UBER-nopeus on 10-15. Lähellä linjaa olevien SAS-kiintolevyjen UBER-nopeus on 10-16. 3D NAND TLC -kiintolevyjen UBER-luokituksia ei ole vielä julkaistu tätä kirjoitettaessa, mutta niiden odotetaan olevan vähintään samat tai korkeammat kuin SATA- tai SAS-kiintolevyjen UBER-luokitukset.

Miten vaarallista Bit Rot on?

Vaikka useimmat tallennusvälinetoimittajat pyrkivät torjumaan Bit Rotia, NetApp on hiljattain suorittanut tutkimuksia, jotka vähättelevät Bit Rotin aiheuttamaa riskiä.

”Vaikka ’bit rot’ on saanut viime aikoina kohtuullisen paljon huomiota, kaksi NetAppin sponsoroimaa tutkimusta osoittavat, että bit rot on paljon pienempi ongelma tallennusmatriisien luotettavuuden kannalta kuin monet muut tekijät”, sanoo John Martin, NetAppin Australian ja Uuden-Seelannin johtava teknologi.

Yksi Martinin mainitsemista artikkeleista, Jon G. Elerathin ja Michael Pechtin kirjoittama A Highly Accurate Method for Assessing Reliability of Redundant Arrays of Inexpensive Disks (RAID), ilmestyi IEEE TRANSACTIONS ON COMPUTERS -lehdessä, VOL. 58, NO. 3, MARCH 2009″.

Martin tiivistää artikkelin sanomalla, että Bit Rot on riski, koska se ”herättää haamun, ei vain kadonneen tai vioittuneen tiedoston, vaan koko RAID-ryhmän täydellisen menetyksen mahdollisuuden yksittäisen aseman vikaantuessa ’Media Error on Data Reconstruct’ -ongelman vuoksi”. ”

Martin lisää kuitenkin, että ”Yritysluokan asemaryhmässä vähemmän katastrofaalinen ongelma on paljon pienempi, koska RAID-järjestelmän ja lohkotason tarkistussummien avulla käytettävissä oleva lisävirheentunnistus ja -korjaus merkitsevät sitä, että bittimädännyksen aiheuttama tiedostojen häviäminen tai korruptoituminen on erittäin epätodennäköistä.”.”

MitäMartin vetoaa Elerathin ja Pechtin artikkeliin ja ehdottaa siksi neljää muuta ilmiötä todennäköisemmiksi tietojen katoamisen lähteiksi, nimittäin:

  • ”Thermal asperities” (lämpöepäterävyydet) – Lyhytaikaisen korkean lämmön esiintyminen, joka aiheutuu pään ja levyn kosketuksesta. Tämä on yleensä seurausta siitä, että päät osuvat pieniin ”kuoppiin”, jotka ovat syntyneet valmistusprosessin aikana tietovälineen pintaan upotetuista hiukkasista. Yksittäisessä kosketuksessa syntyvä lämpö ei välttämättä riitä tietojen lämpöpyyhkimiseen, mutta se voi riittää useiden kosketusten jälkeen;
  • Levynpään ongelmat – Levynpäät on suunniteltu työntämään hiukkaset pois, mutta epäpuhtaudet voivat silti jäädä pään ja levyn väliin.Kiintolevyjen valmistuksessa käytetyt kovat hiukkaset voivat aiheuttaa pintanaarmuja ja tietojen pyyhkimistä aina, kun levy pyörii;
  • Pehmeiden hiukkasten aiheuttama vaurioituminen – Muiden pehmeiden materiaalien, kuten esimerkiksi ruostumattoman teräksen vahingoittuminen, voi olla peräisin kokoonpanon työkaluista. Pehmeillä hiukkasilla on taipumus tahriintua tietovälineen pintaan, jolloin tiedot eivät ole luettavissa;
  • Korroosio – Vaikka sitä valvotaankin huolellisesti, se voi myös aiheuttaa tietojen pyyhkimistä, ja sitä voi kiihdyttää lämpöasperiteettien tuottama lämpö.

Olipa kadonneen datan syy mikä tahansa, tallennuksen ylläpitäjien on löydettävä keino torjua sitä, ja NetAppin Martin suositteleekin levyn pyyhkimistä (”disk scrubs”), eli käytäntöä, jonka mukaan tietovälineitä pyyhitään levyjen läpi, jotta kaikki ongelmasektorit saataisiin poistettua. Toinen vaihtoehto on ”käyttää RAID-suojauksen lisätasoja, kuten RAID-6:ta, joka mahdollistaa suuremman joustavuuden ja virheenkorjauksen siinä tapauksessa, että RAID-joukkoa rekonstruoitaessa törmätään piilevään lohkovirheeseen. NetApp käyttää molempia lähestymistapoja, sillä tutkimukset ovat osoittaneet, että riski tietojen menettämisestä tällaisten tapahtumien vuoksi on tuhansia kertoja suurempi kuin mitä useimmat yksinkertaiset MTBF-vikamallit ennustavat.

Keith Busson, Quantumin Australian ja Uuden-Seelannin maajohtaja, antaa proosallisempia neuvoja Bit Rotin lieventämiseksi.

”Quantum suosittelee, että tietotekniikkaorganisaatiot järjestävät säännöllisesti harjoitusdatan talteenottoharjoituksia”, hän sanoo. ”On tärkeää osoittaa kyky nopeaan ja kattavaan tietojen palautukseen ennen kuin sitä tarvitaan hätätilanteessa. Tällaisessa testauksessa testataan laitteistojen ja ohjelmistojen lisäksi myös ihmisiä ja prosesseja.”

5 osaketta