Bitrot: Wat het is en hoe u kunt voorkomen dat uw gegevens worden vernietigd


Bitrot klinkt als iets organisch dat na verloop van tijd ontstaat. Maar de waarheid is veel directer en technischer. Harde schijven worden als uiterst betrouwbaar aangeprezen en de gemiddelde tijd tussen defecten (MTBF) ligt vaak in de honderdduizenden uren. Maar terwijl schijven blijven doorgaan, is het nog steeds mogelijk om gegevens te verliezen dankzij dit fenomeen van bit rot.

Wat is bit rot, precies?

Trek een microscoop en kijk naar het oppervlak van een harde schijf en je ziet een hobbelig landschap van exotische metalen gerangschikt in redelijk nette patronen.

De metalen moeten netjes zijn omdat een diskdrive een zeer precieze stroomstoot afgeeft aan een zeer klein gebied van de schijf, waardoor de opgeslagen lading verandert om opgeslagen gegevens aan te duiden.

Soms verliezen of veranderen deze gebieden spontaan hun lading, een fenomeen dat bekend staat als ‘flipping’. Wanneer een gebied op een schijf omslaat, worden de gegevens die het bevat gewist, beschadigd of onleesbaar gemaakt. Om de mysterieuze aard van deze degradatie aan te duiden, heeft de industrie de organisch klinkende term ‘bitrot’ ontwikkeld om het verschijnsel uit te leggen.

Verkopers van opslagarrays zijn zich bewust van bitrot en bouwen hun producten om gebreken in schijven te identificeren voordat ze deze in arrays plaatsen, en monitoren vervolgens schijven in productie om rot te detecteren voordat het een probleem wordt.

“EMC koopt, en verkoopt vervolgens, alleen schijven die een laag percentage ‘fabricage’ sectorfouten hebben,” legt Clive Gold, Marketing Chief Technology Officer voor EMC Australië Nieuw-Zeeland uit.

Het bedrijf scant ook schijven om ervoor te zorgen dat bitrot geen gegevens vernietigt.

“Alle gegevens die door de front-end worden ontvangen, worden ‘getagd’ en dit stelt de back-end in staat om de gegevens die op de schijf zijn opgeslagen, te controleren om er zeker van te zijn dat ze niet zijn veranderd terwijl ze door het opslagsysteem zijn gegaan,” legt Gold uit. “In feite, waar een applicatie zoals Oracle databases een checksum heeft, gebruiken we die om end-to-end integriteit te verzekeren, van applicatie tot de roest op de schijf! Deze technologieën doen zowel detectie als correctie.”

Adrian De Luca, directeur pre-sales en oplossingen van Hitachi Data Systems voor Australië en Nieuw-Zeeland, zegt dat zijn bedrijf er ook op toeziet dat beschadigde schijven geen gegevens vernietigen, door middel van zowel connectiviteitsvoorzorgsmaatregelen als corruptiecontroles.

“HDS zorgt ervoor dat alle fysieke schijven dual-ported zijn in de backplane, controllers en cache om ervoor te zorgen dat er geen fysiek single point of failure is, aangezien gegevens binnenkomen via de front-end controllers en naar de fysieke schijven gaan,” zegt hij. “We ondersteunen ook Oracle H.A.R.D (Hardware Assisted Resilient Data) om te voorkomen dat corrupte gegevensblokken die in de database-naar-opslagsysteeminfrastructuur worden gegenereerd, naar de schijfopslag worden geschreven.”

Does Bit Rot Occurur in Solid State Drives (SSD)

Het eenvoudige antwoord: ja. Bitrot voor flash SSD’s is echter heel anders dan bitrot op harde schijven.

Zoals we hebben geleerd, treedt bitrot voor HDD’s op wanneer de magnetische polariteit van een bit spontaan omslaat door elektromagnetische straling in de omgeving. Flash SSD bitrot treedt op wanneer de toestand van een NAND-cel verandert door elektronenlekkage.

Als het aantal toestanden binnen een cel toeneemt, neemt ook het potentieel voor elektronenlekkage toe. SLC heeft twee toestanden, 0,1; MLC heeft vier toestanden, 00, 01, 11, 10; en TLC heeft acht toestanden, 000, 001, 010, 011, 100, 110, 101, 111. Dat betekent dat bitrot het meest waarschijnlijk is bij TLC NAND flash drives.

De manier waarop fabrikanten omgaan met de verhoogde waarschijnlijkheid van bitrot is door het uitgebreide gebruik van foutcorrectiecodes (ECC). Het is duidelijk dat de ECC voor TLC aanzienlijk gevoeliger moet zijn dan ECC voor SLC of MLC. En de leveranciers van 3D NAND TLC-schijven weten dit en hebben veel gevoeligere ECC ingebouwd.

Hoe effectief een 3D NAND TLC-schijf is in de strijd tegen bitrot, komt neer op het onherstelbare bitfoutpercentage (UBER) zoals beoordeeld door de 3D NAND-flash-leverancier. Vergeet niet dat 3D NAND TLC drives het best geschikt zijn voor lees-, niet voor schrijfgeoptimaliseerde toepassingen. Dit lijkt het meest op de toepassing die geschikt is voor nearline of “fat” HDD’s. De UBER-snelheid voor een SATA HDD is 10-15. Het UBER voor nearline SAS HDD’s is 10-16. De UBER-ratings voor 3D NAND TLC-schijven zijn op het moment van schrijven nog niet bekendgemaakt; verwacht wordt echter dat ze minstens even hoog of hoger zullen zijn dan SATA- of SAS-HDD’s.

Hoe gevaarlijk is bitrot?

Hoewel de meeste opslagleveranciers zich inspannen om bitrot tegen te gaan, heeft NetApp onlangs studies uitgevoerd waarin het risico ervan wordt afgezwakt.

“Hoewel ‘bitrot’ de laatste tijd redelijk wat aandacht heeft gekregen, tonen twee door NetApp gesponsorde onderzoeken aan dat bitrot veel minder een probleem is voor de betrouwbaarheid van storage arrays dan veel andere factoren”, zegt John Martin, Principal Technologist voor NetApp Australia New Zealand.

Een van de studies waar Martin naar verwijst, A Highly Accurate Method for Assessing Reliability of Redundant Arrays of Inexpensive Disks (RAID) door Jon G. Elerath en Michael Pecht, verscheen in het tijdschrift IEEE TRANSACTIONS ON COMPUTERS, VOL. 58, NO. 3, MARCH 2009″.

Martin vat het artikel samen door te zeggen dat Bit Rot een risico is, omdat het “het schrikbeeld oproept, niet alleen van een verloren of beschadigd bestand, maar van de mogelijkheid om een hele RAID-groep volledig te verliezen na het falen van een enkele schijf als gevolg van het ‘Media Error on Data Reconstruct’-probleem. “

Maar Martin voegt eraan toe dat “Het minder catastrofale probleem op een array van enterpriseklasse veel minder is omdat de extra foutdetectie en -correctie die beschikbaar is door het gebruik van RAID en controlesommen op blokniveau betekent dat de kans dat bitrot het verlies of de corruptie van een bestand veroorzaakt, zeer klein is.”

WhatreDraising on Elerath and Pecht’s paper, Martin, offers four other phenomena as more likely sources of data loss, namely:

  • “Thermal asperities” – Instances of high heat for a short duration caused by head-disk contact. Dit is gewoonlijk het gevolg van het contact van de kop met kleine “hobbels” die worden gevormd door deeltjes die tijdens het fabricageproces in het mediumoppervlak worden ingebed. De warmte die bij één contact vrijkomt, is wellicht niet voldoende om gegevens thermisch te wissen, maar wel na veel contacten;
  • Problemen met de schijfkop – Schijfkoppen zijn ontworpen om deeltjes weg te duwen, maar verontreinigingen kunnen toch vast komen te zitten tussen de kop en de schijf, harde deeltjes die bij de fabricage van een HDD worden gebruikt, kunnen krassen op het oppervlak veroorzaken en gegevens wissen telkens als de schijf draait;
  • Corruptie door zachte deeltjes – Andere “zachte” materialen, zoals roestvrij staal, kunnen afkomstig zijn van assemblagegereedschap. Zachte deeltjes hebben de neiging zich over het oppervlak van de media uit te smeren, waardoor de gegevens onleesbaar worden;
  • Corrosie – Hoewel zorgvuldig gecontroleerd, kan ook het wissen van gegevens veroorzaken en kan worden versneld door warmte die door thermische asperiteiten wordt opgewekt.

Wat de oorzaak van verloren gegevens ook is, storagebeheerders hebben een manier nodig om deze te bestrijden, en NetApp’s Martin beveelt ‘disk scrubs’ aan, de praktijk van het wissen van schijven om probleemsectoren te wissen. Een ander alternatief is om “extra RAID-beschermingsniveaus te gebruiken, zoals RAID-6, waarmee een hoger niveau van veerkracht en foutcorrectie mogelijk is in het geval van een latente blokfout bij het reconstrueren van een RAID-set. NetApp gebruikt beide benaderingen omdat studies hebben aangetoond dat het risico van dataverlies door dit soort gebeurtenissen duizenden malen hoger is dan voorspeld door de meeste eenvoudige ‘MTBF’-faalmodellen.

Keith Busson, Quantums Country Manager voor Australië en Nieuw-Zeeland, heeft prozaïscher advies voor het verbeteren van Bit Rot.

“Quantum raadt IT-organisaties aan regelmatig dataherstel te oefenen,” zegt hij. “Het is belangrijk om aan te tonen dat snel en uitgebreid dataherstel mogelijk is voordat het in een noodsituatie nodig is. Dergelijke tests zijn niet alleen een test van hardware en software, maar ook van mensen en processen.”

5 Aandelen