Bit Rot: Vad det är och hur du stoppar det från att förstöra dina data


Bit rot låter som något organiskt som sker med tiden. Men sanningen är mycket mer omedelbar och teknisk. Hårddiskar marknadsförs som ytterst tillförlitliga och anger ofta medeltider mellan fel (MTBF) på hundratusentals timmar. Men även om hårddiskarna fortsätter att hålla på är det fortfarande möjligt att förlora data tack vare fenomenet bitrot.

Vad är bitrot egentligen?

Ta fram ett mikroskop och titta på ytan av en hårddisk och du kommer att se ett ojämnt landskap av exotiska metaller som är uppställda i någorlunda prydliga mönster.

Metallerna måste vara snygga eftersom en hårddisk ger en mycket exakt elstöt till en mycket liten del av skivan och ändrar dess lagrade laddning för att ange lagrade data.

Undertiden förlorar eller ändrar dessa områden spontant sin laddning, ett fenomen som kallas ”flipping”. När ett område på en disk vänder sig, raderas, korrumperas eller görs oläsbara de data som det innehåller. För att beteckna den mystiska karaktären hos denna nedbrytning har branschen utvecklat den organiskt klingande termen ”bitrot” för att förklara fenomenet.

Storage array-leverantörer är medvetna om bitrot och bygger sina produkter så att de identifierar fel i diskar innan de placerar dem i arrayer, och sedan övervakar de diskar i produktion för att upptäcka bitrot innan det blir ett problem.

”EMC köper och säljer bara hårddiskar som har en låg procentsats av fel i tillverkningssektorn”, förklarar Clive Gold, Marketing Chief Technology Officer för EMC Australia New Zealand.

Företaget skannar också hårddiskar för att se till att bitrot inte förstör data.

”Alla data som tas emot av front end ”taggas” och detta gör det möjligt för backend att kontrollera de data som lagras på disken för att se till att de inte har ändrats när de har gått genom lagringssystemet”, förklarar Gold. ”Faktum är att när en applikation som Oracle-databaser har en kontrollsumma använder vi den för att säkerställa integritet från slut till slut, från applikationen till rosten på disken! Dessa tekniker gör både upptäckt och korrigering.”

Adrian De Luca, Hitachi Data Systems Director of Pre-Sales and Solutions för Australien och Nya Zeeland, säger att hans företag också ser till att skadade hårddiskar inte förstör data, genom försiktighetsåtgärder för anslutning och korruptionskontroller.

”HDS ser till att alla fysiska diskenheter har dubbla portar till backplane, styrenheter och cache för att se till att det inte finns någon fysisk enda felpunkt när data kommer in genom front-end styrenheterna och ut till de fysiska diskarna”, säger han. ”Vi stöder också Oracle H.A.R.D (Hardware Assisted Resilient Data) för att förhindra att korrupta datablock som genereras i infrastrukturen för databas-till-lagringssystemet skrivs in på skivlagret.”

Finns Bit Rot i Solid State Drives (SSD)

Det enkla svaret: ja. Bitroten för flash-SSD-diskar är dock helt annorlunda än bitroten på hårddiskar.

Som vi lärt oss inträffar bitroten för hårddiskar när den magnetiska polariteten hos en bit spontant vänds om på grund av elektromagnetisk strålning i omgivningen. Bitroten på Flash SSD:er uppstår när tillståndet i en NAND-cell ändras på grund av elektronläckage.

Då antalet tillstånd i en cell ökar, ökar också potentialen för elektronläckage. SLC har två tillstånd, 0,1; MLC har fyra tillstånd, 00, 01, 11, 10; och TLC har åtta tillstånd, 000, 001, 010, 011, 100, 110, 101, 111. Det betyder att det är mest troligt att bitroten uppstår med TLC NAND flash-enheter.

Det sätt på vilket tillverkarna hanterar den ökade sannolikheten för bitroten är genom en omfattande användning av felkorrigerande koder (ECC). Det är uppenbart att ECC för TLC måste vara betydligt känsligare än ECC för SLC eller MLC. Detta vet tillverkarna av 3D NAND TLC-enheter och har infört mycket känsligare ECC.

För att avgöra hur effektiv en 3D NAND TLC-enhet är när det gäller att bekämpa bitrotrörelse, måste man ta hänsyn till den oåterkalleliga bitfelsfrekvensen (UBER) som tillverkaren av 3D NAND-flashenheten har bedömt. Tänk på att 3D NAND TLC-enheter lämpar sig bäst för läs- och inte skrivoptimerade tillämpningar. Detta är mest likt den tillämpning som passar för nearline- eller ”feta” hårddiskar. UBER-hastigheten för en SATA-hårddisk är 10-15. UBER-frekvensen för SAS-hårddiskar nära linjen är 10-16. UBER-värdena för 3D NAND TLC-enheter har inte offentliggjorts i skrivande stund, men de förväntas vara minst lika höga eller högre än för SATA- eller SAS-hårddiskar.

Hur farligt är Bit Rot?

Samtidigt som Bit Rot är något som de flesta lagringsleverantörer arbetar för att motverka, har NetApp nyligen genomfört studier som tonar ner den risk det utgör.

”Medan ”bit rot” har fått en rimlig mängd uppmärksamhet på senare tid, visar två av NetApp sponsrade studier att bit rot är ett mycket mindre problem för tillförlitligheten hos lagringsarrayer än många andra faktorer”, säger John Martin, huvudteknolog för NetApp Australia New Zealand.

En av de artiklar som Martin hänvisar till, A Highly Accurate Method for Assessing Reliability of Redundant Arrays of Inexpensive Disks (RAID) av Jon G. Elerath och Michael Pecht, publicerades i tidskriften IEEE TRANSACTIONS ON COMPUTERS, VOL. 58, NO. 3, MARCH 2009″.

Martin sammanfattar artikeln genom att säga att Bit Rot är en risk, eftersom det ”väcker spöket, inte bara av en förlorad eller skadad fil, utan av potentialen att helt förlora en hel RAID-grupp efter felet på en enskild enhet på grund av ’Media Error on Data Reconstruct’-problemet. ”

Men Martin tillägger att ”Det mindre katastrofala problemet på en array i företagsklass är mycket mindre eftersom den ytterligare feldetektering och korrigering som finns tillgänglig genom användning av RAID och kontrollsummor på blocknivå innebär att chansen att bitrutt orsakar förlust eller korruption av en fil är försvinnande liten.”

WhatreMed utgångspunkt i Elerath och Pechts artikel erbjuder Martin därför fyra andra fenomen som mer sannolika källor till dataförlust, nämligen:

  • ”Thermal asperities” – tillfällen med hög värme under en kort tidsperiod som orsakas av kontakt mellan huvud och disk. Detta är vanligtvis ett resultat av att huvudena träffar små ”stötar” som skapats av partiklar som bäddats in i mediaytan under tillverkningsprocessen. Den värme som genereras vid en enda kontakt är kanske inte tillräcklig för att termiskt radera data, men kan vara tillräcklig efter många kontakter;
  • Problem med diskhuvuden – Diskhuvuden är konstruerade för att skjuta bort partiklar, men föroreningar kan fortfarande fastna mellan huvudet och disken, hårda partiklar som används vid tillverkningen av hårddiskar kan orsaka repor på ytan och radering av data när disken roterar;
  • Korruption av mjuka partiklar – Andra ”mjuka” material, t.ex. rostfritt stål, kan komma från monteringsverktyg. Mjuka partiklar tenderar att smeta över mediernas yta, vilket gör data oläsbara;
  • Korrosion – Även om den är noggrant kontrollerad, kan den också leda till att data raderas och kan påskyndas av värme som genereras av termiska asperger.

Oavsett vad som är orsaken till dataförlusterna måste lagringsadministratörer hitta ett sätt att bekämpa dem, och Martin från NetApp rekommenderar ”disk scrubs”, dvs. att man torkar diskar för att radera alla problemsektorer. Ett annat alternativ är att ”använda ytterligare nivåer av RAID-skydd, t.ex. RAID-6 som ger högre nivåer av motståndskraft och felkorrigering i händelse av att man stöter på ett latent blockfel när man rekonstruerar en RAID-uppsättning”. NetApp använder båda tillvägagångssätten eftersom studier har visat att risken för att förlora data genom den här typen av händelser är tusentals gånger högre än vad som förutses av de flesta enkla ’MTBF’-felmodeller.

Keith Busson, Quantums landschef för Australien och Nya Zeeland, har mer prosaiska råd för att förbättra Bit Rot.

”Quantum rekommenderar att IT-organisationer regelbundet genomför praktiska dataåterställningar”, säger han. ”Det är viktigt att visa på förmågan till snabb och omfattande dataåterställning innan den behövs i en nödsituation. Sådana tester är ett test inte bara av hårdvara och mjukvara utan även av människor och processer.”

5 aktier

.