Bit Rot: Hvad det er, og hvordan du stopper det fra at ødelægge dine data


Bitrot lyder som noget organisk, der sker over tid. Men sandheden er meget mere umiddelbar og teknisk. Harddiske markedsføres som yderst pålidelige og angiver ofte gennemsnitlige tider mellem fejl (MTBF) i hundredtusindvis af timer. Men selv om harddiskene bliver ved og ved, er det stadig muligt at miste data takket være fænomenet bitrot.

Hvad er bitrot egentlig?

Tag et mikroskop frem og kig på overfladen af en harddisk, og du vil se et ujævnt landskab af eksotiske metaller, der er anbragt i rimeligt pæne mønstre.

Metallerne skal være pæne, fordi et diskdrev afgiver et meget præcist elektrisk stød til et meget lille område af disken og ændrer dets lagrede ladning for at angive de lagrede data.

I nogle tilfælde mister eller ændrer disse områder spontant deres ladning, et fænomen, der kaldes “flipping”. Når et område på en disk flipper, bliver de data, det indeholder, slettet, ødelagt eller gjort ulæselige. For at betegne den mystiske karakter af denne nedbrydning har industrien udviklet det organisk klingende udtryk “bitrot” for at forklare fænomenet.

Leverandørerne af storagearrays er opmærksomme på bitrot og bygger deres produkter til at identificere fejl i diske, før de placerer dem i arrays, og overvåger derefter diske i produktion for at opdage rot, før det bliver et problem.

“EMC køber og sælger kun diske, der har en lav procentdel af fejl i “produktionssektoren”,” forklarer Clive Gold, Marketing Chief Technology Officer for EMC Australia New Zealand.

Selskabet scanner også diske for at sikre, at bitrot ikke ødelægger data.

“Alle data, der modtages af frontenden, bliver ‘tagget’, og det giver backend’en mulighed for at kontrollere de data, der er gemt på disken, for at sikre, at de ikke er blevet ændret, mens de er gået gennem lagringssystemet”, forklarer Gold. “Faktisk, hvor en applikation som Oracle-databaser har en checksum, bruger vi den til at sikre end-to-end-integritet, fra applikation til rusten på disken! Disse teknologier gør både detektion og korrektion.”

Adrian De Luca, Hitachi Data Systems’ direktør for pre-sales og løsninger for Australien og New Zealand, siger, at hans virksomhed også sørger for at sikre, at beskadigede drev ikke ødelægger data, ved hjælp af forholdsregler for forbindelsesmuligheder samt korruptionskontroller.

“HDS sikrer, at alle fysiske diskdrev er dobbeltportede til backplane, controllere og cache for at sikre, at der ikke er noget fysisk single point of failure, når data kommer ind gennem front-end controllerne og ud til de fysiske diske”, siger han. “Vi understøtter også Oracle H.A.R.D (Hardware Assisted Resilient Data) for at forhindre, at beskadigede datablokke, der genereres i infrastrukturen for database-til-lagringssystemet, bliver skrevet på disklageret.”

Forekommer Bit Rot i Solid State Drives (SSD)

Det enkle svar: ja. Bitrot for flash-SSD’er er dog helt anderledes end bitrot på harddiske.

Som vi har lært, opstår bitrot for harddiske, når den magnetiske polaritet på en bit spontant vendes på grund af elektromagnetisk stråling i omgivelserne. Flash SSD-bitrot opstår, når tilstanden i en NAND-celle ændres på grund af elektronlækage.

Da antallet af tilstande i en celle øges, øges også potentialet for elektronlækage. SLC har to tilstande, 0,1; MLC har fire tilstande, 00, 01, 11, 10; og TLC har otte tilstande, 000, 001, 010, 011, 100, 110, 101, 111. Det betyder, at der er størst sandsynlighed for bitrot med TLC NAND-flashdrev.

Den måde, hvorpå producenterne håndterer den øgede sandsynlighed for bitrot, er gennem omfattende brug af fejlkorrektionskoder (ECC). Det er klart, at ECC’en til TLC skal være betydeligt mere følsom end ECC’en til SLC eller MLC. Og 3D NAND TLC-drevleverandørerne ved det og har indbygget meget mere følsomme ECC’er.

Det er den uoprettelige bitfejlrate (UBER), som 3D NAND flashleverandøren vurderer, der er afgørende for, hvor effektivt et 3D NAND TLC-drev er til bekæmpelse af bitrot. Husk, at 3D NAND TLC-drev er bedst egnede til læse- og ikke skriveoptimerede applikationer. Dette svarer mest til den anvendelse, der passer til nearline- eller “fede” HDD’er. UBER-hastigheden for en SATA-harddisk er 10-15. UBER-hastigheden for nearline SAS HDD’er er 10-16. UBER-klassificeringerne for 3D NAND TLC-drev er ikke blevet offentliggjort i skrivende stund; de forventes dog at være mindst lige så store eller højere end SATA- eller SAS-harddiske.

Hvor farlig er Bit Rot?

Selv om Bit Rot er noget, som de fleste lagerleverandører arbejder på at imødegå, har NetApp for nylig gennemført undersøgelser, der nedtoner risikoen.

“Mens ‘bit rot’ har fået rimelig meget opmærksomhed på det seneste, viser to undersøgelser sponsoreret af NetApp, at bit rot er langt mindre problematisk for storage array-pålideligheden end mange andre faktorer,” siger John Martin, Principal Technologist for NetApp Australia New Zealand.

En af de artikler, Martin henviser til, A Highly Accurate Method for Assessing Reliability of Redundant Arrays of Inexpensive Disks (RAID) af Jon G. Elerath og Michael Pecht, blev offentliggjort i tidsskriftet IEEE TRANSACTIONS ON COMPUTERS, VOL. 58, NO. 3, MARCH 2009″.

Martin opsummerer artiklen ved at sige, at Bit Rot er en risiko, da det “rejser spøgelset, ikke blot for en tabt eller beskadiget fil, men for potentialet til helt at miste en hel RAID-gruppe efter fejl på et enkelt drev på grund af problemet med ‘Media Error on Data Reconstruct’. “

Men Martin tilføjer, at “Det mindre katastrofale problem på et array i virksomhedsklasse er langt mindre, fordi den ekstra fejlregistrering og -korrektion, der er tilgængelig ved brug af RAID og kontrolsummer på blokniveau, betyder, at chancerne for, at bitrot forårsager tab eller korruption af en fil, er forsvindende ringe.”

WhatreMed udgangspunkt i Elerath og Pechts artikel tilbyder Martin derfor fire andre fænomener som mere sandsynlige kilder til datatab, nemlig:

  • “Thermal asperities” – Tilfælde af høj varme i en kort periode forårsaget af kontakt mellem hoved og disk. Dette er normalt et resultat af, at hovederne rammer små “bump”, som er skabt af partikler, der er indlejret i medieoverfladen under fremstillingsprocessen. Den varme, der genereres ved en enkelt kontakt, er måske ikke tilstrækkelig til at slette data termisk, men kan være tilstrækkelig efter mange kontakter;
  • Problemer med diskhoveder – Diskhoveder er designet til at skubbe partikler væk, men forurenende stoffer kan stadig sætte sig fast mellem hovedet og disken, hårde partikler, der anvendes ved fremstillingen af en harddisk, kan forårsage overfladeridseridser og dataløsning, hver gang disken roterer;
  • Korruption af bløde partikler – Andre “bløde” materialer som f.eks. rustfrit stål kan komme fra monteringsværktøjet. Bløde partikler har en tendens til at smøre hen over mediets overflade, hvilket gør dataene ulæselige;
  • Korrosion – Selv om den er omhyggeligt kontrolleret, kan den også forårsage datasletning og kan fremskyndes af varme, der genereres af termisk aspertitet.

Uanset årsagen til tabte data har lageradministratorer brug for en måde at bekæmpe den på, og NetApp’s Martin anbefaler “disk scrubs”, hvor man tørrer diske af for at slette eventuelle problemsektorer. Et andet alternativ er at “bruge yderligere RAID-beskyttelsesniveauer som f.eks. RAID-6, der giver mulighed for højere niveauer af modstandsdygtighed og fejlkorrektion i tilfælde af latente blokfejl ved rekonstruktion af et RAID-sæt”. NetApp bruger begge tilgange, da undersøgelser har vist, at risikoen for at miste data ved denne type hændelser er tusindvis af gange højere end forudsagt af de fleste simple ‘MTBF’-fejlmodeller.”

Keith Busson, Quantums landechef for Australien og New Zealand, har mere prosaiske råd til at afhjælpe Bit Rot.

“Quantum anbefaler, at it-organisationer regelmæssigt afholder øvelser for data-genoprettelser,” siger han. “Det er vigtigt at demonstrere evnen til hurtig, omfattende datagendannelse, før det bliver nødvendigt i en nødsituation. En sådan test er ikke kun en test af hardware og software, men også af mennesker og processer.”

5 Shares