Bit Rot: What It Is and How To Stop It From Destroying Your Data


Bit rot sună ca ceva organic care se întâmplă în timp. Dar adevărul este mult mai imediat și mai tehnic. Discurile dure sunt comercializate ca fiind extrem de fiabile și adesea citează timpi medii între defecțiuni (MTBF) de sute de mii de ore. Dar, în timp ce unitățile continuă să se mențină, este încă posibil să se piardă date datorită acestui fenomen de putrezire a biților.

Ce este mai exact putrezirea biților?

Scoateți un microscop și priviți suprafața unui hard disk și veți vedea un peisaj accidentat de metale exotice dispuse în modele rezonabil de ordonate.

Metalele trebuie să fie ordonate pentru că o unitate de disc livrează un impuls foarte precis de electricitate într-o regiune foarte mică a discului, schimbându-i încărcătura stocată pentru a denota datele stocate.

Oriceori, aceste regiuni își pierd sau își schimbă spontan încărcătura, un fenomen cunoscut sub numele de „răsturnare”. Atunci când o regiune de pe un disc se răstoarnă, datele pe care le conține sunt șterse, corupte sau devenite ilizibile. Pentru a denota natura misterioasă a acestei degradări, industria a dezvoltat termenul cu iz organic „bit rot” pentru a explica fenomenul.

Furnizorii de matrice de stocare sunt conștienți de bit rot și își construiesc produsele pentru a identifica defectele din discuri înainte de a le plasa în matrice, iar apoi monitorizează discurile în producție pentru a detecta putrezirea înainte ca aceasta să devină o problemă.

„EMC achiziționează și apoi vinde numai unități care au un procent scăzut de defecțiuni ale sectorului de „fabricație””, explică Clive Gold, Marketing Chief Technology Officer pentru EMC Australia Noua Zeelandă.

Compania scanează, de asemenea, unitățile pentru a se asigura că bit rot nu distruge datele.

„Toate datele care sunt primite de către front-end sunt ‘etichetate’ și acest lucru permite back-end-ului să verifice datele care sunt stocate pe disc pentru a se asigura că nu s-au schimbat pe măsură ce au trecut prin sistemul de stocare”, explică Gold. „De fapt, în cazul în care o aplicație, cum ar fi bazele de date Oracle, are o sumă de control, noi o folosim pentru a asigura integritatea de la un capăt la altul, de la aplicație până la rugina de pe disc! Aceste tehnologii fac atât detecție, cât și corecție.”

Adrian De Luca, directorul de pre-vânzări și soluții pentru Australia și Noua Zeelandă al Hitachi Data Systems, spune că firma sa are grijă, de asemenea, să se asigure că unitățile deteriorate nu distrug datele, prin măsuri de precauție privind conectivitatea, precum și prin verificări ale corupției.

„HDS se asigură că toate unitățile de disc fizice sunt dual-portate în placa de bază, în controllere și în memoria cache pentru a se asigura că nu există un singur punct fizic de eșec, deoarece datele intră prin controllerele frontale și ies pe discurile fizice”, spune el. „De asemenea, susținem Oracle H.A.R.D. (Hardware Assisted Resilient Data) pentru a preveni ca blocurile de date corupte generate în infrastructura sistemului de stocare a bazei de date să fie scrise pe discul de stocare.”

Se produce putrezirea biților în unitățile de stocare solidă (SSD)

Răspunsul simplu: da. Cu toate acestea, putrezirea de biți pentru SSD-urile flash este destul de diferită de putrezirea de biți pe unitățile de hard disk.

După cum am aflat, putrezirea de biți pentru HDD-uri apare atunci când polaritatea magnetică a unui bit se inversează spontan din cauza radiațiilor electromagnetice din mediul înconjurător. Putrefacția de biți a SSD-urilor flash apare atunci când starea unei celule NAND se schimbă din cauza scurgerilor de electroni.

Cu cât crește numărul de stări în cadrul unei celule, cu atât crește și potențialul de scurgere a electronilor. SLC are două stări, 0,1; MLC are patru stări, 00, 01, 11, 10; iar TLC are opt stări, 000, 001, 010, 011, 100, 110, 101, 111. Aceasta înseamnă că este cel mai probabil să apară bit rot cu unitățile flash TLC NAND.

Modul în care producătorii gestionează probabilitățile crescute de bit rot este prin utilizarea extensivă a codurilor de corectare a erorilor (ECC). Evident, ECC pentru TLC trebuie să fie considerabil mai sensibil decât ECC pentru SLC sau MLC. Iar vânzătorii de unități 3D NAND TLC știu acest lucru și au încorporat un ECC mult mai sensibil.

Determinarea eficienței unei unități 3D NAND TLC în combaterea putrefacției de biți se reduce la rata de eroare de biți nerecuperabilă (UBER) evaluată de către vânzătorul de unități 3D NAND flash. Rețineți că unitățile 3D NAND TLC sunt cele mai potrivite pentru aplicații optimizate pentru citire și nu pentru scriere. Acest lucru se aseamănă cel mai mult cu aplicația potrivită pentru HDD-urile nearline sau „grase”. Rata UBER pentru un HDD SATA este de 10-15. Rata UBER pentru HDD-urile SAS nearline este de 10-16. Ratele UBER pentru unitățile 3D NAND TLC nu au fost publicate până în momentul redactării acestui articol; cu toate acestea, se așteaptă ca acestea să fie cel puțin la fel sau mai mari decât cele ale HDD-urilor SATA sau SAS.

Cât de periculos este Bit Rot?

În timp ce Bit Rot este ceva ce majoritatea furnizorilor de soluții de stocare încearcă să contracareze, NetApp a realizat recent studii care minimizează riscul pe care îl reprezintă.

„În timp ce „bit rot” a primit o atenție rezonabilă în ultima vreme, două studii sponsorizate de NetApp arată că bit rot este o problemă mult mai puțin importantă pentru fiabilitatea matricei de stocare decât mulți alți factori”, spune John Martin, tehnolog principal pentru NetApp Australia Noua Zeelandă.

Una dintre lucrările la care se referă Martin, A Highly Accurate Method for Assessing Reliability of Redundant Arrays of Inexpensive Disks (RAID) de Jon G. Elerath și Michael Pecht, a apărut în revista IEEE TRANSACTIONS ON COMPUTERS, VOL. 58, NO. 3, MARTIE 2009″.

Martin rezumă lucrarea spunând că Bit Rot este un risc, deoarece „ridică spectrul, nu doar al unui fișier pierdut sau corupt, ci și al potențialului de a pierde complet un întreg grup RAID după defectarea unei singure unități din cauza problemei ‘Media Error on Data Reconstruct’. „

Dar Martin adaugă că „Problema mai puțin catastrofală pe o matrice de tip enterprise este mult mai mică, deoarece detectarea și corectarea suplimentară a erorilor disponibile prin utilizarea RAID și a sumelor de verificare la nivel de bloc înseamnă că șansele ca putrezirea biților să provoace pierderea sau coruperea unui fișier sunt extrem de mici.”

WhatreDesprinzându-se din lucrarea lui Elerath și Pecht, Martin, oferă, prin urmare, alte patru fenomene ca fiind surse mai probabile de pierdere de date, și anume:

  • „Asperități termice” – Cazuri de căldură ridicată pentru o perioadă scurtă de timp cauzate de contactul cap-disc. Acesta este, de obicei, rezultatul faptului că capetele se lovesc de mici „umflături” create de particule încorporate în suprafața suportului în timpul procesului de fabricație. Căldura generată la un singur contact poate să nu fie suficientă pentru a șterge termic datele, dar poate fi suficientă după mai multe contacte;
  • Probleme legate de capetele de disc – Capetele de disc sunt proiectate pentru a împinge particulele la distanță, dar contaminanții pot totuși să se depună între cap și disc, particulele dure folosite la fabricarea unui HDD, pot cauza zgârieturi la suprafață și ștergerea datelor în orice moment în care discul se rotește;
  • Corupția particulelor moi – Alte materiale „moi”, cum ar fi oțelul inoxidabil, pot proveni de la uneltele de asamblare. Particulele moi tind să se împrăștie pe suprafața suportului, făcând datele ilizibile;
  • Corodarea – Deși controlată cu atenție, poate provoca, de asemenea, ștergerea datelor și poate fi accelerată de căldura generată de asperitățile termice.

Cu oricare ar fi cauza pierderii datelor, administratorii de stocare au nevoie de o modalitate de a o combate, iar Martin de la NetApp recomandă „disk scrubs”, practica de ștergere a discurilor pentru a șterge orice sector cu probleme. O altă alternativă este „utilizarea unor niveluri suplimentare de protecție RAID, cum ar fi RAID-6, care permite niveluri mai ridicate de reziliență și corecție a erorilor în cazul în care, la reconstrucția unui set RAID, se întâlnește o eroare de bloc latentă. NetApp utilizează ambele abordări, deoarece studiile au arătat că riscul de a pierde date prin aceste tipuri de evenimente este de mii de ori mai mare decât cel prezis de majoritatea modelelor simple de defecțiune „MTBF”.

Keith Busson, Country Manager al Quantum pentru Australia și Noua Zeelandă, are un sfat mai prozaic pentru ameliorarea Bit Rot.

„Quantum recomandă ca organizațiile IT să pună în scenă practica recuperărilor de date în mod regulat”, spune el. „Este important să se demonstreze capacitatea de recuperare rapidă și completă a datelor înainte ca aceasta să fie necesară într-o situație de urgență. O astfel de testare este un test nu numai al hardware-ului și software-ului, ci și al oamenilor și proceselor.”

5 Acțiuni

.