Bit Rot:


A bit rothadás úgy hangzik, mint valami szerves dolog, ami idővel történik. Az igazság azonban sokkal közvetlenebb és technikai jellegű. A merevlemezeket rendkívül megbízhatónak reklámozzák, és gyakran több százezer órás átlagos meghibásodási időt (MTBF) adnak meg. De miközben a meghajtók folyamatosan működnek, a bitrothadás jelenségének köszönhetően még mindig lehetséges az adatvesztés.

Mi is pontosan a bitrothadás?

Vegyünk elő egy mikroszkópot, és nézzük meg a merevlemez felületét, és egzotikus fémek dudoros, meglehetősen rendezett mintákba rendezett tájképét fogjuk látni.

A fémeknek azért kell rendezettnek lenniük, mert a lemezmeghajtó egy nagyon pontos elektromos lökést ad a lemez egy nagyon kis területére, megváltoztatva annak tárolt töltését, hogy jelezze a tárolt adatokat.

Néha ezek a területek spontán elveszítik vagy megváltoztatják a töltésüket, ez az úgynevezett “flipping” jelenség. Amikor a lemezen egy régió átfordul, a benne lévő adatok törlődnek, sérülnek vagy olvashatatlanná válnak. E romlás rejtélyes természetének érzékeltetésére az iparágban a jelenség magyarázatára a “bit rot”, azaz “bitrohadás” kifejezés született.

A tárolótömbök gyártói tisztában vannak a bitrohadással, és termékeiket úgy építik fel, hogy a lemezek hibáit még a tömbökbe helyezésük előtt felismerjék, majd a gyártásban lévő lemezeket monitorozzák, hogy még azelőtt észleljék a rothadást, mielőtt az problémává válna.

“Az EMC csak olyan meghajtókat vásárol, majd ad el, amelyekben alacsony a “gyártási” szektorhibák aránya” – magyarázza Clive Gold, az EMC Australia New Zealand marketingvezetője.

A vállalat a meghajtókat is vizsgálja, hogy megbizonyosodjon arról, hogy a bit rot nem pusztítja el az adatokat.

“Minden adatot, amelyet a frontend kap, “megjelöli”, és ez lehetővé teszi a backend számára, hogy ellenőrizze a lemezen tárolt adatokat, és megbizonyosodjon arról, hogy azok nem változtak meg, miközben áthaladtak a tárolórendszeren” – magyarázza Gold. “Valójában, ahol egy alkalmazás, mint például az Oracle adatbázisok, rendelkezik ellenőrző összeggel, azt használjuk arra, hogy biztosítsuk a végponttól végpontig tartó integritást, az alkalmazástól a lemezen lévő rozsdáig! Ezek a technológiák a felismerés mellett a korrekciót is elvégzik.”

Adrian De Luca, a Hitachi Data Systems ausztráliai és új-zélandi előértékesítési és megoldási igazgatója szerint cége arra is ügyel, hogy a sérült meghajtók ne semmisítsék meg az adatokat, a csatlakoztatási óvintézkedések és a korrupciós ellenőrzések révén.

“A HDS biztosítja, hogy minden fizikai lemezmeghajtó kettős csatlakoztatású legyen a hátlaphoz, a vezérlőkhöz és a gyorsítótárhoz, hogy ne legyen egyetlen fizikai hibapont, mivel az adatok az elülső vezérlőkön keresztül érkeznek a fizikai lemezekhez” – mondja. “Támogatjuk az Oracle H.A.R.D-t (Hardware Assisted Resilient Data) is, hogy megakadályozzuk, hogy az adatbázis-tárolórendszer infrastruktúrájában keletkező sérült adatblokkok a lemezes tárolóra íródjanak.”

Megtörténik-e a Bit Rot a Solid State Drives (SSD)

Az egyszerű válasz: igen. A flash SSD-k bitrothadása azonban egészen más, mint a merevlemezes meghajtók bitrothadása.

Mint megtudtuk, a HDD-k bitrothadása akkor következik be, amikor egy bit mágneses polaritása spontán felcserélődik a környezet elektromágneses sugárzásától. A flash SSD-k bitrothadása akkor következik be, amikor a NAND-cella állapota elektronszivárgás miatt megváltozik.

Amint nő a cellán belüli állapotok száma, úgy nő az elektronszivárgás lehetősége is. Az SLC két állapottal rendelkezik, 0,1; az MLC négy állapottal rendelkezik, 00, 01, 11, 10; és a TLC nyolc állapottal rendelkezik, 000, 001, 010, 011, 100, 110, 101, 111. Ez azt jelenti, hogy a bitrohadás a TLC NAND flash meghajtóknál a legvalószínűbb.

A bitrohadás megnövekedett valószínűségét a gyártók a hibajavító kódok (ECC) széles körű alkalmazásával kezelik. Nyilvánvaló, hogy a TLC ECC-nek lényegesen érzékenyebbnek kell lennie, mint az SLC vagy MLC ECC-nek. A 3D NAND TLC meghajtók gyártói tudják ezt, és sokkal érzékenyebb ECC-t építettek be.

A 3D NAND TLC meghajtó hatékonyságának meghatározása a bitrohadás elleni küzdelemben a 3D NAND flash gyártója által meghatározott helyreállíthatatlan bithibaarány (UBER) alapján történik. Ne feledje, hogy a 3D NAND TLC meghajtók leginkább olvasásra, nem pedig írásra optimalizált alkalmazásokhoz alkalmasak. Ez leginkább a nearline vagy “kövér” HDD-khez illeszkedő alkalmazásokhoz hasonlít. Egy SATA HDD esetében az UBER-ráta 10-15. A nearline SAS HDD-k esetében az UBER-ráta 10-16. A 3D NAND TLC meghajtók UBER-értékeit e sorok írásakor még nem tették közzé, de várhatóan legalább ugyanolyan vagy magasabb lesz, mint a SATA vagy SAS HDD-ké.

Mennyire veszélyes a Bit Rot?

Míg a Bit Rot a legtöbb tárológyártó a Bit Rot ellen dolgozik, a NetApp a közelmúltban olyan tanulmányokat készített, amelyek lekicsinylik a kockázatot, amit jelent.

“Bár a ‘bit rot’ az utóbbi időben megfelelő mennyiségű figyelmet kapott, két, a NetApp által szponzorált tanulmány azt mutatja, hogy a bit rot sokkal kisebb problémát jelent a tárolótömbök megbízhatósága szempontjából, mint sok más tényező” – mondta John Martin, a NetApp Australia New Zealand vezető technológusa.

A Martin által említett egyik tanulmány, a Jon G. Elerath és Michael Pecht által írt A Highly Accurate Method for Assessing Reliability of Redundant Arrays of Inexpensive Disks (RAID), az IEEE TRANSACTIONS ON COMPUTERS folyóiratban jelent meg, VOL. 58, NO. 3, MARCH 2009″.

Martin úgy foglalja össze a cikket, hogy a Bit Rot kockázatot jelent, mivel “nem csak egy elveszett vagy sérült fájl, hanem egy egész RAID-csoport teljes elvesztésének lehetőségét is felveti egyetlen meghajtó meghibásodása után, a ‘Media Error on Data Reconstruct’ probléma miatt”. “

Martin azonban hozzáteszi, hogy “A kevésbé katasztrofális probléma egy vállalati kategóriájú tömbnél sokkal kisebb, mivel a RAID és a blokkszintű ellenőrző összegek használatával elérhető további hibaérzékelés és -javítás azt jelenti, hogy a bitrohadás esélye, amely egy fájl elvesztését vagy sérülését okozza, elenyészően kicsi.”

MitreMartin Elerath és Pecht tanulmányára támaszkodva ezért négy másik jelenséget ajánl az adatvesztés valószínűbb forrásaként, nevezetesen:

  • “Termikus aszperitások” – A fej és a lemez érintkezése által rövid ideig tartó nagy hőhatás. Ez általában annak az eredménye, hogy a fejek a gyártási folyamat során az adathordozó felületébe ágyazott részecskék által létrehozott kis “dudorokba” ütköznek. Az egyetlen érintkezés során keletkező hő nem feltétlenül elegendő az adatok termikus törléséhez, de sok érintkezés után elegendő lehet;
  • Lemezfej problémák – A lemezfejek úgy vannak kialakítva, hogy a részecskéket eltolják, de a szennyeződések mégis megtapadhatnak a fej és a lemez között, a HDD gyártása során használt kemény részecskék a lemez forgatásakor bármikor okozhatnak felületi karcolásokat és adattörlést;
  • Puha részecskék okozta sérülés – Más “puha” anyagok, mint például a rozsdamentes acél, az összeszerelési szerszámokból származhatnak. A puha részecskék hajlamosak elkenődni az adathordozó felületén, olvashatatlanná téve az adatokat;
  • Korrózió – Bár gondosan ellenőrzött, de szintén okozhat adattörlést, és a termikus aszperitás által generált hő felgyorsíthatja.

Bármi legyen is az adatvesztés oka, a tárolási rendszergazdáknak módot kell találniuk az ellene való küzdelemre, és a NetApp Martin a “disk scrubs”-ot ajánlja, vagyis a lemezek törlésének gyakorlatát a problémás szektorok törlése érdekében. Egy másik alternatíva a “RAID-védelem további szintjeinek használata, mint például a RAID-6, amely magasabb szintű rugalmasságot és hibajavítást tesz lehetővé a RAID-készlet rekonstrukciója során a látens blokkhiba esetén. A NetApp mindkét megközelítést alkalmazza, mivel tanulmányok kimutatták, hogy az ilyen jellegű események miatt bekövetkező adatvesztés kockázata ezerszer nagyobb, mint amit a legtöbb egyszerű “MTBF” hibamodell előre jelez.”

Keith Busson, a Quantum Ausztráliáért és Új-Zélandért felelős országigazgatója prózaibb tanácsokat ad a Bit Rot javítására.

“A Quantum azt javasolja, hogy az informatikai szervezetek rendszeresen rendezzenek adat-visszaállítási gyakorlatokat” – mondja. “Fontos demonstrálni a gyors, átfogó adatmentés képességét, mielőtt vészhelyzetben szükség lenne rá. Az ilyen tesztelés nemcsak a hardver és a szoftver, hanem az emberek és a folyamatok tesztje is.”

5 Shares