Bit Rot: What It Is and How To Stop It From Destroying Your Data


Bit rot brzmi jak coś organicznego, co dzieje się z czasem. Ale prawda jest o wiele bardziej bezpośrednia i techniczna. Dyski twarde są reklamowane jako niezwykle niezawodne i często podaje się średni czas między awariami (MTBF) w setkach tysięcy godzin. Jednak podczas gdy dyski nie przestają działać, nadal możliwa jest utrata danych dzięki zjawisku bitów zgnilizny.

Czym dokładnie jest zjawisko bitów zgnilizny?

Wyciągnij mikroskop i spójrz na powierzchnię dysku twardego, a zobaczysz wyboisty krajobraz egzotycznych metali ułożonych w dość schludne wzory.

Metale muszą być czyste, ponieważ dysk twardy dostarcza bardzo precyzyjny impuls elektryczny do bardzo małego obszaru dysku, zmieniając jego ładunek w celu oznaczenia zapisanych danych.

Czasami te obszary spontanicznie tracą lub zmieniają swój ładunek, co jest zjawiskiem znanym jako „przerzucanie”. Kiedy region na dysku ulega odwróceniu, zawarte w nim dane zostają wymazane, uszkodzone lub stają się nieczytelne. Aby podkreślić tajemniczą naturę tej degradacji, branża opracowała organicznie brzmiący termin „bit rot”, aby wyjaśnić to zjawisko.

Sprzedawcy macierzy pamięci masowej są świadomi zjawiska bit rot i konstruują swoje produkty w taki sposób, aby identyfikować wady dysków przed umieszczeniem ich w macierzach, a następnie monitorują dyski w produkcji w celu wykrycia błędów, zanim staną się one problemem.

„EMC kupuje, a następnie sprzedaje tylko dyski, które mają niski odsetek awarii sektora 'produkcyjnego'”, wyjaśnia Clive Gold, dyrektor ds. marketingu i technologii w EMC Australia Nowa Zelandia.

Firma skanuje również dyski, aby upewnić się, że technologia bit rot nie niszczy danych.

„Wszystkie dane otrzymywane przez system front-end są „oznaczane”, a to pozwala systemowi back-end sprawdzić dane przechowywane na dysku, aby upewnić się, że nie uległy one zmianie podczas przechodzenia przez system pamięci masowej” – wyjaśnia Gold. „W rzeczywistości, gdy aplikacja, taka jak bazy danych Oracle, ma sumę kontrolną, używamy jej do zapewnienia integralności end-to-end, od aplikacji do rdzy na dysku! Te technologie umożliwiają zarówno wykrywanie, jak i korygowanie.”

Adrian De Luca, dyrektor ds. sprzedaży wstępnej i rozwiązań w Hitachi Data Systems w Australii i Nowej Zelandii, twierdzi, że jego firma dba również o to, aby uszkodzone dyski nie niszczyły danych, stosując środki ostrożności w zakresie łączności oraz kontrole uszkodzeń.

„HDS zapewnia, że wszystkie fizyczne dyski są podwójnie podłączone do płyty tylnej, kontrolerów i pamięci podręcznej, aby zapewnić, że nie ma fizycznego pojedynczego punktu awarii, ponieważ dane są wprowadzane przez kontrolery przednie i wyprowadzane na fizyczne dyski” – mówi. „Obsługujemy również technologię Oracle H.A.R.D (Hardware Assisted Resilient Data), aby zapobiec zapisywaniu na dysku uszkodzonych bloków danych generowanych w infrastrukturze systemu bazodanowo-pamięci masowej.”

Czy Bit Rot występuje w dyskach SSD (Solid State Drives)

Prosta odpowiedź: tak. Jednak bit rot w przypadku dysków SSD flash jest zupełnie inny niż bit rot na dyskach twardych.

Jak się dowiedzieliśmy, bit rot w przypadku dysków HDD występuje, gdy biegunowość magnetyczna bitu spontanicznie zmienia się pod wpływem promieniowania elektromagnetycznego w otoczeniu. Bit rot w dyskach flash SSD występuje, gdy stan komórki NAND zmienia się z powodu wycieku elektronów.

 Wraz ze wzrostem liczby stanów w komórce rośnie potencjał wycieku elektronów. SLC ma dwa stany, 0,1; MLC ma cztery stany, 00, 01, 11, 10; a TLC ma osiem stanów, 000, 001, 010, 011, 100, 110, 101, 111. Oznacza to, że bit rot jest najbardziej prawdopodobny w przypadku dysków TLC NAND flash.

Sposób, w jaki producenci radzą sobie ze zwiększonym prawdopodobieństwem wystąpienia bit rot, polega na szerokim zastosowaniu kodów korygujących błędy (ECC). Oczywiście, ECC dla TLC musi być znacznie bardziej czuły niż ECC dla SLC lub MLC. Producenci napędów 3D NAND TLC wiedzą o tym i wprowadzili znacznie bardziej czułe kody ECC.

Określenie skuteczności napędu 3D NAND TLC w walce z bit rotacją sprowadza się do współczynnika błędów nieodzyskiwalnych (UBER), ocenianego przez producenta 3D NAND flash. Należy pamiętać, że dyski 3D NAND TLC najlepiej nadają się do zastosowań zoptymalizowanych pod kątem odczytu, a nie zapisu. Jest to najbardziej zbliżone do zastosowania dysków twardych typu nearline lub „grubych”. Współczynnik UBER dla dysku twardego SATA wynosi 10-15. Wskaźnik UBER dla dysków twardych SAS typu nearline wynosi 10-16. Współczynnik UBER dla dysków 3D NAND TLC nie został jeszcze podany do wiadomości publicznej, jednak oczekuje się, że będzie on co najmniej taki sam lub wyższy niż dla dysków twardych SATA lub SAS.

Jak niebezpieczne jest zjawisko Bit Rot?

Choć Bit Rot jest czymś, czemu większość producentów pamięci masowej stara się przeciwdziałać, firma NetApp przeprowadziła ostatnio badania, które umniejszają związane z nim ryzyko.

Jedna z prac, do których odnosi się Martin, A Highly Accurate Method for Assessing Reliability of Redundant Arrays of Inexpensive Disks (RAID) autorstwa Jona G. Eleratha i Michaela Pechta, ukazała się w czasopiśmie IEEE TRANSACTIONS ON COMPUTERS, VOL. 58, NO. 3, MARCH 2009″.

Martin podsumowuje artykuł mówiąc, że Bit Rot stanowi ryzyko, ponieważ „podnosi widmo, nie tylko utraconego lub uszkodzonego pliku, ale potencjalnej możliwości całkowitej utraty całej grupy RAID po awarii pojedynczego dysku z powodu problemu 'Media Error on Data Reconstruct’. „

Ale Martin dodaje, że „Mniej katastrofalny problem na macierzy klasy korporacyjnej jest znacznie mniejszy, ponieważ dodatkowe wykrywanie i korekcja błędów dostępne dzięki zastosowaniu RAID i sum kontrolnych na poziomie bloków oznacza, że szanse na to, że bit rot spowoduje utratę lub uszkodzenie pliku są znikome.”Opierając się na pracy Eleratha i Pechta, Martin proponuje zatem cztery inne zjawiska jako bardziej prawdopodobne źródła utraty danych, a mianowicie:

  • „Thermal asperities” – Krótkotrwałe przypadki wysokiej temperatury spowodowane kontaktem głowicy z dyskiem. Jest to zwykle wynik uderzenia głowicy w małe „nierówności” utworzone przez cząsteczki osadzone na powierzchni nośnika w procesie produkcji. Ciepło wytwarzane podczas pojedynczego kontaktu może nie być wystarczające do termicznego usunięcia danych, ale może być wystarczające po wielu kontaktach;
  • Problemy z głowicami dysków – głowice dysków są zaprojektowane w taki sposób, aby odpychać cząstki stałe, ale zanieczyszczenia mogą nadal pozostawać między głowicą a dyskiem; twarde cząstki stosowane w produkcji dysków twardych mogą powodować zarysowania powierzchni i wymazywanie danych przy każdym obrocie dysku;
  • Korupcja cząstek miękkich – inne „miękkie” materiały, takie jak stal nierdzewna, mogą pochodzić z narzędzi montażowych. Miękkie cząstki mają tendencję do rozmazywania się na powierzchni nośnika, uniemożliwiając odczytanie danych;
  • Korozja – chociaż starannie kontrolowana, może również powodować wymazywanie danych i może być przyspieszana przez ciepło generowane przez osady termiczne.

Niezależnie od przyczyny utraty danych, administratorzy pamięci masowej muszą znaleźć sposób na jej zwalczanie, a Martin z firmy NetApp zaleca „disk scrubs”, czyli praktykę wycierania dysków w celu usunięcia wszystkich problematycznych sektorów. Inną alternatywą jest „użycie dodatkowych poziomów ochrony RAID, takich jak RAID-6, który pozwala na zwiększenie odporności i korekcji błędów w przypadku trafienia na ukryty błąd bloku podczas rekonstrukcji zestawu RAID”. NetApp stosuje oba podejścia, ponieważ badania wykazały, że ryzyko utraty danych w wyniku tego rodzaju zdarzeń jest tysiące razy większe niż przewidywane przez większość prostych modeli awaryjności „MTBF”.

Keith Busson, dyrektor krajowy Quantum na Australię i Nową Zelandię, ma bardziej prozaiczną radę, jak złagodzić skutki awarii Bit Rot.

„Quantum zaleca, aby organizacje IT regularnie przeprowadzały odzyskiwanie danych w praktyce” – mówi. „Ważne jest, aby zademonstrować możliwość szybkiego, kompleksowego odzyskiwania danych, zanim będzie to konieczne w sytuacji awaryjnej. Takie testy są sprawdzianem nie tylko sprzętu i oprogramowania, ale także ludzi i procesów.”

5 Akcji

.