Bitfäule: Was es ist und wie Sie die Zerstörung Ihrer Daten verhindern


Bitfäule klingt wie etwas Organisches, das mit der Zeit entsteht. Aber die Wahrheit ist viel unmittelbarer und technischer. Festplatten werden als äußerst zuverlässig angepriesen, und oft wird eine mittlere Ausfallzeit (MTBF) von Hunderttausenden von Stunden angegeben. Aber auch wenn die Laufwerke weiterlaufen, ist es immer noch möglich, Daten durch das Phänomen der Bitfäule zu verlieren.

Was genau ist Bitfäule?

Ziehen Sie ein Mikroskop heraus und betrachten Sie die Oberfläche einer Festplatte, und Sie werden eine holprige Landschaft aus exotischen Metallen sehen, die in recht ordentlichen Mustern angeordnet sind.

Die Metalle müssen ordentlich sein, weil ein Festplattenlaufwerk einen sehr präzisen Stromstoß an einen sehr kleinen Bereich der Platte abgibt, der die gespeicherte Ladung verändert, um die gespeicherten Daten zu kennzeichnen.

Gelegentlich verlieren diese Bereiche spontan ihre Ladung oder verändern sie, ein Phänomen, das als „Flipping“ bekannt ist. Wenn ein Bereich auf einer Festplatte umkippt, werden die darin enthaltenen Daten gelöscht, beschädigt oder unlesbar gemacht. Um die mysteriöse Natur dieser Degradation zu beschreiben, hat die Industrie den organisch klingenden Begriff „Bitfäule“ entwickelt, um das Phänomen zu erklären.

Die Anbieter von Speicherarrays sind sich der Bitfäule bewusst und entwickeln ihre Produkte so, dass sie Fehler in den Festplatten erkennen, bevor sie sie in Arrays einbauen, und überwachen dann die Festplatten in der Produktion, um die Fäule zu erkennen, bevor sie zu einem Problem wird.

„EMC kauft und verkauft nur Laufwerke, die einen geringen Prozentsatz an „Herstellungs“-Sektorfehlern aufweisen“, erklärt Clive Gold, Marketing Chief Technology Officer für EMC Australia New Zealand.

Das Unternehmen scannt auch Laufwerke, um sicherzustellen, dass Bitfäule keine Daten zerstört.

„Alle Daten, die vom Front-End empfangen werden, werden ‚getaggt‘, und dies ermöglicht dem Back-End, die auf der Festplatte gespeicherten Daten zu überprüfen, um sicherzustellen, dass sie sich nicht verändert haben, während sie das Speichersystem durchlaufen haben“, erklärt Gold. „Wenn eine Anwendung wie Oracle-Datenbanken über eine Prüfsumme verfügt, verwenden wir diese, um die Integrität von der Anwendung bis zum Rost auf der Festplatte zu gewährleisten!

Adrian De Luca, Hitachi Data Systems‘ Director of Pre-Sales and Solutions für Australien und Neuseeland, sagt, dass sein Unternehmen auch darauf achtet, dass beschädigte Laufwerke keine Daten zerstören, und zwar durch Vorkehrungen für die Konnektivität und durch Korruptionsprüfungen.

„HDS stellt sicher, dass alle physischen Festplattenlaufwerke doppelt an die Backplane, die Controller und den Cache angeschlossen sind, um sicherzustellen, dass es keinen physischen Single Point of Failure gibt, da die Daten über die Front-End-Controller zu den physischen Festplatten gelangen“, sagt er. „Wir unterstützen auch Oracle H.A.R.D (Hardware Assisted Resilient Data), um zu verhindern, dass beschädigte Datenblöcke, die in der Datenbank-zu-Speichersystem-Infrastruktur erzeugt werden, auf den Plattenspeicher geschrieben werden.“

Kommt Bit Rot in Solid State Drives (SSD)

Die einfache Antwort: ja. Wie wir gelernt haben, tritt Bitfäule bei Festplattenlaufwerken auf, wenn sich die magnetische Polarität eines Bits aufgrund elektromagnetischer Strahlung in der Umgebung spontan umkehrt. Bei Flash-SSDs tritt Bit-Rot auf, wenn sich der Zustand einer NAND-Zelle aufgrund von Elektronenlecks ändert.

Als die Anzahl der Zustände innerhalb einer Zelle zunimmt, steigt auch das Potenzial für Elektronenlecks. SLC hat zwei Zustände, 0, 1; MLC hat vier Zustände, 00, 01, 11, 10; und TLC hat acht Zustände, 000, 001, 010, 011, 100, 110, 101, 111. Das bedeutet, dass Bitfäule bei TLC-NAND-Flash-Laufwerken am wahrscheinlichsten ist.

Die Hersteller gehen mit der erhöhten Wahrscheinlichkeit von Bitfäule durch den umfassenden Einsatz von Fehlerkorrekturcodes (ECC) um. Es liegt auf der Hand, dass der ECC für TLC wesentlich empfindlicher sein muss als der ECC für SLC oder MLC. Und die Hersteller von 3D-NAND-TLC-Laufwerken wissen das und haben eine viel empfindlichere ECC eingebaut.

Wie effektiv ein 3D-NAND-TLC-Laufwerk bei der Bekämpfung von Bitfäule ist, hängt von der nicht wiederherstellbaren Bitfehlerrate (UBER) ab, die vom 3D-NAND-Flash-Anbieter angegeben wird. Beachten Sie, dass 3D NAND TLC-Laufwerke am besten für lese- und nicht für schreiboptimierte Anwendungen geeignet sind. Dies entspricht am ehesten der Anwendung für Nearline- oder „Fat“-HDDs. Die UBER-Rate für eine SATA-Festplatte beträgt 10-15. Die UBER-Rate für Nearline-SAS-HDDs liegt bei 10-16. Die UBER-Werte für 3D NAND TLC-Laufwerke wurden zu diesem Zeitpunkt noch nicht veröffentlicht; es wird jedoch erwartet, dass sie mindestens genauso hoch oder höher sind als bei SATA- oder SAS-HDDs.

Wie gefährlich ist Bit Rot?

Während die meisten Storage-Anbieter Bit Rot entgegenwirken wollen, hat NetApp kürzlich Studien durchgeführt, die das Risiko herunterspielen.

„Während ‚Bit Rot‘ in letzter Zeit viel Aufmerksamkeit erhalten hat, zeigen zwei von NetApp gesponserte Studien, dass Bit Rot für die Zuverlässigkeit von Storage-Arrays weitaus weniger problematisch ist als viele andere Faktoren“, sagt John Martin, Principal Technologist bei NetApp Australia New Zealand.

Eine der Arbeiten, auf die sich Martin bezieht, A Highly Accurate Method for Assessing Reliability of Redundant Arrays of Inexpensive Disks (RAID) von Jon G. Elerath und Michael Pecht, erschien in der Zeitschrift IEEE TRANSACTIONS ON COMPUTERS, VOL. 58, NO. 3, MARCH 2009″.

Martin fasst das Papier mit den Worten zusammen, dass Bit Rot ein Risiko darstellt, da es „nicht nur das Schreckgespenst einer verlorenen oder beschädigten Datei aufwirft, sondern auch die Möglichkeit, eine gesamte RAID-Gruppe nach dem Ausfall eines einzelnen Laufwerks aufgrund des Problems ‚Media Error on Data Reconstruct‘ vollständig zu verlieren. „

Martin fügt jedoch hinzu: „Das weniger katastrophale Problem bei einem Array der Unternehmensklasse ist weitaus geringer, da die zusätzliche Fehlererkennung und -korrektur, die durch die Verwendung von RAID und Block-Level-Prüfsummen möglich ist, bedeutet, dass die Wahrscheinlichkeit, dass Bit-Fäule den Verlust oder die Beschädigung einer Datei verursacht, verschwindend gering ist.“

Ausgehend von der Arbeit von Elerath und Pecht bietet Martin daher vier andere Phänomene als wahrscheinlichere Quellen für Datenverluste an, nämlich:

  • „Thermische Unebenheiten“ – Fälle von hoher Hitze für kurze Zeit, die durch den Kontakt zwischen Kopf und Platte verursacht werden. Dies ist in der Regel das Ergebnis von Köpfen, die auf kleine „Unebenheiten“ treffen, die durch Partikel entstehen, die während des Herstellungsprozesses in die Medienoberfläche eingebettet wurden. Die bei einem einzigen Kontakt erzeugte Wärme reicht unter Umständen nicht aus, um Daten thermisch zu löschen, kann aber nach vielen Kontakten ausreichen;
  • Probleme mit Festplattenköpfen – Festplattenköpfe sind so konstruiert, dass sie Partikel wegdrücken, aber Verunreinigungen können sich dennoch zwischen Kopf und Platte festsetzen; harte Partikel, die bei der Herstellung einer Festplatte verwendet werden, können bei jeder Rotation der Platte Oberflächenkratzer und Datenlöschung verursachen;
  • Korruption durch weiche Partikel – Andere „weiche“ Materialien wie Edelstahl können von Montagewerkzeugen stammen. Weiche Partikel neigen dazu, die Oberfläche des Mediums zu verschmieren, wodurch die Daten unlesbar werden;
  • Korrosion – Obwohl sie sorgfältig kontrolliert wird, kann sie ebenfalls zur Datenlöschung führen und durch die von thermischen Unebenheiten erzeugte Hitze beschleunigt werden.

Was auch immer die Ursache für den Datenverlust ist, Storage-Administratoren brauchen eine Möglichkeit, ihn zu bekämpfen, und Martin von NetApp empfiehlt „Disk Scrubs“, die Praxis des Abwischens von Festplatten, um alle Problemsektoren zu löschen. Eine weitere Alternative ist die Verwendung zusätzlicher RAID-Schutzebenen wie RAID-6, die bei der Rekonstruktion eines RAID-Sets im Falle eines latenten Blockfehlers ein höheres Maß an Ausfallsicherheit und Fehlerkorrektur ermöglichen. NetApp verwendet beide Ansätze, da Studien gezeigt haben, dass das Risiko eines Datenverlusts durch diese Art von Ereignissen tausendmal höher ist, als die meisten einfachen MTBF-Fehlermodelle vorhersagen.

Keith Busson, Quantums Country Manager für Australien und Neuseeland, hat prosaischere Ratschläge zur Verbesserung von Bit Rot.

„Quantum empfiehlt, dass IT-Organisationen regelmäßig praktische Datenwiederherstellungen durchführen“, sagt er. „Es ist wichtig, die Fähigkeit einer schnellen, umfassenden Datenwiederherstellung zu demonstrieren, bevor sie in einer Notfallsituation benötigt wird. Solche Tests sind nicht nur ein Test für Hardware und Software, sondern auch für Menschen und Prozesse.“

5 Shares