La pourriture des bits : Ce qu’elle est et comment l’empêcher de détruire vos données


La pourriture des bits ressemble à quelque chose d’organique qui se produit avec le temps. Mais la vérité est beaucoup plus immédiate et technique. Les disques durs sont commercialisés comme étant suprêmement fiables et citent souvent des temps moyens entre les pannes (MTBF) de plusieurs centaines de milliers d’heures. Mais si les disques continuent de fonctionner, il est toujours possible de perdre des données grâce à ce phénomène de pourriture des bits.

Qu’est-ce que la pourriture des bits, exactement ?

Tirez un microscope et regardez la surface d’un disque dur et vous verrez un paysage bosselé de métaux exotiques disposés selon des motifs raisonnablement soignés.

Les métaux doivent être nets parce qu’un lecteur de disque délivre une secousse très précise d’électricité à une très petite région du disque, changeant sa charge stockée pour dénoter les données stockées.

Parfois, ces régions perdent ou changent spontanément leur charge, un phénomène connu sous le nom de « flipping ». Lorsqu’une région d’un disque se retourne, les données qu’elle contient sont effacées, corrompues ou rendues illisibles. Pour dénoter la nature mystérieuse de cette dégradation, l’industrie a développé le terme à consonance organique « bit rot » pour expliquer le phénomène.

Les vendeurs de baies de stockage sont conscients du bit rot et construisent leurs produits pour identifier les défauts des disques avant de les placer dans les baies, puis surveillent les disques en production pour détecter la pourriture avant qu’elle ne devienne un problème.

« EMC n’achète, puis ne vend, que des disques qui présentent un faible pourcentage de défaillances du secteur de « fabrication » », explique Clive Gold, responsable marketing de la technologie pour EMC Australie Nouvelle-Zélande.

La société scanne également les disques pour s’assurer que la pourriture binaire ne détruit pas les données.

« Toutes les données reçues par le front-end sont « étiquetées » et cela permet au back-end de vérifier les données stockées sur le disque pour s’assurer qu’elles n’ont pas changé en passant par le système de stockage », explique Clive Gold. « En fait, lorsqu’une application comme les bases de données Oracle possède une somme de contrôle, nous l’utilisons pour garantir l’intégrité de bout en bout, de l’application à la rouille sur le disque ! Ces technologies font de la détection aussi bien que de la correction. »

Adrian De Luca, directeur des avant-ventes et des solutions d’Hitachi Data Systems pour l’Australie et la Nouvelle-Zélande, explique que son entreprise veille également à ce que les disques endommagés ne détruisent pas les données, grâce à des précautions de connectivité ainsi qu’à des contrôles de corruption.

« HDS s’assure que tous les lecteurs de disques physiques sont à double portage dans le fond de panier, les contrôleurs et le cache pour garantir qu’il n’y a pas de point de défaillance unique physique lorsque les données entrent par les contrôleurs frontaux et sortent sur les disques physiques », dit-il. « Nous prenons également en charge Oracle H.A.R.D (Hardware Assisted Resilient Data) pour empêcher les blocs de données corrompus générés dans l’infrastructure du système de base de données vers le stockage d’être écrits sur le stockage sur disque. »

La pourriture des bits se produit-elle dans les disques à état solide (SSD)

La réponse simple : oui. Cependant, la pourriture des bits pour les SSD flash est très différente de la pourriture des bits sur les disques durs.

Comme nous l’avons appris, la pourriture des bits pour les disques durs se produit lorsque la polarité magnétique d’un bit bascule spontanément à cause des radiations électromagnétiques dans l’environnement. La rotation des bits des SSD Flash se produit lorsque l’état d’une cellule NAND change à cause d’une fuite d’électrons.

Lorsque le nombre d’états dans une cellule augmente, le potentiel de fuite d’électrons augmente également. La SLC a deux états, 0,1 ; la MLC a quatre états, 00, 01, 11, 10 ; et la TLC a huit états, 000, 001, 010, 011, 100, 110, 101, 111. Cela signifie que la pourriture binaire est plus susceptible de se produire avec les lecteurs flash TLC NAND.

La façon dont les fabricants gèrent les probabilités accrues de pourriture binaire est par l’utilisation extensive de codes correcteurs d’erreurs (ECC). De toute évidence, l’ECC pour TLC doit être considérablement plus sensible que l’ECC pour SLC ou MLC. Et les vendeurs de lecteurs 3D NAND TLC le savent et ont intégré des ECC beaucoup plus sensibles.

Déterminer l’efficacité d’un lecteur 3D NAND TLC pour lutter contre la pourriture binaire se résume au taux d’erreur binaire irrécupérable (UBER) tel qu’évalué par le vendeur de flash 3D NAND. N’oubliez pas que les lecteurs 3D NAND TLC conviennent mieux aux applications optimisées pour la lecture et non pour l’écriture. Ceci est très similaire à l’application adaptée aux disques durs nearline ou « fat ». Le taux d’occupation d’un disque dur SATA est de 10 à 15. Le taux UBER pour les disques durs SAS nearline est de 10-16. Les taux UBER pour les disques 3D NAND TLC n’ont pas été publiés au moment de la rédaction de cet article ; cependant, on s’attend à ce qu’ils soient au moins égaux ou supérieurs à ceux des disques durs SATA ou SAS.

Quel est le degré de dangerosité de Bit Rot ?

Bien que Bit Rot soit un phénomène que la plupart des fournisseurs de stockage s’efforcent de contrer, NetApp a récemment mené des études qui minimisent le risque qu’il représente.

« Alors que la « pourriture des bits » a reçu une attention raisonnable récemment, deux études parrainées par NetApp montrent que la pourriture des bits est beaucoup moins un problème pour la fiabilité des baies de stockage que de nombreux autres facteurs », déclare John Martin, technologue principal pour NetApp Australie Nouvelle-Zélande.

L’un des articles auxquels Martin fait référence, A Highly Accurate Method for Assessing Reliability of Redundant Arrays of Inexpensive Disks (RAID) par Jon G. Elerath et Michael Pecht, est paru dans la revue IEEE TRANSACTIONS ON COMPUTERS, VOL. 58, NO. 3, MARS 2009″.

Martin résume l’article en disant que Bit Rot est un risque, car il « soulève le spectre, non seulement d’un fichier perdu ou corrompu, mais de la possibilité de perdre complètement un groupe RAID entier après la défaillance d’un seul disque en raison du problème « erreur de support sur la reconstruction des données ». « 

Mais Martin ajoute que « Le problème moins catastrophique sur une matrice de classe entreprise est bien moindre car la détection et la correction d’erreurs supplémentaires disponibles grâce à l’utilisation du RAID et des sommes de contrôle au niveau des blocs signifie que les chances que la pourriture des bits provoque la perte ou la corruption d’un fichier sont infimes. »

WhatreS’appuyant sur l’article d’Elerath et Pecht, Martin, propose donc quatre autres phénomènes comme sources plus probables de perte de données, à savoir :

  • « Aspérités thermiques » – Instances de chaleur élevée pendant une courte durée causées par le contact tête-disque. Cela résulte généralement du fait que les têtes frappent de petites « bosses » créées par des particules incrustées à la surface du support pendant le processus de fabrication. La chaleur générée lors d’un seul contact peut ne pas être suffisante pour effacer thermiquement les données, mais peut l’être après de nombreux contacts ;
  • Problèmes de tête de disque – Les têtes de disque sont conçues pour repousser les particules, mais les contaminants peuvent toujours se loger entre la tête et le disque, les particules dures utilisées dans la fabrication d’un disque dur, peuvent provoquer des rayures de surface et l’effacement des données à chaque fois que le disque tourne ;
  • Corruption de particules molles – D’autres matériaux  » mous  » tels que l’acier inoxydable peuvent provenir de l’outillage d’assemblage. Les particules molles ont tendance à s’étaler sur la surface du support, rendant les données illisibles ;
  • Corrosion – Bien qu’elle soit soigneusement contrôlée, elle peut également provoquer l’effacement des données et peut être accélérée par la chaleur générée par l’aspérité thermique.

Quelle que soit la cause de la perte de données, les administrateurs de stockage doivent trouver un moyen de la combattre, et Martin de NetApp recommande les  » disk scrubs « , la pratique consistant à essuyer les disques pour effacer tous les secteurs problématiques. Une autre solution consiste à  » utiliser des niveaux supplémentaires de protection RAID, comme le RAID-6, qui offre des niveaux plus élevés de résilience et de correction d’erreurs en cas d’erreur de bloc latente lors de la reconstruction d’un ensemble RAID « . NetApp utilise les deux approches car des études ont montré que le risque de perte de données par ce type d’événements est des milliers de fois plus élevé que ce que prévoient la plupart des modèles de défaillance simples  » MTBF « .

Keith Busson, Country Manager de Quantum pour l’Australie et la Nouvelle-Zélande, a des conseils plus prosaïques pour améliorer Bit Rot.

 » Quantum recommande aux organisations informatiques de mettre en scène des pratiques de récupération de données sur une base régulière « , dit-il. « Il est important de démontrer la capacité d’une récupération rapide et complète des données avant qu’elle ne soit nécessaire dans une situation d’urgence. Un tel test est un test non seulement du matériel et des logiciels, mais aussi des personnes et des processus. »

5 Shares

.