Bit Rot: Cos’è e come impedirgli di distruggere i tuoi dati
Il bit rot suona come qualcosa di organico che accade nel tempo. Ma la verità è molto più immediata e tecnica. I dischi rigidi sono commercializzati come estremamente affidabili e spesso citano tempi medi tra i guasti (MTBF) nelle centinaia di migliaia di ore. Ma mentre i dischi continuano ad andare avanti, è ancora possibile perdere dati grazie al fenomeno del bit rot.
Che cos’è il bit rot, esattamente?
Prendi un microscopio e scruta la superficie di un disco rigido e vedrai un paesaggio irregolare di metalli esotici disposti in modelli ragionevolmente ordinati.
I metalli devono essere ordinati perché un’unità disco fornisce una scossa molto precisa di elettricità a una regione molto piccola del disco, cambiando la sua carica memorizzata per indicare i dati memorizzati.
A volte, queste regioni perdono o cambiano spontaneamente la loro carica, un fenomeno noto come ‘flipping’. Quando una regione su un disco si capovolge, i dati che contiene vengono cancellati, corrotti o resi illeggibili. Per indicare la natura misteriosa di questa degradazione, l’industria ha sviluppato il termine dal suono organico ‘bit rot’ per spiegare il fenomeno.
I venditori di array di memorizzazione sono consapevoli del bit rot e costruiscono i loro prodotti per identificare i difetti nei dischi prima di metterli negli array, e poi monitorano i dischi in produzione per rilevare il rot prima che diventi un problema.
“EMC acquista, e poi vende, solo dischi che hanno una bassa percentuale di fallimenti del settore ‘produzione'”, spiega Clive Gold, Marketing Chief Technology Officer per EMC Australia Nuova Zelanda.
L’azienda scansiona anche i dischi per assicurarsi che il bit rot non distrugga i dati.
“Tutti i dati che sono ricevuti dal front-end sono ‘etichettati’ e questo permette al back-end di controllare i dati che sono memorizzati sul disco per assicurarsi che non siano cambiati durante il loro passaggio attraverso il sistema di archiviazione”, spiega Gold. “In effetti, quando un’applicazione come i database Oracle ha un checksum, lo usiamo per assicurare l’integrità end-to-end, dall’applicazione alla ruggine sul disco! Queste tecnologie fanno sia il rilevamento che la correzione.”
Adrian De Luca, direttore di Hitachi Data Systems per le prevendite e le soluzioni per l’Australia e la Nuova Zelanda, dice che la sua azienda si preoccupa anche di garantire che le unità danneggiate non distruggano i dati, attraverso precauzioni di connettività e controlli di corruzione.
“HDS assicura che tutte le unità disco fisiche siano a doppia porta nel backplane, nei controller e nella cache per garantire che non ci sia un singolo punto di guasto fisico quando i dati entrano attraverso i controller front-end e arrivano ai dischi fisici”, dice. “Supportiamo anche Oracle H.A.R.D (Hardware Assisted Resilient Data) per evitare che blocchi di dati corrotti generati nell’infrastruttura del sistema database-to-storage vengano scritti sullo storage del disco.”
Si verifica il bit rot nelle unità a stato solido (SSD)
La risposta semplice: sì. Tuttavia, il bit rot degli SSD flash è molto diverso dal bit rot degli hard disk.
Come abbiamo imparato, il bit rot degli HDD si verifica quando la polarità magnetica di un bit si inverte spontaneamente a causa delle radiazioni elettromagnetiche nell’ambiente. Il bit rot delle Flash SSD si verifica quando lo stato di una cella NAND cambia a causa della perdita di elettroni.
Come aumenta il numero di stati all’interno di una cella, aumenta anche il potenziale di perdita di elettroni. SLC ha due stati, 0,1; MLC ha quattro stati, 00, 01, 11, 10; e TLC ha otto stati, 000, 001, 010, 011, 100, 110, 101, 111. Questo significa che il bit rot è più probabile che si verifichi con le unità flash NAND TLC.
Il modo in cui i produttori stanno gestendo le maggiori probabilità di bit rot è attraverso l’uso esteso di codici di correzione degli errori (ECC). Ovviamente, l’ECC per TLC deve essere considerevolmente più sensibile dell’ECC per SLC o MLC. E i venditori di unità 3D NAND TLC lo sanno e hanno incorporato un ECC molto più sensibile.
Determinare quanto sia efficace un’unità 3D NAND TLC nel combattere il bit rot si riduce al tasso di errore di bit irrecuperabile (UBER) come valutato dal fornitore di flash 3D NAND. Tenete a mente che le unità 3D NAND TLC sono più adatte per applicazioni ottimizzate in lettura e non in scrittura. Questo è molto simile all’applicazione adatta agli HDD nearline o “fat”. Il tasso UBER per un HDD SATA è 10-15. Il tasso UBER per gli HDD SAS nearline è 10-16. Le valutazioni UBER per le unità 3D NAND TLC non sono state rilasciate al momento della scrittura; tuttavia, ci si aspetta che siano almeno uguali o superiori agli HDD SATA o SAS.
Quanto è pericoloso il Bit Rot?
Mentre il Bit Rot è qualcosa che la maggior parte dei fornitori di storage lavora per contrastare, NetApp ha recentemente condotto studi che minimizzano il rischio che rappresenta.
“Mentre il ‘bit rot’ ha ricevuto una ragionevole quantità di attenzione di recente, due studi sponsorizzati da NetApp mostrano che il bit rot è molto meno un problema per l’affidabilità dello storage array rispetto a molti altri fattori”, dice John Martin, Principal Technologist per NetApp Australia New Zealand.
Uno degli studi a cui Martin fa riferimento, A Highly Accurate Method for Assessing Reliability of Redundant Arrays of Inexpensive Disks (RAID) di Jon G. Elerath e Michael Pecht, è apparso sulla rivista IEEE TRANSACTIONS ON COMPUTERS, VOL. 58, NO. 3, MARCH 2009″.
Martin riassume l’articolo dicendo che Bit Rot è un rischio, in quanto “solleva lo spettro, non solo di un file perso o corrotto, ma del potenziale di perdere completamente un intero gruppo RAID dopo il fallimento di un singolo disco a causa del problema ‘Media Error on Data Reconstruct’. “
Ma Martin aggiunge che “Il problema meno catastrofico su un array di classe enterprise è molto meno perché il rilevamento e la correzione degli errori aggiuntivi disponibili attraverso l’uso di RAID e checksum a livello di blocco significa che le possibilità che il bit rot causi la perdita o il danneggiamento di un file sono incredibilmente remote.”
WhatreDisegnando il documento di Elerath e Pecht, Martin, offre quindi altri quattro fenomeni come fonti più probabili di perdita di dati, vale a dire:
- “Asperità termiche” – Istanze di calore elevato per una breve durata causate dal contatto testa-disco. Questo è di solito il risultato di testine che colpiscono piccoli “urti” creati da particelle incorporate nella superficie del supporto durante il processo di fabbricazione. Il calore generato su un singolo contatto può non essere sufficiente a cancellare termicamente i dati, ma può essere sufficiente dopo molti contatti;
- Problemi con la testina del disco – Le testine del disco sono progettate per spingere via le particelle, ma i contaminanti possono comunque rimanere incastrati tra la testina e il disco, le particelle dure usate nella fabbricazione di un HDD, possono causare graffi sulla superficie e la cancellazione dei dati ogni volta che il disco ruota;
- Corruzione delle particelle morbide – Altri materiali “morbidi” come l’acciaio inossidabile possono provenire dagli utensili di assemblaggio. Le particelle morbide tendono a spargersi sulla superficie del supporto, rendendo i dati illeggibili;
- Corrosione – Anche se attentamente controllata, può anche causare la cancellazione dei dati e può essere accelerata dal calore generato dalle asperità termiche.
Qualunque sia la causa della perdita dei dati, gli amministratori di storage hanno bisogno di un modo per combatterla, e Martin di NetApp raccomanda “disk scrubs”, la pratica di pulire i dischi per cancellare qualsiasi settore problematico. Un’altra alternativa è quella di “Utilizzare livelli aggiuntivi di protezione RAID come RAID-6 che consente livelli più elevati di resilienza e correzione degli errori nel caso in cui si colpisca un errore di blocco latente durante la ricostruzione di un set RAID. NetApp utilizza entrambi gli approcci poiché gli studi hanno dimostrato che il rischio di perdere i dati attraverso questo tipo di eventi è migliaia di volte più alto di quanto previsto dalla maggior parte dei semplici modelli di guasto ‘MTBF’.
Keith Busson, Country Manager di Quantum per l’Australia e la Nuova Zelanda, ha consigli più prosaici per migliorare Bit Rot.
“Quantum raccomanda che le organizzazioni IT mettano in pratica il recupero dei dati su base regolare,” dice. “È importante dimostrare la capacità di un recupero dati veloce e completo prima che sia richiesto in una situazione di emergenza. Tale test è una prova non solo di hardware e software, ma di persone e processi.”