Bit Rot: O que é e como impedir que destrua os seus dados


Apodrecimento dos bits parece algo orgânico que acontece com o tempo. Mas a verdade é muito mais imediata e técnica. Os discos rígidos são comercializados como extremamente confiáveis e muitas vezes citam tempos médios entre falhas (MTBF) nas centenas de milhares de horas. Mas enquanto os discos rígidos se mantêm ligados, ainda é possível perder dados graças a este fenômeno de bit rot.

O que é Bit Rot, exatamente?

Puxa um microscópio e compara a superfície de um disco rígido e você verá uma paisagem acidentada de metais exóticos dispostos em padrões razoavelmente arrumados.

Os metais precisam ser limpos porque uma unidade de disco fornece um choque elétrico muito preciso a uma região muito pequena do disco, alterando sua carga armazenada para denotar dados armazenados.

Por vezes, essas regiões perdem ou alteram espontaneamente sua carga, um fenômeno conhecido como ‘flipping’. Quando uma região em um disco inverte, os dados que ele contém são apagados, corrompidos ou tornados ilegíveis. Para denotar a natureza misteriosa dessa degradação, a indústria desenvolveu o termo orgânico ‘bit rot’ para explicar o fenômeno.

Vendedores de matrizes de armazenamento estão cientes do bit rot e constroem seus produtos para identificar falhas nos discos antes de colocá-los em matrizes, e depois monitoram os discos em produção para detectar a podridão antes que ela se torne um problema.

“A EMC só compra, e depois vende, drives que têm uma baixa porcentagem de falhas no setor de ‘fabricação'”, explica Clive Gold, diretor de tecnologia de marketing da EMC Australia New Zealand.

A empresa também escaneia drives para garantir que o bit rot não esteja destruindo os dados.

“Todos os dados recebidos pelo front end são ‘marcados’ e isso permite que o back end verifique os dados que estão armazenados no disco para garantir que eles não foram alterados conforme passaram pelo sistema de armazenamento”, explica Gold. “Na verdade, onde uma aplicação como bancos de dados Oracle tem um checksum, nós usamos isso para garantir a integridade de ponta a ponta, desde a aplicação até a ferrugem no disco! Essas tecnologias fazem tanto a detecção quanto a correção”

Adrian De Luca, Diretor de Pré-Vendas e Soluções da Hitachi Data Systems para Austrália e Nova Zelândia, diz que sua empresa também se preocupa em garantir que as unidades danificadas não destruam os dados, através de precauções de conectividade, bem como verificações de corrupção.

“HDS garante que todas as unidades de disco físico sejam duplamente colocadas no backplane, controladores e cache para garantir que não haja um único ponto físico de falha, pois os dados entram pelos controladores front-end e saem para os discos físicos”, diz ele. “Nós também suportamos Oracle H.A.R.D (Hardware Assisted Resilient Data) para evitar que blocos de dados corrompidos gerados na infra-estrutura do sistema de banco de dados para armazenamento sejam gravados no armazenamento do disco.”

Does Bit Rot Rot occurur in Solid State Drives (SSD)

A resposta simples: sim. Entretanto, o bit rot para SSDs flash é bem diferente do bit rot em discos rígidos.

Como aprendemos, o bit rot para HDs ocorre quando a polaridade magnética de um bit flipula espontaneamente da radiação eletromagnética no ambiente. O apodrecimento instantâneo dos bits SSD ocorre quando o estado de uma célula NAND muda devido ao vazamento de elétrons.

As o número de estados dentro de uma célula aumenta, assim como o potencial de vazamento de elétrons. O SLC tem dois estados, 0,1; o MLC tem quatro estados, 00, 01, 11, 10; e o TLC tem oito estados, 000, 001, 010, 011, 100, 110, 101, 111. Isso significa que o apodrecimento do bit é mais provável de ocorrer com as unidades flash TLC NAND.

A forma como os fabricantes estão lidando com o aumento das probabilidades de apodrecimento do bit é através do uso extensivo de códigos de correção de erros (ECC). Obviamente, o ECC para TLC deve ser consideravelmente mais sensível do que o ECC para SLC ou MLC. E os fornecedores de unidades 3D NAND TLC sabem disso e incorporaram um ECC muito mais sensível.

Determinar a eficácia de uma unidade 3D NAND TLC no combate ao apodrecimento do bit se resume à taxa de erro de bit irrecuperável (UBER), conforme classificação do fornecedor de flash 3D NAND. Tenha em mente que as unidades 3D NAND TLC são mais adequadas para aplicações com otimização de leitura e não de gravação. Isto é mais semelhante à aplicação adequada para HDs de linha próxima ou “gordos”. A taxa UBER para um disco rígido SATA é de 10-15. A taxa UBER para discos rígidos SAS quase em linha é de 10-16. As classificações UBER para unidades 3D NAND TLC não foram lançadas a partir desta escrita; no entanto, espera-se que sejam pelo menos iguais ou superiores às dos HDs SATA ou SAS.

Quão perigoso é o Bit Rot?

Embora o Bit Rot seja algo que a maioria dos fornecedores de armazenamento trabalhe para combater, a NetApp realizou recentemente estudos que minimizam o risco que ele representa.

“Embora o ‘bit rot’ tenha recebido uma quantidade razoável de atenção recentemente, dois estudos patrocinados pela NetApp mostram que o bit rot é um problema muito menor para a confiabilidade da matriz de storage do que muitos outros fatores”, diz John Martin, tecnólogo principal da NetApp Austrália Nova Zelândia.

Um dos artigos a que Martin se refere, A Highly Accurate Method for Assessing Reliability of Redundant Arrays of Inexpensive Disks (RAID) de Jon G. Elerath e Michael Pecht, apareceu na revista IEEE TRANSACTIONS ON COMPUTERS, VOL. 58, NÃO. 3, MARÇO 2009″.

Martin resume o artigo dizendo que Bit Rot é um risco, pois “levanta o espectro, não apenas de um arquivo perdido ou corrompido, mas do potencial de perder completamente todo um grupo RAID após a falha de um único drive devido ao problema de ‘Erro de Mídia na Reconstrução de Dados’. “

Mas Martin acrescenta que “O problema menos catastrófico em um array de classe empresarial é muito menor porque a detecção e correção de erros adicionais disponíveis através do uso de RAID e checksums de nível de bloco significa que as chances de apodrecimento de bit causando a perda ou corrupção de um arquivo está desaparecendo remotamente.”

WhatreDrawing on Elerath and Pecht’s paper, Martin, portanto, oferece quatro outros fenômenos como fontes mais prováveis de perda de dados, a saber:

  • “Asperezas térmicas” – Instâncias de alto calor por uma curta duração causadas pelo contato cabeça-disco. Isto é geralmente o resultado de cabeças que batem em pequenos “solavancos” criados por partículas incrustadas na superfície do meio durante o processo de fabricação. O calor gerado em um único contato pode não ser suficiente para apagar termicamente os dados, mas pode ser suficiente após muitos contatos;
  • Problemas na cabeça do disco – As cabeças de disco são projetadas para afastar as partículas, mas os contaminantes ainda podem ficar alojados entre a cabeça e o disco, partículas duras usadas na fabricação de um disco rígido, podem causar arranhões na superfície e apagar dados a qualquer momento que o disco estiver girando;
  • Corrupção de partículas macias – Outros materiais “macios”, como o aço inoxidável, podem vir de ferramentas de montagem. Partículas macias tendem a manchar a superfície da mídia, tornando os dados ilegíveis;
  • Corrosão – Embora cuidadosamente controlada, também pode causar apagamento de dados e pode ser acelerada por calor gerado por aspereza térmica.

Seja qual for a causa da perda de dados, os administradores de storage precisam de uma maneira de combatê-la, e o Martin da NetApp recomenda ‘disk scrubs’, a prática de limpar os discos para apagar qualquer setor problemático. Outra alternativa é “Usar níveis adicionais de proteção RAID, como o RAID-6, que permite níveis mais altos de resiliência e correção de erros no caso de acertar um erro de bloco latente ao reconstruir um conjunto RAID”. A NetApp usa ambas as abordagens, pois estudos demonstraram que o risco de perda de dados através deste tipo de eventos é milhares de vezes maior do que o previsto pela maioria dos modelos simples de falha ‘MTBF’.

Keith Busson, Country Manager da Quantum para Austrália e Nova Zelândia, tem conselhos mais prosaicos para melhorar o Bit Rot.

“A Quantum recomenda que as organizações de TI pratiquem recuperações de dados regularmente”, diz ele. “É importante demonstrar a capacidade de recuperação de dados rápida e abrangente antes que seja necessária em uma situação de emergência”. Tal teste é um teste não só de hardware e software, mas também de pessoas e processos”

5 Ações