Pérdida de bits: Qué es y cómo evitar que destruya sus datos
La putrefacción de bits suena como algo orgánico que ocurre con el tiempo. Pero la verdad es mucho más inmediata y técnica. Los discos duros se comercializan como supremamente fiables y a menudo citan tiempos medios entre fallos (MTBF) de cientos de miles de horas. Pero mientras las unidades siguen funcionando, todavía es posible perder datos gracias a este fenómeno de la putrefacción de bits.
¿Qué es la putrefacción de bits, exactamente?
Saca un microscopio y mira la superficie de un disco duro y verás un paisaje desigual de metales exóticos dispuestos en patrones razonablemente limpios.
Los metales tienen que estar ordenados porque una unidad de disco envía una descarga eléctrica muy precisa a una región muy pequeña del disco, cambiando su carga almacenada para denotar los datos almacenados.
A veces, esas regiones pierden o cambian su carga de forma espontánea, un fenómeno conocido como «flipping». Cuando una región de un disco se voltea, los datos que contiene se borran, se corrompen o se vuelven ilegibles. Para denotar la misteriosa naturaleza de esta degradación, la industria ha desarrollado el término de sonido orgánico ‘bit rot’ para explicar el fenómeno.
Los proveedores de matrices de almacenamiento son conscientes de la putrefacción de bits y construyen sus productos para identificar los defectos en los discos antes de colocarlos en las matrices, y luego supervisan los discos en producción para detectar la putrefacción antes de que se convierta en un problema.
«EMC sólo compra, y luego vende, unidades que tienen un bajo porcentaje de fallos en el sector de «fabricación»», explica Clive Gold, Director de Tecnología de Marketing de EMC Australia Nueva Zelanda.
La empresa también analiza las unidades para asegurarse de que la putrefacción de bits no está destruyendo los datos.
«Todos los datos que recibe el front-end se «etiquetan» y esto permite al back-end comprobar los datos que se almacenan en el disco para asegurarse de que no han cambiado al pasar por el sistema de almacenamiento», explica Gold. «De hecho, cuando una aplicación como las bases de datos Oracle tiene una suma de comprobación, la utilizamos para garantizar la integridad de extremo a extremo, desde la aplicación hasta el óxido en el disco. Estas tecnologías realizan tanto la detección como la corrección».
Adrian De Luca, director de preventa y soluciones de Hitachi Data Systems para Australia y Nueva Zelanda, afirma que su empresa también se encarga de garantizar que las unidades dañadas no destruyan los datos, mediante precauciones de conectividad y comprobaciones de corrupción.
«HDS se asegura de que todas las unidades de disco físicas tengan doble puerto en el backplane, los controladores y la caché para garantizar que no haya ningún punto único de fallo físico, ya que los datos entran a través de los controladores frontales y salen a los discos físicos», afirma. «También somos compatibles con Oracle H.A.R.D (Hardware Assisted Resilient Data) para evitar que los bloques de datos corruptos generados en la infraestructura del sistema de base de datos a almacenamiento se escriban en el almacenamiento en disco.»
¿Se produce la putrefacción de bits en las unidades de estado sólido (SSD)
La respuesta sencilla: sí. Sin embargo, la putrefacción de bits en las SSD flash es bastante diferente a la putrefacción de bits en las unidades de disco duro.
Como hemos aprendido, la putrefacción de bits en las HDD se produce cuando la polaridad magnética de un bit cambia espontáneamente debido a la radiación electromagnética del entorno. La rotación de bits de las SSD flash se produce cuando el estado de una celda NAND cambia debido a la fuga de electrones.
A medida que aumenta el número de estados dentro de una celda, también lo hace el potencial de fuga de electrones. La SLC tiene dos estados, 0,1; la MLC tiene cuatro estados, 00, 01, 11, 10; y la TLC tiene ocho estados, 000, 001, 010, 011, 100, 110, 101, 111. Esto significa que la pérdida de bits es más probable en las unidades flash NAND TLC.
La forma en que los fabricantes manejan las mayores probabilidades de pérdida de bits es mediante el uso extensivo de códigos de corrección de errores (ECC). Obviamente, el ECC para TLC debe ser considerablemente más sensible que el ECC para SLC o MLC. Y los proveedores de unidades 3D NAND TLC lo saben y han incorporado un ECC mucho más sensible.
Determinar la eficacia de una unidad 3D NAND TLC para combatir la putrefacción de bits se reduce a la tasa de errores de bits irrecuperables (UBER) según la clasificación del proveedor de flash NAND 3D. Tenga en cuenta que las unidades 3D NAND TLC son más adecuadas para aplicaciones optimizadas para la lectura, no para la escritura. Esto es lo más parecido a la aplicación adecuada para los discos duros nearline o «gordos». La tasa UBER de un disco duro SATA es de 10-15. El índice UBER de los discos duros SAS nearline es de 10-16. Los índices UBER de las unidades 3D NAND TLC no se han dado a conocer en el momento de escribir este artículo; sin embargo, se espera que sean al menos iguales o superiores a los de las unidades de disco duro SATA o SAS.
¿Qué peligro tiene la putrefacción de bits?
Aunque la putrefacción de bits es algo que la mayoría de los proveedores de almacenamiento tratan de contrarrestar, NetApp ha realizado recientemente estudios que restan importancia al riesgo que supone.
«Aunque la ‘putrefacción de bits’ ha recibido una cantidad razonable de atención recientemente, dos estudios patrocinados por NetApp muestran que la putrefacción de bits es un problema mucho menor para la fiabilidad de las matrices de almacenamiento que muchos otros factores», afirma John Martin, tecnólogo principal de NetApp en Australia y Nueva Zelanda.
Uno de los trabajos a los que se refiere Martin, A Highly Accurate Method for Assessing Reliability of Redundant Arrays of Inexpensive Disks (RAID), de Jon G. Elerath y Michael Pecht, apareció en la revista IEEE TRANSACTIONS ON COMPUTERS, VOL. 58, NO. 3, MARZO DE 2009″.
Martin resume el artículo diciendo que el Bit Rot es un riesgo, ya que «plantea el espectro, no sólo de un archivo perdido o corrupto, sino de la posibilidad de perder por completo un grupo RAID tras el fallo de una sola unidad debido al problema de ‘Error de Medios en la Reconstrucción de Datos’. «
Pero Martin añade que «El problema menos catastrófico en una matriz de clase empresarial es mucho menor porque la detección y corrección de errores adicional disponible a través del uso de RAID y las sumas de comprobación a nivel de bloque significa que las posibilidades de que la putrefacción de bits cause la pérdida o corrupción de un archivo son remotas.»
WhatreEn consecuencia, Martin, basándose en el artículo de Elerath y Pecht, propone otros cuatro fenómenos como fuentes más probables de pérdida de datos, a saber:
- «Asperidades térmicas» – Instancias de alto calor durante una corta duración causadas por el contacto entre el cabezal y el disco. Suele ser el resultado de que los cabezales golpeen pequeñas «protuberancias» creadas por partículas incrustadas en la superficie del soporte durante el proceso de fabricación. El calor generado en un solo contacto puede no ser suficiente para borrar térmicamente los datos, pero puede ser suficiente después de muchos contactos;
- Problemas con los cabezales de los discos – Los cabezales de los discos están diseñados para alejar las partículas, pero los contaminantes pueden seguir alojándose entre el cabezal y el disco, las partículas duras utilizadas en la fabricación de un HDD, pueden causar arañazos en la superficie y el borrado de datos en cualquier momento en que el disco esté girando;
- Corrupción de partículas blandas – Otros materiales «blandos» como el acero inoxidable pueden provenir de las herramientas de montaje. Las partículas blandas tienden a manchar la superficie del soporte, haciendo que los datos sean ilegibles;
- Corrosión – Aunque se controla con cuidado, también puede causar el borrado de datos y puede acelerarse por el calor generado por las asperezas térmicas.
Cualquiera que sea la causa de la pérdida de datos, los administradores de almacenamiento necesitan una forma de combatirla, y Martin de NetApp recomienda el «disk scrubs», la práctica de limpiar los discos para borrar cualquier sector problemático. Otra alternativa es «utilizar niveles adicionales de protección RAID, como RAID-6, que permite mayores niveles de resistencia y corrección de errores en caso de que se produzca un error de bloque latente al reconstruir un conjunto RAID». NetApp utiliza ambos enfoques, ya que los estudios han demostrado que el riesgo de pérdida de datos por este tipo de eventos es miles de veces mayor que el previsto por la mayoría de los modelos simples de fallo «MTBF».
Keith Busson, Country Manager de Quantum para Australia y Nueva Zelanda, tiene un consejo más prosaico para mejorar Bit Rot.
«Quantum recomienda que las organizaciones de TI realicen prácticas de recuperación de datos de forma regular», afirma. «Es importante demostrar la capacidad de recuperación de datos rápida y completa antes de que sea necesaria en una situación de emergencia. Dichas pruebas no sólo ponen a prueba el hardware y el software, sino también a las personas y los procesos.»