Bit Rot: ビット腐敗とは何か、データの破壊を防ぐにはどうすればよいか


ビット腐敗というと、時間の経過とともに起こる有機的なもののように聞こえます。 しかし、真実はもっと直接的で技術的なものです。 ハード ディスクは最高の信頼性を誇るものとして販売されており、平均故障間隔 (MTBF) は何十万時間という数字がよく示されます。

ビット腐敗とは正確には何でしょうか。

顕微鏡を引き出してハード ディスクの表面を覗いてみると、エキゾチックな金属が規則正しく配列されたデコボコの地形を見ることができます。

ディスク ドライブは、ディスクの非常に小さな領域に非常に正確な電気を送り、蓄積された電荷を変化させて、蓄積されたデータを表示するため、金属は整然としている必要があります。 ディスクの領域が反転すると、それが含むデータは消去されたり、破損したり、読めなくなったりする。 この劣化の神秘的な性質を示すために、業界ではこの現象を説明するために「ビット腐敗」という有機的な響きを持つ用語を開発しました。

ストレージ アレイ ベンダーはビット腐敗を認識しており、ディスクをアレイに配置する前にその欠陥を識別するように製品を構築し、生産中のディスクを監視して問題が生じる前に腐敗を検出するようにしています。

「EMC は、『製造』セクター不良の割合が低いドライブのみを購入し、販売しています」と、EMC Australia New Zealand のマーケティング最高技術責任者の Clive Gold 氏は説明します。

「HDS は、すべての物理ディスク・ドライブがバックプレーン、コントローラ、およびキャッシュにデュアルポートされていることを確認し、データがフロントエンド・コントローラから物理ディスクに入るときに物理的な単一障害点がないことを保証します」と彼は述べています。 「また、Oracle H.A.R.D (Hardware Assisted Resilient Data) をサポートし、データベースからストレージ システムのインフラストラクチャで生成された破損したデータ ブロックがディスク ストレージに書き込まれるのを防止します」

SSD (Solid State Drive) でビット ロットは発生するか

簡単に言うと、発生します。 しかし、フラッシュ SSD のビット腐敗は、ハード ディスク ドライブのビット腐敗とはまったく異なります。

学んだように、HDD のビット腐敗は、周囲の電磁放射によりビットの磁気極性が自然に反転するときに発生します。 フラッシュ SSD のビット腐敗は、NAND セルの状態が電子リークによって変化するときに起こります。

セル内の状態の数が増えると、電子リークの可能性も高くなります。 SLCは0、1の2状態、MLCは00、01、11、10の4状態、TLCは000、001、010、011、100、110、101、111の8状態である。 つまり、ビット腐敗は TLC NAND フラッシュ ドライブで最も発生しやすいのです。

メーカーがビット腐敗の確率の増加に対処する方法は、誤り訂正符号 (ECC) の広範な使用を通じてです。 明らかに、TLC 用の ECC は、SLC や MLC 用の ECC よりもかなり高感度である必要があります。 3D NAND TLC ドライブのベンダーはこれを知っており、より感度の高い ECC を組み込んでいます。

3D NAND TLC ドライブがビット腐敗対策にどれほど効果的かを判断するには、3D NAND フラッシュ ベンダーが評価する回復不能ビット エラー率 (UBER) を確認する必要があります。 3D NAND TLCドライブは、書き込みに最適化されたアプリケーションではなく、読み出しに最適化されたアプリケーションに適していることに留意してください。 これは、ニアラインまたは「ファット」HDDのアプリケーション適合に最も似ています。 SATA HDDのUBERレートは10~15です。 ニアラインSAS HDDのUBERレートは10-16です。 この記事を書いている時点では、3D NAND TLC ドライブの UBER レートは発表されていませんが、少なくとも SATA または SAS HDD と同じかそれ以上になると思われます。

ビット腐敗はどれほど危険か?

ほとんどのストレージ ベンダーがその対策に取り組んでいますが、ネットアップは最近、そのリスクを軽減する研究を実施しました。

「最近、『ビット腐敗』がそれなりに注目されていますが、ネットアップが後援する2つの研究によると、ビット腐敗は、他の多くの要因に比べて、ストレージ アレイの信頼性に対する問題がはるかに少ないことがわかります」と、ネットアップ オーストラリア ニュージーランド主席技術者の John Martin 氏は述べています。

マーティンが言及した論文の 1 つ、Jon G. Elerath と Michael Pecht による A Highly Accurate Method for Assessing Reliability of Redundant Arrays of Inexpensive Disks (RAID) は、IEEE TRANSACTIONS ON COMPUTERS, VOL.1 に掲載されました。 58, NO. 3, MARCH 2009″ に掲載されました。

Martin は、Bit Rot は「単にファイルの損失や破損だけでなく、『データ再構築時のメディア エラー』問題により、単一のドライブの故障後に RAID グループ全体を完全に失う可能性がある」と、その論文を要約しています。 「RAID とブロック レベルのチェックサムを使用することで追加のエラー検出と修正が可能なため、ビット腐敗がファイルの損失や破損を引き起こす可能性は非常に低いのです。「

WhatreElerath と Pecht の論文に基づき、Martin は、データ損失の原因としてより可能性の高い他の 4 つの現象を提示しています。 これは通常、製造工程でメディア表面に埋め込まれた粒子によって作られた小さな「バンプ」にヘッドがぶつかることで発生します。 1 回の接触で発生する熱は、データを熱的に消去するには十分ではないかもしれませんが、何度も接触しているうちに十分となる場合があります。

  • ディスク ヘッド問題 – ディスク ヘッドは粒子を押し出すように設計されていますが、ヘッドとディスク間に汚染物質が滞留することがあり、HDD の製造に使用する硬い粒子により、ディスクが回転するたびに表面の傷やデータ消去の原因となることがあります。
  • Soft particle corruption (ソフト パーティクル コラプション) – ステンレス鋼などのその他の「柔らかい」材料は、組み立て工具に由来する場合があります。
  • Corrosion (腐食) – 慎重に管理されていますが、データ消去の原因になり、熱アスペリティによる熱で加速する場合があります。 もう1つの方法は、「RAIDセットを再構築する際に潜在的なブロックエラーに当たった場合、より高いレベルの回復力とエラー訂正を可能にするRAID-6などの追加レベルのRAID保護を使用する」ことです。 この種のイベントによってデータを失うリスクは、ほとんどの単純な「MTBF」故障モデルによって予測されるよりも何千倍も高いことが研究で示されているため、NetApp は両方のアプローチを使用します。

    Quantum のオーストラリアおよびニュージーランド担当マネージャーである Keith Busson は、ビット損失を改善するためのより平凡なアドバイスをしてくれました。 「緊急事態で必要となる前に、高速で包括的なデータ回復の能力を実証することが重要です。 このようなテストは、ハードウェアやソフトウェアだけでなく、人やプロセスのテストでもあります」

    5 Shares