大規模なサイレントデータ破損
本論文は、大規模コンピューティングシステムにおいてCPUやメモリのエラーなどが原因で発生するサイレントデータ破損(SDC)の問題を分析している。数百ノードにわたる実データ収集と分析に基づき、SDCの発生パターン、影響、検出の難しさを明らかにし、大規模システムにおける信頼性向上のための洞察を提供する。
背景メモ
• 大規模データセンターで発生する「Silent Data Corruption(SDC)」——エラー報告もシステムダウンも起こさず、CPUが気づかないまま誤った計算結果を返す問題——に焦点を当てた論文 Facebook(現Meta)のエンジニアらが2021年に発表。
• SDCは従来のECCメモリなどで検出できるビット反転とは違い、CPU内部の論理回路の欠陥(マイクロアーキテクチャ上のバグや経年劣化)に起因し、ソフトウェア側から発見が極めて困難。
• 論文では、Metaのデータセンターで数十億コア時間にわたる大規模スクリーニングを実施。数千台のサーバでSDCが確認され、特定のCPUモデル・命令・ワークロードに偏りがあることを実証。
• この研究の衝撃は「エラーが起きていないと思い込んでいたシステムに、構造的な信頼性リスクがある」ことを業界に突きつけた点にある。以降、GoogleやAWSなども同様の調査・対策(命令レベルの再実行や異常検知モデルの導入)を進めている。