大規模IT障害への備え:CrowdStrikeの障害から学ぶ
混乱を最小限に抑えるための対策

2024年7月19日に直面したCrowdStrike障害のような大規模IT障害について、
Gartnerのエキスパートによる知見をご説明いたします

CrowdStrikeの障害について

2024年7月19日、エンドポイント保護プロバイダーであるCrowdStrikeのソフトウェア・アップデートにより、世界中の企業、政府機関、エンドユーザーが前例のないIT障害に直面しました。この障害により、Microsoft Windowsシステムがクラッシュし、正常に再起動できなくなりました。早朝に発生したこの問題は、金融サービスや航空会社を含む業界の広範囲な業務に対して、またたく間に影響を及ぼしました。

大規模IT障害に対し、障害発生直後に取るべき行動

「即時」と「中期」のアプローチを採用する:即時アプローチとして、直ちに必要な対応策を実施し、システムの安定化を図ります。合わせて、中期アプローチとして実施する復旧計画を立てます。これにより、緊急対応と長期的な解決策のバランスを取り、チームの過度のストレスを防ぎます。
 
インシデント対応チームと危機管理チームの動員:両チームに状況を速やかに通知し、対応を開始します。
 
トリアージ・プロセスの確立:影響を受けたシステムや業務プロセスを重要度別に分類します。修復の複雑さも考慮し、迅速に対応できるものと専門的な対応が必要なものを区別します。この分類に基づいて、リソースを適切に配分し、優先順位を付けて対応します。
 
IT専門家の権限付与:熟練したIT専門家に、影響を受けたユーザーをサポートする権限を与えます。ただし、セキュリティ・リスクを最小限に抑えるため、復旧ツールへの直接アクセスや特権的なアクセス権の付与は避けます。これにより、迅速な対応とセキュリティのバランスを取ることができます。
 
冷静な対応の維持:パニックや過剰反応を避け、冷静な判断を心がけます。例えば、2024年7月19日に直面したCrowdStrikeのようなIT障害に対しては、同社のセキュリティ・ツールを即座に廃止、無効化、または別のツールに置き換えるようなことは避けるようにします。代わりに、既存のインシデント後のレビュープロセスに従い、慎重に状況を評価します。ベンダー・リスク管理プロセスを活用し、長期的な対策を検討します。

*契約されているサービスにより本ドキュメントを閲覧いただけない場合もございますので、ご了承ください。

大規模IT障害について、完全復旧後のアクション

「はぐれた」マシンの特定:影響を受けた可能性はあるが、最初の修復段階で見落とされた可能性のあるマシンを探し、特定します。

異常とアラートの徹底的な確認:未検出の攻撃の可能性を考慮し、特に重要なシステムや機密データに関連するアラートに注目し、未検出の攻撃リスクを最小限に抑えます。

ビジネス・インパクト分析の実施:今回の障害がビジネスに与えた影響を評価します。セキュリティ態勢の強化と業務効率のバランスを考慮しながら、今後の対策を検討します。

包括的なコミュニケーション計画の実行:将来同じような問題が発生しないようにするために、 現在の状態、将来の予定されている状態、長期計画について、各ステークホルダーとコミュニケーションを行います。

チームの健康管理:チームメンバーの精神的・身体的な健康状態を確認し、過度の残業や連続勤務を避けるため、運用スタッフのローテーションを導入します。人事部門と協力し、必要に応じて、チームの負担を軽減します。

大規模IT障害のようなインシデントに対する長期的な対策

CrowdStrike障害のようなインシデントによるビジネスへの影響やリスクを軽減・削減するために、以下の長期的な対策に焦点を当てます。

レジリエンスの強化:全社的なレジリエンス戦略を策定します。これは単なるIT部門の取り組みではなく、組織全体の課題として捉えます。トップ・マネジメントの関与を得て、レジリエンス強化を経営戦略の一部として位置づけます。

大規模障害時の運用プロセスの見直し:今回の障害対応から得られた教訓を基に、運用プロセスを見直します。

ダウンタイム手順の更新:主要な業務システムごとにダウンタイム手順を見直し、必要に応じて更新します。

コミュニケーション計画と事業継続計画の改訂:既存の計画を見直し、今回の経験を踏まえて改善点を特定します。復旧に責任を持つすべての従業員に対するトレーニングの実施とテスト参加について確認します。

ガートナーのリサーチ・サービスについてのお問い合わせ

TOP