SAP、モダンなオブザーバビリティで世界クラスの稼働時間を実現

SAP、モダンなオブザーバビリティで世界クラスの稼働時間を実現


著者: Gerardo Dada
翻訳: 逆井 晶子

この記事は米Catchpoint Systems社のブログ記事「How SAP achieved world-class uptime through modern observability」の翻訳です。
Spelldataは、Catchpointの日本代理店です。
この記事は、Catchpoint Systemsの許可を得て、翻訳しています。


SAP Customer Experience(CX)は、近年著しい変革を遂げ、断片的だった監視体制から、スケーラブルで自動化されたオブザーバビリティの強力な基盤へと進化しました。
最近のファイヤーサイドチャットにおいて、SAP CXのオブザーバビリティ担当VPであるMartin Norato Auer氏が、SAPのSLA、稼働時間、応答性の成果に至る戦略、実践、および測定可能なインパクトについて説明しました。

SAP Commerce(旧SAP Hybris)は、エンタープライズ向けのEコマースプラットフォームであり、B2B、B2C、B2B2Cのビジネスモデル全体でデジタルコマースを統合・管理するために設計されています。
このプラットフォームは、Web、モバイル、ソーシャル、実店舗などのチャネルを通じて、一貫性があり、パーソナライズされたシームレスな体験を提供する力を企業に与えます。
SAP Commerceは、世界中の何千ものお客様に信頼されており、その多くはAlphabet、Shell、Cigna、British Petroleum、Mercedes-Benz Groupなどのグローバル企業に導入されています。

SLAと可用性の限界突破

SLA違反の大幅削減
SAP CXは、SLA違反率を16%からわずか0.1%へと劇的に低下させ、お客様に対して「ゼロダウンタイム」を実現するという長期的な目標に大きく近づきました。
インシデントチケットの削減
年間で約1,500件あったインシデントチケットは500件まで減少し、これはシステムの安定性が向上し、問題を事前に防ぐ体制が整った成果と言えます。
迅速なお客様通知
インシデント発生からお客様への通知までの平均時間は、これまでの180分からわずか2分へと大幅に短縮され、対応のスピードが飛躍的に向上しました。
オブザーバビリティ改善による主要KPIの成果
オブザーバビリティ改善による主要KPIの成果

SAP Commerceのお客様にとって、稼働時間とパフォーマンスは極めて重要です。
なぜなら、わずかな停止や遅延でも、収益の損失、お客様の信頼の低下、そして競争の激しいグローバル市場における機会の逸失につながるからです。

迅速な問題特定のための戦略

統一されたオブザーバビリティスタック
SAPは、10種類以上に分かれていた監視ツールを統合し、主にDynatrace(アプリケーションパフォーマンス用)とCatchpoint(インターネットパフォーマンス監視用)に集約しました。
この統合により、シグナルの精度が大きく向上し、不要なノイズが排除されることで、インシデントの特定スピードが飛躍的に向上しました。
アラートの重要度を自動で判別
SAPは、アラートの数を単に増やすのではなく、本当に対処が必要なインシデントを見極めるアルゴリズムを開発しました。
これにより、担当者はビジネスへの影響が大きい事象に専念できるようになりました。
通知プロセスの自動化
インシデント通知の全工程を分析した結果、SAPはAPIと自動化を導入し、手作業による引き継ぎを可能な限り排除しました。
ただし、重要な対外コミュニケーションにおいては、必要な確認プロセスをしっかりと維持しています。
予測型モニタリングへの移行
SAPは、従来のリアクティブな対応から脱却し、可用性リスクを事前に可視化できるダッシュボードを活用することで、問題がお客様に影響を与える前に先回りして対処できる仕組みを構築しました。

変革を支えたベストプラクティス

大規模なIT運用チームは、変革を実施しベストプラクティスを導入する際に、多くの障壁に直面します。
これらの課題は、組織的、文化的、技術的な要因が複雑に絡み合うことによって生じ、チームやシステムの規模と複雑性が増すほど深刻になります。
以下は、SAP Commerceが導入した主なベストプラクティスです。

継続的なデータ分析
見逃されたインシデントや通知が遅れた事例ごとに、根本原因分析とプロセスの見直しが行われ、検出ロジックが改善され、見落としが減少しました。
プロセスの透明性
検出、トリアージ、お客様への通知、エスカレーションに必要なすべてのステップを明確にマッピングすることで、自動化と効率化が促進されました。
グローバルなチームコラボレーション
複数の大陸にまたがる分散型チーム体制により、24時間365日のサポートが可能となり、ブラックフライデーのような重要イベントでも迅速かつ的確に対応できる体制が整いました。
経営層の関与とモバイル可視化
SAPは、社内用モバイルアプリを開発し、経営陣がインシデントの概要をリアルタイムで把握できるようにしました。
これにより、お客様からの問い合わせにも即座に的確な対応が可能となりました。
AIを活用した要約と分析
生成AIツールにより、ブリッジコールの議事録や関連するコミュニケーション内容を自動で要約し、技術者でない関係者でもインシデントの状況を即時に理解できるようになりました。

大規模で複雑なIT運用の変革には、人・プロセス・プラットフォームの間に存在する摩擦が障壁となり、困難を伴います。
こうした障壁に対処するためには、強力で可視性のあるリーダーシップ、明確なコミュニケーション、戦略と日々の業務の整合性、組織の縦割り構造の打破、レガシーシステムの近代化、トレーニングへの投資、そして統一された指標の採用が必要です。
これらを実現するには、統合的で文化に配慮したアプローチが不可欠であり、それによって初めて、組織は真に持続可能な変化を推進し、ベストプラクティスを効果的に実装することができます。

企業にとっての教訓

SAP Commerceは、エンタープライズソフトウェア業界において、最も高度で信頼性が高く、応答性に優れたチームの一つとして、オブザーバビリティ分野で世界的な評価を得ています。。
こうした進化は、可用性・パフォーマンス・透明性において、 世界の複雑かつ要求水準の高い企業の期待に応える、それどころか、それを上回る成果を追求するという強い意志の表れです。
SAPの取り組みから得られる主な教訓は次の通りです。

ツールの統合
複雑性とノイズを減らし、真のエンドツーエンドの可視性を実現するために不可欠です。
自動化による運用最適化
モニタリングに加えて自動化を取り入れることで、対応時間を短縮しながら、効率的かつスケーラブルな運用を実現できます。
お客様中心のコミュニケーション
インシデント管理を単なる技術的な火消し作業から、信頼を築く機会へと変えます。
APMとIPMの統合的活用
SAP Commerceは、システムログ、インフラストラクチャメトリクス、コードトレースなどの深いアプリケーション診断と、Catchpoint IPMによるインターネットパフォーマンス監視を統合し、インシデントの迅速な特定、予防、解決を実現しました。
これにより、彼らの高い稼働率とSLA目標の達成、および卓越したお客様体験の提供が可能となりました。
継続的な改善とデータ駆動型の反復こそが、持続可能な運用上の卓越性の中核です。

これらの実践を取り入れることで、SAP CXは、SLA順守、可用性、インシデント対応において世界水準の成果を実現し、信頼性、パフォーマンス、情報開示の透明性を重視する組織から厚い信頼を獲得しています。

ファイヤーサイドチャット全編はこちらからご確認いただけます。
フォーチュン500企業から学ぶオブザーバビリティの教訓と実践