Synthetic Dataとは
対象に能動的に働きかけてデータを生成する
Synthetic dataとは、McGraw-Hill Dictionary of Scientific and Technical Termsによれば、「直接的な測定によらずに得られた、特定の状況に適用可能な生成データ」であると説明されています。
データ管理の専門家、クレイグ S. ムリンズは、この生成データを「ビジネスプロセスを遂行する専門家たちによって継続的に保存され、使用される情報」と詳しく述べています。
現代では、Real User Monitoring(RUM)という手法が存在し、ユーザが実際に体験するWebページの表示速度のデータをリアルタイムで収集することができます。
それに対して、Synthetic Monitoringが1997年に登場した当時は、Webブラウザで表示速度を測定するAPIなどはまだ存在していませんでした。
この状況を解決するために、当時は能動的に目的とするWebページにアクセスして、表示速度を手動で測定する方法が採られました。
このようにして収集されたデータがSynthetic Dataと呼ばれ、Synthetic Monitoringの名前の起源ともなっています。
Synthetic Dataの重要性
「RUMが既に存在するので、Synthetic Dataはもはや必要ないのでは?」と疑問に思う方もいるかもしれません。
しかし、統計学においては、研究デザインは一般的に以下の図に示されるように、観察データと実験データに明確に区分されます。
因果関係を確立するには、実験的介入を伴う実験データが必要とされます。
RUM(Real User Monitoring)は観察データに分類され、一方でSynthetic Dataは実験データに該当します。
実験データと観察データは、その証拠の質において異なります。
レベル | データの取り方 | 証拠の種別 |
---|---|---|
1++ | 実験 | 質の高いメタ・アナリシス、ランダム化比較試験(RCT)のシステマチック・レビュー、偏りのリスクが非常に低いランダム化比較試験 |
1+ | 良く実施されたメタ・アナリシス、ランダム化比較のシステマチック・レビュー、偏りのリスクが低いランダム化比較試験 | |
1- | メタ・アナリシス、ランダム化比較試験のシステマチック・レビュー、偏りのリスクが高いランダム化比較試験 | |
2++ | 観察 | 質の高いケース・コントロールやコホート研究のシステマチックレビュー。交絡因子や偏りのリスクが非常に低く、関係が因果である確率が高い、質の高いケース・コントロールやコホート研究 |
2+ | 良く実施された、交絡因子や偏りのリスクが低く、関係が因果である確率がほどほどのケース・コントロールやコホート研究 | |
2- | 交絡因子や偏りのリスクが高く、関係が因果ではない確率がかなり高いケース・コントロールやコホート研究 | |
3 | 実験でも観察でもない | 分析的な研究ではないもの。例えば、事例報告、事例集 |
4 | 専門家の意見 |
Actionable Dataを提供するSynthetic Monitoring
特定の要因Aが結果にどのような影響を与えるかを明確にするためには、他の要因を一定に保つ必要があります。
統計学ではこれを「変数のコントロール」と呼び、実験設計において「ブロック化(局所管理化)」とも称されます。
要因Aの影響を正確に測定するには、他の変数B、C、Dなどが同時に変動していては、Aに起因する影響を証明できません。
Real User Monitoringは、ユーザが実際に体験する表示速度のデータを提供しますが、多くの変数が存在し、それら全てをコントロールすることは困難です。
その結果、因果関係の特定は難しい場合が多いです。
一方で、Synthetic Monitoringは「Webパフォーマンス」という目的変数に影響を与える「説明変数」(例:回線のレイテンシ・パケットロス・経路、OS、ブラウザのバージョン、マシンスペック)をコントロールします。
具体的には以下の3点に焦点を当てます。
- サーバの性能(レスポンス速度)
- ネットワークの経路とその影響
- Webブラウザにおける処理性能
RUMが存在する今でも、企業のWebパフォーマンス計測において、Synthetic Monitoringは重要な役割を担っています。
明確な因果関係を特定し、実際の改善策に役立つ知見を提供するデータをActionable Data(実行可能データ)と呼びます。
Synthetic Monitoringの市場規模が拡大しているのは、このようなActionable Dataを提供できるからです。
また、SLA/SLO監視などが一般的になってきている中で、Active Monitoringのみが、エラーを取得できます。
Real User Monitoringは、生存者バイアスが発生します。
ロイターの報告によれば、Synthetic Monitoringの市場は年間17%の成長率で、2023年には30億ドル(約3000億円)に達すると予測されています。