ソナー

Synthetic Dataとは

Synthetic Dataとは、Wikipeidaでは、以下のように解説されています。

Synthetic data is "any production data applicable to a given situation that are not obtained by direct measurement" according to the McGraw-Hill Dictionary of Scientific and Technical Terms; where Craig S. Mullins, an expert in data management, defines production data as "information that is persistently stored and used by professionals to conduct business processes."

マグローヒルの科学技術用語辞典によれば、合成データは「直接測定によって得られていない所定の状況に適用できる生成データ」である。データ管理の専門家であるクレイグ S. ムリンズは、生成データを「ビジネスプロセスを実行するために専門家によって持続的に保存され使用される情報」と定義している。

現在は、ユーザが体験したWebページの表示速度のデータが得られるRUM(Real User Monitoring)が存在します。
しかし、Synthetic Monitoringが登場した1997年には、Webブラウザで表示速度を取得するAPIなどが存在していませんでした。

Webページの表示速度を取得しようとした場合には、もちろん、個々のユーザでの実際の表示速度を取得できるのがベストです。
1997年の時点では、その仕組みが存在していなかったので、能動的に対象のWebページにアクセスして、表示速度を得るという方法が必要だったのです。
そのようにして得たデータをSynthetic Dataと言います。

Synthetic Dataの意義

「RUMが登場したのであれば、もうSynthetic Dataは必要ないのではないか?」と思われた方もいるでしょう。
統計学では、研究デザインは、以下の図のように分類されます。
観察研究から得られた観察データと実験研究から得られた実験データを明確に分けます。

研究デザインの分類

因果関係を証明するためには、実験介入を行った実験データが必要です。
RUMは観察データであり、Synthetic Dataは実験データです。

実験データと観察データでは、証拠のレベルが違います。

証拠のレベル(出典:米国の保険社会福祉省が運営するNational Guideline Clearinghouse)
レベルデータの取り方証拠の種別
1++実験 質の高いメタ・アナリシスランダム化比較試験(RCT)システマチック・レビュー、偏りのリスクが非常に低いランダム化比較試験
1+ 良く実施されたメタ・アナリシス、ランダム化比較のシステマチック・レビュー、偏りのリスクが低いランダム化比較試験
1- メタ・アナリシス、ランダム化比較試験のシステマチック・レビュー、偏りのリスクが高いランダム化比較試験
2++観察 質の高いケース・コントロールコホート研究のシステマチックレビュー。交絡因子や偏りのリスクが非常に低く、関係が因果である確率が高い、質の高いケース・コントロールやコホート研究
2+ 良く実施された、交絡因子や偏りのリスクが低く、関係が因果である確率がほどほどのケース・コントロールやコホート研究
2- 交絡因子や偏りのリスクが高く、関係が因果ではない確率がかなり高いケース・コントロールやコホート研究
3実験でも観察でもない 分析的な研究ではないもの。例えば、事例報告、事例集
4専門家の意見

Actionable Dataを得られるSynthetic Monitoring

Aという要因を変える事で、結果が変わったという事を証明するためには、A以外の要因を固定化する必要があります。
統計学では、「変数を止める」と言い、これは実験介入の一つの「ブロック化(局所管理化)」と云います。
Aという要因の変化でどのように結果が変わるのかを見たいのに、同時にBやCやDという変数が変わっているのでは、その結果がAに起因しているという証明ができません。

RUMは、実際にユーザが体験している表示速度に関するデータです。
しかし、あまりにも変数が多く、それらの変数の値を全ては取得できないために、因果関係を明確にできません。

Synthetic Dataは、Webパフォーマンスという「目的変数」を形成する、回線帯域やOS、ブラウザのバージョン、マシンスペックなどの「説明変数」を固定化し、本当に調べたい変数の影響を見ます。
それは、以下の3つです。

RUMが登場しても、企業のWebパフォーマンス計測において、Synthetic DataがWebパフォーマンス計測の主役です。
因果関係を明確にして、改善に必要な知見が得られる、そのようなデータをActionable Data(実行可能データ)と云います。
Synthetic Monitoringの市場規模が増大している理由は、実際の改善に使えるActionable Dataを得られるからです。

ロイターのレポートによると、Synthetic Monitoring市場は、年17%の伸び率で、2023年には30億ドル(3000億円)になると見込まれています。

Synthetic Dataとは市場の伸び
(出典:ロイター Synthetic Dataとは Market Analysis 2023: Key Findings, Regional Analysis, Key Players Profiles and Future Prospects)

お問い合わせフォーム

本サービスのご相談やお見積り、事例についてなど、お気軽にお問い合わせ下さい。

➡ サービス、製品に関するお問い合わせ