ウェブサイトデータ分析: パラメータ推定と信頼区間

ウェブサイトデータ分析: パラメータ推定と信頼区間

私たちは常に、いくつかのサンプル データから全体的なデータのパフォーマンス特性を探りたいと考えています。これは Web サイトのデータ分析でも同じです。私たちは、最近数日間のデータ パフォーマンスから Web サイトの全体的な状況を推測し、改善や悪化の兆候があるかどうかを推測しようとします。ただし、過去数日間のデータでは全体的な状況を完全に表すことはできないため、ここでは「推定」しか使用できません。同時に、ウェブサイト上のデータは常に変動しています。最新の期間のデータをサンプリング サンプルとして使用すると、データがより低いレベルまたはより高いレベルにある可能性が高くなります。したがって、サンプルから得られる推定値は偏りのないものではありません。また、この推定値の変動範囲を評価する必要もあります。

パラメータ推定とは、点推定や区間推定など、標本統計を使用して母集団パラメータを推定する方法を指します。

ポイント推定

点推定は、サンプリングによって得られたサンプル統計指標を、母集団の未知のパラメータの特性値の推定値として使用する統計的推論方法です。

一般的に、母数パラメータの推定には 2 つのタイプがあります。1 つは、標本平均を使用して母数平均を推定する方法で、これはウェブサイト データの数値指標に対応します。たとえば、ウェブサイトの毎日の UV の場合、過去 1 週間の毎日の UV の平均を使用して、毎日のウェブサイトへのユニーク ビジター数を概算できます。もう 1 つは、標本確率を使用して母数確率を推定する方法で、これはウェブサイト データの比率指標に対応します。たとえば、ウェブサイトの目標コンバージョン率の場合、過去 3 日間のコンバージョン率を使用して、その日のウェブサイトの目標コンバージョンのレベルを推定できます。同時に、標本の標準偏差を計算して標本平均または確率の変動範囲を示し、全体のデータの変動を推定します。

点推定には、最小二乗法を使用して線形回帰の曲線パラメータをフィッティングすることや、最大尤度推定法を使用してサンプルセット分布の確率密度関数のパラメータを計算することも含まれます。

区間推定

区間推定とは、抽出されたサンプルと正確性と精度の特定の要件に基づいて、母集団の未知のパラメータの可能な値区間を推定することです。区間推定では、一般的に、与えられた信頼水準の下での母平均または母確率の信頼区間(信頼区間)を計算します。母集団の標準誤差は、一般的にサンプル数と標準偏差に基づいて計算されます。点推定では、サンプル平均またはサンプル確率に基づいて母平均または母確率が推定され、その後、上限と下限の臨界点が得られます。

標本の標準偏差を S として記録することができます。n 個の標本がある場合、標本標準偏差を使用して母集団の標準偏差 σ を推定できます。

この式から、大数の法則の影響がわかります。サンプル数 n が大きいほど、全体的な指数差 σ は小さくなり、サンプル推定値は母集団の真の値に近くなります。 Excel グラフには、「エラー バー」を追加する機能も用意されています。

母集団の標準偏差 σ があれば、区間推定法を使用して、特定の信頼水準における母集団パラメータの信頼区間を計算できます。信頼区間 (信頼区間) は、母集団パラメータの真の値が特定の値の範囲内に収まる一定の確率を示し、母集団パラメータがこの区間内に収まる確率が信頼水準 (信頼レベル) です。

Z統計量の計算式によれば、

信頼水準が 1-α の場合、母平均 μ の信頼区間は次のようになります。

ここでは、サンプル平均と標準偏差はサンプリング結果に基づいて計算できるため、特定の信頼レベルの条件下では、Z スコア テーブル (Z スコア) を参照して対応する Z 値を取得し、母平均の信頼区間を計算するだけで済みます。信頼水準または信頼レベルの選択に関しては、統計学では、一般的に 95% の信頼水準の結果が統計的に有意であると考えられています。ただし、実際には、インターネット データの分析では、このような高い信頼水準は必要ありません。80% または 90% の信頼水準を選択することもあります。対応する Z 値を次の表に示します。

信頼度レベル 1- α対応するZ値Z α/2
95% 1.96
90% 1.65
80% 1.28

母集団確率の推定では、十分なサンプルサイズの条件下で、サンプル確率 p を使用して母集団確率を推定します。母集団確率の標準偏差は sqrt(p(1-p)/n) であり、信頼区間も計算できます。

実は、この記事の内容のほとんどは、統計書やオンラインWikiで見つけることができます。もちろん、ポピュラーサイエンスのブログに書いているわけではありません。ここの「データ分析方法」カテゴリの各記事は、対応するWebサイトのデータ分析アプリケーション記事と組み合わされており、この記事も例外ではありません。関連コンテンツに興味がある場合は、後続の記事に注目するか、ブログを購読してください。

この記事は BY-NC-SA 契約を採用しています。転載の際は出典を明記してください: ウェブサイト データ分析 » 「パラメータ推定と信頼区間」

元のタイトル: ウェブサイト データ分析: パラメータ推定と信頼区間

キーワード: ウェブサイト、パラメータ、推定、信頼ゾーン、私たちはできることを願っています、いくつかのサンプル、数、ウェブマスター、ウェブサイトのプロモーション、お金を稼ぐ

<<:  ウェブマスターネットワークからの毎日のレポート:Dangdangがテンセントに参入し、モバイルインターネットが上昇

>>:  Discuz! 防水壁がウェブサイトのセキュリティに大規模な攻撃を開始

推薦する

2018年に注目すべきIoTの大きなトレンド

編集者注: モノのインターネットが 2017 年に最も話題になったテクノロジーの 1 つであることは...

マイクロソフトの第3四半期の収益はクラウドコンピューティングの好調に支えられ予想を上回る

財務報告によると、Azure クラウド事業はマイクロソフトの最大の成長原動力であり、同社の時価総額を...

トロイの木馬がSEOに与える影響について

ネットワーク セキュリティが SEO に与える影響は、もはや決まり文句になっているようですが、私は個...

SEOを行うには強い心が必要

私はSEOを半月以上やっています。今やっている仕事はSEO業界の最も基本的で簡単な仕事に過ぎず、まだ...

電子商取引の徹底分析:eBayの変革と回復

1995年、ピエール・オミダイアは初めて「フリーマーケット」をインターネットに持ち込みました。199...

成功する個人ブログを作成する方法の詳細について説明します

個人ブログは、個人の表示プラットフォームです。ポイントツーポイント インターネットの発展に伴い、独自...

UCloudの究極のパフォーマンスGPUクラウドホストは差別化されたAIクラウドサービスを実現します

人工知能の急速な発展に伴い、モデルの精度と複雑性はますます高まり、企業のコンピューティングに対する需...

インターネット ホットスポットを使用して収益を生み出すにはどうすればよいでしょうか?

人間は忘れるのが得意です。昨日自信と確信を持って言ったことが、明日には忘れ去られ、長くは続かないかも...

これら10のポイントを知らないなら、SaaSは使わないほうがいい

ますます多くの企業にとって、Software as a Service (SaaS) は重要なビジネ...

nexusbytes: 月額 3.25 ドル、KVM シリーズ大容量ハードディスク VPS、512m メモリ/2 コア/500g ハードディスク/5T トラフィック

アメリカの企業である Nexusbytes は、今年から事業を開始したと主張していますが、実際にはそ...

過去の王朝の歌を流さないでください。タイムリーな話題を使ってユーザーを獲得してください

検索エンジンのウェブページの価値判断基準について、百度研究開発部のブログ記事「インターネットページの...

エッジコンピューティングを導入する前に尋ねるべき 6 つの質問

エッジ コンピューティングを試す前に、企業はどのような質問をすべきでしょうか?クラウド コンピューテ...

ICTイノベーションの成果は深まり続け、恒生電子は金融ICTイノベーションが多方面で着実に前進するのを支援しています。

金融業界は、国の重要なインフラ産業の一つとして、トップレベルの戦略と産業発展の二重の推進力の下、常に...