A/Bテストのポイント(2)-仮説検定


abテストのポイント

前回のA/Bテストのポイント(1)-実施前後で気を付けるべきことというコラムでは、A/Bテストを計画する際には、比較する要素以外の条件を揃えること、また、結果を評価する際には、単に結果の数字の大小を見るだけでなく、AとBとで差があると言えるのか、それとも言えないのかを検証することが重要だとした。

今回は、結果を評価するための具体的な方法として、仮説検定について説明する。

正しいコインか、いかさまコインか

仮説検定を理解するために、簡単な例え話をしよう。

あなたの友人が目の前でコインを10回投げて10回とも表が出たとすると、あなたはどう考えるだろうか。

もし、友人の持っているコインが正しいコイン(表と裏が同じ確率で出る)だとすると、10回投げたときの場合の数は1,024通りで、そのうち10回とも表が出るのは1通りだけなので、

1 / 1,024 ≒ 0.001

となり、1,000回に1回程度しか起こらないはずである。

このコインは正しいコインで1,000回に1回しか起きないことが今まさに目の前で起きた、と考えることもできるが、それよりも、そもそもこのコインは表が出るようになっているいかさまコインでは?と考えるのではないだろうか。

統計の考え方では、正しいコインである、すなわち、表と裏とが同じ確率で出るという仮定(帰無仮説という)のもとで、10回投げて10回とも表が出た、つまり、滅多に起こらないことが起きた場合には、そもそもの正しいコインであるという仮定が間違っており、このコインはいかさまコインであると考える。

これが仮説検定の基本的な考え方だ。

帰無仮説 正しいコインである。
(表と裏とが同じ確率で出る。)
事象 10回投げて10回とも表が出た。
検定 この事象が生じるのは0.1%であり、「滅多に起こらない」。
判断 いかさまコインである。
(表と裏とが同じ確率で出ない。)

「滅多に起こらない」と「十分に起こりうる」との境界線

では、「滅多に起こらない」と「十分に起こりうる」という線引きはどうすればよいだろうか。

仮説検定では、「滅多に起こらない」範囲を見極める基準として、一般的に、0.01(1%)と、0.05(5%)と、0.1(10%)の3つを採用している。

この基準のことを有意水準と呼び、有意水準を1%とした場合、確率が0.01より小さい場合のみ「滅多に起こらない」と判断する。逆に、そうでない場合は「十分に起こりうる」という判断になる。

再びコインを10回投げる場合で考えてみよう。

20131216abテスト_グラフ

10回とも表 ⇒ 1 / 1,024 ≒ 0.001 となり 0.1%
9回以上表 ⇒ (1+10) / 1,024 ≒ 0.011 となり 1.1%
8回以上表 ⇒ (1+10+45) / 1,024 ≒ 0.055となり 5.5%

有意水準を1%とした場合、表が10回出た場合は「滅多に起こらない」と判断され、表が9回以上の場合は「十分に起こりうる」と判断される。

有意水準を5%とすると、表が9回以上出た場合も「滅多に起こらない」と判断し、有意水準10%だと、表が8回以上出た場合も「滅多に起こらない」と判断する。

A/Bテストにおける仮説検定

このような考え方に基づいて、前回のコラムで挙げたメールのクリエイティブのA/Bテストについても考えてみよう。

前出の3つのケースを再掲する。

★ケース1
A:配信数 50,000、クリック数 2,000
B:配信数 50,000、クリック数 3,000

★ケース2
A:配信数 50,000、クリック数 2,000
B:配信数 50,000、クリック数 2,010

★ケース3
A:配信数 50,000、クリック数 2,000
B:配信数 50,000、クリック数 2,100

どのケースにおいても、Bパターンのクリック数がAパターンのそれを上回るが、その効果の違いがメールのクリエイティブの違いによるものなのか、それとも、今回はたまたまそうなっただけで違いがあるとは言えないのか、それを判定するために仮説検定を用いる。

先のコイン投げの例のように、場合の数から確率を求めて判定する方法では計算量が膨大になるため、今回は「比率の差の検定」という手法で、仮説検定を進めたい。

比率の差の検定では、下記式によりZ値を求め、そのZ値がある基準値より大きいか否かを調べることで、二つの対象に差があるといえるかを判定する。

z

Na=メールAの配信数、Xa=メールAのクリック数
Nb=メールBの配信数、Xb=メールBのクリック数
P= (Xa + Xb) / (Na + Nb)

突然難しい式が出てきて混乱したかもしれないが、ここでは分子(Xa/Na – Xb/Nb)にだけ注目していただきたい。分子は、メールAのクリック率(クリック数/配信数)と、メールBのクリック率の差を求めており、クリック率に差があればあるほどZの絶対値は大きくなり、差がないほどZの絶対値は小さくなる。

クリエイティブAとBとの効果には差がないという帰無仮説の場合、Z値は0に近くなるはずで、遠ざかるにつれて「滅多に起こらない」ということになる。

ケース1~3について、実際にZ値を計算してみると、下表のようになる。

ケース1 Z値:-14.510
ケース2 Z値:-0.161
ケース3 Z値:-1.595

このZ値は近似的に標準正規分布に従い、有意水準10%、5%、1%の基準値はそれぞれ以下の通りとなる。

Zの絶対値が・・・
1.65より大きい → 有意水準10%で有意差がある
1.96より大きい → 有意水準5%で有意差がある
2.58より大きい → 有意水準1%で有意差がある

この基準値に照らし合わせると、ケース1~3の結果は以下のように判定される。

ケース1 Z値:-14.510 → 有意水準1%で有意差がある
ケース2 Z値:-0.161 → 有意差なし
ケース3 Z値:-1.595 → 有意差なし

ケース1の場合をまとめると次のようになる。

帰無仮説 クリエイティブAとクリエイティブBとの効果には差がない。
事象 A:配信数 50,000、クリック数 2,000
B:配信数 50,000、クリック数 3,000
という結果になった。
検定 Z値は-14.510。
有意水準1%で有意となり、「滅多に起こらない」。
判断 クリエイティブAよりもBの方が効果的だった。

Bの方がAよりクリック数で上回っていても、どの程度上回っているかによって、統計的に有意な差(有意差)があるかどうかは異なってくることがわかるだろう。

ケース1であれば、Bの方がAよりも効果的だと言うことができるが、ケース2の場合は、AとBとに有意な差があるとは言い切れない。また、ケース3の場合も、直感的には差があるように思えるかもしれないが、仮説検定を用いると、AとBとに有意な差があるとは言い切れない、ということになる。

以上のように、仮説検定という手法を用いることによってA/Bテストの結果を評価することができる。

直観やデータをもとに仮説を立て、その仮説をA/Bテストによって検証するというプロセスを繰り返すことで、マーケティング効果を高め、ビジネスを前進させていっていただければと思う。

画像提供:前田知洋さま(クロースアップマジシャン/ビジスパ執筆者)
http://biz-spice.jp/public/detail/1019/1147/

 

関連ページ
ウェブサイト/LP最適化(Test & Optimize)

お問い合わせはこちらから


こちらの記事は「」が執筆しました。

→ 株式会社スペースシップの会社概要はこちら

→ 株式会社スペースシップのマーケティング事業はこちら