要約統計量を用いて、データの全体像を把握しよう

2017年12月27日


マーケティングに関わっているのに、実は算術平均(Excelでいう=AVERAGE()です)とか加重平均しか知らない…という方、案外多いんです。
今回はそんなマーケティングの分析をワンランクアップさせる『要約統計量』についてのお話しです。webに限らず、マーケティングを行う上でデータの分析は必ず発生します。 そんなとき、この要約統計量を知っておくとデータの全体像を把握する上できっと役に立つはずです。

そもそも要約統計量とは?


要約統計量とは統計量の一種で、標本の分布の特徴を代表的に表す統計学上の値を指します(基本統計量、記述統計量とも呼ばれます)。
…これだけ言われてもよくわかりませんよね。
具体的に、どのような量を指すかといいますと、

  • 平均
  • 中央値(メディアン)
  • 最頻値(モード)
  • 分散
  • 標準偏差
  • 範囲(レンジ)
  • 分位値
  • 歪度
  • 尖度
  • 最大値
  • 最小値
  • 要素数

などが挙げられます。 今回は、特に以下の5つの量に注目してみましょう。

  • 最小値 : もっとも小さい値
  • 第1四分位値 :小さい方から数えて25%の位置にある値
  • 中央値(第2四分位値):小さい方から数えて50%の位置にある値
  • 第3四分位値 :小さい方から数えて75%の位置になる値
  • 最大値 :もっとも大きな値

たとえば、

10 25 8 19 20


という十個の数値があったとき、これを小さい順に並び替えると、

8 10 19 20 25


となります。この場合に、先ほどの量は以下に該当します。

  • 最小値  8
  • 第1四分位値  10
  • 中央値  19
  • 第3四分位値  20
  • 最大値  25

となります。図で示すとすれば下記のようなイメージです。
それぞれの統計指標のイメージ

要約統計量の使用例


たとえば、次のようなデータがあったとします。

No 日付 imp click
1 4月1日 139 13
2 4月2日 40000 510
3 4月3日 101 21
4 4月4日 162 19
5 4月5日 172 29
6 4月6日 87 4
7 4月7日 501 29
8 4月8日 145 13
9 4月9日 191 12
10 4月10日 294 15
11 4月11日 129 15
12 4月12日 153 21
13 4月13日 188 3
14 4月14日 161 22
15 4月15日 150 13
16 4月16日 120 14
17 4月17日 244 18
18 4月18日 114 7
19 4月19日 135 12
20 4月20日 138 11
21 4月21日 91 5
22 4月22日 149 10
23 4月23日 105 6
24 4月24日 151 2
25 4月25日 226 13
26 4月26日 190 3
27 4月27日 185 19
28 4月28日 137 8
29 4月29日 148 12
30 4月30日 131 11

Imp数について、単純に平均を考えてみると、

平均 = (139+40000+101+・・・+137+148+131) ÷ 30 ≒ 1494.6


となります。しかし、グラフを書いてみると、以下のようになります。
算術平均の棒グラフ

平均値は、明らかにこれを「一日当たりのクリック数」として利用するのは不適切だとわかります。ここで、上記5つの要約統計量をそれぞれ計算し、

  • 最小値 = 87.0
  • 第1四分位値 = 132.0
  • 中央値 = 149.5
  • 第3四分位値 = 187.2
  • 最大値 = 40000.0


これを図(箱ひげ図)に表してみます。
箱ひげ図

こうすることで、平均値だけを追っていても、なかなか見えてこなかった様子がとらえられました。
つまり、
  • ①上部に飛び出ている値(40000)は外れ値だと思われる。
  • ②下の方にデータが偏っている。

などの特徴が読み取れるかと思います (「87.0~187.2」周辺までが、データ全体の75%を占めているイメージです)。



この外れ値が邪魔であれば、これを除外して平均を計算してみたり、再び図を書いてみたりして見ましょう。



このように、一つ一つ順番を追って、データの特徴を追ってみると、今まで見えてこなかった特徴が追えるかと思います。

他の量、歪度や尖度、分散などについても、色々計算を行い、様々な角度から特徴をとらえてみてください。

補足


今回は、外れ値を検出する際、図を書いて目視により調べていました。
※イメージ


これ以外にも、仮説検定によって外れ値を検出する方法もあります(「Smirnov-Grubbs検定」「Dixon検定」など)。興味がある方は、こちらも調べてみると良いでしょう。

要約統計量のまとめ


平均値を求めることでデータの全体像をつかむ第一歩とはなりますが、この値だけでは外れ値に弱く、誤った結論を導いてしまう可能性があります。他の要約統計量を合わせて使うことにより、様々な角度からデータの特徴をつかむことができるので、データ分析に携わる方は身に着けておいて損はないです。