クラスター分析(第2回) クラスターの特徴

クラスター分析(第2回) クラスターの特徴

クラスター分析実践

サンプルデータ
顧客コード 野菜 惣菜 グロッサリー クラスター
A 0.195 0.154 0.175 0.185 0.292 5.000
B 0.000 0.000 0.000 0.000 1.000 1.000
C 0.202 0.317 0.176 0.023 0.282 5.000
D 0.498 0.000 0.000 0.000 0.502 2.000
E 0.129 0.231 0.555 0.000 0.086 3.000

 元データはレジトランザクションデータです。1か月分で約200万行くらいあります。レジトランザクションデータから行を顧客コード、列をグループ(カテゴリー)に設定したクロス集計表を作成します。今回は「野菜、魚、肉、惣菜、グロッサリー」の5グループを選択しました。

 データの数値はもともと購入金額ですが、クラスター分析は構成比で行います。1人あたり「野菜、魚、肉、惣菜、グロッサリー」の購入額合計を100として各グループの構成比を算出します。ですからデータの横合計が1になります。購入金額のままでも分析は可能ですが、1か月あたり購入額が5万円の顧客もいれば1000円の顧客もいるわけで、購入額で分析するとはっきりとしたクラスが形成できません。試行錯誤した結果、構成比がベストのように思います。
 サンプルデータは5行のみを表示していますが、じっさいは約5,000行(顧客数)あります。

クラスター分析結果

クラスター分析結果
 タブローとRを連携して顧客でクラスターを形成します。タブロー側の計算式は

SCRIPT_INT('set.seed(42);
result <- kmeans(data.frame(.arg1,.arg2,.arg3,.arg4,.arg5),.arg6[1]);result$cluster;', 
SUM([野菜]), SUM([魚]),SUM([肉]),SUM([惣菜]),SUM([グロッサリー]),[clus_n])

 1顧客ごと1か月購入額構成比からクラスターを形成します。クラスタ数が5になりました。各クラスターの特徴がわかるように、各クラスターの1顧客平均購入額(月間)を「野菜、魚、肉、惣菜、グロッサリー」別に算出して棒グラフを作成します。

<各クラスターの特徴>
クラスター1:グロッサリーを中心に購入する。
クラスター2:野菜を中心に購入する。
クラスター3:肉を中心に購入する。
クラスター4:惣菜を中心に購入する。
クラスター5:魚を中心に購入する。

 クラスター2、3、5は料理素材を購入するクラスターになります。おかずメイン素材として野菜を選択するか、肉を選択するか、魚を選択するのかの違いがあります。自分で料理する顧客ですから惣菜の購入構成比は低くなります。

 クラスター1はグロッサリーの特売商品を目指して来店される顧客です。当店ではペットボトル飲料水の特売(近隣店舗と比較してかなりお買い得価格)が1週2回あり、ペットボトル飲料水をめがけて来店される顧客がおおくいます。グロッサリーグループのトップセールスアイテムはペットボトル飲料水です。

 クラスター4は惣菜を購入します。従って、野菜、肉、魚など料理素材系や調味料などの購入構成比が下がります。

各クラスターのポジション

クラスター分析結果 クラスター集計
 クラスター別の顧客数、クラスター別1人あたり月間購入額(「野菜、魚、肉、惣菜、グロッサリー」にそのたの全グループの購入額を含めています)を算出しました。「クラスター別の顧客数」×「クラスター別1人あたり月間購入額」=クラスター別購入額になります。

 この結果から肉を中心に購入するクラスター3の顧客数が最も多く購入金額も最も高いから店舗売上高への貢献度ということではトップクラスターになります。続いて魚を中心に購入するクラスター5です。クラスター3と5で店舗売上高の7割以上を占めています。

 店舗売上高アップを目指すにあたりチャンスが最も高いのがグロッサリー中心のクラスター1です。顧客数では3番目、月間購入額では5番目ですが、当店が得意とする肉・魚を購入していただれば月間購入額がジャンプアップする可能性があります。クラスター1の顧客をクラスター3や5へ変えてゆく施策が重要ですね。

妙なクラスター

クラスター2

 
オープンデータと比較
政府統計名 家計調査
提供統計名 家計調査
提供分類1 家計収支編
提供分類2 二人以上の世帯
提供分類3 詳細結果表
提供周期 年次
調査年月 2017年
*グループ分類は当店のグループに準じて独自に合計しています。

 クラスター2は野菜を中心に購入する顧客です。一般的におかずのメインは肉・魚、あるいは惣菜かと思うのですが月間合計で野菜がトップになるというのが感覚的に不思議ですね。

 神戸市の消費支出データはこのように惣菜、グロッサリー、肉の順番です。当店のロケーションはちょっとした田舎でご高齢者比率が高いため、肉・魚・野菜の購入構成比が高くなっています。このように素材系の構成比が高い・低い、あるいは肉が主力・魚が主力というのは店舗ロケーションや品揃えなど店舗の特徴といえます。ということは、ベジタリアンが多いのか?一部の顧客から野菜が強く支持されているのか?

余談

 近年、野菜で他店舗との差別化をしている店舗がおおくなっています。天候不順による野菜類の高騰というのが年間に数回も発生するものですから、特に野菜高騰時に「あの店は野菜を値上げしていない」なんてことになると、ほんとうにびっくりするくらい来店顧客が増えます。

 理由1:家庭で鮮度を保てる期間が短いから購入頻度が高い。野菜をまったく購入しない顧客が少ない。(田舎では結構おおいのですが)一品単価が低く、数量が出るから顧客は価格に敏感になる。

 理由2:顧客に相場感覚があるから複数店舗の価格差を認識しやすい。例えば北海道産のにんじんは2本128円が相場、98円ならお買い得といったこと。野菜には規格がありレタス8入とか6入(6入のほうが大きい)がありますが、日々手にしているので大きい・小さいといった規格にたいする相場感覚まであります。手に取って鮮度がわかりやすいというのもあります。肉や魚にも規格がありますが、目に見えてわかりにくい。牛肉のランクなんて見てもさっぱりわからない、サンマの20入と25入の区別なんていうのは魚屋でも一見でわかるひとは少ない。スライスや切身になっていると鮮度も含めてますます解らないわけです。

 理由3:グロッサリーや日用品の価格差での差別化はもはや限界。グロッサリーのエブリデイロープライスを専門にする店舗やドラッグストアが増えてスーパーではグロッサリーの特売が集客の目玉になることが減少し、どちらかというと「お得だからついでに購入する」パタンが増えているように感じます。

ドリルダウン

クラスタ2ー 年齢分布
 なんか知らんけど妙だな~と思ったときはドリルダウンしてみます。今回は顧客の年齢分布を確認します。そのほか、住所地域・来店回数・店舗販促など各方面からドリルダウンすると概要が明らかになることがあります。

 クラスター2の顧客数を年齢別に棒グラフにしました。本当にご高齢者が多い!のですが、特にクラスター2のご高齢者が多いとか少ないとかの特徴は発見できません。

 こうなると顧客のカゴの中をみてみたいと思います。具体的に何の野菜を購入しているのか、野菜の他にはどのような商品を購入しているのでしょうか。