機械学習について知るためにPRML読み始めました
なんで読むのか
機械学習って実際なにかよくわからないからです。 あとは、機械学習の技術を使って、購買予測や売り上げ要因分析の精度をあげれるのではないかと考えているからです。
他には、大学在学中にアカデミックなこともある程度勉強し、理系出身としてきちんと論文も書けるようになっておきたいからです。 今はTeXの書き方すらも忘れてますが。。。
第一印象
数学の教科書。 数式がかなり出現してきて、僕は、2時間で10ページしか進めません。こつこつやります。
最低でも、数学3Cの知識と共分散、標準偏差などの概念は理解できておいたほうが読みやすいです。 あと数式を見たときに拒否反応出る人には向いてません。すぐに閉じましょう。
注意点
わからないところはなくすくらいの勢いで勉強すること。 一度飛ばし始めると飛ばす癖がついて、わかった気のまま理解できず最終ページを迎えることになるでしょう。
自分の中できちんと区切りをつけながら読み進めていくこと。 それぞれの説明を分かりやすくするために、説明の流れが断片的であることがあることがある。 どこまでがどの説明なのか、どこまでが繋がっているのか自分で判断しながら読み進めていく。
バスケット分析の難しさ
以前インターン先で、スーパーのPOSデータを使って併売実験を行ったのですが、バスケット分析で出した結果、あまりいい結果にならなかったので注意点というか、分析をする上で大事だと感じたことをメモります。
目次
ターゲット
分析に興味のあるかた、始めたばっかの方、lift値ってなんだっけ?という方
バスケット分析とは
バスケット分析とは一言でいうと、よく一緒に買われている商品の組み合わせをみつける分析手法です。
信頼度や支持度やリフト値など聞きなれない言葉が出てきますが、詳しくはこちらの記事と本を参照してください。とても細かく説明されていてとても参考にさせていただきました。
R本は特にRのコードが紹介されていて、パラメータのチューニングの際にとても参考になりました。
研究室でもこれを教科書として輪読しています。
商品分析の手法(ABC分析、アソシエーション分析)
- 作者: 金明哲
- 出版社/メーカー: 森北出版
- 発売日: 2017/03/25
- メディア: 単行本(ソフトカバー)
- この商品を含むブログを見る
リフト値ってなに?
バスケット分析で用いられるリフト値というのは、簡単に言うと、なにもしないより組み合わせて売ることがどのくらい効果があるのかを知る指標となります。
1以上の値であれば効果があると判断できます。
他にも支持度と確信度という指標があり、三つの指標を総合して判断していきます。
バスケット分析の注意点
バスケット分析で併売の効果があると判断できた組み合わせでも実際には併売の効果があまりないことがあります。
併売の向きが考慮されていない
AとBの商品を近くにおいて併売効果を高めようとしたときに、もともとAがあった場所の近くにBをおくのか、Bの近くにAを置くのでは効果が変わってきます。
例えば、チョコボールとゴディバのチョコがよく買われているとします。
そのときゴディバのチョコをチョコボールが売っている駄菓子ゾーンの近くに置いて、はたして本当に売れるでしょうか?
どちらかというとゴディバのチョコが置いてある高級菓子ゾーンの近くにチョコボールを置いたほうが売れそうですよね。値段が異なる場合、併売の向きも考える必要があります。
商品カテゴリが離れすぎている
また、お肉と、洗剤がよく買われている組み合わせだとします。そこでお肉の売り場の近くに洗剤を置いたとします。結果はどうでしょうか?
あまり売れなそうですよね。逆も然りです。このようにいくらよく買われている組み合わせだとしても併売の効果が出にくいこともあるのです。
みんなに買われる商品が省かれていない
もうひとつは、よく売れすぎている商品は省いたほうがいいです。
例えば、もやしは、スーパーではよく売れる商品ひとつであり、単価も安いため、様々な商品と併売の組み合わせとして上位に入って来てしまいます。
ですが、併売商品が多すぎて、具体的なストーリーが描きにくいため、除いて考えたほうがいいことがあります。
因果関係と相関関係
上記のようにバスケット分析上では併売の効果が高いとされた商品でも実際には効果が出なかったというのは、まさしく相関関係でしかないからなんですね。
しかし、相関関係の中には因果関係がしっかりできているものもあるのでものは試しでいっぱい併売をやってみるというのも一つの手かもしれません。
分析手法はあくまで分析なので実践して効果測定まできちんと追っていくことが大切です。