企業における統計学入門

Data & Analytics

antibayesian-s
of 46
Description
経済学部1年生対象の統計学の講義で用いた資料です。統計学を学び始めた学生さんに、企業で統計学を用いるとはどういうことかを紹介し、就活や仕事でも役立つと言うことを説明しました。
学生さんの統計学を学ぶモチベーションを高められたら幸いです。
Text
  • 1. 企業における統計学入門 1 @suruli
  • 2. 今日お話しすること • 統計学が企業でどのように求められ、使 われているか • 統計学を用いる際の注意点 • 主体的にデータ解析をしよう 2
  • 3. 自己紹介 3 • SNS企業でゲームやSNSの売上や面白さを アップするための統計屋業に従事 • 現場の方が簡単に経営指標などを見られる ような分析ツールのプログラミングしたり 面白さを分析するための手法の開発など • 学生時代は統計学を専攻していました
  • 4. 統計学って何するの? • データを集計(合計や平均を求める)したり • グラフを描いたり • アンケートなどでデータを集めたり • 相関分析や回帰分析をしたり • 自然言語処理や画像認識という分野も! 4
  • 5. よく統計屋を募集している分野 5 • SNS • ソーシャルゲーム • ECサイト • 広告 • マーケティング • 品質管理 • 民間研究所
  • 6. なぜ企業に統計学が必要なの? 1. サービスの改善点を知りたい 2. 売行予測をして在庫の無駄をなくしたい 3. サービスをより良くしたい 4. サービスを健全化したい • どうやってやるの…? • そこで統計学を活用します 6
  • 7. 改善点を知る • ソーシャルゲームのチュートリアル解析 • チュートリアルはユーザが最も離脱し易い • 特に離脱し易いステップはどこ? • 離脱し易いステップ=改善ポイント! • ユーザが主体的に選択するポイントで離脱 傾向→選択ポイントを減らす+後回し • 新規翌日継続率が 45->56% にアップ! 7
  • 8. 売行予測 • 過去の売り上げデータを元に、売行がど の程度になりそうか予測できる • 例:ビールの売上は気温が1度上がるごと に12%上がる→明日は3度上がる予報 • どれくらい仕入れればいいかわかるから 過剰在庫による廃棄や品切れを防げる 8
  • 9. サービスをより良くしたい • 「この商品説明ページは背景赤色のほう がいいのか青色のほうがいいのか…?」 • ユーザによって青赤を出しわけ、より購 入される方の色はどちらかを明らかに • A/Bテストというよく知られた手法 • 検定の重要性:赤の方がちょっとだけ売 れ易かったのはたまたまかもしれないよ 9
  • 10. サービスを健全化する • SNSで暴力的な言葉やグロテスクだった り卑猥だったりな画像が溢れていると ユーザが不愉快になる • テキストや画像を統計的に処理すること で、不愉快になるようなコンテンツを削 除したり未成年に見せないようにしたり • 上記を手作業でやるのは限界があるので 統計学とプログラムを利用して自動化 10
  • 11. 統計学の資格:統計学検定 • 時期:春・秋頃 • 費用:3級4000円、4級3000円 • メリット:資格欄に書ける、体系的に統 計学を学べる、実力試しになる • 本学の統計学の講義を真面目に受けて勉 強すれば3級は取れます • 就活にも使える! 11
  • 12. 12
  • 13. …ほんと? 13
  • 14. 統計学の注意点 1. データは真実を語るのか? 2. データは客観的なのか? 3. データを集計したりグラフを描いたりさ えすれば何かわかるのか? 14
  • 15. データは 真実を語るのか? 15
  • 16. PVについて考えてみる • Webサービスがどれくらい活発に使われて るかを表すのに用いられるデータ • 沢山のWeb企業で現在も使われている • page viewの略 • 1画面表示したら1PV 16
  • 17. 1PVって何だろう? • ポップ画像浮き上がったら1pv? • 商品説明長くなって2ページになりました →2pv? • 「使い勝手を良くするために、あまり画 面遷移しないでも簡単に操作出来るよう にしました!」 →PV激減 →上司「昇給無しね」 17
  • 18. PVの問題点 • サービスの画面遷移の数によって同じ ユーザ数でも値が大きく異なる • ユーザによっても値が大きく異なる • PVに応じて制作サイドにボーナス与える と、制作サイドは売上とは関係無いPV稼 ぐためだけのページを作り出す可能性が • そもそもPVで活性度は本当に測れるの? 18
  • 19. ドリコムの対応策 • 「ソーシャルゲームにおいて、PVはあま りにも不安定。もっと実質的な活性度を 測ることができるデータは?」 • 定着ユーザ:5日間連続ログインユーザ – 5日間も連続してゲームを遊び続けてくれる ユーザはやる気があるユーザに違いない! – 実際に定着ユーザは継続率も課金額も高い 19
  • 20. 20引用:http://www.slideshare.net/TokorotenNakayama/dau-21559783
  • 21. データは真実か? • データはあくまでも対象をある一面から 切り取っただけのモノ • データはある一面から見た事実ではあっ ても真実ではない • テストの点はある程度ヒトの頭の良さを 測ることはできるけれど、全てではない 21
  • 22. データは 客観的なのか? 22
  • 23. 顧客単価を考える(1) • 顧客単価を平均値|中央値どちらで求めるか • 「高額商品を出して顧客単価アップだ!」 先月売上 [100, 200, 300, 400, 500] 今月売上 [100, 200, 300, 600, 800] • 平均値:=各売上を足して総数で割った値 • 中央値:=各売上を順番に並べた真ん中の値 • 先月平均値 = 300円, 今月平均値 = 400円 • 先月中央値 = 300円, 今月中央値 = 300円 23
  • 24. 顧客単価を考える(2) • 中央値だと先月も今月も顧客単価は変わら ず、しかし平均値だと上昇してる • 顧客単価として平均値を使うか中央値を使 うかで高額商品戦略の成功/失敗のとらえ方 が変わってしまう! • 同じデータでも計算方法によって結果は変 わる。データ「さえあれば」客観的(全員 同じ結論を導く)というわけではない 24
  • 25. データを集計したり グラフにしたり… それさえすれば 何かわかるのか? 25
  • 26. 26 引用: http://www.atmarkit.co.jp/fwin2k/itpropower/admin-kun/051/adminkun051.html
  • 27. ツールや手法に振り回されない • Excel、R、SPSS、STATA…色々便利な ツールや分析手法はあるけれど • データをツールに放り込んだだけでは価 値がない。ツールから出てきた結果を解 釈し意味づけして初めて価値が出てくる • 仕事でもレポートでもそれは同じ 27
  • 28. 28 引用:フジテレビ スーパーニュース
  • 29. シンプソンズ・パラドックス • データをある軸で分割してみると、全体 とは違った傾向がみられる事象 29
  • 30. 例:PC保持台数と恋愛数 30 人数 PC ※仮想例です 相関なんて 無かった?
  • 31. 31 人数 PC 男女で分離してみた 女性 男性
  • 32. ここまでのまとめ • 統計学は様々なことを明らかにしてくれ る強力な武器になる! • でも、使い方を誤ると価値がなくなる • 正しく統計学を使えるよう、今のうちに 全力で学び、研究にも就活にも仕事にも 活用しよう! 32
  • 33. データ解析とは何か 33 John. W. Tukey
  • 34. データ解析とは、 データを分析する手順, その手順から得られた結果を解釈する技法, 解析をより容易かつ 高精度かつ高確度にする データ収集のプランニング、 そしてデータの分析に適用された 統計学の手法と結果の全てである 34
  • 35. 統計屋心得 • 統計に関する全ての責任を負う • 「依頼内容がダメだったんだ」 →良き依頼内容になるよう主体的に行動する • 「俺の素晴らしい分析結果を依頼者が理 解できなかったから失敗したんだ」 →理解して頂くのも仕事のうちです • 「データが悪くて上手く行かないんだ」 →データの設計や整備こそ統計屋の仕事です 35
  • 36. 36
  • 37. 分析事例紹介 ~統計屋心得を踏まえて~ 37
  • 38. とあるRPG系ソシャゲ分析依頼 依頼主 「継続率落ちてないのにユーザ数が落ち続け ている。広告費を削減したため、新規登録者 の数が落ちたせいだ。ユーザ数を元の状態に 戻したい。どの程度広告をすればいいだろう か?」 38
  • 39. 統計屋がすべきこと • 目的の明確化 • 事実と仮説の確認 • 定義の確認 • 手段の選定 • 言われるがままにそれだけやるのは、ど んな高度な統計手法適用しようがただの オペレータです 39
  • 40. 状況の明確化 事実:継続率落ちてないのにユーザ数が落ち 続けている 仮説:ユーザ数減少の主要因は、広告費を削 減による新規登録者減少(のみ) 目的:ユーザ数を元の状態に戻したい 手段:広告費を上げる 40
  • 41. 事実確認 • 確かに「提示された継続率」は落ちてな い、新規登録者は減少 • 継続率の定義は? – 全ユーザのうち翌週もプレイしている率 • この定義は妥当か? →初級、中級、上級者で継続率全然違う +初~上級者の定義を明確にしよう • 本当に改善手段は広告費アップだけ? 41
  • 42. 検証してみる • 初級者は継続率が低く、上級者は高いこ とが明らかに • この結果は経験・直観的にも妥当 • ユーザ全体のうち、広告切ったせいで初 級者層が減って上級者層が増えている →割合として継続率が高い層が増えているのだ から、ユーザ全体の継続率は上がる筈では? 42
  • 43. さらに検証してみる • 新事実:上級者層の継続率が最近下落し ていた! • 事実を組み合わせて検証してみる • →「新規ユーザの減少に伴う低継続率層 の減少による全体継続率上昇」と「上級 者層の継続率低下による全体継続率低 下」を合わせた結果がたまたま±0に! 43
  • 44. 学び • ユーザ減少の問題点は「広告減による新 規ユーザの減少」だけではなく「上級者 の継続率低下」もあった • 正しく問題点を把握出来たのは、主体的 に事実と仮説を確認・検証したから • 言われるがままに任せない、非専門家に 計画責任を負わせない • 医者は患者に言われるままに薬を出すか 44
  • 45. まとめ • 研究でも仕事でも主体的に動こう • ×「ゼミ飲み会の場所は毎回俺が決める」 • 「お客さんが言ったからやった」「先生 に言われたからやった」では学びも価値 もありません • なぜ学ぶのか、なぜこの対象を分析する のか、なぜこの手法を使うのか、人任せ ではなく自分で説明できるようにしよう 45
  • 46. 最後に • 統計学は難しいです、挫折も仕方ないです • 学生時代、統計が役に立つのか半信半疑でした • でも、今私が稼げてるのは統計学のお陰です • 学部の統計学は基礎体力。成果に直結しなくても 気にしなくて良いです • 統計学は正しく使うと、とてもお金になります • プログラミングも出来るとなお良いが、焦らず • 明確な目標(単位や就活)に向けて頑張って下さい 46
  • Comments
    Top