数据之美-浅谈数据分析和数据解读的方法和技巧

  • 格式:pdf
  • 大小:2.45 MB
  • 文档页数:45

下载文档原格式

  / 45
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
假设某游戏的数据 有一定程度的下 降,那么我们担心 是新增不足导致 的,现在我们用数 据做个验证,怎么 做?
数据解读:相互验证,大胆假设,多方求证
综合下来我们倾向于认为武魂这次的软性做的并不是很理想
推荐率不高,那 是基于口碑的营 销不足,还是产 品问题 武魂1018 斩魂913 具体认知渠道 朋友告知或推荐 24.62% 31.48% 游戏媒体广告 22.23% 42.23% 网易首页及下属各频道广告 12.39% 4.67% 网易发的邮件告知/短信 11.96% 5.55% 网吧游戏菜单/桌面图标 10.71% 10.97% 游戏媒体的新闻或文章或排行榜 8.70% 15.39% QQ广告 8.17% 4.46% 网吧工作人员/推广员推荐 7.99% 8.28% GS 7.98% 5.06% 网吧的宣传海报/信息/单张 6.98% 5.59% 网吧游戏登录界面广告 6.91% 7.15% 搜索引擎搜索得知 6.82% 3.35% 迅雷等下载软件 6.69% 5.60% 网吧桌面的弹窗广告 6.44% 5.70% 浏览器导航页广告/信息 6.44% 3.90% 360安全卫士 5.87% 4.53% 视频类相关网站或软件信息/广告 5.39% 5.81% 游戏报刊 4.94% -其它 4.18% 3.87% 微博 3.92% 2.71% 论坛的帖子/贴吧 3.83% 7.61% 公会消息 3.58% 2.75%
数据解读:选择一个基点,一个参照系
单独的一个数值往往不具备价值,他只是数字
数据解读:关注异常值,并深究WHY?
从以下图表中,你可以得出哪些结论?
商城收入每日变化情况
250
商城收入( 单位:万元)
200
198.62
150
100
50
0
数据解读:关注异常值,并深究WHY?
以下数据,这个大家又能怎么看?
7/15/30日留 存率
3日回流率
持续付费率
ARPU
周回流率
回流付费率
什么是一个好的指标
数据指标的类型: 绝对水平:数量,次数,额度,时 间间隔……相对水平:比例,比率, 倍数,变化率,同比,环比…… 统计描述量:平均数,中位数,众 数,分位数,方差,标准差,偏度, 峰度,相关系数,…… 去医院的次数 去医院看病的次数 尝试意愿 激活码申请率/点击率 新增玩家数
当我接到一个问题时,我应该如何去回答? 如何让我的报告一目了然,领导2分钟就能明白我想要说什么? 如何让我的分析和回答毫无遗漏? 如何让我的逻辑无懈可击
如何让我的报告和回答更容易让人看懂和记住
这个时候,我们需要构建一个一个金字塔,因为它是世界上最稳固的建筑结构
所谓的结构化思维 从解决问题的角度来看,就是将问题按照一定的逻辑进行拆分,拆分成各个子 项,然后再对子项进行拆分,直到不能拆分或者没有必要拆分为止
如何做数据分析?
引言 一个经典的段子: 周恩来不抽烟不喝酒,活到78岁;毛泽东只抽烟不喝酒,活 到83岁;邓小平又抽烟又喝酒,活到98岁,因此抽烟喝酒的 人更加长寿
例子:评价广东人跟广西人的身高 • • 广东人A有180cm,广西人B有179cm,我们说:广东人A比广西人B高; 一群广东人A平均身高180cm,一群广西人B平均身高179cm,经过统计分析,我们说: 广东人平均身高与广西人没有差异
18.8%
20.0%
10.0%
35.7%
12.1% 7.9%
92.9%
7.1%
16.7%
27Biblioteka Baidu2%
12.7%
14.2%
10.4%
92.9%
7.1%
21.5%
22.0%
32.6%
5.4% 7.5% 10.9%
95.9%
4.1%
23.7%
18.7%
38.4%
4.7% 12.0%
93.9%
6.1%
MMO
15.1%
游戏满意度
非常满意 比较满意 一般 比较不满意 非常不满意
精灵-12年6月
31.2%
54.4%
12.4%
4.14
梦幻-12年6月
13.9%
52.0%
25.9%
3.69
大话3-12年6月
20.6%
43.7%
26.7%
3.72
大话2-12年6月
16.3%
40.5%
31.5%
3.57
数据解读:基于目的,转动数据魔方,各种转化
18.4% 30.1% 43.5% 0.0% 43.5% 3.09
13.3% 29.3% 42.2% 7.9% 50.0% 3.30
最常见的分析-均值分析
通常的情况下,总量对比不能很好反映问题,我们做一些均值处理,均值衡量的 是平均水平
最常见的分析-相关系数
服务器数量和百度指数那个跟在线更加相关? 到底用百度指数来估算在线更靠谱还是服务器数量?
19.4%
14.8% 6.6%
33.0%
9.4%
最常见的分析-交叉分析
交叉分析方法通常是通过不同群体的人对一个看法的差异,以便达到问题更加深 入的认识
职业 上班族 打工族 中小学生 大学生 其他
Total Column %
精灵传说尝试可能
一定不会玩 可能不会玩 可能玩也可能不玩 可能会玩 一定会玩 5+4占比 Mean
结构 分析 法
平均 分析 法
交叉 分析 法
回归 分析
因子 分析
聚类 分析
对应 分析
判别 分析
参数 估计
假设 检验
…...
经常使用,需要熟练掌握
较少使用,不需深入了解
最常见的分析-对比分析
对比分析有可分为横向对比和纵向对比
最常见的分析-结构分析法
结构分析法更多内部的占比,试图接受大部分人多数人是怎样的概念
人均收入上涨幅度 有过晋升人数比例
从问题到拆分到指标的实例
ROI
那个渠道出了问题?
硬广ROI
区域ROI
商务ROI
百度ROI
平煤 ROI
173ROI 效率问题? 新增成本
优酷ROI
多玩ROI
QQROI
具体哪个媒体?
用户质量问题? 单个新增价值
点击成本
新增流失率
哪个环节出现问题
注册成本
付费率
下载成本
ARPU
同样是180cm与179cm的比较,结果为何不同?
2
什么是数据分析?
准确定义: 数据分析是指用适当的统计方法对收集来的大量第一手资料和第二手资料进行分析,以求 最大化地开发数据资料的功能,发挥数据的作用。是为了提取有用信息和形成结论而对数 据加以详细研究和概括总结的过程。 分析目的: 把隐没在一大批看来杂乱无章的数据中的信息集中、萃取和提炼出来,以找出所研究对象 的内在规律,以解决问题、解释问题,并提供决策依据。
0.0%
6.2%
4.0%
13.7%
8.1%
7.4%
23.6% 25.3% 42.3% 8.8% 51.1% 3.36
11.1% 31.0% 44.1% 7.7% 51.8% 3.36
6.4% 24.0% 55.2% 10.4% 65.6% 3.62
7.7% 32.3% 35.9% 10.4% 46.2% 3.21
Step 1:了解事情的背景
什么时候做的推广? 为什么要做这个推广? 这次推广都做了什么?有哪些做法跟以前不一样的? 花了多少钱? 预期目标是多少?
Step2 了解问题的具体所指
这里的效果具体是指……? 是单个活动的效果还是总效果 是品牌提升还是指ROI
Step 2 有哪些假设
D
D是A、B、C的概括
A、B、C属于统一范畴 A B C A、B、C具备一定逻辑关系
A1
A2
A3
B1
B2
B3
C1
C2
C3
A1.1
A1.2
A2.1
A2.2
A3.1
A3.2
B2.1
B2.1
C1.1
C1.2
C1.3
这是否是一个合格的金字塔金字塔?
解构我们常见的模型
选用合适的指标体系
指标是连接问题和数据的纽带,只有选择合适的指标才能充分的反应问题 指标为问题而生,能精准反映问题、且可量化、易测量的指标才是好指标
问卷 深访
座谈会
统计年鉴 行业报告
战略研究中心数据仓库
数据的分析和解读
只要经过较好的分析,才能有较好的解读 只要基于对问题的了解和思考,才能发现有价值的结论
常见的数据分析方法
数据分析
描述性数据分析

矩阵 关联 分析 法 综合 评价 分析 法 相关 分析
探索性数据分析
推断统计分析
对比 分析 法
分组 分析 法
我觉得可能推广节奏有问题导致效果不好 我觉得这次软性做的不错,应该效果不错
Step3 了解问题目的和下一步的行为 关于需求了解,可以参照 5W2H方法
评估的目的是什么? 假设得到了答案你下一步的行为是什么?
8
构建你的分析框架
利用金字塔结构,用一定的逻辑框架将大问题拆成小问题,无框架不成体系
已经发生的事情 为什么发生?
预测未来将会 发生什么
3
为什么要做数据分析
1. 富数据时代的必然选择 2. People Always Lie …
4
数据分析师的要求
宁可折断骨头,不可背弃信念
态度客观
图表会说话
报告的撰写 与展现
逻辑慎密
让你的报告无懈可击
工具善其事, 必先利其器
分析方法和
工具运用
精通业务
精准反馈
离婚率 婚姻满意度 吵架次数 空气质量 星星可见度
可量化 易测量
善良 月做善事的次数 美 五官端正 鼻眼嘴比例/眉眼间距/ 饭熟了 煲饭时间 环境好 绿化面积/空气质量
利用合适的渠道进行数据收集
常见的收集渠道
各种程序LOG 问卷调研 cookies 国家统计局
观测
实验室
POS机 测量
数据收集——我们的数据从何处来
从问题到拆分到指标的实例
运营状况 让更多的人花钱 让花过的继 续花钱 让没有花过 的花钱 新增付费率
留住更多用户
让用户更活跃
让用户更早花钱 首次付费的 等级 首次付费的 在线时长
让花钱花更多
留住新用户
维持老用户
让玩家回头
周在线天数 周人均在线 时长
付费频次
首日留存率 5分/30分钟 留存率 1/10/级留存 率
Business First, Technique Second
数据敏感性 强烈好奇心
洞悉数据背后的含义
发现新大陆!
5
明确你要解决的问题
一切的分析都是针对某个问题,以及未来要进行的某项行为,不然没有意义
问题天天都多
产品概念玩家是否喜欢?
7
一个问题的背后还有很多不为认知的故事
需求:XX游戏XX推广的效果评估?
何为指标
指标是说明总体数量特征的概念。例如,在工业普查中,所有工业企业构 成总体,工业企业总数、工业职工总数、工资总额、平均工资、固定资产 总值、利润总额等就是指标,它们都从不同的方面反映总体的数量特征。
如何衡量工作效率?
从问题到拆分到指标的实例
人均月娱乐活动次数 万人娱乐场所数量 万平方米医院数 万人医院数 精神愉悦(娱乐)
常见疾病发病率/频次
每月人均看病次数
健康(卫生)
(治安)夜不闭户
抢劫案发率 偷盗案发率 死亡案发率 空气质量指数 人均绿化面积 万平方公里公园数
(环境)环境优美
离婚率 婚外情比例 长辈相处满意度
家庭美满(家庭)
(生存)衣食无忧 事业顺利(发展) 房贷占收入比例 家庭/生活固定支持占收入比例 人均购房时长
关于数据解读
有进步哦,上 次才考85分 这次平均分 多少啊 上次平均 分呢 那还好意 思,快做作 业去 哦,那还是 去玩游戏吧
妈妈,我这 次考了90分 哈哈,那我可以 多玩游戏了吧 85分
70分
可是我这次排在 了班里的第3名 啊,上次第10名 啊
数据解读:首先,明确指标的计算法则
假设使用非新增流失率衡量老用户的留存效果,下面我们又会看到什么结论?
从呈现和演示的角度,就是从结论说起,然后在阐述支持结论的分论点,然 后再阐述支持分论点的论点
D
A
B
C
A1
A2
A3
B1
B2
B3
C1
C2
C3
A1.1
A1.2
A2.1
A2.2
A3.1
A3.2
B2.1
B2.1
C1.1
C1.2
C1.3
什么才是一个合格的金字塔 任一层次上的思想是下一层思想的概括 每一组的思想必须是同一范畴 每一组的思想必须具备一定的逻辑关系
但是这个结论可靠吗,可能存在的误差在哪里? 非新增流失率的计算公式=上一期的非新增用户中本期没有登录的用户数/上一期 的非新增用户数
1st 100000 2nd 53000 80000 3rd 28090 40000 200000 4th 14888 20000 118000 50000 5th 7890 10000 69620 23500 40000 6th 4182 5000 41076 11045 18800 20000 7th 2216 2500 24235 5191 8836 8600 10000 8th 1175 1250 14298 2440 4153 3698 3900 5000 9th 623 625 8436 1147 1952 1590 1521 2800 2000 10th 330 313 4977 539 917 684 593 1568 1200 50000
玩家性别结构情况
男 女 私营业主/自由职业者
玩家职业分布
上班族 打工族 小初高学生 大学生 其他
精灵-12年6月 精灵1112新增 梦幻-12年6月 大话3-12年6 月 大话2-12年6 月 MMO总体
58.5%
41.5%
精灵-12年6…
8.8%
63.2%
9.4% 10.9%
81.2%
18.8%
精灵1112… 14.3% 梦幻-12年6… 大话3-12年… 大话2-12年…