Skip to content

大家好,我是曹政,又到了我的星球福利课时间,这次我们聊聊数据,其实大部分内容可能我的旧文中多少都有提及,但比较分散,我也借此机会系统整理一下,希望对咱们读者有所帮助。目标用户,希望能强化数据感,建立数据决策意识的年轻人,包括但不限于产品,运营,研发,创业者角色。 无技术背景诉求,无行业背景诉求。 但部分案例可能需要结合行业认知来理解。那么,有些话要说在前头,所谓众口难调,有些朋友的基础比较好,可能会觉得这些过于粗浅,没有价值。有些朋友可能还没有入行,有些内容可能觉得不太容易理解,难以接受,我坦白说,我希望大家也体谅一下,我会尽量照顾一些刚入行的朋友,但是可能也无法做到特别的浅显易懂。而相对资深的同学可能会觉得我的废话比较多,价值比较低,这个可能真的就不适合您。所以我也不建议资深从业者观看,以免耽误您的宝贵时间。今天我们是第一课,关于数据的种种。先说个引子吧,其实经常遇到很多读者的各种问题,比如我应该怎样选择工作,听说某个领域方向不错,是否值得去尝试,我想创业搞个什么行不行。回到去年的福利课程,我们提到过人生关键决策。那么提过用理性,逻辑去做判断而不是靠感性,用事实,数据去判断而不是个人好恶。有些选择问题可能需要你的底层逻辑,基本的认知能力,比如一个全新领域的市场机会,可能充满挑战,这种我也不敢说可以判断准确。但很多比较成熟的领域和机会,其实你需要的更多的是数据敏感度和测算能力。所谓生意,收益>投入就是赚的,反过来就是亏的,这个生意能不能做,很多不是拍脑袋想出来的,是一行行算出来。而且算出来还不行,因为现实执行中可能有偏差,还需要实践中一条条校准和优化。数据能力可以更有效的帮助你指导决策,针对目标优化你的策略,优化你的判断,以及改变和影响你的决策。这次福利课考虑到面向星球读者,也考虑到个人的技术能力早已落伍,不会在技术领域做过多展开,更重要的会基于逻辑,希望能加深读者的数据敏锐度和日常数据的理解力,从而提升决策质量和判断水平。这里其实分两块,一块是别人的数据,一块是自己的数据。

很多人经常问特别有意思的问题,比如说我想看某个产品的真实数据,怎么看。如果你想看完全不掺水的真实数据,有两条路。

第一条路是黑入对方的机房,拿到服务器的日志,或者买通对方的数据分析部门负责人,拿到数据最高权限。 第二条路是掌控骨干网络的控制权,能够从路由节点监听和统计所有往来数据。

明白我的意思么,懂技术的朋友可能会觉得都是废话,但是很多新入行的人真的会以为,有某种技术途径可以获取别人所有核心业务数据。怎么可能,数据可以没成本的随便看?

那么,有没有求其次得方案呢?有,有很多。

一种是第三方采样数据,一种是对方愿意公开的数据,比如财报是很好的数据源,我以前强调过,虽然财报可能会造假,比如乐视,但上市公司造假毕竟是有风险的,大部分情况下,财报的数据是值得信任的。

当然,这里我又要强调一下,财报数据不是只看这个企业的好和坏,而是理解行业,理解市场竞争,理解产业。龙头企业的财报可以看出很多行业和产业的关键数据,这是你增强判断力很重要的信息资源。很多人入行很多年,说起行业的趋势,产业的热点,茫然无知,说自己工作接触不到,看看行业内龙头企业财报,其实是很好的习惯。

冯大辉老师的微博经常会解读一些巨头财报的关键数据,我的建议是,你最好能通读原始信息,当然可以节选一些关键信息,不需要细致到所有细节,但最好先通读原始信息,再去看第三方解读。那么怎么看财报,这个我后续再说。

除了财报,还有很多第三方数据,比如我常做案例的,爱站网,新榜,similar web,appannie,alexa,以及百度指数,微信指数,抖查查,semrush等等。

对了,前段时间我文章提过,appsflyer也公开了不少数据,出海的同学不知道关注了没有,其实也不用拿小本记录,会用搜索引擎不,都搜得到的,好的数据平台藏得没那么深,你稍微组合一下关键词,都能找得到的。

境内的用百度,出海的用谷歌。如果这些最知名的数据平台自己主动去搜都搜不到,我说真的,你不适合吃这碗饭。顾小北的自媒体经常分享一些数据工具,针对跨境电商的,很多也都是很有价值的,但是坦白说,好的数据源,不便宜。免费版本可以帮你入行,真的进入到一定境地了,还是需要购买商业版本。

搜索能力是入行基本功,这个没法教,这个还需要教的话我认为就不要入行了,当然,确实有很多高级搜索技巧可以挖掘更多好玩的东西,但是至少从这个诉求看,还用不到。下面说一下如何更好的挖掘自己的数据。

那么如果你自己的公司,自己掌握的一些产品资源,自己有日志,有数据库,想要深化数据,缺乏技术资源,怎么做呢,也有一些工具可以利用起来。

比如做网站的都知道有cnzz ,有百度统计,有google analytics。做移动的有友盟,出海的有appsflyer。还有做智能决策的有神策,有数数科技,嗯,游戏行业还可以说一下我东家的产品,tapdb,也欢迎同行使用,遇到不好用的地方可以来找我吐槽。

免费的,付费的第三方数据工具还是很多的,善于利用的话,其实可以用很低的成本建立强大的数据平台。那有人说了,我知道有这些工具,我不知道怎么用。

对不起,这个不教,这个要讲的话系列课讲不完。工具类的使用我不讲,而且很多新产品我也没用过,也不适合讲,我会尽量帮大家建立理解数据的底层逻辑。

我们看到有这么多数据工具,有这么多数据产品,但是这些数据都很准确么?前面提到了,如果你想看竞争对手数据,多半不会特别精确,但不精确不代表不可用,那么怎么理解这里的准确度,怎么理解这里的偏差?

此外,就算是自己的产品,需要统计数据的时候,使用第三方工具,是否足够准确,是否存在偏差,也是需要对产品的技术机理有一定认识的。

这里会做一点技术科普。网站时代的统计分两种方式,一种是基于日志的统计分析,一种是基于嵌入代码的。基于日志的,比如你在web server日志里,通过开启日志参数,存留足够多的信息,那么有很多第三方日志分析工具,可以快速方便的帮你分析这些数据,并提供完整的报告。这种模式曾经的优点,就是私有化部署,而且数据完整率高。毕竟日志的信息是很完整的。但这话后来就不绝对了,因为cdn被广泛使用,大量请求根本到达不了主服务器,在主服务器上部署日志统计就会显得非常不完整。而很少有企业会去做cdn访问日志同步,为了追求更高性能,很多企业把日志里的信息尽可能减少,甚至取消了web 日志,所以这种工具的使用场景就更少了。另一种就是嵌入式,比如cnzz,比如百度统计,比如google analytics,要求站长在网页代码里嵌入一段js,就可以统计网站的访问量和各种流量分布。

但嵌入式的问题也是很多的,第一容易丢数据,因为js代码在客户端可能没有执行,或者执行了但没有能有效回传数据。所以嵌入式的数据通常都有一定程度的丢失。第二是有一定风险,特别是早期浏览器安全性不高,嵌入代码是可以强制弹窗和弹插件的,甚至可以做网页劫持,当年我在站长圈子攒下的第一波口碑就是我提供的嵌入代码服务,从广告链到统计,从来不弹东西。第三,嵌入式的统计是无法追踪蜘蛛爬取信息的,因为蜘蛛不会触发js代码,而早期站长做SEO 优化其实是很在意这个信息的。蜘蛛抓取信息是可以单独拿出来分析的。

那么这是pc时代,移动互联网时代,主流的是埋点模式,其实有点类似于pc时代,只是嵌入方式从js改成了sdk,埋点的逻辑也比网站时代复杂了一些。而日志分析的模式基本被淘汰。sdk嵌入也存在一定的风险性,比如有些统计分析系统的sdk要求授权过多,被谷歌或苹果官方警告甚至下架,这样的事情也发生过的。这是题外话了,回到今天主题,sdk埋点方式的统计分析系统部署,数据回传,也包括云端部署和本地私有化部署两种,有些对数据敏感度要求比较高的企业会选择私有化部署,但如果技术实力和相关成本考虑,中小企业用服务商的云端部署综合成本更低,维护更简单。

如何埋点也是一个超级大的话题,现在的工具不比当年,灵活度很高,那么需要你有正确的埋点,才能尽可能发挥工具的作用和价值,如果埋点不够充分,或者不够严谨,那么得出的数据价值也难以符合你的目标预期。细节不展开,说说逻辑,所谓正确的埋点,其实就是正确的定义你所需要关注的用户行为,渠道和转化目标,你必须对业务的关键节点,目标做出合适的定义,并且把这个定义放在代码里,传递给第三方工具,工具才能按照你的定义替你完成数据的整理和报表。所以这里就有一个很严峻的话题,如果你的数据定义搞错了,或者搞乱了,那么你通过工具得到的数据报表就是错的,乱的。

有时候业务人员沟通不到位,只告诉研发,他要把什么,什么,什么,什么记录下来。研发按照自己的理解去埋点,好像都有记录,但是数据定义混乱,张冠李戴,甚至没有对关键行为严格区分,得到的数据结论可能就和真实诉求相差万里,这时候你说,某某工具一点都不准,其实问题根本不是工具。当然,有能力的公司会自己打造数据后台,技术方案就多了去了,这事咱们先不讨论。

那为什么要讲这些部署方式呢,我希望读者明白一个最基本的道理,你所看到的数据,其准确性是受到数据的获取方式的影响,而且这个影响会非常大。

那么如果是你能掌控的产品,你可以使用日志分析,或者埋点分析,利用自己的代码,或者第三方的工具,来计算业务数据,如果你的数据定义是准确的,通常这个计算结果,大体来说是相对准确的。但也存在一些可能的问题,说一些常见的数据问题。第一,埋点的时候遗漏,或者误标了一些关键行为,这是非常常见的,这里还要特别说明一点,埋点往往是技术人员操作的,需求方可能是老板,也可能是产品和运营,他们对同一个诉求的理解,很可能是不一致的,老板谈到的某个行为,和技术人员理解的某个行为,很可能有很大的不同,这就会导致,埋点统计出来的数据,和实际诉求的数据,有非常大的偏差,而技术人员无视了这个问题,产品和运营人员盲目相信这个数据。

案例我就不提了,但我从业的过程中,多个公司都遇到这样的问题。老板天天看着错误的数据做决断。为什么这些年对齐这个词突然成为职场热门词,十年前职场是没这个词的,因为关于诉求理解不一致的教训太多了。第二,缺乏风控和过滤手段,实际上系统采集上来的日志也好,埋点数据也好,有太多非正常的访问,这会导致各种数据失真。

凡是有利益关联的地方,就会有人试图通过某种方式获利,一些常见刷数据的行为包括,第三方数据分析工具抓取分析,刷榜,刷热度,广告联盟的刷广告,刷评分,恶意灌水,羊毛党的抓取代码,以及网络上常见的一些蠕虫嗅探扫描,也可能会触发大量的无效请求。有些创业公司会拿一些水分的数据去骗投资人,你看日志,你看代码,你来查,都是真的,骗别人的时候,别把自己都骗了。

继续做科普,所谓蜘蛛行为,就是机器模拟人的行为,去目标网址抓取指定的页面或者接口,获取数据的行为。最早的蜘蛛行为更多用来指向搜索引擎的抓取,但我想把这个概念扩大一下,那么宽泛意义的蜘蛛行为都有哪些呢?搜索引擎抓取网页,这是典型的蜘蛛行为。

一些数据网站抓取目标平台的流量,比如前面提到诸如新榜,诸如爱站,诸如抖查查,海外各种 adspy工具,也是通过这样的行为,抓取目标平台的信息和数据。

羊毛党的获利行为,比如秒杀,比如抢票,比如机器人抢券或者抢礼物,那么也是程序模拟人的行为,也可以认为是蜘蛛行为。一些蠕虫会搜索网上的接口,发布各种扫描请求,试图探索可能存在漏洞的位置,这种行为也可以认为是蜘蛛行为,其实你但凡开着服务器的日志,一定可以看到大量的蠕虫或扫描器的扫描行为,这些行为不是针对你的,就是全网段的扫描,而这些行为绝大部分,比如99.99%是不会影响你的服务器安全和业务的,当然,如果你足够不要脸,就可以把这个数据统计出来,对外宣称,每天阻挡了多少次的入侵尝试。当然,刷榜,刷分也有很多蜘蛛行为,所谓机刷,不过现在各个巨头平台风控都比较严,蜘蛛行为往往难以如愿,所以越来越多采用真实用户分包的方式进行,这个和咱们主题无关,先不展开了。但这个也会导致运营数据失真。蜘蛛行为不一定会触发统计系统的埋点统计,这个要看统计系统的处理逻辑和蜘蛛的请求逻辑,但如果你负责企业内的统计分析,或者你在做一个通用的统计工具,你不能无视这个问题。如果你关注企业的内部数据,有时候对数据真实性和异常波动存在疑虑,有追踪下去,可能会看到这样的干扰。实话说,这样的干扰还是有不少案例的。上面提到的更多还是自有平台或者自己掌握原始数据情况下,可能存在的信息偏差,但更大的问题是,如果我使用的是第三方的数据监测平台,如何理解偏差,如何避免偏差?先看看,第三方的数据监测平台是如何获取数据的。

前面提到了一些,第一种,是通过蜘蛛获取官方数据。

比如前面提到的爱站网,比如抖查查,比如新榜,他们是定时抓取官方数据,来作为依据。

但这里有个问题,首先,官方数据不一定愿意给你,比如爱站和百度斗智斗勇,百度其实不想把指数信息提供给第三方,这不是官方接口,据我所知,绝大部分第三方监测平台,都没有官方接口。那你说不对啊,新榜可以通过我的授权获得我的数据,这不是官方接口么,这事你授权的情况下,但新榜监控的数据,有多少是自媒体作者授权的呢。从某种意义来说,官网如果能够甄别第三方工具的数据请求,是可以有意识的给这些第三方工具提供虚假数据的,而且这也是有过案例的。其次,同步性不是很好,也就是他们做不到官网同步,多少有些延迟。

第三,受官网数据制约较大,比如现在百度指数,很多热门词已经不提供指数了,那么爱站上就不会有。比如某些平台风控不严格,很多数据是刷出来的,这个第三方抓到的也就不准确了。

如果抓取的是官方的数据,如果官方没有搞你,相对来说,还算是比较准的。而且可以和官方数据对比校验。抓取数据只是一种,还有就是抓取出现频率,比如很多广告监测的 spy工具,就是模拟大量不同地区,不同身份的用户登录,抓取出现的广告,然后推算广告的投放规模和投放策略。

这种其实就不是特别准确了,但依然具有足够的参考意义。而且这种对越是头部的越准确,对长尾就很不准确了。

还有一种是抓取榜单,推算流量,比如appannie就是典型,抓取官方的榜单,推算可能的日均下载和消费转化,这种除了抓取榜单之外,还会结合授权他们抓取数据的客户信息,这样就比单纯抓取榜单更精准一些,比如某区域畅销榜排名第10的客户是授权他们抓取的,排名第15的也是授权他们抓取的,那么他们就在这个区间来测算排名第11到排名第14的,相对来说,就不会有离谱的偏差。这里总结一下,抓取官方信息包括三部分,直接抓取数据,抓取出现频率,和抓取排行榜单。蜘蛛抓取之外,第二种常见的就是采样信息。

那么客户端采样是最常见的模式,比如alexa,通过发布alexa工具条,采样工具条的数据,来推算全网流量。还有一些数据机构会找一些典型用户,通过一些报酬,在他们客户端放上监控软件,监控他们的浏览行为,作为采样样本。比如以前艾瑞数据是这样做的。此外还有就是通过和网络运营商合作,在主要网络节点装监听软件,作为采样样本,这种在隐私保护不那么严格的时代,也是有不少公司尝试过的。采样方式最大的风险就是样本偏差,以及样本规模,而且这是几乎无法避免的,早期中国互联网作弊alexa不要太容易,因为采样会默为标准用户分布,比如1个样本可能代表100个真实用户,你搞100个样本就可以模拟1万个真实用户。现在国内没人看alexa了,也没人装了,所以我说这个数据其实基本上很不准很不准了。样本偏差也有典型的例子,比如艾瑞早期主要样本用户集中在北上广这样的骨干城市,那么样本用户的行为规律其实和中国互联网是有很大偏差的,所以当年各种第三方数据报告里谷歌的市场占有率都是高估的。

为什么我这么肯定那些数据报告都不准,知道我是怎样采样的么?揭秘一下,我当年是通过cnzz采样的。

这个逻辑是这样的,cnzz本身嵌入到大量网站中,那么你说搜索引擎又没有嵌入代码,怎么会知道搜索引擎的分布,js可以获得http的head信息,head信息里有一项 http-referer,也就是用户的访问来源,如果用户是通过搜索引擎进入了这个网站,那么cnzz就可以统计出来,实际上搜索来源和关键词来源本身也是统计系统的核心诉求。

因为采用cnzz的网站足够多,样本覆盖足够广,那么我就可以认为,基于cnzz的搜索来源数据,可以评估搜索引擎的市场分布。那么问题来了,cnzz 的搜索来源数据,样本偏差有没有?其实还是有的。

第一个偏差,因为cnzz的用户都是中国站长,所以对于用google搜索进入海外网站,英文网站的用户来说,这个数据是采集不到的,因为google中国用户访问海外网站的比例大于百度,所以这个问题会低估google中国的搜索市场分布。

第二个偏差,由于百度的搜索有很高比例引流到自身,比如百度知道,百度百科,百度文库,百度贴吧等等,而百度自身是不可能使用cnzz嵌入的,google自身引流的比例明显低于百度,那么基于此,可以认为,这个问题会导致cnzz采样数据低估百度的真实搜索量。

有意思没,其实低估和高估同时存在。那么我怎么看待这个数据呢,如果仅仅是评估cnzz 采样的数据和艾瑞报告,也许我不能肯定的说,cnzz采样的更准确,但是我有另一个大招,就是把数据细分来看。

实际上我可以区分不同地区用户的百度和谷歌搜索市场占有率,不同浏览器的,不同操作系统的(苹果和windows,当年还是pc时代,现在我可看不见cnzz的数据)。那么看不同地区就够了,我发现,在十五年前,比如上海的google使用率,是东北的四倍以上。一线城市的google使用率,远高于二三线城市和其他地区。那么这时候,再去看艾瑞的采样方式,就能理解,为什么艾瑞数据会明显高估谷歌的市场占有率了。那么这里我可以再延展一下,除了可以看不同地区用户的搜索分布之外,这个数据还能看什么,我告诉你们,还能看不同搜索引擎的渠道分布!

为什么能看到呢,因为很多人没注意过,你搜索执行之后,浏览器地址栏url里的参数,有一些是渠道参数,google当时是aff,百度是tn,搜狗,雅虎都有自己的渠道参数,所以当时我还能很清晰的知道,google的搜索是哪些渠道贡献的,比例是多少。所以我当时很肯定的说,google 在中国的流量有超过一半是渠道贡献的,而不是用户对google品牌信赖的主动使用,而这些渠道几乎都是来自于雅虎联盟,因为周鸿祎和杨致远撕逼导致的,其中很多是百度反作弊策略踢出去的,因为那时候我就负责百度的商业反作弊系统。所以,基于以上的数据种种吧,当黄一孟老板来问我,verycd如果自建网址导航,搜索商业价值是多大的时候,我非常有把握的回答他,因为我很清楚,他们的客户端给google带去的流量比例和真实价值。然而当时,他们自己却并不知道。这里再说个题外话, cnzz的原型是我做给百度的,却未被领导赏识。在pc时代,这个数据价值实在太大了,百度统计是我离职后才开始立项的,而此时阿里收购了cnzz。

如果你理解了以上的内容,那么为什么appsflyer 可以出很多行业投放报告,你也就能明白了。而appannie,上面也提到了,其实是抓取+采样。那么授权客户提供的数据可以认为是采样数据,未授权客户通过榜单抓取,和采样数据通过算法进行拟合。实际上新榜也是这样的逻辑,那么谁的样本多,覆盖范围广,谁就更准确。所以最后赢家通吃,similarweb应该也是类似的逻辑。我这些年的经验是,看到一些第三方数据,非官方,我会先去研究这些数据的来源,也就是数据的获取方式,其次是数据的定义方式,这个也很重要,数据定义方式理解歧义也是很常见的。理解这些之后,才能理解这个数据究竟代表什么,以及在什么样的情况下是可信的,在什么样的情况下是不可信的。

第三方数据不可能是精准的,一定会存在一定范围的偏差,但这不代表数据是不可信的,因为你没有办法获得完全精准的数据,所以要学会和偏差共存。两个极端都不足取,其一就是奉数据为宝典,数据这么说,数据就是对的,数据不会骗人,连数据怎么来的都不知道,这是不可取的。要敢于怀疑数据,哪怕是很牛逼的系统做出来的数据,很牛逼的企业发布的数据,也是可以怀疑的。我经常对日常业务数据产生怀疑,无论是在百度,在4399,还是现在心动网络,这样的事情都出现过,那么有时候,会证明我的怀疑是对的,数据采样出了问题,数据定义有歧义,或者遭遇了一些刷量或其他风控需要关注的事件影响,如果不怀疑数据,你是发现不了这些问题的,但也有时候证明我的怀疑是错的,这就让我产生了新知,原来我对某个数据的惯性认知是错的。是需要与时俱进的。牛逼企业发布的数据也会有问题,不好意思,我又要举当年谷歌中国的案例了,当年英语培训这个词指数很高,你用google trends回溯历史还能看到,官方说是谷歌中国的用户喜欢学习,喜欢浏览英文资源内容,听上去很有道理对不对,其实我知道真实原因,是联盟伙伴为了赚广告费的预置词,我一直想知道他们市场部的人是真的不去分析数据源,还是揣着明白装糊涂,为什么我知道,我对谷歌数据的跟踪,超过当时95%的谷歌中国员工,我手里的数据源,可不止cnzz,还有百度的很多产品的采样数据。其二极端是求全责备,就是这个数据不准,那个数据不准,所以都不可信。采样拟合肯定不是很精准,但是你了解它的采样机理后,还是可以作为有价值的参考,说什么都不信,然后问哪里有可信的数据。这就很过分了。再说个好玩的,当年方兴东博士写文章说很多网站alexa 作弊,可好玩了,这家伙学会看alexa 后,凡是自己不知道的,看不懂的,就扣个作弊的帽子,关键是他根本不懂alexa的采样原理,也不懂中国草根互联网的真实状态,比如说hao123作弊,太可笑了,当时hao123在中国网民的首页设置率超过了百度,对百度搜索贡献大的惊人,然而方博士不懂,就扣个帽子。还有一个短域名服务平台说是作弊,也是胡扯,alexa 是基于域名统计网站访问量,短域名服务本身就是很多草根网站共用一个主域名。(我以前也搞过这个服务,后来政策不让搞,因为无法备案),所以无数草根网站的流量被alexa聚合了,是短域名服务业务模式和alexa采样方式造成的,你可以说服务平台本身没有排名那么高的流量,但这个怎么能算是作弊呢。当年Alexa数据有其不准的一面,也确有网站作弊,但是并不代表这个数据完全不可信,实际上它提供的不止是排名,还有很多细分数据,而这些细分数据的价值,其实可能更大于排名价值。但有些评论家就是视而不见。从一开始一窝蜂的用alexa排名冒充专家,到后来一窝蜂的通过鄙视alexa数据冒充专家,其实都是无脑之辈。

我有个习惯,很多日常会使用的数据,会看到的数据,我都会试图追溯一下其数据采集和计算的原理,这可以让我更好的理解数据背后的意义。当然,有些数据不那么好猜,但是值得引入思考。

我举个例子,我旧文写过,手机GPS信息的获取原理,其实大家每天手机都在定位,但是很少人会刨根问底去琢磨,到底我的定位信息是怎么得来的,很多人一知半解,会以为手机和卫星双向通信,实际上是不可能的,单向通信,多点定位,相对论公式修正,那么我也提过,地图软件的路况信息是怎么提供的,卫星观察路况么?扯淡。其实是开着地图导航的用户上报的。所以国外有人用一个小推车的安卓手机欺骗了谷歌地图,而国内有人用类似的手段欺骗了高德和百度地图。那问题来了,如果存在主路和辅路,直行路和拐弯路,如何获得不同车道的路况?先简单思考一下这个问题。

车道的距离太短了,靠gps信息其实很难区别,但路况信息的采集是具有一定的延迟性的,这个延迟性可以得到很多关键信息,比如某些车在某个路口直行,那么可以追溯这些车之前处于直行道,而某些车在某个路口拐弯,那么追溯之前的上报信息属于拐弯道。主路进辅路,辅路进主路,也可以通过后续的不同行为,追溯前面上报的路况属于什么车道。我没有做过地图产品的产品经理,没有从事过有关的数据开发工作,但我可以猜测并理解这里的数据逻辑,那么每天用这个信息的用户是几百万,几千万,但是真正去思考过这个数据来源和逻辑的,可能是微乎其微的。当然,你会问,这个有什么用?

单独说某个数据来源,确实可能没什么实际用处,但是数据好奇心,数据敏感度,往往来自于这里,理解数据来源机理,能更好的理解数据背后的意义,如果是商业数据,或者是产业数据,那么就能更好的理解其中的商业机会和价值。我举个例子,所谓增长黑客,每天研究的不就是平台的各种排名和榜单策略么。其实是一个道理。很多时候,大家看到的是同样的数据,但是理解深度会差很多。有些人会怀疑,会求证,证实或者证伪,有些人就只会牵强附会的解读。因为不理解数据来源,所以误读数据才会普遍存在。

那么这里说一句很重要的,看数据的一个思维,就是合理怀疑,谨慎求证。

特别特别要强调,希望咱们读者能牢记,合理怀疑,谨慎求证。什么是合理怀疑,就是和常识不符的信息和数据,要敢怀疑,为什么敢怀疑,因为可能这个数据的采样方式有问题,或者这个数据的定义和你理解不一致。但是这里又有一个前提,就是你要有数据常识。

这个非常非常非常重要,很多人没有数据常识,比如以前百度卖二手车广告,5万块,准新宝马,你一看就知道这个不符合常识对不对,这就是不符合常识。这种是不是应该合理怀疑。这个多半是骗子吧。

但怀疑不等于定论,有时候,你的怀疑是对的,但有的时候,你的常识是错的。比如我就非常不够与时俱进,一些行业经验停留在10年前,一些新的行业案例出来,涉及的数据很颠覆我的常识,最近这两年也经常遇到这样的尴尬场景。所以怀疑之后,要谨慎去求证,如果在职场,研发给你的数据,和你运营的常识差异很大,要去求证这个数据产生的逻辑,寻求可能的问题。

这里也是需要防范极端的一些思维习惯,有一种就是把怀疑当结论,恰恰是常识欠缺,所以即便你给他很正确的信息,不符合他的常识,他就觉得你在骗他。另一种就是容易盲信,比如大公司发布的报告肯定是对的,然后各种牵强的去解释。

比如说,那个董明珠直播带货,一次多少个亿,很多自媒体各种解读。

有人爆料啊,搜索的到啊,渠道部门逼着代理商压货下单呢。这种数据第一眼就应该怀疑对不对,但你也要去找知情人核实对不对。可能你入职一家公司,你老板让你关心一下业务数据,你进后台一看就懵了,每天几十个甚至几百个报表,各种数据杂七杂八,有的公司数据后台做的好点,可能还能找到一些脉络,做的差点的,就很头大。

自己做业务也是,你自己做个网站,你装了一个google analytics,每天的数据怎么看,该看什么,该关注什么。一头雾水。当年我看到有本书,介绍如何使用google analytics优化网站的,我靠,厚厚一本书啊,我说这东西也需要看书学么?很多人还真就是不知道从哪里入手。

首先,看数据之前,你要先自己写一个业务公式,和你工作业务密切相关的业务公式。

其实我旧文也提过的,所谓框架思维,所谓商业逻辑的基础,要有一个框架的思路。比如电商,曝光率 X 点击率 X 下单转化率 X 客单价 X(1-退货率) 是你的收入模型公式,此外务必关注一个数据叫做回购率。

比如搜索,搜索量 X 广告展现率 X 广告点击率X 平均广告点击价格 是搜索收入模型公式,此外务必关注一个数据叫做客户续费率。比如游戏,也可以给出类似的公式,这是基本框架公式,但具体到你的业务,比如你是做运营,做产品,还是做商业变现,可能你的业务涉及的并不是这个全部,没关系,你了解完整一些,可以了解自己的工作,在公司,属于怎样的存在,为公司的整体业务提供的是怎样的支撑。心里有这个公式后,找到你的核心目标,所谓核心目标,就是你当前业务所关注的核心数据,或者你们部门kpi最关注的数据,先找到这个数据,然后,理清这个数据是怎么得来的,和哪些数据有关。如果你只是业务部门之中的一个小组,你至少先明确你们组的工作目标是什么,然后基于这个目标,明确你们所关注的核心数据是什么,然后理出核心数据相关的因素和公式,这时候你去找数据,就可以有的放矢了。

抓住纲领和脉络看数据,从你的目标出发找数据。一个基本逻辑是,先理解整体数据,再看细分数据,关联数据,以及综合评估影响因素。

比如我们说电商的产品页下单率,我们看到了一个整体的下单率,然后要看不同类型产品的下单率对不对,不同渠道来源的下单率,不同用户画像的下单率,新用户和回访用户的下单率,不同促销手段的下单率。这就是细分数据,通过不同细分数据,形成对整体数据的综合认知,然后是关联因素,下单率和促销运营活动的关系大不大,和客服回复率的关系大不大,和产品的评价评分满意度关系大不大,和用户年龄,性别的关系大不大。和老买家晒图的关系大不大,这就有很多关联数据,细分数据,关联数据都出来了,现在老板问你如何优化下单率的话,策略自然也就出来了。当然,还有很多数据是无法简单关联的,比如下单率和产品文案的关联肯定是存在的,而且产品文案肯定是非常重要的影响因素,但是这个关系如何定义,如何量化。你说可以计算关键词密度,可以搞tf-idf公式抓取核心词,但这些不足以体现文案的价值和意义。

这怎么办,这就不能完全依赖于数据了,就需要结合某些经验标签来看。比如某款热销保健产品,可能有多个方案,这个产品文案是主打亲情关怀的,这个产品文案是主打送礼馈赠的,这个产品文案是主打同类产品效果对比的,一个产品文案也可能覆盖其中的一个和多个标签,然后通过不断的灰度测试,来计算不同标签下的文案,对转化率的影响,那么你说这个准确么,不准确,可能恰好某天有个大客户正要寻找这个产品,文案看都没看就下单了。转化率很好,但其实可能和文案没任何关系。但如果数据足够多,这些还是有一定参考价值的。还有就是,当我们试图总结数据特征,我们要理解,用户行为存在一定的波动,这个是完全无法预知的,你说百度可能精确预测某个关键词第二天的搜索量么,你怎么预测,用户搜或者不搜,存在太多波动的可能对不对。但数据越大,这种波动幅度就越窄,数据越小,波动幅度就越大。比如你在巨头,习惯于某个稳定的业务数据每天正常波动在10%以内,很正常,巨头业务数据是非常大的规模,那么不会有太大的起伏波动。你去创业公司,你说按照业内顶级公司的经验实测,10%以上业务数据波动就必须要发风控警报,就一定有问题,最后发现天天预警,都是虚报,这就是无视数据量对波动影响的后果。前面提到的看财报也是,你要带着自己的目标去看,看巨头财报里提到的某项数据,是否能验证或者证伪你的某种猜测,从而让你实现认知的提升,然后再看这个数据的构成,细分。财报里会解释各种成本构成,收入构成,什么是一次性或短期收入,什么是持续性收入,什么在增长,什么在下跌,为什么有的财报看上去不咋样,股价还会涨,因为投资人看到了企业发展的希望,一些具有爆发潜力的业务数据超出预期,而成本中有很多一次性摊销,或者一些奖励性的股票期权成本,这些也是近似于一次性成本,那么投资人就会认为这个企业发展空间不错。有的时候财报看上去很好,但股价反而下跌,因为投资人发现一些核心因素可能增长不佳甚至没有增长,收入增长可能来自于一些短期行为。比如某款游戏收入激增,但是平台日活下降,留存下降,那么投资人会担心这个游戏的收入是不可持续的。当然,中国股市太多不可预测的升跌,不是我这个级别的人可以揣度的。

挖掘数据宝藏,首先你要有对业务模式有足够的认知,有的放矢,才能从数据中找到宝藏,如果没有这个认知,数据摆出来对你而言,也是无意义的。我经常分享我的星球,自媒体的收入,报价和商业转化效果,我觉得是输出价值,但是为什么有些读者只觉得我在凡尔赛,在炫耀,说真的,这点收入有啥值得炫耀的,也就是某些人太low了才觉得炫耀,我朋友圈多少人收入是我十倍百倍以上,我讲出来我的收入,自己都觉得不好意思。但我觉得这个对很多新入行的从业者有价值的,问题是一些从业者是否意识到这里的价值。为什么同样粉丝数的号,收入会相差十倍甚至百倍。什么样的人,什么样的内容可以在知识星球有效变现,什么类型的广告适合怎样的自媒体作者,这些其实有很多信息差,我都讲过有人靠这个信息差赚过很多钱,但就算你把信息差摆出来,很多人依然看不见。数据宝藏是什么,很多时候不取决于数据是什么,取决于你看到了什么。无论是职场,还是创业过程,解释数据异动都是非常常见的一种诉求。

什么是数据异动,就是数据的变动超过了正常的认知范围,但是暂时没有合理的解释。

比如情人节,鲜花玫瑰这样的词搜索量和点击转化狂增,这个属于常识范围内的数据变动,比如京东6.18或天猫双11,用户下单转化率激增,也是同理,这种数据异动,基本上不需要解释。但常见的不明异动还是很多的。

比如产品没有出现严重bug 的情况下留存率连续下跌,比如在没有显著来源增长的情况下,pageview莫名增长。比如业务收入的突然上升或者下降。数据异动,有些创业者会认为,如果指标变坏,自然是不好的,需要认真调查,如果指标变好,就会乐观的认为是合理的,无需过度解读。但实际上,基于我的从业经验,很多时候,指标变好可能背后是很糟糕的事情。比如百度以前就有过这样的案例,突然收入不明增长,商业分析团队不敢掉以轻心,立即追查数据,最后发现是某个代理渠道为了拿返点,大规模调整客户点击价格,恶意消耗客户资金,这个性质其实蛮恶劣的。 那么面对数据异常变动,如何快速有效的定位和解释,如上案例,百度当时出现收入异常波动,15分钟内可以快速定位原因,是怎么做到的?不好意思,商业分析平台是我一手搭建的。其实特别简单,我过去文章提过的,可能很多新读者没有看过,或者看过没有深入的印象,就是三板斧,对比、细分、溯源。

所谓数据的好坏,当然是对比产生的,你说我今天看用户留存40%,好还是不好,我不知道,但你如果说竞品是45%,说明什么,说明我们不够好。这是横比,还有纵比,你说今天我们用户留存40%,但是上个月是35%,说明什么,说明还是有进步的,这是纵比。对比有横比和纵比,横比是跟同行,跟同类产品比,纵比是跟自己比,跟历史数据比。

比如通过你对产品着陆页的努力调整,现在你负责的某款电商产品的浏览下单率是4%,那么领导要怎么看,第一看平台上同类产品下单率是多少,第二看这个产品历史浏览下单率是多少,那么可能其他产品是5%,而这个产品历史数据是3%,领导说,嗯,你的工作还是有一定效果的,但还有提升的空间,要继续优化调整。

我们说的数据异动,通常是针对历史数据,也就是纵比。这里再说个题外话,数据异动的观测和分析要尽可能快,一定要尽快定位问题尽快调整修复。我以前做统计的时候,找站长调研,很多人跟我说itsun的统计好,好在哪里,有同时在线的数据,而当时其他所有统计系统都不提供实时数据,我开始也疑惑,每天回顾前一天数据不挺好么,至于需要看同时在线人数么,再说了,网页浏览,所谓同时在线根本是统计不了的,当时只是把15分钟内有浏览行为的都计算为在线而已。但是既然站长们说了,我就硬着头皮做了,果然备受站长欢迎,而且使用率颇高,我后来明白这个原因了,站长们经常遇到什么问题,突然有用户说,网站打不开了,或者打开很慢。这种情况很常见对不对,站长经常会泡在用户群里,或者在看用户的帖子反馈,那时候国内对论坛社区的控制还没那么严格,看到这种反馈,会怎样?第一时间看同时在线人数。站长们对数据都极为敏感,每天什么时间,自己网站大概在线人数是多少,心理门清,如果发现在线人数比平时有较大的下跌,坏了,确实出事了,赶紧查原因。如果没有,那是个别用户的终端问题,不用太操心。其他统计当时都没重视这个问题,没有意识到这个数据对站长的价值。

回到主题,我发现数据不正常了,我当然想尽快定位原因,这时候,数据细分是非常关键的步骤。所谓数据细分,就是把数据按照不同维度和粒度去细分。

什么是维度,比如用户的地区分布,比如用户的终端机型分布,比如用户的上网环境分布,比如用户流量渠道分布。

当你发现数据有问题的时候,就可以通过不同维度,看看到底在哪个维度的哪个具体分布上,出现了非常明显的问题。那么什么是粒度,比如我们看地区的时候,我们可以粗放到省,也可以细化到市、县,这就是粒度不同。比如我们看流量渠道的时候,我们看来来自于哪个大渠道,还是哪个细分渠道,这就是粒度不同。再比如我们分析用户终端分布的时候,是到厂商,还是细分到机型,也是粒度不同。

粒度是不是越细越好?并不是。特别细的粒度可能会让你陷入大量繁杂的数据无法找到头绪,实际上从粗到细,层层递进,更容易理解数据的价值,而且做商业分析和用户价值分析的时候,过于细粒的数据分布其实不容易把握,反而需要做一定的聚合,才能体现数据价值。比如,在提供所有城市的用户行为分布和长期价值的时候,能否聚合成为一线城市,二线城市,三线城市,县城和乡村。这样对理解用户价值和商业转化效率的差异是不是比看单个城市更有意义。比如,在提供所有机型用户的行为分布和长期价值的时候,能否先聚合为高端机型,中端机型,低端机型,平板用户,模拟器用户,而不是一上来就罗列一大堆不同终端型号。

技术人员有时候会觉得,我提供各种细粒度的数据,你自己组合不就好了。

但是从商业挖掘的角度,按照某种标签聚合某些细粒度的这种工作虽然技术含量不高,其实是很有价值的。好吧,回到前面案例,比如当我们发现业务数据出现波动的时候,我们通过维度和粒度的细分,通常可以找到数据波动集中在某个维度的某项分布上,比如前面提到的百度收入波动,那么很容易定位到某个地区的某个渠道,这时候问题就很明显了。但这时候不代表可以最终定论,还需要最后的一步验证,就是溯源。

所谓溯源,就是基于细分的结果,追溯符合某些条件细分分布的原始数据或日志。

溯源这个步骤很关键,可以更好的理解究竟发生了什么,以及是怎么发生的。

那么你说我一上来就溯源行不行,肯定不行,为什么,你没定位到某个维度,某个粒度,海量的源数据你怎么溯啊。比如前面提到,细分之后,发现主要数据波动集中在某个地区的某个渠道,现在追溯这个渠道下面的最近点击记录,对比历史和变化趋势,发现点击价格远远超过历史价格,再追溯价格调整的过程,就能定位到,代理商恶意抬升客户价格,而这时候基于对业务的理解,就能明白,这是追求业绩返点的蓄意行为。很多公司的数据团队能够理解对比和细分,但是不理解溯源的价值,我给你各种维度分布统计还不够你看的,你看源日志干嘛呢。

当年百度首席产品设计师,孙云丰教会我一个词,叫做理解用户的挣扎。在4399的时候,有个案例可以解释这个词。

什么情况呢,某天发现4399网站流量有异常的波动,独立访客数没有明显变化的情况下,pageview有小幅的波动,我就想确认一下原因,是否正常,因为4399流量很大,前面提到了,流量越大,正常的波动幅度越小。所以哪怕是小幅波动,也可能是有问题的,结果做分析的同事很快就定位到问题了,嗯,用的就是我教的三板斧,数据后台系统也是我搭建的。先细分到频道和专题页,确认某个活动页相关的用户行为增加较多,但如果只看到这个,可能我们会认为活动效果不错,然而溯源之后发现了问题。实际上,内部测试不严谨,4399的内部人员都有4399的账号,那么进入活动页,登录,然后参与活动,流程一气呵成。但是其实4399的账号普及率并不高,很多玩家没有账号,那么玩家进来后怎么操作的呢,进入活动页,然后注册,注册完成后,跳转到了用户中心页,问题来了,活动页在哪里?很多都是小孩子玩家,这下找不到活动了,各种点击,左点右点,各种找,所以pageview 上升了,但是这个不是我们想要的访问量,能理解了,这就是玩家的挣扎。通过细分+溯源,确认了活动页面流程的bug,立即修复,活动页注册后跳转回活动页,那么pageview也就恢复正常了。这个案例的意思是什么,溯源,是要有代入感的,你不仅仅是观察用户的行为记录,还要带入用户的情感,带入用户的焦虑,带入用户的挣扎。这时候,你自然能体会到产品问题是什么,以及合理的解决方案是什么。

所以,溯源这个事,我最近在心动内网又有一个说法,今天也分享给大家,找到挣扎的用户,理解用户的挣扎。怎么找到挣扎的用户?

比如游戏产品,想要提升留存率,那么要找流失的用户,你说第一天用户流失最多,但这个没意义,行情是超过一半的用户登入游戏就流失了,没有行为记录,怎么分析,没法分析。要找什么呢,有一定投入的用户如何流失的,当然,要抓大放小,比如你做个流失率曲线,流失和关卡的关系,流失和时间的关系,流失和等级的关系,你做完后,如果你发现曲线存在某些突出点,也就是在某些关卡,某些等级,流失率相对比较明显,你去找在这些关卡,等级流失的用户id,然后呢,溯源,追溯他们最后的行为日志,这你就有代入感了,你要理解他们在流失之前做了什么,是不是遇到了某些障碍,挫败感,失落感,然后想想是不是产品在这里的难度过高,或者有些提示没有到位,或者给予玩家的资源不足以让玩家顺利前进。比如提升搜索体验,想要提高搜索转化率,你要找什么,连续搜索多个关键词没有点出,或者只点击了最后结果的用户,也就是搜索次数远大于点击次数的用户,为什么呢,这些用户一定是搜索上遇到了障碍,所以才没有尽快的产生点击,然后溯源,理解他们搜索的最终目标是什么,为什么一上来的搜索达不成目标,是否搜索容错,搜索相关性上,具有进一步提升的空间。以此类推。 当然,我必须承认,很多时候我们很难有足够的数据支撑自己做这样的事情,比如我说我做自媒体,我也无法完整掌握我的用户行为记录对不对。比如你做电商,巨头平台给你的数据也是有限的,你知道用户浏览了你产品很多次没有下单,但你不知道这个用户最后去哪里下了单,你肯定想知道,然而平台不会给你。

所以我也坦白说,道理是这个道理,但是现实的业务执行中,你可能无法掌握足够的数据,来做这样的事情。自媒体有时候也会遇到数据异动,我经常遇到突然订阅激增,搞不清原因,但其实有些数据也可以缩小范围,比如看看公众号后台的来源分布数据(也是一种细分对不对),如果来自于扫码的多,那么是有人在公众号的文章里推荐我了,如果是来自于分享的多,那么是有人转载我的文章了,看看转载记录。如果是来自于搜索的多,那么说明有站外推荐,也就是非公众号体系内的人推荐我了,很多时候我也是一头雾水,不过通常过两三天就会知道原因,因为留言啊,私信啊会有人说,从哪里哪里过来的,或者有朋友会在微信转给我链接,你看哪里哪里谁推你了。

我是对数据极为敏感的,但也并不是每次都能快速定位原因和找到真相。很多时候,你只能在有限的数据里做文章,不可能做到事事遂心。真实的数据,错误的解读,我2013年在百度空间的文章里提过常见的一些误区,文章叫“谈谈数据分析这点事”,我记得应该在公众号也重发过一次吧。这里重新整理一下,常见的数据解读错误包括

1、因果关联错误,以及忽略关键因素。 比如,A和B数据相关度很高,很多人会拍脑袋说,是A导致了B,但其实可能是B导致了A,也可能是C同时影响了A和B ,但是没人看到C。 比如我常说的房价和炒房团的案例,炒房团导致高房价,是一个典型的因果错误,这也是为什么打击炒房团的调控越调房价越高的原因。2、忽略沉默的大多数。 网上调研经常会出现这样的结果,比如有人质疑为什么周杰伦的粉丝不够多,因为周杰伦的粉丝在相当时间都是沉默的。我们容易被一些明显的声音干扰,从而忽视了那些沉默用户的诉求和遭遇。这就是为什么要看日志,要溯源,要通过源数据,去理解用户的挣扎,他们没有讲,但是你能从日志里看到他们。3、数据定义错误或理解歧义。 太他妈的多了,多的数不清。 数据定义是个非常重要的概念,在职场,如果你对一个数据的含义不够清晰,一定要问明确,很多人自以为是的去理解,其实往往是错的。在早期的IT评论圈子里,这样的错误数不胜数。张冠李戴,各种误读,比比皆是。随便说个范例,有些年新闻里经常说某某网站的点击量。什么叫某某网站的点击量,统计方式和你理解的一致么,根据我观察,当年英文统计系统的一个常见定义hits经常被翻译为点击量,但是和公众理解完全是两回事,然后看评论家基于此各种胡扯。4、强行匹配。 不同领域,不同背景下,某些数据的定义可能是不一致的,忽视这种不一致,强行对比不同领域的数据,并以此来做出判断和结论,都是非常荒谬的。

以前某些金融做空机构对中国某互联网公司的做空报告出过这种问题,国内资深一些的同行一看就知道那个数据解读错的离谱。嗯,当年很多老同事因此大赚了一笔。我自己也小赚了不少,当然后来又傻逼兮兮的在其他投资中亏掉了,这是后话。

数据宝藏怎么来的,你看到他们用错误的数据解读做空,你的机会不就来了。5、忽略前提

有些数据结论是基于某种前提得出的,或者数据采集是基于某种前提进行的,但是解读者有意或无意忽略前提,将结论扩大化,那么就错的离谱。 比如说,某项调查是对中产阶级及富裕家庭家庭子女教育进行的调查,那么结论出来了,中产阶级子女教育中,哪些项目是最受家长欢迎,最具有效果的,然后你把中产阶级的前提去掉,然后去讲这个事情,很多人就开骂了,你不知道家庭养孩子多困难么,负担多重么,你这样讲是不是站着说话不腰疼。

有时候网络上一些人的言论是有前后文的,你把前文忽略,直接说某学者教授怎么讲怎么讲,一大堆人跟着骂,说真的,为了制造话题,误导性太重了。6、忽略交互

在商业模式改造和预测过程中,这一点尤为重要,我也是经常强调,不要说测算一遍数据,就可以判断一个策略调整的优劣,要理解你的策略调整后,受影响用户的反馈和交互是怎样的。

说个最简单的案例,比如以前很多人说百度放纵欺诈点击赚钱,我很肯定的说,欺诈点击百度只是受害者,为什么,你不能把广告客户当傻子对不对,人家投放预算和你的风控是直接相关的。为什么我这么肯定,因为我曾经是百度反欺诈点击负责人,而且,我是有实际数据证明的。我干掉的欺诈点击越多,客户竞价信心越高,竞价信心会带来预算和竞价价格的上升,竞价说到底是个博弈过程,真的,我建议年轻人学会用博弈论为基础理解商业社会。7、缺乏常识

以前百度商业分析部做行业报告的时候,我很担心一点,那些应届生做行业报告怎么做,对行业真的不是很懂,虽然手里有数据核武器,但不能说我把数据堆出来就行了,你要让内行认可,必须能给出他们眼前一亮的东西。比如说,你发现某个车型品牌词最近曝光率很高,你发汽车行业报告,某车型目前关注度很高,很受欢迎。但也许是最近出了该车型涉及某个严重的事故,成为热点话题,其实根本和这个车型本身的消费者关注不是一回事。这就是常识匮乏造成的。还有当时有商业分析新人通过数据观察发现某竞品网站流量攀升非常厉害,提醒需要密切观察,但其实联盟部门的资深同事都知道是某个业内重要交易正在紧要关头,某位业内大佬正在买量达成交易指标(我就不具体说了),所以是临时性的增长,无需关注,交易完成后果然断崖下跌。

这种确实对业内新人来说,太难了解了,但是数据背后这样的故事,确实不是你看数据能看出来的。我最近跟数据分析同事说,我说你们不要急于给老板证明自己,我说心动这几个老板都是老江湖,对产品数据太清晰了,你别费了半天劲,用特别牛逼的算法和分析过程,把一个老板们熟知的结论告诉老板,你这么做有什么意义呢,你要做的是先提升自己,让自己的认知高度尽快和老板们一致,特别懂产品,特别懂游戏,然后你做出来的数据,你认为有价值的信息,才是值得分享的。

其实也是这个道理,为什么有时候新人做事很辛苦,做了很多工作最后不被认可,往往是因为你做了很多事不过告诉别人别人早就习以为常的一些东西。先让自己达到足够认知高度,你才有资格输出价值。8、无视样本偏差。

前文提到了,样本偏差是永远存在的,要理解样本偏差的构成,理解数据在哪些领域是受影响的,即便无法控制偏差,结论中也应该合理标注。9、牵强附会,动机不纯。

这个也很常见,我很久之前在知乎抖机灵回答过一个问题,我说一般新人会以为数据分析岗位是为了做出更好的决策辅助,帮助老板做出合理决策,但实际上很多公司的数据分析岗位是为了证明老板拍脑袋想的都是对的。

其实真的很多公司是这样的,所谓数据分析,就是一定要找到一个能够自圆其说的角度,来证明老板的决策是正确的,判断是准确的。

这种数据解读的价值,就只能呵呵了。有些公司发布报告讲增长的时候,经常采用各种奇怪的指标定义。对了,去年双11的战报,阿里偷偷改了数据定义,大家只在那里围观所谓增长率,有多少人关注过数据定义的变更。

数据定义改的勤,增长永远都不停。做出正确的数据解读,需要什么。

第一,需要准确的理解数据定义。关于一些常见的数据定义话题,我这里留个关子,下节课再展开。 第二,需要清晰的理解数据来源和数据采集,处理过程中可能的偏差和缺漏,不怕有偏差,怕的是无视偏差。 第三,需要正确梳理因果关系和内在联系,说真的,并不容易。 第四,需要实事求是的态度。 第五,需要有效的数据过滤。还记得我提过的案例么,某超级独角兽风光的时候,新闻稿天天吹,日成交多少多少,增长率多少多少,后来不敢吹了,信用卡套现占比太大,薅的是手续费补贴。

任何巨头的业务数据,都存在各种干扰和噪音,这是必然的,如果不做有效过滤,失真的可怕。

有效过滤也不是容易的事。有些平台会放纵这种失真,顺便说一下,明星微博刷热度,刷数据的事情,够典型了吧。

这节课内容较多,做课程准备的时候越写越多,就算这样,感觉依然很多细节无法展开讲。坦白说,我的精力有限,而且知识面也相对陈旧,可能讲讲逻辑还行,讲具体细节就会差点事,但下节课我会针对数据掘金的话题,更多基于案例进行展开。每次系列课,第二节课的到课率都会断崖式下跌。

友情提醒,本次课程大约在国庆节后下架。是的。已下架的就不给看了,每年的会员,每年的福利。吴老师都来了,我下节课会拿你们做案例说来着。。。获客成本能不能下降,单位用户长期价值能不能上升,说白了就这两条死磕。很多第三方数据平台,值得多看看。免费的已经能够让你入行了。直到你觉得必须买付费数据的时候,基本上算是可以了好奇心,一定要有好奇心。没有好奇心就没有敏感度。我主要是喷你们的刘容来着,哈哈。经济学的,博弈论的,概率论的都值得看看,我的建议,当然不用看太深的,看一些科普的就好。很多时候也是经验,或者自己搜索。我的好奇心比较重。国庆假期之前都可以回放收听。1是建立常识,你要对自己行业,自己所从事领域的常见数据有常识。2是好奇心,对与你常识不符的信息充满好奇。3、求证能力,tk教主的搜索能力我也远远不及,但普通人还是需要加强搜索的能力,虽然达不到那种高度吧。难,非常难,如果自己做个小生意,用excel也可以做数据分析,但如果在大企业做数据分析,没有技术背景我觉得是不够的。 至少先学个SQL吧,然后学个python,不要求水平多高,至少有一点技术能力还是比较好的。7.5日晚上这个时间。行业龙头财报,行业数据网站。看野心了,野心大的就有用,没野心的就没用。那今天就到这里吧,下节课我们再见。二者之间吧,都需要理解数据,都需要基于数据做出合理解读的能力,但目标确实非常不同。