数据分析前的量化工作

数据采集、特征提取、数据标准化、数据清洗和数据预处理,这些是常规数据分析前的工作。

如果讲到数据分析前有哪些事是需要我们做的,那么有几个关键词:数据采集、特征提取、数据标准化、数据清洗和数据预处理,这些是常规数据分析前的工作。

那么再来看一下常规数据分析的流程,首先我们会有个需求,中间通过一些阶段,到达数据预处理。通常做数据分析的人员是从这一步开始,拿到数据开始预处理以及数据分析、建模、结果可视化或者是产品的输出。今天我想跟大家分享的是,中间通过的这些阶段,有了需求之后,到数据采集这个阶段,中间还需要利用数据分析方法做的事,包括数据采集中一部分量化的事情,也就是采集前,我们需要量化好后,才能做采集。

首先,需求理解与沟通

我们拿到了需求,这个需求可能是从客户那沟通来的,也可能是领导给我们讲的一句话,讲的过程当中,不同的人,沟通表达的复杂程度完全不同,有些人条理非常清楚、需求罗列,有的人讲的天花乱坠,最后说我的需求就这样,你们自己看着办,非常的发散和开放。

那么这个时候,他的主题可能总结就一句话,我们第一步就是要细化研究类工作。我给大家举个例子:我们早上都在食堂吃过早餐,吃鸡蛋的时候大家可能发现,有的鸡蛋壳容易剥,甚至直接吹就能吹下来,有的鸡蛋壳非常难剥,如果领导问你,利用数据分析,说一下这个问题,你会从哪里入手。

拿到这样一个生活场景里非常小的问题:熟鸡蛋为什么有些难剥有些容易剥?如果你拿到这个问题,你的第一反应是不是,我要数据。然后领导就说你可以回去了。这个数据,是要我们自己设计实现去收集的。

我们常规的数据分析的人员习惯别人提供整理好的数据进行分析,但数据怎么收集,收集哪些数据,通常也是数据分析的工作。

再看第二个例子:基本每一年,媒体都会发布这样的消息,高考后的家庭,离婚率会增加,民政局就很想辟谣这个事情,如果让我们来做,我们可以怎么做。

看第三个例子:很长时间在知乎上特别火的帖子,男女之间有没有纯洁的友谊。

拿到这个需求,作为数据分析人员,第一步,拆解多个子话题(子需求),子需求的拆解并不是凭空想象的,听到这个话题的时候,有多个结论,比如说,知乎上就有几个点赞率非常高的结论,第一个就是,男女之间有纯洁的友谊,越丑越纯;还有人说,等到结婚后就有纯洁的友谊了。因为我们研究的精力有限,我们需要把大的话题拆分成多个,从多个中先选一到两个进行研究。所以我们拆分:是不是所有的男女之间都有纯洁的友谊,还是有些人有、有些人没有;越丑越纯——友谊跟颜值有没有关系,有什么关系,颜值在其中起到多大作用;结婚(更年期)之后才纯洁——友谊跟年龄有没有关系;纯洁的纯度有多高;纯洁的纯度会不会有变化。这些都是经过细化后的子研究内容,然后再去选取内容,收集数据。

第二步,有了研究内容后,我们需要对概念进行操作化。

可能大家没有听说过这些,但我们肯定听过另外一个名词——抽象化或者叫做概念化,把抽象化的过程反过来,叫做操作化。

以鸡蛋难剥这个事情为例,可以操作化拆成两个,鸡蛋的完整度和剥壳的时间,鸡蛋的完整度是测量剥完鸡蛋后还剩下多少。通过概念操作化,我们实现了把宏观概念转化成可测量的微观概念,有了微观概念,下一步,如何测量。剥壳时间直接用表就可以测,那么完整度怎么测呢?剥完之后,鸡蛋的表面可能是坑坑洼洼的,也可能掉了一半等等情况,概念操作化有一套严谨的方法论。抽象化的过程往往不同人做出来的结果是不一样的,重复性比较差,但是操作化,不同人来做,往往重复性非常高,因为遵循了一套理论——概念界定、概念分类、设计自然指标。

经过操作化之后,我们要设计指标以及测量工具。

再来说男女之间纯洁友谊的话题,我们界定一个指标叫做友谊的纯洁度,这个指标也不是一两句话就可以把握的,所以我们要设计一个专门的测量工具。有人可能会说,我做数据分析的,这些推给产品经理做就可以了,通常也确实这么做的,但是掌握数据分析方法分析出来的数据和没有掌握方法出来的数据,往往有很大不同,有着可以落地和不可以落地的差别。

有了测量工具后,接下来需要检验:有效度、难易程度(针对不同人群)、信度、敏感度。

可以利用数据分析方法:项目分析、探索性因子分析、验证性因子分析,聚类分析、IRT等等对测量工具进行验证。如果测量工具无效的话,那么后续都不会有效,所以测量工具的非常重要,这些验证需要两年或者更久的时间,最终得到精简有效的测量工具。当然现在已经有一些成熟的测量工具验证量表了,同样,这些量表在心理学中应用非常广泛。

那么,测量工具检验完,是不是就开始数据收集呢?不是的。

下一步需要进行理论模型设计

在做大数据的时候,包括数据挖掘等相关分析,方法都是涉及一个输入层一个输出层,这是个常规的模型,但是在实际问题中,很多模型都不是这样的,比如贝叶斯模型,我们研究人员肯定不会设计出这些东西,可能贝叶斯、马尔科夫这些都没有听说过,只有懂数据分析方法的人,了解这些方法,根据我们的业务,涉及多少关系,关系是单向还是双向的,等等,这样的图首先是懂数据分析方法的研究人员设计出来,接下来才会进入到数据收集阶段。

数据收集可以在网上爬虫、直接从数据库导入数据、线下采集等途径。

这里还要提及抽样方法,抽样的方法有很多种,通过不同理论模型选取不同的抽样方法。举一个案例:北方到冬天会有暖气,采暖就会产生空气污染,那么暖气对人的寿命会不会产生影响呢?

我们如何用数据分析的方法验证这个事情,数据我们要怎么取呢?我们常规的思路是在北方和南方各找一些人,看看暖气对寿命会不会产生影响。

但是这里涉及因果关系的验证,因果关系在关系中有三个前提,第一个是,两个事件必须相关;第二个是,原因事件必须发生在结果事件之前;第三个就是,需要控制住干扰因素。

这个案例,有学者在常规方法基础上提出改进和创新,叫做断点回归。他不是在北方和南方去抽,他在中国的南北分界线的地方抽取,我们知道,寿命跟很多因素有关系,选择淮河两岸的人员,可以有效保证他们生活的环境等因素大致相同,然后他得到结论,有暖气会让人的寿命减少5.5年。上不上一本对未来发展有没有影响,影响有多大?学者选取某省一本线的曲线,上下加减5分,在这个10分带中,人的未来发展差别。同样,这个案例也是利用断点回归的方法。在现实其他场景中,人们一般会考虑多个因素,那么涉及多个因素的所有人群是不是都要包含呢?其实不是,日本统计学家发明一种正交设计方法,挑取特定的覆盖特征数据进行采集。

接下来,数据二次抽样。

吉野家在做各种促销活动,有次对营销平台进行改进,实验组,把展示图片换成性感女模特的照片,配上宣传文稿;对照组就用普通的图片配上文字。得到促销结果令人十分意外,实验组促销比对照组要低得多,找原因,利用二次抽样,二次抽样的方法有PSM模型,这个方法使对照组和实验组数据一一匹配,可以有效解决样本选择性偏差。

上边就是数据分析前,需要大家做的各种量化工作。

相关推荐