一开始就做对:数据分析起步

数据从哪里来?


一开始就做对:数据分析起步


问卷调查

  • 统计的是容易统计到的,触及到的,方便样本问题
  • 随机样本的检验标准是:总体中的每个名字或事物是否具有相同的几率被选进样本?
  • 利用小样本,任意两个你能想到的事件或两组特性之间都能建立显著的相关,妖魔化的小样本
  • 用事情本身判断本身,一旦使用间接指标就会出现问题,比如用ID判断一个商品是OK,但是使用ID长度判断哪个商品就有问题;
  • 反馈了但是说了假话 没有反馈的
  • 如何提问也会影响结果
  • 对样本研究后得到的结论不会好于样本本身 垃圾进,垃圾出


别人的数据与结论

  1. 谁说的 调研机构?同行?道听途说?.
  2. 如何知道的? 我的一个朋友.....
  3. 是否遗漏了什么? 哪些潜在的信息是被漏掉的?比如定向广告投放的影响远大于文案优化
  4. 是否偷换了概念? 这个数据能解决我们的疑惑吗
  5. 资料是否有意义?


我们知道,一条河永远不可能高于它的源头。但如果在河的某处藏有水电站,却可以做 到。同理,对样本研究后得到的结论不会好于样本本身。当数据经过层层统计处理,最后简 化成一个小数形式的平均数时,结论似乎被确定的光环所笼罩,但只要再仔细留心整个抽样 过程,这个光环就会破灭。


数据分析怎么做?


我们研究的是不是全量数据?

飞机案例,瓦尔德的独到见解可以概括为一个问题:飞机各部位受到损坏的概率应该是均等的,但是引擎罩上的弹孔却比其余部位少,那些失踪的弹孔在哪儿呢?瓦尔德深信,这些弹孔应该都在那些未能返航的飞机上。胜利返航的飞机引擎上的弹孔比较少,其原因是引擎被击中的飞机未能返航。大量飞机在机身被打得千疮百孔的情况下仍能返回基地,这个事实充分说明机身可以经受住打击(因此无须加装装甲)。如果去医院的病房看看,就会发现腿部受创的病人比胸部中弹的病人多,其原因不在于胸部中弹的人少,而是胸部中弹后难以存活。


数学上经常假设某些变量的值为0,这个方法可以清楚地解释我们讨论的这个问题。在这个问题中,相关的变量就是飞机在引擎被击中后不会坠落的概率。假设这个概率为零,表明只要引擎被击中一次,飞机就会坠落。那么,我们会得到什么样的数据呢?我们会发现,在胜利返航的飞机中,机翼、机身与机头都留有弹孔,但是引擎上却一个弹孔也找不到。对于这个现象,军方有可能得出两种分析结果:要么德军的子弹打中了飞机的各个部位,却没有打到引擎;要么引擎就是飞机的死穴。这两种分析都可以解释这些数据,而第二种更有道理。因此,需要加装装甲的是没有弹孔的那些部位。


从事数学研究的人经常会询问:“你的假设是什么?这些假设合理吗?”这样的问题令人厌烦,但有时却富有成效。在这个例子中,军官们在不经意间做出了一个假设:返航飞机是所有飞机的随机样本。如果这个假设真的成立,我们仅依据幸存飞机上的弹孔分布情况就可以得出结论。但是,一旦认识到自己做出了这样的假设,我们立刻就会知道这个假设根本不成立,因为我们没有理由认为,无论飞机的哪个部位被击中,幸存的可能性是一样的。


瓦尔德的性格决定了他不大可能关注应用方面的问题。在他的眼中,飞机与枪炮的具体细节都是花里胡哨的表象,不值得过分关注。他所关心的是,透过这些表象看清搭建这些实体的一个个数学原理与概念。这种方法有时会导致我们对问题的重要特征视而不见,却有助于我们透过纷繁复杂的表象,看到所有问题共有的基本框架。因此,即使在你几乎一无所知的领域,它也会给你带来极有价值的体验。


消亡的都是不赚钱的基金。因此,根据 10 年后仍然存在的共同基金判断 10 年间共同基金的价值,这样的做法就如同通过计算成功返航飞机上的弹孔数来判断飞行员躲避攻击操作的有效性,都是不合理的。如果我们在每架飞机上找到的弹孔数都不超过一个,这意味着什么呢?这并不表明美军飞行员都是躲避敌军攻击的高手,而说明飞机中弹两次就会着火坠落。


我们观察什么数据指标?


直接指标

用事物本身属性的直接指标去评价该属性,比如我们用点击率评估一个商品是不是好卖这就是一个间接指标,用一个人是不是戴大金链子判断他是不是有钱,判断他是不是没有文化,这些都是间接指标.

比如我们用商品的ID长度去判断商品是某个品牌的商品,这就是使用的间接指标,一旦新增加一个品牌长度一样就会有问题了,正确的方式是使用品牌字段判断是哪个品牌.

比如用鲜花和生日礼物判断一个人是不是爱你,这些是间接指标,和是不是爱你没有关系.

销量高并不一定说明有个好设计,有可能仅仅是因为便宜!

我们使用间接指标实际上隐含了一个很强的因果假设:直接指标和间接指标是高度因果关系,而因果关系太难成立了.


有时,人们需要作一些数值上的预测,例如,预测某只股票的走势、某种商品的需求量或是某场球赛的最后比分。这样的预测经常是通过代表性作出的。例如,假设有个人在听了关于某家公司的描述之后,需要预测这家公司的未来收益。那么,如果这个人听到的描述是正面的,他就会预测这家公司将有非常高的收益,因为高收益最能代表那个描述;如果描述是普通的,这个人就会觉得公司的表现也会很普通。描述的好坏程度并不受该描述的可信程度以及精确程度的影响。因此,如果人们仅仅依靠描述的好坏来预测,那么他们的预测就会对证据的可靠性和预测的预期精确度不敏感。


这种判断模式违反了标准的统计理论。在标准的统计理论中,出于对可预测性的考虑,极端和预测范围受到了控制。当某件事的可预测性为零时,该预测的结果在任何情况下都应该是相同的。例如,如果在一些公司的描述中,没有听到有关其收益的信息,那么对所有这些公司未来收益的预测都应该是相同的。当然,如果某件事的可预测性非常高,那么预测值就会符合实际值,预测的范围也会等同于实际结果的范围。总之,可预测性越高,预测值的范围就会越广。

一些关于数值预测的研究表明:直觉性预测违反了这条规则,因为受试者很少甚至没有考虑过可预测性的问题。在其中一项研究里,受试者看了几段文字,每段文字都描述了一位实习老师在特定实习课上的表现。一些受试者需要根据那几段文字描述以百分制来评价特定总体的课堂质量,其他受试者则需要预测这些实习老师在5年以后的成就,同样要以百分制来打分。这两种情况下作的判断是相同的,即预测某一未来事件(老师在5年以后的成就)与评估当前事件所依据的信息(实习课的课堂质量)是相同的。作这些预测的人肯定也意识到了用某位老师5年以前的实习课来预测她的教学能力过于局限。不过,他们的预测与评估一样极端。


人们常会挑选输入信息(例如对某个人的描述)中最具代表性的特点(例如职业)来进行预测。他们在预测时的自信程度主要取决于相关信息代表性的高低(即所选特点与输入信息的吻合程度),与限制预测准确性的因素关系不大。


因此,人们在听到与图书管理员的典型形象相符合的性格描述后,就会极有自信地作出所描述的人就是一个图书管理员的预测,即使这个描述是片面的、不可靠的或是过时的。由于预测特点与输入信息非常吻合而产生的没有保证的自信就被称为效度错觉。

即使当判断者意识到限制其预测准确性的因素时,这种错觉仍然存在。许多文献已经证实:甄选面谈的出错率很高,但即使心理学家知道这一点,在甄选面谈时,他们还是常会在预测中表现出很大的自信。尽管不断有证据表明甄选面谈是不恰当的,但临床上仍然持续依赖这种访谈方式,这也充分说明了效度错觉强大的影响力。

预测需要依靠输入,而输入模式的内部一致性就是决定人们在预测时自信程度的主要因素。例如,相比某个在一年级得了许多A但也得了许多C的学生来说,人们在预测一年级得了许多B的学生的平均绩点时会更有自信。高度一致的模式最常出现在输入变量过多或相关度高的时候。然而,相关统计学的结果证实,若规定了输入变量的效度,基于几个这种输入的预测会比输入过多或相关情况下的准确性高。因此,输入变量过多虽然可以增加自信程度,但却会降低预测的准确性。而人们在预测时所抱持的信心常会超出他们的能力范围。


分享到:


相關文章: