你好,游客 登录 注册 发布搜索
背景:
阅读新闻

先见之明vs.数据挖掘

[日期:2014-02-06] 来源:CSDN  作者: [字体: ]

作者Jesse Anderson是Cloudera的课程设计师和讲师,他利用NFL的“Play-by-Play”数据集,分析自己对橄榄球的一些错误认识,提醒我们“见解”并不等于现实,数据分析是决策的必要环节。数据分析帮助我们打破主观假设和先入之见,让决策从“艺术”变成了一门“科学”。以数据驱动的业务决策确保了决策的可靠性,数据分析才是决策的最终解决方案。

那些围绕着大数据乱七八糟的讨论是不是让你感到心烦?对理解信息驱动业务的重要性是不是也有些力不从心?数据的意义很大程度上在于对主观假设和先入为主观念的挑战,确保业务决策的正确性。

最近,我分析了 NFL的“Play-by-Play”数据集,测试一下我对橄榄球一些先入为主的见解。我看橄榄球已经很多年了,而且像很多人一样,我对比赛、团队统计、天气和体育场条件等有着长期先入为主的观念。

我对围绕高海拔地区的橄榄球比赛有着长期的偏见,比如在Denver的Mike High Stadium的那些比赛,Denver的 Mike High Stadium坐落在海拔 5130 英尺的地方(NFL体育场馆的平均海拔是526英尺)。海拔较高意味着氧气稀薄,影响到运动员在比赛中的表现。

在今年 Broncos vs. Ravens的常规赛中,可以看到球员通过吸入纯氧来防止高原反应。这引起了我的一些思考:海拔的高低真的会影响比赛表现吗?可以用数据证明吗?

 

 

挑战先入之见

当我开始处理NFL数据集时,我假设在某处的比赛如果换在别的地方进行,实际上会出现不同的结果。我查过在Denver和其他地区比赛的平均得分以及比赛的各种数据(传球、跑动等等)。我没有发现明显的差别,除了在Denver的比赛中传球成功率提高了1%。数据证实我对海拔高度影响橄榄球比赛的偏见是错误的。

我还以为橄榄球在最后一次进攻时,教练会选择弃踢(punt)。在最后一次进攻时,如果球队仍然决定冒险试一试,评论员们就可以对比赛大作文章了,因为这和主流的想法不一致。不过,数据表示,冒险试一试的情况更经常发生:只有15%的教练在最后一次进攻时选择弃踢。

更大的球场意味着会有更多的粉丝,主场球队理所当然的应取得更好的成绩,不是吗?数据又一次驳斥了这种观念。数据表明,在小型体育场比赛其实会比在大型体育场平均取得更高的分数:20.55:17.9。

这些例子表明,利用数据分析可以确保运作依据现实,而不是假设。对于没有数据支持的业务,你可能会有一些先入之见。不管是比赛还是业务,是否有精确数据的支持可能意味着成功或失败。数据是做出明智决策的关键。

 

 

看到结果

比赛有趣就是因为比赛结果不能被预先决定。无论在哪个比赛日,每个队都会有获胜的可能。一场橄榄球比赛可以被分为很多次进攻,进攻组试图攻到前场得分,防守组则阻止他们得分。

上述饼图显示球队的平均攻防效率。弃踢也是比较常见的结局。当团队决定弃踢时,防守组则开始行动阻止进攻组得分。数据显示这时进攻如果是达阵(EXTRAPOINT)得分,成功率达到了18%,如果是任意球(FIELDGOAL)得分,成功率达到了15%。

看一下进攻有多少次产生了“non-standard”结果也很有意思。这些导致进攻的结局都是防守组不愿看到的,例如拦截(INTERCEPTION),这种情况成功的可能性为7%。

 

 

开始码线严重影响进攻的结果。上图显示基于进攻开始码线得分的百分比指数。在此图中,从1码线进攻得分是最近的,从100 码线进攻得分是最远的。正如期望的那样,通过码线最多的进攻,想要得分也最难。在红区开始进攻(20码线和更接近码线)有78%的成功率。相反,从80码线或更远码线开始的进攻就只有21%的成功率。更远的进攻被截取的可能性高了2.6倍——因为有更多码,所以沿途出错的机会也更多。

橄榄球进攻的结果很像销售的业务成果:如果没有分析,你可能已经在99码线就开始推销,销售转化率很低,同行竞争者也很有可能窃取你的销售成果。通过分析数据,你可以将你的销售更接近红区——达阵得分。

用更多的数据扩大数据集

原始的“Play-by-Play”数据集包含了有关特定的比赛的详细信息,如码线、日期和涉及的小组。使用此数据集,能回答一些有趣的问题——例如,有多少进攻是以任意球接结束的——但想要回答其它问题就难了。

比赛的结果不仅取决于场上带球奔跑的运动员。还有其他的许多影响因素,像天气和草皮类型,这在最初的NFL数据集中使没有的,所以我又在其中增加了天气和体育馆数据,然后进行了一系列的查询,以了解天气对比赛的影响。

数据显示,在恶劣天气下,Baltimore Ravens平均在主场取得的分数最高,平均21.7:14.2,然而Kansas City Chiefs的成绩最差:23.8:28。没有恶劣天气时,Pittsburgh Steelers表现最好,以23.8:13.6获胜。

将这个示例应用到业务操作中:不限制你向数据集寻求问题的类型和深度。相反,还可以考虑增大你的数据集,使它能够回答更加复杂的问题。根据一开始你想要问的问题的类型来决定加入实现哪些查询的新数据集。

教练和CEO

那么业务经理怎样利用数据来提升一个团队的实力呢?首先,他们需要决定数据驱动的团队将是什么样团队。决策不像算法那样运行(做出确定型的决策,可以给定一组数据)——应该利用数据确定或推翻我们的先入之见来辅助决策。

我对橄榄球的先入之见有时候是对的,但常常是错的。如果教练的决策是基于我这样不正确的假设将会带来巨大的损失。

幸运的是,我们有这样强大的工具,只要动动手指就能帮我们更快更简单地从数据中获得信息。像Hadoop这样技术开辟了一个新的时代,使数据驱动的业务决策可以被实现——不管你的问题有多大,其中存在多么大的数据集和挑战,数据提供了大量机会挑战或确认我们对业务、社会(当然还有橄榄球)的先入之见。成为数据驱动的组织不仅能帮助你将你的业务打包分开,还会让你有能力表现得更好、获得更大的成功。

收藏 推荐 打印 | 录入:574107552 | 阅读:
相关新闻       数据挖掘 
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款