【案例】体育运动分析中的数据挖掘与机器学习
8月13日-8月17日,国际数据挖掘领域的顶级会议 ACM SIGKDD 2017 在加拿大的 Halifax 召开,其中一篇题为《Athlytics:体育运动分析中的数据挖掘与机器学习》的报告旨在探讨球类比赛中对数据进行挖掘和分析,提高球队价值的技术手段。下面我们来看一下相关人士对此报告的解析。
很早以前看过一部体育题材的电影《点球成金》,英文名MoneyBall。片子讲述了布拉特皮特饰演的球队总经理和耶鲁大学经济系毕业的数据分析师一起通过对棒球比赛数据进行挖掘和分析,淘宝联盟里性价比高、拥有一技之长的球员组队,进而取得成功的光荣事迹。该片充分展现了利用数据来提升球队的价值和意义,令人印象非常深刻。一直想对其中用到的技术手段一探究竟,而KDD 2017上的《Athlytics: Data Mining and Machine Learning for Sports Analytics》这个topic实在是再合适不过了。
这个讲座由KonstantinosPelechrinis (University of Pittsburgh),EvangelosPapalexakis (University of California, Riverside),Benjamin Alamar (ESPN)三位合作,学术界+工业界的模式保证了实用性。整个topic还是很研究范儿,数学公式比较多,但解决的问题和方法还是相对比较浅。这里可能有两个原因:1.这个领域人们之前并未足够重视,大部分还是依靠专业球探的经验;2. 这个领域价值很大 (权威机构预测到2021年体育数据分析的市场有47亿美金) 更专业更有价值的方法并未公开。具体方法不再一一赘述,挑三个有趣的分享一下。
(1)评估球员实力:修正的正负值指标Plus?minus
正负值是评估球员实力的主要指标,该指标越高,意味着球员能力越强。以安东尼-5为例,就是安东尼上场的时间内,球队输了5分。但该指标只考虑球员在场的得失分差,明显有很多不合理的地方。比如场上领先时,不代表每个人都对这次的成功合作做出了正面的贡献,退一步讲,即使每个人有正面贡献,贡献少 能力低的也很难通过这种数据被区分出来。
如何区分每个球员对胜利的贡献是其中的关键问题,研究者们借助线性模型对每个回合进行回归建模,因变量(DV)是每回合的得分、自变量(IV)则是所有球员,回归的结果就是每个球员会有一个权重,而这个权重代表了球员对胜利贡献。这里自变量的设计很巧妙,针对每一个回合,我方在场球员用1表示,对方在场球员用-1表示,其他球员用0表示,这样起到的一个效果就是本回合的得分和我方在场球员正相关,和对方在场球员负相关,而和不在场球员无关。多个回合经过模型学习后,每个球员都有了自己的一个权重,越大表示这个球员对胜利的贡献越大,同时由于每个回合都考虑我方在场和对方在场的球员,也把其他球员的影响自动考虑进去。
上图是NBA 07-08赛季头部和尾部Top5的球员,看起来非常靠谱,和大部分球迷的认知还是比较一致的。
(2)预测比赛胜负:基于PageRank的Sportsnetrank
简单来说Sportsnetrank基于pagerank的思想,将球队之间的比赛建模成图,结点是球队,边是球队之间的战绩(得失分)。然后在图上运行pagerank,就可以得到每个球队的实力评估分数,pr值越大,球队实力越强,胜率越高。下图是基于NFL联赛构建出来的图,结点越大,球队越强。边越粗,说明球队交手时差距越大。
预测比赛胜负时,可以简单根据之前的交手记录构建图,然后计算出每个球队的目前实力。当两个球队交手时,实力更强的球队预测为胜。就是这样一个简单的策略,就能取得很好的效果,按作者的原话是达到了stat-of-the-art的水平。
上图是NFL联赛预测的结果和真实的结果的比较,可以看出确实不简单。
(3)战术有效性:挡拆识别及评估
挡拆(防守)是NBA最常见的战术,也是得分最有效的手段。有研究者建立并实验了一套自动识别常见挡拆防守套路的系统。利用SportVU球员追踪数据和监督式机器学习方法,建立了一套学习分类器,用于分辨防守挡拆的四种方式:“挤过(over)”、“绕过(under)”、“包夹(trap)”、“换防(switch)”。具体含义如下:
挤过:持球防守者在持球人和掩护者之间,即从掩护上方挤过;
绕过:持球防守者不在持球人和掩护者之间,即从掩护下方绕过;
换防:持球防守者和掩护防守者交换防守对象;
包夹:持球防守者和掩护防守者夹击持球人。
然后作者手动标记了四种类型的若干样本,并进一步训练构建了分类器来发现更多的挡拆。最终识别结果如下:全部270823个挡拆,“挤过”146314个,“绕过”69721个,“换防”37336个,“包夹”17451个。对这些进一步分析可以得到以下一些有趣的结论:
各赛季四类挡拆分布基本一致,但可以注意到“包夹”的比例略有提高,说明随着个人得分能力更强后,包夹会越来越多?
b. 哪些组合不来电?
下图比较了不同防守组合面对挡拆的每回合失分以及他们各自与所有球员搭档的平均每回合失分。克里斯-保罗和布雷克-格里芬是使用挤过的效果是最差的之一,平均失去1.2分。另外伊巴卡和雷吉-杰克逊组合的换防很差,但各自挡拆防守效率很接近。【题外话,如今这两对组合已经都被拆散了,是不是经理看到了这个研究?】
说到比赛数据分析,想必大家知道我要提DARTFISH运动技战术视频分析系统(团队数据版)是的,没错!DARTFISH软件的功能其中就包含数据采集、技术统计等,可以根据不同团体项目特点,自行定制技战术统计表,快速方便地生成数据表。
DARTFISH运动视频分析系统
瑞士“Dartfish 运动视频分析软件”,是当今世界上最先进的、应用最广泛的专业运动视频分析系统。 DARTFISH产品在世界各国广泛应用于体育训练、教学、科研、艺术(舞蹈)视频、行为分析、运动康复以及媒体传播等领域,超过12万专业人士将DARTFISH作为他们的视频分析伙伴。
2006年都灵冬运会,DARTFISH使用者共获得138枚奖牌,60%的参赛者都使用DARTFISH作为训练和比赛的重要工具。在2008北京奥运会上,DARTFISH的用户获得372枚奖牌,其中包括117枚金牌,是雅典奥运会的两倍多。在2016年里约奥运会上,DARTFISH的用户获得462枚奖牌。
版本介绍
专业版 具有动作叠加、动作分解、视频标记、技术统计、分析工具基本功能
团队版 在专业版的基本功能之上,增加团队功能,可用于团体项目战术分析和训练
团队数据版 在团队版的基础之上增加外部数据接入、显示功能。
DARTFISR 主要功能
一.动作叠加---将两个运动视频直接叠加,直观地发现和比较二者之异同
二.动作分解---将一个技术动作分解为数个连续媒体素材,可以清晰地观察动作全程的空间和时间变化
三.视频标记---在视频频段中,发现并标记感兴趣的观察点,方便快速地添加书签式的标记,以便以后快速地重新发现和定位兴趣点
四.技术统计---根据不同团体项目特点,自行定制技战术统计表,快速方便地生成数据表
五.分析工具---提供直线、圆形、曲线、自定义线段工具,可以标记运动曲线,在技术视频上直接叠加数据表,还有自动计时器等多种分析工具
六.Note Pro---用户可标记关键事件的战术,统计分析数据
Dartfish的应用领域
运动训练
作为世界先进的运动技术和战术分析系统,dartfish给您提供多角度、全方位的视点,让您轻松自如的分解动作过程、比较技术要点,并方便的加以标注。
医学康复
使受测人准确理解在康复过程中需要加强的动作训练、使得布态分析和生物力学分析更加客观和有利、向受测人传递康复和训练指导以至受测人可自行训练。
精工行业
可以定格运动中的静态轨迹,也可用于进行精密仪器在运行中的对比,甚至是美国NASA也使用dartfish,用于月球车的设计。
教育领域
各大高校中使用dartfish软件教学,老师通过dartfish提供易于操作的数据视频处理方法。学生可通过交流、分析和共同协作提高学习效率。
微博二维码
免责申明:文章部分内容来自网络,若有侵权,请联系删除。
- 34岁白领被查出心力衰竭,祸首却是一种“小病”!
- 干货 | 初二物理期末知识点分析(第一期)
- 一代中场大师皮尔洛伟大在哪?全方位分析睡皮的技术和意识(上集
- 12.15周五收官,黄金,白银,原油,恒指走势分析
- 五连红,近期18中14,2017-12-15周五竞彩大数据分析
- 深度 | 我国燃料电池汽车商业化影响因素分析
- 洋局解盘:12.15午评黄金原油周线收官,操作建议及走势分析附【解
- 买房遭遇房产纠纷 五大案例教你冷静应对!//江门律师张开清
- 技術分析看港股
- MicroStrategy 10.9引入Dossier功能,体验故事书式数据分析
