[翻译团]你的数据可以很“糟糕”,但你仍是一名出色的球员由奥斯卡劳金乌 发表在足球话题区 https://bbs.hupu.com/topic
Tom Worville / 2020-04-23
受读者的启发,本周我们将探讨一下统计数据在足球分析中的使用。
感谢Muhammad-S的提问,以下是他希望我们撰写的话题:
“在足球中,为何统计数据不具有权威性?为何它不足以衡量一切?为何它会带有主观色彩?最好能顺带举一些看似数据糟糕、实则十分出色的球员的例子。”
实际上,这算是三个话题,而我们投机取巧地把三篇文章糅合到了一起。但这无伤大雅,因为Muhammad提出的关于足球数据方面的点是很值得探讨的。
统计数据并不具有权威性
足球是一项复杂的运动。多年来流行的学院派思想认为,用干巴巴、没有灵魂的数字是无法解释这样复杂的运动的。近年来,这种观点也渐渐站不住脚了——预期进球数据在比赛日中已被提及;利物浦记录良好的数据为引进一流球员提供了支持;一家主要体育新闻媒体开始聘请专门的分析作家(链接请戳)——这些都是很好的证明。类似的例子就不多说了。
日益增多的数据使用并不能改变足球非常复杂的事实,但统计数据被广泛使用的重要原因之一是,在足球(以及其他)运动中,没有一种更好的媒介能够客观地支撑(或否决)关于某支球队或某个球员的观点。在表达观点或赢得争论中,简洁明了地提供证据支持的统计数据可谓棋高一着。
如果比赛画面更容易获得而不是仅仅掌握在版权所有者手里,那么世界可能会有所不同。
统计信息可能是我们可以用来客观地分析和讨论比赛的最佳工具,但这并不意味着我们应该将其视为圣旨。
首先,有些东西是无法用统计数据进行准确衡量的。例如:谁在英超中有最好的第一脚触球能力?或许你可以计算出相似的指标进行衡量,譬如传球后的接球失控率。从fbref(链接请戳)的数据中,我计算出阿斯顿维拉的后卫恩格斯拥有着最好的第一脚触球能力(0传球失控),略高于利物浦的范戴克(0.1%的传球失控率)。但如果你看过他们在比赛中的表现,很可能不会认可这一指标。
这项指标无法告诉我们任何有关传球类型或球员接球的情境(例如他们接球时所面对的位置)的任何信息。伯恩茅斯的卡勒姆-威尔逊16%的“失控率”为英超最高,但他往往需要在更靠前的位置、面对更大的压力下接球。
同时,从接球结果仅为二元对立的成功与否反推,我们并不能分辨出接球球员是以“一脚卸下”还是以“先经小腿、膝盖,最终停下”的方式接球,即使考虑到传球类型和接球时面对的压力,得到的结果仍不能准确地反映出谁有最好的第一脚触球能力。对于这个问题的不同观点可能仍会引发争论,以这个方式得出的结论会更有趣。
还需要指出的是,尽管我们将一些公司收集的数据视为“客观数据”,但实际上这些数据仍是通过人手动收集到的。人常常是带有偏见、不够理性和容易犯错的,而这几点恰恰是不应在数据中出现的。因此,无论后续的品质保障流程有多先进,收集的数据中总会存在一些错误。
收集到的数据不仅仅会收到人为错误的摆布,对数据的不同定义也会导致最终一定程度的错误的产生。在某些阶段,Opta、Statsbomb或任何的数据收集方,都需要对他们意图捕获的事件有清晰的定义。什么是传球?什么是直塞?什么是尝试过人?封堵和扑救的区别是什么?这些区别并不总是非黑即白的,在某些时刻仍需要划清界限。
如果在(对足球或其他方面)创建数据收集的过程中对过去的信息进行调查时,我们往往能在某一阶段发现某种主观性。数据永远不会完全公正,而主观性(无论有意还是无意)是数据收集不可避免的一部分。
这不是在质疑数据的提供者,也不是说数据全然不可信。收集数据的难度系数很高,并且其局限性意味着足球永远不能简化为纯粹客观的统计数据。
你的数据可以很“糟糕”,但你仍然是一名出色的球员
有时,球员的统计数据很差,这是因为人们对那些数字的误解。
以西汉姆的阿莱为例。在本赛季的英超中,他头球争顶中落败的次数为第二多(187次),同时也是赢得头球次数最多(186次)的球员。这可被解读他的空中能力很强或者不足,但对这一数据的更准确解读是他参与了很多空中决斗,并作为一名英超前锋赢得了很高的成功率【根据smarterscout(链接请戳),其争顶成功率为82/99,你可看作对球员的FIFA评分,但使用的是现实数据】。正如那句话所说:“谎言、该死的谎言和统计数据”。
另外,球员数据“统计不佳”的部分原因是,在谈及他们在场上产出时,并没有考虑到他们在球队中的职责。在萨里的带领下,上赛季若日尼奥未能为切尔西送出很多助攻的原因有很多,但很少有人指出那并不是他的工作。
作为一名出色的组织者,对于他来说,关键点在与处理好防守与进攻之间的联系、控制好节奏,并将球向前传给那些承接着创造机会任务的人。他的确做得非常好——若日尼奥为取得为进球奠定基础的次数,在上赛季比任何英超球员都多。除了进球球员和助攻球员之外,其他各司其职的球员也应得到应有的荣誉。
根据Opta的预期助攻模型,他送出的很多传球,平均来说,将收获五次助攻。在可能的情况下,运气因素也应被衡量。用不可控的因素来评判球员有些欠妥,相反,应该只根据可控的因素来褒奖球员。
最好的例子来说明本赛季其数据未能反映整理能力的球员,便是谢联的戴维-麦戈德里克。
没错,从计算得出的6.2的预期进球机会中,他一球未入。如果是凭借进球能力被选中的,那么早就会被放弃了。麦戈德里克不断地拼抢(链接请戳)——没有其他前锋能在防守端有如此发挥——才是他入选克里斯-怀尔德阵容并成为其战术体系中重要一员的原因所在。
数据不能衡量一切,但是可以接受的
采用统计数据的目的是试图从像22个人在球场上追风一个半小时这样复杂的事情中,找到一些实质意义。
最常见的关于足球的数据集是与球相关的一些事件,它们能够很好地告诉我们控球球员进行了怎样的动作(传球、传球、解围、反抢、传球、射门,球进了),但不能告诉你其他21名球员(或者是20个,当两名球员在争抢球权时)的相关信息。
因此,我们将无法捕获球场上的一些与球相关但又不是处于控球状态的事件,比如穿越后防线的无球跑动,防守型中场卡住传给前锋的传球线路等等。基于数据收集的局限性,我们目前仍不能捕捉到球场上发生的一切。
目前,足球数据的一大缺陷便是无法很好地衡量防守球员。防守行为(抢断、拦截、反抢等等)的次数并不能说明一名防守球员强于另一名,充其量只能说明球员的防守积极性,以及球队或者个人的防守风格。
正如我在足球分析的十条准则(链接请戳)中提到的那样,这些数字还通常受控球率的影响。更高的控球率通常意味着更少的防守时间。
阿斯顿维拉的明斯在面对对手控球球员时,每一千次防守仅铲球一次,是联赛中此数据最少的中卫。这并不是说他不是一个很好的防守球员,只说明他对争夺球权这件事不太积极。我们还能从他封堵射门次数冠绝英超后卫这一点了解到他的特点。维拉主教练迪恩-史密斯更喜欢把他用做球门前的护盾,而不是夺回球权的猎人。
尽管没有统计数据能够直接告诉我们防守球员的水平,但这些统计所依赖的原始数据还是十分有用的。使用这些数据来评估防守球员的最佳方式是将其作为风向标,指出球员在不同情境下的表现。即使在面对传中时,防守者也不会每次都采取一样的行动,有经验的人还是能够评判防守球员做出的选择。有效地找到这些情境意味着球探可以将目光集中于防守球员在不同情况下的表现,并可以对其水平做出主观判断。
眼下已经有了一些主观指标用于记录导致对手射门或进球的失误。在本赛季的所有后场球员中,贝德纳雷克“名列前茅”。由于他的失误,南安普顿的对手笑纳了三个进球。这类失误能够帮助对手在几乎不可能的情形下取得进球(例如:绵软无力地回传给门将的球被抢断后导致的单刀局面)。
这类失误并不多见且有很大区别,随时都可能发生,也有可能整个赛季都寥寥无几。因此,用这种指标来比较不同的后卫算是一种可靠的方法。更理想的评判标准是导致对手取得进球的细微动作(或缺少了相应动作)。
取得进球或丢球的结果中,一定在某一环节有人犯了错误。可能是后卫一时恍惚漏人,可能是中场未能封好传球线路,或者是一些只有老炮儿才能看出来的错误。这些有用的线索可以告诉我们为什么对手能够得到射门机会,但目前还不能以统计数据的形式整理出来。
丢球也可能不是由一个错误,而是一连串错误导致的。有朝一日,若能得到球场上的事件数据以及追踪数据(任意时刻,所有球员、裁判和球的位置),关于为何导致丢球这一问题将能被更好地解答,但目前我们还没到那一步。
现在我们一起想象一下,有一家对足球彻彻底底了如指掌的数据提供商,他们能够收集到可以想象到的任何数据:球员所有的传球选择,其承受的压力大小,是否抬头观察,队友启动的瞬间,鞋带是否送了——林林总总皆可得。
当拥有如此之多的数据之后,问题就不再是决定衡量什么,而是从得到的结果中发掘重要的东西。
实际上,我们没法拥有一切。我们仅仅得到一些球场上的事件样本,但是为了衡量它们,依然需要认清什么才是更重要的。
近年来,预期进球的盛行是因为它具有足够的描述性和预测性——它能够提供一些我们原先不了解的关于球队和球员的信息,并且可以将这些信息视为其未来表现的信号。
接工时间:2020-04-27
Tom Worville / 2020-04-23
受读者的启发,本周我们将探讨一下统计数据在足球分析中的使用。
感谢Muhammad-S的提问,以下是他希望我们撰写的话题:
“在足球中,为何统计数据不具有权威性?为何它不足以衡量一切?为何它会带有主观色彩?最好能顺带举一些看似数据糟糕、实则十分出色的球员的例子。”
实际上,这算是三个话题,而我们投机取巧地把三篇文章糅合到了一起。但这无伤大雅,因为Muhammad提出的关于足球数据方面的点是很值得探讨的。
统计数据并不具有权威性
足球是一项复杂的运动。多年来流行的学院派思想认为,用干巴巴、没有灵魂的数字是无法解释这样复杂的运动的。近年来,这种观点也渐渐站不住脚了——预期进球数据在比赛日中已被提及;利物浦记录良好的数据为引进一流球员提供了支持;一家主要体育新闻媒体开始聘请专门的分析作家(链接请戳)——这些都是很好的证明。类似的例子就不多说了。
日益增多的数据使用并不能改变足球非常复杂的事实,但统计数据被广泛使用的重要原因之一是,在足球(以及其他)运动中,没有一种更好的媒介能够客观地支撑(或否决)关于某支球队或某个球员的观点。在表达观点或赢得争论中,简洁明了地提供证据支持的统计数据可谓棋高一着。
如果比赛画面更容易获得而不是仅仅掌握在版权所有者手里,那么世界可能会有所不同。
统计信息可能是我们可以用来客观地分析和讨论比赛的最佳工具,但这并不意味着我们应该将其视为圣旨。
首先,有些东西是无法用统计数据进行准确衡量的。例如:谁在英超中有最好的第一脚触球能力?或许你可以计算出相似的指标进行衡量,譬如传球后的接球失控率。从fbref(链接请戳)的数据中,我计算出阿斯顿维拉的后卫恩格斯拥有着最好的第一脚触球能力(0传球失控),略高于利物浦的范戴克(0.1%的传球失控率)。但如果你看过他们在比赛中的表现,很可能不会认可这一指标。
这项指标无法告诉我们任何有关传球类型或球员接球的情境(例如他们接球时所面对的位置)的任何信息。伯恩茅斯的卡勒姆-威尔逊16%的“失控率”为英超最高,但他往往需要在更靠前的位置、面对更大的压力下接球。
同时,从接球结果仅为二元对立的成功与否反推,我们并不能分辨出接球球员是以“一脚卸下”还是以“先经小腿、膝盖,最终停下”的方式接球,即使考虑到传球类型和接球时面对的压力,得到的结果仍不能准确地反映出谁有最好的第一脚触球能力。对于这个问题的不同观点可能仍会引发争论,以这个方式得出的结论会更有趣。
还需要指出的是,尽管我们将一些公司收集的数据视为“客观数据”,但实际上这些数据仍是通过人手动收集到的。人常常是带有偏见、不够理性和容易犯错的,而这几点恰恰是不应在数据中出现的。因此,无论后续的品质保障流程有多先进,收集的数据中总会存在一些错误。
收集到的数据不仅仅会收到人为错误的摆布,对数据的不同定义也会导致最终一定程度的错误的产生。在某些阶段,Opta、Statsbomb或任何的数据收集方,都需要对他们意图捕获的事件有清晰的定义。什么是传球?什么是直塞?什么是尝试过人?封堵和扑救的区别是什么?这些区别并不总是非黑即白的,在某些时刻仍需要划清界限。
如果在(对足球或其他方面)创建数据收集的过程中对过去的信息进行调查时,我们往往能在某一阶段发现某种主观性。数据永远不会完全公正,而主观性(无论有意还是无意)是数据收集不可避免的一部分。
这不是在质疑数据的提供者,也不是说数据全然不可信。收集数据的难度系数很高,并且其局限性意味着足球永远不能简化为纯粹客观的统计数据。
你的数据可以很“糟糕”,但你仍然是一名出色的球员
有时,球员的统计数据很差,这是因为人们对那些数字的误解。
以西汉姆的阿莱为例。在本赛季的英超中,他头球争顶中落败的次数为第二多(187次),同时也是赢得头球次数最多(186次)的球员。这可被解读他的空中能力很强或者不足,但对这一数据的更准确解读是他参与了很多空中决斗,并作为一名英超前锋赢得了很高的成功率【根据smarterscout(链接请戳),其争顶成功率为82/99,你可看作对球员的FIFA评分,但使用的是现实数据】。正如那句话所说:“谎言、该死的谎言和统计数据”。
另外,球员数据“统计不佳”的部分原因是,在谈及他们在场上产出时,并没有考虑到他们在球队中的职责。在萨里的带领下,上赛季若日尼奥未能为切尔西送出很多助攻的原因有很多,但很少有人指出那并不是他的工作。
作为一名出色的组织者,对于他来说,关键点在与处理好防守与进攻之间的联系、控制好节奏,并将球向前传给那些承接着创造机会任务的人。他的确做得非常好——若日尼奥为取得为进球奠定基础的次数,在上赛季比任何英超球员都多。除了进球球员和助攻球员之外,其他各司其职的球员也应得到应有的荣誉。
根据Opta的预期助攻模型,他送出的很多传球,平均来说,将收获五次助攻。在可能的情况下,运气因素也应被衡量。用不可控的因素来评判球员有些欠妥,相反,应该只根据可控的因素来褒奖球员。
最好的例子来说明本赛季其数据未能反映整理能力的球员,便是谢联的戴维-麦戈德里克。
没错,从计算得出的6.2的预期进球机会中,他一球未入。如果是凭借进球能力被选中的,那么早就会被放弃了。麦戈德里克不断地拼抢(链接请戳)——没有其他前锋能在防守端有如此发挥——才是他入选克里斯-怀尔德阵容并成为其战术体系中重要一员的原因所在。
数据不能衡量一切,但是可以接受的
采用统计数据的目的是试图从像22个人在球场上追风一个半小时这样复杂的事情中,找到一些实质意义。
最常见的关于足球的数据集是与球相关的一些事件,它们能够很好地告诉我们控球球员进行了怎样的动作(传球、传球、解围、反抢、传球、射门,球进了),但不能告诉你其他21名球员(或者是20个,当两名球员在争抢球权时)的相关信息。
因此,我们将无法捕获球场上的一些与球相关但又不是处于控球状态的事件,比如穿越后防线的无球跑动,防守型中场卡住传给前锋的传球线路等等。基于数据收集的局限性,我们目前仍不能捕捉到球场上发生的一切。
目前,足球数据的一大缺陷便是无法很好地衡量防守球员。防守行为(抢断、拦截、反抢等等)的次数并不能说明一名防守球员强于另一名,充其量只能说明球员的防守积极性,以及球队或者个人的防守风格。
正如我在足球分析的十条准则(链接请戳)中提到的那样,这些数字还通常受控球率的影响。更高的控球率通常意味着更少的防守时间。
阿斯顿维拉的明斯在面对对手控球球员时,每一千次防守仅铲球一次,是联赛中此数据最少的中卫。这并不是说他不是一个很好的防守球员,只说明他对争夺球权这件事不太积极。我们还能从他封堵射门次数冠绝英超后卫这一点了解到他的特点。维拉主教练迪恩-史密斯更喜欢把他用做球门前的护盾,而不是夺回球权的猎人。
尽管没有统计数据能够直接告诉我们防守球员的水平,但这些统计所依赖的原始数据还是十分有用的。使用这些数据来评估防守球员的最佳方式是将其作为风向标,指出球员在不同情境下的表现。即使在面对传中时,防守者也不会每次都采取一样的行动,有经验的人还是能够评判防守球员做出的选择。有效地找到这些情境意味着球探可以将目光集中于防守球员在不同情况下的表现,并可以对其水平做出主观判断。
眼下已经有了一些主观指标用于记录导致对手射门或进球的失误。在本赛季的所有后场球员中,贝德纳雷克“名列前茅”。由于他的失误,南安普顿的对手笑纳了三个进球。这类失误能够帮助对手在几乎不可能的情形下取得进球(例如:绵软无力地回传给门将的球被抢断后导致的单刀局面)。
这类失误并不多见且有很大区别,随时都可能发生,也有可能整个赛季都寥寥无几。因此,用这种指标来比较不同的后卫算是一种可靠的方法。更理想的评判标准是导致对手取得进球的细微动作(或缺少了相应动作)。
取得进球或丢球的结果中,一定在某一环节有人犯了错误。可能是后卫一时恍惚漏人,可能是中场未能封好传球线路,或者是一些只有老炮儿才能看出来的错误。这些有用的线索可以告诉我们为什么对手能够得到射门机会,但目前还不能以统计数据的形式整理出来。
丢球也可能不是由一个错误,而是一连串错误导致的。有朝一日,若能得到球场上的事件数据以及追踪数据(任意时刻,所有球员、裁判和球的位置),关于为何导致丢球这一问题将能被更好地解答,但目前我们还没到那一步。
现在我们一起想象一下,有一家对足球彻彻底底了如指掌的数据提供商,他们能够收集到可以想象到的任何数据:球员所有的传球选择,其承受的压力大小,是否抬头观察,队友启动的瞬间,鞋带是否送了——林林总总皆可得。
当拥有如此之多的数据之后,问题就不再是决定衡量什么,而是从得到的结果中发掘重要的东西。
实际上,我们没法拥有一切。我们仅仅得到一些球场上的事件样本,但是为了衡量它们,依然需要认清什么才是更重要的。
近年来,预期进球的盛行是因为它具有足够的描述性和预测性——它能够提供一些我们原先不了解的关于球队和球员的信息,并且可以将这些信息视为其未来表现的信号。
接工时间:2020-04-27
推荐
评论 (1)
收藏
分享
举报
只看楼主
全部回帖
收起
Re:[翻译团]你的数据可以很“糟糕”,但你仍是一名出色的球员