![](https://w1.hoopchina.com.cn/games/images/def_man.png)
什么是预期进球(xG)?
2023年8月8日
乔尼·惠特莫尔 / 作者
近年来,数据和统计在足球界变得越来越普遍。其中最前沿的就是预期进球(或xG)。自从xG于2012年由Opta的山姆·格林引入以来,这一指标已经成为足球分析中最广泛、最有洞察力的指标之一。
继早期被博彩公司和职业俱乐部采用后,预期进球现已成为天空体育、BBC的《今夜赛况》、Bein体育和NBC等主流全球广播公司的常规特色。预期进球,或称xG,已经从分析师的笔记本电脑上升华,现在经常出现在英超联赛主教练和电视评论员的口中。
预期进球是首批在普通足球迷中广为人知的高级指标之一,因此多年来不可避免地面临批评(参见2017年的杰夫·斯特林)。这是在传统观赛方式和新兴数据分析世界之间的一场战斗。然而,在下定论之前,我们必须了解这个指标是如何运作的,以及我们应该如何使用它。
---
什么是预期进球(xG)?
预期进球(或xG)通过使用过去类似射门的信息计算进球的可能性,从而衡量一次机会的质量。我们使用Opta历史数据库中近100万次射门来衡量xG,其值在0到1之间,其中0代表不可能进球的机会,1代表球员每次都应该进球的机会。
我们知道,从中线射门不如从禁区内射门那样容易进球。有了xG,我们可以给这些情况赋予数值。例如,假设禁区内的机会被赋予0.1的xG值。这意味着一名球员平均每十次这样的射门就会打进一球,即10%的时间。
这个术语可能是新的,但在引入xG之前,足球迷和评论员多年来一直在使用这些短语——"他每十次有九次都会进"或"他今天本该上演帽子戏法"。
---
我们如何计算预期进球?
观看比赛时,我们可以凭直觉判断哪些机会更可能或更不可能进球。射手离球门有多近?他们是否从一个好角度射门?是一对一吗?是头球吗?
困难之处在于,一场比赛平均有25次射门。这意味着在大多数联赛中,一个周末就有250次射门。即使是该领域训练有素的眼睛,也需要很长时间才能准确地为每一个独特的情况指定进球可能性。况且谁有时间呢?幸运的是,我们的数据科学家有!
通过模型,我们可以在几秒钟内计算出2022-23赛季英超联赛9609次射门进球的可能性。同样的道理也适用于上赛季欧洲五大联赛的45764次射门。以及我们上赛季覆盖的所有赛事的768394次射门。那可是很多射门。
Opta的xG模型使用一种称为XGBoost的机器学习技术(与该指标的命名无关),它由我们历史Opta数据中近100万次射门提供支持。这些训练数据取自2018-19至2021-22赛季的40个赛事。
该模型使用射门前后的几个变量,直到射门的确切时刻。它评估20多个变量如何影响进球的可能性。一些最重要的因素列举如下:
- 离球门的距离。
- 射门角度。
- 门将位置,让我们了解他们扑救的可能性。
- 射门者对球门的视野清晰度,取决于其他球员的位置。
- 他们受到对方防守队员的压力大小。
- 射门类型,例如射手用哪只脚或是否为凌空抽射/头球/单刀。
- 比赛模式(例如,开放性进攻,快速反击,直接任意球,角球,界外球等)。
- 关于之前动作的信息,例如助攻的类型(例如,直塞球,传中等)。
我们预期进球模型中一个独特而创新的特点是门将位置这一要素,它让我们能够估计门将扑救的概率。它使用门将到射门的距离(作为他们反应时间的代表)和他们相对于射门到球门视线的位置,包括门将是否在禁区内并能够使用手。
除了这些特征之间的相互作用,我们的xG模型还推断射门者可能瞄准球门的哪个位置,以及这如何影响射门被扑出的可能性。这些特征使我们能够评估守门员的位置,并看到扑救的最佳位置可能在哪里。
我们认识到某些情况特别独特,因此这些情况是独立建模的。点球是足球中最一致的射门,它被赋予反映其历史转换率的固定值(0.79 xG)。
---
女子赛事中的预期进球
Opta的xG使用单独的模型来衡量女子赛事中的机会。我们发现,一些变量,如离球门的距离和门将扑救的可能性,对女子赛事中进球的可能性影响更大。
例如,我们发现,如果我们对女子射门使用男子模型,我们会低估距离对近距离射门的影响,而高估距离对远距离射门的影响。
为了保留男子赛事中历史数据深度的优势,女子模型采用上述相同的特征,但在2018-19至2021-22赛季的9个主要女子赛事的相关数据上重新训练。
结果是一个更准确反映进球机会的模型,已被用于2023年女足世界杯的国际转播,如ESPN和福克斯体育频道。
---
常见误解
比赛层面的xG
对预期进球的主要批评通常出现在指标没有被正确应用的情况下。其中最常见的是在比赛层面。一支球队在比赛中的xG总值更高并不一定意味着他们本应该赢得这场比赛。xG只衡量机会质量,而不是比赛的预期结果。
"预期"进球
另一个误解是对指标名称的字面解释。我们不"期望"进球完全按照可能性预测发生。我们也明白,进球不能是小数。"预期进球"这个名称源于"期望值"这个数学概念,它衡量一个结果发生的可能性。
公平的硬币正面朝上的期望值是50%,反面朝上的期望值是50%(预期正面或预期反面是0.5)。我们不期望恰好一半的投掷结果是正面,一半是反面,而是在大量的硬币投掷中,每种结果的总数应该紧跟这种模式(或回归到这个平均值)。预期进球也是如此。偏离期望值是不可避免的,这是我们可以在足球中分析的有价值的信息。
理解xG超预期表现
一个球员或球队超预期进球并不意味着他们之后必须低于预期才能回归到期望值。这被称为赌徒谬误。虽然我们预计他们会在未来的射门中回归到与期望值一致的进球表现,但他们已经"获得"了这种超预期表现。
如果一名球员在赛季初已经比他们的预期进球总数多进了5个球,很可能他们最终的赛季总数仍然会超出这5个预期进球。同样地,如果一枚硬币连续10次正面朝上,未来的投掷仍然同样可能出现正面和反面,但硬币已经出现了10次正面。
---
我们如何使用预期进球?
让我们比较两名球员2022-23赛季的表现:马赛的阿莱克西斯·桑切斯在法甲和狼队的鲁本·内维斯在英超。上赛季两人都恰好有63次射门(不包括点球),但分别打进12球和3球。
那么,他们射门的区别在哪里?
通过量化每个球员63次机会的质量,xG为他们的射门增加了超越传统指标(如射正或平均射门距离)的额外背景。我们可以比较每个球员获得机会的质量。
从桑切斯获得的机会来看,我们预计一般球员会打进约10个进球(10.2 xG)。另一方面,从内维斯的机会来看,我们预计一般球员只能打进3个进球(2.8 xG)。
从下面他们的射门图来看,我们可以立即了解为什么他们的进球产出如此不同。两名球员都略微超出了他们的预期进球产出,但他们的63次机会在质量上有很大不同,桑切斯的射门距离球门要近得多,他们的进球数反映了这一点。
我们在这里重点关注了个人球员的例子,但预期进球指标也可以以类似的方式应用于球队或比赛。当然,我们可以看到,一名球员或一支球队的进球可能多于或少于他们的xG值,但这正是我们现在可以分析的差异。一名球员的进球是否少于他应有的水平?谁在高xG的情况下获得机会?
---
预期进球的深度
足球是一项进球相对较少的运动,因此我们衡量进球可能性的能力是必不可少的背景。有了预期进球,我们可以为评论员和分析师提供另一个工具,来量化每个足球迷都想听的故事。哪个前锋在完成射门上挣扎?哪支球队的状态表明他们应该在联赛积分榜上排名更高?
Opta数据的无与伦比的深度意味着,我们现在拥有超过450万次射门的xG值,涵盖了10万多名球员,这使我们能够比较和了解世界各地球员和球队的表现。
xG是一个超越传统射门计数的指标,但重要的是要记住,它仍然只是一个指标。我们可以用它来评估潜在的表现,但真正能让你赢得足球比赛的是实际进球。
足球是不可预测的,进球可能来自任何数量的意外结果,但有了预期进球,我们可以解释这些进球有多么不可能。
什么是预期进球(xG)?
2023年8月8日
乔尼·惠特莫尔 / 作者
近年来,数据和统计在足球界变得越来越普遍。其中最前沿的就是预期进球(或xG)。自从xG于2012年由Opta的山姆·格林引入以来,这一指标已经成为足球分析中最广泛、最有洞察力的指标之一。
继早期被博彩公司和职业俱乐部采用后,预期进球现已成为天空体育、BBC的《今夜赛况》、Bein体育和NBC等主流全球广播公司的常规特色。预期进球,或称xG,已经从分析师的笔记本电脑上升华,现在经常出现在英超联赛主教练和电视评论员的口中。
预期进球是首批在普通足球迷中广为人知的高级指标之一,因此多年来不可避免地面临批评(参见2017年的杰夫·斯特林)。这是在传统观赛方式和新兴数据分析世界之间的一场战斗。然而,在下定论之前,我们必须了解这个指标是如何运作的,以及我们应该如何使用它。
---
什么是预期进球(xG)?
预期进球(或xG)通过使用过去类似射门的信息计算进球的可能性,从而衡量一次机会的质量。我们使用Opta历史数据库中近100万次射门来衡量xG,其值在0到1之间,其中0代表不可能进球的机会,1代表球员每次都应该进球的机会。
我们知道,从中线射门不如从禁区内射门那样容易进球。有了xG,我们可以给这些情况赋予数值。例如,假设禁区内的机会被赋予0.1的xG值。这意味着一名球员平均每十次这样的射门就会打进一球,即10%的时间。
这个术语可能是新的,但在引入xG之前,足球迷和评论员多年来一直在使用这些短语——"他每十次有九次都会进"或"他今天本该上演帽子戏法"。
---
我们如何计算预期进球?
观看比赛时,我们可以凭直觉判断哪些机会更可能或更不可能进球。射手离球门有多近?他们是否从一个好角度射门?是一对一吗?是头球吗?
困难之处在于,一场比赛平均有25次射门。这意味着在大多数联赛中,一个周末就有250次射门。即使是该领域训练有素的眼睛,也需要很长时间才能准确地为每一个独特的情况指定进球可能性。况且谁有时间呢?幸运的是,我们的数据科学家有!
通过模型,我们可以在几秒钟内计算出2022-23赛季英超联赛9609次射门进球的可能性。同样的道理也适用于上赛季欧洲五大联赛的45764次射门。以及我们上赛季覆盖的所有赛事的768394次射门。那可是很多射门。
Opta的xG模型使用一种称为XGBoost的机器学习技术(与该指标的命名无关),它由我们历史Opta数据中近100万次射门提供支持。这些训练数据取自2018-19至2021-22赛季的40个赛事。
该模型使用射门前后的几个变量,直到射门的确切时刻。它评估20多个变量如何影响进球的可能性。一些最重要的因素列举如下:
- 离球门的距离。
- 射门角度。
- 门将位置,让我们了解他们扑救的可能性。
- 射门者对球门的视野清晰度,取决于其他球员的位置。
- 他们受到对方防守队员的压力大小。
- 射门类型,例如射手用哪只脚或是否为凌空抽射/头球/单刀。
- 比赛模式(例如,开放性进攻,快速反击,直接任意球,角球,界外球等)。
- 关于之前动作的信息,例如助攻的类型(例如,直塞球,传中等)。
我们预期进球模型中一个独特而创新的特点是门将位置这一要素,它让我们能够估计门将扑救的概率。它使用门将到射门的距离(作为他们反应时间的代表)和他们相对于射门到球门视线的位置,包括门将是否在禁区内并能够使用手。
除了这些特征之间的相互作用,我们的xG模型还推断射门者可能瞄准球门的哪个位置,以及这如何影响射门被扑出的可能性。这些特征使我们能够评估守门员的位置,并看到扑救的最佳位置可能在哪里。
我们认识到某些情况特别独特,因此这些情况是独立建模的。点球是足球中最一致的射门,它被赋予反映其历史转换率的固定值(0.79 xG)。
---
女子赛事中的预期进球
Opta的xG使用单独的模型来衡量女子赛事中的机会。我们发现,一些变量,如离球门的距离和门将扑救的可能性,对女子赛事中进球的可能性影响更大。
例如,我们发现,如果我们对女子射门使用男子模型,我们会低估距离对近距离射门的影响,而高估距离对远距离射门的影响。
为了保留男子赛事中历史数据深度的优势,女子模型采用上述相同的特征,但在2018-19至2021-22赛季的9个主要女子赛事的相关数据上重新训练。
结果是一个更准确反映进球机会的模型,已被用于2023年女足世界杯的国际转播,如ESPN和福克斯体育频道。
---
常见误解
比赛层面的xG
对预期进球的主要批评通常出现在指标没有被正确应用的情况下。其中最常见的是在比赛层面。一支球队在比赛中的xG总值更高并不一定意味着他们本应该赢得这场比赛。xG只衡量机会质量,而不是比赛的预期结果。
"预期"进球
另一个误解是对指标名称的字面解释。我们不"期望"进球完全按照可能性预测发生。我们也明白,进球不能是小数。"预期进球"这个名称源于"期望值"这个数学概念,它衡量一个结果发生的可能性。
公平的硬币正面朝上的期望值是50%,反面朝上的期望值是50%(预期正面或预期反面是0.5)。我们不期望恰好一半的投掷结果是正面,一半是反面,而是在大量的硬币投掷中,每种结果的总数应该紧跟这种模式(或回归到这个平均值)。预期进球也是如此。偏离期望值是不可避免的,这是我们可以在足球中分析的有价值的信息。
理解xG超预期表现
一个球员或球队超预期进球并不意味着他们之后必须低于预期才能回归到期望值。这被称为赌徒谬误。虽然我们预计他们会在未来的射门中回归到与期望值一致的进球表现,但他们已经"获得"了这种超预期表现。
如果一名球员在赛季初已经比他们的预期进球总数多进了5个球,很可能他们最终的赛季总数仍然会超出这5个预期进球。同样地,如果一枚硬币连续10次正面朝上,未来的投掷仍然同样可能出现正面和反面,但硬币已经出现了10次正面。
---
我们如何使用预期进球?
让我们比较两名球员2022-23赛季的表现:马赛的阿莱克西斯·桑切斯在法甲和狼队的鲁本·内维斯在英超。上赛季两人都恰好有63次射门(不包括点球),但分别打进12球和3球。
那么,他们射门的区别在哪里?
通过量化每个球员63次机会的质量,xG为他们的射门增加了超越传统指标(如射正或平均射门距离)的额外背景。我们可以比较每个球员获得机会的质量。
从桑切斯获得的机会来看,我们预计一般球员会打进约10个进球(10.2 xG)。另一方面,从内维斯的机会来看,我们预计一般球员只能打进3个进球(2.8 xG)。
从下面他们的射门图来看,我们可以立即了解为什么他们的进球产出如此不同。两名球员都略微超出了他们的预期进球产出,但他们的63次机会在质量上有很大不同,桑切斯的射门距离球门要近得多,他们的进球数反映了这一点。
我们在这里重点关注了个人球员的例子,但预期进球指标也可以以类似的方式应用于球队或比赛。当然,我们可以看到,一名球员或一支球队的进球可能多于或少于他们的xG值,但这正是我们现在可以分析的差异。一名球员的进球是否少于他应有的水平?谁在高xG的情况下获得机会?
---
预期进球的深度
足球是一项进球相对较少的运动,因此我们衡量进球可能性的能力是必不可少的背景。有了预期进球,我们可以为评论员和分析师提供另一个工具,来量化每个足球迷都想听的故事。哪个前锋在完成射门上挣扎?哪支球队的状态表明他们应该在联赛积分榜上排名更高?
Opta数据的无与伦比的深度意味着,我们现在拥有超过450万次射门的xG值,涵盖了10万多名球员,这使我们能够比较和了解世界各地球员和球队的表现。
xG是一个超越传统射门计数的指标,但重要的是要记住,它仍然只是一个指标。我们可以用它来评估潜在的表现,但真正能让你赢得足球比赛的是实际进球。
足球是不可预测的,进球可能来自任何数量的意外结果,但有了预期进球,我们可以解释这些进球有多么不可能。