马刺是不是常年比他们预测的要好?数据分析师(也是马刺球迷)Jacob Goldstein回答了这个问题以及其他一些事情。
Photo
by Bart Young/NBAE via Getty Images
周二(7月16日),问卷调查和分析网站FiveThirtyEight发布了对下个赛季的预测,“理直气壮”地预测马刺将在2019-20赛季获得37胜,结束自己连续22年季后赛之旅,仅仅领先于太阳、灰熊和国王。虽然不是必须的,但是这篇文章也确实没有对马刺的预测做出真正的解释,没有任何有力的证据,仅仅在整个摘要中称马刺为“淡出季后赛的遗迹”。
赛季前预测更多的是看内容而不是科学论证。不必挑剔他们的预测程序或数据因为他们本来也不打算把这个作为常规赛的模拟。他们所做的就是基于特定数据点进行或多或少的分析然后给出一个球队排位的晴雨表,所有的事情都是公平的,甚至比这更好的是,他们让我们点击、回应及写博客来说明我们为什么同意或不同意他们。
那我们就写一写。
马刺不会是下赛季的冠军争夺者,因此,无论互联网上哪个角落偶尔提到他们,都不会缺少实事求是、细致入微的突出球队弱点。然而,像上面这样的赛季前预测值得一些回应和探索的原因是,他们如何谈论更宽泛的马刺主题,我相信,许多球迷都认同:马刺是“Gestalt”(注:球队作为一个整体时很不错,但是单独看球队的每个部分感觉都一般般),或者作为一个有历史传承的球队,比简单聚集的球队要强大。
表面上看,马刺似乎是被低估了。在2015-16赛季和2016-17赛季,FiveThirtyEight预测马刺将分别赢得57场和52场比赛;去年10月,他们预测马刺将赢得37-45场比赛。最终马刺取得了67、61和48场胜利。即便算上2017-18赛季,发生了未预料到的卡哇伊-莱昂纳德事件——网站原本预测马刺将赢得50场比赛(实际赢了47场)——马刺在过去四年平均每个赛季比预测的多赢6.75场。拉斯维加斯博彩,虽然使用完全不同的规则,也同样低估马刺——这使得FiveThirtyEight的主编内特-希尔(Nate Silver)在一篇文章中恰如其分地称“不要投注格雷格-波波维奇”。
作为圣安东尼奥过去二十多年里取得成功的代名词,波波维奇是一个关键组成部分,与一些马刺无形资产如文化和连续性一样。同时,这些影响预测的因素还有:1)涉及圣安东尼奥的事情比其他大多数球队更多;2)帮助个人最大程度兑现天赋的能力;3)似乎不可能有一种算法去评估他们的实际价值。
为了深入了解复杂的预测模型中的内容,我联系了BBall index的首席数据科学家Jacob Goldstein,他开发了一种称为“球员影响正负值(PIPM)”的评测模式。在Goldstein自己的模型中,马刺队预计将赢得39.7场比赛,这比37场比赛好,但仍比上赛季少赢8场比赛。Jacob很详细的解释了他的模型,他是如何预测马刺的,以及对计算机预测和现实世界性能可能不一致的某些领域一些更大设想。
Bruno Passos:你的模型目前预测马刺在2019-20赛季将赢得39-43场(39.7的数值使这一预测更接近40-42),这略好于FiveThirtyEight 预测的37-45场,但基于马刺上赛季48胜34负的战绩,这仍低于大多数球迷预期。
所以,第一个问题,为什么你这么“讨厌”马刺?
Jacob Goldstein:我喜欢这个问题,因为经常有人这么问我,不仅仅是马刺的球迷。几乎每当有人不喜欢对他们的球队的预测时,就会认为我不尊重他们的主队。这只是数字,绝对没有任何恶意。特别是考虑到我是马刺球迷,“哇你只是讨厌马刺”的评论最不可思议。我发现预测是一个有用的方法来预览NBA的新赛季,但当然,他们不是终极目的,也不是说新赛季就没有乐趣了!
BP:如果这些确实只是纯粹倾向的随机数字,你能否简要总结一下你的模型的工作原理以及它使用的数据是如何处理的么?
JG:我的模型设计是基于我的球员价值评测——球员影响正负值(PIPM)。简而言之,PIPM 是一个评测指标,它结合了Boxscore 与正负值数据调整方差,评估球员在场上每 100个回合在进攻和防守方面对球队的价值。为了增加准确性,我使用多年的数据来预估一个球员的PIPM在下个赛季的影响力。当我得到每个球员的估计影响值,我使用另一个模型来预估球队的时间分配。将每名球员的时间和他的影响力结合起来,得出每100个回合球队整体实力值。我会对这些球队整体实力值做一些调整,例如调整球队之间的差距,但这就是我的模型和大多数统计模型主要工作方式。
BP:你可以简要总结一下对马刺队的预测,最重要的因素或者假设么?
JG:简单的说就是西部其他球队都变得更好了但是马刺没有。确实马刺也做了一些事情比如续签了盖伊,引进了卡罗尔,但是这些被一些不利因素抵消了,比如签约莱尔斯,交易贝尔坦斯,选中卢卡-沙马尼奇。我最开始的预测马刺大约能有45胜,但是西部其他球队的一系列动作把马刺甩开了。随着明星球员年龄变大,球队停滞不前以及西部其他球队的补强,马刺的预测结果不是很理想。
BP:去年很多预测认为马刺将远低于他们最终取得的48胜34负,这还是在德章泰-默里受伤之后取得的。历史上,健康的马刺队总比很多预测和期望都要好,包括拉斯维加斯博彩的预测。球迷们认为他们比纸面上看上去要强,你同意么?
JG:有点儿同意吧,我知道这好像没有正面回答这个问题。在马刺队获得50+胜利时期,他们很受统计模型的喜爱,一直被预测将统治常规赛并获得季后赛主场优势。我认为有一个方面是模型低估了波波维奇的作用,你很难去量化评估一名NBA历史上最伟大的教练对球队的提升作用,特别是在过去几年,他们并不是争冠球队的时候,波波维奇很明显让球队比表面看上去要强。这种情况是否还会继续很难说,但毫无疑问教练对球员的影响应该是一个考虑因素。
BP:如果这样的话,在预测由波波维奇执教的马刺队时,预测模型是否有办法量化评估这种无形的因素?马刺球迷就只能这样陷入这些年来赛前预测带来不适的循环么?
JG:有一些方法可以量化评估执教的作用,但是大多数的方法都会受到大量其他因素的干扰,你很难评估一个甚至都不上场比赛的人的价值。在BBall Index, 我们有执教优化等级,基于一名教职人员让球员发挥出的水平对比我们评估这名球员的天赋水平。这个指标可能会被引入到预测模型中,根据教练是谁来调整评估每支队伍球员进出的影响。也有人尝试使用执教RAPM(本质上是将教练视为球队的第六人,用一种繁杂的回归技术来估计教练对比赛的影响),但结果各种各样,并且要让它数值稳定似乎需要提取非常大的样本(比如几年内)。
BP:有没有球队跟预测是相反的,纸面上看实力很强但上赛季实际表现不及预期(不是因为伤病)?进一步说,有没有球队一直以来总比预测的表现差?如果有的话,你能冒险猜测一下是哪些有形或无形的因素造成这种情况的么?
JG:很难挑出这种真正不及预期的球队,因为伤病太频繁了。奇才队表现不好,但那是因为他们的全明星控卫缺席了一年中的大部分时间。森林狼表现不好是因为巴特勒被交易了。鹈鹕队和湖人队是因为,嗯……,内部问题。其他的是因为摆烂,这个总是不可预测的。表现不佳基本上都是因为伤病和摆烂。
BP:我提到了执教,但是还有其他——也许更多的是趣闻轶事——因素人们经常和马刺联系到一起,包括连续性和文化——再说一次,这也许只是传说——能够最大程度兑现球员的天赋。另一方面,马刺很少受到无形因素的影响比如摆烂以及(经常、持续的)动荡。无形因素是:
A) 难以捕捉并放入模型?
B)并不那么重要不值得放入模型?
C)两者都是
JG:连续性无疑会被捕捉放入模型,并且可以帮助球队。因为连续性变化的影响,我的模型包含一个回归因子针对球员变换球队。不过有一些无形因素太难捕捉了,你可以对摆烂建模,但是这只是赛季模拟中的一个因素,并不能在球队层面执行,因为你很难确定哪支球队会摆烂。我认为最大程度兑现天赋的事情是真的,我在对我们的教练优化等级的描述中也谈到了这一点。在根据球员的天赋最大限度地提高球员的影响力并将他们置于成功的境况方面,波波维奇教练是我们数据库中的顶级教练之一。
BP:让我们回到上赛季,因为我认为大多数球迷看到的是一只上赛季顽强取得48胜34负成绩球队,现在多了一个健康的默里、经验丰富的怀特,以及有一段时间他们第一次真的失去的连续性。从这个角度看,40或者低于40胜(比上赛季少8个胜场)似乎在暗示(如你指出的)阿尔德里奇/盖伊/德罗赞状态将大幅下滑,以及上赛季的一些偶然因素不会再发生。下面这些少8个胜场的原因你如何排序:
A)2018-2019赛季马刺超常发挥
b)2019-2020赛季马刺明显恶化了(或者说竞争更激烈了)
c)漏掉了一些,模型无法量化评估的无形因素(好的或者坏的)
JG:我想首先是B,第二是A,第三是C。我认为西部今年真的要困难的多因为精英球员分散在6-7只球队中。马刺去年超常发挥,他们更接近于一只44-45胜的球队而不是48胜。因为较强的连续性,我不认为“波波维奇效应” 对新球员会真正产生超出预期的巨大影响。
BP:你能从数据角度找出可能极大改善马刺前景的X因素/球员/其他变量么?
JG:现在很难说谁将帮助马刺因为可选的自由球员非常少,剩下的最好的自由球员可能是凯尔-科沃尔(译者注:本文发布时科沃尔还未签约雄鹿,现在科沃尔都木有了),他的投射真的可以帮助马刺。如果波波维奇想打“双塔”,一个潜在可低价引入的球员是德怀特-霍华德,但是他也有很多风险。剩下的球员没有多少可以真正的影响比赛。如果可能目前最好的补强方式是寻求交易,交易德罗赞或者阿尔德里奇中的一个换取一名年轻球员或者未来的一个乐透签。马刺可能寄希望于内部球员的巨大进步,德章泰-默里或者德里克-怀特一跃达到全明星球员的水平。
BP:如果你预测的马刺39.5胜是拉斯维加斯博彩的数据,你是赌高还是低?有没有信心?对于目前拉斯维斯博彩的43.5胜呢?
JG:我预测的是39.7胜,我会非常有信心实际高于这一数字,并不是因为我是一名马刺球迷而更看好马刺,我认为马刺有足够的天赋,他们将努力一整个赛季,能够在3、4月击败摆烂的球队。但是43.5胜,我可能会选择低于这一数字。如果默里或者怀特没有飞速进步,我认为他们的成绩将略低于8只季后赛球队。
BP:如果我告诉你在2019-2020赛季马刺最终获得了50胜,请给我你的一句话反映或者解释一下哪个因素——目前在模型中还未考虑到——对此影响最大。
JG:如果你告诉我他们赢了50场比赛,我会说最重要的原因是德章泰-默里回来了,他不仅成为一名好的进攻球员,而且成为一名精英球员。他已经是一名优秀的防守球员了,但要想让马刺更上一层楼,他必须是全队攻防两段最好的球员。
马刺是不是常年比他们预测的要好?数据分析师(也是马刺球迷)Jacob Goldstein回答了这个问题以及其他一些事情。
Photo
by Bart Young/NBAE via Getty Images
周二(7月16日),问卷调查和分析网站FiveThirtyEight发布了对下个赛季的预测,“理直气壮”地预测马刺将在2019-20赛季获得37胜,结束自己连续22年季后赛之旅,仅仅领先于太阳、灰熊和国王。虽然不是必须的,但是这篇文章也确实没有对马刺的预测做出真正的解释,没有任何有力的证据,仅仅在整个摘要中称马刺为“淡出季后赛的遗迹”。
赛季前预测更多的是看内容而不是科学论证。不必挑剔他们的预测程序或数据因为他们本来也不打算把这个作为常规赛的模拟。他们所做的就是基于特定数据点进行或多或少的分析然后给出一个球队排位的晴雨表,所有的事情都是公平的,甚至比这更好的是,他们让我们点击、回应及写博客来说明我们为什么同意或不同意他们。
那我们就写一写。
马刺不会是下赛季的冠军争夺者,因此,无论互联网上哪个角落偶尔提到他们,都不会缺少实事求是、细致入微的突出球队弱点。然而,像上面这样的赛季前预测值得一些回应和探索的原因是,他们如何谈论更宽泛的马刺主题,我相信,许多球迷都认同:马刺是“Gestalt”(注:球队作为一个整体时很不错,但是单独看球队的每个部分感觉都一般般),或者作为一个有历史传承的球队,比简单聚集的球队要强大。
表面上看,马刺似乎是被低估了。在2015-16赛季和2016-17赛季,FiveThirtyEight预测马刺将分别赢得57场和52场比赛;去年10月,他们预测马刺将赢得37-45场比赛。最终马刺取得了67、61和48场胜利。即便算上2017-18赛季,发生了未预料到的卡哇伊-莱昂纳德事件——网站原本预测马刺将赢得50场比赛(实际赢了47场)——马刺在过去四年平均每个赛季比预测的多赢6.75场。拉斯维加斯博彩,虽然使用完全不同的规则,也同样低估马刺——这使得FiveThirtyEight的主编内特-希尔(Nate Silver)在一篇文章中恰如其分地称“不要投注格雷格-波波维奇”。
作为圣安东尼奥过去二十多年里取得成功的代名词,波波维奇是一个关键组成部分,与一些马刺无形资产如文化和连续性一样。同时,这些影响预测的因素还有:1)涉及圣安东尼奥的事情比其他大多数球队更多;2)帮助个人最大程度兑现天赋的能力;3)似乎不可能有一种算法去评估他们的实际价值。
为了深入了解复杂的预测模型中的内容,我联系了BBall index的首席数据科学家Jacob Goldstein,他开发了一种称为“球员影响正负值(PIPM)”的评测模式。在Goldstein自己的模型中,马刺队预计将赢得39.7场比赛,这比37场比赛好,但仍比上赛季少赢8场比赛。Jacob很详细的解释了他的模型,他是如何预测马刺的,以及对计算机预测和现实世界性能可能不一致的某些领域一些更大设想。
Bruno Passos:你的模型目前预测马刺在2019-20赛季将赢得39-43场(39.7的数值使这一预测更接近40-42),这略好于FiveThirtyEight 预测的37-45场,但基于马刺上赛季48胜34负的战绩,这仍低于大多数球迷预期。
所以,第一个问题,为什么你这么“讨厌”马刺?
Jacob Goldstein:我喜欢这个问题,因为经常有人这么问我,不仅仅是马刺的球迷。几乎每当有人不喜欢对他们的球队的预测时,就会认为我不尊重他们的主队。这只是数字,绝对没有任何恶意。特别是考虑到我是马刺球迷,“哇你只是讨厌马刺”的评论最不可思议。我发现预测是一个有用的方法来预览NBA的新赛季,但当然,他们不是终极目的,也不是说新赛季就没有乐趣了!
BP:如果这些确实只是纯粹倾向的随机数字,你能否简要总结一下你的模型的工作原理以及它使用的数据是如何处理的么?
JG:我的模型设计是基于我的球员价值评测——球员影响正负值(PIPM)。简而言之,PIPM 是一个评测指标,它结合了Boxscore 与正负值数据调整方差,评估球员在场上每 100个回合在进攻和防守方面对球队的价值。为了增加准确性,我使用多年的数据来预估一个球员的PIPM在下个赛季的影响力。当我得到每个球员的估计影响值,我使用另一个模型来预估球队的时间分配。将每名球员的时间和他的影响力结合起来,得出每100个回合球队整体实力值。我会对这些球队整体实力值做一些调整,例如调整球队之间的差距,但这就是我的模型和大多数统计模型主要工作方式。
BP:你可以简要总结一下对马刺队的预测,最重要的因素或者假设么?
JG:简单的说就是西部其他球队都变得更好了但是马刺没有。确实马刺也做了一些事情比如续签了盖伊,引进了卡罗尔,但是这些被一些不利因素抵消了,比如签约莱尔斯,交易贝尔坦斯,选中卢卡-沙马尼奇。我最开始的预测马刺大约能有45胜,但是西部其他球队的一系列动作把马刺甩开了。随着明星球员年龄变大,球队停滞不前以及西部其他球队的补强,马刺的预测结果不是很理想。
BP:去年很多预测认为马刺将远低于他们最终取得的48胜34负,这还是在德章泰-默里受伤之后取得的。历史上,健康的马刺队总比很多预测和期望都要好,包括拉斯维加斯博彩的预测。球迷们认为他们比纸面上看上去要强,你同意么?
JG:有点儿同意吧,我知道这好像没有正面回答这个问题。在马刺队获得50+胜利时期,他们很受统计模型的喜爱,一直被预测将统治常规赛并获得季后赛主场优势。我认为有一个方面是模型低估了波波维奇的作用,你很难去量化评估一名NBA历史上最伟大的教练对球队的提升作用,特别是在过去几年,他们并不是争冠球队的时候,波波维奇很明显让球队比表面看上去要强。这种情况是否还会继续很难说,但毫无疑问教练对球员的影响应该是一个考虑因素。
BP:如果这样的话,在预测由波波维奇执教的马刺队时,预测模型是否有办法量化评估这种无形的因素?马刺球迷就只能这样陷入这些年来赛前预测带来不适的循环么?
JG:有一些方法可以量化评估执教的作用,但是大多数的方法都会受到大量其他因素的干扰,你很难评估一个甚至都不上场比赛的人的价值。在BBall Index, 我们有执教优化等级,基于一名教职人员让球员发挥出的水平对比我们评估这名球员的天赋水平。这个指标可能会被引入到预测模型中,根据教练是谁来调整评估每支队伍球员进出的影响。也有人尝试使用执教RAPM(本质上是将教练视为球队的第六人,用一种繁杂的回归技术来估计教练对比赛的影响),但结果各种各样,并且要让它数值稳定似乎需要提取非常大的样本(比如几年内)。
BP:有没有球队跟预测是相反的,纸面上看实力很强但上赛季实际表现不及预期(不是因为伤病)?进一步说,有没有球队一直以来总比预测的表现差?如果有的话,你能冒险猜测一下是哪些有形或无形的因素造成这种情况的么?
JG:很难挑出这种真正不及预期的球队,因为伤病太频繁了。奇才队表现不好,但那是因为他们的全明星控卫缺席了一年中的大部分时间。森林狼表现不好是因为巴特勒被交易了。鹈鹕队和湖人队是因为,嗯……,内部问题。其他的是因为摆烂,这个总是不可预测的。表现不佳基本上都是因为伤病和摆烂。
BP:我提到了执教,但是还有其他——也许更多的是趣闻轶事——因素人们经常和马刺联系到一起,包括连续性和文化——再说一次,这也许只是传说——能够最大程度兑现球员的天赋。另一方面,马刺很少受到无形因素的影响比如摆烂以及(经常、持续的)动荡。无形因素是:
A) 难以捕捉并放入模型?
B)并不那么重要不值得放入模型?
C)两者都是
JG:连续性无疑会被捕捉放入模型,并且可以帮助球队。因为连续性变化的影响,我的模型包含一个回归因子针对球员变换球队。不过有一些无形因素太难捕捉了,你可以对摆烂建模,但是这只是赛季模拟中的一个因素,并不能在球队层面执行,因为你很难确定哪支球队会摆烂。我认为最大程度兑现天赋的事情是真的,我在对我们的教练优化等级的描述中也谈到了这一点。在根据球员的天赋最大限度地提高球员的影响力并将他们置于成功的境况方面,波波维奇教练是我们数据库中的顶级教练之一。
BP:让我们回到上赛季,因为我认为大多数球迷看到的是一只上赛季顽强取得48胜34负成绩球队,现在多了一个健康的默里、经验丰富的怀特,以及有一段时间他们第一次真的失去的连续性。从这个角度看,40或者低于40胜(比上赛季少8个胜场)似乎在暗示(如你指出的)阿尔德里奇/盖伊/德罗赞状态将大幅下滑,以及上赛季的一些偶然因素不会再发生。下面这些少8个胜场的原因你如何排序:
A)2018-2019赛季马刺超常发挥
b)2019-2020赛季马刺明显恶化了(或者说竞争更激烈了)
c)漏掉了一些,模型无法量化评估的无形因素(好的或者坏的)
JG:我想首先是B,第二是A,第三是C。我认为西部今年真的要困难的多因为精英球员分散在6-7只球队中。马刺去年超常发挥,他们更接近于一只44-45胜的球队而不是48胜。因为较强的连续性,我不认为“波波维奇效应” 对新球员会真正产生超出预期的巨大影响。
BP:你能从数据角度找出可能极大改善马刺前景的X因素/球员/其他变量么?
JG:现在很难说谁将帮助马刺因为可选的自由球员非常少,剩下的最好的自由球员可能是凯尔-科沃尔(译者注:本文发布时科沃尔还未签约雄鹿,现在科沃尔都木有了),他的投射真的可以帮助马刺。如果波波维奇想打“双塔”,一个潜在可低价引入的球员是德怀特-霍华德,但是他也有很多风险。剩下的球员没有多少可以真正的影响比赛。如果可能目前最好的补强方式是寻求交易,交易德罗赞或者阿尔德里奇中的一个换取一名年轻球员或者未来的一个乐透签。马刺可能寄希望于内部球员的巨大进步,德章泰-默里或者德里克-怀特一跃达到全明星球员的水平。
BP:如果你预测的马刺39.5胜是拉斯维加斯博彩的数据,你是赌高还是低?有没有信心?对于目前拉斯维斯博彩的43.5胜呢?
JG:我预测的是39.7胜,我会非常有信心实际高于这一数字,并不是因为我是一名马刺球迷而更看好马刺,我认为马刺有足够的天赋,他们将努力一整个赛季,能够在3、4月击败摆烂的球队。但是43.5胜,我可能会选择低于这一数字。如果默里或者怀特没有飞速进步,我认为他们的成绩将略低于8只季后赛球队。
BP:如果我告诉你在2019-2020赛季马刺最终获得了50胜,请给我你的一句话反映或者解释一下哪个因素——目前在模型中还未考虑到——对此影响最大。
JG:如果你告诉我他们赢了50场比赛,我会说最重要的原因是德章泰-默里回来了,他不仅成为一名好的进攻球员,而且成为一名精英球员。他已经是一名优秀的防守球员了,但要想让马刺更上一层楼,他必须是全队攻防两段最好的球员。