题为《Sarah Rudd——阿森纳的数据分析先驱》
Sarah Rudd曾 担任 StatDNA 和 Arsenal 的分析和软件开发副总裁接近10年,使她成为英超联赛中资历最老的女性之一。
她现在与丈夫 Ravi Ramineni 共同创立了自己的分析咨询公司 src ftbl。在本期 TGG (Traning Ground Guru)播客中,Sarah 向我们讲述了她在阿森纳的工作经历、她更广泛的职业生涯,以及她对数据分析未来发展的看法。
旅程开始
Sarah Rudd:我早就知道自己想进入足球数据分析领域,但当时足球数据分析还不存在。我有幸在MIT斯隆管理学院体育分析会议的早期一次会议上与 Mike Forde(前切尔西足球运营总监)聊天,解释了我的情况和我想做什么。
他给了我一个建议,“任何人都可以说他们会分析足球数据,但足球俱乐部真正想要的是有人向他们展示他们能做什么”。
一年后,StatDNA 参加了(MIT斯隆管理学院)会议,他们举办了一场研究论文比赛,他们会给你一个赛季的巴西联赛数据,我想,“这就是我一直在寻找的机会,我可以真正向俱乐部展示我能做什么”
我拿到这些数据后,构建了一个马尔科夫链模型,关注球员当前所处局面的价值以及他们将球移动到的位置。球队在那种情况下更可能进球,还是更不可能?你可以为此赋予具体的数值,计算他们提高了进球概率的程度,或者降低了进球概率的程度。
这篇论文之所以引起人们的共鸣,是因为它在球员招募方面非常实用。我当时的思考是,如果我在俱乐部内部工作,我会想知道哪些信息来帮助我做出决策?而这些信息有时并不一定是人们常规想看到的内容。
之后,我有机会在NESIS(新英格兰体育研讨会)上展示这项研究,并与Jaeson Rosenfeld进行了交流。他最终决定给我提供一份工作。我想,这给我的故事画上了一个圆满的句号。
来到阿森纳
阿森纳一直是StatDNA的独家客户。像Hendrik Almstadt和Ivan Gazidis这样的人看到了这种技术的潜力以及它所带来的竞争优势。他们与StatDNA签订了一份英超联赛内的独家协议,并意识到我们所收集的数据类型能够带来巨大的优势。
StatDNA不仅仅是一家数据分析公司,我们还是一家数据提供商。我们收集了关于比赛事件的丰富上下文信息,而阿森纳看到了拥有这些数据的优势,同时也意识到不让竞争对手获得这些数据的重要性。他们决定通过收购公司来建立自己的数据部门,我认为这是一个非常明智的决定。
被收购之前,StatDNA有关阿森纳的工作主要集中在球员招募上,因为在比赛准备方面,有很多内容他们不希望外部服务提供商看到,我觉得这非常合理。
收购之后,我们的工作范围大大扩展了——依然有很多与球员招募相关的工作,但也涉及到赛前和赛后的比赛准备、球队表现分析,这些工作会进一步影响招募和阵容需求分析,甚至还包括一些体能和医疗方面的工作,比如尝试解决伤病预防等问题。
温格是一个非常聪明的人,所以他对StatDNA的很多工作都持批判态度,经常提出质疑。不过,我在媒体上看到一些报道说他从来不认可StatDNA,这显然不是真的。如果你看看现在和他一起在FIFA工作的团队成员,其中就有Jaeson Rosenfeld,所以显然他们两人相处得很好,也很享受彼此的合作!
在那个年代,温格几乎是阿森纳的唯一决策者。他会听取每个人的意见,然后做出自己的决定。StatDNA的数据分析占多大比重,球探的意见占多大比重,或者他个人的判断占多大比重?这些都很难说清楚。
我们与他的幕后团队和教练组合作得非常紧密,所以即使我们不在他身边,来自他周围不同利益相关者的影响也是显而易见的。我们与阿森纳的表现分析部门建立了非常好的关系——至今依然如此。这是一个很好的例子,展示了如何通过客观数据和主观分析的结合来影响教练团队的决策。
StatDNA的总部在芝加哥。我一直在西雅图,还有人在波士顿和盐湖城,所以我们的团队分布得非常分散。这确实带来了一些困难,因为与人建立面对面的关系非常重要。但另一方面,这种物理上的距离也有好处,因为足球训练基地其实是一个非常容易分心的地方。
远离训练基地的环境让我们能够专注于独立工作,进行一些深度思考。我们实际上在阿森纳训练基地附近有一栋房子,StatDNA的员工会轮流在那里住。房子里没有StatDNA的员工的时间一般不会超过一两周。
获得教练组的支持
这是一个非常重要的部分。如果你无法获得信任和认可,那你就是在一个封闭的环境中工作,跟坐在大学的象牙塔里没什么区别。
我们用来获得认可的方法之一是将一切与视频联系起来,这样我们讨论的就不是模型,而是球场上的足球。
你可以和一名工作人员,比如Steve Bould,一起坐下来观看20段视频剪辑,然后说:“这是模型在这里的分析结果,你怎么看?”他可能会说:“我不同意这个结果,你有没有考虑这些因素?”而这些因素会成为模型下一次迭代的新特征。
当你以这样的方式工作时,他会对模型产生一种参与感和归属感。这是一个非常重要的方面,而我可能在早期并没有完全意识到这一点。比如我的丈夫(Ravi Ramineni)在西雅图时,他经常坐在教练办公室里,与教练们进行这样的对话,这样就能获得更多的认可,因为教练们会觉得:“这个人真的懂足球,我们说的是同一种语言。”
此外,你还需要确保表现分析和数据分析之间的信息是一致的。你不能互相矛盾,否则教练组就会陷入困境,不知道该相信谁。你们可以有分歧,但最终必须解决这些分歧,并且在与教练组沟通之前就要达成一致。
埃梅里到来并调整数据量
(在2021年8月接受TGG采访时,埃梅里的助教Victor Manas表示,他们觉得从StatDNA获得的数据量浩如烟海“有些让人难以应付”。)
我认为这是一个合理的批评。我最近听到一个词叫“合适的数据量”——也就是为每个人找到适合他们的数据量。当我们经历教练组更换时,找到合适的数据量确实会变得非常困难。之前的团队,我们已经合作了六七年,随着时间的推移,数据量会逐渐增加——尤其是在赛前对手分析报告这种事情上。
赛季开始时,报告的内容会很少,但随着赛季的推进,教练组可能会问:“我对这个有疑问,可以把它加进去吗?”然后报告的内容就会不断增加。
你习惯了这样的节奏,所以不会觉得有问题。但埃梅里的团队在巴黎圣日耳曼有着完全不同的工作体系,因此使用的是不同的指标、不同的术语和语言。我认为我们在数据量上确实出了问题,可能需要适当减少一些内容。
你希望以一种可操作的方式呈现数据,但同时你面对的是一些对细节极其关注、对比赛有着非常细腻理解的人,你也需要将这些因素囊括进去。找到这种平衡确实非常困难。
埃梅里教练团队的另一名成员,门将教练Javi Garcia,我非常喜欢他,他想要所有的数据。所以最终还是取决于个人,他们的工作量、工作风格以及性格特点。我不认为有绝对的对错,我们只是需要更好地理解这些个体的需求,并为他们量身定制内容。
有时候,我们会发送不同的报告,分别给足球总监、教练组和表现分析团队——因为这是三个完全不同的受众群体。
尤其是在更大的俱乐部里,教练组需要互动的人数可能会激增,变得非常庞大。为了防止信息过载,如果你能减少他们的互动次数,我认为这是一个相对理想的解决方案。
球探和数据分析的平衡
我认为这些年来确实发生了很大的变化。早期,数据分析和球探部门各自为政,相互竞争。后来转变为“我们会筛选出一些目标,然后对最终名单进行尽职调查”。现在,这种模式变得更加协作和一体化,而且运行得相当不错。
StatDNA的优势在于,他们可以收集任何有比赛视频的球员的数据,然后通过球探或数据,或者理想情况下两者结合,来弥补任何信息盲点。
我不知道媒体是否足够关注这一点,但其中一个重要的变化是将像Mark Curtis和Ben Knapper这样的人转移到招募岗位上。他们都来自表现分析领域,所以他们基本上一直在与数据打交道。
Ben从StatDNA成立的第一天起就在那里工作,因此他在使用数据分析比赛方面非常精通,现在他将这些技能应用于球员招募的背景中。我认为这是在球探人员配置上的一个聪明调整。他的主要工作是负责租借球员,但我认为他也参与了招募工作,尤其是在英国范围内的招募。
Mikhail Zhilkin和有关表现的数据科学
Mikhail的职位之所以设立,是因为我们没有足够的精力来支持所有这些领域。人力表现部门表示:“我们真的需要一个专职人员,能够坐在办公室里,帮助我们解答这些问题。”比如,从某人的笔记本电脑上提取所有的GPS数据,而这些数据可能已经被他们遗忘了。
然后Mikhail Zhilkin(现在仍在阿森纳担任数据科学家)加入了团队,并真正推动了这些工作的进展。有这样一位专职人员负责这些事情,确实非常有帮助。
离开阿森纳
做出改变有很多不同的原因,但其中一个重要原因是我在阿森纳已经工作了将近10年。阿森纳的员工流动率并不高——至少在之前是这样的——所以我发现自己一直在为同一家俱乐部、同一个联赛工作,和相似的团队共事。我很喜欢和我一起工作的这些人,但你会开始问自己:“我是否在尽可能地成长?我是否需要换个环境来推动自己前进?”
离开是一个艰难的决定,同时也很难决定接下来该做什么。你不一定想去另一家俱乐部工作,因为那可能只是从零开始,在另一家俱乐部重复在阿森纳做过的事情。
女性在男性主导的体育领域的处境
(你是否因为身处男性主导的体育领域而被区别对待或质疑过?)
没有。在阿森纳工作时,你是在和最优秀的人一起共事,所以这从来不是问题。每个人都认识我、尊重我,因此并没有因为我是女性而产生任何问题。反倒是因为我是美国人!人们总会质疑:“你是美国人,你到底对足球了解多少?”
当你离开那个环境,回头看时,你会意识到:“这个领域里其实没有多少女性。”
去年,我参加了在纽约举办的首届“女性体育数据大会”。对我来说,那是一个突破性的时刻,因为很长一段时间里我都觉得“我是唯一一个(在这个领域的女性)”。但那个周六下午,我和一群对体育、数据和技术感兴趣的女性待在一个体育馆里,你会意识到,事情真的在发生改变。
在美国的其他体育项目中,其实有不少女性担任高级职位。我当时没有可以效仿的榜样,希望我能成为她们的榜样,让她们看到这是一条可行的职业道路。
我尽量花尽可能多的时间与学生交流,鼓励他们,告诉他们可以通过哪些途径进入这个行业。我参与了许多相关的活动。有一个是在疫情期间发起的,主要针对体育行业中代表性不足的人群,类似“开放办公时间”的活动。我会在日程上留出一些时间,人们可以预约与我进行30分钟的通话。
实际上,我后来在阿森纳和src ftbl之间的那段时间,雇用了一位通过这种活动认识的人。这样的活动对各方都有益。
Susana Ferreras现在在阿森纳的训练基地科尔尼工作,同时也为西班牙女子篮球队服务。我们当时在招聘Mikhail Zhilkin职位时,只有两名女性申请者。其中一位是Susana,她曾随西班牙赢得奥运会篮球银牌;另一位是从事F1赛车工作的女性,遗憾的是她最终退出了应聘。
看到女性申请者如此之少,真的让我感到震惊。Susana的表现非常出色,以至于我们决定调整岗位设置,为她创造一个职位。在幕后,我在西雅图还有一位女性软件工程师Shauna Storey。我们团队有三个人,加上现在在西雅图海湾人队工作的Tyler Cox。
哪家英超俱乐部数据分析水平最高?
根据我的经验以及我丈夫的经验,我仍然认为很少有俱乐部能真正做好数据分析工作。我丈夫在西雅图海湾人队工作了大约10年,他们的预算比我负责的要少得多,但他们赢得了两次冠军,并在五年内四次进入决赛。
当我们谈论俱乐部在数据分析方面做得好的时候,这涉及两个方面:数据科学本身,以及如何将其付诸实施。谁能够影响决策?哪些俱乐部拥有良好的决策流程?我认为这两者的结合是非常罕见的。
我们发现,当你在这方面取得成功时,维持这种成功是非常困难的。一些俱乐部可能会逐渐偏离让他们成功的做法,或者让他们成功的条件发生了变化,因此他们不得不做出不同的尝试。
我们都知道,足球俱乐部内部会有不少人骄矜自傲,每个人都认为成功是因为自己,因此权力的平衡往往会发生一些变化。市场在变化,其他俱乐部也在追赶,所以维持成功真的很难。
我认为现在有很多俱乐部刚刚起步,我觉得他们正在做一些不错且有趣的工作。在英格兰和美国之外,世界其他地方在这方面仍然落后不少,这为俱乐部提供了很多获得竞争优势的机会。
没有人真正知道幕后发生了什么,但我认为你可以通过一些方式“逆向推理”出一些签约的逻辑。当然,布莱顿和布伦特福德在这方面表现非常突出,尽管它们可能是最保密的俱乐部之一。过去几年里,他们的转会操作非常出色。
这是一个非常聪明的体系,你对数据分析的投资可以服务于两个目的。虽然会稍微偏向某一方面——用于Gamble的分析和用于球员招募的分析是完全不同的——但基础是相通的。
毫无疑问,任何涉及专有数据收集的工作在这两个领域都会非常有价值。
俱乐部数据分析和Twitter数据分析的区别
Twitter 是用来娱乐的,对很多人来说,Twitter 是一种乐趣。人们喜欢在上面争论谁更强,或者为什么这支球队表现出色,为什么那支球队突然崩盘。
但其中有些东西并不一定是可操作的,也不是俱乐部会用的方式,所以两者之间存在巨大的差距。十二年前,当我刚加入 StatDNA 时,我完全被他们已经在做的事情震惊了。
他们当时已经有一个传球价值模型,只是以不同的方式实现了它。因此,公众领域发生的事情和俱乐部内部幕后正在进行的事情之间也有很大的差距。在俱乐部内部,你全职思考这些问题,全身心投入其中,而不是仅仅在周六或晚上随便想想。
我职业生涯的早期阶段就是尝试各种方法,看看为什么它们行不通。刚开始时,我以为足球分析已经被我破解了!我当时非常确信——只要把所有数据扔进一个神经网络,工作就完成了!通过不断试错,我学到了很多东西,我认为这非常有用。
那是我的第一个模型,但它没有一个好名字!这是因为我个人营销做得太差了。我甚至不记得那篇论文的标题是什么,或者我是否给那个指标起过名字,但那名字一定又糟糕又可怕。后来 Karun Singh 提出了一个类似的概念,并将其命名为“预期威胁(Expected Threat)”,我觉得人们更倾向于接受这个名字,因为它更容易理解。你有“预期进球(Expected Goals)”,然后有“预期威胁”,这就更有逻辑性了。
他所做的实现方式和我当时的做法有很大的不同,但他在命名方面做得非常出色。你可以对别人说“预期威胁”,人们就能理解这是什么意思。
在 Twitter 上确实存在,或者曾经存在一种通过创造名声来让自己出名的文化,而其中的一部分就是为你的指标起一个吸引人的名字。也许这种趋势已经有点过头了。
你不希望整个行业充满那些没有实际意义的缩写。你希望这些东西能更多地与足球概念挂钩,但即使是这样也很困难,因为每个国家都有自己的足球语言。
我们仍然处于需要把基础打好的阶段。我仍然看到很多糟糕的东西,人们假设一个数字代表某种意义,但实际上并不是这样。我们仍然需要把基础工作做好。
追踪数据未被发掘的潜力
就一些广泛的问题领域而言,我认为很快会得到解决的肯定是无球跑动。关于队友影响的问题有很多,比如你在身后接球有多少是因为你的跑动,多少是因为队友找到你的能力。
一个仍然很难回答的重大领域是防守能力。这是一个可以通过追踪数据(追踪所有球员和球在每个时刻的空间坐标,是构建用于估算一系列足球指标的高精度模型的基础)稍微触及表面的领域,但要弄清楚为什么范戴克如此出色,这将是一个非常困难的问题。
此外,还有一个全新的问题领域,即如何更有把握地评估球员从一个联赛到另一个联赛的能力转化。我认为追踪数据在这方面会非常有帮助,比如从身体对抗的背景、球队阵型、球队动态以及你所处的防守情境等方面进行分析。
空间是其中的重要部分,决策也是重要部分。但两者都不是孤立完成的。能够弄清楚哪些是因为你自身的能力,哪些是因为情境和队友的影响,这仍然是最困难的部分。
需要更多共享和合作
我在2012年1月加入了Stat DNA。利物浦的数据部门大概也是在那个时候成立的,可能比我们早一两年。但因为这个领域非常前沿,所以我们谁也不和谁交流。我们走自己的路,利物浦走他们的路,曼城也有他们的做法,这让事情变得相当困难。
这一直是让我不太满意的地方。阿森纳非常保密,他们想把一切都保留在内部。我喜欢和人交流,尤其是和年轻人交流。我觉得这也是我目前状况的一大好处——我可以稍微更开放一些。我喜欢看到人们正在做的工作,也许还能对某些事情提供一些建设性的反馈。
你会开始想,别人是不是在做一些我们还没想到的事情?每个人都想保护自己的竞争优势,但我认为,为了整个行业的利益,分享是有好处的。
解决那些和别人一样无聊的问题;有时候会觉得,“要是有人写了一个库,我们可以用它来处理这些无聊的事情,而把时间花在有趣的事情上,那该多好。”
新的旅程
大约八个月前,我的丈夫 Ravi Ramineni 和我,以及我们的商业伙伴 Cole Grossman,一起决定成立了一家公司,名为 src ftbl。
我们是一家小型的足球数据分析咨询公司,旨在帮助那些刚刚开始数据分析旅程的俱乐部,加速他们的进步。通常来说,我们的目标客户是那些可能还没有数据分析部门的俱乐部,或者他们可能雇佣了一名数据科学家,但却不太清楚如何将其融入决策过程。我们的目标是帮助这些俱乐部起步,并最终让他们实现自给自足。
每个俱乐部都能从中看到竞争优势,因此最终将数据分析转移到内部是合理的。我们帮助他们达到这个阶段,而当他们做到这一点后,我们的想法是转向一些战略性研究问题的工作,这些问题是足球俱乐部的人非常想解决但往往没有时间去做的。
数据分析的早期阶段是将所有事情都在内部完成,然后在一个封闭的环境中开发东西。当然,当我在阿森纳时,事情是相当保密的,我们是在孤立中工作的。
现在,人们开始意识到,了解第三方对如何开展数据分析的意见以及外界还有哪些资源是非常有益的。许多俱乐部发现自己落后了,因此与第三方合作是赶上进度的一个好方法,而不是试图自己从零开始构建,因为如果你必须从头开始重新发明轮子,真的很难追赶上来。
目前没有任何一家足球俱乐部能够真正充分利用追踪数据,因此这是我们正在研究的一个重要领域,尤其是随着广播追踪数据的普及。你可以利用追踪数据来回答许多过去无法解决的关于球员招募的问题。
因此,我认为这是我们将重点关注的一个领域,同时还有球员培养。我认为这是许多俱乐部现在非常感兴趣的一个领域。对许多俱乐部来说,市场上的球员太昂贵了,所以他们来找我们,询问如何更有效、更高效地在内部培养人才。
数据分析的未来和人工智能的影响
我们已经看到了人工智能对我们的巨大影响。所有的广播追踪数据(通过深度学习方法直接从视频源中追踪球员和球在每个时刻的空间坐标)都是基于深度学习模型、目标识别以及计算这些图像的单应性(homography)构建的。所以实际上这些技术已经影响了我们好几年了,只是我们可能没有真正注意到。
就日常工作效率而言,我非常依赖 ChatGPT 来处理我不擅长或不熟悉的事情。有一些特定的方式可以让我通过它变得更高效。但我认为我们还没有到可以让 ChatGPT 完全替代人类完成所有工作的地步。
一个有趣的娱乐方式是让我用 ChatGPT 为不同的球员撰写球探报告。这些报告听起来非常真实,但实际上充满了谎言。这是我们需要小心的一点,因为它仍然会编造很多东西。
人们的工作会发生变化,某些人肯定会受到影响。ChatGPT 可以写球探报告,但我会让它取代我的球探吗?绝对不会。对大多数人来说,你的工作会被保留或有所改变,希望是朝着更好的方向发展,这样你就不需要再做那么多重复性的工作了。
题为《Sarah Rudd——阿森纳的数据分析先驱》
Sarah Rudd曾 担任 StatDNA 和 Arsenal 的分析和软件开发副总裁接近10年,使她成为英超联赛中资历最老的女性之一。
她现在与丈夫 Ravi Ramineni 共同创立了自己的分析咨询公司 src ftbl。在本期 TGG (Traning Ground Guru)播客中,Sarah 向我们讲述了她在阿森纳的工作经历、她更广泛的职业生涯,以及她对数据分析未来发展的看法。
旅程开始
Sarah Rudd:我早就知道自己想进入足球数据分析领域,但当时足球数据分析还不存在。我有幸在MIT斯隆管理学院体育分析会议的早期一次会议上与 Mike Forde(前切尔西足球运营总监)聊天,解释了我的情况和我想做什么。
他给了我一个建议,“任何人都可以说他们会分析足球数据,但足球俱乐部真正想要的是有人向他们展示他们能做什么”。
一年后,StatDNA 参加了(MIT斯隆管理学院)会议,他们举办了一场研究论文比赛,他们会给你一个赛季的巴西联赛数据,我想,“这就是我一直在寻找的机会,我可以真正向俱乐部展示我能做什么”
我拿到这些数据后,构建了一个马尔科夫链模型,关注球员当前所处局面的价值以及他们将球移动到的位置。球队在那种情况下更可能进球,还是更不可能?你可以为此赋予具体的数值,计算他们提高了进球概率的程度,或者降低了进球概率的程度。
这篇论文之所以引起人们的共鸣,是因为它在球员招募方面非常实用。我当时的思考是,如果我在俱乐部内部工作,我会想知道哪些信息来帮助我做出决策?而这些信息有时并不一定是人们常规想看到的内容。
之后,我有机会在NESIS(新英格兰体育研讨会)上展示这项研究,并与Jaeson Rosenfeld进行了交流。他最终决定给我提供一份工作。我想,这给我的故事画上了一个圆满的句号。
来到阿森纳
阿森纳一直是StatDNA的独家客户。像Hendrik Almstadt和Ivan Gazidis这样的人看到了这种技术的潜力以及它所带来的竞争优势。他们与StatDNA签订了一份英超联赛内的独家协议,并意识到我们所收集的数据类型能够带来巨大的优势。
StatDNA不仅仅是一家数据分析公司,我们还是一家数据提供商。我们收集了关于比赛事件的丰富上下文信息,而阿森纳看到了拥有这些数据的优势,同时也意识到不让竞争对手获得这些数据的重要性。他们决定通过收购公司来建立自己的数据部门,我认为这是一个非常明智的决定。
被收购之前,StatDNA有关阿森纳的工作主要集中在球员招募上,因为在比赛准备方面,有很多内容他们不希望外部服务提供商看到,我觉得这非常合理。
收购之后,我们的工作范围大大扩展了——依然有很多与球员招募相关的工作,但也涉及到赛前和赛后的比赛准备、球队表现分析,这些工作会进一步影响招募和阵容需求分析,甚至还包括一些体能和医疗方面的工作,比如尝试解决伤病预防等问题。
温格是一个非常聪明的人,所以他对StatDNA的很多工作都持批判态度,经常提出质疑。不过,我在媒体上看到一些报道说他从来不认可StatDNA,这显然不是真的。如果你看看现在和他一起在FIFA工作的团队成员,其中就有Jaeson Rosenfeld,所以显然他们两人相处得很好,也很享受彼此的合作!
在那个年代,温格几乎是阿森纳的唯一决策者。他会听取每个人的意见,然后做出自己的决定。StatDNA的数据分析占多大比重,球探的意见占多大比重,或者他个人的判断占多大比重?这些都很难说清楚。
我们与他的幕后团队和教练组合作得非常紧密,所以即使我们不在他身边,来自他周围不同利益相关者的影响也是显而易见的。我们与阿森纳的表现分析部门建立了非常好的关系——至今依然如此。这是一个很好的例子,展示了如何通过客观数据和主观分析的结合来影响教练团队的决策。
StatDNA的总部在芝加哥。我一直在西雅图,还有人在波士顿和盐湖城,所以我们的团队分布得非常分散。这确实带来了一些困难,因为与人建立面对面的关系非常重要。但另一方面,这种物理上的距离也有好处,因为足球训练基地其实是一个非常容易分心的地方。
远离训练基地的环境让我们能够专注于独立工作,进行一些深度思考。我们实际上在阿森纳训练基地附近有一栋房子,StatDNA的员工会轮流在那里住。房子里没有StatDNA的员工的时间一般不会超过一两周。
获得教练组的支持
这是一个非常重要的部分。如果你无法获得信任和认可,那你就是在一个封闭的环境中工作,跟坐在大学的象牙塔里没什么区别。
我们用来获得认可的方法之一是将一切与视频联系起来,这样我们讨论的就不是模型,而是球场上的足球。
你可以和一名工作人员,比如Steve Bould,一起坐下来观看20段视频剪辑,然后说:“这是模型在这里的分析结果,你怎么看?”他可能会说:“我不同意这个结果,你有没有考虑这些因素?”而这些因素会成为模型下一次迭代的新特征。
当你以这样的方式工作时,他会对模型产生一种参与感和归属感。这是一个非常重要的方面,而我可能在早期并没有完全意识到这一点。比如我的丈夫(Ravi Ramineni)在西雅图时,他经常坐在教练办公室里,与教练们进行这样的对话,这样就能获得更多的认可,因为教练们会觉得:“这个人真的懂足球,我们说的是同一种语言。”
此外,你还需要确保表现分析和数据分析之间的信息是一致的。你不能互相矛盾,否则教练组就会陷入困境,不知道该相信谁。你们可以有分歧,但最终必须解决这些分歧,并且在与教练组沟通之前就要达成一致。
埃梅里到来并调整数据量
(在2021年8月接受TGG采访时,埃梅里的助教Victor Manas表示,他们觉得从StatDNA获得的数据量浩如烟海“有些让人难以应付”。)
我认为这是一个合理的批评。我最近听到一个词叫“合适的数据量”——也就是为每个人找到适合他们的数据量。当我们经历教练组更换时,找到合适的数据量确实会变得非常困难。之前的团队,我们已经合作了六七年,随着时间的推移,数据量会逐渐增加——尤其是在赛前对手分析报告这种事情上。
赛季开始时,报告的内容会很少,但随着赛季的推进,教练组可能会问:“我对这个有疑问,可以把它加进去吗?”然后报告的内容就会不断增加。
你习惯了这样的节奏,所以不会觉得有问题。但埃梅里的团队在巴黎圣日耳曼有着完全不同的工作体系,因此使用的是不同的指标、不同的术语和语言。我认为我们在数据量上确实出了问题,可能需要适当减少一些内容。
你希望以一种可操作的方式呈现数据,但同时你面对的是一些对细节极其关注、对比赛有着非常细腻理解的人,你也需要将这些因素囊括进去。找到这种平衡确实非常困难。
埃梅里教练团队的另一名成员,门将教练Javi Garcia,我非常喜欢他,他想要所有的数据。所以最终还是取决于个人,他们的工作量、工作风格以及性格特点。我不认为有绝对的对错,我们只是需要更好地理解这些个体的需求,并为他们量身定制内容。
有时候,我们会发送不同的报告,分别给足球总监、教练组和表现分析团队——因为这是三个完全不同的受众群体。
尤其是在更大的俱乐部里,教练组需要互动的人数可能会激增,变得非常庞大。为了防止信息过载,如果你能减少他们的互动次数,我认为这是一个相对理想的解决方案。
球探和数据分析的平衡
我认为这些年来确实发生了很大的变化。早期,数据分析和球探部门各自为政,相互竞争。后来转变为“我们会筛选出一些目标,然后对最终名单进行尽职调查”。现在,这种模式变得更加协作和一体化,而且运行得相当不错。
StatDNA的优势在于,他们可以收集任何有比赛视频的球员的数据,然后通过球探或数据,或者理想情况下两者结合,来弥补任何信息盲点。
我不知道媒体是否足够关注这一点,但其中一个重要的变化是将像Mark Curtis和Ben Knapper这样的人转移到招募岗位上。他们都来自表现分析领域,所以他们基本上一直在与数据打交道。
Ben从StatDNA成立的第一天起就在那里工作,因此他在使用数据分析比赛方面非常精通,现在他将这些技能应用于球员招募的背景中。我认为这是在球探人员配置上的一个聪明调整。他的主要工作是负责租借球员,但我认为他也参与了招募工作,尤其是在英国范围内的招募。
Mikhail Zhilkin和有关表现的数据科学
Mikhail的职位之所以设立,是因为我们没有足够的精力来支持所有这些领域。人力表现部门表示:“我们真的需要一个专职人员,能够坐在办公室里,帮助我们解答这些问题。”比如,从某人的笔记本电脑上提取所有的GPS数据,而这些数据可能已经被他们遗忘了。
然后Mikhail Zhilkin(现在仍在阿森纳担任数据科学家)加入了团队,并真正推动了这些工作的进展。有这样一位专职人员负责这些事情,确实非常有帮助。
离开阿森纳
做出改变有很多不同的原因,但其中一个重要原因是我在阿森纳已经工作了将近10年。阿森纳的员工流动率并不高——至少在之前是这样的——所以我发现自己一直在为同一家俱乐部、同一个联赛工作,和相似的团队共事。我很喜欢和我一起工作的这些人,但你会开始问自己:“我是否在尽可能地成长?我是否需要换个环境来推动自己前进?”
离开是一个艰难的决定,同时也很难决定接下来该做什么。你不一定想去另一家俱乐部工作,因为那可能只是从零开始,在另一家俱乐部重复在阿森纳做过的事情。
女性在男性主导的体育领域的处境
(你是否因为身处男性主导的体育领域而被区别对待或质疑过?)
没有。在阿森纳工作时,你是在和最优秀的人一起共事,所以这从来不是问题。每个人都认识我、尊重我,因此并没有因为我是女性而产生任何问题。反倒是因为我是美国人!人们总会质疑:“你是美国人,你到底对足球了解多少?”
当你离开那个环境,回头看时,你会意识到:“这个领域里其实没有多少女性。”
去年,我参加了在纽约举办的首届“女性体育数据大会”。对我来说,那是一个突破性的时刻,因为很长一段时间里我都觉得“我是唯一一个(在这个领域的女性)”。但那个周六下午,我和一群对体育、数据和技术感兴趣的女性待在一个体育馆里,你会意识到,事情真的在发生改变。
在美国的其他体育项目中,其实有不少女性担任高级职位。我当时没有可以效仿的榜样,希望我能成为她们的榜样,让她们看到这是一条可行的职业道路。
我尽量花尽可能多的时间与学生交流,鼓励他们,告诉他们可以通过哪些途径进入这个行业。我参与了许多相关的活动。有一个是在疫情期间发起的,主要针对体育行业中代表性不足的人群,类似“开放办公时间”的活动。我会在日程上留出一些时间,人们可以预约与我进行30分钟的通话。
实际上,我后来在阿森纳和src ftbl之间的那段时间,雇用了一位通过这种活动认识的人。这样的活动对各方都有益。
Susana Ferreras现在在阿森纳的训练基地科尔尼工作,同时也为西班牙女子篮球队服务。我们当时在招聘Mikhail Zhilkin职位时,只有两名女性申请者。其中一位是Susana,她曾随西班牙赢得奥运会篮球银牌;另一位是从事F1赛车工作的女性,遗憾的是她最终退出了应聘。
看到女性申请者如此之少,真的让我感到震惊。Susana的表现非常出色,以至于我们决定调整岗位设置,为她创造一个职位。在幕后,我在西雅图还有一位女性软件工程师Shauna Storey。我们团队有三个人,加上现在在西雅图海湾人队工作的Tyler Cox。
哪家英超俱乐部数据分析水平最高?
根据我的经验以及我丈夫的经验,我仍然认为很少有俱乐部能真正做好数据分析工作。我丈夫在西雅图海湾人队工作了大约10年,他们的预算比我负责的要少得多,但他们赢得了两次冠军,并在五年内四次进入决赛。
当我们谈论俱乐部在数据分析方面做得好的时候,这涉及两个方面:数据科学本身,以及如何将其付诸实施。谁能够影响决策?哪些俱乐部拥有良好的决策流程?我认为这两者的结合是非常罕见的。
我们发现,当你在这方面取得成功时,维持这种成功是非常困难的。一些俱乐部可能会逐渐偏离让他们成功的做法,或者让他们成功的条件发生了变化,因此他们不得不做出不同的尝试。
我们都知道,足球俱乐部内部会有不少人骄矜自傲,每个人都认为成功是因为自己,因此权力的平衡往往会发生一些变化。市场在变化,其他俱乐部也在追赶,所以维持成功真的很难。
我认为现在有很多俱乐部刚刚起步,我觉得他们正在做一些不错且有趣的工作。在英格兰和美国之外,世界其他地方在这方面仍然落后不少,这为俱乐部提供了很多获得竞争优势的机会。
没有人真正知道幕后发生了什么,但我认为你可以通过一些方式“逆向推理”出一些签约的逻辑。当然,布莱顿和布伦特福德在这方面表现非常突出,尽管它们可能是最保密的俱乐部之一。过去几年里,他们的转会操作非常出色。
这是一个非常聪明的体系,你对数据分析的投资可以服务于两个目的。虽然会稍微偏向某一方面——用于Gamble的分析和用于球员招募的分析是完全不同的——但基础是相通的。
毫无疑问,任何涉及专有数据收集的工作在这两个领域都会非常有价值。
俱乐部数据分析和Twitter数据分析的区别
Twitter 是用来娱乐的,对很多人来说,Twitter 是一种乐趣。人们喜欢在上面争论谁更强,或者为什么这支球队表现出色,为什么那支球队突然崩盘。
但其中有些东西并不一定是可操作的,也不是俱乐部会用的方式,所以两者之间存在巨大的差距。十二年前,当我刚加入 StatDNA 时,我完全被他们已经在做的事情震惊了。
他们当时已经有一个传球价值模型,只是以不同的方式实现了它。因此,公众领域发生的事情和俱乐部内部幕后正在进行的事情之间也有很大的差距。在俱乐部内部,你全职思考这些问题,全身心投入其中,而不是仅仅在周六或晚上随便想想。
我职业生涯的早期阶段就是尝试各种方法,看看为什么它们行不通。刚开始时,我以为足球分析已经被我破解了!我当时非常确信——只要把所有数据扔进一个神经网络,工作就完成了!通过不断试错,我学到了很多东西,我认为这非常有用。
那是我的第一个模型,但它没有一个好名字!这是因为我个人营销做得太差了。我甚至不记得那篇论文的标题是什么,或者我是否给那个指标起过名字,但那名字一定又糟糕又可怕。后来 Karun Singh 提出了一个类似的概念,并将其命名为“预期威胁(Expected Threat)”,我觉得人们更倾向于接受这个名字,因为它更容易理解。你有“预期进球(Expected Goals)”,然后有“预期威胁”,这就更有逻辑性了。
他所做的实现方式和我当时的做法有很大的不同,但他在命名方面做得非常出色。你可以对别人说“预期威胁”,人们就能理解这是什么意思。
在 Twitter 上确实存在,或者曾经存在一种通过创造名声来让自己出名的文化,而其中的一部分就是为你的指标起一个吸引人的名字。也许这种趋势已经有点过头了。
你不希望整个行业充满那些没有实际意义的缩写。你希望这些东西能更多地与足球概念挂钩,但即使是这样也很困难,因为每个国家都有自己的足球语言。
我们仍然处于需要把基础打好的阶段。我仍然看到很多糟糕的东西,人们假设一个数字代表某种意义,但实际上并不是这样。我们仍然需要把基础工作做好。
追踪数据未被发掘的潜力
就一些广泛的问题领域而言,我认为很快会得到解决的肯定是无球跑动。关于队友影响的问题有很多,比如你在身后接球有多少是因为你的跑动,多少是因为队友找到你的能力。
一个仍然很难回答的重大领域是防守能力。这是一个可以通过追踪数据(追踪所有球员和球在每个时刻的空间坐标,是构建用于估算一系列足球指标的高精度模型的基础)稍微触及表面的领域,但要弄清楚为什么范戴克如此出色,这将是一个非常困难的问题。
此外,还有一个全新的问题领域,即如何更有把握地评估球员从一个联赛到另一个联赛的能力转化。我认为追踪数据在这方面会非常有帮助,比如从身体对抗的背景、球队阵型、球队动态以及你所处的防守情境等方面进行分析。
空间是其中的重要部分,决策也是重要部分。但两者都不是孤立完成的。能够弄清楚哪些是因为你自身的能力,哪些是因为情境和队友的影响,这仍然是最困难的部分。
需要更多共享和合作
我在2012年1月加入了Stat DNA。利物浦的数据部门大概也是在那个时候成立的,可能比我们早一两年。但因为这个领域非常前沿,所以我们谁也不和谁交流。我们走自己的路,利物浦走他们的路,曼城也有他们的做法,这让事情变得相当困难。
这一直是让我不太满意的地方。阿森纳非常保密,他们想把一切都保留在内部。我喜欢和人交流,尤其是和年轻人交流。我觉得这也是我目前状况的一大好处——我可以稍微更开放一些。我喜欢看到人们正在做的工作,也许还能对某些事情提供一些建设性的反馈。
你会开始想,别人是不是在做一些我们还没想到的事情?每个人都想保护自己的竞争优势,但我认为,为了整个行业的利益,分享是有好处的。
解决那些和别人一样无聊的问题;有时候会觉得,“要是有人写了一个库,我们可以用它来处理这些无聊的事情,而把时间花在有趣的事情上,那该多好。”
新的旅程
大约八个月前,我的丈夫 Ravi Ramineni 和我,以及我们的商业伙伴 Cole Grossman,一起决定成立了一家公司,名为 src ftbl。
我们是一家小型的足球数据分析咨询公司,旨在帮助那些刚刚开始数据分析旅程的俱乐部,加速他们的进步。通常来说,我们的目标客户是那些可能还没有数据分析部门的俱乐部,或者他们可能雇佣了一名数据科学家,但却不太清楚如何将其融入决策过程。我们的目标是帮助这些俱乐部起步,并最终让他们实现自给自足。
每个俱乐部都能从中看到竞争优势,因此最终将数据分析转移到内部是合理的。我们帮助他们达到这个阶段,而当他们做到这一点后,我们的想法是转向一些战略性研究问题的工作,这些问题是足球俱乐部的人非常想解决但往往没有时间去做的。
数据分析的早期阶段是将所有事情都在内部完成,然后在一个封闭的环境中开发东西。当然,当我在阿森纳时,事情是相当保密的,我们是在孤立中工作的。
现在,人们开始意识到,了解第三方对如何开展数据分析的意见以及外界还有哪些资源是非常有益的。许多俱乐部发现自己落后了,因此与第三方合作是赶上进度的一个好方法,而不是试图自己从零开始构建,因为如果你必须从头开始重新发明轮子,真的很难追赶上来。
目前没有任何一家足球俱乐部能够真正充分利用追踪数据,因此这是我们正在研究的一个重要领域,尤其是随着广播追踪数据的普及。你可以利用追踪数据来回答许多过去无法解决的关于球员招募的问题。
因此,我认为这是我们将重点关注的一个领域,同时还有球员培养。我认为这是许多俱乐部现在非常感兴趣的一个领域。对许多俱乐部来说,市场上的球员太昂贵了,所以他们来找我们,询问如何更有效、更高效地在内部培养人才。
数据分析的未来和人工智能的影响
我们已经看到了人工智能对我们的巨大影响。所有的广播追踪数据(通过深度学习方法直接从视频源中追踪球员和球在每个时刻的空间坐标)都是基于深度学习模型、目标识别以及计算这些图像的单应性(homography)构建的。所以实际上这些技术已经影响了我们好几年了,只是我们可能没有真正注意到。
就日常工作效率而言,我非常依赖 ChatGPT 来处理我不擅长或不熟悉的事情。有一些特定的方式可以让我通过它变得更高效。但我认为我们还没有到可以让 ChatGPT 完全替代人类完成所有工作的地步。
一个有趣的娱乐方式是让我用 ChatGPT 为不同的球员撰写球探报告。这些报告听起来非常真实,但实际上充满了谎言。这是我们需要小心的一点,因为它仍然会编造很多东西。
人们的工作会发生变化,某些人肯定会受到影响。ChatGPT 可以写球探报告,但我会让它取代我的球探吗?绝对不会。对大多数人来说,你的工作会被保留或有所改变,希望是朝着更好的方向发展,这样你就不需要再做那么多重复性的工作了。