一、前言
众所周知,在足球俱乐部里,除了传统意义上以取得成绩为目标的各路豪强,还有一些球队以“黑店”著称,他们是一些郁郁不得志想证明自己能力踢出身价的球员的舞台,也是一些豪门的“淘金市场”,而这些“黑店”球队的老板往往就通过买入默默无闻的球员助其打出身价然后高价出售给豪门的这个过程赚取大笔的“加工费”,抑或是说“中间商差价”。这些“黑店”球队由于其不致力于留住好球员而致力于卖出好价钱的运营思路,往往不存在于竞争激烈的五大联赛之中,然而布莱顿这家“黑店”却能在几乎公认竞争最激烈的英超中站稳了脚跟。有意思的是,布莱顿的买人逻辑几乎完全摒弃了传统的球探主观判断,将绝大部分的评价工作交给了他们强大的数据分析系统,因此,作为一个目前在读数据分析专业的研究生切尔西球迷,我想我是否也能建立一套简易的评价系统,来评价我车球员的表现,以一个赛季为单位,囊括所有比赛:即包括英超、欧战、杯赛等等。
二、数据模型的建立
那么该如何评价球员单场的表现呢,我想到了最直接的评分系统,于是我选择了目前市面上认可度较高的评分系统Sofascore,它的评分完全根据球员在场上做出的每一次传球、拦截等进行评定,不具有主观色彩,因此我认为是目前最优的选择。那么有些使用Sofascore的用户可能就会问,那既然你已经使用Sofascore的评分了,还需要你建立什么模型呢,直接在上面查阅当赛季的平均评分不就行了?是的,Sofascore平台上有球员如24-25赛季英超平均评分、24-25赛季欧协联平均评分(如图所示),但并不具备球员所有比赛(英超、欧战、杯赛等等)综合的平均评分。
另外,我认为单纯的对球员每一场的评分求平均数是不准确的,因为对手有强弱之分,有些球员可能在对阵弱队的时候“天神下凡”拿下很高的分数,从而掩盖了他面对强队时“隐身”的不佳表现。
因此,我通过爬取著名博*网站be**65的数据,运用python的sklearn机器学习,得出了与每场比赛赔率相关的“预期胜率”,并且根据预期胜率通过基于赔率的指数加权模型e^{(1 - 预期胜率)}算出“难度系数”,最后根据“难度系数”对球员每一场获得的评分进行加权。
什么是基于赔率的指数加权模型?为什么选择这个模型?
模型思路:我在构建模型时,希望得到的模型是对于难度较大的比赛(即面对强队时)分配更多的权重。而本基于赔率的的指数加权模型能够放大低概率事件(即面对强队时的低预期胜率),使得难度系数在低概率时急剧增加,从而使对强队的比赛权重更高。
公式: 难度系数=e^{(1 - 预期胜率)}
例如:
本赛季首场对阵曼城的比赛,当预期胜率p较低(如 28% 时),1−p=0.72,导致难度系数指数增加,使得权重更大。
本赛季对阵西汉姆联的比赛,当预期胜率p较高(如 51% 时),1−p=0.49,难度系数相对较小,从而减少面对弱队的权重。
适应性:目前近20场比赛下来,我认为该模型对于面对强敌(低预期胜率)的比赛放大效果在可以接受的范围内是比较显著的,如此一来,一个简易的看重强强对话、囊括所有比赛的球员分析模型就有眉目了。
具体计算示例:
在2024年11月11日对阵阿森纳的比赛中,当场比赛切尔西获胜的赔率为2.88,放入机器学习的模型中得到该赔率认为切尔西在本场比赛中获胜的预期胜率为35%;再代入上述基于赔率的指数加权模型难度系数=e^{(1 - 预期胜率)},e^(1-0.35),约等于1.92,即本场比赛难度系数为1.92。切尔西本场的最佳球员内托这场比赛在Sofascore上获得了7.7的评分,7.7 x 1.92 = 14.784,则14.784为内托在本场比赛中获取的最终评分。
以此类推,最后加总每个球员所踢的每场比赛加权后的评分除以出战场次,即可得到一个加权后的球员赛季平均得分。
三、 模型结果展示
下面我会给出本赛季切尔西球员(每一个上过场球员、每一场比赛都记录在内)的评分排名,大家可以来看看与自己心目中对该球员的印象是否有出入,是低了还是高了。
1. 里斯-詹姆斯(C) 出战3场 场均评分13.0
2. 科尔-帕尔默 出战13场 场均评分12.6
3. 罗伯特-桑切斯 出战11场 场均评分12.3
4. 尼古拉-杰克逊 出战12场 场均评分12.2
5. 莫伊塞斯-凯塞多 出战13场 场均评分12.1
6. 拉维亚 出战7场 场均评分12.1
7. 桑乔 出战5场 场均评分12.1
8. 科尔维尔 出战11场 场均评分11.8
9. 马杜埃凯 出战12场 场均评分11.7
10. 韦斯利-福法纳 出战10场 场均评分11.6
11. 库库雷利亚 出战12场 场均评分11.5
12. 恩佐-费尔南德斯 出战15场 场均评分11.4
13. 佩德罗-内托 出战15场 场均评分11.1
14. 恩昆库 出战17场 场均评分11.0
15. 古斯托 出战11场 场均评分10.9
16. 雷纳托-韦加 出战12场 场均评分10.7
17. 阿达拉比奥尤 出战9场 场均评分10.7
18. 菲利克斯 出战10场 场均评分10.5
19. 穆德里克 出战14场 场均评分10.4
20. 巴迪亚西勒 出战8场 场均评分10.2
21. 迪尤斯伯里-霍尔 出战10场 场均评分10.0
22. 迪萨西 出战9场 场均评分9.8
23. 菲利普-约恩森 出战7场 场均评分9.5
24. 吉乌 出战5场 场均评分9.4
25. Tyrique George(U21) 出战3场 场均评分8.5
26. 丘库埃梅卡 出战3场 场均评分8.2
27. 切萨雷-卡萨代伊 出战3场 场均评分7.5
28. Sam Rak-Sakyi(U21) 出战1场 场均评分6.6
四、写在最后
不知道与各位平时看比赛看下来的观感是否有出入呢,欢迎大家在评论区进行友好的交流和讨论。这个赛季切尔西的不管大小比赛我几乎一场不落的看了,总体上这个排名结果跟我的观感其实差距是不大的,如果大家觉得谁高了或者谁低了都可以指出探讨(样本少的比如队长詹姆斯、桑乔出现偏差是正常的,踢多几场就好了,大家主要关注样本量大的);当然,如果有人对我的模型有疑问或者有改进的建议也非常欢迎提出。
感谢大家的观看,如果有幸能得到各位懂哥的一点认可本人就很高兴了,我也会更有动力做下去,我的目标是帮助大家拓宽一些球迷有限的视角,不止是印象流评估球员和看比赛。
最后切尔西加油!这赛季希望能争4吧!
一、前言
众所周知,在足球俱乐部里,除了传统意义上以取得成绩为目标的各路豪强,还有一些球队以“黑店”著称,他们是一些郁郁不得志想证明自己能力踢出身价的球员的舞台,也是一些豪门的“淘金市场”,而这些“黑店”球队的老板往往就通过买入默默无闻的球员助其打出身价然后高价出售给豪门的这个过程赚取大笔的“加工费”,抑或是说“中间商差价”。这些“黑店”球队由于其不致力于留住好球员而致力于卖出好价钱的运营思路,往往不存在于竞争激烈的五大联赛之中,然而布莱顿这家“黑店”却能在几乎公认竞争最激烈的英超中站稳了脚跟。有意思的是,布莱顿的买人逻辑几乎完全摒弃了传统的球探主观判断,将绝大部分的评价工作交给了他们强大的数据分析系统,因此,作为一个目前在读数据分析专业的研究生切尔西球迷,我想我是否也能建立一套简易的评价系统,来评价我车球员的表现,以一个赛季为单位,囊括所有比赛:即包括英超、欧战、杯赛等等。
二、数据模型的建立
那么该如何评价球员单场的表现呢,我想到了最直接的评分系统,于是我选择了目前市面上认可度较高的评分系统Sofascore,它的评分完全根据球员在场上做出的每一次传球、拦截等进行评定,不具有主观色彩,因此我认为是目前最优的选择。那么有些使用Sofascore的用户可能就会问,那既然你已经使用Sofascore的评分了,还需要你建立什么模型呢,直接在上面查阅当赛季的平均评分不就行了?是的,Sofascore平台上有球员如24-25赛季英超平均评分、24-25赛季欧协联平均评分(如图所示),但并不具备球员所有比赛(英超、欧战、杯赛等等)综合的平均评分。
另外,我认为单纯的对球员每一场的评分求平均数是不准确的,因为对手有强弱之分,有些球员可能在对阵弱队的时候“天神下凡”拿下很高的分数,从而掩盖了他面对强队时“隐身”的不佳表现。
因此,我通过爬取著名博*网站be**65的数据,运用python的sklearn机器学习,得出了与每场比赛赔率相关的“预期胜率”,并且根据预期胜率通过基于赔率的指数加权模型e^{(1 - 预期胜率)}算出“难度系数”,最后根据“难度系数”对球员每一场获得的评分进行加权。
什么是基于赔率的指数加权模型?为什么选择这个模型?
模型思路:我在构建模型时,希望得到的模型是对于难度较大的比赛(即面对强队时)分配更多的权重。而本基于赔率的的指数加权模型能够放大低概率事件(即面对强队时的低预期胜率),使得难度系数在低概率时急剧增加,从而使对强队的比赛权重更高。
公式: 难度系数=e^{(1 - 预期胜率)}
例如:
本赛季首场对阵曼城的比赛,当预期胜率p较低(如 28% 时),1−p=0.72,导致难度系数指数增加,使得权重更大。
本赛季对阵西汉姆联的比赛,当预期胜率p较高(如 51% 时),1−p=0.49,难度系数相对较小,从而减少面对弱队的权重。
适应性:目前近20场比赛下来,我认为该模型对于面对强敌(低预期胜率)的比赛放大效果在可以接受的范围内是比较显著的,如此一来,一个简易的看重强强对话、囊括所有比赛的球员分析模型就有眉目了。
具体计算示例:
在2024年11月11日对阵阿森纳的比赛中,当场比赛切尔西获胜的赔率为2.88,放入机器学习的模型中得到该赔率认为切尔西在本场比赛中获胜的预期胜率为35%;再代入上述基于赔率的指数加权模型难度系数=e^{(1 - 预期胜率)},e^(1-0.35),约等于1.92,即本场比赛难度系数为1.92。切尔西本场的最佳球员内托这场比赛在Sofascore上获得了7.7的评分,7.7 x 1.92 = 14.784,则14.784为内托在本场比赛中获取的最终评分。
以此类推,最后加总每个球员所踢的每场比赛加权后的评分除以出战场次,即可得到一个加权后的球员赛季平均得分。
三、 模型结果展示
下面我会给出本赛季切尔西球员(每一个上过场球员、每一场比赛都记录在内)的评分排名,大家可以来看看与自己心目中对该球员的印象是否有出入,是低了还是高了。
1. 里斯-詹姆斯(C) 出战3场 场均评分13.0
2. 科尔-帕尔默 出战13场 场均评分12.6
3. 罗伯特-桑切斯 出战11场 场均评分12.3
4. 尼古拉-杰克逊 出战12场 场均评分12.2
5. 莫伊塞斯-凯塞多 出战13场 场均评分12.1
6. 拉维亚 出战7场 场均评分12.1
7. 桑乔 出战5场 场均评分12.1
8. 科尔维尔 出战11场 场均评分11.8
9. 马杜埃凯 出战12场 场均评分11.7
10. 韦斯利-福法纳 出战10场 场均评分11.6
11. 库库雷利亚 出战12场 场均评分11.5
12. 恩佐-费尔南德斯 出战15场 场均评分11.4
13. 佩德罗-内托 出战15场 场均评分11.1
14. 恩昆库 出战17场 场均评分11.0
15. 古斯托 出战11场 场均评分10.9
16. 雷纳托-韦加 出战12场 场均评分10.7
17. 阿达拉比奥尤 出战9场 场均评分10.7
18. 菲利克斯 出战10场 场均评分10.5
19. 穆德里克 出战14场 场均评分10.4
20. 巴迪亚西勒 出战8场 场均评分10.2
21. 迪尤斯伯里-霍尔 出战10场 场均评分10.0
22. 迪萨西 出战9场 场均评分9.8
23. 菲利普-约恩森 出战7场 场均评分9.5
24. 吉乌 出战5场 场均评分9.4
25. Tyrique George(U21) 出战3场 场均评分8.5
26. 丘库埃梅卡 出战3场 场均评分8.2
27. 切萨雷-卡萨代伊 出战3场 场均评分7.5
28. Sam Rak-Sakyi(U21) 出战1场 场均评分6.6
四、写在最后
不知道与各位平时看比赛看下来的观感是否有出入呢,欢迎大家在评论区进行友好的交流和讨论。这个赛季切尔西的不管大小比赛我几乎一场不落的看了,总体上这个排名结果跟我的观感其实差距是不大的,如果大家觉得谁高了或者谁低了都可以指出探讨(样本少的比如队长詹姆斯、桑乔出现偏差是正常的,踢多几场就好了,大家主要关注样本量大的);当然,如果有人对我的模型有疑问或者有改进的建议也非常欢迎提出。
感谢大家的观看,如果有幸能得到各位懂哥的一点认可本人就很高兴了,我也会更有动力做下去,我的目标是帮助大家拓宽一些球迷有限的视角,不止是印象流评估球员和看比赛。
最后切尔西加油!这赛季希望能争4吧!