2019-12-26
大约10天前,我发布了一篇用高阶数据“真实射门得分率”量化前锋的文章:《三张高阶数据图告诉你:本赛季三大联赛,谁的射门有质又有量》,可能是因为作图的缘故,有幸得到大家捧场。今天,我们用相似但不完全相同的方法,来量化一下英、西、意、德4大联赛的门将,看看哪个门将遭遇对手射正的考验最多,哪个门将在化解险情方面做得最好。
超长引言:什么是XCG?什么是“限制对手射门得分率”?
其实,类似概念本赛季初,我就已经在直播吧做过普及(详见高阶数据报告:如何量化门将能力?纳瓦斯比库尔图瓦强在哪?)只不过当时一来没有本赛季的数据作为近期样本,二来并没有采取散点图的作图方式,把每个联赛的所有门将放在一张图里,实现数据可视化阅读,因此只能就事论事的讨论几个名气较大的门将。我们知道,球员在场上的表现必然存在起伏,数据层面的体现也必然随之变化,时隔三个月后再来专门看看本赛季的门将表现,并且再度系统的和大家聊聊队门将的量化,实际上很有必要。事实上,如此量化并且以散点图呈现出来,应当定期去做,这样才能清晰把握各个门将的发展态势。
首先,本量化方式采用的核心数据,是“预期失球数”(Expected Conceded Goal,简称XCG)。这是一个和“预期进球数”有点类似但又存在很大不同的追踪数据。它的考量对象不是每一脚射门,而是每一脚“射正”。换言之,一脚看起来质量极高、命中门柱的射门,其XCG是0;而一脚绵软无力,被门将轻松化解的射门,其XCG则肯定超过0——这一数据的价值观在于:所有门将的所有扑救,针对的都是射正的球门。事实上基础的数据统计也是如此,“save”这个概念,记录的都是“扑出对方命中目标的射门”。
一旦一脚射门射正,那么数据公司就会根据多角度录像,结合多个因素,比如射门速度、角度、距离、射门方式等,参考过去几年几十万次命中目标的射门的结果,用大数据计算出这次射门的进球概率,这就是XCG。注意:XCG与XG(即预期进球数)最大的不同在于,前者量化的是“射门后”;而后者量化的是“射门前”。也就是说,前者是对一脚射门射门质量的量化;后者则是量化射门的难度。这里我举个。先看下面两张图:
如果我问你,上面两脚射门,哪一个更难?那恐怕是个人都会说萨拉赫的远射要难得多。但这么说的前提是,我们问题的全部内容是“对射门球员而言,哪一脚射门更难”,也就是说,如果我们在这个语境下量化射门难度,我们所量化的,实际上是“射门前”的进球概率。XG在这方面给出了符合常规认知的结论:斯特林的近距离推射,XG为0.25,即进球概率25%;而萨拉赫的远射,xg仅0.04,即进球概率4%。
然而,如果我们换个角度,站在门将的立场上,结论就完全不一样:不考虑选位因素的话,斯特林的射门显然太正,且球速并不快;萨拉赫的远射则是公认的“世界波”。于是,如果我们问“对门将而言,应对哪一脚射门更难”,那量化结果也必然会完全不同。XCG给出的结论是:斯特林的近距离推射,XCG是0.48;而萨拉赫的远射,XCG却高达0.59。换言之,一个门将扑出萨拉赫的射门,比化解斯特林的推射,更值得褒奖。这也是wyscout网站把XCG作为“门将数据”而非“前锋数据”的原因。
讲白了,XCG的目的是告诉你:门将所面对的每次命中目标的射门,其扑救难度有多大。XCG越高,扑救难度越大。
那么,有了XCG这个数据,我们该如何用它得出更进一步的结论?这里我“发明”了一个叫做“限制对手射门得分率”的概念,其核心目的是,计算“门将每次面对对手射正时,能够多大限度的降低对手的进球概率”。算法为:“限制对手射门得分率=(XCG-实际失球数)/对手射正数*100%”。显然,扑救难度越大,XCG越高,在这个算法中就越有优势。那些“神扑”,在这里的意义非常之大。
之所以“发明”一词带引号,是因为这个概念虽然确实是我自己提出的,但思路其实并不复杂,有可能国外甚至国内也有其他人也做过,我也欢迎大家去用这个算法分析更多联赛的数据。事实上已经有媒体用这个算法分析过中超门将了,当然,他们在用的时候,也确实注明了是我提出的。
以“限制对手射门得分率”为质的维度后,接下来就是“量”的衡量。这里我用的是“每90分钟对手射正次数”。当然,你用“每90分钟扑救数”也可以,只是我更倾向于考量一个门将“遭受考验”的次数而非“尝试化解考验”的次数而已。每一个高阶数据都代表着数据创立者的价值观,欢迎大家提出更多算法,让还在起步阶段的足球数据应用,变得更好。
另外需要指出的是:这个算法的目标并不是量化“谁是更好的门将”,而只针对扑救水平。诸如“出击”、“选位”甚至“辅助传控”之类的环节,并不在这个算法的考量范畴之内。并且算法中也有一些没法解决的问题(文中会给出具体案例)。但数据从来都不是一个“可以说明一切问题”的绝对标准,它只是“具有重大意义”的工具。譬如螺丝刀永远不能用来代替钳子,但有了螺丝刀,你可以配合钳子,做出更好的产品。数据与录像从来都不冲突,它是对录像的补充。所谓“不用数据,看球的都知道”,更多是抬杠,而非求知。
一 英超
横轴为“限制对手射门得分率”,纵轴为“对手每90分钟射正次数”,圆点越大,出场时间越长。这里我把纵轴做成了“量”,把横轴做成了“质”,是因为“量”的维度数据离散性相对更强,做成这种形状更有利于手机阅读。
此处一个令人有些遗憾的是:英超到目前为止最能兼顾“质”和“量”的门将——洛里——已经重伤。此人受伤前在队内的意义,可能丝毫不亚于孙兴慜。其实洛里长期以来都多少有点被低估,上赛季他的“限制对手射门得分率”是比这赛季还要更高的7.98%,是排在阿利松之后的英超第二门神,只不过每90分钟仅被对手射正3.86次,比起这赛季而言,经受的考验要少得多。而洛里这赛季被射正次数突然攀升,很大程度上也是拜热刺开局阶段难以解释的低迷防守所赐,球队动不动在中场一通逼抢失败后,没几个人回追补防,导致对手在极具威胁的地带形成射门。这也给足了洛里表演机会。比如下图,xcg高达0.61:
另外,英超今年出现了一个比较特殊的现象:横轴最顶端的两大门神——小舒梅切尔和西班牙鬼才瓜伊塔,看起来都打出了极为恐怖的“限制对手射门得分率”,但这其中却有一定的运气成分,尤其是瓜伊塔,超过10%的惊人数据下,有一些“扑救”其实是非常偶然的。我们来看下面两个图:
两次射门的XCG都是高的吓人的0.80——要知道射正的点球也才0.81,而且,舒梅切尔和瓜伊塔也确实没让对手攻破城池,但问题是,这两次射门并不是他们扑出来的,而是队友在门线上给挡出来的。这就是XCG在统计时存在的问题,它并不考虑“扑救”这个动作是否完整发生,只是考虑射门到底有没有命中目标。当然,如果样本足够大,这个缺点其实是可以忽略不计的,但问题是,我们很难讲现在的样本是否够大,尤其是在将一些出场时间较少的门将纳入考量范畴之后。
当然,这并不是说,舒梅切尔和瓜伊塔能够打出这样的数据,就是全凭运气。他们本赛季也确实有过非常精彩的扑救,下面两次射正,XCG分别为0.67和0.70。能化解这样的射门,所取得的加成是非常可观的:
最后值得注意的是:一些名气极大的门将,本赛季几乎各种滑铁卢。这其中阿利松出场时间太少,未来回调空间还很大。但德赫亚、艾德森和凯帕就比较尴尬了。比如德赫亚,此人自18年世界杯开始突然之间从神界坠落人间,下来就一直很不稳定。下面两球,XCG分别只有0.18和0.36,漏掉这两球对德赫亚的负面影响非常大。他曾经赖以成名的惊人反应速度如今有所退步,而扑远射似乎也没怎么进步。
另一个值得关注的人是凯帕,以今年这个情况来看,切尔西创纪录的转会费至少目前是绝难值回票价了,说凯帕是英超最差门将都不为过。不过这里面一样有一定的运气因素——折射。来看下面两球:
这两次射门其实都有变线,这对门将来说是极大考验。然而这两脚射门的XCG却分别只有0.04和0.08。我知道这很不公平,但问题是:目前没有任何数学建模可以准确反映这种折射变线的影响,你甚至说不清楚,射门后皮球在飞行过程中碰到防守球员,对门将到底有利还是不利——它确实让门将刚开始对球路的判断落空,确实让门将猝不及防;但问题是,折射也会减慢皮球的飞行速度,也有可能让一脚本来冲着死角去的射门,变成一个奔着门将去的抛物线。这就是当前已XCG为核心的一切算法都没法回避的问题。同样,足够大的样本会无限淡化这种运气成分的影响,但当样本没那么大时,这个运气因素,依然无法忽略。
2 西甲:
横轴为“限制对手射门得分率”,纵轴为“对手每90分钟射正次数”,圆点越大,出场时间越长。
本赛季西甲基本上印证了那句话:弱队出门将。处于右上角最“光辉”区域的费尔南德斯与雷纳,分别效力于莱万特和马洛卡,两队分别是对手预期进球数(XG)西甲前两名的球队。尤其莱万特防守如同纸糊,如今能排在西甲第9,费尔南德斯可谓居功至伟。
而这俩队本赛季的一大特色在于,经常放给对手一大堆射门。这也是我一直主张不要用什么狗屁“零封”数据来衡量门将的原因之一:像雷纳和费尔南德斯这样的门将,一场比赛动不动要被对手疯狂射正十几次,所遭受的考验比豪门门将两三场的都多,以“零封”作为标准,本身就是对他们工作量上巨大区别的无视。费尔南德斯本赛季已经被5支球队射正超过10次,而雷纳,则在代表马洛卡对阵巴萨时,被对手疯狂射正20次……指望他们“零封”对手,实在有些强人所难。反过来说,一旦引入XCG进行计算,那么即便丢球,我们也能够最大限度的认可门将的扑救水平。
比如下图:其实是皇家马德里在一个回合内两次射门(中间的一脚算做了传球),第一次被扑出,第二次进球。这次费尔南德斯丢球了吗?当然丢球了。但谁能说他表现不好?维尼修斯两次射门,XCG分别高达0.68和0.66;费尔南德斯的“限制对手射门得分率”,在这回合中取得了巨大加成:
另外值得注意的是三大豪门的门将:我只能说,在今年不大的样本下,西甲门将真的彻底变天了……库尔图瓦一扫多少个赛季以来以及本赛季初的颓势(你没看错,此人哪怕在切尔西时表现也不好,在马竞时期太过久远,数据没法查了),打出了近年来的最佳表现。而特尔施特根与上赛季排名欧洲前2的门神奥布拉克,本赛季却有些凉。这其中,皇家马德里与马竞整体防守较好,门将经受的考验并不多;特尔施特根被射正的次数则相对多些。
具体而言,三人的情况又各不相同。
库尔图瓦方面,其实是很值得皇家马德里球迷期待的,因为其限制射门对手得分率,是在本赛季初过后取得进步,最终出现了一个相对稳定的上升趋势:
库尔图瓦最大的进步在于,他在面对对手反击时,表现的非常不错。结合皇家马德里后防线站位经常比较靠前这一情况,库尔图瓦的这种表现,算得上是对球队的补充。下面两次射门,XCG分别为0.60和0.70,库尔图瓦能扑出来,无论对个人数据还是团队成绩,都是相当大的正面加成:
奥布拉克方面,本赛季确实在小样本下存在一定程度的退步,尤其是一些中等难度的球,被奥布拉克很不应该地放掉了。比如下面这球,XCG只有0.37,以奥布拉克的水准,是不大应该放掉的:
当然,奥布拉克作为西甲被射正频率第二低的门将,扑救样本仍旧有些小。随着样本增大,不排除他后续回调的可能。
最后是特尔施特根,此人同样也有些“点背”:他很多丢球,其实是视线受阻了。比如下面两球,xcg分别只有0.04和0.15,被打进球门对特尔施特根而言极为不利。从后续反应来看,特尔施特根应该是没有能够在第一时间看到皮球飞行轨迹的。
这就又涉及到XCG的另一个问题了:我们都知道视线被阻挡,对门将而言是极为不利的。但是,本方后卫在阻挡门将视线的同时,也封堵了对手的射门角度。而封堵角度,在摄像机上是很容易清晰看出并予以量化的;但视线是否被阻挡,阻挡了多少?又该怎么判断?现有技术条件下,这一点其实是根本没法深入考量的。特尔施特根也就是吃了这个亏。至于如何避免这种情况,还是那句话,任何高阶数据所最为需要的,都是足够大的样本。
3 意甲:
意甲最大的看点颇有些令人唏嘘:尤文图斯,就这样实现了门将的薪火相传——什琴斯尼是意甲最能够兼顾“质”与“量”的门将之一,而布冯,则可能是最差的……
实际上什琴斯尼这两年或多或少有些生活在布冯盛名的阴影之下,他与洛里相仿,都在上赛季打出了比本赛季还要好的水准,但本赛季由于球队整体防守下滑,导致表现机会增加。上赛季什琴斯尼打出了7.39%的超高“限制对手射门得分率”,只不过每90分钟被对手射正的次数只有2.92次;本赛季这一数据飙升到5.08次——光从这看,很多尤文图斯球迷不满萨里,也确实是有原因的……
至于布冯,本赛季的表现真的是不能不令人感慨:即便是门将这个特殊位置,人也终究斗不过岁月。下图这脚射门,XCG只有0.17,布冯眼看已经扑住,却还是让皮球滚入网窝,这在他年轻——我说的年轻,可能是38岁以前——是不可想象的。
另外,令米兰球迷感情复杂的唐纳鲁马,本赛季的表现其实是不太合格的。当然,米兰的问题绝不仅仅是唐纳鲁马,他甚至根本不是米兰排名靠前的问题。这同样是一个令人唏嘘的是:曾几何时拥趸无数的豪门,如今千疮百孔。此时再去纠结一个唐纳鲁马,其实已经意义不大了。
4 德甲:
德甲最受关注的球队当然是拜仁,恰好,门将位置也刚好是拜仁最近的一个很有趣的看点——照现在的态势发展,我真心觉得,几年前的剧情又会再次上演。拜仁会从沙尔克04撸来一个相当优秀的门将,只不过这次顶替的,是上一次从沙尔克04撸来的门将……
是的,诺伊尔本赛季出场时间不短,扑救表现却不甚理想,“限制对手射门得分率”是尴尬的-3.76%;与此相对的是,努贝尔却打出了体面的2.26%的“限制对手射门得分率”。下面这脚射门,XCG只有0.06,诺伊尔漏掉这种射门,相对其盛名而言实在有些不应该:
当然,我承认诺伊尔在传控和覆盖面积上,仍旧是门将中的佼佼者。但问题是,如果最核心的本职工作做不好,是不是传控领域的加成,还那么重要?要知道,不是每个教练都像瓜迪奥拉一样如此看中传控,以本赛季展现出的扑救水准,诺伊尔是没法说自己一定能在任何情况下都坐稳主力的。相对而言,努贝尔这赛季的表现则显得“朝气十足”。下图两次射门,第一次扑救难度倒是不大,但紧接着对手第二次射正,XCG高达0.74,努贝尔的反应速度与身体素质,在连续的第二次扑救中,展现的淋漓尽致:
其实,任何足球场上的位置都没有绝对稳固一说,逆水行舟不进则退是最为常见的现象。诺伊尔如果真被努贝尔代替,也大可不必觉得意外。
有一个事实可能会出乎大家意料:门将位置看似稳定,只是因为过去的“失球”、“零封”数据欺骗性太强(再次呼吁把所谓的“零封”数据彻底废弃掉,最多当做噱头),豪门门将动不动一整场不出汗,失球数当然少。以这种数据衡量,做到“看起来状态稳定”并不难;而屡屡建下奇功的弱队门将,则多有“哇这人开挂了”然后就被遗忘的经历。我们引入XCG来量化门将扑救水准,其用意也是颠覆这种欺骗性极强的传统评价体系。而如果你把一个门将近几个赛季的“限制对手射门得分率”给罗列出来,就会发现门将想维持稳定发挥有多难——这比前锋维系射门准星、中场维持传球成功率,难度大得多。
遗憾的是,XCG这项数据诞生的时间就不长,Wyscout更是只保留最近4个赛季的数据,诸如卡西利亚斯、布冯这些门将的限制对手射门得分率,我们已经无从查起。但足球数据的应用,本身就更多的是要着眼于未来。引入一个全新的分析工具,最大的意义在于修正过去的方法论,而不是验证过去的某个具体观点。