虚构的事实: 数据如何欺骗球迷读者球迷。


虚构的事实: 数据如何欺骗球迷读者球迷。或多或少都会看到许多球员在社交媒体说stats don't lie之类的话,但是如果不考虑一些情景与数据的背后用意,很多时候我们都很容易被骗着,因此这篇主要来看数据统计的误用将如何导致错误假设的案例。

数据分析已经成为运动中不可或缺的一环,各大球队都靠着先进的软件与器材来计算数据,进而转变成对球队有用的信息。但是数据真的能够完整诠释一位球员的价值吗?中距离应该因为数据的计算,成为消失的艺术吗?其实一切的运用,都非常取决于情境 (Context)。

本站的特约名家- 睿啃盒子 就有强调说,任何的数据使用都要考虑情景。唯有这样才可以进一步让此数据变成有意思(Meaningful)的信息。笔者相信 「Stats don't lie, but it won't tell the full story」,也就是说「数据不骗人,但亦不能诠释全部」,说明了数据有些时候能够「骗」到一些噱头!

以下是3个关于NBA数据统计的误用如何导致错误假设的案例,是在Hoops.Data网站所获取并浓缩再翻译,希望可以给球迷一些对数据使用更深层的理解。

原作者在之前用了得分/触球率 (Point/Touch)的方式来计算NBA的前四最有效率得分球员,但只要稍微多了解得分/触球率这项统计,球迷就会发现这并不适合套用在球星身上。举例来说,LeBron James与Russell Westbrook在得分/触球率这个统计中通常都会得低分,因为他们的每次触球不限制在投篮,他们还得抢篮板、传球和其他工作。

但当有人要将这个数据用来抹黑上述两人时,就会出现「Russell Westbrook与LeBron James的每次触球都产出低效率的得分,因此为了湖人的进攻可以更有效率,他们应该把球交给Anthony Davis或Kyle Kuzma」。而最后提出的那个解决方案明显是一个谬论,不管是Kuzma、AD甚至McGee都有比LeBron更高的得分/触球率数值,那是他们在进攻端除了AD之外都是「接球就投/灌」的绿叶球员,许多时候并不需要做组织或其他工作。因此这个例子说明了明白数据背后的计算目的非常重要。

Sabonis与Jokic这两人,谁对各自的球队更有价值?Sabonis在On/Off的统计中获得了6.3分,而Jokic则是5.3分。事实是,Sabonis拥有比Jokic还好的On/Off数据;模糊视线的说法则是,Sabonis在各自球队中比Jokic还有价值。 你肯定会想「这怎么可能?!」,步行者事实上在Sabonis下场时的确表现得比金块还糟糕,但这真的是衡量一个球员价值的最好数据吗?

当Sabonis下场时,代替他上场的是新秀Goga Bitadze,一位尚未能与Sabonis相提并论的菜鸟。相反当Jokic被替换休息时,通常是Mason Plumlee上场,一位拥有相近传球素质与不差的篮下进攻能力的中锋。其实On/Off统计根本无法将两位球员的价值与其团队进行比较,反之它应该用来衡量一位球员如何影响其队友。举个例子,On/Off统计可以用来看Danilo Gallinari如何与Shai Gilgeous Alexander在场上相辅相成,而非用来比较前者与Paul George的价值。



这个例子证明了On/Off不该用来比较球员的价值,而胜利贡献值(Win/Shares)会更适用于此用途。胜利贡献值可以大约找出一位球员所贡献的胜利次数,很多时候也非常准确。Jokic在这个环节拥有8分,而Sabonis则是6.2分。

继续刚提到的胜利贡献值,没错,它能够找出价值,但也不是为球员做出实力排名的主要指标。Rudy Gobert长时间都在胜利贡献值上领先整个联盟,而Steven Adams在过去三个赛季也有出现在头20的名单中。那问题来了,这能够说明Gobert是NBA前5的球员吗?Adams在过去三年也是NBA前20的球员吗?

正确的答案是,这两位球员一直都对他们的球队有稳定贡献。对于用此数据来争辩说Adams在过去三年是NBA前20球员的人,要击破这个说法,最直接的方式就是将技能和价值联系起来。但首先你必须明白他的价值从哪来,而胜利贡献值并没有衡量这一点!



Adams的价值源自于球队的体系,这个赛季他在胜利贡献值中排在第25位 (只差位居第20名的球员0.4的微差,而且Adams还缺席了不少比赛),而替补Nerlens Noel则是位于全联盟的第52位。在加入雷霆之前,Noel整个赛季仅获得4分的胜利贡献值,而在这个尚未结束的赛季中他已经获得了4.2分。

*这可以解读为雷霆的阵容设置让到Adams和Noel两位长人能够在各自的上场时间中做出有效贡献,最终提升了球队获胜的机率。


因此读者可以看到球场位置和胜利贡献值之间的关系。此例子也说明了胜利贡献值不能测量一位球员的技能,但可以用来测算这位球员的价值。而这个价值也有可能来自于该球队的体系,又或是此球员的个人能力,但胜利贡献值无从而知,因为这些客观因素无法被量化。

以上这三个例子,只要有心人士稍微利用能够吸引注意的字眼,搭配上这些真实的数据,的确可以骗到不少球迷或读者。笔者相信运动很多时候还是主观的,所以数据最多可以用来解释一些情况,而且还视情景而定。因此下次在阅读文章,看到一些比较不熟悉的数据用词时,不妨先去了解其用意及计算目的,避免被误导相信Gobert是NBA前五的球员。