从1月23日武汉开始封城以来,已经历时半个多月。目前,沿海各大城市返工也基本结束,但疫情的控制情况似乎与预期仍有一些差距,并没有完全受到遏制,每日确诊病例和疑似病例仍在大幅增加,新增的势头也是一波三折,没有实现持续的下降。
民众受经济停滞的影响,也越来越产生焦虑的心态。在这种焦虑的心态的作用下,一些无中生有看似合理的质疑也就慢慢浮现在人们的视野之中。近期,就有一些略知统计学基本原理的人运用excel整理了一下从封城之后的每日统计新型冠状病毒感染者死亡数据,然后得出结论:每日的死亡人数非常准地吻合一个多项式公式,这几乎不太可能是一个自然现象。于是阴谋论又来了:官方是用一个不至于造成人们心理恐慌的公式,每天算出应该公布的死亡人数进行公布。
我来给大家演示一下这个分析:
首先在excel或wps里面输入从23号以来的每天公布的新型冠状病毒感染者死亡人数。
然后依次编上序号。
选中某一个时间段的序号和死亡人数,选择插入散点图(X,Y),在“图表元素”中勾中“趋势图”并再勾中“多项式”“显示公式”“显示R平方值”,就可以得出一个拟合的曲线多项式和R平方值。R平方值代表这些统计的散点和拟合的曲线吻合度有多高,这个数值越大越好,但不能超过1。
比如如果我们把1月24日到2月5日的数据进行拟合,得出的R平方值为0.9998。
再用这个公式去推算2月6日和2月7日的死亡人数,你还会惊奇地发现,和实际的数据误差不超过4人!
由于大多数人在生活中也不会用到统计学,因此即使是高中学过统计学的基础,基本上毕业以后大家也都还给老师了。一看到有人居然能用公式来预测每天的死亡人数,也就将信将疑地认可了这种说法。
那么,事实上官方公布的死亡数字真的是用公式计算造假的吗?
其实,用统计学质疑官方数据造假早就不是什么新鲜的事了。在微博上搜索“淘宝双11骗局”你也能找到一位名叫“尹立庆”的博主通过同样的方式分析历年天猫双十一的销售额数据,得出一个公式,和现实数据拟合度高达99.94%,也引起了众多网友质疑淘宝数据造假的热点。
在解释这个问题时,我们先要理解一个现象:多项式函数的拟合度接近1是小概率事件吗?
在数学上,关于拟合度的定义:
R的平方值= SSR / SST = 1 - SSE / SST
SSR叫归平方和(Sum of Squares for Regression),它的定义是每一点的拟合值与平均值的差值的平方和;SSE叫残差平方和(Sum of Squares for Error),它的定义是每一点的真实值与拟合值的差值的平方和;SST叫总离差平方和(Sum of Squares for Total),它的定义是每一点的真实值与平均值的差值的平方和,同时SST=SSE + SSR。如果一组数据有n个点,那么我们就有n个真实值和n个拟合值,而平均值总是只有一个。所以只要这组数据不是太畸形,那么在每一个点上,真实值跟拟合值的差别都可以做到比较小。这些差别的平方和就是残差平方和SSE,显然它比总离差平方和SST小得多,因此 1 - SSE / SST自然也就非常接近于1,不接近才不正常。
其次,一个病毒疫情死亡人数符合一个多项式函数属于非自然现象吗?
这个问题能够成为一个让大家感到意外的问题,只能说是我们大多数人的数学水平连高中数学教育水平都不如造成的结果,事实上生活中太多的现象可以用数学来“预测”了。如果读者更有兴趣,也可以去找来中国、美国的GDP历年数据,通过同样的方式来进行拟合,你也会发现原来不仅社会主义的国家经济数据可能“造假”,资本主义国家的经济数据也是可以“神预测”的。