很多人谈及机器学习都会对传统统计嗤之以鼻,因为在他们眼里做统计的都是在自己的一亩三分地里翻来覆去,关上门我就是全世界!说做统计的其实在做数学一点也不过分,你看统计的四大顶刊,都是各种测度空间、矩阵代数、泰勒展开等,如果论文里面没有这些装备打造的新发现,基本上都难登大雅之堂!很多老师穷极一生也没有在四大上发过文章,即使已经把其它杂志发了个遍!毕生追求如此,所以在他们眼里,提高算法效率什么的都不屑一顾,做软件的就更加瞧不上了,在此大环境下,将统计从一门理论型的数学学科转变为应用型的统计学科,真不是短时间内可以改变的,尽管我们知道,统计学从数学学科下分离出来已经好多年了,但是现在在位置上的那些人思想上根本没有转变!

我真想把目前我遇到的统计前沿问题拿出来,其实这些问题也是现在大火的机器学习方法不能解决的,目前,统计各领域中高维参数空间存在的多模问题是热门研究方向。我想机器学习的算法成功不算什么,它成功的地方在于软件工程,搞计算机的整体上,编程的水平比学统计的好,比如 Python 软件和 tensorflow 为代表深度学习框架,而 R 软件就是一帮优秀的统计学家搞的,虽也是开源,但是没有充分利用开源的力量!除了搞统计的为自己的论文往 CRAN 上灌 R 包外,完全没有发挥出社区集聚的规模效应,自然也出不了高质量的能够达到工业应用水准的软件!有的是存在或大或小的重复车轮子,当把这些轮子聚在一起,以软件工程的质量管理,合成出来的产品其实是非常优秀的!

R 社区目前最缺的就是思想开源,行动开源!官方主页和文档万年不变,开发一直在 SVN 上,就那么二三十号人维护源码,几十年来主力一直没变,再说一遍,开源但没有充分利用开源的力量。

参考文献

  1. Roger Bivand 分析源码提交记录 https://github.com/rsbivand/eRum18
  2. 基本数据操作到两大阵营的对话 https://d.cosx.org/d/420697
  3. 分析 CRAN 上 R 包元数据,挖掘 R 社区中隐藏的信息 https://r-graphics.netlify.com/cs-cran-network.html