欢迎来到风尚网
风尚网首页 > 首页 > 阅读 > 大数据时代统计不重要了吗?

大数据时代统计不重要了吗?

作者:waanng 2016-02-19 18:12 来源:简书 编辑:美朵

文章摘要
昨天和大学同学聊起工作的事情,他在美国的一家航空信息公司工作,负责数据方面的工作,说起使用的工具也是原来是SAS,2012年后开始hadoop平台的建设工作,使用开源的R,Python等工具进行建模,但是同样是建立logistics回归模型,SAS和PythonScikit-learn等机器学习建模工作,有所不同,SAS在建立模型时会给出各个变量参数的点估计值,也会给出检验信息,包括模型BIC,AIC等统计量,但是Spark这些工具,直接给出点估计值,如果想了解参数的稳定情况,需要进行多折的交叉检验,来进

昨天和大学同学聊起工作的事情,他在美国的一家航空信息公司工作,负责数据方面的工作,说起使用的工具也是原来是SAS,2012年后开始hadoop平台的建设工作,使用开源的R,Python等工具进行建模,但是同样是建立logistics回归模型,SAS和Python Scikit-learn等机器学习建模工作,有所不同,SAS在建立模型时会给出各个变量参数的点估计值,也会给出检验信息,包括模型BIC,AIC等统计量,但是Spark这些工具,直接给出点估计值,如果想了解参数的稳定情况,需要进行多折的交叉检验,来进行估计。

原来在美国的相关业界统计也越来越被认为是过时的学问,现在的机器学习方法,提高计算量的方法,可以包打天下,不同顾虑统计学的问题。提到一个大会上wikipidia的数据科学家在进行A/B test时,在有足够显著性的时候会终止实验,理论上去偷窥一下数据结果是不合理的,因为在1000次试验中不显著的结果,也可能在中间结果时偏离中心点很多,造成假阳性的问题。提早终止实验是为了做更多试验,这种做法统计学家可能是不赞成的,但是在业界却并不以为意。最终做出来的效果也差强人意。

也许在这个时代,计算能力的提高可以显著提高模型的预测精度,但是在提高一个极限的时候,还是需要统计学家来给出相应的解决方法,对于未知的预测不只是需要一个点估计,还需要对整个分布有所了解,从贝叶斯的角度上讲,所有的预测参数都是不确定的,只是分布各有不同,而且在未来做决策的时候也需要这个分布来做优化策略的工作。

关于这个主题可能会不断争论下去,这需要更多现实证据来提供更好的信息判断这两种思路的差异和优劣。

在CFD计算流体领域,也有高精度计算方法和加密网格的不同方法,加密网格就像现在的大数据方法,提高计算量,增加数据,可以改善结果,但到了一个极限这种效应就不明显了,到头来还需要理论的总结和提高,对于机器学习理论方面更深入和前沿的突破。

小主,按键盘右方向键 → 翻页可以跳过片头呢

  

上一篇:知行合一

  

下一篇:《中国惊奇先生》——追了一年半的国产动画

  

本文标题:大数据时代统计不重要了吗?

原文链接:http://i.she.vc/28016.html

和本文相似的内容:

    点击排行